Arhn - архитектура программирования

Как проверить, пуст ли dask dataframe

Есть ли даск-эквивалент функции pandas empty? Я хочу проверить, пуст ли фрейм данных dask, но df.empty возвращает AttributeError: 'DataFrame' object has no attribute 'empty'

07.05.2018

  • Я так не думаю, но вы можете запросить len(df) == 0? 07.05.2018
  • это, кажется, работает, спасибо! 07.05.2018
  • Добавление метода empty было бы простым дополнением к проекту, если кто-то хочет внести свой запрос на извлечение. 07.05.2018

Ответы:


1

В настоящее время Dask не поддерживает это, но вы можете вычислить длину на лету:

len(df) == 0

len(df.index) == 0 # Likely to be faster 
07.05.2018
  • Вероятно, len(df.index)==0 должно быть быстрее 16.04.2019
  • @JosephBerry, это верно для панд, так что я предполагаю, что вы правы. Немного протестирую. 16.04.2019
  • Какова временная сложность этой операции? О(1)? Распределенный O (1)? Или O (n) или распределенный O (n)? 07.11.2019
  • @CMCDragonkai Я не знаком с внутренностями даска. Я не думаю, что длина сохраняется, поэтому ее необходимо предварительно вычислить, по крайней мере, при первом вызове len. Я бы предположил, что это линейно, хотя, по общему признанию, я не понимаю разницы между O (n) и распределенным O (n). 07.11.2019
  • Поскольку фреймы данных Dask распределяются по разделам между рабочими dask. Я думал, что будет распределено O (n). Но я считаю, что индекс может быть предварительно вычислен заранее и разделен между всеми разделами. Может быть, на самом деле O (1). Надеюсь, кто-нибудь из Dask сможет пояснить. 07.11.2019
  • Это не работает все время. Проверьте мой вопрос здесь: stackoverflow.com/questions/59511235/ 28.12.2019
  • Это похоже на очень неэффективное решение для проверки того, находится ли внутри кадра данных только один элемент. Может указывать на подсчет миллионов или миллиардов строк, если вы хотите найти только один. 21.07.2020
  • Могу только сказать, что len(df.head().index) и len(df.sample(frac=0.01).index) одинаково быстро len(df.index), к сожалению.. 22.07.2020
  • Новые материалы

    Коллекции публикаций по глубокому обучению
    Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..

    Представляем: Pepita
    Фреймворк JavaScript с открытым исходным кодом Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..

    Советы по коду Laravel #2
    1-) Найти // You can specify the columns you need // in when you use the find method on a model User::find(‘id’, [‘email’,’name’]); // You can increment or decrement // a field in..

    Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)
    Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv) Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..

    3 способа решить квадратное уравнение (3-й мой любимый) -
    1. Методом факторизации — 2. Используя квадратичную формулу — 3. Заполнив квадрат — Давайте поймем это, решив это простое уравнение: Мы пытаемся сделать LHS,..

    Создание VR-миров с A-Frame
    Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..

    Демистификация рекурсии
    КОДЕКС Демистификация рекурсии Упрощенная концепция ошеломляющей О чем весь этот шум? Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..