Качество данных так важно в проектах по науке о данных!



Ой! Модель не удалась.

Оооо! Что-то не так с моим набором данных.

Это повседневная рутина, которая происходит с большинством специалистов по данным.

Обработка данных и качество данных всегда является неизбежной темой при применении моделей к продуктам. Когда мы допускаем ошибки при подготовке набора данных, следующий конвейер, конечно же, НЕ БУДЕТ работать должным образом. Можем ли мы найти инструмент для проверки качества нашего набора данных? Этот инструмент может помочь нашему конвейеру обработки данных получить ценную информацию.

Большие ожидания! Этот инструмент является экспертом в области проверки данных, включая базовое понимание данных, обнаружение информации, полное соответствие и необходимую безопасность.

Мы создали Управляемый проект по CognitiveClass (бесплатная онлайн-платформа для обучения технологиям, используемая миллионами учащихся), чтобы познакомить с основами использования Больших надежд. Проект разработан для начинающих, поэтому с этим справится даже моя бабушка! В проекте мы предоставляем вам построчный код для работы с реальные данные об оттоке банка.

Вы можете сразу запустить код на платформе без каких-либо настроек.

Мы сосредоточили основное внимание на использовании Python и блокнота Jupyter здесь, для более сложного использования Great Expectations вы можете посетить его веб-сайт с инструкциями.

Большие надежды могут охватывать следующие четыре основные общие категории функций:

  1. Импорт данных и DataFrame
  2. Формат содержания, существование
  3. Информация о стоимости и статистике
  4. Сохраните конвейер для будущей проверки данных

Great Expectations отлично справился бы с перечисленными выше задачами с помощью простого однострочного кода. Мы представили, как вызывать и использовать функции «Большие надежды» в управляемом проекте.

Например:

Импорт данных:

# importing dataset
import great_expectations as gx
df = gx.read_csv($storedfile_or_datasetlink)

# calling the dataset
df['NumOfProducts'].value_counts().plot(kind='bar')

Формат и использование DataFrame аналогичны знаменитому DataFrame pandas (не знаете pandas? Нажмите здесь)

Для диапазона значений:

df.expect_column_values_to_be_between('Age', min_value=18, max_value=85, mostly=0.99)

Довольно легко, верно?

Если вы хотите узнать каждую деталь о том, как использовать большие ожидания, вы можете перейти к управляемому проекту, чтобы проверить это. Вы также можете изучить множество БЕСПЛАТНЫХ курсов и проектов по науке о данных или любым другим технологическим темам от CognitiveClass.