Руководство по предварительной обработке данных для науки о данных

Это промежуточный этап после EDA и перед интеллектуальным анализом данных. Чтобы получить значение из набора данных с помощью интеллектуального анализа данных, нам необходимо сначала подготовить или предварительно обработать данные.

Он предполагает очистку, преобразование и сокращение данных.

Этап 1: Очистка данных

Щелкните ссылку выше, чтобы прочитать мое руководство по очистке данных.

Этап 2: преобразование данных

Этот шаг предпринимается для преобразования данных в соответствующие формы, подходящие для интеллектуального анализа данных.

Важная терминология:

КЛЮЧ: значение, используемое для уникальной идентификации записи в таблице. КЛЮЧ может быть одним столбцом или комбинацией нескольких столбцов.

Первичный КЛЮЧ: значение одного столбца, используемое для однозначной идентификации записи в базе данных.

Составной КЛЮЧ: это первичный ключ, состоящий из нескольких столбцов, используемый для однозначной идентификации записи.

Внешний КЛЮЧ: он ссылается на первичный ключ другой таблицы

Типы трансформации:

Нормализация:

Это делается для того, чтобы масштабировать значения данных в указанном диапазоне (обычно от -1,0 до 1,0 или от 0,0 до 1,0).

Формы нормализации:

Давайте возьмем следующую таблицу в качестве примера, чтобы проиллюстрировать типы нормализации.

Строки, отмеченные красным, показывают, что есть два клиента с одинаковым именем, но с разными адресами и заказами.

Первая нормальная форма (1NF)

Здесь данные не должны содержать повторяющихся групп и содержать только автоматические значения. Каждая запись должна быть уникальной, и в ней не должно быть повторяющихся групп.

Итак, приведенная выше таблица в первой нормальной форме будет выглядеть так:

Автоматические значения: - Единичная ячейка имеет только одно значение

Повторяющиеся группы: - Повторяющаяся группа означает, что таблица содержит 2 или более значений столбцов, которые тесно связаны.

2-я нормальная форма (2NF)

Здесь данные должны быть в Первой нормальной форме, и нет частичной зависимости какого-либо столбца от первичного ключа. Другими словами, таблица имеет объединенный первичный ключ, и каждый атрибут в таблице зависит от объединенного первичного ключа. Все неключевые атрибуты должны функционально зависеть от первичного ключа.

3. Третья нормальная форма (3NF)

Здесь данные находятся во второй нормальной форме и нет транзитивной функциональной зависимости.

Транзитивная зависимость: Когда таблица A функционально зависит от таблицы B. а таблица B функционально зависит от таблицы C, мы говорим, что таблица C транзитивно зависит от таблицы A через таблицу B.

4. Нормальная форма кода Бойса (BCNF)

Нормальная форма BCNF - это более высокий уровень третьей нормальной формы. Эта форма используется для обработки аналогий, которые не обрабатываются в третьей нормальной форме. BCNF не допускает зависимости между атрибутами, принадлежащими ключам-кандидатам. Это снимает ограничение на неключевые атрибуты из третьей нормальной формы.

Третья нормальная форма и BCNF не совпадают, если выполняются следующие условия:

В таблице есть 2 или более ключей-кандидатов
По крайней мере, два из возможных ключей состоят из более чем одного атрибута
Клавиши не разъединены.

5. Четвертая нормальная форма (4NF)

Здесь нет нетривиальных многозначных зависимостей, кроме ключа-кандидата. Он основан на первых трех нормальных формах (1NF, 2NF и 3NF) и нормальной форме Бойса-Кодда (BCNF). В нем говорится, что помимо базы данных, отвечающей требованиям BCNF, она не должна содержать более одной многозначной зависимости.

6. Пятая нормальная форма (5NF)

Каждая зависимость соединения подразумевается ключами-кандидатами. Отношение, разложенное на два отношения, должно иметь свойство соединения без потерь, которое гарантирует, что никакие ложные или лишние кортежи не будут сгенерированы, когда отношения воссоединяются посредством естественного соединения.

7. Шестая нормальная форма (6NF)

Он был создан для обработки ситуаций, когда временные данные меняются независимо, чтобы избежать ненужного дублирования. Результирующие таблицы не могут быть далее разложены; в большинстве случаев таблицы включают первичный ключ и один неключевой атрибут.

Дискретность, также известная как Binning

Дискретизация - это процесс, с помощью которого мы можем преобразовывать непрерывные переменные, модели или функции в дискретную форму. Мы делаем это, создавая набор смежных интервалов (или бинов), которые проходят через диапазон нашей желаемой переменной / модели / функции.

Биннинг одинаковой ширины

Разделение всех возможных значений на ’N’ интервалов, каждая из которых имеет одинаковую ширину. Формула для ширины интервала:

Ширина = (максимальное значение - минимальное значение) / N
*, где N - количество интервалов или интервалов.

Использование R:

Использование Python:

Биннинг с одинаковой частотой

Разделение всех возможных значений на 'N' интервалов, каждый из которых имеет одинаковое количество наблюдений. Интервалы могут соответствовать значениям квантилей.

Использование R:

Использование Python:

Биннинг K-средних

Мы применяем кластеризацию K-средних к непрерывной переменной, тем самым разделяя ее на дискретные группы или кластеры.

Использование R:

Использование Python:

Дискретность с деревьями решений

Мы используем дерево решений, чтобы определить оптимальное количество ящиков. Когда модель принимает решение, она назначает наблюдение для каждого узла. Эти наблюдения затем классифицируются в дискретные выходные данные для нашей переменной.

Использование R:

Использование Python:

Преимущества:

Хорошо справляется с выбросами.
Создает монотонные отношения.

Этап 3: обработка данных

При работе с огромными объемами данных анализ в таких случаях усложнялся. Чтобы избавиться от этого, мы используем технику «сокращения данных». Он направлен на повышение эффективности хранения и снижение затрат на хранение и анализ данных.

Различные шаги к сокращению данных:

1. Агрегация куба данных
. Операция агрегирования применяется к данным для построения куба данных.

Использование R:

2. Выбор подмножества атрибутов:
Следует использовать очень релевантные атрибуты, остальные можно отбросить. Чтобы выполнить выбор атрибута, используйте уровень значимости и p-значение атрибута. атрибут, имеющий p-значение больше уровня значимости, может быть отброшен.

3. Уменьшение количества:
Это позволяет хранить модель данных вместо всех данных.

Пример: модели регрессии.

4. Уменьшение размерности:
Это уменьшает размер данных за счет механизмов кодирования. Это может быть с потерями или без потерь. Если после восстановления из сжатых данных исходные данные могут быть восстановлены, такое сокращение называется сокращением без потерь, иначе оно называется сокращением с потерями. Двумя эффективными методами уменьшения размерности являются: вейвлет-преобразования и PCA (анализ основных компонентов).

Выбор атрибута / функции

Новые атрибуты конструируются из заданного набора атрибутов, чтобы помочь процессу добычи полезных ископаемых. Например: атрибуты «Женщина» и «Занятие» можно объединить для создания нового атрибута «Работающая женщина», если мы просто хотим знать, сколько женщин работает по сравнению с безработными, но не согласны с тем, чем конкретно занимается женщина.

Генерация концептуальной иерархии

Здесь атрибуты преобразуются с более низкого уровня на более высокий уровень иерархии. Например: атрибут «Состояние» можно преобразовать в «Континент».

Теперь, когда вы знаете, как предварительно обрабатывать данные. Вы готовы к следующему шагу - интеллектуальному анализу данных.

Свяжитесь со мной:

Facebook, Twitter, Quora, Youtube и Linkedin. # AI

материалы по теме:

Новые материалы

Коллекции публикаций по глубокому обучению

Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..

Представляем: Pepita

Фреймворк JavaScript с открытым исходным кодом Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..

Советы по коду Laravel #2

1-) Найти // You can specify the columns you need // in when you use the find method on a model User::find(‘id’, [‘email’,’name’]); // You can increment or decrement // a field in..

Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)

Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv) Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..

3 способа решить квадратное уравнение (3-й мой любимый) -

1. Методом факторизации — 2. Используя квадратичную формулу — 3. Заполнив квадрат — Давайте поймем это, решив это простое уравнение: Мы пытаемся сделать LHS,..

Создание VR-миров с A-Frame

Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..

Демистификация рекурсии

КОДЕКС Демистификация рекурсии Упрощенная концепция ошеломляющей О чем весь этот шум? Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Web Development Software Development Python Coding Deep Learning AI React Software Engineering Nodejs Front End Development Java Algorithms Computer Science Typescript Data Tech Development CSS HTML Programming Languages Startup Productivity Python Programming Tutorial Angular Neural Networks Computer Vision Open Source Javascript Tips AWS Education Learning NLP Mlops