60 терминов, которые должен знать каждый аналитик данных

1. Алгоритм. Алгоритм представляет собой набор инструкций, которые мы даем компьютерной системе, чтобы она могла принимать значения и преобразовывать их в удобную форму.

2. Искусственный интеллект — искусственный интеллект — это интеллект, демонстрируемый машинами. ИИ — это разработка систем компьютерных наук для выполнения задач, подобных человеческому интеллекту, таких как распознавание речи, визуальное восприятие, принятие решений и языковые переводчики и т. д.

3. Большие данные – большие объемы данных, как структурированных, так и неструктурированных. Но важно не количество данных. Именно так организации используют этот большой объем данных для получения информации. Компании используют различные инструменты, методы и ресурсы, чтобы разобраться в этих данных и разработать эффективные бизнес-стратегии.

4. Бизнес-аналитика — бизнес-аналитика используется для демонстрации практической методологии, которой придерживается организация при изучении данных для извлечения информации. Методология включает статистический анализ данных с последующей интерпретацией в контексте бизнеса.

5. Бизнес-аналитика. Бизнес-аналитика — это набор стратегий, приложений, данных и технологий, используемых организацией для сбора данных, анализа и создания идей для получения стратегических бизнес-возможностей.

6. Классификация. Классификация — это контролируемый метод машинного обучения. Он имеет дело с категоризацией точки данных на основе ее сходства с другими точками данных.

7. Кластеризация. Кластеризация — это неконтролируемый метод обучения, используемый для выявления присущих группировок данных. Например: группировка клиентов на основе их покупательского поведения, которое в дальнейшем используется для сегментации клиентов. И тогда компании могут использовать соответствующую маркетинговую тактику для получения большей прибыли.

8. Компьютерное зрение. Компьютерное зрение — это область компьютерных наук, позволяющая компьютерам (или устройствам) визуализировать, обрабатывать и идентифицировать изображения/видео так же, как это делает человеческое зрение. Некоторые приложения — Пешеходы, автомобили, обнаружение дорог в умных (беспилотных) автомобилях Распознавание объектов Отслеживание объектов Анализ движения.

9. Информационная панель — это продукт данных или отчет о графическом представлении анализа, выполненного с набором данных. Графический отчет может включать различные диаграммы и инфографику с аналитикой. Это инструмент управления информацией, который используется для визуального отслеживания и анализа ключевых показателей эффективности, показателей и ключевых точек данных.

10. Данные — часть информации, которую можно хранить, обрабатывать или анализировать. Данные — это единица информации, которая собирается посредством наблюдений.

11. Агрегация данных. Агрегация данных относится к сбору данных из нескольких источников для объединения всех данных в общий атенеум с целью составления отчетов и/или анализа.

12. Анализ данных. Анализ данных — это процесс сбора, моделирования и анализа данных для извлечения информации, которая поможет принять решение.

13. Архитектура данных и дизайн. Архитектура данных состоит из моделей, политик, стандартов или правил, которые контролируют, какие данные объединяются, а также как они упорядочиваются, хранятся, интегрируются и используются в системах данных. Он состоит из трех фаз: Концептуальное представление бизнес-сущностей Логическое представление отношений между бизнес-сущностями Физическое построение системы функциональной поддержки.

14. Очистка данных. Очистка/очистка/очистка данных — это процесс проверки данных для удаления неправильных написаний, дублирующихся записей, добавления отсутствующих данных и обеспечения согласованности. Это необходимо, поскольку неправильные данные могут привести к плохому анализу и неправильным выводам/пониманию.

15. Сбор данных — Систематический подход к сбору наблюдений, измерений. помогает сначала собрать

16. Культура данных. Культура данных — это коллективное поведение и убеждения людей, которые ценят, практикуют и поощряют использование данных для улучшения решений.

17. Решения на основе данных — Принятие решений Использование фактов, показателей и данных для принятия стратегических бизнес-решений, соответствующих вашим целям, задачам и инициативам

18. Инженерия данных. Инженерия данных — это аспект науки о данных, который фокусируется на практических применениях сбора и анализа данных. Инжиниринг данных помогает сделать данные более полезными и доступными для потребителей данных. Основное внимание уделяется источнику, преобразованию и анализу данных из каждой системы.

19. Управление данными. Управление данными — это процесс и процедуры, которые организации используют для управления, использования и защиты своих данных.

20. Грамотность в отношении данных. Грамотность в отношении данных — это способность читать данные, работать с ними, анализировать их и взаимодействовать с ними. Это навык, который дает возможность работникам всех уровней задавать правильные вопросы о данных и машинах, накапливать знания, принимать решения и доносить смысл до других.

21. Витрина данных — это простая форма хранилища данных, ориентированная на одну тему или направление бизнеса. С помощью витрины данных команды могут быстрее получать доступ к данным и получать ценную информацию, поскольку им не нужно тратить время на поиск в более сложном хранилище данных или ручное агрегирование данных из разных источников.

22. Интеллектуальный анализ данных. Интеллектуальный анализ данных — это изучение извлечения полезной информации из структурированных/неструктурированных данных, взятых из различных источников. Обычно это делается для извлечения частых шаблонов, извлечения ассоциаций, извлечения корреляций, извлечения кластеров и извлечения данных для предиктивного анализа.

23. Моделирование данных. Моделирование данных — это процесс создания модели данных для информационной системы с использованием определенных формальных методов. Моделирование данных используется для определения и анализа потребности в данных для поддержки бизнес-процессов.

24. Конвейеры данных — набор скриптов или функций, которые последовательно передают данные. Результат первого метода становится входом для второго. Этот процесс продолжается до тех пор, пока данные не будут надлежащим образом очищены и преобразованы для любой задачи, над которой работает команда.

25. Наука о данных. Наука о данных — это междисциплинарная область, в которой используются научные методы, процессы, алгоритмы и системы для извлечения знаний и выводов из структурированных и неструктурированных данных, а также применения знаний и практических выводов из данных в широком диапазоне областей применения.

26. Рассказывание историй о данных. Рассказывание историй о данных — это практика построения повествования на основе набора данных и сопровождающих их визуализаций, помогающих передать значение этих данных в мощной и убедительной форме.

27. Визуализация данных — искусство визуальной передачи данных. Это включает в себя визуальные идеи, инфографику, графики, графики и информационные панели данных.

28. Хранилище данных. Хранилище данных представляет собой большой набор бизнес-данных, которые помогают организации принимать решения. Это система, используемая для быстрого анализа бизнес-тенденций с использованием данных из многих источников.

29. База данных — это структурированный набор данных. Собранная информация организована таким образом, чтобы она была легкодоступна для компьютера. Базы данных создаются и управляются с помощью языков программирования баз данных. Наиболее распространенным языком баз данных является SQL.

30. Набор данных — набор данных (или набор данных) представляет собой набор данных. Набор данных организован в некоторый тип структуры данных. Например, в базе данных набор данных может содержать набор бизнес-данных (имена, зарплаты, контактная информация, продажи и т. д.).

31. Глубокое обучение. Глубокое обучение связано с алгоритмом машинного обучения (искусственная нейронная сеть, ANN), который использует концепцию человеческого мозга для облегчения моделирования произвольных функций.

32. Описательный анализ – анализирует данные статистически, чтобы рассказать вам о том, что произошло в прошлом. Описательная аналитика помогает бизнесу понять, как он работает, предоставляя контекст, который помогает заинтересованным сторонам интерпретировать информацию. Это может быть в форме визуализации данных, таких как графики, диаграммы, отчеты и информационные панели.

33. EDA — исследовательский анализ данных. Это этап, используемый для конвейера науки о данных, в котором основное внимание уделяется пониманию данных с помощью визуализации или статистического анализа.

34. ETL — сокращение от трех функций базы данных: извлечение, преобразование и загрузка. Эти три функции объединены в один инструмент для размещения их из одной базы данных в другую. Извлечение Это процесс чтения данных из базы данных. Преобразование Это процесс преобразования извлеченных данных в желаемую форму, чтобы их можно было поместить в другую базу данных. Загрузка Это процесс записи данных в целевую базу данных.

35. Выбор признаков. Выбор признаков — это процесс выбора тех признаков, которые необходимы для объяснения прогностической способности статистической модели, и исключения ненужных признаков. Это можно сделать, либо отфильтровав менее полезные функции, либо объединив функции, чтобы создать новую.

36. Hadoop — Hadoop — это платформа распределенной обработки с открытым исходным кодом, используемая, когда нам приходится иметь дело с огромными данными. Это позволяет нам использовать возможности параллельной обработки для обработки больших данных.

37. Гиперпараметр. Гиперпараметр — это параметр, значение которого задается перед обучением модели машинного обучения или глубокого обучения. Разные модели требуют разных гиперпараметров, а некоторые вообще не требуют. Гиперпараметры не следует путать с параметрами модели, поскольку параметры оцениваются или извлекаются из данных.

38. Гипотеза — гипотеза — это возможная точка зрения или утверждение аналитика о проблеме, над которой он работает. Это может быть правдой, а может и не быть правдой.

39. Выводная статистика. В выводной статистике мы пытаемся выдвинуть гипотезу о населении, рассматривая только его выборку. Например, прежде чем выпустить лекарство на рынок, проводятся внутренние тесты, чтобы проверить, можно ли выпускать лекарство. Но здесь мы не можем проверить всю популяцию на жизнеспособность препарата, поэтому мы делаем это на выборке, которая лучше всего представляет популяцию.

40. Аналитика — аналитика создается путем статистического анализа данных с последующей бизнес-интерпретацией.

41. Межквартильный диапазон — IQR — это мера изменчивости, основанная на делении ранга.

42. Библиотеки — в библиотеке есть набор связанных функций кодов, которые позволяют выполнять множество задач без написания собственного кода.

43. Машинное обучение. Машинное обучение — это область компьютерных наук, в которой используются статистические стратегии, позволяющие «обучаться» с данными на компьютере. Машинное обучение используется для использования возможностей, скрытых в больших данных.

44. Среднее — среднее значение считается средним значением всех чисел. Иногда его можно использовать как представление всех данных.

45. Медиана — медиана набора чисел обычно представляет собой среднее значение. Когда общие числа в наборе четные, медиана будет средним из двух средних значений. Медиана используется для измерения центральной тенденции.

46. Метаданные — метаданные — это данные о данных. Это административные, описательные и структурные данные, которые идентифицируют активы.

47. Мода — мода — это наиболее часто встречающееся значение в генеральной совокупности. Это метрика для измерения центральной тенденции, т. Е. Способ выражения (обычно) одного числа важной информации о случайной величине или совокупности.

48. Выбор модели — выбор модели — это задача выбора статистической модели из набора известных моделей. Различные методы, которые можно использовать для выбора модели: Исследовательский анализ данных Научные методы

49. Обработка естественного языка — обработка естественного языка — это область, цель которой — заставить компьютерные системы понимать человеческую речь. НЛП состоит из методов обработки, структурирования, категоризации необработанного текста и извлечения информации. Пример чат-бота.

50. Нормальное распределение — нормальное распределение — это функция вероятности, которая описывает, как распределяются значения переменной. Это симметричное распределение, при котором большая часть наблюдений концентрируется вокруг центрального пика, а вероятности значений, находящихся дальше от среднего значения, уменьшаются одинаково в обоих направлениях. График кривой Белла.

51. Нормализация. Набор данных считается нормализованным, когда все значения были скорректированы так, чтобы они попадали в общий диапазон. Мы нормализуем наборы данных, чтобы сделать сравнение проще и содержательнее.

52. Выброс — выброс — это точка данных, которая считается чрезвычайно далекой от других точек. Как правило, они являются результатом исключительных случаев или ошибок в измерении и всегда должны быть исследованы на ранней стадии рабочего процесса анализа данных.

53. Переобучение — переоснащение — это состояние, когда модель учитывает слишком много информации.

54. Прогнозный анализ. Прогнозная аналитика использует исторические данные и передает их в модель машинного обучения, которая учитывает ключевые тенденции и закономерности. Затем модель применяется к текущим данным, чтобы предсказать, что произойдет дальше.

55. Регрессия. Регрессия — это контролируемая задача машинного обучения. Основное внимание уделяется тому, как целевое значение изменяется по мере изменения других значений в наборе данных. Проблемы регрессии обычно имеют дело с непрерывными переменными, например, как площадь дома и местоположение влияют на цену дома.

56. Стандартное отклонение — показывает, насколько члены группы отличаются от среднего значения для группы.

57. Контролируемое обучение — подкатегория машинного обучения, в которой используются помеченные наборы данных для обучения алгоритмов классификации или прогнозирования.

58. Текстовая аналитика. Текстовая аналитика представляет собой процесс применения лингвистических, машинных и статистических методов к тексту.

59. Недообучение — недообучение происходит, когда данные не предоставляют достаточно информации для модели.

60. Неконтролируемое обучение — в этой методике у нас нет цели или переменной результата для прогнозирования/оценки. Цель неконтролируемого обучения — смоделировать базовую структуру или распределение данных, чтобы узнать больше о данных или разделить их на разные группы на основе их атрибутов.

материалы по теме:

Новые материалы

Коллекции публикаций по глубокому обучению

Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..

Представляем: Pepita

Фреймворк JavaScript с открытым исходным кодом Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..

Советы по коду Laravel #2

1-) Найти // You can specify the columns you need // in when you use the find method on a model User::find(‘id’, [‘email’,’name’]); // You can increment or decrement // a field in..

Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)

Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv) Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..

3 способа решить квадратное уравнение (3-й мой любимый) -

1. Методом факторизации — 2. Используя квадратичную формулу — 3. Заполнив квадрат — Давайте поймем это, решив это простое уравнение: Мы пытаемся сделать LHS,..

Создание VR-миров с A-Frame

Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..

Демистификация рекурсии

КОДЕКС Демистификация рекурсии Упрощенная концепция ошеломляющей О чем весь этот шум? Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Web Development Software Development Python Coding Deep Learning AI React Software Engineering Nodejs Front End Development Java Algorithms Computer Science Typescript Data Tech Development CSS HTML Programming Languages Tutorial Angular Startup Productivity Python Programming Computer Vision Neural Networks Javascript Tips AWS Education Open Source NLP Learning Mlops