Введение в простой пользовательский интерфейс аналитики

В Исследовательской мы поддерживаем довольно много алгоритмов машинного обучения и статистики с пользовательским интерфейсом и командными строками, начиная от контролируемого обучения, такого как XGBoost, Random Forest, GLM, LM, прогнозирование временных рядов и т. Д., До неконтролируемого обучения, такого как K-means. Кластеризация, SVD (разложение по сингулярным значениям), MDS (многомерное масштабирование), обнаружение аномалий и т. Д. И, кроме того, вы всегда можете использовать свои любимые пакеты и функции R для использования множества других алгоритмов в дикой природе.

Но затем мы остановились на секунду после того, как вернулись из Японии, где мы преподавали науку о данных - не только машинное обучение, но и все компоненты науки о данных, такие как обработка данных, визуализация, статистика, коммуникация и т. Д. - группе данные любопытные люди.

Самым большим открытием этого замечательного недельного мероприятия было то, что самое сложное при использовании таких алгоритмов было не в понимании самих алгоритмов, а в том, как интуитивно понять результаты, эффективно визуализируя их.

Визуализация данных сама по себе представляет собой дисциплину, совершенно отличную от других компонентов Data Science, и многим нужно научиться. Это означает, что если вас не устраивает визуализация данных, особенно с ее научной стороны, будет сложно интерпретировать результат работы таких алгоритмов. А это означает, что полезные идеи, которые обнаруживаются алгоритмами, просто находятся в формате данных таблицы перед вами даже после того, как вам удалось запустить такие алгоритмы, и они нашли очень полезную информацию.

Поэтому мы вернулись к чертежной доске и разработали новый подход к решению этой проблемы.

Во-первых, мы создали отдельное представление, посвященное аналитике с использованием машинного обучения и статистических алгоритмов.

Во-вторых, вместо того, чтобы раскрывать эти алгоритмы в том виде, в каком они есть, мы оборачиваем их как практические решения, которые могут быть немедленно полезны. Например, мы не предоставляем пользователям алгоритмы случайного леса для построения моделей прогнозирования, оценки и прогнозирования. Вместо этого мы раскрываем одну ключевую функцию алгоритма под названием «Важность переменной», которая помогает пользователям узнать, какие функции (переменные, столбцы или атрибуты) оказывают большее влияние на прогнозирование интересующего вас результата.

В-третьих, мы показываем визуализацию по умолчанию для каждого типа алгоритма, который, по нашему мнению, лучше всего отражает результат в понятной для человека форме.

И сегодня мы представляем эту новую функцию в Exploratory 4.0!

Давайте быстро рассмотрим некоторые из них. Да, действительно много! :)

Как пользоваться?

Теперь вы можете найти новую вкладку Analytics после вкладки Viz, и именно там вы можете быстро получить доступ к этим алгоритмам.

Прогнозирование временных рядов

Допустим, вы просматриваете данные, чувствительные ко времени. Мы называем эти данные временными рядами, которые можно сгруппировать по единицам даты и времени для анализа их тенденций.

Здесь у нас есть коэффициент вовлеченности пользователя, рассчитанный путем деления DAU (ежедневный активный пользователь) на MAU (ежемесячный активный пользователь).

DAU / MAU

и мы можем визуализировать тенденцию во времени с помощью линейной диаграммы, как показано ниже.

Теперь предположим, что вы хотите спрогнозировать коэффициенты взаимодействия на следующие 2 месяца (60 дней).

Вы можете быстро перейти на новую вкладку «Аналитика» и выбрать «Прогнозирование временных рядов» в раскрывающемся списке «Тип аналитики». Затем назначьте столбец даты / времени и укажите, как вы хотите округлить дату / время, в данном случае я устанавливаю его на уровень «День». Затем назначьте показатель, который вы хотите прогнозировать, - столбец «Engagement_rate» - и установите 60 (дней) в поле «Forecasting Time Period».

Наконец, нажмите кнопку «Выполнить», что запустит все вычисления, необходимые для расчета прогнозируемых значений на основе заданных данных, и автоматически построит диаграмму, как показано ниже.

Оранжевая линия представляет собой прогнозируемые значения с диапазоном «доверительного интервала».

Если хотите, вы также можете выполнить это вычисление для набора групп отдельно. В этом примере предположим, что вы хотите спрогнозировать коэффициенты взаимодействия для двух групп по отдельности в зависимости от того, какие операционные системы используют пользователи - Mac (darwin) или Windows (win32). Вы можете просто выбрать столбец «os» в раскрывающемся списке «Повторить по», в результате чего появится диаграмма, как показано ниже.

Если вы хотите сравнить эти две диаграммы вверху и внизу, вы можете щелкнуть значок шестеренки рядом с «Повторить по» и установить «Число столбцов» на 1. Убедитесь, что вы также выбрали «Подогнать все диаграммы к Viz. Площадь'.

Теперь у вас есть тенденции уровня вовлеченности с прогнозируемыми результатами по операционным системам.

Если вы хотите попробовать это, вы можете скачать этот образец данных здесь.

Переменная важность

Здесь у нас есть данные о подписке на обслуживание клиентов банка.

Допустим, мы хотим знать, что повлияло на то, что некоторые клиенты подписались на услуги. Другими словами, среди всех атрибутов клиентов, таких как возраст, работа, баланс и т. Д., Какие из них являются более важными индикаторами для «предсказания» того, какие клиенты с наибольшей вероятностью подпишутся на услугу.

Есть много способов сделать это в области машинного обучения и статистики, но мы используем случайный лес для выполнения этой работы внутри компании, поскольку он очень надежен и обеспечивает высокое качество прогнозирования.

Вы можете выбрать «Важность переменной» в раскрывающемся списке «Тип аналитики», выбрать столбец, который вы хотите прогнозировать - «подписан» - и выбрать столбцы, которые вам интересны, чтобы выяснить, как они влияют на прогнозируемый результат.

При нажатии на кнопку «Выполнить» будет создана диаграмма, как показано ниже.

Вы можете видеть, что сама по себе информация о «продолжительности» существенно повлияла на то, подпишутся ли клиенты на услугу или нет.

Но даже если вы можете увидеть, какие функции влияют на результат, если производительность прогнозирования этой модели плохая, то она не так полезна. Вы можете оценить модель, перейдя на вкладку «Качество модели».

Вы можете увидеть некоторые показатели производительности модели, такие как F Score, Accuracy Rate и т. Д. Для каждого класса прогноза, в данном случае это «да» и «нет».

Вы также можете перейти в «Матрицу прогнозов», чтобы увидеть, как прогноз этой модели сравнивается с фактическими значениями.

Здесь мы видим, что он правильно предсказал «нет» для 85,54% клиентов и «да» для 5,51% клиентов.

Если вы хотите попробовать это, вы можете скачать этот образец данных здесь.

На вкладке «Аналитика» есть много других типов аналитики, о которых я скоро напишу! Между тем, мы думаем, что это поможет нам сделать еще один шаг по пути «Сделать алгоритмы Data Science более доступными для специалистов, не занимающихся данными!». И я надеюсь, что ты сможешь извлечь из этого много полезного. Загрузите Exploratory 4.0 сегодня и попробуйте!

Удачных алгоритмов Data Science! 🍾

Если у вас еще нет Exploratory Desktop, вы можете бесплатно зарегистрироваться отсюда. Если вы сейчас студент или преподаватель, то это бесплатно!

Пакеты R, использованные в этом посте

CRAN - Пакет randomForest
Классификация и регрессия на основе леса деревьев с использованием случайных входных данных. cran.r-project.org

CRAN - Пакет пророка
Реализует процедуру прогнозирования данных временных рядов на основе аддитивной модели, в которой нелинейные тенденции соответствуют… cran.r-project .org

материалы по теме:

Новые материалы

Коллекции публикаций по глубокому обучению

Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..

Представляем: Pepita

Фреймворк JavaScript с открытым исходным кодом Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..

Советы по коду Laravel #2

1-) Найти // You can specify the columns you need // in when you use the find method on a model User::find(‘id’, [‘email’,’name’]); // You can increment or decrement // a field in..

Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)

Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv) Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..

3 способа решить квадратное уравнение (3-й мой любимый) -

1. Методом факторизации — 2. Используя квадратичную формулу — 3. Заполнив квадрат — Давайте поймем это, решив это простое уравнение: Мы пытаемся сделать LHS,..

Создание VR-миров с A-Frame

Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..

Демистификация рекурсии

КОДЕКС Демистификация рекурсии Упрощенная концепция ошеломляющей О чем весь этот шум? Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Web Development Software Development Python Coding Deep Learning AI React Software Engineering Nodejs Front End Development Java Algorithms Computer Science Typescript Data Tech Development CSS HTML Programming Languages Startup Productivity Python Programming Tutorial Angular Neural Networks Computer Vision Open Source Javascript Tips AWS Education Learning NLP Mlops