В Исследовательской мы поддерживаем довольно много алгоритмов машинного обучения и статистики с пользовательским интерфейсом и командными строками, начиная от контролируемого обучения, такого как XGBoost, Random Forest, GLM, LM, прогнозирование временных рядов и т. Д., До неконтролируемого обучения, такого как K-means. Кластеризация, SVD (разложение по сингулярным значениям), MDS (многомерное масштабирование), обнаружение аномалий и т. Д. И, кроме того, вы всегда можете использовать свои любимые пакеты и функции R для использования множества других алгоритмов в дикой природе.

Но затем мы остановились на секунду после того, как вернулись из Японии, где мы преподавали науку о данных - не только машинное обучение, но и все компоненты науки о данных, такие как обработка данных, визуализация, статистика, коммуникация и т. Д. - группе данные любопытные люди.

Самым большим открытием этого замечательного недельного мероприятия было то, что самое сложное при использовании таких алгоритмов было не в понимании самих алгоритмов, а в том, как интуитивно понять результаты, эффективно визуализируя их.

Визуализация данных сама по себе представляет собой дисциплину, совершенно отличную от других компонентов Data Science, и многим нужно научиться. Это означает, что если вас не устраивает визуализация данных, особенно с ее научной стороны, будет сложно интерпретировать результат работы таких алгоритмов. А это означает, что полезные идеи, которые обнаруживаются алгоритмами, просто находятся в формате данных таблицы перед вами даже после того, как вам удалось запустить такие алгоритмы, и они нашли очень полезную информацию.

Поэтому мы вернулись к чертежной доске и разработали новый подход к решению этой проблемы.

Во-первых, мы создали отдельное представление, посвященное аналитике с использованием машинного обучения и статистических алгоритмов.

Во-вторых, вместо того, чтобы раскрывать эти алгоритмы в том виде, в каком они есть, мы оборачиваем их как практические решения, которые могут быть немедленно полезны. Например, мы не предоставляем пользователям алгоритмы случайного леса для построения моделей прогнозирования, оценки и прогнозирования. Вместо этого мы раскрываем одну ключевую функцию алгоритма под названием «Важность переменной», которая помогает пользователям узнать, какие функции (переменные, столбцы или атрибуты) оказывают большее влияние на прогнозирование интересующего вас результата.

В-третьих, мы показываем визуализацию по умолчанию для каждого типа алгоритма, который, по нашему мнению, лучше всего отражает результат в понятной для человека форме.

И сегодня мы представляем эту новую функцию в Exploratory 4.0!

Давайте быстро рассмотрим некоторые из них. Да, действительно много! :)

Как пользоваться?

Теперь вы можете найти новую вкладку Analytics после вкладки Viz, и именно там вы можете быстро получить доступ к этим алгоритмам.

Прогнозирование временных рядов

Допустим, вы просматриваете данные, чувствительные ко времени. Мы называем эти данные временными рядами, которые можно сгруппировать по единицам даты и времени для анализа их тенденций.

Здесь у нас есть коэффициент вовлеченности пользователя, рассчитанный путем деления DAU (ежедневный активный пользователь) на MAU (ежемесячный активный пользователь).

DAU / MAU 

и мы можем визуализировать тенденцию во времени с помощью линейной диаграммы, как показано ниже.

Теперь предположим, что вы хотите спрогнозировать коэффициенты взаимодействия на следующие 2 месяца (60 дней).

Вы можете быстро перейти на новую вкладку «Аналитика» и выбрать «Прогнозирование временных рядов» в раскрывающемся списке «Тип аналитики». Затем назначьте столбец даты / времени и укажите, как вы хотите округлить дату / время, в данном случае я устанавливаю его на уровень «День». Затем назначьте показатель, который вы хотите прогнозировать, - столбец «Engagement_rate» - и установите 60 (дней) в поле «Forecasting Time Period».

Наконец, нажмите кнопку «Выполнить», что запустит все вычисления, необходимые для расчета прогнозируемых значений на основе заданных данных, и автоматически построит диаграмму, как показано ниже.

Оранжевая линия представляет собой прогнозируемые значения с диапазоном «доверительного интервала».

Если хотите, вы также можете выполнить это вычисление для набора групп отдельно. В этом примере предположим, что вы хотите спрогнозировать коэффициенты взаимодействия для двух групп по отдельности в зависимости от того, какие операционные системы используют пользователи - Mac (darwin) или Windows (win32). Вы можете просто выбрать столбец «os» в раскрывающемся списке «Повторить по», в результате чего появится диаграмма, как показано ниже.

Если вы хотите сравнить эти две диаграммы вверху и внизу, вы можете щелкнуть значок шестеренки рядом с «Повторить по» и установить «Число столбцов» на 1. Убедитесь, что вы также выбрали «Подогнать все диаграммы к Viz. Площадь'.

Теперь у вас есть тенденции уровня вовлеченности с прогнозируемыми результатами по операционным системам.

Если вы хотите попробовать это, вы можете скачать этот образец данных здесь.

Переменная важность

Здесь у нас есть данные о подписке на обслуживание клиентов банка.

Допустим, мы хотим знать, что повлияло на то, что некоторые клиенты подписались на услуги. Другими словами, среди всех атрибутов клиентов, таких как возраст, работа, баланс и т. Д., Какие из них являются более важными индикаторами для «предсказания» того, какие клиенты с наибольшей вероятностью подпишутся на услугу.

Есть много способов сделать это в области машинного обучения и статистики, но мы используем случайный лес для выполнения этой работы внутри компании, поскольку он очень надежен и обеспечивает высокое качество прогнозирования.

Вы можете выбрать «Важность переменной» в раскрывающемся списке «Тип аналитики», выбрать столбец, который вы хотите прогнозировать - «подписан» - и выбрать столбцы, которые вам интересны, чтобы выяснить, как они влияют на прогнозируемый результат.

При нажатии на кнопку «Выполнить» будет создана диаграмма, как показано ниже.

Вы можете видеть, что сама по себе информация о «продолжительности» существенно повлияла на то, подпишутся ли клиенты на услугу или нет.

Но даже если вы можете увидеть, какие функции влияют на результат, если производительность прогнозирования этой модели плохая, то она не так полезна. Вы можете оценить модель, перейдя на вкладку «Качество модели».

Вы можете увидеть некоторые показатели производительности модели, такие как F Score, Accuracy Rate и т. Д. Для каждого класса прогноза, в данном случае это «да» и «нет».

Вы также можете перейти в «Матрицу прогнозов», чтобы увидеть, как прогноз этой модели сравнивается с фактическими значениями.

Здесь мы видим, что он правильно предсказал «нет» для 85,54% клиентов и «да» для 5,51% клиентов.

Если вы хотите попробовать это, вы можете скачать этот образец данных здесь.

На вкладке «Аналитика» есть много других типов аналитики, о которых я скоро напишу! Между тем, мы думаем, что это поможет нам сделать еще один шаг по пути «Сделать алгоритмы Data Science более доступными для специалистов, не занимающихся данными!». И я надеюсь, что ты сможешь извлечь из этого много полезного. Загрузите Exploratory 4.0 сегодня и попробуйте!

Удачных алгоритмов Data Science! 🍾

Если у вас еще нет Exploratory Desktop, вы можете бесплатно зарегистрироваться отсюда. Если вы сейчас студент или преподаватель, то это бесплатно!

Пакеты R, использованные в этом посте