Arhn - архитектура программирования

Рекомендации по пакету Python для анализа данных и обучения

Я хочу создать аналитическую систему поверх платформы для публикации статей. В частности, я хочу отслеживать поведение пользователей при чтении (например, количество просмотров статьи, время, проведенное с открытой статьей, рейтинг и т. д.), а также статистику по самим статьям (например, количество абзацев, автор и т. д.). ).

Это будет иметь две цели:

  1. Представление информации о пользователях и статьях
  2. Давать рекомендации пользователям

Что касается части анализа данных, я рассматривал кубы, панды и pytables. Данных много, и они хранятся в таблицах MySQL; Я не уверен, какой из этих пакетов лучше справится с таким бэкендом.

Что касается части рекомендаций, я просто думаю о передаче данных из механизма анализа данных в модель кластеризации.

Любые рекомендации о том, как собрать все это вместе, а также классные проекты Python, которые могут мне помочь? Пожалуйста, дайте мне знать, если я должен дать больше информации.

Спасибо


  • В какой системе написана статья? Это на Python или на каких-либо Pythonic-фреймворках? 14.09.2012
  • Это питон; но я хочу, чтобы эта часть была несколько отдельной; т. е. издательская платформа делает дамп в базу данных, а аналитика читает из нее. 14.09.2012
  • Что ж, нейронные сети — это не совсем то, что вам нужно, но pybrain.org также может вас заинтересовать. 14.09.2012

Ответы:


1

Scikit-learn должен порадовать вас частью обработки данных (кластеризации).

14.09.2012
  • Спасибо, я проверю. Любые идеи о хорошем слое анализа данных? 15.09.2012
  • первые аспекты, которые вы хотите отслеживать (количество просмотров, абзацев, авторов, время, затраченное на чтение), могут быть вычислены как сводная статистика, например, средние значения и стандартные отклонения. numpy может помочь вам вычислить их на n-мерных массивах данных. 18.09.2012
  • Для кластеризации или, в более общем случае, интеллектуального анализа данных вам сначала понадобится задать какой-нибудь соответствующий вопрос к данным, например, как мы можем связать характеристики статьи с дескрипторами читателей, для которых вы могли бы использовать изучение правил ассоциации. Если бы ваш вопрос был больше о дизайне вашего уровня анализа данных, я бы посоветовал вам разделить основные функции анализа и отчеты. В модуле основного анализа попробуйте представить свои данные только с помощью массивов numpy (которые могут обрабатывать строки). В остальном это зависит от вопросов, на которые вы хотите ответить, которые определят ваши требования. 18.09.2012
  • так что вы рекомендуете, чтобы я хранил свои данные в базе данных MySQL; всякий раз, когда мне нужно провести статистический анализ и отчетность, я беру то, что мне нужно, из БД в пустые структуры данных; использовать эти структуры для обучения моих моделей машинного обучения. Верно? 19.09.2012
  • Где хранить ваши данные, зависит от жизненного цикла вашей информации и их количества. Хранить их только в одном месте проще и легче реализовать. Но если у вас огромное количество данных, может быть интересно подумать о более сложной модели данных. Часто лучше начать с чего-то простого, что соответствует вашим спецификациям, а затем оптимизировать и пересматривать дизайн, если этого требует фактическое использование. 19.09.2012

  • 2

    Для анализа и визуализации у вас есть кубы, как вы упомянули, а для визуализации я использую CubesViewer, который я написал.

    30.10.2013
    Новые материалы

    Коллекции публикаций по глубокому обучению
    Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..

    Представляем: Pepita
    Фреймворк JavaScript с открытым исходным кодом Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..

    Советы по коду Laravel #2
    1-) Найти // You can specify the columns you need // in when you use the find method on a model User::find(‘id’, [‘email’,’name’]); // You can increment or decrement // a field in..

    Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)
    Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv) Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..

    3 способа решить квадратное уравнение (3-й мой любимый) -
    1. Методом факторизации — 2. Используя квадратичную формулу — 3. Заполнив квадрат — Давайте поймем это, решив это простое уравнение: Мы пытаемся сделать LHS,..

    Создание VR-миров с A-Frame
    Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..

    Демистификация рекурсии
    КОДЕКС Демистификация рекурсии Упрощенная концепция ошеломляющей О чем весь этот шум? Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..