Arhn - архитектура программирования

Анализ больших данных. Elasticsearch, Logstash, Kibana, MRTG

Поэтому я должен придумать подход, чтобы сделать большой объем данных «читаемым» для пользователя, и мне было интересно, может ли кто-нибудь указать разницу между подходом с использованием чего-то elasticsearch + kibana по сравнению с использованием чего-то вроде MRTG. Что было бы более подходящим для анализа данных, который больше ориентирован на тенденции?


Ответы:


1

Два упомянутых вами подхода предназначены для радикально разных типов данных.

Если ваши данные состоят из ряда регулярных значений метрик с отметками времени, таких как 5-минутные выборки скорости трафика с интерфейса маршрутизатора или 1-минутные выборки с датчика температуры, тогда MRTG (или, скорее, RRDTool, который является серверной базой данных). ) отлично подходит для этого. Если данные нерегулярны, это все еще возможно, хотя вам необходимо несколько настроить параметры базы данных RRDTool, чтобы избежать больших «неизвестных» областей. RRDTool может анализировать тенденции регистрируемых вами метрик, хотя это не делается с помощью MRTG — вам нужно напрямую вызывать функции RRDTool.

Если ваши данные представляют собой нерегулярную последовательность текстовых записей журнала (событий), возможно, с анализируемыми позиционными данными, и вас больше интересует количество или частота событий, а затем детализация для просмотра отдельных событий, Logstash/Kibana — это способ идти. Они предоставят вам графики частоты событий с течением времени, но я не думаю, что они могут обеспечить анализ тенденций. Кроме того, они не обеспечивают графического анализа проанализированных данных, встроенных в текст журнала событий. Logstash/kibana отлично подходят для таких вещей, как Syslog, Eventlog, журналы приложений (например, журналы Apache) и т. д., где вас больше интересует закономерность того, сколько событий, соответствующих определенному шаблону, произошло с течением времени.

Вы не предоставили достаточно информации ни о фактическом характере ваших данных, ни о том, какой «читаемый» анализ требуется вашим пользователям, поэтому это обязательно краткое изложение возможностей.

22.10.2014
  • Я могу привести вам пример: у меня есть эти данные от типа оборудования, где я знаю, сколько проверок и нарушений за определенный период времени (период времени я выбираю в зависимости от того, как я агрегирую данные, и да, это с отметкой времени). Я хочу изобразить это на графике и интерпретировать данные, чтобы мы могли определить шаблоны, чтобы избежать больших проблем (слишком много нарушений, нет проверок пределов). Спасибо за ваш ответ. 23.10.2014
  • Если у вас есть данные с метками времени, как правило, с регулярными интервалами, с количеством нарушений с момента последней выборки, то это было бы идеально для MRTG/RRDTool, использующего тип данных «АБСОЛЮТНЫЙ», который преобразует его в скорость нарушений в секунду. что вы могли бы затем обобщить и построить график с течением времени. Однако если вы создаете одну запись в журнале для каждого нарушения, тогда Elasticsearch может быть более подходящим. 24.10.2014
  • Спасибо за помощь! 03.11.2014

  • 2

    Elasticsearch эффективен для хранения структурированных данных, таких как текст. Вариант использования Logstash — это пример того, как структурировать данные для эффективных запросов.

    MRTG/RRD — это инструмент, используемый для измерения данных временного интервала. Каждые X единиц времени записывайте значение Y. MRTG/RRD не эффективен для хранения текста, его работа не затрагивает вариант использования Elasticsearch.

    Graphite может быть инструментом, который следует рассмотреть, если у вас уже установлена ​​​​и работает Logstash. Logstash может отправлять события в Graphite или Statsd, а также сохранять данные о событиях в ElasticSearch. Преимущество Graphite/Carbon в том, что он не привязан к временному интервалу, как MRTG. Вы можете просто передавать информацию в Graphite столько раз, сколько хотите, или так редко.

    Вариант использования, который вы указали в другом ответе, был бы отличным использованием Graphite или аналогичного инструмента. Вы можете составлять графики и отчеты по многим событиям на основе значений в Graphite, а затем использовать Elasticsearch для сопоставления данных с событием. (Я не имею в виду, что есть интеграция с ES и Graphite, просто если вы используете Logstash для отправки событий, время будет легко искать.)

    29.10.2014
  • Кажется, я только что понял, что вы спрашивали о графических возможностях Кибаны на основе запроса события, не так ли? 29.10.2014
  • Новые материалы

    Коллекции публикаций по глубокому обучению
    Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..

    Представляем: Pepita
    Фреймворк JavaScript с открытым исходным кодом Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..

    Советы по коду Laravel #2
    1-) Найти // You can specify the columns you need // in when you use the find method on a model User::find(‘id’, [‘email’,’name’]); // You can increment or decrement // a field in..

    Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)
    Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv) Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..

    3 способа решить квадратное уравнение (3-й мой любимый) -
    1. Методом факторизации — 2. Используя квадратичную формулу — 3. Заполнив квадрат — Давайте поймем это, решив это простое уравнение: Мы пытаемся сделать LHS,..

    Создание VR-миров с A-Frame
    Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..

    Демистификация рекурсии
    КОДЕКС Демистификация рекурсии Упрощенная концепция ошеломляющей О чем весь этот шум? Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..