Arhn - архитектура программирования

Основы Hadoop: что мне делать с выводом?

(Я уверен, что подобный вопрос существует, но я еще не нашел ответ, который ищу.)

Я использую Hadoop и Hive (для наших разработчиков, знакомых с SQL) для пакетной обработки нескольких терабайт данных каждую ночь. Из нескольких сотен массивных CSV-файлов я вывожу четыре или пять довольно больших CSV-файлов. Очевидно, Hive хранит их в HDFS. Первоначально эти входные файлы были извлечены из гигантского хранилища данных SQL.

Hadoop чрезвычайно ценен для того, что он делает. Но каков отраслевой стандарт для обработки выходных данных? Прямо сейчас я использую сценарий оболочки, чтобы скопировать их обратно в локальную папку и загрузить в другое хранилище данных.

Этот вопрос: ( Интеграция Hadoop и MySQL ) называет практику повторного импорта экспорта Hadoop не- стандарт. Как мне исследовать свои данные с помощью инструмента бизнес-аналитики или интегрировать результаты в мое приложение ASP.NET? Бережливость? Протобуф? Драйвер Hive ODBC API? Должен быть лучший способ.....

Просветите меня.


  • Бережливость? Протобуф? Драйвер Hive ODBC API? Должен быть лучший способ... Не могли бы вы уточнить, что вам в них не нравится? Или про копирование из HDFS? Все они кажутся хорошими вариантами для множества разных случаев. 17.05.2011
  • Конечно. Есть много разных вариантов, и я хочу знать, какой самый распространенный способ работы с выводом. Кто-нибудь знает, что использует Yahoo? Другие компании веб-аналитики? Сейчас в этом пространстве много шума, и мы хотим убедиться, что наше решение получит значительную поддержку. 17.05.2011
  • Это не значит, что нам не нравятся варианты. У каждого из них есть убедительные варианты использования, особенно у Thrift и Protobuf. Но является ли это правильным способом доступа к выходным данным Hadoop? (весьма субъективно, но заслуживает внимания) 17.05.2011
  • Это понятно. В таком случае это звучит как вопрос вики-сообщества. Как вы сказали, это очень субъективно - есть много возможных ответов, и вам больше интересно узнать, что разные люди используют и по каким причинам. 17.05.2011

Ответы:


1

В Foursquare я использую драйвер Hive's Thrift для помещения данных в базы данных/электронные таблицы по мере необходимости.

Я поддерживаю сервер заданий, который выполняет задания через драйвер Hive, а затем перемещает вывод туда, где это необходимо. Использование Thrift напрямую очень просто и позволяет использовать любой язык программирования.

Если вы имеете дело с Hadoop напрямую (и не можете его использовать), вам следует проверить Sqoop, созданный Клаудера

Sqoop предназначен для перемещения данных в пакетном режиме (тогда как Flume предназначен для их перемещения в режиме реального времени и, похоже, больше подходит для помещения данных в hdfs, чем для их извлечения).

Надеюсь, это поможет.

07.06.2011
  • Отличный ответ. Спасибо. Я не видел ничего, кроме слайд-шоу Facebook, в плане реальных рабочих процессов. 17.06.2011
  • Новые материалы

    Коллекции публикаций по глубокому обучению
    Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..

    Представляем: Pepita
    Фреймворк JavaScript с открытым исходным кодом Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..

    Советы по коду Laravel #2
    1-) Найти // You can specify the columns you need // in when you use the find method on a model User::find(‘id’, [‘email’,’name’]); // You can increment or decrement // a field in..

    Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)
    Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv) Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..

    3 способа решить квадратное уравнение (3-й мой любимый) -
    1. Методом факторизации — 2. Используя квадратичную формулу — 3. Заполнив квадрат — Давайте поймем это, решив это простое уравнение: Мы пытаемся сделать LHS,..

    Создание VR-миров с A-Frame
    Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..

    Демистификация рекурсии
    КОДЕКС Демистификация рекурсии Упрощенная концепция ошеломляющей О чем весь этот шум? Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..