Основы Hadoop: что мне делать с выводом?

(Я уверен, что подобный вопрос существует, но я еще не нашел ответ, который ищу.)

Я использую Hadoop и Hive (для наших разработчиков, знакомых с SQL) для пакетной обработки нескольких терабайт данных каждую ночь. Из нескольких сотен массивных CSV-файлов я вывожу четыре или пять довольно больших CSV-файлов. Очевидно, Hive хранит их в HDFS. Первоначально эти входные файлы были извлечены из гигантского хранилища данных SQL.

Hadoop чрезвычайно ценен для того, что он делает. Но каков отраслевой стандарт для обработки выходных данных? Прямо сейчас я использую сценарий оболочки, чтобы скопировать их обратно в локальную папку и загрузить в другое хранилище данных.

Этот вопрос: ( Интеграция Hadoop и MySQL ) называет практику повторного импорта экспорта Hadoop не- стандарт. Как мне исследовать свои данные с помощью инструмента бизнес-аналитики или интегрировать результаты в мое приложение ASP.NET? Бережливость? Протобуф? Драйвер Hive ODBC API? Должен быть лучший способ.....

Просветите меня.

17.05.2011

Бережливость? Протобуф? Драйвер Hive ODBC API? Должен быть лучший способ... Не могли бы вы уточнить, что вам в них не нравится? Или про копирование из HDFS? Все они кажутся хорошими вариантами для множества разных случаев. 17.05.2011
Конечно. Есть много разных вариантов, и я хочу знать, какой самый распространенный способ работы с выводом. Кто-нибудь знает, что использует Yahoo? Другие компании веб-аналитики? Сейчас в этом пространстве много шума, и мы хотим убедиться, что наше решение получит значительную поддержку. 17.05.2011
Это не значит, что нам не нравятся варианты. У каждого из них есть убедительные варианты использования, особенно у Thrift и Protobuf. Но является ли это правильным способом доступа к выходным данным Hadoop? (весьма субъективно, но заслуживает внимания) 17.05.2011
Это понятно. В таком случае это звучит как вопрос вики-сообщества. Как вы сказали, это очень субъективно - есть много возможных ответов, и вам больше интересно узнать, что разные люди используют и по каким причинам. 17.05.2011

Ответы:

В Foursquare я использую драйвер Hive's Thrift для помещения данных в базы данных/электронные таблицы по мере необходимости.

Я поддерживаю сервер заданий, который выполняет задания через драйвер Hive, а затем перемещает вывод туда, где это необходимо. Использование Thrift напрямую очень просто и позволяет использовать любой язык программирования.

Если вы имеете дело с Hadoop напрямую (и не можете его использовать), вам следует проверить Sqoop, созданный Клаудера

Sqoop предназначен для перемещения данных в пакетном режиме (тогда как Flume предназначен для их перемещения в режиме реального времени и, похоже, больше подходит для помещения данных в hdfs, чем для их извлечения).

Надеюсь, это поможет.

07.06.2011

Отличный ответ. Спасибо. Я не видел ничего, кроме слайд-шоу Facebook, в плане реальных рабочих процессов. 17.06.2011

Новые материалы

Коллекции публикаций по глубокому обучению

Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..

Представляем: Pepita

Фреймворк JavaScript с открытым исходным кодом Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..

Советы по коду Laravel #2

1-) Найти // You can specify the columns you need // in when you use the find method on a model User::find(‘id’, [‘email’,’name’]); // You can increment or decrement // a field in..

Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)

Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv) Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..

3 способа решить квадратное уравнение (3-й мой любимый) -

1. Методом факторизации — 2. Используя квадратичную формулу — 3. Заполнив квадрат — Давайте поймем это, решив это простое уравнение: Мы пытаемся сделать LHS,..

Создание VR-миров с A-Frame

Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..

Демистификация рекурсии

КОДЕКС Демистификация рекурсии Упрощенная концепция ошеломляющей О чем весь этот шум? Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Web Development Software Development Python Coding Deep Learning AI React Software Engineering Nodejs Front End Development Java Algorithms Computer Science Typescript Data Tech Development CSS HTML Programming Languages Tutorial Angular Startup Productivity Python Programming Computer Vision Neural Networks Javascript Tips AWS Education Open Source NLP Learning Developer