(Я уверен, что подобный вопрос существует, но я еще не нашел ответ, который ищу.)
Я использую Hadoop и Hive (для наших разработчиков, знакомых с SQL) для пакетной обработки нескольких терабайт данных каждую ночь. Из нескольких сотен массивных CSV-файлов я вывожу четыре или пять довольно больших CSV-файлов. Очевидно, Hive хранит их в HDFS. Первоначально эти входные файлы были извлечены из гигантского хранилища данных SQL.
Hadoop чрезвычайно ценен для того, что он делает. Но каков отраслевой стандарт для обработки выходных данных? Прямо сейчас я использую сценарий оболочки, чтобы скопировать их обратно в локальную папку и загрузить в другое хранилище данных.
Этот вопрос: ( Интеграция Hadoop и MySQL ) называет практику повторного импорта экспорта Hadoop не- стандарт. Как мне исследовать свои данные с помощью инструмента бизнес-аналитики или интегрировать результаты в мое приложение ASP.NET? Бережливость? Протобуф? Драйвер Hive ODBC API? Должен быть лучший способ.....
Просветите меня.