Arhn - архитектура программирования

Как объединить файлы в Hive, разделенные на разделы и сгруппированные, в один большой файл?

Я работаю над кластером Azure HDInsight для обработки больших данных. Несколько дней назад я создал в улье разделенную и разделенную на сегменты таблицу, объединив множество файлов.

Поскольку в Azure нет возможности остановить кластер, мне пришлось удалить кластер, чтобы сэкономить. Данные независимо хранятся в учетной записи хранения Azure. Когда я создаю новый кластер, используя ту же учетную запись хранения, я могу видеть базу данных и таблицу с помощью команд HDFS, но hive не может прочитать эту базу данных или таблицу, возможно, у hive нет метаданных об этом.

Единственный вариант, который у меня остался, - это объединить все эти разделенные и разделенные файлы в один файл, а затем снова создать таблицу. Итак, есть ли способ перенести эту таблицу в другую базу данных или объединить ее, чтобы ее было легче перенести?


Ответы:


1

Вы можете создать EXTERNAL TABLE (с теми же свойствами, что и раньше), указывающий на этот HDFS location. Поскольку вы упомянули, что у него есть разделы, вы можете запустить MSCK REPAIR TABLE table-name, чтобы также видеть разделы.

Надеюсь это поможет

02.11.2019
  • На самом деле в разделах есть дельта-папки, поскольку таблица создается путем вставки данных из нескольких файлов, и в результате я получаю эту ошибку: Ошибка с исключением java.io.IOException: java.io.FileNotFoundException: wasb: // xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx /hive/warehouse/cdr.db/cdr_main/district=XYZ - это каталог, а не файл. 03.11.2019
  • Похоже, это другая проблема, чем в вашем исходном вопросе! позволяет ли решение, которое я дал, создавать таблицы, извлекать данные и отображать разделы? Если это решит ваш первоначальный вопрос, можете ли вы подробнее рассказать о проблеме, мне трудно понять эту проблему. Было бы лучше задать новый вопрос (если этот вопрос решен) со всеми подробностями или отредактировать этот вопрос, чтобы отразить вашу текущую проблему .. Спасибо 03.11.2019
  • просто чтобы избежать этой проблемы в будущем, вы должны использовать внешнее хранилище метаданных улья. 03.11.2019
  • @Naga, он создал разделы, но я не могу запрашивать данные или даже подсчитывать записи, и поскольку таблица создается путем слияния многих файлов, поэтому дельта-папки существуют. 04.11.2019
  • Не зная, как вы создаете таблицу, структуру базовых данных и как создаются файлы дельты, я не смогу вам помочь. 04.11.2019
  • структура таблицы: Создать таблицу cdr_main (строка actv_strt_dttm, строка actv_end_dttm, строка cell_site_id) РАЗДЕЛЕНА ПО (строка района) КЛАСТЕРИРОВАНА ПО (идентификатор_ячейки) НА 10 ВЕДРО, СОХРАНЕННЫХ КАК ORC TBLPROPERTIES (транзакционный = true); 05.11.2019
  • Новые материалы

    Коллекции публикаций по глубокому обучению
    Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..

    Представляем: Pepita
    Фреймворк JavaScript с открытым исходным кодом Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..

    Советы по коду Laravel #2
    1-) Найти // You can specify the columns you need // in when you use the find method on a model User::find(‘id’, [‘email’,’name’]); // You can increment or decrement // a field in..

    Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)
    Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv) Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..

    3 способа решить квадратное уравнение (3-й мой любимый) -
    1. Методом факторизации — 2. Используя квадратичную формулу — 3. Заполнив квадрат — Давайте поймем это, решив это простое уравнение: Мы пытаемся сделать LHS,..

    Создание VR-миров с A-Frame
    Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..

    Демистификация рекурсии
    КОДЕКС Демистификация рекурсии Упрощенная концепция ошеломляющей О чем весь этот шум? Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..