Arhn - архитектура программирования

Преобразование данных PIG с помощью редактора Cloudera PIG

У меня есть мои данные в следующей структуре:

Цитируется

1000026 4043055
1000033 4190903
1000033 4975983
1000033 4786543
1000043 4091523
1000044 4082383
1000044 4055371
1000045 4290571
1000046 5918892
1000046 5525001

Мне нужно создать код PIG для преобразования данных в следующую структуру:

Цитируется

1000026 4043055
1000033 4190903, 4975983, 4786543
1000043 4091523
1000044 4082383, 4055371
1000045 4290571
1000046 5918892, 5525001

Есть 16 миллионов строк данных, поэтому я не могу сделать это вручную.

Я использую редактор Cloudera PIG. Все данные числовые.

Любая помощь приветствуется.


  • Вы хотите использовать GROUP. 25.03.2015

Ответы:


1

Я не уверен, что ваш ввод на самом деле tab delimited or space delimited. Основываясь на приведенном выше вводе, я предположил, что он ограничен space.

ПигСкрипт:

A = LOAD 'input' AS (line:chararray);
B = FOREACH A GENERATE FLATTEN(STRSPLIT(line,'\\s+')) AS (col1,col2);
C = GROUP B BY col1;
D = FOREACH C GENERATE group,FLATTEN(REPLACE(BagToString(B.$1.col2),'_',','));
STORE D INTO 'output';

Вывод:

1000026 4043055
1000033 4190903,4975983,4786543
1000043 4091523
1000044 4082383,4055371
1000045 4290571
1000046 5918892,5525001

Приведенный выше вывод будет сгенерирован в файле output/part*.

23.03.2015
  • Спасибо за ваш быстрый ответ. Однако мои данные находятся в текстовом файле, разделенном запятыми. Когда я запускаю предоставленный вами сценарий, он создает поле Цитирование и Цитирование и NULL. Как изменить сценарий для учета файла с разделителями-запятыми? Спасибо. 24.03.2015
  • Вы можете объединить A и B в: A = LOAD 'input' USING PigStorage(' ') AS (col1:chararray, col2:chararray);. Этот путь намного короче. 25.03.2015
  • @ mr2ert, да, вы правы, но вместо одного пробела во входных данных существует несколько пробелов, тогда он не будет работать, поэтому я не объединил его в один stmt. (используется '\\s+' во втором stmt). 25.03.2015
  • @ Джеймс, ваш ввод примерно такой: 1000026,4043055 ?. Вы можете обновить исходный ввод? 25.03.2015
  • Новые материалы

    Коллекции публикаций по глубокому обучению
    Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..

    Представляем: Pepita
    Фреймворк JavaScript с открытым исходным кодом Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..

    Советы по коду Laravel #2
    1-) Найти // You can specify the columns you need // in when you use the find method on a model User::find(‘id’, [‘email’,’name’]); // You can increment or decrement // a field in..

    Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)
    Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv) Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..

    3 способа решить квадратное уравнение (3-й мой любимый) -
    1. Методом факторизации — 2. Используя квадратичную формулу — 3. Заполнив квадрат — Давайте поймем это, решив это простое уравнение: Мы пытаемся сделать LHS,..

    Создание VR-миров с A-Frame
    Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..

    Демистификация рекурсии
    КОДЕКС Демистификация рекурсии Упрощенная концепция ошеломляющей О чем весь этот шум? Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..