У меня есть мои данные в следующей структуре:
Цитируется
1000026 4043055
1000033 4190903
1000033 4975983
1000033 4786543
1000043 4091523
1000044 4082383
1000044 4055371
1000045 4290571
1000046 5918892
1000046 5525001
Мне нужно создать код PIG для преобразования данных в следующую структуру:
Цитируется
1000026 4043055
1000033 4190903, 4975983, 4786543
1000043 4091523
1000044 4082383, 4055371
1000045 4290571
1000046 5918892, 5525001
Есть 16 миллионов строк данных, поэтому я не могу сделать это вручную.
Я использую редактор Cloudera PIG. Все данные числовые.
Любая помощь приветствуется.
A
иB
в:A = LOAD 'input' USING PigStorage(' ') AS (col1:chararray, col2:chararray);
. Этот путь намного короче. 25.03.2015