Arhn - архитектура программирования

Найти уникальный набор элементов среди списков, хранящихся как элементы RDD

Мой RDD all_keys хранит списки значений:

>> all_keys.take(3)
[['a','b','c'],
 ['a','b'],
 ['a','d','f']]

Большинство этих значений повторяются, но в некоторых списках есть значения, отсутствующие в других списках.

Как получить список уникальных элементов из всех списков, хранящихся в RDD?

23.06.2016

Ответы:


1

Вам потребуется выполнить flatMap для вашего RDD, чтобы преобразовать его из RDD списков строк в RDD строк. Затем вы можете использовать метод distinct() для возврата только уникальных строк.

Создать данные

all_keys = [['category', 'ser_id', 'appname', 'timestamp', 'label', 'ser_token', 'appver', 'action'],
     ['category', 'ser_id', 'appname', 'timestamp', 'vale', 'label', 'ser_token', 'appver', 'action', 'type'], 
     ['category', 'ser_id', 'appname', 'timestamp', 'vale', 'label', 'ser_token', 'appver', 'type' ]]
rdd = sc.parallelize(all_keys)

Определите функцию flatMap

def explode(row):
    for k in row:
        yield k

Плоская карта, получить отдельные элементы, собрать

rdd.flatMap(explode).distinct().collect()

Полученные результаты

['category', 'ser_id', 'type', 'action', 'timestamp', 'ser_token', 'appver', 'vale', 'label', 'appname']

23.06.2016

2

Если вы имеете в виду удалить дубликаты в вашем окончательном списке (в вашем примере нет дубликатов)

list(set(all_keys.take(3)))

Если вы имеете в виду удалить повторяющиеся записи для одного ключа в вашем rdd, например. 'а' использовать

all_keys.distinct(lambda row:row[0])
23.06.2016
Новые материалы

Коллекции публикаций по глубокому обучению
Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..

Представляем: Pepita
Фреймворк JavaScript с открытым исходным кодом Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..

Советы по коду Laravel #2
1-) Найти // You can specify the columns you need // in when you use the find method on a model User::find(‘id’, [‘email’,’name’]); // You can increment or decrement // a field in..

Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)
Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv) Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..

3 способа решить квадратное уравнение (3-й мой любимый) -
1. Методом факторизации — 2. Используя квадратичную формулу — 3. Заполнив квадрат — Давайте поймем это, решив это простое уравнение: Мы пытаемся сделать LHS,..

Создание VR-миров с A-Frame
Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..

Демистификация рекурсии
КОДЕКС Демистификация рекурсии Упрощенная концепция ошеломляющей О чем весь этот шум? Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..