Arhn - архитектура программирования

Вопросы по теме 'apache-spark'

Подчиненное устройство Apache Mesos не может подключиться к главному
Я пытался настроить apache mesos с двумя машинами, одна в качестве ведомой, другая с ведущей и ведомой. Я использовал пакеты мезосферы для этого. Ведомое устройство на главной машине (james-pc) подключается нормально, но ведомое устройство на...

Учебник Spark для Avro
Я начал со Spark, и мой вариант использования — чтение файла Avro (источник данных) и выполнение ETL на основе правил. Для начала я просто хотел попробовать прочитать AVRO и создать RDD. Основываясь на рекомендации на одном из сайтов stackoverflow,...
13.10.2023

Загрузка файла hdf5 больше памяти в pyspark
У меня есть большой файл (скажем, 20 Гб), хранящийся в формате HDF5. Файл представляет собой набор 3D-координат, изменяющихся во времени (траектория молекулярного моделирования). Это в основном массив формы (8000 (frames), 50000 (particles), 3...

NoSuchMethodError — org.apache.spark.util.Utils$.withDummyCallSite
Я пытаюсь запустить задание Spark (Spark 1.4.0) в кластере. Как из командной строки, так и из Eclipse я получаю сообщение об ошибке об отсутствии функции withDummyCallSite в классе Spark Utils. В зависимостях maven я вижу, что загружается...

Сериализатор Kryo вызывает исключение в базовом классе Scala WrappedArray
Два вопроса, ответ на общий поможет мне понять, насколько минимально я могу сделать MVCE. 1) Как узнать, что WrappedArray нужно зарегистрировать заранее (и любой другой класс в Scala, который я мог бы использовать)? Нормально ли регистрировать...

Карта Spark — это только одна задача, хотя она должна быть параллельной (PySpark)
У меня есть RDD с около 7M записей с 10 нормализованными координатами в каждой. У меня также есть несколько центров, и я пытаюсь сопоставить каждую запись с ближайшим центром (евклидово расстояние). Проблема в том, что это генерирует только одну...

Агрегатная функция искры Apache с использованием минимального значения
Я попробовал один пример, найденный на http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html val z = sc.parallelize(List("12","23","345","4567"),2) z.aggregate("")((x,y) => math.min(x.length, y.length).toString, (x,y) => x +...
16.10.2023

Понимание искры --master
У меня есть простое приложение spark, которое читает master из файла конфигурации: new SparkConf() .setMaster(config.getString(SPARK_MASTER)) .setAppName(config.getString(SPARK_APPNAME)) Что произойдет, если мое приложение будет запущено...
23.10.2023

Искра высокой доступности
Я использую spark 1.2.1 на трех узлах, на которых работают три рабочих процесса с подчиненной конфигурацией и выполняются ежедневные задания, используя: ./spark-1.2.1/sbin/start-all.sh //crontab configuration: ./spark-1.2.1/bin/spark-submit...
03.12.2023

Почему Рабочий убил Исполнителя?
Я программирую приложение spark в автономном кластере spark. Когда я запускаю следующий код, я получаю исключение ClassNotFoundException (ссылка на скриншот). Итак, я слежу за рабочим журналом (192.168.111.202). package main import...

Уточнение ActiveDirection в Graphx pregel API для вычислений на неориентированном графе
Мне нужно использовать Graphx Pregel API для выполнения вычислений на неориентированном графе. будет ли он игнорировать направленность графика, если я установлю activeDirection = EdgeDirection.Either?

Найти уникальный набор элементов среди списков, хранящихся как элементы RDD
Мой RDD all_keys хранит списки значений: >> all_keys.take(3) [['a','b','c'], ['a','b'], ['a','d','f']] Большинство этих значений повторяются, но в некоторых списках есть значения, отсутствующие в других списках. Как получить...
31.10.2023

Spark CodeGenerator: не удалось скомпилировать с Dataset.groupByKey
Я новичок как в Scala, так и в Spark, поэтому, надеюсь, кто-нибудь может дать мне знать, где я ошибаюсь. У меня есть набор данных из трех столбцов (идентификатор, имя, год), и я хочу найти самый последний год для каждого имени. Другими словами:...

Получение исключения при записи набора данных в Hive
Я пытаюсь записать DataSet в базу данных Hive с помощью Spark Java, но в процессе я получаю исключение. Это мой код: Dataset<Row> data = spark.read().json(rdd).select("event.event_name");...

Вывод схемы класса case рассматривает как поля опций, так и поля без опций как допускающие значение NULL.
Я выполнил следующее упражнение с искровой оболочкой: Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ version 2.1.0 /_/ Using Scala version 2.11.8 (Java...

Данные группы SQL искры Apache по диапазону
У меня есть таблица, содержащая столбец «возраст». Я хочу сгруппировать людей по возрасту в группы, E.X: [0, 5], [5, 10], [10, 15), .... затем я сделаю такие же расчеты для каждой группы и сравним результаты. Цель этого состоит в том, чтобы...

Извлечь поля из даты
У меня есть фрейм данных с полем даты в формате "MM/dd/yyyy" в виде строки, и я хочу извлечь в новых полях значение дня недели в Scala. Например, у меня есть кадр данных df : df.show() ------------ date ----------- 12/14/2017 12/13/2017...

Hive в Windows: корневой рабочий каталог: /tmp/hive в HDFS должен быть доступен для записи
Я пытаюсь преобразовать приложение Spark для использования выходного хранилища ORC вместо формата Parquet. После изменения моего кода у меня возникает следующая ошибка при запуске приложения в Windows: > java.lang.RuntimeException: The root...
22.10.2023

Как мы выполняем динамическое перераспределение в Apache Spark?
Предположим, что нам нужно перераспределить набор данных после фильтрации или для достижения степени параллелизма. Как мы можем выполнить динамическое перераспределение вместо ручной настройки количества разделов? Примечание. Ищете решение для...

Эффективные операции с искровым набором данных при разделении по перекрывающимся столбцам
У меня есть набор данных ("guid", "timestamp", "agt"), как показано ниже. val df = List(Test("a", "1", null), Test("b", "2", "4"), Test("a", "1", "3"), Test("b", "2", "4"), Test("c", "1", "3"), Test("a", "6", "8"), Test("b", "2",...

Новые материалы

Коллекции публикаций по глубокому обучению
Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..

Представляем: Pepita
Фреймворк JavaScript с открытым исходным кодом Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..

Советы по коду Laravel #2
1-) Найти // You can specify the columns you need // in when you use the find method on a model User::find(‘id’, [‘email’,’name’]); // You can increment or decrement // a field in..

Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)
Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv) Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..

3 способа решить квадратное уравнение (3-й мой любимый) -
1. Методом факторизации — 2. Используя квадратичную формулу — 3. Заполнив квадрат — Давайте поймем это, решив это простое уравнение: Мы пытаемся сделать LHS,..

Создание VR-миров с A-Frame
Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..

Демистификация рекурсии
КОДЕКС Демистификация рекурсии Упрощенная концепция ошеломляющей О чем весь этот шум? Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..