Вопросы по теме 'apache-spark'
Подчиненное устройство Apache Mesos не может подключиться к главному
Я пытался настроить apache mesos с двумя машинами, одна в качестве ведомой, другая с ведущей и ведомой. Я использовал пакеты мезосферы для этого.
Ведомое устройство на главной машине (james-pc) подключается нормально, но ведомое устройство на...
30.09.2023
Учебник Spark для Avro
Я начал со Spark, и мой вариант использования — чтение файла Avro (источник данных) и выполнение ETL на основе правил. Для начала я просто хотел попробовать прочитать AVRO и создать RDD. Основываясь на рекомендации на одном из сайтов stackoverflow,...
13.10.2023
Загрузка файла hdf5 больше памяти в pyspark
У меня есть большой файл (скажем, 20 Гб), хранящийся в формате HDF5. Файл представляет собой набор 3D-координат, изменяющихся во времени (траектория молекулярного моделирования). Это в основном массив формы (8000 (frames), 50000 (particles), 3...
28.09.2023
NoSuchMethodError — org.apache.spark.util.Utils$.withDummyCallSite
Я пытаюсь запустить задание Spark (Spark 1.4.0) в кластере. Как из командной строки, так и из Eclipse я получаю сообщение об ошибке об отсутствии функции withDummyCallSite в классе Spark Utils. В зависимостях maven я вижу, что загружается...
08.12.2023
Сериализатор Kryo вызывает исключение в базовом классе Scala WrappedArray
Два вопроса, ответ на общий поможет мне понять, насколько минимально я могу сделать MVCE.
1) Как узнать, что WrappedArray нужно зарегистрировать заранее (и любой другой класс в Scala, который я мог бы использовать)? Нормально ли регистрировать...
23.11.2023
Карта Spark — это только одна задача, хотя она должна быть параллельной (PySpark)
У меня есть RDD с около 7M записей с 10 нормализованными координатами в каждой. У меня также есть несколько центров, и я пытаюсь сопоставить каждую запись с ближайшим центром (евклидово расстояние). Проблема в том, что это генерирует только одну...
07.10.2023
Агрегатная функция искры Apache с использованием минимального значения
Я попробовал один пример, найденный на http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html
val z = sc.parallelize(List("12","23","345","4567"),2)
z.aggregate("")((x,y) => math.min(x.length, y.length).toString, (x,y) => x +...
16.10.2023
Понимание искры --master
У меня есть простое приложение spark, которое читает master из файла конфигурации:
new SparkConf()
.setMaster(config.getString(SPARK_MASTER))
.setAppName(config.getString(SPARK_APPNAME))
Что произойдет, если мое приложение будет запущено...
23.10.2023
Искра высокой доступности
Я использую spark 1.2.1 на трех узлах, на которых работают три рабочих процесса с подчиненной конфигурацией и выполняются ежедневные задания, используя:
./spark-1.2.1/sbin/start-all.sh
//crontab configuration:
./spark-1.2.1/bin/spark-submit...
03.12.2023
Почему Рабочий убил Исполнителя?
Я программирую приложение spark в автономном кластере spark. Когда я запускаю следующий код, я получаю исключение ClassNotFoundException (ссылка на скриншот). Итак, я слежу за рабочим журналом (192.168.111.202).
package main
import...
20.12.2023
Уточнение ActiveDirection в Graphx pregel API для вычислений на неориентированном графе
Мне нужно использовать Graphx Pregel API для выполнения вычислений на неориентированном графе. будет ли он игнорировать направленность графика, если я установлю activeDirection = EdgeDirection.Either?
25.09.2023
Найти уникальный набор элементов среди списков, хранящихся как элементы RDD
Мой RDD all_keys хранит списки значений:
>> all_keys.take(3)
[['a','b','c'],
['a','b'],
['a','d','f']]
Большинство этих значений повторяются, но в некоторых списках есть значения, отсутствующие в других списках.
Как получить...
31.10.2023
Spark CodeGenerator: не удалось скомпилировать с Dataset.groupByKey
Я новичок как в Scala, так и в Spark, поэтому, надеюсь, кто-нибудь может дать мне знать, где я ошибаюсь.
У меня есть набор данных из трех столбцов (идентификатор, имя, год), и я хочу найти самый последний год для каждого имени. Другими словами:...
25.10.2023
Получение исключения при записи набора данных в Hive
Я пытаюсь записать DataSet в базу данных Hive с помощью Spark Java, но в процессе я получаю исключение.
Это мой код:
Dataset<Row> data = spark.read().json(rdd).select("event.event_name");...
27.11.2023
Вывод схемы класса case рассматривает как поля опций, так и поля без опций как допускающие значение NULL.
Я выполнил следующее упражнение с искровой оболочкой:
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/___/ .__/\_,_/_/ /_/\_\ version 2.1.0
/_/
Using Scala version 2.11.8 (Java...
11.12.2023
Данные группы SQL искры Apache по диапазону
У меня есть таблица, содержащая столбец «возраст». Я хочу сгруппировать людей по возрасту в группы, E.X: [0, 5], [5, 10], [10, 15), ....
затем я сделаю такие же расчеты для каждой группы и сравним результаты.
Цель этого состоит в том, чтобы...
11.12.2023
Извлечь поля из даты
У меня есть фрейм данных с полем даты в формате "MM/dd/yyyy" в виде строки, и я хочу извлечь в новых полях значение дня недели в Scala. Например, у меня есть кадр данных df :
df.show()
------------
date
-----------
12/14/2017
12/13/2017...
13.10.2023
Hive в Windows: корневой рабочий каталог: /tmp/hive в HDFS должен быть доступен для записи
Я пытаюсь преобразовать приложение Spark для использования выходного хранилища ORC вместо формата Parquet. После изменения моего кода у меня возникает следующая ошибка при запуске приложения в Windows:
> java.lang.RuntimeException: The root...
22.10.2023
Как мы выполняем динамическое перераспределение в Apache Spark?
Предположим, что нам нужно перераспределить набор данных после фильтрации или для достижения степени параллелизма.
Как мы можем выполнить динамическое перераспределение вместо ручной настройки количества разделов?
Примечание. Ищете решение для...
16.12.2023
Эффективные операции с искровым набором данных при разделении по перекрывающимся столбцам
У меня есть набор данных ("guid", "timestamp", "agt"), как показано ниже.
val df = List(Test("a", "1", null),
Test("b", "2", "4"),
Test("a", "1", "3"),
Test("b", "2", "4"),
Test("c", "1", "3"),
Test("a", "6", "8"),
Test("b", "2",...
26.11.2023
Новые материалы
Коллекции публикаций по глубокому обучению
Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..
Представляем: Pepita
Фреймворк JavaScript с открытым исходным кодом
Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..
Советы по коду Laravel #2
1-) Найти
// You can specify the columns you need
// in when you use the find method on a model
User::find(‘id’, [‘email’,’name’]);
// You can increment or decrement
// a field in..
Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)
Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv)
Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..
3 способа решить квадратное уравнение (3-й мой любимый) -
1. Методом факторизации —
2. Используя квадратичную формулу —
3. Заполнив квадрат —
Давайте поймем это, решив это простое уравнение:
Мы пытаемся сделать LHS,..
Создание VR-миров с A-Frame
Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..
Демистификация рекурсии
КОДЕКС
Демистификация рекурсии
Упрощенная концепция ошеломляющей
О чем весь этот шум?
Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..