Arhn - архитектура программирования

Spark CodeGenerator: не удалось скомпилировать с Dataset.groupByKey

Я новичок как в Scala, так и в Spark, поэтому, надеюсь, кто-нибудь может дать мне знать, где я ошибаюсь.

У меня есть набор данных из трех столбцов (идентификатор, имя, год), и я хочу найти самый последний год для каждого имени. Другими словами:

BEFORE                                          AFTER
| id_1 | name_1 | 2015 |                        | id_2 | name_1 | 2016 |
| id_2 | name_1 | 2016 |                        | id_4 | name_2 | 2015 |
| id_3 | name_1 | 2014 | 
| id_4 | name_2 | 2015 |
| id_5 | name_2 | 2014 |

Я думал, что groupByKey и reduceGroups справятся со своей задачей:

val latestYears = ds
  .groupByKey(_.name)
  .reduceGroups((left, right) => if (left.year > right.year) left else right)
  .map(group => group._2)

Но он выдает эту ошибку и выдает много сгенерированного кода Java:

ERROR CodeGenerator: failed to compile: 
org.codehaus.commons.compiler.CompileException: 
File 'generated.java', Line 21, Column 101: Unknown variable or type "value4"

Интересно, что если я создам набор данных только со столбцами имени и года, он будет работать, как и ожидалось.


Вот полный код, который я запускаю:

object App {

  case class Record(id: String, name: String, year: Int)

  def main(args: Array[String]) {
    val spark = SparkSession.builder().master("local").appName("test").getOrCreate()
    import spark.implicits._

    val ds = spark.createDataset[String](Seq(
        "id_1,name_1,2015",
        "id_2,name_1,2016",
        "id_3,name_1,2014",
        "id_4,name_2,2015",
        "id_5,name_2,2014"
      ))
      .map(line => {
        val fields = line.split(",")
        new Record(fields(0), fields(1), fields(2).toInt)
      })

    val latestYears = ds
      .groupByKey(_.name)
      .reduceGroups((left, right) => if (left.year > right.year) left else right)
      .map(group => group._2)

    latestYears.show()
  }


}

EDIT: я считаю, что это может быть ошибка в Spark v2.0.1. После понижения до версии 2.0.0 этого больше не происходит.


  • Здесь та же проблема, я решил проблему, преобразовав reduceGroups().map(._2) в mapGroups(.reduce(_._2)). Вы уже сообщили об этой проблеме в список рассылки искры/систему отслеживания проблем? 25.10.2016
  • Это может быть ошибка, но меня больше беспокоит сам код. Почему бы вам не использовать groupBy и max на year? Однако он использует нетипизированный API DataFrame (не набор данных). Какая-то конкретная причина? 22.04.2017

Ответы:


1

Ваши функции groupBy и reduceGroups: экспериментальный. Почему бы не использовать reduceByKey (api)?

Плюсы:

  • Это должно быть легко перевести из кода, который у вас есть.
  • Он более стабильный (не экспериментальный).
  • Это должно быть более эффективно, поскольку не требует полного перемешивания всех элементов в каждой группе (что также может привести к замедлению сетевого ввода-вывода и переполнению памяти в узле).
27.12.2017
Новые материалы

Коллекции публикаций по глубокому обучению
Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..

Представляем: Pepita
Фреймворк JavaScript с открытым исходным кодом Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..

Советы по коду Laravel #2
1-) Найти // You can specify the columns you need // in when you use the find method on a model User::find(‘id’, [‘email’,’name’]); // You can increment or decrement // a field in..

Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)
Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv) Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..

3 способа решить квадратное уравнение (3-й мой любимый) -
1. Методом факторизации — 2. Используя квадратичную формулу — 3. Заполнив квадрат — Давайте поймем это, решив это простое уравнение: Мы пытаемся сделать LHS,..

Создание VR-миров с A-Frame
Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..

Демистификация рекурсии
КОДЕКС Демистификация рекурсии Упрощенная концепция ошеломляющей О чем весь этот шум? Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..