Arhn - архитектура программирования

Найдите максимум для каждой группы и верните другой столбец

Учитывая следующую матрицу тестов:

testMatrix <- matrix( c(1,1,2,10,20,30,300,100,200,"A","B","C"), 3, 4)

colnames(testMatrix) <- c("GroupID", "ElementID", "Value", "Name")

Здесь я хочу найти максимальное значение для каждой группы, а затем вернуть имя этого столбца. Например. Я ожидал бы 1, A и 2, C. Если будет ничья с max, первое совпадение будет в порядке. После этого мне пришлось бы прикрепить это к матрице с новым столбцом «GroupName».

Как я могу это сделать?

У меня уже есть комбинация Group, Max Value:

groupMax <- aggregate (as.numeric(testMatrix[,3]), by=list( testMatrix[,1] ), max )

То, как я добавлял столбцы в свою матрицу, работает следующим образом (предположим, что уже есть матрица groupNames с GroupID, комбинациями Name):

testMatrix <- cbind ( testMatrix, groupNames[match( testMatrix[,1], groupNames[,1] ), 2] ) 

  • Мне непонятно, чего вы хотите. Последняя строка кода то, что вам нужно? Я думаю, что groupNames должно быть groupMax. Есть ли причина, по которой вы работаете в матрице, а не в data.frame? 20.08.2012
  • Я хочу 2 вещи, но давайте придерживаться моей первоначальной проблемы: из моей testMatrix я хотел бы получить resultMatrix с двумя столбцами: GroupID и Name. Где для GroupID берется Имя, где Value равно max testMatrix. Из этого образца хотелось бы иметь 1, А; 2, В в конце. Ясно теперь? 20.08.2012

Ответы:


1

Базовое решение, не такое простое, как у Дэна М:

testMatrix <- data.frame(GroupID = c(1,1,2), ElementID = c(10,20,30), 
    Value=c(300,100,200), Name=c("A","B","C"))

A <- lapply(split(testMatrix, testMatrix$GroupID), function(x) {
        x[which.max(x$Value), c(1, 4)]
    }
)
do.call(rbind, A)
20.08.2012
  • Большое спасибо! Наконец-то мне удалось превратить мою матрицу в DF, как у вас. Ваша функция у меня отлично работает! Когда я позволяю ему работать на 10 тыс. Строк моего DF, все в порядке. Но когда я позволяю ему работать для всего моего материала (25 тыс. Строк, из которых около 15 тыс. Разных групп), я получаю эту ошибку для A: не могу выделить вектор размером 93,4 КБ, а этот - для do.call: в rbind (deparse.level, ...): достигнуто общее выделение 1535 МБ: см. справку (memory.size). Что я мог здесь сделать? Могу ли я зарезервировать больше памяти, и если да, то как? 21.08.2012
  • Кстати: мне кажется, что проблема с split () вызывает ошибку, которую я получаю. тем временем я rm () все объекты, которые мне больше не нужны, а также расширяю память до 2 ГБ, но я все равно получаю эту ошибку. мне это кажется странным, так как 93,4 КБ в те дни - это действительно ничто ... 21.08.2012

  • 2

    data.table решение для экономии времени и памяти и синтаксической элегантности

    library(data.table)
    DT <- as.data.table(testMatrix)
    DT[,list(Name = Name[which.max(Value)]),by = GroupID] 
    
    27.09.2012
  • Это вызвало мысль. Только что подняли FR # 2286 Предполагаемое именование, поэтому ему автоматически присвоено имя Name вместо V1, чтобы сэкономить list(Name=Name[...]). 27.09.2012

  • 3

    Как сказал @Tyler, с data.frame легче работать. Вот вариант:

    testMatrix <- data.frame(GroupID = c(1,1,2), ElementID = c(10,20,30), Value=c(300,100,200), Name=c("A","B","C"))
    ddply(testMatrix, .(GroupID), summarize, Name=Name[which.max(Value)])
    
    20.08.2012
  • Прежде всего, спасибо за ваш вклад! Я попытался преобразовать свою матрицу в фрейм данных, и у меня возникла ошибка (настоящая, а не тестовая, конечно, что-то вроде double row.names?). Также у меня нет прав на установку пакета plyr. Нет возможности решить эту проблему с помощью базовых функций? 20.08.2012
  • @BaseBallBatBoy Я не могу сказать, что это сработает наверняка, не глядя на ошибку, но попробуйте установить rownames(testMatrix) <- NULL перед преобразованием во фрейм данных. 21.08.2012
  • Сначала я попробовал: testDF ‹- as.data.frame (testMatrix), но это не сработало. Теперь я делаю это так, как сказал DanM, и он просто отлично работал: testDF ‹- data.frame (GroupID = testMatrix [, 1], ElementID = testMatrix [, 2], Value = testMatrix [, 3], Name = testMatrix [, 4 ]) 21.08.2012

  • 4

    Я придумал хороший способ сделать это через dplyr

    filter(group_by(testMatrix,GroupID),min_rank(desc(Value))==1)
    
    16.10.2014
    Новые материалы

    Коллекции публикаций по глубокому обучению
    Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..

    Представляем: Pepita
    Фреймворк JavaScript с открытым исходным кодом Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..

    Советы по коду Laravel #2
    1-) Найти // You can specify the columns you need // in when you use the find method on a model User::find(‘id’, [‘email’,’name’]); // You can increment or decrement // a field in..

    Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)
    Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv) Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..

    3 способа решить квадратное уравнение (3-й мой любимый) -
    1. Методом факторизации — 2. Используя квадратичную формулу — 3. Заполнив квадрат — Давайте поймем это, решив это простое уравнение: Мы пытаемся сделать LHS,..

    Создание VR-миров с A-Frame
    Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..

    Демистификация рекурсии
    КОДЕКС Демистификация рекурсии Упрощенная концепция ошеломляющей О чем весь этот шум? Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..