Arhn - архитектура программирования

Как увеличить скорость выделения списка смежности?

After deciding that adjacency matrix won't work out for 80513 nodes and 5899882 edges I've decided to apply adjacency list. It's my first implementation of adjacency list and basically I've decided to apply vector of vectors method.

Таким образом, например, vectorOfVectors[5] будет содержать соседей для включения соседнего узла 5. Набор данных, который я использую, можно найти здесь

В настоящее время я написал этот код, и он работает без ошибок, однако на моем компьютере это занимает 26 секунд (i5 2.4 с 6 ГБ оперативной памяти, работающая под управлением Win7). Мне было интересно, можно ли улучшить мой код, чтобы уменьшить скорость выделения.

PS: я использую библиотеку fstream и читаю из файла .csv.

#include <iostream>
#include <fstream>
#include <vector>
#include <cstdlib>

using namespace std;

int main()
{
    ifstream file("edges.csv");
    string word="",data="";
    getline(file,word);
    int arrTemp[3];
    int numberOfNodes=atoi(word.c_str());
    vector<int>temp;
    vector< vector<int> >adjacencyList;

    for(int i=0;i<numberOfNodes;i++)
    {
        adjacencyList.push_back(temp);
    }
    while(file.good() && getline(file,word))
    {
        //cout<<word<<endl;
        if(word.size()>0)
        {
            for(int i=0;i<3;i++)
            {
                int cutFrom=word.find_first_of(',');
                arrTemp[i]=atoi(word.substr(0,cutFrom).c_str());
                word=word.substr(cutFrom+1,word.length());
            }
            //cout<<arrTemp[0]<<" "<<arrTemp[1]<<endl;
            adjacencyList[arrTemp[0]-1].push_back(arrTemp[1]-1);

        }
        else
            break;
    }

    cout<<"Vector size:"<<adjacencyList[1].size()<<endl;
    return 0;
}

  • Это должно быть опубликовано на Codereview. 11.04.2012
  • Если вам нужна помощь в выборе представления данных, подходящего для вашей задачи, вы можете обратиться в раздел Computer Science. В CS вам нужно будет объяснить свою проблему на английском или математике, вы не можете ожидать, что люди будут знать C++. Если вы хотите придерживаться этого представления данных и ищете способы сделать реализацию C++ более эффективной, это правильное место. 11.04.2012
  • @Gilles Прежде всего, спасибо за подробное описание. Однако то, что я действительно ищу, - это последнее, что вы сказали выше. Я хотел бы улучшить приведенный выше код, повысить эффективность реализации C++. В любом случае, совершенно другая структура данных мне сейчас не поможет. 11.04.2012
  • Просто мысль: код для синтаксического анализа CSV должен быть отделен от кода, который фактически заполняет adjacency list. И, пожалуйста, используйте больше пробелов в коде. 15.04.2012

Ответы:


1

Лучшим подходом было бы unordered_set пар индексов узлов (где пары всегда перечисляют меньший узел первым).

10.04.2012

2

Вы можете предварительно выделить память для adjacencyList с помощью adjacencyList.reserve(numberOfNodes). Это уменьшит ненужное выделение памяти и копирование данных.

Кроме того, в Visual Studio в режиме отладки среда выполнения STL отслеживает все итераторы, что иногда замедляет работу с огромными контейнерами. Порядки величин между Debug/Release не редкость. Исследуйте "Поддержка итератора отладки" для получения дополнительной информации.

10.04.2012
Новые материалы

Коллекции публикаций по глубокому обучению
Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..

Представляем: Pepita
Фреймворк JavaScript с открытым исходным кодом Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..

Советы по коду Laravel #2
1-) Найти // You can specify the columns you need // in when you use the find method on a model User::find(‘id’, [‘email’,’name’]); // You can increment or decrement // a field in..

Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)
Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv) Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..

3 способа решить квадратное уравнение (3-й мой любимый) -
1. Методом факторизации — 2. Используя квадратичную формулу — 3. Заполнив квадрат — Давайте поймем это, решив это простое уравнение: Мы пытаемся сделать LHS,..

Создание VR-миров с A-Frame
Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..

Демистификация рекурсии
КОДЕКС Демистификация рекурсии Упрощенная концепция ошеломляющей О чем весь этот шум? Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..