Arhn - архитектура программирования

Выигрыш от многопоточности намного меньше, чем ожидалось — почему?

У меня есть оценка функции, которая несколько медленная. Я пытаюсь ускорить его с помощью многопоточности, так как есть три вещи, которые можно делать параллельно. Однопоточная версия

return dEdx_short(E) + dEdx_long(E) + dEdx_quantum(E);

где вычисление этих функций занимает ~250 мкс, ~250 мкс и ~100 мкс соответственно. Поэтому я реализовал трехпоточное решение:

double ret_short, ret_long, ret_quantum; // return values for the terms

auto shortF = [this,&E,&ret_short] () {ret_short = this->dEdx_short(E);};
std::thread t1(shortF);
auto longF = [this,&E,&ret_long] () {ret_long = this->dEdx_long(E);};
std::thread t2(longF);
auto quantumF = [this,&E,&ret_quantum] () {ret_quantum = this->dEdx_quantum(E);};
std::thread t3(quantumF);

t1.join();
t2.join();
t3.join();

return ret_short + ret_long + ret_quantum;

Я ожидал, что это займет около 300 долларов США, но на самом деле это занимает около 600 долларов США - в основном то же самое, что и однопоточная версия! Все они по своей сути потокобезопасны, поэтому блокировки не нужно ждать. Я проверил время создания потока в своей системе, и оно составляет ~ 25 мкс. Я не использую все свои ядра, поэтому я немного озадачен тем, почему параллельное решение такое медленное. Это как-то связано с созданием лямбды?

Я пытался обойти лямбду, например:

std::thread t1(&StopPow_BPS::dEdx_short, this, E, ret_short);

после перезаписи вызываемой функции, но это дало мне ошибку attempt to use a deleted function...


  • Код часто фактически не привязан к выполнению. Память часто является дросселем. Многопоточность покупает вам больше ядер, а не больше шин памяти. Используйте хороший профилировщик, чтобы вы могли видеть процент промахов кеша. 08.04.2014
  • Вы делаете какие-либо IO? Например, если вы читаете с жесткого диска, вы не можете читать с него более одного раза за раз, поэтому у вас, по сути, будут потоки, ожидающие друг друга. 08.04.2014
  • Вы пробовали тестировать неактивный поток? 08.04.2014
  • Хорошая точка зрения! Спасибо. Две самые медленные функции - это численное интегрирование, которое, как я предполагал, будет выполняться ограниченно, не задумываясь об этом... Я буду использовать профилировщик. 08.04.2014
  • Нет операций ввода-вывода, и неактивный поток создается и выполняется довольно быстро (25 мкс). 08.04.2014
  • Это прозвучит глупо, но... разве все потоки по какой-то причине не имеют одинаковую привязку к процессору? 08.04.2014
  • Если скорость регулируется кешем инструкций, то многопоточность не улучшит производительность. 09.04.2014
  • на каком оборудовании выполняется этот код, потому что, если вашей машине нужно часто переключать контекст, это может быть медленнее, чем фактический код, который необходимо выполнить 09.04.2014
  • 25us для запуска потока, ожидания и уничтожения звучит для меня очень быстро. Вы уверены в этом номере? Если бы число было 125us, это прекрасно объяснило бы время. 09.04.2014
  • @Massa Связанный вопрос: включена ли многопоточность в вашем компиляторе? Возможно, ваши потоки фактически запускаются только после вызова метода join()? Кроме того... std::async может быть больше того, что вы хотите использовать. 09.04.2014
  • Это определенно накладные расходы std::thread. Время, необходимое для вычислений, слишком мало для распараллеливания, чтобы дать преимущество. Вы можете попробовать создать пул потоков (который устраняет накладные расходы на создание/уничтожение) и передать задания этому пулу. Пусть нити живут немного дольше. 09.04.2014
  • Да, значит, Ханс направил меня в правильном направлении. Все подметоды зависали на некоторых операциях с памятью, которые я оптимизировал. Однопоточное время теперь составляет ~ 400 мкс, а многопоточное — ~ 250 мкс, что кажется мне разумным, учитывая, что самая длинная подзадача занимает чуть меньше 200. Это на ~ годовалой MBP, работающей под управлением 10.8. Я выполнил тестовое создание/уничтожение потока, чтобы получить время 25 мкс. Спасибо всем! 10.04.2014

Ответы:


1

Возможно, вы столкнулись с ложным публикацией. Для проверки сохраните возвращаемые значения в типе, который использует всю строку кэша (размер зависит от процессора).

const int cacheLineSize = 64; // bytes
union CacheFriendly
{
    double value;
    char dummy[cacheLineSize];
} ret_short, ret_long, ret_quantum; // return values for the terms
// ...
08.04.2014
  • не будет ли union cache_friendly { double value; char dummy[CACHE_LINE_SIZE]; }; лучше? 09.04.2014
  • @Massa Да, это менее подробно и более удобно для использования. Я обновил свой ответ вашей идеей. 09.04.2014
  • Новые материалы

    Коллекции публикаций по глубокому обучению
    Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..

    Представляем: Pepita
    Фреймворк JavaScript с открытым исходным кодом Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..

    Советы по коду Laravel #2
    1-) Найти // You can specify the columns you need // in when you use the find method on a model User::find(‘id’, [‘email’,’name’]); // You can increment or decrement // a field in..

    Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)
    Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv) Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..

    3 способа решить квадратное уравнение (3-й мой любимый) -
    1. Методом факторизации — 2. Используя квадратичную формулу — 3. Заполнив квадрат — Давайте поймем это, решив это простое уравнение: Мы пытаемся сделать LHS,..

    Создание VR-миров с A-Frame
    Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..

    Демистификация рекурсии
    КОДЕКС Демистификация рекурсии Упрощенная концепция ошеломляющей О чем весь этот шум? Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..