Выигрыш от многопоточности намного меньше, чем ожидалось — почему?

У меня есть оценка функции, которая несколько медленная. Я пытаюсь ускорить его с помощью многопоточности, так как есть три вещи, которые можно делать параллельно. Однопоточная версия

return dEdx_short(E) + dEdx_long(E) + dEdx_quantum(E);

где вычисление этих функций занимает ~250 мкс, ~250 мкс и ~100 мкс соответственно. Поэтому я реализовал трехпоточное решение:

double ret_short, ret_long, ret_quantum; // return values for the terms

auto shortF = [this,&E,&ret_short] () {ret_short = this->dEdx_short(E);};
std::thread t1(shortF);
auto longF = [this,&E,&ret_long] () {ret_long = this->dEdx_long(E);};
std::thread t2(longF);
auto quantumF = [this,&E,&ret_quantum] () {ret_quantum = this->dEdx_quantum(E);};
std::thread t3(quantumF);

t1.join();
t2.join();
t3.join();

return ret_short + ret_long + ret_quantum;

Я ожидал, что это займет около 300 долларов США, но на самом деле это занимает около 600 долларов США - в основном то же самое, что и однопоточная версия! Все они по своей сути потокобезопасны, поэтому блокировки не нужно ждать. Я проверил время создания потока в своей системе, и оно составляет ~ 25 мкс. Я не использую все свои ядра, поэтому я немного озадачен тем, почему параллельное решение такое медленное. Это как-то связано с созданием лямбды?

Я пытался обойти лямбду, например:

std::thread t1(&StopPow_BPS::dEdx_short, this, E, ret_short);

после перезаписи вызываемой функции, но это дало мне ошибку attempt to use a deleted function...

08.04.2014

Код часто фактически не привязан к выполнению. Память часто является дросселем. Многопоточность покупает вам больше ядер, а не больше шин памяти. Используйте хороший профилировщик, чтобы вы могли видеть процент промахов кеша. 08.04.2014
Вы делаете какие-либо IO? Например, если вы читаете с жесткого диска, вы не можете читать с него более одного раза за раз, поэтому у вас, по сути, будут потоки, ожидающие друг друга. 08.04.2014
Вы пробовали тестировать неактивный поток? 08.04.2014
Хорошая точка зрения! Спасибо. Две самые медленные функции - это численное интегрирование, которое, как я предполагал, будет выполняться ограниченно, не задумываясь об этом... Я буду использовать профилировщик. 08.04.2014
Нет операций ввода-вывода, и неактивный поток создается и выполняется довольно быстро (25 мкс). 08.04.2014
Это прозвучит глупо, но... разве все потоки по какой-то причине не имеют одинаковую привязку к процессору? 08.04.2014
Если скорость регулируется кешем инструкций, то многопоточность не улучшит производительность. 09.04.2014
на каком оборудовании выполняется этот код, потому что, если вашей машине нужно часто переключать контекст, это может быть медленнее, чем фактический код, который необходимо выполнить 09.04.2014
25us для запуска потока, ожидания и уничтожения звучит для меня очень быстро. Вы уверены в этом номере? Если бы число было 125us, это прекрасно объяснило бы время. 09.04.2014
@Massa Связанный вопрос: включена ли многопоточность в вашем компиляторе? Возможно, ваши потоки фактически запускаются только после вызова метода join()? Кроме того... std::async может быть больше того, что вы хотите использовать. 09.04.2014
Это определенно накладные расходы std::thread. Время, необходимое для вычислений, слишком мало для распараллеливания, чтобы дать преимущество. Вы можете попробовать создать пул потоков (который устраняет накладные расходы на создание/уничтожение) и передать задания этому пулу. Пусть нити живут немного дольше. 09.04.2014
Да, значит, Ханс направил меня в правильном направлении. Все подметоды зависали на некоторых операциях с памятью, которые я оптимизировал. Однопоточное время теперь составляет ~ 400 мкс, а многопоточное — ~ 250 мкс, что кажется мне разумным, учитывая, что самая длинная подзадача занимает чуть меньше 200. Это на ~ годовалой MBP, работающей под управлением 10.8. Я выполнил тестовое создание/уничтожение потока, чтобы получить время 25 мкс. Спасибо всем! 10.04.2014

Ответы:

Возможно, вы столкнулись с ложным публикацией. Для проверки сохраните возвращаемые значения в типе, который использует всю строку кэша (размер зависит от процессора).

const int cacheLineSize = 64; // bytes
union CacheFriendly
{
    double value;
    char dummy[cacheLineSize];
} ret_short, ret_long, ret_quantum; // return values for the terms
// ...

08.04.2014

не будет ли union cache_friendly { double value; char dummy[CACHE_LINE_SIZE]; }; лучше? 09.04.2014

@Massa Да, это менее подробно и более удобно для использования. Я обновил свой ответ вашей идеей. 09.04.2014

Новые материалы

Коллекции публикаций по глубокому обучению

Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..

Представляем: Pepita

Фреймворк JavaScript с открытым исходным кодом Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..

Советы по коду Laravel #2

1-) Найти // You can specify the columns you need // in when you use the find method on a model User::find(‘id’, [‘email’,’name’]); // You can increment or decrement // a field in..

Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)

Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv) Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..

3 способа решить квадратное уравнение (3-й мой любимый) -

1. Методом факторизации — 2. Используя квадратичную формулу — 3. Заполнив квадрат — Давайте поймем это, решив это простое уравнение: Мы пытаемся сделать LHS,..

Создание VR-миров с A-Frame

Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..

Демистификация рекурсии

КОДЕКС Демистификация рекурсии Упрощенная концепция ошеломляющей О чем весь этот шум? Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Web Development Software Development Python Coding Deep Learning AI React Software Engineering Nodejs Front End Development Java Algorithms Computer Science Typescript Data Tech Development CSS HTML Programming Languages Tutorial Angular Startup Productivity Python Programming Neural Networks Computer Vision Open Source Javascript Tips AWS Education NLP Learning Mlops