Комментировать

T-Edge

Сегодня получил возможность прогнать свою задачу на кластере из стоек T-Edge 8 (2.33GHz), - http://www.t-platforms.ru/ru/clusters/clusters/complete/tedge.html.
Пиковая производительность стойки 300GFlops.
Всего четыре таких стойки.
В одной стойке 4 узла+1 мастер узел(вроде такой-же).
В каждом узле 2 четырёх ядерных Xeon'а (архитектура типа Core2Duo), 16 ГБ памяти.
Установлен ANSYS (MPI) - лицензия на 32 процесса(можно ими забить полностью 4 узла, но можно и распределить).
Раньше ANSYS запускали только на одной из двух стоек (т.к. думали что быстрее), и соответственно под ansys настроены только две стойки.
Сегодня я экспериментировал и показал, что если распределять потоки по разным стойкам, то получается быстрее(примерно в два раза), за счёт того, что итерационные методы упираются в основном в ПСП.

Сравнение по скорости с GTX480:
(GTX480 оказалась быстрее)
ускорение по времени: 1.98 раз
ускорение GFlops(на SPMV): 1.33 раз.
Интересно, что на кластере SPMV занимает примерно третью часть времени от всего решения, когда на одном компьютере(Core I7 из предыдущего поста) две трети. Это может быть связанно с латентностью сети на операциях редукции(которые происходят на каждой итерации, как и SPMV(на SPMV, нет обмена между узлами)).