[x]
Вход
Amazon
AMD
ATI
brute force
bruteforce
cloud
CUDA
GPGPU
gpgpu.ru
GPU Gems
Intel
Larrabee
Linpack
MapReduce
MD5 crack
Nexus
NVidia
NVidia 8800
NVidia CUDA
NVidia G200
NVidia GTX280
NVidia Nexus
OpenCL
Parallel Nsight
signal processing
sparse matrices
Stream SDK
VISPL
VMWare
web
ВМиК МГУ
МГУ
Москва
Т-Платформы
Физфак МГУ
бенчмарки
блогосфера
вычисления
конкурсы
курсы
новости сайта
обработка изображений
подбор паролей
поиск
программирование GPU
работа
разное
сортировка
фильтрация трафика
численные методы
Navigation
Cвежие комментарии
-
1 week 1 day ago
-
1 week 1 day ago
-
1 week 1 day ago
-
1 week 1 day ago
-
1 week 1 day ago
-
1 week 1 day ago
-
1 week 1 day ago
-
1 week 4 days ago
-
3 weeks 4 days ago
-
3 weeks 6 days ago
Новое на форуме
Популярно
- Как начать с самого начала работу с CUDA (33,837)
- Форумы NVidia CUDA: обзор за май (31,828)
- GPGPU и видеокарты AMD (18,184)
- NVidia GTX 280, Tesla T10P (15,758)
- SGEMM на видеокарте и CPU, серия 6 (14,895)
Сегодня получил возможность прогнать свою задачу на кластере из стоек T-Edge 8 (2.33GHz), - http://www.t-platforms.ru/ru/clusters/clusters/complete/tedge.html.
Пиковая производительность стойки 300GFlops.
Всего четыре таких стойки.
В одной стойке 4 узла+1 мастер узел(вроде такой-же).
В каждом узле 2 четырёх ядерных Xeon'а (архитектура типа Core2Duo), 16 ГБ памяти.
Установлен ANSYS (MPI) - лицензия на 32 процесса(можно ими забить полностью 4 узла, но можно и распределить).
Раньше ANSYS запускали только на одной из двух стоек (т.к. думали что быстрее), и соответственно под ansys настроены только две стойки.
Сегодня я экспериментировал и показал, что если распределять потоки по разным стойкам, то получается быстрее(примерно в два раза), за счёт того, что итерационные методы упираются в основном в ПСП.
Сравнение по скорости с GTX480:
(GTX480 оказалась быстрее)
ускорение по времени: 1.98 раз
ускорение GFlops(на SPMV): 1.33 раз.
Интересно, что на кластере SPMV занимает примерно третью часть времени от всего решения, когда на одном компьютере(Core I7 из предыдущего поста) две трети. Это может быть связанно с латентностью сети на операциях редукции(которые происходят на каждой итерации, как и SPMV(на SPMV, нет обмена между узлами)).