High Performance Linpack для CUDA/Fermi

Внезапно обнаружил, что High Performance Linpack для Fermi с начала августа доступен на сайте Nvidia для зарегистрированных девелоперов.

Презентация про эту штуку есть тут: CUDA Accelerated Linpack for Clusters, пишут про 350 GFLOP/s для DGEMM на Tesla M2050 (только GPU) и 435 GFLOP/s для комбинации M2050+8CPU (2xQuad core Xeon 2.66). Для более мощной машины (CPU на 2.8 а не 2.33) показаны 475 GFLOP/s на DGEMM, 401 GFLOP/s для Linpack с одним GPU и 705 GFLOP/s с двумя GPU.
Нашлась еще статья китайцев: Early Linpack Performance Benchmarking on IPE Mole 8.5 Fermi GPU Cluster, где есть цифирка про 200 TFLOP/s на кластере из 320 узлов, по 6 GPU на узел.

С лицензией на этот HPL-Fermi мне непонятно. С одной стороны, при скачивании вылезает грозная EULА с которой надо согласиться. С другой стороны, рядом там лежит BSD-style лицензия, в самом пакете сохранены копирайты университета Теннеси, а в CUDA-специфичных файлах в начале написана BSD-style лицензия с оговоркой об использовании названия NVIDIA только по согласованию.

Безопаснее считать, что лицензия - такая же, как у всего остального на девелоперском сайте ("без раздачи"), благо регистрируют там всех.

Теоретически, пакет требует Tesla (т.к. требования по памяти GPU от 2Gb), на практике наверное можно уговорить и на что-то поменьше.

Если у кого есть машина с парой новых Fermi, я бы с удовольствием эту штуку бы совместно с вами повоспитывал.

Tags: 

Comments

Для gcc там уже прямо

Для gcc там уже прямо раскоментарено все. mpicc должен звать gcc

OpenMPI (пути) задаются в секции MPdir/MPinc/MPlib, тут не должно быть проблем. Стандартный HPL-2.0, во всяком случае, с OpenMPI работает.

Вместо MKL можно использовать GotoBLAS, тоже как в обычном HPL. Но сдается мне, что для процессоров с AVX сильно лучше будет MKL.

BTW, компилятор и библиотеки (включая MKL) интел раздает для Linux совершенно бесплатно т.е. даром.