Комментировать

лучшее что я слышал --- 3-5

лучшее что я слышал --- 3-5 Гфлоп/c в SpMV на GPU. Недавно Университет Мериленда объявил конкурс на самую быструю реализацию, может там что лучше появится --- http://scriptroute.cs.umd.edu/gpucompete.

есть неплохая статья по изучению производительности SpMV на разных платформах, правда GPU там нет --- Williams et al. "Optimization of Sparse Matrix-Vector Multiplication on Emerging Multicore Platforms", SC07. Там тоже цитируется плохая масштабируемость по количеству ядер как на Intel так и на AMD процессорах. Дело в том, что производительность SpMV на больших матрицах ограничена пропускной способностью памяти. Поэтому количество задействованных ядер не столь важно --- они все на одном контроллере/шине сидят. Зато хорошо масштабировалось на двух процессорах. Лучше всего SpMV работало на Cell процессоре.