Комментировать

В cublas есть "thunking

В cublas есть "thunking interface" - там cublasSetMatrix/... уже обвёрнуты. Но насколько я помню интерфейс всё равно не BLAS.
Где-то пол года назад я делал небольшую обёртку для этого thunking под blas, чтобы запустить linpack на cuda без модификации, и насколько я помню некоторые тесты даже запустились, но результаты были маленькие (так как всё время данные туда-сюда тасовлись) - что-то около 20-30 GFlops на Tesla C1060. Потом не было времени дальше пилить(видимо для лучших результатов надо сам linpack пилить) и я это дело забросил.
В сети есть разные попытки на эту тему(gpgpu linpack), например - http://www.ece.neu.edu/groups/nucar/GPGPU/GPGPU-2/Fatica.pdf
Кстати, интересно, может кто знает что вот тут http://www.top500.org/system/10484 запускали?