Комментировать

Ну меня интересует хотя бы

Ну меня интересует хотя бы скорость вычислятора. Сколько GFlops на Single и Double точности.

Вот кстати на счёт умножения матриц, во многих примерах обычно потоки считывают значения в локальную память, а затем выполняют вычисления.
С чем это связано? Для того чтобы получить coleascing при считывании строк одной из матриц? то есть допустим если бы умножали столбцы на столбцы, а не строки на столбцы, то использовать shared memory не обязательно? Или всё сложнее?
(понятное дело столбцы или строки зависит от способа хранения..)