Комментировать

Кстати, и не при произвольном

Кстати, и не при произвольном доступе - похоже тоже, тормозить будет память.

Даже при банальном умножении вектора на константу, слово считали, слово записали - 8 байт на операцию. Для половины терафлопса - нужно 4 терабайта в секунду. А имеем раз в 30 меньше (не говоря о том, что умножение вектора на константу выгоднее в таком случае делать на CPU, потому что мы ограничены полосой заливки-выливки).

Нет, только высокая арифметическая интенсивность спасет. В пределе (ничего не читаем из памяти, просто в регистрах умножаем) - получим паспортную производительность.