Комментировать

А вы посчитайте чтения-записи

А вы посчитайте чтения-записи из глобальной памяти для разного размера блока (ну хоть 1 и 2x2) и сразу все поймете. Глобальная память - медленная, если бы она с скоростью вычислятора работала при произвольном доступе, жизнь была бы другой.

Ну и абстрактные гигафлопсы вычислятора - просто неинтересны. Ну, почти.