Комментировать

Ну в этом же тесте нет

Ну в этом же тесте нет никакого пользовательского кода, а есть только вызовы стандартных функций CUDA/OCL. Имплементированы эти функции в драйвере (считая сюда же и DLL-ки, которые идут с драйвером). Возможно - неоптимально.

Я как куплю - поизучаю вот в этом вот духе: http://www.gpgpu.ru/articles/nvidia_8800gtx_propusknaja_sposobnost__pamj...
Т.е. bandwidth на чтение (и запись - тоже) но уже не средствами драйвера, а средствами CUDA (и OCL).

Что касается трансляции - я почти уверен, что PTX/cubin драйвер тоже транслирует не в лоб, иначе бы не было таких просадок в скоростях на некоторых версиях драйверов.