Комментировать

OpenCL

Вот результат oclBandwidthTest с теме же параметрами

Device to Device Bandwidth, 1 Device(s)
Transfer Size (Bytes) Bandwidth(MB/s)
409600000 109985.9

Насчёт CUDA - там ведь тоже есть некоторый транслятор/компилятор из PTX кода(если конечно используется PTX), но, конечно, оптимизации могут быть в самом компиляторе который PTX генерирует.