Комментировать

Тот вывод, который тест

Тот вывод, который тест вывел, ничего не умножал. Оно там внутри теста уже умножается само:

  1.     //calculate bandwidth in MB/s
  2.     bandwidthInMBs = 2.0f * (1e3f * memSize * (float)MEMCOPY_ITERATIONS) /                                          (elapsedTimeInMs * (float)(1 << 20));

280-ка не разогнаная никак, драйвера - последние WHQL. CUDA 3.0, Win7/x64

Возможно, cudaMemcpy(....DeviceToDevice) еще не оптимизирована (по идее, это вообще часть драйвера).