Комментировать

У меня есть такие ядра как

У меня есть такие ядра как копирование из одного вектора в другой, умножение вектора на скаляр.
Ядра простые - один поток на одно значение. Время выполнения для векторов из float(32 бита) размером 2000000 для обоих ядер одинаковое(конечно есть небольшая погрешность с каждым запуском) - 0.000131 секунд.
Получается 2000000*4*2/(0.000131*2^30)=113.75GB/sec