Комментировать

Ну даже (2^32)/16 - это

Ну даже (2^32)/16 - это четверть миллиарда.

Т.е. получается, что вы можете иметь гигабайт флоатов. Для 32-битной реализации OpenCL (т.е. адресуемое пространство 4Gb) и с учетом ограничения в 1/4 памяти устройства - должно быть нормально.

CL_PROFILING я не пользовался, но судя по контексту - это относится к одному событию (команде) в очереди, т.е. без передачи данных.

Для пустого кернела тоже должно быть "порядка микросекунды" (опять же забыл цифры, кажется пустой CUDA kernel запускается микросекунд 5-10, по порядку величины)