Комментировать

посмотрел сколько реально

посмотрел сколько реально используется регистров с помощью ptxas(интересно, можно ли это посмотреть с помощью OpenCL, но при беглом осмотре - вроде нет) - всё нормально, около 10.
Но вот что ещё заметил:
у PTX кода который возвращает clGetProgramInfo(CL_PROGRAM_BINARIES), есть такие директивы:
.version 1.5
.target sm_13, texmode_independent

Может быть sm_13, из-за того, что я не использовал никаких фишек Fermi. И может даже драйвер OpenCL потом компилирует это для sm_20 (--gpu-name sm_20 для ptxas). Может быть у устройств 1.x и 2.0, вообще бинарный код различается и оно 100% компилируется для sm_20