Комментировать

Тут ещё вот что, на данный

Тут ещё вот что, на данный момент, если важно количество используемых регистров, то нет большой разницы OpenCL* или Cuda - и там и там есть возможность посмотреть во время разработки программы.
Интересует именно возможность посмотреть во время исполнения программы(можно конечно таскать с программой ptxas, но это большой костыль.. к тому же врядли ptxas - redistibutable).
Возможные применения этому которые приходят в голову: планирование размера блока и оптимизация ядер по количеству регистров, для умещения большего колличество потоков на SM. В общем вреда от этого не будет.

*просмотр PTX кода для OpenCL ядер, могут, как я понял, убрать в будующем: "Currently, the PTX intermediate representation can be obtained by calling clGetProgramInfo() with CL_PROGRAM_BINARIES and can be passed to clCreateProgramWithBinary() to create a program object, but this will likely not be supported in future versions.".
Я думаю это связано с тем, что OpenCL компилирует код на целевой машине, а CL_PROGRAM_BINARIES используются обычно для кэширования компиляции, поэтому быстрее для пользователей будет кэшировать бинарный код, а не PTX.