Комментировать

Так, мы уже далеко ушли от

Так, мы уже далеко ушли от темы.
Но тем не менее, давайте чётко определимся, что мы обсуждаем.
Мой вариант: Компилятор, который транслирует код ядра в PTX, может быть более оптимизирован в новых версиях тулкита(так ли это?), по-этому для получения этой оптимизации, ядра нужно перекомпилировать. То есть с точки зрения распространения такой оптимизации, OpenCL лучше - всё необходимое для компиляции есть в драйвере, и нет необходимости пересобирать приложения или их части(конечно у этого подхода есть свои минусы.. или например в OpenCL можно использовать и прекомпилированные ядра(clCreateProgramWithBinary)).

"Да, естественно, за счет лучшей оптимизации в более других версиях может стать получше."
"Я скорее про то, что "при прочих равных" (одинаковой оптимизации) перекомпилировать из .cu в .ptx/cubin вроде бы не надо"

Я правильно понимаю, что последним предложением вы хотели сказать следующие: если разные версии компилятора генерируют одинаково оптимальный код, то перекомпилировать не надо. ?
Понятное дело, что при "при прочих(всех) равных" нет необходимости использовать новое.