Комментировать

Я не разбирался с тем, что

Я не разбирался с тем, что именно из себя представляет PTX код, но тем не менее, почему его компилятор(в PTX) не может быть оптимизирован? Может конечно PTX код это просто просто разпарсеный код ядра - то в этом случае врядли что-то можно оптимизировать.
Можно сделать тест - использовать PTX компиляторы(в PTX) разных версий(целевую архитектуру поставить одну и ту же, если возможно) и сравнить полученный код.