Комментировать

Да нет никакого подвоха, это

Да нет никакого подвоха, это речь про одновременное исполнение на одном мультипроцессоре.
В 8800 было 768 тредов на SM, в 280-й - 1024, теперь 1536. Ограничение планировщика, даже если ваши блоки(треды) кушают мало регистров и shared memory, больше блоков на один SM не запихают.

Соответственно, на GTX480 одновременно будет 45k в пределе