Комментировать

Потоки внутри warp

Потоки внутри warp выполняются строго одновременно, с точностью до инструкции. warp-ы внутри блока - перемешаны, часть блоков исполняется тоже одновременно на разных SP

Если вам нужно последовательное исполнение, то вам не на GPU, видеокарты быстры именно за счет распараллеливания (причем независимого, синхронизация будет снижать скорость очень сильно)