Комментировать

Все зависит от того, какая у

Все зависит от того, какая у вас карта (это все написано в Programming Guide):
compute capability 1.0/1.1 - все 16 4-байтных слов попадают в один 64-байтный сегмент
compute capability 1.2/1.3 - для 4-байтных слов нужно попадание в 128-битный сегмент, потом размер транзакции может быть уменьшен (если попадаем в половину сегмента)
compute capabityly 2.x - 128-байтные кэшированые пересылки, двум полуварпам крайне полезно попасть в одну cache line
Кроме того, на 2.x нету "полуварпов", там 32 исполнительных устройства в SM, фигачит целыми варпами.

Сухой остаток - одним варпом надо попасть в 128-байтно-выровненый сегмент. Для любой compute capability