Комментировать

Секрет работы очень простой -

Секрет работы очень простой - coalesced access. Т.е. все нити варпа одномоментно идут к подряд расположенным в памяти элементам, подряд, в правильном порядке и с правильным выравниванием (в доке все написано)

Если размер массива неподходящий (т.е не в первой строке не получается выравнивание) - ну значит надо округлить.