Комментировать

Ну подождите, coalesced или

Ну подождите, coalesced или не-coalesced решает контроллер памяти.

А я не говорил, кто именно решает coalesced или не-coalesced, я лишь показал, что это происходит во время выполнения, собственно в чём, как я понял, и был первоначальный вопрос.
Вы не согласны с этим?

Он видит запросы от всех нитей, дальше режет их на 128-байтные (или сколько там) блоки с соответствующим выравниванием, а дальше для каждого блока ходит в память.

(лучше указать, что под "всеми нитями", вы имеете ввиду только нити одного варпа(или полуварпа(запросы от двух полуварпов одного варпа не перемешиваюся))).
И опять же, я не вижу противоречий с моим сообщением..

Но никаких особых "раздумий" в этом месте нет, все происходит в соответствии с архитектурой памяти.
О каких раздумьях вы говорите?