Комментировать

в параллельном мире какую

в параллельном мире какую инструкцию поставить тоже решает компилятор
да, но coalesced это уже не его компетенция(по крайней мере явно).

Но, кажется, movntps можно энфорсить через _mm_stream_ps

В официальном мане
"Intel 64 and IA-32 Architectures Software Developer s Manual"

для инструкции есть "Intel C/C++ Compiler Intrinsic Equivalent"
и там как раз
"MOVNTDQ void _mm_stream_ps(float * p, __m128 a)"

но в тоже время для MOVAPS там
"__m128 _mm_load_ps (float * p)
void _mm_store_ps (float *p, __m128 a)"

Хотя, как я понял у вас _mm_store_ps это не всегда MOVAPS.. то есть рекомендательный характер. но я думаю _mm_stream_ps он не будет заменять на MOVAPS