Комментировать

Ну так и в CUDA компетенция

Ну так и в CUDA компетенция та же самая - контроллер кэша/памяти.

А макрос то - правильный скорее всего. Другой вопрос, что про movaps написан макрос _mm_store_ps, а умный компилятор вместо него подставляет _mm_stream (т.е. movntps). Подставляет правильно, но документации это не соответствует.