Комментировать

"Чтобы прятать - блоков

"Чтобы прятать - блоков должно быть много больше, чем мультипроцессоров." <- расхожее, но не совсем точное выражение. Например, на практике приходилось наблюдать близкую к пиковой производительности при всего лишь 2х блоках на мультипроцессор. И это как раз в 7-точечном конечно-разностном шаблоне, где обращений к памяти относительно много. В FFT же или GEMM для достижения максимальной производительности достаточно 3х-4х блоков на мультипроцессор. Сильно больше имеет смысл заводить лишь для равномерного распределения нагрузки.