Комментировать

Умножение матриц - отличный

Умножение матриц - отличный пример для изучения, потому что "наивные" методы работают очень плохо.
Скажем, разница в быстродействии между блочной реализацией (Intel MKL) и "наивными" тремя вложенными циклами - у меня получалась больше двух порядков.

На GPU, так как относительная латентность памяти еще больше, разница тоже должна быть изрядной.

Как следствие, интересно было бы посмотреть, как выглядит блочный вариант с OpenACC.