Комментировать

Разница на CPU маленькая, но

Разница на CPU маленькая, но устойчивая - цифры усреднены за несколько прогонов. Ничего на эту тему не могу сказать, код бенчмарок практически одинаковый.

По перформансу y GPU: - реальная производительность SGEMM - 60% от пиковой (по презентации Волкова) и все уперто не в вычисления. При этом код в CuBLAS в точности Волковский (разница в производительности - в 4-м знаке), там все уперто в чтение из глобальной памяти и ку-ку.

А вообще - ценность данного текста в том, что это уже 7-й раз по примерно одной методике, контроллируемой одним человеком (поглаживает пузо), такие цифры легче сопоставлять.
В этом смысле Sparse BLAS приобретет ценность года через 2-3.