Форумы NVidia CUDA: обзор за май

Подобные обзоры я уже делал в прошлом году, постараюсь перейти к более-менее регулярному формату.

На форумах NVidia по CUDA за май были следующие обсуждения, показавшиеся мне интересными:

my speedy SGEMM
Это тред начался еще в октябре прошлого года, но от этого не перестает быть менее интересным. Два наших соотечественника (судя по фамилиям) сделали реализации умножения матриц/SGEMM, которые несколько (первая) и почти в два раза (вторая) быстрее, чем предлагаемая NVidia в составе CuBLAS. Реализация Волкова еще и красивее/компактнее, чем CuBLAS.
QMake build script for CUDA
Название не требует расшифровки. QMake хвалят, поэтому и не прошел мимо.
How to get peak rate with simple opeartion, Question about performance optimization
Очередные обсуждения memory bandwidth. Похоже, что это место, наряду с memory coalescing является наиболее проблемным для свежих разработчиков.
Size limit of parameter list
256 байт, да.
CUDA bandwidth test Shmoo, Anyone else got some results
Это не столько проблемное место, сколько вообще узкое место, часто лишающее смысла перевод вычислений на GPU (нет смысла выливать в карту данные по PCIe чтобы просто посчитать их сумму). Приятно видеть передачу в карту со скоростью 4.5 гигабайта в секунду на современном оборудовании.
cudaGLMapBufferObject (and unmap) performance, These calls take way too long
Опять тайминги на прием-передачу данных. HD-кино, передача через GL-буферы, слишком медленно... Вместо cudaGLMapBufferObject рекомендуют использовать glMapBuffer, а вместо второй - родные CUDA calls.
Multiple textures vs Single Multichannel texures, Which is faster?
Если нужно 3 компонента, то float4-текстуры быстре трех float-фетчей. Ценой 25% потери по памяти.
Cubin assembler is now available, decuda 0.4.0 released
Опять очень старая ветка, но со свежим обсуждением. Дизассемблер (decuda) пока несовместим с CUDA 2.0
GPUWorker, master/slave multi-gpu approach
Библиотека поверх CUDA, позволяющая прозрачно и удобно использовать несколько карт ценой некоторого увеличения latency.
Sort on GPU, Need some help to use sorts...
В обсуждении всплывает ссылка а на сортировку by Alan Kaatz, сортирующая 16 миллионов элементов за 300 миллисекунд. Правда я пока не смотрел каких элементов.

Tags: