Подобные обзоры я уже делал в прошлом году, постараюсь перейти к более-менее регулярному формату.
На форумах NVidia по CUDA за май были следующие обсуждения, показавшиеся мне интересными:
- my speedy SGEMM
- Это тред начался еще в октябре прошлого года, но от этого не перестает быть менее интересным. Два наших соотечественника (судя по фамилиям) сделали реализации умножения матриц/SGEMM, которые несколько (первая) и почти в два раза (вторая) быстрее, чем предлагаемая NVidia в составе CuBLAS. Реализация Волкова еще и красивее/компактнее, чем CuBLAS.
- QMake build script for CUDA
- Название не требует расшифровки. QMake хвалят, поэтому и не прошел мимо.
- How to get peak rate with simple opeartion, Question about performance optimization
- Очередные обсуждения memory bandwidth. Похоже, что это место, наряду с memory coalescing является наиболее проблемным для свежих разработчиков.
- Size limit of parameter list
- CUDA bandwidth test Shmoo, Anyone else got some results
- Это не столько проблемное место, сколько вообще узкое место, часто лишающее смысла перевод вычислений на GPU (нет смысла выливать в карту данные по PCIe чтобы просто посчитать их сумму). Приятно видеть передачу в карту со скоростью 4.5 гигабайта в секунду на современном оборудовании.
- cudaGLMapBufferObject (and unmap) performance, These calls take way too long
- Опять тайминги на прием-передачу данных. HD-кино, передача через GL-буферы, слишком медленно... Вместо cudaGLMapBufferObject рекомендуют использовать glMapBuffer, а вместо второй - родные CUDA calls.
- Multiple textures vs Single Multichannel texures, Which is faster?
- Если нужно 3 компонента, то float4-текстуры быстре трех float-фетчей. Ценой 25% потери по памяти.
- Cubin assembler is now available, decuda 0.4.0 released
- Опять очень старая ветка, но со свежим обсуждением. Дизассемблер (decuda) пока несовместим с CUDA 2.0
- GPUWorker, master/slave multi-gpu approach
- Библиотека поверх CUDA, позволяющая прозрачно и удобно использовать несколько карт ценой некоторого увеличения latency.
- Sort on GPU, Need some help to use sorts...
- В обсуждении всплывает ссылка а на сортировку by Alan Kaatz, сортирующая 16 миллионов элементов за 300 миллисекунд. Правда я пока не смотрел каких элементов.
- 256 байт, да.