Reply to comment

Форумы NVidia CUDA: обзор за май

Подобные обзоры я уже делал в прошлом году, постараюсь перейти к более-менее регулярному формату.

На форумах NVidia по CUDA за май были следующие обсуждения, показавшиеся мне интересными:

my speedy SGEMM
Это тред начался еще в октябре прошлого года, но от этого не перестает быть менее интересным. Два наших соотечественника (судя по фамилиям) сделали реализации умножения матриц/SGEMM, которые несколько (первая) и почти в два раза (вторая) быстрее, чем предлагаемая NVidia в составе CuBLAS. Реализация Волкова еще и красивее/компактнее, чем CuBLAS.
QMake build script for CUDA
Название не требует расшифровки. QMake хвалят, поэтому и не прошел мимо.
How to get peak rate with simple opeartion, Question about performance optimization
Очередные обсуждения memory bandwidth. Похоже, что это место, наряду с memory coalescing является наиболее проблемным для свежих разработчиков.
Size limit of parameter list
256 байт, да.
CUDA bandwidth test Shmoo, Anyone else got some results
Это не столько проблемное место, сколько вообще узкое место, часто лишающее смысла перевод вычислений на GPU (нет смысла выливать в карту данные по PCIe чтобы просто посчитать их сумму). Приятно видеть передачу в карту со скоростью 4.5 гигабайта в секунду на современном оборудовании.
cudaGLMapBufferObject (and unmap) performance, These calls take way too long
Опять тайминги на прием-передачу данных. HD-кино, передача через GL-буферы, слишком медленно... Вместо cudaGLMapBufferObject рекомендуют использовать glMapBuffer, а вместо второй - родные CUDA calls.
Multiple textures vs Single Multichannel texures, Which is faster?
Если нужно 3 компонента, то float4-текстуры быстре трех float-фетчей. Ценой 25% потери по памяти.
Cubin assembler is now available, decuda 0.4.0 released
Опять очень старая ветка, но со свежим обсуждением. Дизассемблер (decuda) пока несовместим с CUDA 2.0
GPUWorker, master/slave multi-gpu approach
Библиотека поверх CUDA, позволяющая прозрачно и удобно использовать несколько карт ценой некоторого увеличения latency.
Sort on GPU, Need some help to use sorts...
В обсуждении всплывает ссылка а на сортировку by Alan Kaatz, сортирующая 16 миллионов элементов за 300 миллисекунд. Правда я пока не смотрел каких элементов.

Reply

The content of this field is kept private and will not be shown publicly.
  • Web page addresses and e-mail addresses turn into links automatically.
  • Allowed HTML tags: <a> <em> <strong> <cite> <code> <ul> <ol> <li> <dl> <dt> <dd> <i> <table> <td> <tr> <th>
  • Lines and paragraphs break automatically.
  • You can enable syntax highlighting of source code with the following tags: <code>, <blockcode>. The supported tag styles are: <foo>, [foo].
  • Images can be added to this post.

More information about formatting options

CAPTCHA
This question is for testing whether you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.

Copyright © 2008-2009 Alex Tutubalin