NVidia CUDA

Вышли CUDA 4.0 & Parallel Nsight 2.0 (релизы)

Tags: 

Вышли релизные версии:

Какой-то принципиальной разницы с RC2-версиями из документации не видно, каких-то критичных багов в RC2 я тоже не находил.

Вот в драйверах разница заметна, копирование хост-видеокарта и обратно в драйвере 270.81 (доступен по первой ссылке) где-то на 10% быстрее, чем в текущем 270.61 WHQL.

CUDA 4.0

Tags: 

NVidia анонсировала CUDA 4.0

С моей колокольни интересны две вещи:

  • GPU Direct 2.0 т.е. прямая пересылка данных между (нескольки) картами, не задействуя память (и процессор?) хоста.
  • Унифицированная адресация на GPU и на хосте. Я это понял так, что адресное пространство общее, никаких отдельных сudaMemcpy.
Рассказы про остальные фишки лично меня не впечатлили (Thrust и так уже был, MPI не волнует), но будем посмотреть вживую (начиная с 4 марта).

"Интересные фишки" тоже будем посмотреть: про GPI Direct на онлайн-конференции был задан вопрос "это только для Tesla", а в момент ответа у меня пропал звук. С унифицированной адресацией у меня есть непонимание, как на эту схему ложится асинхронная передача.

Другими словами, 4-5 марта надо ломиться на nvdeveloper и брать бету на поиграться.

CUDA 3.1 beta

На девелоперском сайте NVIdia (увы, нужен логин туда), выложили CUDA 3.1 Beta.

Из реально вкусного, там 16-way kernel concurrency, плюс обновления для CUBLAS/CUFFT.

Но:

  • Примеров (GPU Computing SDK) пока нету, только сам CUDA Toolkit.
  • Драйвера, поддерживающие все это дело - только для Tesla. Наверное, можно их поставить обычным хаком (прописав PCI IDs в setup.inf), но я не стал. Update: драйвера 257.15 для GTX480 появились на сайте NVidia в разделе с бета-драйверами.
Релиз обещают "в следующем месяце", проще подождать.

Update: в форум запостили ссылку на TPB со всем этим счастьем. Update2: С драйверами 197.xx не работает.

content classify: 

Tags: 

Алгоритмы поиска на графическом процессоре с помощью технологии NVidia CUDA

Tags: 

В данной статье рассмотрим бинарный поиск и связанную с ним задачу сортировки. Попытаемся сделать теоретическую оценку алгоритмов и провести практические тесты.

Введение

Данная статья является продолжением темы CUDA search . В этой теме рассматривался простейший линейный поиск на графическом процессоре с помощью технологии nVidia CUDA. В наихудшем случае т.е. когда искомый элемент массива был последним, алгоритм на GPU превзошел свой аналог на CPU почти на 40%. Количество элементов в массиве было равно количеству процессоров. Такие условия задачи достаточно хороши для GPU. Однако, как быть в других условиях? Как с ними справиться GPU? Подходит ли он для других алгоритмов? Что ж, попытаемся ответить на эти вопросы.

Про CUDA на русском

Tags: 

Судя по регулярно задаваемым тут вопросам, эта тема многих интересует, поэтому анонсирую.

Довольно давно анонсированная книга по CUDA начала, наконец, продаваться:

дешевле всего в Озоне (294 рубля), но там дата поступления в доставку- 26 апреля. В books.ru - поступление ожидается 20-го, а Болеро просто пишет что отправят за день (но не проверял).

Из аннотации:

Данная книга посвящена программированию современных графических процессоров (GPU) на основе технологии CUDA от компании NVIDIA. В книге разбираются как сама технология CUDA, так и архитектура поддерживаемых GPU и вопросы оптимизации, включающие использование .PTX.

Рассматривается реализация целого класса алгоритмов и последовательностей на CUDA.

К книге прилагается CD, который содержит примеры решения на CUDA реальных задач с большим объемом вычислений из широкого класса областей, включая моделирование нейронных сетей, динамику движения элементарных частиц, геномные исследования и многое другое.

Не читал, поэтому пока про содержание не имею мнения.

P.S. Спасибо компании NVidia (московской) за мониторинг состояния издания книги.

CUDA 3.0 Beta

Tags: 

24 ноября стал публично доступен CUDA Toolkit 3.0 Beta.

Все ссылки на скачивание в теме форума NVidia, их много, не вижу смысла тут дублировать.

К сожалению, в документации обновился только Reference Manual (и он же теперь есть online), вся остальная документация несет на себе гордую надпись Version 2.3.

Для работы нужен драйвер 195-й серии (195.62 уже не бета, по меньшей мере для Windows, от клиентов можно требовать апгрейда).

Cписок новых фич, кратко (более полный список - в Release Notes):

CUDA 2.2

Tags: 

CUDA 2.2 уже несколько дней как в релизе.

Действительно серьезное изменение одно:

GPU может мэпировать pinned memory в свое адресное пространство.

Для "интегрированных карт", которые на самом деле используют общую с CPU память - это просто избавление от избыточной пересылки данных. С учетом того, что на ноутбучных картах производительность и так не очень - полезное подспорье.

LAPACK на CUDA

Tags: 

Василий Волков с соавторами продолжают радовать нас быстрым кодом для всяких полезных вычислений.

На Core2Quad + GTX280 получается примерно в 5 раз быстрее, чем просто на процессоре, что есть весьма достойно.

Анонс: Использование графических процессоров и технологии CUDA для задач молекулярной динамики

Tags: 

В журнале Вычислительные методы и программирование вышла статья А.С Боярченкова и С.И Поташникова: Использование графических процессоров и технологии CUDA для задач молекулярной динамики. Вот ее аннотация (полные тексты доступны по ссылке):

Рассмотрена параллельная реализация расчета парных межчастичных взаимодействий в методе молекулярной динамики при нулевых граничных условиях на графических процессорах с применением платформы NVIDIA CUDA. Впервые предложена эффективная реализация с использованием третьего закона Ньютона на основе технологии CUDA. Предложены приемы оптимизации кода. На видеокарте NVIDIA GeForce 8800 GTX по сравнению со скалярной версией на процессоре AMD Athlon64 2.1 ГГц достигнуто ускорение до 660 раз для системы из 49152 частиц.

Bruteforce и жизнь

Tags: 

Тот факт, что любой перебор очень легко параллелится, что на GPU, что просто на компьютерах, объединенных интернетом, породило множество "переборных" задач, от rc5crack до Folding@Home. Обмен данными между нодами почти не нужен, задания и результаты - компактные, ляпота.

Есть такой программный продукт pyrit: Advances in attacking WPA-PSK. Хостится, как легко видеть, на Google Code и никого это не смущает.

SGEMM/DGEMM на видеокарте и CPU, серия 7: NVidia GTX280

Tags: 

Как я уже писал в прошлый раз, становится какой-то дурной традицией переделывать тест умножения матриц каждые несколько месяцев.

В этот раз причиной для тестов стало появление у меня в доступности видеокарты NVidia GTX280, что позволило протестировать два момента:

  • Производительность умножения матриц с одинарной точностью (SGEMM) на новом быстром оборудовании.
  • Производительность умножения матриц с двойной точностью (DGEMM).
И сравнить результаты с mainstream-поколением процессоров Intel (Penryn), к сожалению i7 в доступности у меня пока нет.

CUDA: внешнее прекращение работы kernel

Tags: 

Многие спрашивают - а как прекратить выполнение CUDA kernel.

Эта тема много раз всплывала на форумах по CUDA но внятного ответа я до сегодняшнего дня не видел. Однако сегодня увидел ответ от представителя NVidia:

CUDA 2.1 beta

Tags: 

Вышла NVidia CUDA 2.1 BETA.

Из заметных изменений:

  • Поддержка компиляции .PTX-кода на лету (драйвером)
  • Поддержка TESLA на Висте
  • Расширено взаимодействие с Direct3D
  • Поддержан Microsoft Visual C++ 9 (VS2008)

Скачать можно откуда обычно: Get CUDA, для скачивания предлагаются драйвер и CUDA Toolkit, судя по всему SDK пока не обновлен.

Сетевой анализатор на CUDA

Tags: 

продолжаем перепубликацию с GPGPU.ORG

Gnort: High Performance Network Intrusion Detection Using Graphics Processors: модифицированный Snort, обработка паттернов делается на GPU (NVidia/CUDA).

Pages

Subscribe to RSS - NVidia CUDA