Обзоры веба

Анонсы внешних публикаций, обзоры тематических форумов

Декабрьские новости

Накопилось сразу много новостей, мимо которых нельзя пройти мимо.

OpenCL

Месяц назад был объявлен OpenCL 1.2, тут о нем еще не писалось, потому что писать особо нечего: изменения мне кажутся не слишком значительными (ну кроме лучшей интеграции с DX11), а реализаций все еще нет (но вот-вот могут появиться, см. ниже).

Nvidia

OpenCL tools & compilers

Последние дни оказались богаты на всякие штуки для OpenCL:

OpenCL Compiler tools
Небольшая библиотека, позволяющая удобно компилировать OpenCL kernels заранее, сохраняя результат (можно - шифрованый). Цель - поэкономить на времени компиляции и на том, что kernel находится где-то внутри программы в исходных текстах.

Несколько смазывает впечатление то, что библиотека распространяется под GPL3, т.е. цель "спрятать kernel" под такой лицензией, очевидно, не может быть достигнута т.к. использующий библиотеку варез обязан тоже быть под GPL3+

Portable OpenCL
Реализация OpenCL (для CPU) на базе LLVM. OpenSource, BSD-style license.

Не смотрел, но идея мне нравится.

libclc
Реализация OpenCL для CPU в виде библиотеки, тоже поверх LLVM/Clang, хотя поминается и PTC

Анонсирую исключительно до кучи, на настоящий момент проект фактически пустой, но вдруг там что-то разовьется со временем?

Статьи по понедельникам

Не могу не поделиться очередным источником полезных ссылок по теме GPGPU.

Сайт StreamComputing.eu (за новостями которого лично я слежу через Твиттер) завел очень полезный обычай: по понедельникам они публикуют подборки статей по тематике GPGPU, кластеров и всего подобного.

5-го сентября вроде что-то тоже было, но разрозненно и в твиттере.

Язык, увы, английский.

High Performance Linpack для CUDA/Fermi

Внезапно обнаружил, что High Performance Linpack для Fermi с начала августа доступен на сайте Nvidia для зарегистрированных девелоперов.

Презентация про эту штуку есть тут: CUDA Accelerated Linpack for Clusters, пишут про 350 GFLOP/s для DGEMM на Tesla M2050 (только GPU) и 435 GFLOP/s для комбинации M2050+8CPU (2xQuad core Xeon 2.66). Для более мощной машины (CPU на 2.8 а не 2.33) показаны 475 GFLOP/s на DGEMM, 401 GFLOP/s для Linpack с одним GPU и 705 GFLOP/s с двумя GPU.
Нашлась еще статья китайцев: Early Linpack Performance Benchmarking on IPE Mole 8.5 Fermi GPU Cluster, где есть цифирка про 200 TFLOP/s на кластере из 320 узлов, по 6 GPU на узел.

Вышли CUDA 4.0 & Parallel Nsight 2.0 (релизы)

Вышли релизные версии:

Какой-то принципиальной разницы с RC2-версиями из документации не видно, каких-то критичных багов в RC2 я тоже не находил.

Вот в драйверах разница заметна, копирование хост-видеокарта и обратно в драйвере 270.81 (доступен по первой ссылке) где-то на 10% быстрее, чем в текущем 270.61 WHQL.

Свежие GPGPU tools

В последние дни оба основных разработчика GPU обновили свои GPGPU toolkits до CUDA 4.0 RC2 и APP SDK 2.4, соответственно.

Новости одной строкой

Вдруг накопилось много мелких, но довольно существенных новостей, которые анонсирую одним текстом:

Parallel Nsight Pro стал бесплатным
Pro-версия Parallel Nsight теперь раздается бесплатно (раньше - только версия Standard). Берут отсюда, требуется регистрация.

Профессиональная версия отличается наличием отладчика.

Поддержка OpenCL включена в ATI/AMD Catalyst 11.x
До версии Catalyst 10.10, для поддержки OpenCL нужны были девелоперские драйвера, которые входили в Stream SDK. Начиная с 10.10 - появилась специальная версия с включенным OpenCL, которая ставилась как обычные драйвера, но пользователю нужно было специально скачивать эту версию.

В 11.1 (11.0 я пропустил и потому не знаю) все наоборот - в стандартный драйвер поддержка OpenCL входит, но если вам оно не надо, то можно скачать обрезанную версию на 20 мегабайт поменьше.

Другими словами, пользователя можно просить "поставь стандартные драйвера 11.x и будет тебе счастье.

Берут из стандартного места для Catalyst

AMD выпустил готовый комплект преподавателя для курса по OpenCL
AMD/ATI предлагает преподавателям готовый комплект из 13 презентаций и трех примеров кода (два примера - микроскопические, один - NBody), предназначенный для чтения лекций в университетах.

Про качество мне судить трудно, но посмотреть всяко имеет смысл.

Берут отсюда

BarsWF gone opensource

Собственно, в заголовке уже сказано. BarsWF, который уже обсуждался на этом сайте стал опенсорсным.

Для тех кто не в теме: это очень быстрая перебиралка MD5.

Вот оригинальный анонс, там ссылка на архив с исходниками.

Лицензия MIT, то бишь свободнее не бывает.

Материалы GTC 2010

NVIDIA выложила в сеть материалы GPU Technology Conference 2010

Ссылка: http://developer.download.nvidia.com/compute/cuda/docs/GTC_2010_Archives.htm

Практически для всех материалов доступна "звуковая презентация" - слайды в виде видео и голос выступающего. Для некоторых выступлений - есть PDF-презентация.

Объем - чудовищный, 297 презентаций (если мой скрипт их правильно посчитал). Надеюсь, каждый найдет для себя много интересного.

Краткий обзор наиболее интересного (с точки зрения авторов обзора, конечно) можно найти тут Slidecasts: 300 Hours of GPU Technology Conference

ATI HD4xxx и OpenCL

Читал форумы AMD, много думал.

Вычитал грустное про HD4xxx и OpenCL:

The HD4XXX series was not designed for OpenCL whereas the HD5XXX series was.

GPU Gems online

Я на developer.nvidia.com (главную страницу) редко захожу, но вот сегодня занесло. Оказывается, GPU Gems выложили в открытый доступ, доступны прямо с упомянутой главной страницы. Кому жалко 30-60 долларов за книгу, тот может спокойно читать с экрана.

Прямые ссылки:

Ссылки с веба

Для тех, кому лень следить за gpgpu.org две тщательно отобранных ссылки, показавшихся мне интересными (остальные полтора десятка свежих материалов - не зацепили)

LAPACK на CUDA

Василий Волков с соавторами продолжают радовать нас быстрым кодом для всяких полезных вычислений.

На Core2Quad + GTX280 получается примерно в 5 раз быстрее, чем просто на процессоре, что есть весьма достойно.

Анонс: Использование графических процессоров и технологии CUDA для задач молекулярной динамики

В журнале Вычислительные методы и программирование вышла статья А.С Боярченкова и С.И Поташникова: Использование графических процессоров и технологии CUDA для задач молекулярной динамики. Вот ее аннотация (полные тексты доступны по ссылке):

Рассмотрена параллельная реализация расчета парных межчастичных взаимодействий в методе молекулярной динамики при нулевых граничных условиях на графических процессорах с применением платформы NVIDIA CUDA. Впервые предложена эффективная реализация с использованием третьего закона Ньютона на основе технологии CUDA. Предложены приемы оптимизации кода. На видеокарте NVIDIA GeForce 8800 GTX по сравнению со скалярной версией на процессоре AMD Athlon64 2.1 ГГц достигнуто ускорение до 660 раз для системы из 49152 частиц.

Bruteforce и жизнь

Тот факт, что любой перебор очень легко параллелится, что на GPU, что просто на компьютерах, объединенных интернетом, породило множество "переборных" задач, от rc5crack до Folding@Home. Обмен данными между нодами почти не нужен, задания и результаты - компактные, ляпота.

Есть такой программный продукт pyrit: Advances in attacking WPA-PSK. Хостится, как легко видеть, на Google Code и никого это не смущает.

Syndicate content
Copyright © 2008-2011 Alex Tutubalin