Декабрьские новости

Накопилось сразу много новостей, мимо которых нельзя пройти мимо.

OpenCL

Месяц назад был объявлен OpenCL 1.2, тут о нем еще не писалось, потому что писать особо нечего: изменения мне кажутся не слишком значительными (ну кроме лучшей интеграции с DX11), а реализаций все еще нет (но вот-вот могут появиться, см. ниже).

Nvidia

OpenCL tools & compilers

Последние дни оказались богаты на всякие штуки для OpenCL:

OpenCL Compiler tools
Небольшая библиотека, позволяющая удобно компилировать OpenCL kernels заранее, сохраняя результат (можно - шифрованый). Цель - поэкономить на времени компиляции и на том, что kernel находится где-то внутри программы в исходных текстах.

Несколько смазывает впечатление то, что библиотека распространяется под GPL3, т.е. цель "спрятать kernel" под такой лицензией, очевидно, не может быть достигнута т.к. использующий библиотеку варез обязан тоже быть под GPL3+

Portable OpenCL
Реализация OpenCL (для CPU) на базе LLVM. OpenSource, BSD-style license.

Не смотрел, но идея мне нравится.

libclc
Реализация OpenCL для CPU в виде библиотеки, тоже поверх LLVM/Clang, хотя поминается и PTC

Анонсирую исключительно до кучи, на настоящий момент проект фактически пустой, но вдруг там что-то разовьется со временем?

Административное: внутренние изменения на сайте

В последние дни на сайте было сделано несколько технологических изменений, призванных ускорить загрузку страниц сайта.

Если вы заметите какие-то проблемы, прежде всего слет авторизации (для авторизованных пользователей) - пишите в обратную связь, будем ловить.

Хотя, вроде бы, все эти проблемы были найдены и вычищены, но вдруг что-то не заметили.

Intel OpenCL 1.5: AVX, отладчик, но плохая производительность

Tagged:  

Пощупал вышедший вчера Intel OpenCL SDK 1.5.

Заявленные новые фишки:

  • Поддержка AVX-векторизации (т.е. векторов в 256 бит)
  • Отладчик
Имею сказать:
Отладчик
Отладчик - работает. Пошаговая отладка, просмотр значений переменных, все отлично. С каким конкретно потоком работать - задается до запуска программы.

Несколько неудобно то, что путь до файла с исходными текстами передается в флагах компиляции.

Статьи по понедельникам

Не могу не поделиться очередным источником полезных ссылок по теме GPGPU.

Сайт StreamComputing.eu (за новостями которого лично я слежу через Твиттер) завел очень полезный обычай: по понедельникам они публикуют подборки статей по тематике GPGPU, кластеров и всего подобного.

5-го сентября вроде что-то тоже было, но разрозненно и в твиттере.

Язык, увы, английский.

High Performance Linpack для CUDA/Fermi

Внезапно обнаружил, что High Performance Linpack для Fermi с начала августа доступен на сайте Nvidia для зарегистрированных девелоперов.

Презентация про эту штуку есть тут: CUDA Accelerated Linpack for Clusters, пишут про 350 GFLOP/s для DGEMM на Tesla M2050 (только GPU) и 435 GFLOP/s для комбинации M2050+8CPU (2xQuad core Xeon 2.66). Для более мощной машины (CPU на 2.8 а не 2.33) показаны 475 GFLOP/s на DGEMM, 401 GFLOP/s для Linpack с одним GPU и 705 GFLOP/s с двумя GPU.
Нашлась еще статья китайцев: Early Linpack Performance Benchmarking on IPE Mole 8.5 Fermi GPU Cluster, где есть цифирка про 200 TFLOP/s на кластере из 320 узлов, по 6 GPU на узел.

Copyright © 2008-2011 Alex Tutubalin