Накопилось сразу много новостей, мимо которых нельзя пройти мимо.
Обзоры веба
OpenCL tools & compilers
Последние дни оказались богаты на всякие штуки для OpenCL:
- OpenCL Compiler tools
- Небольшая библиотека, позволяющая удобно компилировать OpenCL kernels заранее, сохраняя результат (можно - шифрованый). Цель - поэкономить на времени компиляции и на том, что kernel находится где-то внутри программы в исходных текстах.
Несколько смазывает впечатление то, что библиотека распространяется под GPL3, т.е. цель "спрятать kernel" под такой лицензией, очевидно, не может быть достигнута т.к. использующий библиотеку варез обязан тоже быть под GPL3+
- Portable OpenCL
- Реализация OpenCL (для CPU) на базе LLVM. OpenSource, BSD-style license.
Не смотрел, но идея мне нравится.
- libclc
- Реализация OpenCL для CPU в виде библиотеки, тоже поверх LLVM/Clang, хотя поминается и PTC
Анонсирую исключительно до кучи, на настоящий момент проект фактически пустой, но вдруг там что-то разовьется со временем?
Статьи по понедельникам
Не могу не поделиться очередным источником полезных ссылок по теме GPGPU.
Сайт StreamComputing.eu (за новостями которого лично я слежу через Твиттер) завел очень полезный обычай: по понедельникам они публикуют подборки статей по тематике GPGPU, кластеров и всего подобного.
5-го сентября вроде что-то тоже было, но разрозненно и в твиттере.Язык, увы, английский.
High Performance Linpack для CUDA/Fermi
Внезапно обнаружил, что High Performance Linpack для Fermi с начала августа доступен на сайте Nvidia для зарегистрированных девелоперов.
Презентация про эту штуку есть тут: CUDA Accelerated Linpack for Clusters, пишут про 350 GFLOP/s для DGEMM на Tesla M2050 (только GPU) и 435 GFLOP/s для комбинации M2050+8CPU (2xQuad core Xeon 2.66). Для более мощной машины (CPU на 2.8 а не 2.33) показаны 475 GFLOP/s на DGEMM, 401 GFLOP/s для Linpack с одним GPU и 705 GFLOP/s с двумя GPU.
Нашлась еще статья китайцев: Early Linpack Performance Benchmarking on IPE Mole 8.5 Fermi GPU Cluster, где есть цифирка про 200 TFLOP/s на кластере из 320 узлов, по 6 GPU на узел.
Вышли CUDA 4.0 & Parallel Nsight 2.0 (релизы)
Вышли релизные версии:
Какой-то принципиальной разницы с RC2-версиями из документации не видно, каких-то критичных багов в RC2 я тоже не находил.
Вот в драйверах разница заметна, копирование хост-видеокарта и обратно в драйвере 270.81 (доступен по первой ссылке) где-то на 10% быстрее, чем в текущем 270.61 WHQL.
Свежие GPGPU tools
В последние дни оба основных разработчика GPU обновили свои GPGPU toolkits до CUDA 4.0 RC2 и APP SDK 2.4, соответственно.