Комментировать

NVidia GTX 280, Tesla T10P

Как и обещали, публике предъявили новый чипсет и новые видеокарты на нем. Нас они интересуют не с точки зрения графики, а с точки зрения вычислений, так их и рассмотрим.

GeForce GTX 280

В пресс-релизах пишут про примерно терафлопс, но внутренний голос мне подсказывает, что это такая же наколка, как 500 гигафлопс у 8800GTX - это посчитано для каких-то графических операций, а реальную производительность для вычислений считали как "1 MAD (2 операции) на такт внутренней частоты на процессор". Для 8800GTX получалось 128*2*1.35GHz = 345.6 GFLOP/s, реально получить удавалось до 205 на SGEMM, а на какой-то вычислительной химии получали практически теоретическую производительность (за 300 GFLOP/s). Для 280 GTX получается, по той же формуле, 240 * 2 * 1.296 = 622 GFLOP/s.

На реальных задачах прирост производительности запросто может быть в эти самые два раза, ибо memory bandwidth тоже выросла почти вдвое, что приятно.

Двойная точность

Двойная точность объявлена, каких-то бенчмарок еще нет. На CNET пишут про 90 GFLOP/s на fp64, что не очень убедительно. Сама цифра - хорошая, только вот 300-долларовый 4-ядерный процессор от Intel показывает примерно вдвое меньше, а карта - вдвое дороже.

Впрочем, рекомендуемая сейчас техника - получить приближенное решение в одинарной точности, а потом его уточнить в двойной - теперь может применяться и прямо на GPU, без пересылки промежуточного результата обратно с карты. Эта техника интересна и для обычных CPU тоже, там одинарная точность примерно вдвое быстрее и формально и по факту, ведь упираемся мы в bandwidth памяти.

Про поддержку CUDA и про драйвера я пока не понимаю. Не видел я, чтобы была заявлена совместимость с новыми картами, но может быть плохо смотрел. Понятно, что CUDA 2.0 готовили именно под эти карты.

Вердикт: надо щупать живьем.

Tesla T10P

Кроме игровых карт, анонсированы и научные. Как карта (C1060), так и сервер (S1070), доступность осенью этого года.

Из опубликованых спецификаций ясно не очень много. В первом приближении это тот же чипсет (один в карте, 4 в сервере), памяти в нем 4 гигабайта на чип, вместо гигабайта в игровой версии (а ведь я уже предсказал видеокарты с 64-битной адресацией, недолго осталось ждать).

Интересно то, что 4 гигабайта быстрой памяти сделать, похоже, нельзя, поэтому в Тесле пропускная способность памяти в 1.4 раза меньше (и для многих приложений это аукнется)

Tags: