[x]
Вход
Amazon
AMD
ATI
brute force
bruteforce
cloud
CUDA
GPGPU
gpgpu.ru
GPU Gems
Intel
Larrabee
Linpack
MapReduce
MD5 crack
Nexus
NVidia
NVidia 8800
NVidia CUDA
NVidia G200
NVidia GTX280
NVidia Nexus
OpenCL
Parallel Nsight
signal processing
sparse matrices
Stream SDK
VISPL
VMWare
web
ВМиК МГУ
МГУ
Москва
Т-Платформы
Физфак МГУ
бенчмарки
блогосфера
вычисления
конкурсы
курсы
новости сайта
обработка изображений
подбор паролей
поиск
программирование GPU
работа
разное
сортировка
фильтрация трафика
численные методы
Navigation
Cвежие комментарии
-
1 week 6 hours ago
-
1 week 1 day ago
-
1 week 1 day ago
-
1 week 1 day ago
-
1 week 1 day ago
-
1 week 1 day ago
-
1 week 1 day ago
-
1 week 4 days ago
-
3 weeks 3 days ago
-
3 weeks 5 days ago
Новое на форуме
Популярно
- Как начать с самого начала работу с CUDA (33,816)
- Форумы NVidia CUDA: обзор за май (31,806)
- GPGPU и видеокарты AMD (18,179)
- NVidia GTX 280, Tesla T10P (15,756)
- SGEMM на видеокарте и CPU, серия 6 (14,894)
с Geforce более-менее понятно - в процессоре (SP) один исполнительный блок; регистры, процессоры, исполнительные блоки скалярные 32-битные. Всё правильно?
А вот по Radeon после чтения доков возник ряд вопросов
в документации говорится, он имеет векторную VLIW архитектуру, что у него 128-битные регистры
и что в одном процессоре находится 5 исполнительных блоков (4 stream cores + 1 t-stream core)
1) Правильно ли я понимаю, что несмотря на 128-битность регистров, каждый исполнительный блок лишь 32-битен? Отсюда, как я понял, и скалярность инструкций для трансцендентных функций и корня. Но как в таком случае выполняются эти операции над числами с двойной точностью?
2) Сложение и умножение выполняется сразу над вектором (четыре sp fp числа), как и в sse?
3) Не нашел инструкции деления. Плохо смотрел или ее нет?
4) Написано, что при операциях над числом с двойной точностью задействуются сразу 4 исполнительных блока (отсюда и четырехкратное падение скорости). Я не понял - почему 4 блока? Ведь если каждый из них 32-разряден, то должно хватать двух.
5) Можно ли операции на разных исполнительных блоках выполнять параллельно? (например одновременнно складывать-умножать и вычислять синус)