Где можно найти информацию о регистрах в GPU - типы, разрядность, количество?

Здравствуйте,
подскажите, где можно найти такую информацию о GPU (Geforce и Radeon) в плане рассмотрения их в качестве CPU:
архитектура: типы, разрядость, количество исполнительных блоков
регистры: типы, разрядность, количество
типы данных, в частности numeric data types
ISA

на их сайтах в разделе документации нашел только часть интересующей информации :( , а хотелось бы полную, как у Intel

Forums: 

У NVidia архитектура неплохо

У NVidia архитектура неплохо описана в мануале на CUDA, там почти все есть.
Чуть подробнее - всякие презентации (с конференций, учебных курсов).

Конкретно регистров (4-байтных) у G80 - 8k на SM, у G200 - 16k на SM.

с Geforce более-менее понятно

с Geforce более-менее понятно - в процессоре (SP) один исполнительный блок; регистры, процессоры, исполнительные блоки скалярные 32-битные. Всё правильно?
А вот по Radeon после чтения доков возник ряд вопросов
в документации говорится, он имеет векторную VLIW архитектуру, что у него 128-битные регистры
и что в одном процессоре находится 5 исполнительных блоков (4 stream cores + 1 t-stream core)
1) Правильно ли я понимаю, что несмотря на 128-битность регистров, каждый исполнительный блок лишь 32-битен? Отсюда, как я понял, и скалярность инструкций для трансцендентных функций и корня. Но как в таком случае выполняются эти операции над числами с двойной точностью?
2) Сложение и умножение выполняется сразу над вектором (четыре sp fp числа), как и в sse?
3) Не нашел инструкции деления. Плохо смотрел или ее нет?
4) Написано, что при операциях над числом с двойной точностью задействуются сразу 4 исполнительных блока (отсюда и четырехкратное падение скорости). Я не понял - почему 4 блока? Ведь если каждый из них 32-разряден, то должно хватать двух.
5) Можно ли операции на разных исполнительных блоках выполнять параллельно? (например одновременнно складывать-умножать и вычислять синус)

To 5) Оптимизирующий

To 5) Оптимизирующий компилятор перемешивает инструкции. Когда ты векторизуешь код, ты просто помогаешь компилятору.
To 4) Слишком простая логика. У чисел с двойной точностью мантиссы И порядки длиннее чем с одинарной. Поэтому надо больше чем 2 АЛУ для счета.

В принципе АМД-шный VLIW юнит

В принципе АМД-шный VLIW юнит отличный вычислитель. Единственной, что меня раздражает, так это обязательная когерентность вычислений на уровне ветвлений между юнитами. Если шейдер слишком ветвистый, и исполнение в разных юнитах идет не по 1м и тем же ветвям, то начинаются тормоза