Reply to comment

с Geforce более-менее понятно - в процессоре (SP) один исполнительный блок; регистры, процессоры, исполнительные блоки скалярные 32-битные. Всё правильно?
А вот по Radeon после чтения доков возник ряд вопросов
в документации говорится, он имеет векторную VLIW архитектуру, что у него 128-битные регистры
и что в одном процессоре находится 5 исполнительных блоков (4 stream cores + 1 t-stream core)
1) Правильно ли я понимаю, что несмотря на 128-битность регистров, каждый исполнительный блок лишь 32-битен? Отсюда, как я понял, и скалярность инструкций для трансцендентных функций и корня. Но как в таком случае выполняются эти операции над числами с двойной точностью?
2) Сложение и умножение выполняется сразу над вектором (четыре sp fp числа), как и в sse?
3) Не нашел инструкции деления. Плохо смотрел или ее нет?
4) Написано, что при операциях над числом с двойной точностью задействуются сразу 4 исполнительных блока (отсюда и четырехкратное падение скорости). Я не понял - почему 4 блока? Ведь если каждый из них 32-разряден, то должно хватать двух.
5) Можно ли операции на разных исполнительных блоках выполнять параллельно? (например одновременнно складывать-умножать и вычислять синус)

Reply

The content of this field is kept private and will not be shown publicly.
  • Web page addresses and e-mail addresses turn into links automatically.
  • Allowed HTML tags: <a> <em> <strong> <cite> <code> <ul> <ol> <li> <dl> <dt> <dd> <i> <table> <td> <tr> <th>
  • Lines and paragraphs break automatically.
  • You can enable syntax highlighting of source code with the following tags: <code>, <blockcode>. The supported tag styles are: <foo>, [foo].
  • Images can be added to this post.

More information about formatting options

Copyright © 2008-2011 Alex Tutubalin