Характеристики Fermi (GeForce 300)

Уже несколько дней выложена информация про Fermi (GeForce 300)
http://techreport.com/articles.x/17670/1
http://techreport.com/articles.x/17670/2
http://techreport.com/articles.x/17670/3

Основные характеристики Fermi от Nvidia (GeForce 300)

- возможно одновременное исполнение нескольких ядер на различных мультипроцессорах
- 16 мультипроцессоров на кристалле
- разделяемая память увеличилась до 64kb
- максимальное количество планируемых варпов увеличилось до 48 (1568 потоков)
- два планировщика на один мультипроцессор
- минимальное исполнение команды 2 такта
- ширина шины 384 бит
-? про количество регистров ничего не удалось найти

Все исполнительные юниты одного мультипроцессора поделены на группы
- две группы состоят из 16-и простых ядер (раньше их было всего 8). Каждое простое ядро может выполнять как целочисленные, так и операции с плавающей точкой (как 32, так и 64-битными числами).
- 16-element-wide load/store unit (как и раньше)
- 4-wide special function units (sin, cos, tan, sqrt, )

Планировщики (их два) могут отправлять команды (варпы) на любую их этих четырех групп независимо.

Теперь все обращения в память проходят через нормальные КЭШи (раньше обращения в память проходили через КЭШи, только в случае текстурной памяти, и в КЭШи нельзя было ничего записывать). КЭШи когерентны внутри одной подложки!
Про L1 смутно говорится, но L2 кэш 768Kb.

У кого есть другая информация? Может новость на сайт? (а то какой-то не очень живой сайт).

Forums: 

Стоит добавить что хоть

Стоит добавить что хоть ширина шины понизилась с 512(GT200) до 384 бит но использование DDR5 должно серьезно повысить пропускную способность. Да и еще просматривается замечательная тенденция: на 9800 GTX+ потоковых процессоров(SP) было 128 на флагмане 200-ой их стало почти в 2 раза больше - 240, и на Fermi обещают 512 - еще более чем в 2 раза.
И что мне больше всего порадовало - операция с двойной точностью над числами с плавающей точкой займет 2 такта(над одинарной пол такта) - это большой шаг вперед посравнению с GT200 где над числами с плавающей были 10-и кратные потери производительности. Для игр такая точность излише - этот шаг сделан явно не для игровой индустрии :-)

Другой информации, кроме как

Другой информации, кроме как от самой NVidia и нету.

Про L1 кстати говорится вполне не смутно - на SM есть 64к быстрой памяти, она делится 16+48 как shared и cache (shared может быть 16, может быть 48 с кэшом наоборот).

А что касается статьи - я не вижу большого смысла перепечатывать пресс-релизы и whitepapers, есть масса ресурсов которые именно этим живут и держат под это штат.
Будет железка - пощупаю, расскажу.

Вот что меня в этом всерьез бесит - так это то, что под разные поколения (G80/G200/G300) нужно писать сильно разный код, в результате очень вероятно появление приложений, которые на G300 будут работать, а на более младших - нет.

Ну да, перепечатывать не

Ну да, перепечатывать не стоит. Уже позже нашел whitepaper.
Там все подробно и написано. Уже на многих ресурсах есть новость.
Не гуглил на тот момент.

А про код это точно. Вскоре придется писать три версии кода.