Отличия compute capability и непонятки в win7

Здравствуйте!
Недавно на работе купили графические станции с quadro 5800 - на ней, как оказалось, compute capability 1.3. На workstation у меня 450gts - у него compute capability 2.1.
Стоит задача генерации шума. Как оказалось, 450gts справляется с генерацией 2048*1152 элемента за 7мкс (с копированием из device->host). Первый прогон на quadro (под win7 64x) поразил - 25-30 мкс! Както было неожиданно... На той же графстанции под ubuntu были теже 7мкс.
Потом уже в профилеровщике посмотрел - оказывается на граф станции под win7 запускается generate_seed в разы медленнее чем на моей машине с 450gts (посмотрел опятьже в профилеровщике что не сама ф-я generate_seed а launchGrid reiftn непростительно много).
Думал что это разница из-за compute capability - но тогда непонятны результаты на граф станции под linux....
Для генерации использовал host функции из curand. Жалко еще не запускал профилеровщик под linux чтоб сравнить с виндой.
И еще странности - под linux тест из sdk matrix multiply показывает 90 гигафлоп - под win7 60.
Не подскажите в чем тут дело может быть - первый вопрос связанный с compute capability и второй с разницей между linux и win7 с гигафлопами. (и под linux и под win 7 стоят аналогичные sdk и тулкиты).
Заранее спасибо! Это мое первое знакомство с cuda но уже нравится). Увлекся параллельными вычислениями на cpu а теперь и gpu приплетаю...

Forums: