kernel работает быстрее при запуске через Profiler

Всем привет!

Столкнулся со следующей проблемой: при запуске программы через NVIDIA Visual Profiler, время работы ядра примерно в два раза меньше, чем при запуске без профилятора. Как такое в принципе может быть?

У меня стоит GTS 250 c Compute Capability 1.1, программа запускает вычисления в нескольких потоках используя разные stream. Расчитано на более сильные видео-карты, с возможностью параллельного запуска нескольких ядер. Может ли это уходшать производительность по сравнению с работой в одном stream?

Forums: