Падение производительности Runtime 4.1

Добрый день.
Столкнулся с такой проблемой: написал программу для CUDA. Использовал VS 2008, CUDA Runtime 3.2. Алгоритм CUDA реализован в Dll (C++), функции Dll вызывались из C#. Скорость работы программы достаточна. Затем возникла необходимость переписать солюшн для VS 2010. Установил CUDA Runtime 4.2 и NVIDIA Nsight 2.1. После этого переписал проект под 2010 - с нуля создал C# и С++ (Nsight) проекты, скопировал туда код из проектов VS 2008. Всё работает корректно за одним исключением - скорость выполнения проргаммы на CUDA упала в 3 раза. При этом, если запускать предыдущую версию ПО, скомпилированную под VS 2008 - она по прежнему работает нормально. Кто-нибудь сталкивался с подобоной проблемой? Есть идеи по возможному изменению настроек компилятора?
GPU - Nvidia M540 (мобильный)
Windows 7 (x64)

Forums: 

В CUDA 4.1 они похваляются

В CUDA 4.1 они похваляются новым компилятором, на llvm, от которого все становится быстрее :)

Код точно становится другим - поэтому профайлер в руки, без него ничего сказать невозможно