Помогите разобраться с теорией.

Помогите разобраться с теорией. У меня есть карточка, характеристики представлены ниже.

Device name: GeForce GTX 460
Total global memory: 1041694720
Shared memory per block: 49152
Registers per block: 32768
Warp size: 32
Memory pitch: 2147483647
Max threads per block: 1024
Max threads dimensions: x = 1024, y = 1024, z = 64
Max grid size: x = 65535, y = 65535, z = 1
Clock rate: 810000
Total constant memory: 65536
Compute capability: 2.1
Texture alignment: 512
Multiprocessor count: 7
(взято из вики)
Количество скалярных процессоров: 336

Как происходит распараллеливания между 7 мультипроцессорами? Т.е. эти 7 это и есть ядра, у которых есть своя сетка и тп. ?

И как происходит распараллеливания между 336 скалярными процессорами? Как они влияют на вычисления?

Forums: 

И еще вопрос - как мне

И еще вопрос - как мне задействовать все 336 скалярные процессоры при вычислении?

Если у вас блоков хватит на

Если у вас блоков хватит на все процессоры, а тредов в блоках - на все "ядра" в них, то все получится само.

Поверьте, куда быстрее один

Поверьте, куда быстрее один раз прочитать документацию по CUDA, чем ее вам тут будут рассказывать по кусочкам.