OpenCL Sync

Добрый день,

Начал изучение OpenCL и столкнулся с рядом вопросов.
1. Возможна ли параллельная обработка нескольких cl_command_queue на одном устройстве? (именно параллельная для лучшей загрузки устройства).
Потребность в такой задаче возникла по следующим причинам есть простая операция которая очень быстро выполняется и за действуя максимум 30-40 потоков видеокарты за итерацию следующая итерация базируется на данных полученных от предыдущей. всего итерация 3-5 штук.
2. Ещё вопрос используя команду clEnqueueNDRangeKernel мы ставим очередь на исполнение, но как я понял очередь исполняется последовательно не загружая при этом всех вычислительных модулей карты (даже если очередь содержит несколько kernels то они последовательно загружают 30-40 потоков) есть ли возможность организовать параллельное выполнение этих kernels?

С уважением,
Александр.

Forums: 

Одновременное выполнение

Одновременное выполнение нескольких kernels есть только на NVidia Fermi

Поддержано ли это в OpenCL или есть только в CUDA - не знаю