Возможно ли копирование из памяти host <-> device ОДНОВРЕМЕННО с выполнением ядра?

Доброго времени суток!
Хочется во время выполнения ядра подгружать в глобальную память следующую порцию данных.
Возможно ли такое в принципе, и если да, то какие есть ньюансы / особенности?
Спасибо.

Forums: 

Да, возможно. CudaMemcpyAsync

Да, возможно. CudaMemcpyAsync и вперед.
Ньансов-особенностей наверное никаких и нет, берете и делаете. Пример есть в asyncAPI

На картах с двумя DMA Engine (Tesla) возможно даже одновременно копировать "туда", считать и копировать "оттуда".