CUDA + PCI full duplex ?

Исползуя CUDA можно ли на PCI Express v1.0 (x16) достичь не просто ~2 Gb/s в какую-либо сторону, а одновременный ~2Gb/s read + ~2Gb/s write ? т.е. ~4Gb/s.
Даже использую stream-ы такое ощущение, что копирования host-device device-host последовательны,
т.е. те же ~2Gb/s.

Forums: