Комментировать

Вообще, для линейного поиска

Вообще, для линейного поиска - удивительно что исполнение на GPU оказалось быстрее. Ведь скорость копирования данных на GPU очевидно меньше, чем скорость чтения памяти CPU.

Т.е. для такой простой задачи - если у вас получилась скорость последовательного скана сильно меньше гигабайта в секунду на GPU (16M 4-байтовых элементов, 78msec, но наверное искомый элемент не последний) - это какая-то фигня даже для Pentium4, очень мало.

На такой простой (с такой низкой арифметической интенсивностью) задаче - вы должны получить сильный проигрыш для GPU-решения.

P.S. На правах админа позволил себе поставить тег <code>