Комментировать

проще ли загружать из

проще ли загружать из глобальной памяти (её еще и больше чем общей) в регистры
с помощью
i = blockDim.x*blockIdx.x + threadIdx.x

B[ i ] = A[ i-1 ] + A[ i ] + A[ i +1 ]

или быстрее будет загрузить в общую память и там за несколько (если не
хватит памяти) циклов общитать
B[ threadIdx.x ] = A[ threadIdx.x - 1 ] + A[ threadIdx.x ] + A[ threadIdx.x +1 ]
(т.е. получается что скорость загрузки из общей памяти в регистры быстрее)

или например самому при общете в общей памяти переписать как
B[ threadIdx.x ] = A[ threadIdx.x - 1 ] + A[ threadIdx.x ]
B[ threadIdx.x ] + = A[ threadIdx.x + 1 ]

т.е. отличаются ли скорости расчетов в глобальной и общей памяти
или только скорости загрузки

одинакова ли скорость загрузки из глобальной в общую, из общей в глобальную.

т.е. окончательно
гдг быстрее считать в общей или глобальной памяти

простите за спам :)