[x]
Вход
Amazon
AMD
ATI
brute force
bruteforce
cloud
CUDA
GPGPU
gpgpu.ru
GPU Gems
Intel
Larrabee
Linpack
MapReduce
MD5 crack
Nexus
NVidia
NVidia 8800
NVidia CUDA
NVidia G200
NVidia GTX280
NVidia Nexus
OpenCL
Parallel Nsight
signal processing
sparse matrices
Stream SDK
VISPL
VMWare
web
ВМиК МГУ
МГУ
Москва
Т-Платформы
Физфак МГУ
бенчмарки
блогосфера
вычисления
конкурсы
курсы
новости сайта
обработка изображений
подбор паролей
поиск
программирование GPU
работа
разное
сортировка
фильтрация трафика
численные методы
Navigation
Cвежие комментарии
-
1 week 14 hours ago
-
1 week 1 day ago
-
1 week 1 day ago
-
1 week 1 day ago
-
1 week 1 day ago
-
1 week 1 day ago
-
1 week 1 day ago
-
1 week 4 days ago
-
3 weeks 3 days ago
-
3 weeks 5 days ago
Новое на форуме
Популярно
- Как начать с самого начала работу с CUDA (33,824)
- Форумы NVidia CUDA: обзор за май (31,820)
- GPGPU и видеокарты AMD (18,182)
- NVidia GTX 280, Tesla T10P (15,757)
- SGEMM на видеокарте и CPU, серия 6 (14,895)
да, заработал. Однако всё равно не могу вычислить , почему не работает матричное умножение. Использую код с сайт NVidia, Моя задача - умножить матрицу изображения, представленную как 3 канала Х Высота*Ширина, каждый канал на R,G и B соответственно, вытянуты они в одну строку, на другую матрицу константных чисел, размером всего лишь 3Х3 для преобразования в YIQ формат. По правилу необходимо умножить так T * ImageRGB = ImageYIQ, где T[3X3] и ImageRGB[3XHeight*Width], чтобы размер ImageYIQ остался таким же, как ImageRGB. однако функция умножения таким образом не запускается (пишу в ней printf для проверки входа). А когда проверяю умножения на других размерах, например [3*HeightXWidth], то умножение работает, однако мне надо именно [3XHeight*Width]. Исходя из кода функции я понял, что умножение разбивается на блоки-подматрицы размером BLOCK_SIZE X BLOCKSIZE, чтоб использовать в каждом блоке shared memory. Я чувствую подвох в этом, поэтому выставил BLOCK_SIZE = 1 вместо 16, чтоб не получилось 3/BLOCK_SIZE = 0. Однако это не помогло, а разобраться в расчете индексов входных и выходной матриц и их подматриц, принятом в функции пока что не получается. У кого-нибудь есть идеи или другой пример матричного умножения на CUDA?