[x]
Вход
.NET
AMD
ATI
BLAS
bruteforce
brute force
CUDA
GPGPU
gpgpu.ru
GPU Gems
Larrabee
MapReduce
MD5 crack
N-body
Nexus
NVidia
NVidia 8800
NVidia CUDA
NVidia G200
NVidia GTX280
NVidia Nexus
NVidia Tesla
OpenCL
search
signal processing
Sort
sparse matrices
Stream SDK
VISPL
VMWare
web
ВМиК МГУ
Москва
администрирование сайта
бенчмарки
блогосфера
вычисления
конкурсы
курсы
новости сайта
обработка изображений
подбор паролей
поиск
презентации
программирование GPU
работа
разное
сортировка
фильтрация трафика
численные методы
Navigation
Cвежие комментарии
-
1 week 4 days ago
-
3 weeks 1 day ago
-
3 weeks 2 days ago
-
3 weeks 2 days ago
-
3 weeks 2 days ago
-
3 weeks 5 days ago
-
4 weeks 3 days ago
-
4 weeks 6 days ago
-
5 weeks 1 day ago
-
5 weeks 1 day ago
Новое на форуме
Популярно
- Форумы NVidia CUDA: обзор за май (15,640)
- Как начать с самого начала работу с CUDA (13,083)
- GPGPU и видеокарты AMD (11,170)
- NVidia GTX 280, Tesla T10P (10,146)
- SGEMM на видеокарте и CPU, серия 6 (9,813)
Однако - я не очень понимаю, как это бороть.
1. Не-coalesced чтение в EvaluateTestCase. Да - оно в цикле, который проходит по всему выражению int-by-int, но я хоть убей не могу понять, как от этого избавиться. По thread id я считаю номер выражения для вычисления и номер тест кейса для подстановки, как в это втиснуть ещё и сам обсчёт - просто не знаю.
2. Читать в shared mem я не могу - она почти всё занята стеками (я запускаю максимально возможное кол-во потоков (кратное 32) на блок в зависимости от ожидаемой макс глубины стека, вот почему я где-то выше сетовал про 32K памяти в shared mem.
Тут видимо имеет место быть сложность алгоритмическая, мой подход неоптимален в контексте GPU, но пока не понимаю, как это изменить.
Кстати, я вылизал кернел настолько, что он стал примерно в полтора раза быстрее моего атлона (был в два раза медленнее), но это всё суть ловля блох, не глобальный прорыв, а рытьё инета пока не дало результатов по параллельному обсчёту постфиксных выражений.