CUDA卷积 - 不可分离的内核
我需要使用不可分离的内核实现一个高效的图像卷积版本(因此CUDA的sdk仅适用于FFT示例,但很明显它只适用于大内核大小)
除了我从头开始实现它之外,我的需求是在先验未知大小的矩阵和内核上运行(它们可以是10x10,为20.000x20.000,我根本无法预测)
您对FFT示例有何建议? (如果这是你最好的选择,请给我一些好处,开始弄清楚它是如何工作的)
对于第二个选择(由我自己手动实现卷积),最大化内存合并的建议是什么?
没有找到相关结果
已邀请:
2 个回复
诧不达
诉嘎归亮