PyCUDA:C / C ++包括吗?
|
库功能公开给内联CUDA内核的地方(至少我可以看到)并没有真正提到。
具体来说,我正在做小的/愚蠢的矩阵乘法,不应该单独卸载到GPU,但要卸载算法的较大部分,其中包括该乘法。没有人喜欢使用自己的linalg函数,因为有人总是做得更好。
TLDR在PyCUDA下的嵌入式内核中可以使用哪些库?
没有找到相关结果
已邀请:
1 个回复
赣借
对于出现在我的内核中的各种大小(2x2、3x3、4x4、8x8、9x9),执行上述操作并让编译工作完成似乎和我尝试过的任何其他方法一样好。因为在线程级别CUDA实际上是标量,所以没有像矢量这样的矢量原语或东西可以用来加速这类小型操作。