cuda后端最耗时的部分是snode_reader

zane · 2022 年12 月 19 日 06:13

我运行了一个简单的程序，cuda后端时snode_reader的耗时非常多，请问我该怎样找出这里snode reader操作对应程序中的部分? 如果运行cpu后端，则snode_reader几乎不耗时

mzhang · 2022 年12 月 19 日 15:17

是不是程序里有大量在python scope访问field的操作呢？这种操作需要launch kernel即snode_reader导致效率受影响，可以尽量在Taichi scope，即kernel内访问field。

zane · 2022 年12 月 20 日 03:25

哈哈，确实有个函数忘了写成kernel函数了。里面有不少对field的访问