请问 Taichi 和使用 MPI4Py 有性能对比么

Wuming-HUST · 2023 年5 月 15 日 06:52

因为我主要使用多核 CPU，如48核、64核等，因此想咨询一下 Taichi 的 cpu 后端并行能自动将所有 cpu 都利用起来么？以及和 MPI4Py 有对比过么？
谢谢

houkensjtu · 2023 年5 月 15 日 07:37

单颗多核 CPU 的话 Taichi 会自动调用 CPU 核心进行并行；多颗 CPU 的话就需要 MPI 解决了，这方面相关的前期工作可以参考这片知乎文章：如何同时实现高性能并行+分布式计算？| Taichi x MPI4Py - 知乎

Wuming-HUST · 2023 年5 月 15 日 07:54

谢谢

Wuming-HUST · 2023 年5 月 15 日 11:21

想继续请教一下，两个CPU，每颗24核，总共48核。在使用时，单独执行Taichi时是会自动调用24个核进行并行么？然后如果使用 MPI + Taichi，怎样确定MPI调用的是两个不同的物理CPU？十分感谢

houkensjtu · 2023 年5 月 15 日 11:58

是的，应该会自动调用核心，可以用系统自带的监测工具观察一下 CPU 资源使用情况，Linux 常用的是 htop，Mac 和 Windows 应该也都有对应的图形界面工具

haidonglan · 2023 年5 月 19 日 02:29

两个CPU如果是单机双socket那么是操作系统自动调度的，线程数量足够就能全部用起来。

单机单任务情况下，直接用Taichi就可以，是有自动多线程的。用MPI4Py一般都是为了多机多卡，非常少的情况下单机多任务MPI会有一些性能收益，通常不太明显。

单独执行Taichi任务的时候应该是48线程都会调用的，如果是24线程怀疑是个bug。好奇一下你是怎么确定是24个线程的呢？

多机双CPU的情况下要处理的事情还是挺多的，最重要的是需要将MPI通信开销掩盖掉。另外如果需要观测大规模集群的MPI分布，可以利用hwloc → 参考 How to know the which core a process is running on in MPI? - Stack Overflow

当然最简单的就是每台机器开一个终端看进程，MPI是进程并行的所以可以直接在top和htop里面看见。反正就两台机器对吧～