隐式有限元提速求助!

隐式有限元最难最慢的两部分就是组装和求解
对于模型点数较多的情况,直接组装整体刚度矩阵从空间和速度来说似乎都不太现实,有没有办法可以提速呢?
已经尝试过example中matrix free的方法但是似乎结果不太对,只能使用example提供的本构模型,修改就错了
能不能考虑用scipy求解再传入taichi,或者用c++编译一个基于eigen的组装求解器再传入taichi?