机制可解释性,又称“mech interp”,是一个新兴的研究领域,旨在理解神经网络的实际运作方式。目前,我们大致知道 AI ...