在推理阶段,MLA 只需要缓存该隐向量,由此大大降低需要缓存的数据量。 具体地,对于某一层某一个 token 的表征, MLA 通过降维映射矩阵 (down-projection matrix)得到对、压缩后的隐向量: 在前向过程中,需要对此隐向量进行升维还原,即: 其中,与为对应的升维 ...