这使得 APOLLO 可通过放缩缩放因子来弥补低秩带来的误差, 从而可采用极低的秩近似,在不牺牲性能的前提下实现极低的内存消耗。实验表明,在 LLaMA-7B 上,APOLLO 仅需 256 的秩,性能仍优于使用 1024 秩的 GaLore。