apollo - 搜索 News

37 分钟

这使得 APOLLO 可通过放缩缩放因子来弥补低秩带来的误差，从而可采用极低的秩近似，在不牺牲性能的前提下实现极低的内存消耗。实验表明，在 LLaMA-7B 上，APOLLO 仅需 256 的秩，性能仍优于使用 1024 秩的 GaLore。

一些您可能无法访问的结果已被隐去。