如此高效且达到商业级的新型语言模型自然吸引了不少关注,著名 AI 研究科学家 Andrej Karpathy 发帖阐述了这项成果的意义。他表示,不同传统的自回归 LLM(即从左到右预测 token),扩散模型是一次性向所有方向进行预测 —— ...
今天凌晨,首个商业级扩散大型语言模型(dLLM)来了!该模型名为 Mercury,其表现非常卓越,在英伟达 H100 上能以每秒超过 1000 token 的速度运行 ...