2 小时
Axios Miami on MSNMade-in-Miami Oscar winning film "Moonlight" re-released on IMAXOscar-winning film set in Miami, is being re-released in IMAX on Thursday. The big picture: The coming-of-age drama — which ...
IT之家 2 月 24 日消息,月之暗面 Kimi 昨日发布了“Muon 可扩展用于 LLM 训练”的新技术报告,并宣布推出“Moonlight”:一个在 Muon 上训练的 30 亿 / 160 亿参数混合专家模型(MoE)。使用了 5.7 万亿个 ...
上周五,DeepSeek 刚刚官宣这周要连续开源 5 个代码库,却被月之暗面深夜截胡了。 昨天,月之暗面抢先一步开源了改进版 Muon 优化器,比 AdamW 优化器计算效率提升了 2 倍。 团队人员表示,原始 Muon ...
在全球人工智能竞赛愈演愈烈的当下,月之暗面(Kimi)以其最新开源技术Moonlight强势入局,给行业带来了一场新的震撼。这项重磅发布不仅意味着技术的破冰,更预示着中国在大模型领域的崛起。新发布的30亿和160亿参数的混合专家模型(MoE)在其最新技术报告中引发了广泛关注,旨在通过优化的Muon可扩展平台,显著提升AI训练效率。
Moonlight模型的发布无疑为AI领域注入了一剂强心针。该模型在训练过程中采用了高达5.7万亿个token的数据量,同时通过减少浮点运算次数(FLOPs),实现了性能的显著提升。这一突破不仅提升了帕累托效率边界,更为未来的大规模语言模型训练提供了 ...
近期,人工智能领域迎来了一项引人注目的技术创新。知名技术团队月之暗面Kimi发布了一项关于Muon优化器的新技术报告,并随之推出了名为“Moonlight”的混合专家模型(MoE)。这款模型在Muon优化器的基础上进行了训练,拥有30亿至160亿不等 ...
月之暗面最新技术报告 —— 《Muon is Scalable for LLM Training》! 推出了一个全新的优化器 Muon,并基于此训练出了 3B/16B 参数的混合专家模型 (MoE)——Moonlight。这个 Moonlight ...
“Moonlight” will screen for one night only on February 27 as part of the A24 x IMAX monthly screening series. Tickets are now ...
在人工智能领域,训练大型语言模型(LLMs)已成为推动技术进步的重要方向。然而,随着模型规模和数据集的不断扩大,传统的优化方法 —— 特别是 AdamW—— 逐渐显露出其局限性。研究人员面临着计算成本高、训练不稳定等一系列挑战,包括梯度消失或爆炸、参数矩阵更新不一致及分布式环境下的资源需求高等问题。因此,迫切需要更高效、更稳定的优化技术来应对这些复杂性。
近日,人工智能领域再度掀起波澜,月之暗面(Moonshot)宣布开源新版优化器 Muon,成功将计算效率提升至传统 AdamW 的两倍。这个新优化器的推出恰逢 DeepSeek 即将连续开源多个代码库,引发了业内的高度关注和讨论。
当前正在显示可能无法访问的结果。
隐藏无法访问的结果