Muon - 搜索 News

4 天

2月21日，国内知名AI公司深度求索（DeepSeek）发布“开源周”计划，将在2月24日—28日每日开源新内容，总共5个代码库。DeepSeek官方的GitHub代码提交记录，成为AI开发者眼中的“赛博烟花”，打响了AI新一轮开源竞赛的发令枪。

6 天

月之暗面推出新优化器Muon，计算效率大幅提升

近日，人工智能领域再度掀起波澜，月之暗面（Moonshot）宣布开源新版优化器 Muon，成功将计算效率提升至传统 AdamW 的两倍。这个新优化器的推出恰逢 DeepSeek 即将连续开源多个代码库，引发了业内的高度关注和讨论。

6 天

开源赛道太挤了！月之暗面开源新版Muon优化器

上次是论文，两家几乎前后脚放出改进版的注意力机制，可参考《撞车 DeepSeek NSA，Kimi 杨植麟署名的新注意力架构 MoBA 发布，代码也公开》、《刚刚！DeepSeek 梁文锋亲自挂名，公开新注意力架构 NSA》。

腾讯网6 天

月之暗面开源Moonlight：30亿/160亿参数混合专家模型

公司动态经济观察网讯 ...

来自MSN6 天

月之暗面 Kimi 开源 MoE 模型

品玩2月24日讯，Kimi 上周末发布技术报告，宣布开源 MoE 模型 Moonlight-16B-A3B。报告表示，Kimi通过深度改造 Muon 优化器，并将其运用于实际训练，证明了 Muon 在更大规模训练中的有效性，是 AdamW ...

6 天

月之暗面联手UCLA推新模型Mixture-of-Expert，提升语言模型训练效率

在人工智能领域，训练大型语言模型（LLMs）已成为推动技术进步的重要方向。然而，随着模型规模和数据集的不断扩大，传统的优化方法 —— 特别是 AdamW—— 逐渐显露出其局限性。研究人员面临着计算成本高、训练不稳定等一系列挑战，包括梯度消失或爆炸、参数矩阵更新不一致及分布式环境下的资源需求高等问题。因此，迫切需要更高效、更稳定的优化技术来应对这些复杂性。

6 天on MSN

月之暗面Kimi发布Moonlight模型：参数高达30亿至160亿，性能大幅提升

近期，人工智能领域迎来了一项引人注目的技术创新。知名技术团队月之暗面Kimi发布了一项关于Muon优化器的新技术报告，并随之推出了名为“Moonlight”的混合专家模型（MoE）。这款模型在Muon优化器的基础上进行了训练，拥有30亿至160亿不等 ...

6 天

Kimi团队发布Moonlight模型：参数高达160亿，性能提升显著，开源Muon ...

Moonlight模型的发布无疑为AI领域注入了一剂强心针。该模型在训练过程中采用了高达5.7万亿个token的数据量，同时通过减少浮点运算次数（FLOPs），实现了性能的显著提升。这一突破不仅提升了帕累托效率边界，更为未来的大规模语言模型训练提供了 ...

腾讯网6 天

月之暗面Kimi推出Moonlight：30 亿/160 亿参数混合专家模型

IT之家 2 月 24 日消息，月之暗面 Kimi 昨日发布了“Muon 可扩展用于 LLM 训练”的新技术报告，并宣布推出“Moonlight”：一个在 Muon 上训练的 30 亿 / 160 亿参数混合专家模型（MoE）。使用了 5.7 万亿个 ...

6 天

月之暗面 Kimi 开源 Moonlight：30 亿 / 160 亿参数混合专家模型

IT之家 2 月 24 日消息，月之暗面 Kimi 昨日发布了“Muon 可扩展用于 LLM 训练”的新技术报告，并宣布推出“Moonlight”：一个在 Muon 上训练的 30 亿 / 160 亿参数混合专家模型（MoE）。使用了 5.7 万亿个 token，在更低的浮点运算次数（FLOPs）下实现了更好的性能，从而提升了帕累托效率边界。

6 天

全球科技早参：英伟达显卡危机与AI工具新突破

2025年2月24日，全球科技领域又迎来了一波重磅资讯，其中最引人注目的莫过于英伟达确认RTX 5090和5070 ...

每日经济新闻 on MSN6 天

英伟达确认RTX 5090和5070 Ti存在制造问题；月之暗面发布最新技术报告 ...

｜2025年2月24日星期一｜ NO.1 英伟达确认RTX 5090和5070 Ti存在制造问题近日，英伟达确认发售了一些缺少渲染单元的RTX 5090和RTX 5070 Ti ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果