Yuchen - 搜索 News

1 天

（注：帕累托前沿是一个经济学和管理学中的概念，描述的是在多目标决策问题中所有可能的最优解的集合，这些解在多个目标之间取得了最佳平衡。在帕累托前沿上的每一个点，都意味着一个目标的改善必然以牺牲另一个目标为代价，因此它代表了在多个目标之间实现的最佳权衡。

腾讯网1 天

月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%，DeepSeek也适用

（注：帕累托前沿是一个经济学和管理学中的概念，描述的是在多目标决策问题中所有可能的最优解的集合，这些解在多个目标之间取得了最佳平衡。在帕累托前沿上的每一个点，都意味着一个目标的改善必然以牺牲另一个目标为代价，因此它代表了在多个目标之间实现的最佳权衡。

1 天

Muon优化器重磅揭秘：算力需求降低48%对比AdamW

在技术参数方面，Muon相较于先前的优化算法具有多项显著的优势。通过引入的权重衰减机制，Muon在训练8亿参数模型时实现了最佳的过拟合控制，这一点在训练100B tokens时尤为突出。此外，Muon自适应调整参数更新幅度，使其更好地符合AdamW优化器的调度方式，获得整体更新效果的一致性，为筹备大规模训练提供了理论依据。针对特定训练场景，Muon能够在A100 ...

凤凰网5 天

【量化历史研究】同窗与事业：同伴对西点军校学员内战忠诚的影响

美国内战是美国历史上的一个关键事件，不仅产生了重大的政治和社会影响，而且以民族主义和地方主义之间造成的个人冲突而闻名。西点军校毕业的学员，后来都成为美国联邦和南方联盟的重要领导人，但他们面临着国家还是地方的艰难抉择，现有研究很少实证研究哪些因素影响了 ...

腾讯网2 天

一次推理解决复合问题：基于MoE的大语言模型知识模块可扩展融合 ...

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@ ...

1 天

英伟达一夜回血，马斯克狂烧30亿GPU给老黄续命，10倍算力创Scaling Law ...

一度狂跌的英伟达股价，又被Grok-3盘活了？20万块GPU训出的模型超越DeepSeek和OpenAI，证明Scaling Law还在继续增长！Ai2研究者大佬直言：Grok-3，就是DeepSeek给美国AI企业压力的又一力证。