Yuchen - 搜索 News

11 天

你敢想象吗？一位拥有计算机科学博士学位、AI公司创始人、融资近2000万美元的技术大咖，几乎和美国绿卡擦肩而过？事实上，NIW（国家利益豁免）的审批标准高度依赖移民官的自由裁量权，即便是背景极为优秀的申请人，若材料组织不当，仍可能被拒。

1 天

（注：帕累托前沿是一个经济学和管理学中的概念，描述的是在多目标决策问题中所有可能的最优解的集合，这些解在多个目标之间取得了最佳平衡。在帕累托前沿上的每一个点，都意味着一个目标的改善必然以牺牲另一个目标为代价，因此它代表了在多个目标之间实现的最佳权衡。

腾讯网1 天

月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%，DeepSeek也适用

1 天

Muon优化器重磅揭秘：算力需求降低48%对比AdamW

在技术参数方面，Muon相较于先前的优化算法具有多项显著的优势。通过引入的权重衰减机制，Muon在训练8亿参数模型时实现了最佳的过拟合控制，这一点在训练100B tokens时尤为突出。此外，Muon自适应调整参数更新幅度，使其更好地符合AdamW优化器的调度方式，获得整体更新效果的一致性，为筹备大规模训练提供了理论依据。针对特定训练场景，Muon能够在A100 ...

凤凰网5 天

【量化历史研究】同窗与事业：同伴对西点军校学员内战忠诚的影响

美国内战是美国历史上的一个关键事件，不仅产生了重大的政治和社会影响，而且以民族主义和地方主义之间造成的个人冲突而闻名。西点军校毕业的学员，后来都成为美国联邦和南方联盟的重要领导人，但他们面临着国家还是地方的艰难抉择，现有研究很少实证研究哪些因素影响了 ...

腾讯网2 天

一次推理解决复合问题：基于MoE的大语言模型知识模块可扩展融合 ...

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@ ...

腾讯网19 天

DeepSeek新模型大揭秘，为何它能震动全球AI圈

本文关注DeepSeek-R1在技术上最重要的突破——用纯深度学习的方法让AI自发涌现出推理能力。这一研究可能会对模型推理训练后续的范式产生深刻影响。来源 | 腾讯科技作者 | 郝博阳编辑 | ...

1 天

英伟达一夜回血，马斯克狂烧30亿GPU给老黄续命，10倍算力创Scaling Law ...

一度狂跌的英伟达股价，又被Grok-3盘活了？20万块GPU训出的模型超越DeepSeek和OpenAI，证明Scaling Law还在继续增长！Ai2研究者大佬直言：Grok-3，就是DeepSeek给美国AI企业压力的又一力证。

来自MSN19 天

华为与DeepSeek联手会发生什么：算力已达英伟达60%、CANN取代CDUA架构

DeepSeek的Yuchen Jin表示，长期训练可靠性是中国处理器的一个关键弱点。主要是NVIDIA硬件和软件生态系统的深度集成，该生态系统已经发展了二十多年。

10 天

一文读懂：DeepSeek新模型大揭秘，为何它能震动全球AI圈

因为根据DeepSeek的研究，模型的进步并非均匀渐进的。在强化学习过程中，响应长度会出现突然的显著增长，这些"跳跃点"往往伴随着解题策略的质变。这种模式酷似人类在长期思考后的突然顿悟，暗示着某种深层的认知突破。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果