Moe - 搜索 News

红板报 on MSN11 小时

品玩2月24日讯，Kimi 上周末发布技术报告，宣布开源 MoE 模型 Moonlight-16B-A3B。报告表示，Kimi通过深度改造 Muon 优化器，并将其运用于实际训练，证明了 Muon 在更大规模训练中的有效性，是 AdamW ...

1 小时

DeepSeek开源放大招：FlashMLA让H800算力狂飙！曝光低成本秘笈

经实测，FlashMLA在H800 SXM5平台上（CUDA 12.6），在内存受限配置下可达最高3000GB/s，在计算受限配置下可达峰值580 TFLOPS。。

腾讯网2 天

一次推理解决复合问题：基于MoE的大语言模型知识模块可扩展融合 ...

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@ ...

4 小时

国产AI神器上线！DeepSeek-R1满血版免费不限次，速度一骑绝尘

近日，国内AI领域迎来一项重大突破——问小白正式上线DeepSeek-R1满血版，引发广泛关注。这款AI工具不仅实现了免费不限次使用，更以超乎寻常的响应速度和稳定性，成为AI领域的又一里程碑。

财联社 on MSN1 天

月之暗面开源MoE模型Moonlight

【月之暗面开源MoE模型Moonlight】《科创板日报》23日讯，今天（23日）凌晨，月之暗面发布最新论文《Muon is Scalable for LLM ...

搜狐2 天

从NSA与MoE探索大模型新路径，提升AI能力与效率

在当今人工智能技术迅猛发展的舞台上，大模型技术成为了一个引人注目的话题。而在数据处理的效率和准确性方面，原生稀疏注意力机制（NSA）和混合专家系统（MoE）的兴起为大模型的优化发展提供了新的思路和解决方案。首先，NSA作为一种创新的注意力机制 ...

界面新闻 on MSN2 小时

3800亿元！阿里巨额AI基建投资计划创纪录

界面新闻记者 | 宋佳楠 2月24日，界面新闻获悉，阿里巴巴集团CEO吴泳铭宣布，未来三年，阿里将投入超过3800亿元，用于建设云和AI硬件基础设施，总额超过去十年总和。该数字创下中国民营企业在云和AI硬件基础设施建设领域有史以来最大规模投资纪录。

来自MSN22 小时

DeepSeek行业级应用白皮书

DeepSeek的核心优势在于其自主研发的开源推理模型DeepSeek-R1。该模型不仅具备强大的自然语言理解、文本生成、知识推理和代码生成能力，还能够免费商用，极大地降低了企业使用AI的门槛。与市场上其他模型相比，DeepSeek-R1在处理复杂任 ...

15 小时

阿里AI收入快速增长支持中国企业出海

日前，阿里巴巴集团发布2025财年第三季度（截至2024年12月31日止季度）业绩，数据显示，阿里云该季度营收317.42亿元，同比增长13%；公共云收入持续两位数增长；AI相关收入连续六个季度三位数增长；调整后EBITA增长33%至31.38亿元。财报显示，增长主要由公共云业务收入的双位数增长带动，其中包括AI相关产品采用量的提升。阿里方面表示，将继续投入客户增长与技术创新，尤其是在AI基础设 ...

腾讯网19 小时

月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%，DeepSeek也适用

（注：帕累托前沿是一个经济学和管理学中的概念，描述的是在多目标决策问题中所有可能的最优解的集合，这些解在多个目标之间取得了最佳平衡。在帕累托前沿上的每一个点，都意味着一个目标的改善必然以牺牲另一个目标为代价，因此它代表了在多个目标之间实现的最佳权衡。

4 天

撞车DeepSeek NSA，Kimi杨植麟署名的新注意力架构MoBA发布，代码也公开

昨天下午，DeepSeek 发布了一篇新论文，提出了一种改进版的注意力机制 NSA；加上还有创始人兼 CEO 梁文锋亲自参与，一时之间吸引眼球无数。但其实就在同一天，月之暗面也发布了一篇主题类似的论文，并且同样巧合的是，月之暗面创始人兼 CEO ...

4 天

千行百业深度拥抱DeepSeek，谁是DeepSeek部署“最优解”？

DeepSeek不仅以训练效率提升2-3倍、推理效率提升5倍-7倍的技术突破，引发千里之外的巴黎AI峰会热议，更在商业落地层面创造了现象级纪录——上线20天即吸引160余家企业接入，日均调用量突破3000万次，还登陆Apple Store免费应用榜首 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果