11 小时
红板报 on MSN月之暗面 Kimi 开源 MoE 模型品玩2月24日讯,Kimi 上周末发布技术报告,宣布开源 MoE 模型 Moonlight-16B-A3B。 报告表示,Kimi通过深度改造 Muon 优化器,并将其运用于实际训练,证明了 Muon 在更大规模训练中的有效性,是 AdamW ...
经实测,FlashMLA在H800 SXM5平台上(CUDA 12.6),在内存受限配置下可达最高3000GB/s,在计算受限配置下可达峰值580 TFLOPS。。
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@ ...
近日,国内AI领域迎来一项重大突破——问小白正式上线DeepSeek-R1满血版,引发广泛关注。这款AI工具不仅实现了免费不限次使用,更以超乎寻常的响应速度和稳定性,成为AI领域的又一里程碑。
1 天
财联社 on MSN月之暗面开源MoE模型Moonlight【月之暗面开源MoE模型Moonlight】《科创板日报》23日讯,今天(23日)凌晨,月之暗面发布最新论文《Muon is Scalable for LLM ...
在当今人工智能技术迅猛发展的舞台上,大模型技术成为了一个引人注目的话题。而在数据处理的效率和准确性方面,原生稀疏注意力机制(NSA)和混合专家系统(MoE)的兴起为大模型的优化发展提供了新的思路和解决方案。 首先,NSA作为一种创新的注意力机制 ...
2 小时
界面新闻 on MSN3800亿元!阿里巨额AI基建投资计划创纪录界面新闻记者 | 宋佳楠 2月24日,界面新闻获悉,阿里巴巴集团CEO吴泳铭宣布,未来三年,阿里将投入超过3800亿元,用于建设云和AI硬件基础设施,总额超过去十年总和。该数字创下中国民营企业在云和AI硬件基础设施建设领域有史以来最大规模投资纪录。
22 小时
来自MSNDeepSeek行业级应用白皮书DeepSeek的核心优势在于其自主研发的开源推理模型DeepSeek-R1。该模型不仅具备强大的自然语言理解、文本生成、知识推理和代码生成能力,还能够免费商用,极大地降低了企业使用AI的门槛。与市场上其他模型相比,DeepSeek-R1在处理复杂任 ...
日前,阿里巴巴集团发布2025财年第三季度(截至2024年12月31日止季度)业绩,数据显示,阿里云该季度营收317.42亿元,同比增长13%;公共云收入持续两位数增长;AI相关收入连续六个季度三位数增长;调整后EBITA增长33%至31.38亿元。 财报显示,增长主要由公共云业务收入的双位数增长带动,其中包括AI相关产品采用量的提升。阿里方面表示,将继续投入客户增长与技术创新,尤其是在AI基础设 ...
(注:帕累托前沿是一个经济学和管理学中的概念,描述的是在多目标决策问题中所有可能的最优解的集合,这些解在多个目标之间取得了最佳平衡。在帕累托前沿上的每一个点,都意味着一个目标的改善必然以牺牲另一个目标为代价,因此它代表了在多个目标之间实现的最佳权衡。
昨天下午,DeepSeek 发布了一篇新论文,提出了一种改进版的注意力机制 NSA;加上还有创始人兼 CEO 梁文锋亲自参与,一时之间吸引眼球无数。 但其实就在同一天,月之暗面也发布了一篇主题类似的论文,并且同样巧合的是,月之暗面创始人兼 CEO ...
DeepSeek不仅以训练效率提升2-3倍、推理效率提升5倍-7倍的技术突破,引发千里之外的巴黎AI峰会热议,更在商业落地层面创造了现象级纪录——上线20天即吸引160余家企业接入,日均调用量突破3000万次,还登陆Apple Store免费应用榜首 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果