Moe - 搜索 News

来自MSN22 小时

【月之暗面开源MoE模型Moonlight】《科创板日报》23日讯，今天（23日）凌晨，月之暗面发布最新论文《Muon is Scalable for LLM ...

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@ ...

红板报 on MSN12 天

推理成本比MoE直降83%！字节最新大模型架构入围ICLR 2025

豆包大模型团队投稿量子位 | 公众号 QbitAI 字节出了个全新架构，把推理成本给狠狠地打了下去！有多狠？推理速度相比MoE架构提升2-6倍，推理成本最高可降低83%。

11 天

豆包大模型UltraMem：稀疏架构让推理成本大降，效果超越MoE

这么一来，UltraMem的出现不仅是对现有模型推理问题的一记重锤，更是为未来更大更复杂的模型铺平了道路。特别是对于那些想搞数十亿级别value或expert模型的科学家们来说，UltraMem简直就是天降福音！

11 天

豆包大模型提出稀疏模型架构，推理成本较MoE最高可降83%

近日，豆包大模型团队宣布推出全新稀疏模型架构UltraMem，这一突破性技术在AI领域引发了广泛关注。该架构通过有效解决MoE（混合专家模型）推理时的高访存问题，显著提升了推理速度和降低了推理成本，为AI技术的广泛应用奠定了坚实基础。

来自MSN9 天

豆包提出全新稀疏模型架构UltraMem，推理成本较MoE最高可降83%

IT之家 2 月 12 日消息，豆包大模型团队今日宣布，字节跳动豆包大模型团队提出了全新的稀疏模型架构 UltraMem，该架构有效解决了 MoE 推理时高额的访存问题，推理速度较 MoE 架构提升 2-6 倍，推理成本最高可降低 ...

腾讯网17 小时

代码论文全开源！月之暗面发布重磅技术报告：模型训练效率翻倍

月之暗面最新技术报告 —— 《Muon is Scalable for LLM Training》！推出了一个全新的优化器 Muon，并基于此训练出了 3B/16B 参数的混合专家模型 (MoE)——Moonlight。这个 Moonlight ...

来自MSN18 小时

DeepSeek行业级应用白皮书

DeepSeek的核心优势在于其自主研发的开源推理模型DeepSeek-R1。该模型不仅具备强大的自然语言理解、文本生成、知识推理和代码生成能力，还能够免费商用，极大地降低了企业使用AI的门槛。与市场上其他模型相比，DeepSeek-R1在处理复杂任 ...

10 小时

阿里AI收入快速增长支持中国企业出海

日前，阿里巴巴集团发布2025财年第三季度（截至2024年12月31日止季度）业绩，数据显示，阿里云该季度营收317.42亿元，同比增长13%；公共云收入持续两位数增长；AI相关收入连续六个季度三位数增长；调整后EBITA增长33%至31.38亿元。财报显示，增长主要由公共云业务收入的双位数增长带动，其中包括AI相关产品采用量的提升。阿里方面表示，将继续投入客户增长与技术创新，尤其是在AI基础设 ...

11 天

豆包提出全新稀疏架构推理成本较MoE最高可降83%

据证券时报，随着模型规模的扩大，推理成本和访存效率已成为限制大模型规模应用的关键瓶颈。近期，字节跳动豆包大模型团队提出了全新的稀疏模型架构UltraMem，该架构有效解决了MoE推理时高额的访存问题，推理速度较MoE架构提升2—6倍，推理成本最高可降低83%。该研究还揭示了新架构的Scaling ...

搜狐11 天

豆包大模型提出稀疏模型架构，推理成本较MoE最高可降83%

近日，豆包大模型团队宣布推出全新稀疏模型架构UltraMem，这一突破性技术在AI领域引发了广泛关注。该架构通过有效解决MoE（混合专家模型）推理时 ...

搜狐11 天

豆包大模型UltraMem：推理成本大降，性能超越MoE架构

近日，字节跳动旗下的豆包大模型团队对外公布了一项重大技术突破，他们研发出了一种名为UltraMem的全新稀疏模型架构。这一创新架构旨在解决 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果