Moe - 搜索 News

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@ ...

10 天

这么一来，UltraMem的出现不仅是对现有模型推理问题的一记重锤，更是为未来更大更复杂的模型铺平了道路。特别是对于那些想搞数十亿级别value或expert模型的科学家们来说，UltraMem简直就是天降福音！

3 天

昨天下午，DeepSeek 发布了一篇新论文，提出了一种改进版的注意力机制 NSA；加上还有创始人兼 CEO 梁文锋亲自参与，一时之间吸引眼球无数。但其实就在同一天，月之暗面也发布了一篇主题类似的论文，并且同样巧合的是，月之暗面创始人兼 CEO ...

10 天

近日，豆包大模型团队宣布推出全新稀疏模型架构UltraMem，这一突破性技术在AI领域引发了广泛关注。该架构通过有效解决MoE（混合专家模型）推理时的高访存问题，显著提升了推理速度和降低了推理成本，为AI技术的广泛应用奠定了坚实基础。

24 天

IT之家 1 月 29 日消息，新年之际，阿里云公布了其全新的通义千问 Qwen 2.5-Max 超大规模 MoE 模型，大家可以通过 API 的方式进行访问，也可以登录 Qwen Chat 进行体验，例如直接与模型对话，或者使用 artifacts、搜索等功能。

近日，豆包大模型团队宣布推出全新稀疏模型架构UltraMem，这一突破性技术在AI领域引发了广泛关注。该架构通过有效解决MoE（混合专家模型）推理时 ...

来自MSN10 个月

此前米哈游、腾讯均有投资MiniMax。在MoE尚未成为行业共识时，MiniMax已经押注MoE路线，今年1月发布其首款基于MoE架构的abab 6，并在过去3个月潜心 ...

每经北京2月11日电（记者杨昕怡）豆包大模型团队今日宣布，团队提出了全新的稀疏模型架构UltraMem，该架构有效解决了MoE（混合专家模型）推理时 ...

来自MSN5 个月

XVERSE-MoE-A36B的推出，不仅彰显了元象在AI大模型领域的技术实力，更以其卓越的性能和开源的特性，为国内的AI应用落地提供了强有力的支持。据悉 ...

格隆汇 on MSN10 天

格隆汇2月12日｜随着模型规模的扩大，推理成本和访存效率已成为限制大模型规模应用的关键瓶颈。近期，字节跳动豆包大模型团队提出了全新的稀疏模型架构UltraMem，该架构有效解决了MoE推理时高额的访存问题，推理速度较MoE架构提升2—6倍，推理成本最 ...

10 天on MSN

北京商报讯（记者魏蔚）2月12日，字节跳动豆包大模型团队宣布，已提出全新的稀疏模型架构 UltraMem，该架构有效解决了 MoE 推理时高额的访存问题，推理速度较 MoE 架构提升 2-6 倍，推理成本最高可降低 83%。

近期，字节跳动豆包大模型团队提出了全新的稀疏模型架构UltraMem，该架构有效解决了MoE推理时高额的访存问题，推理速度较MoE架构提升2—6倍 ...

一些您可能无法访问的结果已被隐去。