日前,阿里巴巴集团发布2025财年第三季度(截至2024年12月31日止季度)业绩,数据显示,阿里云该季度营收317.42亿元,同比增长13%;公共云收入持续两位数增长;AI相关收入连续六个季度三位数增长;调整后EBITA增长33%至31.38亿元。 财报显示,增长主要由公共云业务收入的双位数增长带动,其中包括AI相关产品采用量的提升。阿里方面表示,将继续投入客户增长与技术创新,尤其是在AI基础设 ...
19 小时
来自MSN月之暗面开源MoE模型Moonlight【月之暗面开源MoE模型Moonlight】《科创板日报》23日讯,今天(23日)凌晨,月之暗面发布最新论文《Muon is Scalable for LLM ...
近日,佛朗斯宣布其各个管理系统已正式接入DeepSeek大模型,这一重要举措显示了公司在推动设备智能化和高效化管理方面的决心与前瞻性。DeepSeek是基于先进的混合专家(MoE)架构构建的强大语言模型,凭借其卓越的学习能力和自适应机制,使其在处理复杂任务时表现出色,满足佛朗斯在设备管理和客户服务体验提升方面的需求。
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@ ...
DeepSeek不仅以训练效率提升2-3倍、推理效率提升5倍-7倍的技术突破,引发千里之外的巴黎AI峰会热议,更在商业落地层面创造了现象级纪录——上线20天即吸引160余家企业接入,日均调用量突破3000万次,还登陆Apple Store免费应用榜首 ...
昨天下午,DeepSeek 发布了一篇新论文,提出了一种改进版的注意力机制 NSA;加上还有创始人兼 CEO 梁文锋亲自参与,一时之间吸引眼球无数。 但其实就在同一天,月之暗面也发布了一篇主题类似的论文,并且同样巧合的是,月之暗面创始人兼 CEO ...
金融界2月16日消息,汤姆猫(300459)披露投资者关系活动记录表显示,公司AI情感陪伴机器人产品采用MOE(混合专家模型)架构,搭载与西湖心辰定制的“汤姆猫情感陪伴垂直模型”,并调用了豆包、DeepSeek等模型的能力,增强了产品的意图识别、响应速度及数学能力等功能。此外,公司正积极拓展海外市场,推进欧美、东南亚等地区的销售。
大模型的快速发展带来了推理成本和算力效率的双重挑战。随着模型规模的不断扩大,传统的Transformer架构在计算复杂度和参数数量上的对数关系使其在推理时面临成本激增和速度变慢的问题。MoE架构通过分离计算和参数,一定程度上缓解了这一问题,但较小的batchsize仍会导致访存急剧上升,进而影响推理效率。
北京商报 讯(记者 魏蔚)2月12日,字节跳动豆包大模型团队宣布,已提出全新的稀疏模型架构 UltraMem,该架构有效解决了 MoE 推理时高额的访存问题,推理速度较 MoE 架构提升 2-6 倍,推理成本最高可降低 83%。
据证券时报,随着模型规模的扩大,推理成本和访存效率已成为限制大模型规模应用的关键瓶颈。近期,字节跳动豆包大模型团队提出了全新的稀疏模型架构UltraMem,该架构有效解决了MoE推理时高额的访存问题,推理速度较MoE架构提升2—6倍,推理成本最高可降低83%。该研究还揭示了新架构的Scaling ...
据介绍, 昆仑芯P800可以较好底支撑Deepseek系列MoE模型大规模训练任务,全面支持MLA、多专家并行等特性,只需32台即可支持模型全参训练,高效完成 ...
近几年来,人工智能的快速发展使得人们对大型语言模型的需求持续攀升。尤其是671B MoE DeepSeek R1,以其卓越的处理能力与多样的应用潜力走进大家的视野。然而,如何将这一强大的模型实现本地化部署,成为了广大AI爱好者及开发者关注的焦点。本文将深入探讨 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果