近日,通过结合“预测下一个 token”概念与连续概念,Meta 提出一款名为“连续概念混合(CoCoMix,Continuous Concept Mixing)”的预训练框架。(注:连续概念,指的是连续思维链技术,这是一种旨在提升模型推理能力的方法 ...
“放弃生成式模型,不研究LLM (大语言模型) ,我们没办法只通过文本训练让AI达到人类的智慧水平。”近日,Meta首席AI科学家杨立昆 (Yann LeCun) 在法国巴黎的2025年人工智能行动峰会上再一次炮轰了生成式AI。
实验结果显示,CoCoMix 的样本效率更高,并且始终优于“预测下一个 token”、知识蒸馏和插入暂停标记(inserting pause tokens)。(注:插入暂停标记 ...
“放弃生成式模型,不研究LLM(大语言模型),我们没办法只通过文本训练让AI达到人类的智慧水平。”近日,me ta首席AI科学家杨立昆(Yann LeCun)在法国巴黎的2025年人工智能行动峰会上再一次炮轰了生成式AI。
为此,西安电子科技大学与新加坡国立大学以及南洋理工大学团队联合提出多模态共情回复生成(MERG)任务,引入文本、语音和面部视觉信息,并构建大规模基准数据集 AvaMERG,涵盖真实语音与动态头像视频。
纯强化学习(RL):与许多依赖监督微调的模型不同,DeepSeek-R1强调纯强化学习,这减少了对昂贵的、标记数据集的需求 ... 训练成本得到了大幅降低。 3. 更低的Token成本 与OpenAI的模型相比,DeepSeek-R1每百万token的成本显著降低。一些数据显示,DeepSeek-R1的成本 ...
每个token被掩码的概率为t,其中t是从 [0,1]中均匀采样的。这与传统的固定掩码比例(如BERT中的15%)不同,LLaDA的随机掩码机制在大规模数据上表现出更好的性能。
今天,MoBA 的一位主要研发同学 Andrew Lu 在知乎发帖,自述研发过程的三次踩坑,他称为 “三入思过崖”。他在知乎的签名是“新晋 LLM 训练师”。 注意力机制之所以重要,是因为它是当前大语言模型(LLM)的核心机制。回到 2017 年 6 ...
具体来说,当模型在推理过程中识别到需要额外信息时,它会生成特殊的标记(token)并附带精确的查询信息。这些标记可以分为三类:网络搜索标记、代码执行标记和思维导图调用标记。 这种迭代式的检索—推理循环使模型能够不断完善其推理过程,最终达到 ...
让人眼前一亮的是, DeepSeek创始人兼CEO梁文锋 这次出现在了合著名单之中,在作者排名中位列倒数第二。这意味着他作为项目管理者,参与了一线的研究工作。另外,这篇论文的第一作者Jingyang Yuan是 在实习期间完成的这项研究 。
微软研究院发布Magma,这是一款针对多模态人工智能代理设计的基础模型。Magma具备视觉与语言理解能力,能够直接执行UI操作与机器人控制,突破了传统视觉语言模型仅限于静态理解的限制。微软强调,Magma单一模型即可处理数字与物理环境中的互动任务,且 ...
针对这一问题, 北京大学彭宇新教授团队 系统地分析了多模态大模型在细粒度视觉识别上所需的 3 项能力:对象信息提取能力、类别知识储备能力、对象 - 类别对齐能力,发现了 「视觉对象与细粒度子类别未对齐」 ...