“放弃生成式模型,不研究LLM(大语言模型),我们没办法只通过文本训练让AI达到人类的智慧水平。”近日,Meta首席AI科学家杨立昆(Yann LeCun)在法国巴黎的2025年人工智能行动峰会上再一次炮轰了生成式AI。 杨立昆认为,现有的大模型运行虽然高效,但推理过程是发散的,生成的token有可能不在合理答案范围内,这也是为什么有些大模型会产生幻觉。虽然现在的很多生成式模型让AI可以通过律师资 ...
在当今人工智能的快速发展中,如何高效处理长上下文信息成了众多研究者亟待攻克的难题。近期,DeepSeek团队在社交媒体上发布了一篇引人注目的新论文,提出了一种原生稀疏注意力机制(NSA),为解决这一问题提供了创新思路。此外,就在几天前,埃隆·马斯克旗下的xAI公司也发布了其最新的Grok3模型,吸引了众多行业的热切关注。在这篇文章中,我们将深入分析DeepSeek的NSA机制,以及Grok3的特点 ...
每个token被掩码的概率为t,其中t是从 [0,1]中均匀采样的。这与传统的固定掩码比例(如BERT中的15%)不同,LLaDA的随机掩码机制在大规模数据上表现出更好的性能。
近日,通过结合“预测下一个 token”概念与连续概念,Meta 提出一款名为“连续概念混合(CoCoMix,Continuous Concept Mixing)”的预训练框架。(注:连续概念,指的是连续思维链技术,这是一种旨在提升模型推理能力的方法 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果