标记 token - 搜索 News

1 天

“放弃生成式模型，不研究LLM（大语言模型），我们没办法只通过文本训练让AI达到人类的智慧水平。”近日，Meta首席AI科学家杨立昆（Yann LeCun）在法国巴黎的2025年人工智能行动峰会上再一次炮轰了生成式AI。杨立昆认为，现有的大模型运行虽然高效，但推理过程是发散的，生成的token有可能不在合理答案范围内，这也是为什么有些大模型会产生幻觉。虽然现在的很多生成式模型让AI可以通过律师资 ...

2 天

DeepSeek与Grok3的较量：稀疏注意力机制NSA的崛起与未来展望

在当今人工智能的快速发展中，如何高效处理长上下文信息成了众多研究者亟待攻克的难题。近期，DeepSeek团队在社交媒体上发布了一篇引人注目的新论文，提出了一种原生稀疏注意力机制（NSA），为解决这一问题提供了创新思路。此外，就在几天前，埃隆·马斯克旗下的xAI公司也发布了其最新的Grok3模型，吸引了众多行业的热切关注。在这篇文章中，我们将深入分析DeepSeek的NSA机制，以及Grok3的特点 ...

腾讯网5 天

嚯！大语言扩散模型来了，何必只预测下一个token | 人大高瓴&蚂蚁

每个token被掩码的概率为t，其中t是从 [0,1]中均匀采样的。这与传统的固定掩码比例（如BERT中的15%）不同，LLaDA的随机掩码机制在大规模数据上表现出更好的性能。

6 天

模型预训练模式“变天”？Meta推出预训练框架，训练token减少21.5%

近日，通过结合“预测下一个 token”概念与连续概念，Meta 提出一款名为“连续概念混合（CoCoMix，Continuous Concept Mixing）”的预训练框架。（注：连续概念，指的是连续思维链技术，这是一种旨在提升模型推理能力的方法 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果