TOKEN - 搜索 News

6 小时on MSN

NSA的研究成果还验证了清华大学姚班早期论文中的结论。在处理复杂数学问题时，NSA通过优化问题理解和答案生成，成功减少了所需的tokens数量，从而得出了正确答案。这一显著提升不仅展示了NSA在效率和准确性上的优势，也再次证明了AI技术在不断推陈出新 ...

腾讯网3 天

微软发布3.48T token训练数据集+高质量处理管线，覆盖通用、代码 ...

在当前大模型训练耗尽了越来越多可用数据的状况下，高质量训练数据的重要性日益凸显。前不久，微软研究院公布了一项名为 REDSTONE 的开源项目，提供了一套完整的数据处理框架，包括通用领域和特定领域数据的处理脚本，以及经过筛选的高质量 Common ...

7 小时

稀疏注意力再添一员，华为诺亚推出高效选择注意力架构ESA

通过稀疏化注意力的创新设计，ESA 突破了大模型在长文本处理中的瓶颈。ESA 不仅实现了数倍序列长度的拓展，还引入独创的动态计算范式，结合邻域影响力有效避免了单纯选择 top-ranked token 所带来的性能损失。通过对关键 token ...

7 天

首个基于统计学的线性注意力机制ToST，高分拿下ICLR Spotlight

Token Statistics Transformer (ToST) 提出了一种新的注意力机制，它的时间复杂度是线性的。通过对序列特征的统计建模，ToST 提高了序列处理任务中的效率。文章探讨了基于变分编码率缩减（Variational Rate ...

腾讯网15 天

暴跌中币价相当坚挺，从HIP、Vaults以及Token模型的角度再谈Hyperliquid

作者：白丁&Shew，仙壤GodRealmX自2014年门头沟事件起，中心化交易平台的腐败与市场操纵问题便始终困扰着Crypto的所有参与者。2022年FTX破产事件彻底为人们敲响警钟后，人们对去中心化订单簿平台的重视明显加深，dydx、Degate等知名的链上订单簿平台皆为此类代表，它们在取得瞩目成绩的同时，却因政策与技术原因迟迟没有成 ...

11 天

Karpathy大神问懵DeepSeek！一个笑脸表情竟藏53个Token，思考10分钟没解释 ...

DeepSeek-R1 花了10分钟思考差点就成功了。它认为隐藏的信息可能是Onli！n37e27i4h4he3ingle7odlol。因为觉得如果只是一个单词“lol”，那就是无稽之谈，所以就放弃了。

7 天

比知识蒸馏好用，田渊栋等提出连续概念混合，再度革新Transformer预 ...

具体来说，本文使用经过预训练的 SAE ...

中华网13 天

TechWeb微晚报：DeepSeek涨价了，苏宁易购回应破产传闻输出token费用翻 ...

TechWeb微晚报：DeepSeek涨价了。2月10日，DeepSeek官网宣布，DeepSeek-V3 API服务的45天优惠价格体验期结束。从2月9日起，新的收费标准为每百万输入tokens ...

7 天

听力熊AI虚拟伙伴“哪吒”单日对话量突破28亿token，领跑青少年AI ...

在《哪吒2》票房突破100亿元、跻身全球动画影史前三之际，听力熊旗下AI虚拟伙伴“哪吒”同步缔造行业里程碑——上线首日角色对话量飙升至28亿token，刷新国内AI交互终端单日调用量纪录。这一数据不仅印证了产品强大的用户吸引力，更彰显了其在多模态情感 ...

7 天

Meta 创新推出 “连续概念混合” 框架，推动 Transformer 预训练新革命

近年来，随着大型语言模型（LLMs）的快速发展，自然语言处理领域经历了前所未有的变革。这些技术如今广泛应用于代码助手、搜索引擎和个人 AI 助手等场景，展现了强大的能力。然而，传统的 “下一个 token 预测” 范式存在一定局限性，尤其是在处理复杂推理和长期任务时，模型需要经历大量训练才能掌握深层次的概念理解。

12 天

Perplexity 推出新版 Sonar 搜索模型：1200 Token / s 疾速，比肩前沿模型

IT之家 2 月 12 日消息，AI 搜索引擎企业 Perplexity 当地时间昨日宣布推出其开发的新版 Sonar 搜索模型。该模型由 Llama 3.3 70B 进一步训练而来，对搜索应用进行了优化，运行在 Cerebras 推理基础设施上 ...

中华网6 天

DeepSeek发新成果稀疏注意力机制NSA显著提升长上下文处理速度

2月18日，DeepSeek团队发布了一篇新论文，介绍了一种改进的稀疏注意力机制NSA，适用于超快速的长上下文训练与推理。NSA以性价比极高的方式在训练阶段应用稀疏性，在训推场景中均实现速度的明显提升，特别是在解码阶段实现了高达11.6倍的提升。

当前正在显示可能无法访问的结果。

隐藏无法访问的结果