TOKEN - 搜索 News

微软发布3.48T token训练数据集+高质量处理管线，覆盖通用、代码 ...

在当前大模型训练耗尽了越来越多可用数据的状况下，高质量训练数据的重要性日益凸显。前不久，微软研究院公布了一项名为 REDSTONE 的开源项目，提供了一套完整的数据处理框架，包括通用领域和特定领域数据的处理脚本，以及经过筛选的高质量 Common ...

4 小时

稀疏注意力再添一员，华为诺亚推出高效选择注意力架构ESA

通过稀疏化注意力的创新设计，ESA 突破了大模型在长文本处理中的瓶颈。ESA 不仅实现了数倍序列长度的拓展，还引入独创的动态计算范式，结合邻域影响力有效避免了单纯选择 top-ranked token 所带来的性能损失。通过对关键 token ...

2 天

未来AI发展的关键：低精度计算与数万亿token的挑战

随着技术的进一步成熟，能够处理多个上下文的模型逐渐成为现实。例如，现今的神经网络已能应对数百万token的输入，这相当于分析数百页的PDF文档。然而，更具挑战性的目标在于处理数万亿token的信息，这将使AI可以分析并整合整个互联网的数据，满足用户个 ...

3 小时on MSN

DeepSeek新研究：NSA注意力机制，让推理速度飙升11倍！

在科技界风起云涌的浪潮中，一项新兴的研究成果犹如一股清流，迅速吸引了业界的广泛关注。近日，DeepSeek研究团队携其最新力作——一种名为NSA的全新注意力机制，强势回归，与马斯克发布的Grok 3形成了鲜明的对比，两者热度不相上下。

腾讯网15 天

暴跌中币价相当坚挺，从HIP、Vaults以及Token模型的角度再谈Hyperliquid

作者：白丁&Shew，仙壤GodRealmX自2014年门头沟事件起，中心化交易平台的腐败与市场操纵问题便始终困扰着Crypto的所有参与者。2022年FTX破产事件彻底为人们敲响警钟后，人们对去中心化订单簿平台的重视明显加深，dydx、Degate等知名的链上订单簿平台皆为此类代表，它们在取得瞩目成绩的同时，却因政策与技术原因迟迟没有成 ...

7 天

首个基于统计学的线性注意力机制ToST，高分拿下ICLR Spotlight

Token Statistics Transformer (ToST) 提出了一种新的注意力机制，它的时间复杂度是线性的。通过对序列特征的统计建模，ToST 提高了序列处理任务中的效率。文章探讨了基于变分编码率缩减（Variational Rate ...

7 天

比知识蒸馏好用，田渊栋等提出连续概念混合，再度革新Transformer预 ...

具体来说，本文使用经过预训练的 SAE ...

中华网13 天

TechWeb微晚报：DeepSeek涨价了，苏宁易购回应破产传闻输出token费用翻 ...

TechWeb微晚报：DeepSeek涨价了。2月10日，DeepSeek官网宣布，DeepSeek-V3 API服务的45天优惠价格体验期结束。从2月9日起，新的收费标准为每百万输入tokens ...

腾讯网13 天

余弦评论Crypto AI Agent现状：行业关注点仍停留在Token价格，缺乏真正创新

PANews 2月11日消息，慢雾创始人Cos(余弦) 在 X 平台发文指出，过去两个月，非加密领域的 AI Agent 发展迅猛，竞争激烈，尤其是 DeepSeek 和 Mistral AI 的推出，推动了大量基于 LLM API + Web2 ...

7 天

Meta 创新推出 “连续概念混合” 框架，推动 Transformer 预训练新革命

近年来，随着大型语言模型（LLMs）的快速发展，自然语言处理领域经历了前所未有的变革。这些技术如今广泛应用于代码助手、搜索引擎和个人 AI 助手等场景，展现了强大的能力。然而，传统的 “下一个 token 预测” 范式存在一定局限性，尤其是在处理复杂推理和长期任务时，模型需要经历大量训练才能掌握深层次的概念理解。

7 天

听力熊AI虚拟伙伴“哪吒”单日对话量突破28亿token，领跑青少年AI ...

在《哪吒2》票房突破100亿元、跻身全球动画影史前三之际，听力熊旗下AI虚拟伙伴“哪吒”同步缔造行业里程碑——上线首日角色对话量飙升至28亿token，刷新国内AI交互终端单日调用量纪录。这一数据不仅印证了产品强大的用户吸引力，更彰显了其在多模态情感 ...

12 天

Perplexity 推出新版 Sonar 搜索模型：1200 Token / s 疾速，比肩前沿模型

IT之家 2 月 12 日消息，AI 搜索引擎企业 Perplexity 当地时间昨日宣布推出其开发的新版 Sonar 搜索模型。该模型由 Llama 3.3 70B 进一步训练而来，对搜索应用进行了优化，运行在 Cerebras 推理基础设施上 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果