TOKEN - 搜索 News

3 小时on MSN

NSA的研究成果还验证了清华大学姚班早期论文中的结论。在处理复杂数学问题时，NSA通过优化问题理解和答案生成，成功减少了所需的tokens数量，从而得出了正确答案。这一显著提升不仅展示了NSA在效率和准确性上的优势，也再次证明了AI技术在不断推陈出新 ...

4 小时

稀疏注意力再添一员，华为诺亚推出高效选择注意力架构ESA

通过稀疏化注意力的创新设计，ESA 突破了大模型在长文本处理中的瓶颈。ESA 不仅实现了数倍序列长度的拓展，还引入独创的动态计算范式，结合邻域影响力有效避免了单纯选择 top-ranked token 所带来的性能损失。通过对关键 token ...

腾讯网3 天

微软发布3.48T token训练数据集+高质量处理管线，覆盖通用、代码 ...

在当前大模型训练耗尽了越来越多可用数据的状况下，高质量训练数据的重要性日益凸显。前不久，微软研究院公布了一项名为 REDSTONE 的开源项目，提供了一套完整的数据处理框架，包括通用领域和特定领域数据的处理脚本，以及经过筛选的高质量 Common ...

来自MSN6 天

嚯！大语言扩散模型来了，何必只预测下一个token | 人大高瓴&蚂蚁

明敏发自凹非寺量子位 | 公众号 QbitAI 用扩散模型替代自回归，大模型的逆诅咒有解了! 人大高瓴人工智能研究院、蚂蚁共同提出LLaDA（a Large Language Diffusion with mAsking）。

腾讯网10 小时

Llasa TTS：基于LLAMA 8B 大模型微调，打造顶尖语音克隆效果

今天要为大家隆重介绍一款在语音合成领域取得重大突破的新型 TTS 模型—— Llasa 8B。这款模型由香港科技大学（HKUST）倾力打造，基于强大的 LLaMA 8B 大语言模型进行微调，专注于实现极致的语音克隆效果，并支持令人惊艳的中英双语生成能力。Llasa 8B 并非横空出世，它巧妙地选择了 Meta 公司开源的 LLaMA 8B ...

来自MSN12 天

Perplexity Sonar升级：1200 Token/s疾速破局，引领搜索模型新潮流

标题：Perplexity Sonar升级：1200 Token/s疾速破局，引领搜索模型新潮流随着人工智能技术的快速发展，搜索引擎已成为人们获取信息的重要途径。作为一家AI搜索引擎企业，Perplexity一直在致力于提高其搜索模型的性能和准确性 ...

中华网11 小时

DeepSeek播种，阿里云“收割”？

2月20日，阿里发布2025财年第三季度业绩报告（截至2024年12月31日止）。报告期内，阿里云实现营收317.42亿元，同比增长13%，相比上一季度7%的增速接近翻倍。整体收入（不计来自阿里巴巴并表业务的收入）实现双位数同比增长11%。调整后EB ...

7 天

首个基于统计学的线性注意力机制ToST，高分拿下ICLR Spotlight

Token Statistics Transformer (ToST) 提出了一种新的注意力机制，它的时间复杂度是线性的。通过对序列特征的统计建模，ToST 提高了序列处理任务中的效率。文章探讨了基于变分编码率缩减（Variational Rate ...

来自MSN10 天

Karpathy大神问懵DeepSeek！一个竟藏53个Token，思考10分钟没解释出来

白交克雷西发自凹非寺量子位 | 公众号 QbitAI 注意看，这个😀竟然占了53个token！（标题🤣是😀平替） Karpathy大神又带来他的新实验新发现了，结果直接问懵DeepSeek和ChatGPT。思考过程be like： ...

11 天

Karpathy新实验火了！一个「表情」占53个token，DeepSeek-R1苦思10分解谜失败

比如，拉丁字母的「e」（U+0065）和西里尔字母的「е」（U+0435）在外观上几乎一模一样，但它们的Unicode编码是不同的。这类易混淆字符，就被称为Confusables。

中华网13 天

TechWeb微晚报：DeepSeek涨价了，苏宁易购回应破产传闻输出token费用翻 ...

TechWeb微晚报：DeepSeek涨价了。2月10日，DeepSeek官网宣布，DeepSeek-V3 API服务的45天优惠价格体验期结束。从2月9日起，新的收费标准为每百万输入tokens ...

11 天

Karpathy大神问懵DeepSeek！一个笑脸表情竟藏53个Token，思考10分钟没解释 ...

DeepSeek-R1 花了10分钟思考差点就成功了。它认为隐藏的信息可能是Onli！n37e27i4h4he3ingle7odlol。因为觉得如果只是一个单词“lol”，那就是无稽之谈，所以就放弃了。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果