Token - 搜索 News

5 小时

DeepSeek此次发布的论文详细阐述了NSA的设计理念与技术细节，这一创新机制旨在解决长上下文训练与推理中的效率瓶颈。NSA的核心策略包括动态分层稀疏策略、粗粒度的token压缩以及细粒度的token选择，这三项技术的结合不仅显著降低了预训练成本， ...

12 小时

今天，国内AI大模型公司DeepSeek官方账号在知乎首次发布《DeepSeek-V3/R1推理系统概览》技术文章，不仅公开了其推理系统的核心优化方案，更是首次披露了成本利润率等关键数据，引发行业震动。

来自MSN21 小时

简单来说，是的，DeepSeek的思维链展示的就是真实的思考过程。我觉得题主问这个问题是因为DeepSeek，包括其他会深度思考的模型界面设计给人一个误解，就是思考和输出是分开的，有原则上区别的： ...

来自MSN1 天

Inception Labs 于周四发布了 Mercury Coder，这是一种新的 AI 语言模型，利用扩散技术比传统模型更快地生成文本。与逐字生成文本的传统模型（如 ChatGPT）不同，基于扩散的模型（如 Mercury）能够同时生成完整的响应 ...

来自MSN2 天

本系列会继续用通俗易懂的语言深入浅出为小白介绍AI知识，尤其是近年火起来的大模型、AIGC、Agent等内容，本章节内容尝试用生活中的场景解释一下使用大模型要关注的“token”。 01 Token是什么？大模型感知世界的元素 ...

2 天

如此高效且达到商业级的新型语言模型自然吸引了不少关注，著名 AI 研究科学家 Andrej Karpathy 发帖阐述了这项成果的意义。他表示，不同传统的自回归 LLM（即从左到右预测 token），扩散模型是一次性向所有方向进行预测 —— ...

加密货币是一种数字形态的货币。他们属于数字资产，可用于购买商品和服务。加密货币也可储存价值、记账和作为交换中介。分布式账本(又称“区块链”)保障了这种数字资产的安全。第一个加密货币是比特币，中本聪(假名)创造了这种加密货币，并在2009年 ...

4 天

Anthropic发布Claude 3.7 Sonnet，3美元/百万输入token,token,anthropic,claude,sonnet ...

4 天

在标准模式下，它是 Claude 3.5 Sonnet 的升级版；切换到扩展思考（Extended Thinking）模式（可简单理解为推理），它会在回答前进行自我反思，大幅提升在数学、物理、指令理解和编程等复杂任务上的表现。

当晚的电话会上，阿里巴巴集团CEO吴泳铭表示，未来三年在云和AI的基础设施投入，将超过去十年的总和。其平均每月资本开支，已超100个亿。一周前，苹果与阿里的AI合作也已确认。年初至今，浓浓AI味的阿里，股价涨幅近6成，市值突破2.6万亿港元。

2月18日，DeepSeek团队发布了一篇新论文，介绍了一种改进的稀疏注意力机制NSA，适用于超快速的长上下文训练与推理。NSA以性价比极高的方式在训练阶段应用稀疏性，在训推场景中均实现速度的明显提升，特别是在解码阶段实现了高达11.6倍的提升。

12 天

在《哪吒2》票房突破100亿元、跻身全球动画影史前三之际，听力熊旗下AI虚拟伙伴“哪吒”同步缔造行业里程碑——上线首日角色对话量飙升至28亿token，刷新国内AI交互终端单日调用量纪录。这一数据不仅印证了产品强大的用户吸引力，更彰显了其在多模态情感 ...

一些您可能无法访问的结果已被隐去。