64k - 搜索 News

人人都是产品经理 on MSN2 小时

本系列会继续用通俗易懂的语言深入浅出为小白介绍AI知识，尤其是近年火起来的大模型、AIGC、Agent等内容，本章节内容尝试用生活中的场景解释一下使用大模型要关注的“token”。 01 Token是什么？大模型感知世界的元素 Token是大语言模型处理文本的最小信息单元，相当于模型理解世界的“基本构件”。当模型处理输入时，文本会通过分词器（Tokenizer）被切割成一系列Token，这些To ...

1 天

Anthropic首款混合推理模型在亚马逊云科技AmazonBedrock上线

美通社消息，亚马逊云科技宣布，人工智能安全与研究公司Anthropic迄今最智能的模型Claude 3.7 Sonnet现已在Amazon ...

美通社 on MSN2 天

Anthropic首款混合推理模型在Amazon Bedrock上线

（全球TMT2025年2月25日讯）亚马逊云科技宣布，人工智能安全与研究公司Anthropic迄今最智能的模型Claude 3.7 Sonnet已在Amazon ...

2 天

全球首个混合推理模型Claude 3.7降世！最强编程大脑暴击DeepSeek R1

【新智元导读】就在刚刚，Anthropic祭出首个混合推理Claude 3.7 Sonnet，堪称扩展思考模式的最强模型。在最新编码测试中，新模型暴击o3-mini、DeepSeek R1，AI编码王者出世了。

头部财经2 天

全球首个混合推理模型Claude 3.7发布代码能力超DeepSeek

2月25日，根据新智元报道，Anthropic祭出首个混合推理Claude 3.7 Sonnet，堪称扩展思考模式的最强模型。在最新编码测试中，新模型比o3-mini、DeepSeek R1要强上不少，堪称AI编码领域新王者。

3 天

但序列越来越长，传统的注意力机制就开始因为太过复杂成为了造成运行延迟的最大因素。理论分析显示，使用 softmax 架构的注意力计算在解码 64k 长度的上下文时，几乎占据了总延迟的 ...

5 天

刚刚，DeepSeek发新成果，梁文锋亲自参与，实习生挑大梁，显著加速AI ...

让人眼前一亮的是， DeepSeek创始人兼CEO梁文锋这次出现在了合著名单之中，在作者排名中位列倒数第二。这意味着他作为项目管理者，参与了一线的研究工作。另外，这篇论文的第一作者Jingyang Yuan是在实习期间完成的这项研究。

6 天

AI技术双雄：DeepSeek NSA与XAI Grok3引领电子行业新革命

人工智能技术的飞速演进正在深刻改变电子产业格局。近日，DeepSeek推出神经缩放增强（NSA）技术，通过算法与硬件协同优化，显著降低了AI推理成本；与此同时，马斯克旗下XAI发布的Grok3模型在性能上实现重大突破，进一步点燃了全球AI竞赛的战火。

来自MSN6 天

Deepseek新论文稀疏注意力机制NSA与Grok3

DeepSeek团队在推特上发布了一篇新的论文，是解决模型在处理长上下文窗口的能力。马斯克的Grok3模型也在前几天发布了；这篇文章，我们就来看看作者对论文的分析，以及对几个产品的分析与见解。最近（2025 年 2 ...

6 天

国泰君安：DeepSeek NSA架构引领AI效率革新从基础设施到应用层都将会 ...

NSA技术使模型能够直接处理整本书籍、代码仓库或千轮级别的客服对话。这种长序列处理能力的提升，将显著扩展AI在文档分析、代码生成等领域的应用边界。特别是在边缘计算等低延迟场景中，NSA的高效推理特性或催生出全新的商业模式，从而也给硬件厂商、解决方案商等带来新的市场机遇。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果