TOKEN - 搜索 News

来自MSN2 小时

千亿阿里云谋变，吴泳铭狂飙基建

AI、AI，还是AI。

3 小时on MSN

DeepSeek新研究：NSA注意力机制，让推理速度飙升11倍！

在科技界风起云涌的浪潮中，一项新兴的研究成果犹如一股清流，迅速吸引了业界的广泛关注。近日，DeepSeek研究团队携其最新力作——一种名为NSA的全新注意力机制，强势回归，与马斯克发布的Grok 3形成了鲜明的对比，两者热度不相上下。

3 小时

华为诺亚推出ESA架构，重塑稀疏注意力技术的未来

在近期的人工智能研究中，华为诺亚方舟实验室正式发布了全新的高效选择注意力架构（Efficient Selective ...

4 小时

稀疏注意力再添一员，华为诺亚推出高效选择注意力架构ESA

通过稀疏化注意力的创新设计，ESA 突破了大模型在长文本处理中的瓶颈。ESA 不仅实现了数倍序列长度的拓展，还引入独创的动态计算范式，结合邻域影响力有效避免了单纯选择 top-ranked token 所带来的性能损失。通过对关键 token ...

腾讯网10 小时

Llasa TTS：基于LLAMA 8B 大模型微调，打造顶尖语音克隆效果

今天要为大家隆重介绍一款在语音合成领域取得重大突破的新型 TTS 模型—— Llasa 8B。这款模型由香港科技大学（HKUST）倾力打造，基于强大的 LLaMA 8B 大语言模型进行微调，专注于实现极致的语音克隆效果，并支持令人惊艳的中英双语生成能力。Llasa 8B 并非横空出世，它巧妙地选择了 Meta 公司开源的 LLaMA 8B ...

中华网5 天

DeepSeek发新成果稀疏注意力机制NSA显著提升长上下文处理速度

2月18日，DeepSeek团队发布了一篇新论文，介绍了一种改进的稀疏注意力机制NSA，适用于超快速的长上下文训练与推理。NSA以性价比极高的方式在训练阶段应用稀疏性，在训推场景中均实现速度的明显提升，特别是在解码阶段实现了高达11.6倍的提升。

6 天

DeepSeek为成都AI创业者带来哪些启发？

智慧途灵科技 (成都）有限公司创始人徐梦曦认为DeepSeek为整个行业带来的变化，从Center for AI Safety（人工智能安全中心）最新发起的“Humanity’s Last Exam”测试中，虽然不如OpenAI最新的O3但也位于前列。“Humanity’s Last ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果