Sparse - 搜索 News

差评XPIN on MSN21 小时

宇树的机器人又进化了，学哪吒跳舞，还能挑战平衡木

既能上春晚扭秧歌，又能模仿科比的后仰跳投、复现 C 罗的腾空半转身。前阵子，宇树科技的人形机器人，可谓是出尽了风头。结果这还没几天，他们家的机器人就又双叒进化了。梅花桩挑战，没有一步踩空，走得稳稳当当。

1 天

DeepSeek重磅开源FlashMLA，超高效的MLA解码内核引领AI新潮流

近日，DeepSeek在广受期待的情况下，正式开源了其首个项目FlashMLA，该项目在GitHub上线仅半小时内便获得300多颗星，显示了其在AI领域的强大吸引力。FlashMLA的核心特点是"一款面向Hopper ...

14 小时

大模型开发者分享研发历程，知乎引领AI“思维链开源”

i黑马讯 ...

1 天

DeepSeek重磅开源FlashMLA：AI解码领域的颠覆者！

核心理念无疑振奋人心：“FlashMLA是一款面向Hopper GPU的高效MLA解码内核，专门为可变长度序列服务场景进行优化。”简单来说，FlashMLA是帮助AI模型快速解码的利器，尤其在面对长上下文的对话时，其优势不言而喻。

来自MSN5 天

DeepSeek最新论文科普解读：NSA，物美价廉的超长上下文方案

DeepSeek在AI领域的发展一直备受关注，其最新论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse ...

腾讯网1 天

DeepSeek“开源周”Day1：让英伟达H800性能翻两倍

作者｜沐风来源｜AI先锋官2月24日，DeepSeek的“开源周”，开源了他们第一天的项目FlashMLA。开源地址：https://github.com/deepseek-ai/FlashMLA在DeepSeek整个技术路线中，MLA（多头潜在注意 ...

腾讯网1 天

一文详解DeepSeek开源的FlashMLA，他们才是真正的“源神”

因为就大模型的实际应用而言，用户往往输入并不规则，随时来个长上下文对话或者给你传上去一个超长PDF，这就需要内核支持“动态序列”，同时还能保持高效，而这块，DeepSeek也做了大幅的优化。

来自MSN4 天

梁文锋参与发表的 DeepSeek 新论文 NSA 注意力机制，有哪些信息值得 ...

Codesign真是妙不可言啊 Dynamic sparse attention的主要问题就是如果用flashattention style的kernel写法，那么对于每个query block，需要load每个token激活的key/value block的并集，在最坏条件下是会degrade到full attention的。

中华网2 天

DeepSeek低调参与GDC大会闭门会议引关注

2月23日，2025全球开发者先锋大会主办方确认，近期颇受关注的DeepSeek参与了今年的大会，但主要是以“闭门会议”的方式低调参会，具体场次和出席人并未对外公布。此前2月7日，有消息称全球开发者先锋大会组委会已与DeepSeek团队取得联系，De ...

知乎 on MSN4 天

如何评价 Kimi 开源的稀疏注意力框架 MoBA？与DeepSeek的NSA相比，二者各 ...

就在昨天，Kimi 和 Deepseek 分别发布了一篇论文，发布时间和论文主题内容都高度相似。我第一时间把两篇论文阅读完了，急忙跑来写写我对这两篇论文的感想和体会。

1 天

Allerta Meteo, maltempo sull’Italia nell’ultima settimana di febbraio

L'ultima settimana di febbraio sarà caratterizzata dal maltempo in tutta Italia: è allerta meteo in diverse regioni ...

4 天

【国泰君安：DeepSeek NSA架构

【国泰君安：DeepSeek NSA架构引领AI效率革新】国泰君安证券研究指出，DeepSeek发布NSA（Native Sparse Attention）相关论文，突破长文本处理瓶颈，低成本模型训练可行性推动AI大模型转向算法效率竞争。通过降低AI应用开发门槛，有望激发新一轮创新浪潮，最终加速AI在各行业的渗透，带动整个产业链升级，从基础设施到应用层都将会迎来新的发展机遇。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果