sparsity - 搜索 News

3 天

杨植麟最初创办月之暗面受到关注的一个重要原因，是他的论文影响力和引用量，但 K1.5 论文之前，他最后一篇论文类的研究停留在 2024 年 1 月。而梁文锋虽然作为作者出现在 DeepSeek 最重要的模型技术报告里，但这些报告的作者名录几乎相当于 ...

虎嗅网6 天

杨植麟和梁文锋，论文撞车了

“结合R1和K1.5一起看能更好地学习Reasoning Model怎么训一样，结合MoBA和NSA一起看能从不同侧面更好地理解我们对于——Attention中sparsity应当存在而且可以通过端到端训练习得——的相信。”章明星写到。三在MoBA发布后，月之暗面的许欣然也在社交媒体上 ...

新浪网5 天

杨植麟和梁文锋，论文撞车了

“结合 R1 和 K1.5 一起看能更好的学习 Reasoning Model 怎么训一样，结合 MoBA 和 NSA 一起看能从不同侧面更好的理解我们对于——Attention 中 sparsity 应当 ...

搜狐5 天

杨植麟和梁文锋，论文撞车了

“结合 R1 和 K1.5 一起看能更好的学习 Reasoning Model 怎么训一样，结合 MoBA 和 NSA 一起看能从不同侧面更好的理解我们对于——Attention 中 sparsity 应当存在而且可以通过端到端训练习得——的相信。”章明星写到。 3 在MoBA发布后，月之暗面的许欣然也在社交媒体上 ...

腾讯网6 天

DeepSeek“稀疏出奇”，NSA技术剑指OpenAI和Grok，AI竞赛再变天？

NSA机制的核心创新，可以概括为以下几个关键词：原生稀疏（Native Sparsity）：NSA机制并非在传统稠密注意力机制的基础上进行“剪枝”或“压缩 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果