杨植麟最初创办月之暗面受到关注的一个重要原因,是他的论文影响力和引用量,但 K1.5 论文之前,他最后一篇论文类的研究停留在 2024 年 1 月。而梁文锋虽然作为作者出现在 DeepSeek 最重要的模型技术报告里,但这些报告的作者名录几乎相当于 ...
“结合R1和K1.5一起看能更好地学习Reasoning Model怎么训一样,结合MoBA和NSA一起看能从不同侧面更好地理解我们对于——Attention中sparsity应当存在而且可以通过端到端训练习得——的相信。”章明星写到。 三 在MoBA发布后,月之暗面的许欣然也在社交媒体上 ...
“结合 R1 和 K1.5 一起看能更好的学习 Reasoning Model 怎么训一样,结合 MoBA 和 NSA 一起看能从不同侧面更好的理解我们对于——Attention 中 sparsity 应当 ...
“结合 R1 和 K1.5 一起看能更好的学习 Reasoning Model 怎么训一样,结合 MoBA 和 NSA 一起看能从不同侧面更好的理解我们对于——Attention 中 sparsity 应当存在而且可以通过端到端训练习得——的相信。”章明星写到。 3 在MoBA发布后,月之暗面的许欣然也在社交媒体上 ...
NSA机制的核心创新,可以概括为以下几个关键词: 原生稀疏(Native Sparsity):NSA机制并非在传统稠密注意力机制的基础上进行“剪枝”或“压缩 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果