at length - 搜索 News

知乎 on MSN1 天

梁文锋参与发表的 DeepSeek 新论文 NSA 注意力机制，有哪些信息值得 ...

Codesign真是妙不可言啊 Dynamic sparse attention的主要问题就是如果用flashattention style的kernel写法，那么对于每个query block，需要load每个token激活的key/value block的并集，在最坏条件下是会degrade到full attention的。

知乎 on MSN7 天

如何评价 DeepSeek 的 R1 与 R1-Zero 模型？

rule based看着越是简单，复现越是艰难从r1报告放出来的那天起，手头做的其他工作都不香了，忍不住砸了大量时间来复现。复现效果不是很好，并没有出现response length总是越训越长的情况。训练样本的利用效率太低了，很难训出什么我也不能说自己训出了aha ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

今日热点