1 天
知乎 on MSN梁文锋参与发表的 DeepSeek 新论文 NSA 注意力机制,有哪些信息值得 ...Codesign真是妙不可言啊 Dynamic sparse attention的主要问题就是如果用flashattention style的kernel写法,那么对于每个query block,需要load每个token激活的key/value block的并集,在最坏条件下是会degrade到full attention的。
7 天
知乎 on MSN如何评价 DeepSeek 的 R1 与 R1-Zero 模型?rule based看着越是简单,复现越是艰难 从r1报告放出来的那天起,手头做的其他工作都不香了,忍不住砸了大量时间来复现。 复现效果不是很好,并没有出现response length总是越训越长的情况。训练样本的利用效率太低了,很难训出什么 我也不能说自己训出了aha ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果