根据论文介绍,DeepSeek 团队将算法创新与硬件适配优化相结合,以实现超快速长文本训练。NSA 采用动态分层稀疏策略,将粗粒度的标记压缩与细粒度的标记选择相结合,以兼顾全局上下文感知和局部精度。NSA ...
让人眼前一亮的是, DeepSeek创始人兼CEO梁文锋 这次出现在了合著名单之中,在作者排名中位列倒数第二。这意味着他作为项目管理者,参与了一线的研究工作。另外,这篇论文的第一作者Jingyang Yuan是 在实习期间完成的这项研究 。