资料显示,袁景阳目前为北京大学硕士研究生。他的研究领域包括大型语言模型(LLM)、人工智能在科学中的应用(AI for ...
DeepSeek创始人梁文锋现身论文著作者之中,在作者排名中位列倒数第二。 其他研究人员来自DeepSeek、北大和华盛顿大学,其中第一作者Jingyang Yuan(袁景阳)是在DeepSeek实习期间完成的这项研究。
2月18日,DeepSeek团队发布了一篇新论文,介绍了一种改进的稀疏注意力机制NSA,适用于超快速的长上下文训练与推理。NSA以性价比极高的方式在训练阶段应用稀疏性,在训推场景中均实现速度的明显提升,特别是在解码阶段实现了高达11.6倍的提升。
智东西 编译 | 陈骏达 编辑 | Panken ...