reward - 搜索 News

9 小时

基于此，商汤绝影发布了R-UniAD。据了解，该款端到端自动驾驶技术路线，以绝影量产智驾方案和“开悟”世界模型为核心，实车采集的真实数据和云端生成的仿真数据在“车云一体”的新范式下进行闭环流转，使得端到端智驾系统的训练更加全面、高效，大幅缩短了研发周 ...

腾讯网2 天

使用A10单卡24G复现DeepSeek R1强化学习过程

阿里妹导读本文描述DeepSeek的三个模型的学习过程，其中DeepSeek-R1-Zero模型所涉及的强化学习算法，是DeepSeek最核心的部分之一会重点展示。一、背景随着DeepSeek的火爆使用，其背后的训练技术也值得深入学习，整体DeepS ...

4 小时

无需训练让扩散模型提速2倍，上交大提出Token级缓存方案

近期，基于特征缓存来实现去噪模型加速的方法由于其优秀的无损加速性能，以及无需训练的优良性能，受到工业界的广泛关注。上海交通大学张林峰团队进一步注意到一个自然而有趣的现象：不同计算层，以及同计算层的不同 Token ...

1 天

一句话让DeepSeek思考停不下来，北大团队：这是针对AI的DDoS攻击

推理模型训练的核心通过准确性奖励和格式奖励引导模型自我产生CoT以及正确任务回答，在CoT的过程中产生类似Aha Moment这类把发散的思考和不正确的思考重新纠偏，但是这种表现潜在是鼓励模型寻找更长的CoT轨迹。

腾讯网8 天

细致扒一下DeepSeek-R1论文到底讲了些什么

作者：answer论文原文链接: https://arxiv.org/pdf/2501.12948作者原文链接：https://zhuanlan.zhihu.com/p/205302041461、Approach先前的大型语言模型（LLMs）相关的很多工作里都依赖大量的人工标注的数据去提升模型性能。但在Deep Seek R1这篇论文中指出：模型的推理能力（reasoning capabiliti ...