Reinforcement - 搜索 News

作者：answer论文原文链接: ...

10 小时

阶跃星辰与清华大学近期的一项研究发现，只需使用带 GAE （λ= 1，γ= 1）的普通 PPO 以及基于规则的简单奖励函数，无需任何 KL 正则化，就足以扩展在推理任务上的响应长度和基准性能，类似于在 DeepSeek-R1-Zero 上观察到的现象 ...

一些您可能无法访问的结果已被隐去。

今日热点