作者:answer论文原文链接: ...
阶跃星辰与清华大学近期的一项研究发现,只需使用带 GAE (λ= 1,γ= 1)的普通 PPO 以及基于规则的简单奖励函数,无需任何 KL 正则化,就足以扩展在推理任务上的响应长度和基准性能,类似于在 DeepSeek-R1-Zero 上观察到的现象 ...
At China Central Television Station's 2025 Spring Festival Gala, 16 humanoid robots named "Fuxi" from Unitree Robotics ...
随着软体机器人技术的发展,柔性臂在水下采样、狭窄空间探测发挥的作用日益明显,其相应的控制技术也面临着诸多挑战。近日,清华大学深圳国际研究生院曲钧天副教授团队在国际期刊Advanced Intelligent Systems上发表以“A ...
近日,上海AI实验室(上海AI Lab)在数学推理领域取得重大突破,通过强化学习(Reinforcement Learning,简称RL)技术,成功在数学推理能力上超越了DeepSeek,这一成果引发了广泛关注。上海AI ...
最近,AI 界杀出了一匹黑马 ——DeepSeek,它在推理能力上取得了重大突破,吸引了无数人的目光。这一成就让我们再次深刻认识到强化学习(Reinforcement Learning,RL)在提升大模型智能方面的关键作用。不管是 OpenAI 的 ChatGPT,还是 DeepMind 的 AlphaGo,强化学习几乎都是这些顶尖 AI 模型背后的核心驱动力。在这个 AI 飞速发展、竞争激烈的时 ...