Reinforcement - 搜索 News

作者：answer论文原文链接: ...

1 天

出人意料！DeepSeek-R1用的GRPO其实没必要？规模化强化学习训练用PPO就 ...

阶跃星辰与清华大学近期的一项研究发现，只需使用带 GAE （λ= 1，γ= 1）的普通 PPO 以及基于规则的简单奖励函数，无需任何 KL 正则化，就足以扩展在推理任务上的响应长度和基准性能，类似于在 DeepSeek-R1-Zero 上观察到的现象 ...

BBRTV北部湾在线2 天

Chinese robotics giant vows to make robots dependable household assistants

At China Central Television Station's 2025 Spring Festival Gala, 16 humanoid robots named "Fuxi" from Unitree Robotics ...

2 天

清华大学曲钧天AISY：基于深度强化学习可灵巧抓取操作的绳驱柔性臂

随着软体机器人技术的发展，柔性臂在水下采样、狭窄空间探测发挥的作用日益明显，其相应的控制技术也面临着诸多挑战。近日，清华大学深圳国际研究生院曲钧天副教授团队在国际期刊Advanced Intelligent Systems上发表以“A ...

6 天

上海AI Lab通过强化学习超越DeepSeek，揭开数学推理新章

近日，上海AI实验室（上海AI Lab）在数学推理领域取得重大突破，通过强化学习（Reinforcement Learning，简称RL）技术，成功在数学推理能力上超越了DeepSeek，这一成果引发了广泛关注。上海AI ...

红板报 on MSN13 天

DeepSeek 爆火出圈，强化学习撑起 AI 的半壁江山！

最近，AI 界杀出了一匹黑马 ——DeepSeek，它在推理能力上取得了重大突破，吸引了无数人的目光。这一成就让我们再次深刻认识到强化学习（Reinforcement Learning，RL）在提升大模型智能方面的关键作用。不管是 OpenAI 的 ChatGPT，还是 DeepMind 的 AlphaGo，强化学习几乎都是这些顶尖 AI 模型背后的核心驱动力。在这个 AI 飞速发展、竞争激烈的时 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果