RELATIVE - 搜索 News

出人意料！DeepSeek-R1用的GRPO其实非最优？规模化强化学习训练用PPO就 ...

机器之心报道编辑：PandaDeepSeek-R1 非常热门，而在其公布的训练配方中，GRPO（Group Relative Policy Optimization）非常关键，是 DeepSeek-R1 核心的强化学习算法。PPO 与 GRPO ...

1 天

出人意料！DeepSeek-R1用的GRPO其实没必要？规模化强化学习训练用PPO就 ...

阶跃星辰与清华大学近期的一项研究发现，只需使用带 GAE （λ= 1，γ= 1）的普通 PPO 以及基于规则的简单奖励函数，无需任何 KL 正则化，就足以扩展在推理任务上的响应长度和基准性能，类似于在 DeepSeek-R1-Zero 上观察到的现象 ...

12 小时

DeepSeek崛起，如何影响AI技术发展路径与国际竞争格局？

2025年以来，中国人工智能初创企业深度求索（DeepSeek）迅速崛起，引发全球科技界、投资界与政策界热议——DeepSeek于2025年前后分别推出开源通用模型DeepSeek-V3与推理模型DeepSeek-R1，其在数学、编码、推理等方面的表现可以媲美甚至优于OpenAI等科技巨头推出的前沿模型，在硬件条件有限的情况下大幅提高训练效率并成功缩减算力成本。

17 小时

映宇宙获Kunlun增持1000万股，港股市场再现投资热潮！

在近日的港股市场中，映宇宙（03700）股票因收到Kunlun Group ...

财富中文网9 小时

平价咖啡和小号披萨助力百胜中国求生

百胜中国旗下坐拥肯德基和必胜客，门店逾1.6万家，却在更具挑战性的市场环境中实现了增长。百胜中国在《财富》美国500强排名第368位，2024年直营店和加盟店的销售额均实现了5%的增长，超过全行业平均水平。2月6日，公司公布亮眼的季度业绩并宣布增加股息后，百胜中国股票在纽约市场上涨了9.1%。

4 天

层浪前沿|FongCyte推动生物材料硫化镓在肿瘤协同治疗领域的创新应用

GaSₓ具有 “重编程” 和 “干扰” ...

腾讯网1 天

细致扒一下DeepSeek-R1论文到底讲了些什么

作者：answer论文原文链接: https://arxiv.org/pdf/2501.12948作者原文链接：https://zhuanlan.zhihu.com/p/205302041461、Approach先前的大型语言模型（LLMs）相关的很多工作里都依赖大量的人工标注的数据去提升模型性能。但在Deep Seek R1这篇论文中指出：模型的推理能力（reasoning capabiliti ...

腾讯网4 天

200多行代码,超低成本复现DeepSeek R1「Aha Moment」!复旦大学开源

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@ ...

生物通6 天

重大突破！非工业化环境下农村贫困对儿童早期肠道微生物组的影响 ...

为探究非工业化环境中儿童早期肠道微生物组发展及影响因素，伦敦圣乔治大学的研究人员开展相关研究，发现农村贫困因素促进儿童肠道微生物组稳定多样。该成果为理解肠道微生物与健康关系提供新思路，推荐科研人员阅读。

First Online on MSN6 天

量身定制的奢华和时尚之外的意大利制造：采访“La Dolce ITA”创始人 ...

Davide Scarparo, classe 1989, veneto, ma che 13 anni fa ha scelto di vivere a Roma. Con un passato da manager nazionale ed ...

生物通6 天

突破性研究：19 个撒哈拉以南非洲城市正式与非正式区域医疗设施 ...

研究揭示了撒哈拉以南非洲城市医疗设施空间可达性的显著差异，正式和非正式区域之间的差距突出了城市健康服务提供面临的挑战。这不仅反映了医疗资源分配不均，还对公共卫生产生深远影响，尤其是居住在非正式定居点的弱势群体。

来自MSN5 天

至顶智库 | 图文并茂万字解读DeepSeek核心技术概念

DeepSeek（深度求索）是一家源自中国的人工智能公司，成立于2023年，总部位于中国杭州。前身是国内量化投资巨头幻方量化的子公司。公司专注于开发低成本、高性能的AI模型，致力于通过技术创新推动人工智能技术的普惠化。DeepSeek由幻方量化提供研发资金。独特的经营模式使DeepSeek能够在没有外部压力的情况下持续开展大模型研发，优先考虑大模型的长期研发价值。DeepSeek在深度学习、强化学 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果