relative - 搜索 News

14 小时

DeepSeek：中国AI“复制+追赶”的刻板印象正在被打破

在大模型行业，人们信奉“大力出奇迹的”扩展法则（Scaling Law），用越来越大的算力推动模型快速迭代。而如今，模型迭代更新之快，却让仅仅风光了 3 年的扩展法则开始遭到质疑。

腾讯网2 天

新型末日病毒致死率70%，引爆美国恐慌？纯属谣言，别被误导

网传的坎普希尔病毒是2025年新发现的动物病毒，仅在鼩鼱体内发现，目前无人类感染病例。自媒体将其与美国流感数据强行关联，实属误导。

8 天

出人意料！DeepSeek-R1用的GRPO其实没必要？规模化强化学习训练用PPO就 ...

阶跃星辰与清华大学近期的一项研究发现，只需使用带 GAE （λ= 1，γ= 1）的普通 PPO 以及基于规则的简单奖励函数，无需任何 KL 正则化，就足以扩展在推理任务上的响应长度和基准性能，类似于在 DeepSeek-R1-Zero 上观察到的现象 ...

4 天

10大经典管理分析模型，让工作事半功倍

ROS/RMS（Return Of Sales/Relative Market ...

8 天

DeepSeek-R1核心算法引争议：GRPO并非最优，PPO实现更高效

近日，一项关于DeepSeek-R1核心算法的研究引发了广泛关注。DeepSeek-R1作为热门的强化学习模型，其训练配方中采用了GRPO（Group Relative Policy Optimization）算法，被认为是提升模型推理性能的关键。然而，一项最新研究指出，GRPO并非最优选择，传统的PPO（Proximal Policy Optimization）算法在推理任务中表现更为高效。

4 天

给DeepSeek装上“眼睛”，杭州这个95后团队将解锁什么？

“开发是从春节开始的，时间虽短，但好在很多基础设施是现成的，有了想法后，能快速进行实验、验证结果。”由Om AI Lab创始人，浙大博士生导师赵天成带领的这支平均年龄95后的团队，为人工智能领域带来了新惊喜。

腾讯网5 天

阅读 | DeepSeek-R1：怎么用强化学习把一个普通语言模型调教成推理高手？

这篇论文是DeepSeek-AI团队发表的，标题是《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement ...

腾讯网5 天

揭开DeepSeek-R1的神秘面纱：GRPO 核心技术详解

相信各位做LLM的朋友春节期间都已经被DeepSeek-R1给刷屏了，如果有阅读过DeepSeek-R1技术报告的朋友肯定都被其中的一个核心技术GRPO给吸引了，那么今天就来给大家过一过强化学习的瘾，仔细解读一波。作者：ethanGRPO技术背景GR ...

中青在线3 天

人形机器人做前空翻这个动作难在哪？

深圳市某机器人科技有限公司联合创始人李海雷：在机器人行业，整机的重量是对整机性能影响最重要的一个参数。你只有把整机重量做得轻了，同时关节爆发力做得更高，才能完成这种极限的动作。深圳市某机器人科技有限公司联合创始人李海雷：我们得益于所有的关节都有自研的能力，这样在整机上我们能把整机的重量控到极致，你只有把类似推重比做到极致，才能带动更高的机器人运动性能。

3 天

La Guardia di Finanza di Milano scopre irregolarità fiscali per milioni di euro

Il social network Twitter, recentemente rinominato X, è al centro di un’inchiesta fiscale condotta dalla Guardia di Finanza ...

财富中文网7 天

平价咖啡和小号披萨助力百胜中国求生

百胜中国旗下坐拥肯德基和必胜客，门店逾1.6万家，却在更具挑战性的市场环境中实现了增长。百胜中国在《财富》美国500强排名第368位，2024年直营店和加盟店的销售额均实现了5%的增长，超过全行业平均水平。2月6日，公司公布亮眼的季度业绩并宣布增加股 ...

4 天

意大利与欧洲的未来：对自由和安全的承诺

Negli ultimi anni, l’Italia ha dimostrato un forte impegno nel panorama politico europeo, specialmente in relazione al ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果