Preview - 搜索 News

新智元报道编辑：智子乔杨【新智元导读】斯坦福大学最近的一项研究发现，尽管o1-preview在数学、代码等领域能力逆天，但只要对数学竞赛的题目稍修改，模型解答的准确率竟会立刻下降30%。在数学竞赛的领域里，普特南数学竞赛的威名可谓如雷贯耳。它由William Lowell ...

20 天

斯坦福大学揭示o1-preview模型数学能力软肋：改变题目，准确率骤降30%！

【新智元报道】艾米丽•琼斯，智子乔杨编辑报道。最近，斯坦福大学发布了一项引人注目的研究，揭示了备受瞩目的AI大模型——o1-preview在数学领域的弱点。尽管这一模型在数学与代码问题上表现出众，但一旦对数学竞赛题目稍加修改，其准确率便骤然下降约30%。这一发现不仅为AI的发展指明了新方向，也让大家重新审视当前AI模型的真实能力。数学竞赛的领域内，普特南数学竞赛历史悠久，其重要性不言而喻。自19 ...

腾讯网14 天

16张H100训26分钟，超越o1-preview！李飞飞等用1K样本，揭秘测试时Scaling

新智元报道编辑：犀牛【新智元导读】大模型推理性能的提升，真的只能靠堆数据、加算力吗？李飞飞等用仅1000个样本微调模型，并提出预算强制（budget forcing）技术，成功让推理能力随测试计算量增加而提升。他们的s1-32B模型在多个基准测试中超越闭源模型OpenAI o1-preview，成为目前最具样本效率的推理模型。OpenAI ...

21 天

Windows 11 Insider Preview Build 27783发布：文件资源管理器新增共享功能 ...

微软近日发布了Windows 11 Insider Preview Build 27783更新，此次更新主要集中在文件资源管理器的共享功能上，为用户提供了更为便捷的文件管理体验。这一更新不仅是Windows操作系统的一次常规迭代，也反映了微软在用户友好性和云服务整合方面的持续努力。新的共享功能通过文件资源管理器的主页可以快速访问共享文件。登录Microsoft账户或Microsoft Entra ...

来自MSN7 天

4500美元复刻DeepSeek神话，1.5B战胜o1-preview只用RL！训练细节全公开

编辑：编辑部【新智元导读】只用4500美元成本，就能成功复现DeepSeek？就在刚刚，UC伯克利团队只用简单的RL微调，就训出了DeepScaleR-1.5B-Preview，15亿参数模型直接吊打o1-preview，震撼业内。强化学习迎来重大突破！

26 天

中国电信发布“复杂推理大模型”TeleAI-t1-preview：能解《九章算术》题目

IT之家 1 月 25 日消息，IT之家从中国电信人工智能研究院获悉，其“复杂推理大模型”TeleAI-t1-preview 现已正式发布，即将上线天翼 AI 开放平台。TeleAI-t1-preview 使用了强化学习训练方法，通过引入探索、反思等思考范式，大幅提升模型在逻辑推理、数学推导等复杂问题的准确性。

来自MSN26 天

百川智能：发布 Baichuan-M1-preview 模型

【百川智能推出深度思考模型 Baichuan-M1-preview】1 月 24 日，百川智能发布了全场景深度思考模型 Baichuan-M1-preview。此模型兼具语言、视觉和搜索这三大 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果