新智元报道 编辑:智子 乔杨【新智元导读】斯坦福大学最近的一项研究发现,尽管o1-preview在数学、代码等领域能力逆天,但只要对数学竞赛的题目稍修改,模型解答的准确率竟会立刻下降30%。在数学竞赛的领域里,普特南数学竞赛的威名可谓如雷贯耳。它由William Lowell ...
【新智元报道】艾米丽•琼斯,智子乔杨编辑报道。最近,斯坦福大学发布了一项引人注目的研究,揭示了备受瞩目的AI大模型——o1-preview在数学领域的弱点。尽管这一模型在数学与代码问题上表现出众,但一旦对数学竞赛题目稍加修改,其准确率便骤然下降约30%。这一发现不仅为AI的发展指明了新方向,也让大家重新审视当前AI模型的真实能力。 数学竞赛的领域内,普特南数学竞赛历史悠久,其重要性不言而喻。自19 ...
新智元报道 编辑:犀牛【新智元导读】大模型推理性能的提升,真的只能靠堆数据、加算力吗?李飞飞等用仅1000个样本微调模型,并提出预算强制(budget forcing)技术,成功让推理能力随测试计算量增加而提升。他们的s1-32B模型在多个基准测试中超越闭源模型OpenAI o1-preview,成为目前最具样本效率的推理模型。OpenAI ...
微软近日发布了Windows 11 Insider Preview Build 27783更新,此次更新主要集中在文件资源管理器的共享功能上,为用户提供了更为便捷的文件管理体验。这一更新不仅是Windows操作系统的一次常规迭代,也反映了微软在用户友好性和云服务整合方面的持续努力。 新的共享功能通过文件资源管理器的主页可以快速访问共享文件。登录Microsoft账户或Microsoft Entra ...
编辑:编辑部 【新智元导读】只用4500美元成本,就能成功复现DeepSeek?就在刚刚,UC伯克利团队只用简单的RL微调,就训出了DeepScaleR-1.5B-Preview,15亿参数模型直接吊打o1-preview,震撼业内。 强化学习迎来重大突破!
IT之家 1 月 25 日消息,IT之家从中国电信人工智能研究院获悉,其“复杂推理大模型”TeleAI-t1-preview 现已正式发布,即将上线天翼 AI 开放平台。TeleAI-t1-preview 使用了强化学习训练方法,通过引入探索、反思等思考范式,大幅提升模型在逻辑推理、数学推导等复杂问题的准确性。
【百川智能推出深度思考模型 Baichuan-M1-preview】1 月 24 日,百川智能发布了全场景深度思考模型 Baichuan-M1-preview。此模型兼具语言、视觉和搜索这三大 ...