o1 news - 搜索 News

9 天

OpenAI首席研究官：DeepSeek独立发现了o1的一些核心思路，奥特曼、LeCun ...

春节这几天，国内外 AI 圈都被 DeepSeek 刷了屏。英伟达的股市震荡更是让全世界看得目瞪口呆（参见《英伟达市值蒸发近 6000 亿美元，而 DeepSeek 刚刚又开源新模型》）。

腾讯网11 天

OpenAI：强化学习确实可显著提高LLM性能，DeepSeek R1、Kimi k1.5发现o1的秘密

总体而言，在 IOI 2024 上的结果证实，仅通过大规模强化学习训练即可实现最先进的编程和推理性能。通过独立学习生成、评估和优化解决方案，o3 超越了 o1-ioi，而无需依赖领域特定的启发式方法或基于聚类的方法。

2 天

DeepSeek-R1自写CUDA内核跑分屠榜！斯坦福学霸狂飙GPU编程自动化挑战人类

Level 1包含100个单个基本操作，如卷积、矩阵乘法等AI基础构建块。虽然PyTorch调用了经过优化的闭源内核，让LLM超越基线具有挑战性，但如果能生成开源内核，将有重要价值。

3 天on MSN

Kimi 最新模型 k1.6 曝光，编程能力超越 GPT o3mini、o1

IT之家 2 月 27 日消息，Kimi 最新模型 k1.6 今日曝光。据全球动态基准测试平台 LiveCodeBench， Kimi k1.6 超过 GPT o3mini、o1 等模型，在代码生成测试中实现登顶。

11 天

Claude挣钱强于o1!OpenAI开源百万美元编码基准,检验大模型钞能力

OpenAI 的评估结果显示，包括自家 GPT-4o、o1 和 Anthropic Claude 3.5 Sonnet 在内的前沿模型仍然无法解决大多数任务。从下图中可以看到，Claude 3.5 Sonnet 完成的任务最多，并且挣到了最高的 ...

18 天

OpenAI与中国AI公司DeepSeek合作揭示o1的秘密，推理模型再次引领竞技 ...

2025年2月12日，OpenAI在其最新的研究论文中公布了一系列令人瞩目的成果，涉及在全球知名的竞技编程平台——IOI（国际信息学奥林匹克竞赛）和CodeForces上表现卓越的推理模型。这篇论文题为《Competitive Programming with Large Reasoning ...

13 天

AI无法攻克的235道谜题！让o1、Gemini 2.0 Flash Thinking集体挂零

在 ENIGMAEVAL 基准上，研究者对现有多模态和推理基准上表现优异的前沿语言模型进行了评估。结果显示，包括 OpenAI o1 在内等 SOTA 模型在普通谜题（Normal）上的准确率最高仅为 7.0% 左右， ...

3 天

AI再次突破安全红线，留给人类不到一年治理窗口

人工智能的发展与棋类游戏有着不解的缘分，从1962年跳棋程序首次战胜人类棋手，到1997年IBM深蓝击败国际象棋棋王，再到2016年阿法狗击败李世石，每一次AI浪潮都率先在棋盘上取得突破。

来自MSN7 天

多模态大模型事实正确性评估：o1最强，模型普遍过于自信，最擅长 ...

淘天集团未来生活实验室投稿量子位 | 公众号 QbitAI OpenAI o1视觉能力还是最强，模型们普遍“过于自信”！这个结果来自首个面向事实知识的中文视觉问答基准ChineseSimpleVQA。

腾讯网9 天

AI也“耍赖”？DeepSeek R1和o1-preview被曝在棋局中输急眼就作弊！

编译 | 郑丽媛出品 | CSDN（ID：CSDNnews）AI 大模型的能力，这几年来我们已经有目共睹——然而当 AI 面临失败时，它会怎么做呢？根据 Palisade Research 的最新研究显示，OpenAI 的 o1-preview 和 DeepSeek R1 等先进 AI ...

来自MSN14 天

DeepSeek缝合Claude，比单用R1/o1效果都好！GitHub揽星3k

梦晨西风发自凹非寺量子位 | 公众号 QbitAI 让DeepSeek代替Claude思考，缝合怪玩法火了。原因无它：比单独使用DeepSeek R1、Claude Sonnet 3.5、OpenAI o1模型的效果更好。先来看一段VCR：再来看一个测评结果：在代码编辑基准Polyglot ...

当前正在显示可能无法访问的结果。

隐藏无法访问的结果