春节这几天,国内外 AI 圈都被 DeepSeek 刷了屏。英伟达的股市震荡更是让全世界看得目瞪口呆(参见《英伟达市值蒸发近 6000 亿美元,而 DeepSeek 刚刚又开源新模型》)。
总体而言,在 IOI 2024 上的结果证实,仅通过大规模强化学习训练即可实现最先进的编程和推理性能。通过独立学习生成、评估和优化解决方案,o3 超越了 o1-ioi,而无需依赖领域特定的启发式方法或基于聚类的方法。
Level 1包含100个单个基本操作,如卷积、矩阵乘法等AI基础构建块。虽然PyTorch调用了经过优化的闭源内核,让LLM超越基线具有挑战性,但如果能生成开源内核,将有重要价值。
IT之家 2 月 27 日消息,Kimi 最新模型 k1.6 今日曝光。据全球动态基准测试平台 LiveCodeBench, Kimi k1.6 超过 GPT o3mini、o1 等模型 ,在代码生成测试中实现登顶。
OpenAI 的评估结果显示,包括自家 GPT-4o、o1 和 Anthropic Claude 3.5 Sonnet 在内的前沿模型仍然无法解决大多数任务。从下图中可以看到,Claude 3.5 Sonnet 完成的任务最多,并且挣到了最高的 ...
2025年2月12日,OpenAI在其最新的研究论文中公布了一系列令人瞩目的成果,涉及在全球知名的竞技编程平台——IOI(国际信息学奥林匹克竞赛)和CodeForces上表现卓越的推理模型。这篇论文题为《Competitive Programming with Large Reasoning ...
在 ENIGMAEVAL 基准上,研究者对现有多模态和推理基准上表现优异的前沿语言模型进行了评估。结果显示,包括 OpenAI o1 在内等 SOTA 模型在普通谜题(Normal)上的准确率最高仅为 7.0% 左右, ...
人工智能的发展与棋类游戏有着不解的缘分,从1962年跳棋程序首次战胜人类棋手,到1997年IBM深蓝击败国际象棋棋王,再到2016年阿法狗击败李世石,每一次AI浪潮都率先在棋盘上取得突破。
淘天集团未来生活实验室 投稿量子位 | 公众号 QbitAI OpenAI o1视觉能力还是最强,模型们普遍“过于自信”! 这个结果来自首个面向事实知识的中文视觉问答基准ChineseSimpleVQA。
编译 | 郑丽媛出品 | CSDN(ID:CSDNnews)AI 大模型的能力,这几年来我们已经有目共睹——然而当 AI 面临失败时,它会怎么做呢?根据 Palisade Research 的最新研究显示,OpenAI 的 o1-preview 和 DeepSeek R1 等先进 AI ...
14 天
来自MSNDeepSeek缝合Claude,比单用R1/o1效果都好!GitHub揽星3k梦晨 西风 发自 凹非寺量子位 | 公众号 QbitAI 让DeepSeek代替Claude思考,缝合怪玩法火了。 原因无它:比单独使用DeepSeek R1、Claude Sonnet 3.5、OpenAI o1模型的效果更好。 先来看一段VCR: 再来看一个测评结果: 在代码编辑基准Polyglot ...
当前正在显示可能无法访问的结果。
隐藏无法访问的结果