IT之家 2 月 22 日消息,据外媒 TechSpot 21 日报道,计算机科学家发现,AI 系统能够操控国际象棋游戏,从而获得不公平的优势,部分模型甚至在没有人类干预的情况下“作弊”,引发了对未来 AI 系统诚信的担忧。
OpenAI刚刚发布SWE-Lancer编码基准测试,直接让AI模型挑战真实外包任务!这些任务总价值高达100万美元。有趣的是,测试结果显示,Anthropic的Claude 3.5 ...
在其他近期新闻中,Sonnet BioTherapeutics Holdings, Inc.在临床试验和药物开发方面取得重大进展。公司宣布完成了SON-1010的SB101第一阶段临床试验剂量递增研究,确定最大耐受剂量为1200 ...
新泽西州普林斯顿讯 - 市值470万美元的临床阶段生物科技公司Sonnet BioTherapeutics Holdings, Inc. (NASDAQ: SONN )宣布将进一步开发其专有抗体药物偶联物 ...
来自MSN3 天
OpenAI:AI无法有效找出错误 企业不应用AI完全取代工程师近期一项由OpenAI进行的研究显示,虽然人工智能技术已经显著改变了软件开发模式,但完全取代人类工程师仍然不现实。研究团队通过测试基准SWE-Lancer,评估了大型语言模型在自由工作平台Upwork上的表现,涵盖了超过100万美元的软件开发任务。该 ...
Grok3翻车了 回答9.11比9.9大 最聪明AI的尴尬时刻。近日,马斯克与xAI团队在直播中正式发布了最新版本的Grok3。此前,马斯克曾称Grok-3为“地球上最聪明的AI”,并在X平台上表示自己整个周末都在和团队打磨产品。 然而,有媒体报道称 ...
近日,人工智能领域再掀波澜,OpenAI发布了一项名为“SWE-Lancer”的编码基准测试,向多款AI模型发起了总价值高达100万美元的挑战。这一测试的核心目的是通过真实外包任务,评估AI在实际编码中的表现。令人惊讶的是,Anthropic的Cla ...
研究人员写道:他们的基准测试结果表明,现实世界中的自由职业工作对前沿语言模型来说仍然是一个挑战。测试显示,基础模型还无法完全取代人类工程师。尽管它们可以帮助解决漏洞,但还没有达到能够独立赚取自由职业收入的水平。
智东西(公众号:zhidxcom)作者|陈骏达 程茜编辑|心缘智东西2月18日报道,刚刚,基于20万块的GPU集群训练,马斯克口中地球上最聪明的AI Grok-3终于亮相!此次直播伊隆·马斯克(Elon ...
阿里云今日宣布,Qwen2.5-Max 在 Chatbot Arena 大模型盲测中超越 DeepSeek-V3、Open AI o1-mini 和 Claude-3.5-Sonnet 等模型,以 1332 分位列全球第七名,也是非推理 ...
阿里云今日宣布,Qwen2.5-Max 在 Chatbot Arena 大模型盲测中超越 DeepSeek-V3、Open AI o1-mini 和 Claude-3.5-Sonnet 等模型,以 1332 分位列全球第七名,也是非推理类的中国大模型冠军。 同时,Qwen2.5-Max 在数学和编程等单项能力上排名第一,在硬提示(Hard prompts)方面排名第二。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果