SONNET - 搜索 News

1 天

新研究：AI在意识到自己即将输掉国际象棋比赛时会试图“作弊”

IT之家 2 月 22 日消息，据外媒 TechSpot 21 日报道，计算机科学家发现，AI 系统能够操控国际象棋游戏，从而获得不公平的优势，部分模型甚至在没有人类干预的情况下“作弊”，引发了对未来 AI 系统诚信的担忧。

2 天

OpenAI掀「百万美金」编程大战，Claude 3.5 Sonnet狂赚40万拿下第一

OpenAI刚刚发布SWE-Lancer编码基准测试，直接让AI模型挑战真实外包任务！这些任务总价值高达100万美元。有趣的是，测试结果显示，Anthropic的Claude 3.5 ...

3 天

SONN股价触及52周新低1.38美元，市场面临挑战

在其他近期新闻中，Sonnet BioTherapeutics Holdings, Inc.在临床试验和药物开发方面取得重大进展。公司宣布完成了SON-1010的SB101第一阶段临床试验剂量递增研究，确定最大耐受剂量为1200 ...

3 天

Sonnet BioTherapeutics推进创新ADC平台研发

新泽西州普林斯顿讯 - 市值470万美元的临床阶段生物科技公司Sonnet BioTherapeutics Holdings, Inc. (NASDAQ: SONN )宣布将进一步开发其专有抗体药物偶联物 ...

来自MSN3 天

OpenAI：AI无法有效找出错误企业不应用AI完全取代工程师

近期一项由OpenAI进行的研究显示，虽然人工智能技术已经显著改变了软件开发模式，但完全取代人类工程师仍然不现实。研究团队通过测试基准SWE-Lancer，评估了大型语言模型在自由工作平台Upwork上的表现，涵盖了超过100万美元的软件开发任务。该 ...

中华网3 天

Grok3翻车了回答9.11比9.9大最聪明AI的尴尬时刻

Grok3翻车了回答9.11比9.9大最聪明AI的尴尬时刻。近日，马斯克与xAI团队在直播中正式发布了最新版本的Grok3。此前，马斯克曾称Grok-3为“地球上最聪明的AI”，并在X平台上表示自己整个周末都在和团队打磨产品。然而，有媒体报道称 ...

4 天

OpenAI推出百万美金编程挑战，Claude 3.5 Sonnet夺冠引发热议

近日，人工智能领域再掀波澜，OpenAI发布了一项名为“SWE-Lancer”的编码基准测试，向多款AI模型发起了总价值高达100万美元的挑战。这一测试的核心目的是通过真实外包任务，评估AI在实际编码中的表现。令人惊讶的是，Anthropic的Cla ...

4 天

Claude挣钱强于o1！OpenAI开源百万美元编码基准，检验大模型钞能力

研究人员写道：他们的基准测试结果表明，现实世界中的自由职业工作对前沿语言模型来说仍然是一个挑战。测试显示，基础模型还无法完全取代人类工程师。尽管它们可以帮助解决漏洞，但还没有达到能够独立赚取自由职业收入的水平。

头部财经4 天

马斯克，重磅发布！

作为xAI推出的第三代人工智能模型，此前马斯克在发布预告时曾经称其为“地球上最聪明的人工智能”。根据最新基准测试，Grok-3在与DeepSeek-V3、GPT-4o、Gemini-2 Pro、Claude 3.5 ...

腾讯网4 天

全球华人决战AI之巅！马斯克Grok 3险胜DeepSeek，疯狂启动钞能力，压力 ...

智东西（公众号：zhidxcom）作者｜陈骏达程茜编辑｜心缘智东西2月18日报道，刚刚，基于20万块的GPU集群训练，马斯克口中地球上最聪明的AI Grok-3终于亮相！此次直播伊隆·马斯克（Elon ...

凤凰网17 天

全球第一：阿里云宣布通义千问Qwen2.5-Max数学及编程能力登顶最新AI大 ...

阿里云今日宣布，Qwen2.5-Max 在 Chatbot Arena 大模型盲测中超越 DeepSeek-V3、Open AI o1-mini 和 Claude-3.5-Sonnet 等模型，以 1332 分位列全球第七名，也是非推理 ...

IT之家17 天

全球第一：阿里云宣布通义千问 Qwen2.5-Max 数学及编程能力登顶最新 AI ...

阿里云今日宣布，Qwen2.5-Max 在 Chatbot Arena 大模型盲测中超越 DeepSeek-V3、Open AI o1-mini 和 Claude-3.5-Sonnet 等模型，以 1332 分位列全球第七名，也是非推理类的中国大模型冠军。同时，Qwen2.5-Max 在数学和编程等单项能力上排名第一，在硬提示（Hard prompts）方面排名第二。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果