Leaderboard - 搜索 News

来自MSN12 天

随着大语言模型（LLM）的快速发展，如何科学、全面地评估其能力成为业界关注的核心问题。无论是研究人员、开发者，还是产品经理，都需要有效的评测工具来衡量模型的表现，优化产品体验。本文将详细介绍目前主流的大模型评测平台和评测基准，帮助你选择最合适的评测方 ...

18 天

阿里云Qwen2.5-Max冲进全球前十，超DeepSeek V3实现AI新突破！

在国际人工智能领域，竞争愈发激烈。今日（2月4日）凌晨，ChatbotArena LLM Leaderboard更新了最新一期的榜单，阿里云通义团队推出的 Qwen2.5-Max 以1332分的出色表现冲入全球前十，成为全球第七名，成功超越了DeepSeek V3、o1-mini和Claude-3.5-Sonnet等知名模型。这一突破引发了业界的广泛关注，也进一步提升了国产大模型在全球舞台上的地位 ...

爱范儿11 天

全球开源大模型前十均为阿里模型

权威榜单发布，全球开源大模型前十均为阿里通义千问衍生模型近日，全球最大 AI 开源社区 Huggingface 发布了最新的开源大模型榜单（Open LLM Leaderboard），其中榜单显示，其排名前十的开源大模型全部是基于阿里通义千问（Qwen）开源模型二次训练的衍生模型。据悉，Open LLM Leaderboard 是目前全 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

今日热点