LLM“最难刷分模型测评”出炉，国产黑马与GPT-4o同列金字塔尖|电子爱好者

admin管理员组
文章数量:1631593

后台留言『交流』，加入NewBee讨论组

上周，一个名为“im-also-a-good-gpt2-chatbot”的神秘模型突然现身大模型竞技场Chatbot Arena，排名直接超过GPT-4-Turbo、Gemini 1 .5 Pro、Claude 3 0pus、Llama-3-70b等各家国际大厂的当家基座模型。随后OpenAI揭开“im-also-a-good-gpt2-chatbot”神秘面纱——正是GPT-4o的测试版本，OpenAI CEO Sam Altman也在Gpt-4o发布后亲自转帖引用 LMSYS arena 盲测擂台的测试结果。

由开放研究组织 LMSYS Org （Large Model Systems Organization）发布的Chatbot Arena已经成为OpenAI、Anthropic、Google、Meta等国际大厂“龙争虎斗”的当红擂台，以最开放与科学的评测方法，在大模型进入第二年之际开放群众投票。

时隔一周，在最新更新的排名中，类“im-also-a-good-gpt2-chatbot”的黑马故事再次上演，这次排名飞速上涨的模型正是由李开复博士带队的中国大模型公司零一万物提交的“Yi-Large” 千亿参数闭源大模型。

在 LMSYS 盲测竞技场最新排名中，零一万物的最新千亿参数模型 Yi-Large 总榜排名世界模型第7，中国大模型中第一，已经超过Llama-3-70B、Claude 3 Sonnet；其中文榜更是与GPT4o 并列世界第一。

零一万物也由此成为了总榜上唯一一个自家模型进入排名前十的中国大模型企业。在总榜上，GPT系列占了前10的4个，以机构排序，零一万物 01.AI 仅次于 OpenAI, Google, Anthropic之后，以开放金标准正式进击国际顶级大模型企业阵营。

全球千万级用户盲测，让“刷分刷榜”彻底无效

美国时间2024年5月20日刚刷新的 LMSYS Chatboat Arena 盲测结果，来自至今积累超过 1170万的全球用户真实投票数：

值得一提的是，为了提高 Chatbot Arena 查询的整体质量，LMSYS还实施了重复数据删除机制，并出具了去除冗余查询后的榜单。这个新机制旨在消除过度冗余的用户提示，如过度重复的“你好”。这类冗余提示可能会影响排行榜的准确性。LMSYS公开表示，去除冗余查询后的榜单将在后续成为默认榜单。

在去除冗余查询后的总榜中， Yi-Large的Elo得分更进一步，与Claude 3 Opus、GPT-4-0125-preview并列第四。

如何为大模型给出客观公正的评测一直是业内广泛关注的话题。为了在固定题库中取得一份亮眼的评测分数，业内出现了各式各样的“刷榜”方法：将各种各样的评测基准训练集直接混入模型训练集中、用未对齐的模型跟已经对齐的模型做对比等等，对尝试了解大模型真实能力的人，的确呈现“众说纷纭”的现场，更让大模型的投资人摸不着北。

LMSYS Org 发布的Chatbot Arena凭借其新颖的“竞技场”形式、测试团队的严谨性，成为目前全球业界公认的基准标杆，连 OpenAI 在 GPT-4o 正式发布前，都在 LMSYS 上匿名预发布和预测试。

在海外大厂高管中，不只Sam Altman，Google DeepMind首席科学家Jeff Dean也曾引用LMSYS Chatbot Arena的排名数据，来佐证Bard产品的性能。

OpenAI创始团队成员 Andrej Karpathy甚至公开表示，Chatbot Arena is “awesome”。

自身的旗舰模型发布后第一时间提交给LMSYS，这一行为本身就展现了海外头部大厂对于Chatbot Arena的极大尊重。这份尊重既来自于LMSYS作为研究组织的权威背书，也来自于其新颖的排名机制。

公开资料显示，LMSYS Org 是一个开放的研究组织，由加州大学伯克利分校的学生和教师、加州大学圣地亚哥分校、卡耐基梅隆大学合作创立。虽然主要人员出自高校，但LMSYS的研究项目却十分贴近产业，他们不仅自己开发大语言模型，还向业内输出多种数据集（其推出的MT-Bench已是指令遵循方向的权威评测集）、评估工具，此外还开发分布式系统以加速大模型训练和推理，提供线上 live 大模型打擂台测试所需的算力。

在形式上，Chatbot Arena借鉴了搜索引擎时代的横向对比评测思路。它首先将所有上传评测的“参赛”模型随机两两配对，以匿名模型的形式呈现在用户面前。随后号召真实用户输入自己的提示词，在不知道模型型号名称的前提下，由真实用户对两个模型产品的作答给出评价，在盲测平台 https://arena.lmsys/ 上，大模型们两两相比，用户自主输入对大模型的提问，模型A、模型B 两侧分别生成两PK模型的真实结果，用户在结果下方做出投票四选一：A模型较佳、B模型较佳，两者平手，或是两者都不好。提交后，可进行下一轮PK。

通过众筹真实用户来进行线上实时盲测和匿名投票，Chatbot Arena一方面减少偏见的影响，另一方面也最大概率避免基于测试集进行刷榜的可能性，以此增加最终成绩的客观性。在经过清洗和匿名化处理后，Chatbot Arena还会公开所有用户投票数据。得益于“真实用户盲测投票”这一机制，Chatbot Arena被称为大模型业内最有用户体感的奥林匹克。

在收集真实用户投票数据之后，LMSYS Chatbot Arena还使用Elo评分系统来量化模型的表现，进一步优化评分机制，力求公平反应参与者的实力。

在Elo评分系统中，每个参与者都会获得基准评分。每场比赛结束后，参与者的评分会基于比赛结果进行调整。系统会根据参与者评分来计算其赢得比赛的概率，一旦低分选手击败高分选手，那么低分选手就会获得较多的分数，反之则较少。通过引入Elo评分系统，LMSYS Chatbot Arena在最大程度上保证了排名的客观公正。

Chatbot Arena的评测过程涵盖了从用户直接参与投票到盲测，再到大规模的投票和动态更新的评分机制等多个方面，这些因素共同作用，确保了评测的客观性、权威性和专业性。毫无疑问，这样的评测方式能够更准确地反映出大模型在实际应用中的表现，为行业提供了一个可靠的参考标准。

Yi-Large千亿参数紧追万亿参数顶尖模型，登顶国内大模型盲测

此次Chatbot Arena共有44款模型参赛，既包含了顶尖开源模型Llama3-70B，也包含了各家大厂的闭源模型。

以最新公布的Elo评分来看，GPT-4o以1287分高居榜首，GPT-4-Turbo、Gemini 1 5 Pro、Claude 3 0pus、Yi-Large等模型则以1240左右的评分位居第二梯队；其后的Bard (Gemini Pro)、Llama-3-70b-Instruct、Claude 3 sonnet的成绩则断崖式下滑至1200分左右。

值得一提的是，排名前6的模型分别归属于海外巨头 OpenAI、Google、Anthropic，零一万物位列全球第四机构，且GPT-4、Gemini 1.5 Pro等模型均为万亿级别超大参数规模的旗舰模型，其他模型也都在大几千亿参数级别。Yi-Large “以小搏大” 以仅仅千亿参数量级紧追其后， 5月13日一经发布便冲上世界排名第七大模型，与海外大厂的旗舰模型处于同一梯队。在 LMSYS Chatbot Arena 截至5月21日的总榜上，阿里巴巴的 Qwen-Max 大模型 Elo分数为1186，排名第12；智谱AI 的GLM-4 大模型 Elo分数为 1175，排名第15。

LMSYS 中文榜：GPT-4o 和 Yi-Large 并列第一

值得国人关注的是，国内大模型厂商中，智谱GLM4、阿里Qwen Max、Qwen 1.5、零一万物Yi-Large、Yi-34B-chat 此次都有参与盲测，在总榜之外，LMSYS 的语言类别上新增了英语、中文、法文三种语言评测，开始注重全球大模型的多样性。Yi-Large的中文语言分榜上拔得头筹，与 OpenAI 官宣才一周的地表最强 GPT4o 并列第一，Qwen-Max 和 GLM-4 在中文榜上也都表现不凡。

“最烧脑” 公开评测：Yi-Large 位居全球第二

在分类别的排行榜中，Yi-Large同样表现亮眼。编程能力、长提问及最新推出的 “艰难提示词” 的三个评测是LMSYS所给出的针对性榜单，以专业性与高难度著称，可称作大模型“最烧脑”的公开盲测。

在编程能力（Coding）排行榜上，Yi-Large 的Elo分数超过Anthropic 当家旗舰模型 Claude 3 Opus，仅低于GPT-4o，与GPT-4-Turbo、GPT-4并列第二。

长提问（Longer Query）榜单上，Yi-Large同样位列全球第二，与GPT-4-Turbo、GPT-4、Claude 3 Opus并列。

艰难提示词（Hard Prompts）则是LMSYS为了响应社区要求，于此次新增的排行榜类别。这一类别包含来自 Arena 的用户提交的提示，这些提示则经过专门设计，更加复杂、要求更高且更加严格。LMSYS认为，这类提示能够测试最新语言模型面临挑战性任务时的性能。在这一榜单上，Yi-Large 处理艰难提示的能力也得到印证，与GPT-4-Turbo、GPT-4、Claude 3 Opus并列第二。

李开复：中美大模型差距缩短到6个月

在当前大模型步入商业应用的浪潮中，模型的实际性能亟需通过具体应用场景的严格考验，以证明其真正的价值和潜力。过去那种仅要求表面光鲜的“作秀式”评测方式已不再具有实际意义。为了促进整个大模型行业的健康发展，整个行业必须追求一种更为客观、公正且权威的评估体系。

在这样的背景下，一个如Chatbot Arena这样能够提供真实用户反馈、采用盲测机制以避免操纵结果、并且能够持续更新评分体系的评测平台，显得尤为重要。它不仅能够为模型提供公正的评估，还能够通过大规模的用户参与，确保评测结果的真实性和权威性。

零一万物CEO李开复博士表示，很欣慰刚官宣一周的 Yi-Large 千亿模型登上全球金字塔，世界总榜表现仅次于OpenAI、 Google、Anthropic 3家公司，中文分榜和GPT-4o并列全球第一。一年前，零一万物刚刚成立，而此时Google、OpenAI 已经投身大模型行业7年。“一年后，我们仅仅落后它们约6个月——在这次LMSYS全球盲测中超过了所有半年前提交的模型。”

他说，大模型进入第二年，中国正在急起直追，零一万物用了不到硅谷巨头 1/10的GPU 算力做模型训练，模型尺寸也不到其 1/10，经过公开盲测进击世界大模型阵列，紧追OpenAI顶尖水平。“零一万物团队的勤奋、节俭、努力和人才密度，样样不可或缺。我们的计划是从最小到最大的模型都能够做到中国最好。”李开复表示，一方面，根据 scaling law，越大尺寸的模型约有可能达到 AGI；另一方面，小一些的模型也有各种应用机会。因此，零一万物的打法是“一个都不放过”，并且在每一个潜在尺寸上力争做到性能最高、推理成本最低。

LMSYS Chatbot Arena 盲测竞技场公开投票地址：

https://arena.lmsys/

LMSYS Chatbot Leaderboard 评测排行（滚动更新）：

https://chat.lmsys/?leaderboard

一起交流

想和你一起学习进步！『NewBeeNLP』目前已经建立了多个不同方向交流群（机器学习 / 深度学习 / 自然语言处理 / 搜索推荐 / 图网络 / 面试交流 / 等），名额有限，赶紧添加下方微信加入一起讨论交流吧！（注意一定o要备注信息才能通过）

本文标签：塔尖最难金字黑马刷分

版权声明：本文标题：LLM“最难刷分模型测评”出炉，国产黑马与GPT-4o同列金字塔尖内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1729089708a1185982.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

LLM“最难刷分模型测评”出炉，国产黑马与GPT-4o同列金字塔尖

后台留言『交流』，加入NewBee讨论组

更多相关文章

黑马程序员javaEE-Android学习路线图

天天爱消除,天天连萌电脑版刷分辅助教程 简单详细攻略

黑马英语阅读理解及试题可打印

黑马头条项目案例源代码

世界杯的黑马历届比赛中的惊喜表现

昭阳K2450笔记本安装Linux,可能是最难拆的笔记本：lenovo 联想 昭阳K2450 升级固态硬盘的艰难历程...

两句话掌握 Python 最难知识点——元类

Git分布式版本控制工具（B站黑马）学习笔记

黑马ChatGPT全通关原视频

linux基础教程-黑马程序员汇总PDF

【黑马程序员数据库】数据库引擎

黑马SpringBoot --开发篇

【网络安全】简单的免杀方法(非常详细)零基础入门到精通，收藏这一篇就够了_免杀 最难

关修远的笔记（黑马程序员）

SpringCloud学习笔记，课程源自黑马程序员，笔记持续更新中...

黑马程序员3天带你玩转Python深度学习TensorFlow框架学习笔记

《黑马》——C++核心编程

黑马程序员ssm总结[大全版本,有对应pdf+源码](spring-＞springmvc--＞springboot--＞maven高级-＞cloud微服务)

LLM“最难刷分模型测评”出炉，国产黑马与GPT-4o同列金字塔尖

黑马程序员史上最强JavaEE学习路线图震撼发布！！！

发表评论

推荐文章

有趣免费的开源机器人课程实践指北-2019-

QtC++编写物联网管理平台2-界面框架

linux系统安装,怎样安装linux系统制作步骤

注册会计师考试让用计算机,注意啦：2019年注册会计师考试可以不用带计算机啦！考试系统有变化...

使用ChatGPT 开放的 API 接口可以开发哪些自研工具？

热门文章

2021年系统集成项目管理工程师（软考中级）连夜整理考前重点

计算机基础及msoffice应用一级教程,全国计算机等级考试一级教程——计算机基础及MS Office应用（2013年版）...

03、Netty学习笔记—(Netty组件学习)

实验2 路由器基本配置

C++语法整理（From GitHub）

Black aesthetics in children's literature【翻译】

批量PDF怎样转换成PPT格式

一分钟配置Mac电脑SSH key ED25519

安卓手机哪个服务器信号最强,鲁大师2018年中手机流畅度排行：一加最流畅你服吗？...

AIGC: 关于ChatGPT中API接口调用相关准备工作

最新文章

【.NetC#之ChatGPT开发系列】三、如何利用ChatGPT进行上下文对话并控制Token数量消耗

ChatGPT出现429页面：原因、解决方法及FAQ

ChatGPT的原理与应用场景和应用范围

ChatGPT开源模型3.5 API调用示例

大模型：Python调用chatgpt的三种方法

chatGPT实战之「基于你的数据库，为你智能生成SQL」

怎样做ChatGPT应用开发？

ChatGPT 体验 - 写代码（GoLang）

Chatgpt登陆后一直在转圈请求429错误的解决办法

我让API版的ChatGPT长了记性！

了解Chatgpt key token计价或扣费说明

不定期分享免费GPT的api和key 支持chatgpt3.5 4.0 vision gemini claude等多种模型 iphone快捷指令 计算tokens

使用 ChatGPT 生成完整的 Node.js API

快速搭建能远程访问的Web页面，实现ChatGPT聊天机器人

基于ChatGPT的私人助理机器人开发实战

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

天天爱消除,天天连萌电脑版刷分辅助教程简单详细攻略

昭阳K2450笔记本安装Linux,可能是最难拆的笔记本：lenovo 联想昭阳K2450 升级固态硬盘的艰难历程...

【网络安全】简单的免杀方法(非常详细)零基础入门到精通，收藏这一篇就够了_免杀最难

不定期分享免费GPT的api和key 支持chatgpt3.5 4.0 vision gemini claude等多种模型 iphone快捷指令计算tokens

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载