Llama 3 是怎么回事?Arena 数据分析

4 月 18 日,Meta 发布了他们最新的开放权重大型语言模型 Llama 3。从那时起,Llama 3-70B 就在 English Chatbot Arena 排行榜上迅速上升,拥有超过 50,000 次对战。Meta 的这一非凡成就对开源社区来说是个好消息。在这篇博文中,我们旨在深入探讨为什么用户将 Llama 3-70b 与 GPT-4-Turbo、Gemini 1.5 Pro 和 Claude 3 Opus 等顶级模型相提并论。

我们调查了以下内容:

  1. 用户在问什么类型的提示?用户是否更喜欢 Llama 3 的某些类型的提示?
  2. 这些提示有多具有挑战性?如果提示更容易/更难,排名是否会改变?
  3. 某些用户或提示是否过度代表?重复的提示或少数用户的排名是否会影响胜率?
  4. Llama 3 是否有让用户更喜欢它的定性差异?

我们专注于 Llama 3-70b 与 5 个顶级模型(claude-3-opus-20240229、gpt-4-0125-preview、gpt-4-1106-preview、gpt-4-turbo-2024-04-09、gemini-1.5-pro-0409-preview)的对战,得出以下结论:

  • Llama 3 在开放式写作和创意问题上击败了其他顶级模型,但在更封闭的数学和编码问题上失利。

  • 随着提示变得更难,Llama 3 对顶级模型的胜率显着下降。

  • 去重或异常值不会显著影响胜率。

    定性地说,Llama 3 的输出比其他模型更友好、更具对话性,这些特征在 Llama 3 获胜的对战中更频繁出现。

在这里插入图片描述
图 1.Llama 3-70b 在不同提示主题上对五大模型的胜率(不包括平局)。* 表示该类别包含的对战不足 50 个。

分析不同类型提示的胜率

主题分析。我们利用 LLM 标注器(Llama 3-70b)将用户提示分类为预先建立的主题分类法(来自 Reka 的论文),并在图 1 中可视化 Llama 3-70b 与其他顶级模型的胜率。我们看到,Llama 3 在头脑风暴和写作等开放式和创造性任务上的胜率最高,在数学和翻译等更封闭的技术任务上的胜率最低。有趣的是,Llama 3 在数据处理任务(主要包括解析和数据框操作)上获得了最高的胜率,但由于该类别只有 19 个样本,这仍然是不确定的。

胜率与提示难度。我们采用了最近发布的评分提示难度的流程,以确定随着提示变得更难,Llama 3 与其他顶级模型相比如何。我们定义了一套"困难程度"标准,并使用 GPT-4-turbo 对每个提示进行 0 到 7 的标注,以表明满足这些标准中的多少个(分数越高表示提示越难)。我们的 7 个标准是:

1.具体性:提示是否要求具体的输出?
2.领域知识:提示是否涵盖一个或多个特定领域?
3.复杂性:提示是否具有多个层次的推理、组成部分或变量?
4.解决问题:提示是否直接涉及 AI 展示积极的解决问题的技能?
5.创造力:提示在解决问题的方法上是否涉及一定程度的创造力?
6.技术准确性:提示是否需要在回答中保持技术准确性?
7.真实世界应用:提示是否与现实世界应用相关?

我们对排行榜前 3 名模型的 1000 场对战进行评分,并在图 2 中绘制它们的胜率与提示得分的关系。我们观察到,与其他顶级模型相比,Llama 3 的性能显着下降,从 50% 的高胜率下降到 40% 的低胜率。我们得出结论,随着这些"困难程度"标准中的更多标准得到满足,与其他模型相比,Llama 3 的胜率迅速下降。请注意,这些标准可能并不详尽,更多讨论请参见博客。
在这里插入图片描述

图 2.几个顶级模型在满足关键标准数量区间内对最强 6 个模型的胜率。*最强模型之间的英语对战:llama-3-70b-chat、claude-3-opus-20240229、gpt-4-0125-preview、gpt-4-1106-preview、gpt-4-turbo-2024-04-09、gemini-1.5-pro-api-0409-preview。

在这里插入图片描述
图 3.在 3.5K 个 arena 对战样本中,满足困难程度标准数量的提示百分比。我们观察到,相当一部分对战被归类为困难(约 27%)。

我们可以进一步分析哪些类型的提示会影响胜率,方法是在表示给定提示是否满足上述每个标准的 7 个二元列上拟合决策树。从这棵决策树中,我们可以将提示分成标准子集,使得 Llama 3-70b-Instruct 要么表现非常好,要么表现非常差。图 4 所示的树告诉我们,当以某些条件为前提时,哪些子集会最大程度地改变模型的胜率。

在这里插入图片描述

图 4.使用标准决策树算法拟合的分层提示标准子集上的 Llama 3-70b-Instruct 胜率。

首先要注意的是,"具体性"是树的根节点,这表明该标准已经将 Llama 3-70b-Instruct 的性能划分为其优势和劣势。它支持我们之前的初步发现,即 Llama 3-70b-Instruct 在开放式提示(非特定)上比在更客观的任务上更强。我们可以进一步遍历树,看到 Llama 3-70b-Instruct 在开放式创意提示上相当强大(参见蓝色路径),对这些顶级模型达到约 60% 的胜率。沿着橙色路径,我们注意到,在回答特定的基于推理的提示时,Llama 3-70b-Instruct 对顶级模型的胜率要低得多。

过度代表的提示和评委的影响

重复提示的影响。使用模糊字符串匹配,我们发现 Llama 3 和其他顶级模型之间的对战中约 9%(6658/7327)的用户提示是重复的,并在表 1 中显示,去重并不显着影响 Llama 3 的胜率。

表 1:Llama 3-70b 对战统计。
在这里插入图片描述

表 2.LLM 的详细参与指标(时间范围:2023 年 4 月 24 日 - 5 月 1 日)

在这里插入图片描述
为了限制投票次数多的用户的影响,我们可以取每个评委胜率的平均值,从而限制每个评委的影响。在这种情况下,我们发现表 3 中所示的分层胜率仍然与原始胜率非常相似,这表明非常活跃的评委并没有扭曲结果。

表 3.模型胜率(时间范围:2023 年 4 月 24 日 - 5 月 1 日)。最新和详细版本请点击此处。请注意,平局计为 0.5,胜利和失败分别计为 1 和 0。

在这里插入图片描述
Llama 3 输出与其他模型的定性差异。从 Llama 3 和其他模型输出的定性分析中,我们观察到 Llama 3 的输出通常比其他模型更兴奋、积极、对话性和友好。

测量情绪。为了衡量兴奋度,我们根据感叹号的存在为每个输出分配一个二元标签。对于积极性、友好性和对话性,我们使用 GPT-3.5 作为评委,对每个输出进行 1-5 分的评分。在给定的对战中,如果 Llama 3 的输出得分高于对手,则标记为更兴奋、积极、对话性或友好。图 5 显示了不同模型中这些品质的分布,揭示了与对手相比,Llama 3 的输出通常表现出更高水平的兴奋、积极、友好和对话性。

在这里插入图片描述图 5:Llama 3 在 arena 提示中比对手更积极/友好/对话/感叹的比例。

情绪与胜率有关吗?图 6 比较了 Llama 3 在获胜对战和失败对战中输出的情绪品质。我们看到,所有特征在获胜对战中出现得更多,在失败对战中出现得更少,但这种差异相对较小,尤其是在积极性和友好性方面。这表明,虽然这些特征可能在竞争成功中发挥作用,但要得出更确定的见解,还需要进一步探索它们的影响。

在这里插入图片描述

图 6:当 Llama 3 比对手更积极/友好/对话/感叹时,Llama 3 的情绪与其胜率的关系。

结论

从一开始,我们的使命就是推进 LLM 的发展和理解。虽然过去我们一直专注于高层次的排名和基准设计,但展望未来,我们希望扩展这里的分析,并对人类偏好和模型行为的变化进行更深入的分析。

心得:

我认为这是一篇高质量的分析博文,对Llama 3的表现进行了全面而细致的评估。以下几点给我留下了深刻印象:

  1. 多角度的数据分析:作者不仅比较了Llama3在不同任务领域的胜率,还考察了提示难度、重复提示、评委行为等因素的影响。这种多维度的分析有助于更准确地理解模型的优劣势

  2. 定性与定量相结合:除了各种数据统计,文章还总结了Llama3输出的定性特点,如更友好、更有对话感等。定性分析与定量结果相佐证,让读者对Llama 3的特点有更直观的认识。

  3. 客观中立的态度:文章没有回避Llama3在数学、编码等任务上的不足,而是如实呈现了其局限性。同时也充分肯定了它在开放式写作等方面的优势。这种客观的评价让人感到分析的可信度。

  4. 展望未来的分析方向:作者指出当前分析的局限,并展望了未来可以深入探索的问题,如人类偏好的变化等。这种对研究方向的思考很有启发性。

  5. 可复现性:文中详细描述了分析使用的标注方法、评估指标的定义等,便于其他研究者复现或扩展相关工作。

参考博文: https://lmsys.org/blog/2024-05-08-llama3/
作者:Lisa Dunlap, Evan Frick, Tianle Li, Isaac Ong, Joseph E. Gonzalez, Wei-Lin Chiang,2024 年 5 月 8 日

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3030777.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

经开区创维汽车车辆交接仪式顺利举行,守护绿色出行助力低碳发展

5月10日,“创维新能源汽车进机关”交车仪式于徐州顺利举行,20辆创维EV6 II正式交付经开区政府投入使用。经开区陈琳副书记、党政办公室副主任张驰主任、经开区公车管理平台苑忠民科长、创维汽车总裁、联合创始人吴龙八先生、创维汽车营销公司总经理饶总先…

【JavaSE】/*初识Java*/

目录 一、了解 Java 语言 二、Java 语言的重要性 2.1 使用程度 2.2 工作领域 三、Java 语言的特性 四、Java 的基础语法 五、可能遇到的错误 六、第一个 java 程序代码解析 七、Java 注释 八、Java 标识符 九、Java 关键字 一、了解 Java 语言 Java 是由 Sun Micr…

初识C语言——第十七天

选择语句:switch switch语句(整型表达式) { 语句项: } 而语句项是什么呢? //是一些case语句: //如下 case 整形常量表达式;常量可以,字符也可以(因为字符存储的时…

C++:虚函数表Hook

Hook 在计算机编程中,"Hook"(钩子)是一种技术,用于拦截并修改特定事件或函数的执行流程。它允许程序员在特定的代码点插入自定义的代码,以实现对程序行为的修改、监视或增强。 虚函数表Hook 虚函数表&#…

k8s遇到的常见问题及解决

1. error: open /var/lib/kubelet/config.yaml: no such file or directory 解决:关键文件缺失,多发生于没有做 kubeadm init就运行了systemctl start kubelet。 要先成功运行kubeadm init 2. 执行初始化kubeadm init ------的时候报错 The HTTP call…

C++随手写一个打字练习软件TL(TypeLetters)附原码

C随手写一个打字练习软件TL(TypeLetters)附原码 说明 软件名称:TL(TypeLetters) 开发语言:C 适合人群:零基础小白或C学习者 软件功能:打字练习软件TL(TypeLetters&#…

C语言 | Leetcode C语言题解之第82题删除排序链表中的重复元素II

题目: 题解: struct ListNode* deleteDuplicates(struct ListNode* head) {if (!head) {return head;}struct ListNode* dummy malloc(sizeof(struct ListNode));dummy->next head;struct ListNode* cur dummy;while (cur->next && cu…

性能测试 --概念

什么是性能测试 性能测试和功能测试都是在系统测试阶段运行, 两者有什么区别呢? 案例:豌豆射手和三线射手都是射手, 它们的功能都是向前发射豌豆进行攻击, 能够攻击到地面的僵尸. 但是从性能上来讲, 豌豆射手只能攻击到一路的僵尸, 而三线射手能同时攻击三路(注:放在边路实际…

用户体验优化uxo指的是什么?

用户体验优化(User Experience Optimization,简称UXO)是一种专注于改善和提升用户在使用企业产品或服务时的整体感受和体验的过程。简单来说,它旨在通过改进产品或服务的设计和功能,使用户在使用过程中感到更加愉悦、满意和高效。用户体验优化…

区块链的跨链交互:从学校间交流看跨链技术

区块链是一种去中心化的分布式账本技术,它通过加密学和共识机制来确保数据的安全性和不可篡改性。每个区块链就像一所独立的学校,有自己的制度、学生和重点专业。它们各自运行,有时在同一领域展开不同的活动。随着区块链技术的不断发展&#…

Excel中实现md5加密

1.注意事项 (1)在Microsoft Excel上操作 (2)使用完,建议修改的配置全部还原,防止有风险。 2.准备MD5宏插件 MD5加密宏插件放置到F盘下(直接F盘下,不用放到具体某一个文件夹下) 提示:文件在文章顶部&…

【Mac】Indesign 2023 Mac(ID2023) v18.5中文版安装教程

软件介绍 Adobe InDesign是一款由Adobe Systems开发的桌面排版软件,旨在用于创建、编辑和格式化印刷和数字出版物,如书籍、杂志、报纸、传单等。以下是一些关于Adobe InDesign的主要特点和功能: 1.强大的排版工具:InDesign提供了…

表面的相似,本质的不同

韩信与韩王信,两个韩信的结局都是被刘邦所杀,似乎结局类似。但是,略加分析,就会发现其中存在本质的区别。 韩信属于必杀。他的王位是要来的,有居功自傲的本意,功高震主而且毫不避讳。而且年轻,…

【CTF Crypto】XCTF GFSJ0522 base64 Writeup(Base64编码)

base64 元宵节灯谜是一种古老的传统民间观灯猜谜的习俗。 因为谜语能启迪智慧又饶有兴趣,灯谜增添节日气氛,是一项很有趣的活动。 你也很喜欢这个游戏,这不,今年元宵节,心里有个黑客梦的你,约上你青梅竹马…

指针(脑图梳理)

今天让我们来梳理一下指针都有哪些概念吧 这个脑图是整理的一些指针相关知识的概念,希望对大家有帮助

Element快速上手!

Element是饿了么公司前端团队开发的一套基于Vue的组件库,用于快速构建网页~ 官网链接: Element - The worlds most popular Vue UI frameworkElement,一套为开发者、设计师和产品经理准备的基于 Vue 2.0 的桌面端组件库https://element.elem…

arp icmp 等报文格式

ARP报文格式 ARP是一个独立的三层协议,所以ARP报文在向数据链路层传输时不需要经过IP协议的封装,而是直接生成自己的报文,其中包括ARP报头,到数据链路层后再由对应的数据链路层协议(如以太网协议)进行封装…

Gradient发布支持100万token的Lllama3,上下文长度从8K扩展到1048K

前言 近日Gradient公司在Crusoe Energy公司的算力支持下,开发了一款基于Llama-3的大型语言模型。这款新模型在原Llama-3 8B的基础上,将上下文长度从8000 token大幅扩展到超过104万token。 这一创新性突破,展现了当前SOTA大语言模型在长上下…

【JVM基础篇】JVM入门介绍

JVM入门介绍 为什么学习JVM 岗位要求 解决工作中遇到的问题 性能调优 真实案例 导出超大文件,系统崩溃从数据库中查询超大量数据出错消费者消费来不及导致系统崩溃Mq消息队列接受消息导致的内存泄漏业务高峰期系统失去响应 初识JVM 什么是JVM? JV…

Excel——项目管理,设置时间到期自动提醒及颜色高亮

效果图 第一步、自动获取合同到期日期 1、首先合同【签约日期】和【到期日期】下面的数据必须是日期格式,不能是其它的格式否则无法计算,如果是其它格式需要转换成标准的日期格式,如下图所示。 2、在“到期日期”下面的第一个单元格中输入公…