Llama 3 是怎么回事?Arena 数据分析

4 月 18 日,Meta 发布了他们最新的开放权重大型语言模型 Llama 3。从那时起,Llama 3-70B 就在 English Chatbot Arena 排行榜上迅速上升,拥有超过 50,000 次对战。Meta 的这一非凡成就对开源社区来说是个好消息。在这篇博文中,我们旨在深入探讨为什么用户将 Llama 3-70b 与 GPT-4-Turbo、Gemini 1.5 Pro 和 Claude 3 Opus 等顶级模型相提并论。

我们调查了以下内容:

用户在问什么类型的提示?用户是否更喜欢 Llama 3 的某些类型的提示?
这些提示有多具有挑战性?如果提示更容易/更难,排名是否会改变?
某些用户或提示是否过度代表?重复的提示或少数用户的排名是否会影响胜率?
Llama 3 是否有让用户更喜欢它的定性差异?

我们专注于 Llama 3-70b 与 5 个顶级模型(claude-3-opus-20240229、gpt-4-0125-preview、gpt-4-1106-preview、gpt-4-turbo-2024-04-09、gemini-1.5-pro-0409-preview)的对战,得出以下结论:

Llama 3 在开放式写作和创意问题上击败了其他顶级模型,但在更封闭的数学和编码问题上失利。
随着提示变得更难,Llama 3 对顶级模型的胜率显着下降。
去重或异常值不会显著影响胜率。

定性地说,Llama 3 的输出比其他模型更友好、更具对话性,这些特征在 Llama 3 获胜的对战中更频繁出现。

在这里插入图片描述
图 1.Llama 3-70b 在不同提示主题上对五大模型的胜率(不包括平局)。* 表示该类别包含的对战不足 50 个。

分析不同类型提示的胜率

主题分析。我们利用 LLM 标注器(Llama 3-70b)将用户提示分类为预先建立的主题分类法(来自 Reka 的论文),并在图 1 中可视化 Llama 3-70b 与其他顶级模型的胜率。我们看到,Llama 3 在头脑风暴和写作等开放式和创造性任务上的胜率最高,在数学和翻译等更封闭的技术任务上的胜率最低。有趣的是,Llama 3 在数据处理任务(主要包括解析和数据框操作)上获得了最高的胜率,但由于该类别只有 19 个样本,这仍然是不确定的。

胜率与提示难度。我们采用了最近发布的评分提示难度的流程,以确定随着提示变得更难,Llama 3 与其他顶级模型相比如何。我们定义了一套"困难程度"标准,并使用 GPT-4-turbo 对每个提示进行 0 到 7 的标注,以表明满足这些标准中的多少个(分数越高表示提示越难)。我们的 7 个标准是:

1.具体性:提示是否要求具体的输出?
2.领域知识:提示是否涵盖一个或多个特定领域?
3.复杂性:提示是否具有多个层次的推理、组成部分或变量?
4.解决问题:提示是否直接涉及 AI 展示积极的解决问题的技能?
5.创造力:提示在解决问题的方法上是否涉及一定程度的创造力?
6.技术准确性:提示是否需要在回答中保持技术准确性?
7.真实世界应用:提示是否与现实世界应用相关?

我们对排行榜前 3 名模型的 1000 场对战进行评分,并在图 2 中绘制它们的胜率与提示得分的关系。我们观察到,与其他顶级模型相比,Llama 3 的性能显着下降,从 50% 的高胜率下降到 40% 的低胜率。我们得出结论,随着这些"困难程度"标准中的更多标准得到满足,与其他模型相比,Llama 3 的胜率迅速下降。请注意,这些标准可能并不详尽,更多讨论请参见博客。
在这里插入图片描述

图 2.几个顶级模型在满足关键标准数量区间内对最强 6 个模型的胜率。*最强模型之间的英语对战:llama-3-70b-chat、claude-3-opus-20240229、gpt-4-0125-preview、gpt-4-1106-preview、gpt-4-turbo-2024-04-09、gemini-1.5-pro-api-0409-preview。

在这里插入图片描述
图 3.在 3.5K 个 arena 对战样本中,满足困难程度标准数量的提示百分比。我们观察到,相当一部分对战被归类为困难(约 27%)。

我们可以进一步分析哪些类型的提示会影响胜率,方法是在表示给定提示是否满足上述每个标准的 7 个二元列上拟合决策树。从这棵决策树中,我们可以将提示分成标准子集,使得 Llama 3-70b-Instruct 要么表现非常好,要么表现非常差。图 4 所示的树告诉我们,当以某些条件为前提时,哪些子集会最大程度地改变模型的胜率。

在这里插入图片描述

图 4.使用标准决策树算法拟合的分层提示标准子集上的 Llama 3-70b-Instruct 胜率。

首先要注意的是,"具体性"是树的根节点,这表明该标准已经将 Llama 3-70b-Instruct 的性能划分为其优势和劣势。它支持我们之前的初步发现,即 Llama 3-70b-Instruct 在开放式提示(非特定)上比在更客观的任务上更强。我们可以进一步遍历树,看到 Llama 3-70b-Instruct 在开放式创意提示上相当强大(参见蓝色路径),对这些顶级模型达到约 60% 的胜率。沿着橙色路径,我们注意到,在回答特定的基于推理的提示时,Llama 3-70b-Instruct 对顶级模型的胜率要低得多。

过度代表的提示和评委的影响

重复提示的影响。使用模糊字符串匹配,我们发现 Llama 3 和其他顶级模型之间的对战中约 9%(6658/7327)的用户提示是重复的,并在表 1 中显示,去重并不显着影响 Llama 3 的胜率。

表 1:Llama 3-70b 对战统计。
在这里插入图片描述

表 2.LLM 的详细参与指标(时间范围:2023 年 4 月 24 日 - 5 月 1 日)

在这里插入图片描述
为了限制投票次数多的用户的影响,我们可以取每个评委胜率的平均值,从而限制每个评委的影响。在这种情况下,我们发现表 3 中所示的分层胜率仍然与原始胜率非常相似,这表明非常活跃的评委并没有扭曲结果。

表 3.模型胜率(时间范围:2023 年 4 月 24 日 - 5 月 1 日)。最新和详细版本请点击此处。请注意,平局计为 0.5,胜利和失败分别计为 1 和 0。

在这里插入图片描述
Llama 3 输出与其他模型的定性差异。从 Llama 3 和其他模型输出的定性分析中,我们观察到 Llama 3 的输出通常比其他模型更兴奋、积极、对话性和友好。

测量情绪。为了衡量兴奋度,我们根据感叹号的存在为每个输出分配一个二元标签。对于积极性、友好性和对话性,我们使用 GPT-3.5 作为评委,对每个输出进行 1-5 分的评分。在给定的对战中,如果 Llama 3 的输出得分高于对手,则标记为更兴奋、积极、对话性或友好。图 5 显示了不同模型中这些品质的分布,揭示了与对手相比,Llama 3 的输出通常表现出更高水平的兴奋、积极、友好和对话性。

在这里插入图片描述图 5:Llama 3 在 arena 提示中比对手更积极/友好/对话/感叹的比例。

情绪与胜率有关吗?图 6 比较了 Llama 3 在获胜对战和失败对战中输出的情绪品质。我们看到,所有特征在获胜对战中出现得更多,在失败对战中出现得更少,但这种差异相对较小,尤其是在积极性和友好性方面。这表明,虽然这些特征可能在竞争成功中发挥作用,但要得出更确定的见解,还需要进一步探索它们的影响。

在这里插入图片描述

图 6:当 Llama 3 比对手更积极/友好/对话/感叹时,Llama 3 的情绪与其胜率的关系。

结论

从一开始,我们的使命就是推进 LLM 的发展和理解。虽然过去我们一直专注于高层次的排名和基准设计,但展望未来,我们希望扩展这里的分析,并对人类偏好和模型行为的变化进行更深入的分析。

心得:

我认为这是一篇高质量的分析博文,对Llama 3的表现进行了全面而细致的评估。以下几点给我留下了深刻印象:

多角度的数据分析:作者不仅比较了Llama3在不同任务领域的胜率,还考察了提示难度、重复提示、评委行为等因素的影响。这种多维度的分析有助于更准确地理解模型的优劣势
定性与定量相结合:除了各种数据统计,文章还总结了Llama3输出的定性特点,如更友好、更有对话感等。定性分析与定量结果相佐证,让读者对Llama 3的特点有更直观的认识。
客观中立的态度:文章没有回避Llama3在数学、编码等任务上的不足,而是如实呈现了其局限性。同时也充分肯定了它在开放式写作等方面的优势。这种客观的评价让人感到分析的可信度。
展望未来的分析方向:作者指出当前分析的局限,并展望了未来可以深入探索的问题,如人类偏好的变化等。这种对研究方向的思考很有启发性。
可复现性:文中详细描述了分析使用的标注方法、评估指标的定义等,便于其他研究者复现或扩展相关工作。

参考博文: https://lmsys.org/blog/2024-05-08-llama3/
作者:Lisa Dunlap, Evan Frick, Tianle Li, Isaac Ong, Joseph E. Gonzalez, Wei-Lin Chiang,2024 年 5 月 8 日