微调样本质量胜于数量 LIMA: Less Is More for Alignment

1、总体介绍

大型语言模型的训练分为两个阶段:(1)从原始文本中进行无监督的预训练,以学习通用的表征;(2)大规模的指令学习和强化学习,以更好地适应最终任务和用户的偏好。

作者通过训练LIMA来衡量这两个阶段的相对重要性,LIMA是一个65B参数的LLaMa语言模型,仅在1000个精心策划的提示和回应上用标准的监督损失进行微调,没有任何强化学习或人类偏好建模。

LIMA表现出了非常强大的性能,从训练数据中仅有的几个例子中学习到了具体的反应格式,包括从规划旅行路线到猜测另一个历史的复杂查询。

此外,该模型倾向于对训练数据中没有出现过的任务进行良好的泛化。

在一项受控的人类研究中,来自LIMA的反应在43%的情况下与GPT-4相比更好;与Bard相比,这一统计数字高达58%,与DaVinci003相比,这一统计数字为65%,后者是用人类反馈进行训练的。

这些结果显著表明,大型语言模型中的几乎所有知识都是在预训练中学习的,只需要有限的指令学习数据就可以教会模型产生高质量的输出。

2. 关键方法

论文提出「表面对齐假设Superficial Alignment Hypothesis」:假设大模型的知识和能力主要是在预训练阶段学习到的,对齐只是教会模型在与用户交互时应该使用哪种格式的子分布。如果该假设正确,那么对齐在很大程度上是关于学习风格的,人们可以用一组相当小的样本便可充分调动激活预训练语言模型的能力。

MetaAI认为,前面说的两阶段的第二个阶段需要大量的人类标注的交互结果,非常的耗费时间和成本。但是,如果我们已经有了一个强大的预训练模型,那么应该可以有更简单的方法让模型拥有这样的能力。为此,MetaAI提出了LIMA,仅仅用1000个精心挑选的训练数据即可让模型激发强大的能力。

从社区论坛StackExchange和wikiHow筛选750例热门问题答案,样例筛选要保证质量和多样性。在质量和多样性方面,作者针对不同的论文数据做了大量筛选工作,包括不同主题、最佳回答、长度控制等,具体见文章章节Aligment Data。论文作者手动撰写了250个prompts和对应答案,同时保证了样例多样性和回答风格的一致性。

下图是LIMA使用的训练数据总结:

LIMA背后的核心思想是,对齐可以是一个简单的过程,可以是模型从与用户互动中学习相应的风格或格式,以展示在预训练期间已经获得的知识和能力。这种方法使LIMA能够从训练数据中的少数几个示例中学习遵循特定的响应格式,包括从规划旅行行程到推测关于交替历史的复杂查询。此外,该模型往往能很好地推广到未出现在训练数据中的未见任务。

3、结果分析

作者通过消融实验研究了微调训练数据的多样性、质量和数量对生成结果的影响。结论是微调样本的多样性和质量对结果具有可衡量的积极影响,而仅扩大微调样本数量可能并不会产生良性影响。

对未经筛选和经过筛选的Stack Exchange 2000样本数据,微调训练模型结果对比,在生成结果质量评估上二者相差0.5分。设置指数增长的训练集,当训练样本数量倍增时生成结果的质量并没有提升,这一结果表明对齐的比例定律(scaling laws)不仅取决于数量,而在于保证质量的同时提高prompt的多样性

4、思考

大模型预训练阶段获得的能力决定了模型能力的上限,通常来说,在同级别海量语料和相同网络架构下,模型参数越多模型能力越强。在微调训练阶段,只是在进一步激活模型的潜在性能,通过本论文可以看到,微调样本量对生成结果质量并不是关键因素,在微调阶段,更应该关注于微调样本的多样性和数据质量。

基于GPT的生成式大语言模型,在预训练阶段通过对海量数据的无监督学习,得到语言生成能力和对世界知识的存储能力,这一步相当于是在「练内功」,预训练之后的微调和对齐训练是对语言模型能力的挖掘和激活,引入各种任务数据进行微调训练,相当于是「练招式」,只有内功强大,才能更好凸现武术招式的厉害。反过来,如果没有强大的内功再精彩的招式也是花拳绣腿,缺乏实战和落地能力。

chatGPT大模型的一些关键要点:

  • 语言生成能力、基础世界知识、上下文学习能力来自于预训练语言模型(GPT3+)
  • 存储大量知识的能力来自于千亿级的参数量
  • 执行复杂推理的能力很可能来自于代码的训练
  • 指令微调不会为模型注入新的能力
  • 指令微调通过牺牲性能换取与人类的对齐(alignment tax)
  • 生成中立、客观的能力,安全和翔实的答案来自与人类的对齐(RLHF)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/354231.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

XP系统如何把文本转换成html,xp系统下将HTML文件设置为屏保的方法

关于XP系统的屏保设置,很多人脑子中肯定有个固定的样式,因为按照XP系统的传统来说,都是固定的按照图片来设置的,所以很多人就对屏保有了一定的硬性思维,就是只能是图片的形式。其实这样的想法是有所偏差的,…

linux6禁用屏幕保护程序,禁用屏幕保护程序(ScreenSaver Disabled)

禁用屏幕保护程序ScreenSaverDisabled是一款可以帮助用户朋友让自己的电脑不要总是被屏幕保护影响,有些设置隔三差五就会进入屏保状态,使用这款禁用屏幕保护程序ScreenSaverDisabled可以帮您解决这个烦恼。 相关软件软件大小版本说明下载地址 禁用屏幕保…

xp系统怎么定时锁定计算机,电脑怎么设置自动锁屏_XP系统电脑怎么设置自动锁屏...

摘要 腾兴网为您分享:XP系统电脑怎么设置自动锁屏,字体配置,智慧大学,掌上新华,小t智联等软件知识,以及mp3音乐裁剪器,小霸王,屏幕分屏软件,湖北网上税务局,照片印刷&…

汉字时钟屏保软件/汉字时钟电脑屏幕保护下载/汉字时钟屏保/windows屏保

软件名称:冷高轮时间汉字时钟屏保 软件语言:简体中文 软件类别:桌面工具 软件授权:免费软件 适用平台:WinXP, Win7, Win8, Win10, WinAll 电脑壁纸下载可在wallpaper engine或者upupoo上搜索全称“冷高轮时间‘ …

xp系统计算机不休眠设置,xp和win7系统怎么设置电脑不休眠详细教程

百度音乐播放器2017v10.1.8 官方最新版 类型:音频播放大小:14.3M语言:中文 评分:9.4 标签: 立即下载 电脑的休眠和睡眠的状态是什么样的? 休眠:就是把应用环境保存在硬盘上,直白地说…

电脑显示无法启动程序 因为计算机丢失,电脑显示无法启动此程序丢失.dll文件怎么办...

电脑显示"无法启动此程序"丢失.dll文件怎么办 【百度经验方法】

用vb写计算机程序代码,用VB编写的抽奖程序源代码随机抽取不重复

年度抽奖的小程序,可以自定义 年度抽奖小程序,您可以自定义背景,抽奖形式,设置奖品等. PPT彩票小程序 PPT开发工具彩票代码,VBA代码,每个需要它的人都可以下载.

Windows XP 禁用屏幕保护功能

在“桌面”上按快捷键“CtrlR”,调出“运行”窗口。接着,在“打开”后的输入框中输入“Gpedit.msc”。并按“确定”按钮。如下图 找到“用户配置”下的“管理模板”下的“控制面板”的“显示”,双击选择“屏幕保护程序”。如下图 在“屏幕保护…

此计算机屏保怎么取消,如何取消屏幕保护

上班候一会要用电脑,一会儿要做笔记什么的。可是电脑的屏幕保护太烦了一会儿又跳出来,这样搞得都没有办法好好查资料做笔记了。相信有很多朋友一样受着这样的的烦恼吧?不要着急,今天技术员来告诉大家如何取消屏幕保护吧。不过随着Xp系统的淘…

xp 无法关闭计算机,电脑xp系统关不了机怎么解决

有时候电脑关闭计算机时,总是提示“你现在可以安全关闭计算机了”,然后不能关机了这是什么回事呢?下面学习啦小编给大家讲解一下关于电脑xp系统关不了机的解决方法,希望大家喜欢! 电脑xp系统关不了机的解决方法 一、启动高级电源管理支持 无法自动关机是因为电源的设置不当…

Screen Saver Exporter for Mac(屏幕保护程序导出程序)

Screen Saver Exporter Mac破解版是一款适用于After Effects和Premiere Pro的屏幕保护程序导出程序插件。Screen Saver Exporter for Mac只需单击一下,即可将电影导出到屏幕保护程序,非常的方便快捷,有需要的小伙伴千万不要错过哦&#xff0c…

Win XP 如何禁用屏保

如果你试过 “在桌面空白处点击右键-【属性】-【屏幕保护程序】,选择【无】,点击【确定】”后,当时是可以去掉屏保。但如果重启计算机或者从待机状态唤醒后,屏保依然会出现,那么你可以试试下面的方法。 首先&#xff0…

计算机桌面黑屏时间,您必须等待至少一分钟,计算机才能将屏幕保护程序设置为使计算机黑屏...

有一些快捷键可以直接使计算机黑屏: 1. 按下电源按钮一次即可直接使计算机屏幕变黑 2. 按组合键“ Fn + F1”可直接使计算机屏幕变黑: Lenovo计算机使用此组合键,如果是其他品牌的计算机,则可以按键盘顶部标有Fn + F系列的按钮月亮 注意: 上述直接使计算机黑屏的方法是使计算…

用.NET设计一个假装黑客的屏幕保护程序

本文主要介绍屏幕保护程序的一些相关知识,以及其在安全方面的用途,同时介绍了如何使用 .NET 开发一款屏幕保护程序,并对核心功能做了介绍,案例代码开源:https://github.com/sangyuxiaowu/HackerScreenSaver 背景 前几…

xp系统计算机启动时灰色界面,windows xp系统下屏幕开始按钮变成灰色怎么处理

相信使用过windows xp系统的用户应该都知道,系统自带得有屏幕保护程序功能,然而有些时候可能操作不当导致屏幕保护程序的设置按钮为灰色无法设置的情况,那么在遇到这样的问题时应该怎么办呢?以下是针对此问题的具体解决方法介绍。 1、点击xp…

如何更改 Windows XP 中的 Windows 登录屏幕保护程序

本文分步介绍了如何更改 Microsoft Windows XP 中的默认登录屏幕保护程序。具体来说,文章讨论如何更改屏幕保护程序启动时,超时和屏幕保护程序启动之前,是否在登录过程之前打开屏幕保护程序的类型。当您启动 Windows 时,您可能会出…

怎样给计算机做屏幕保护,如何制作电脑屏保?XP系统中怎么制作动态屏幕保护?...

屏幕保护,各位都很熟悉,时钟屏保、泡泡屏保、海底世界动态屏保等各种屏幕保护用久了也看腻了,何不自己动手制作一个动态屏幕来玩?阅读下文了解XP系统制作动态屏幕保护的方法。闲暇的时候尝试着为自己的桌面制作一个屏保吧。 屏幕保…

3D打印机分类汇总

1 根据市场定位分类 当今市面上应用比较多的3D打印机是SLS、SLA、DLP、FDM四种3D打印机,按照用途可分为两类:一类是高精度工业打印机,比如SLA、DLP、SLS;一类是以FDM、SLA(用于工业打印机更多)为主的桌面级…

项目集管理—项目集治理

一、概述 项目集治理是实现和执行项目集决策,为支持项目集而制定实践,并维持项目集监督的绩效领域。 本章包括: 项目集治理实践项目集治理角色项目集治理设计与实施 项目集治理包括为了满足组织战略和运营目标的要求,对项目集实…

基于国产RK3588+多路H.265视频编解码 转码 3U VPX 方案

一、概述 3U VPX音视频转码模块是信迈科技推出的基于RK3588平台用于音视频的编解码、转码,本模块SDI视频、模拟音频输入,视频进行分辨率和帧率的变换,音频进行采样率和码率等的变换,网口输入的视频流进行解码或者转码&…