【GPT-4多态大模型研究】

1.概述

GPT-4是OpenAI最新的系统,能够产生更安全和更有用的回应。它是一个大型的多模态模型(接受图像和文本输入,输出文本),在各种专业和学术的基准测试中展现了人类水平的表现。例如,它在模拟的律师资格考试中得分位于前10%的考生之列;相比之下,GPT-3.5的得分位于后10%。

GPT-4是如何做到这一点的呢?它是如何超越前几代的语言模型的呢?它又能为我们带来什么样的好处和挑战呢?本文将从以下几个方面介绍GPT-4的特点、能力和应用。

2.内容

2.1 GPT-4特点

GPT-4是基于深度学习的方法,利用更多的数据和更多的计算来创建越来越复杂和能力强大的语言模型。它继承了GPT、GPT-2和GPT-3的研究路径,但也做了一些重要的改进和创新。

1. 创造力

GPT-4比以往任何时候都更具创造力和协作性。它可以生成、编辑和与用户迭代进行创意和技术写作任务,例如创作歌曲、编写剧本或学习用户的写作风格。

例如,它可以根据一个简单的提示,写出一句话,其中每个单词都要以字母表中的下一个字母开头,从A到Z,而且不能重复任何字母。

2. 视觉输入

GPT-4可以接受图像和文本输入,这与仅文本输入的设置相比,使用户能够指定任何视觉或语言任务。具体来说,它根据由文本和图像交错组成的输入生成文本输出(自然语言、代码等)。

例如,它可以根据一张图片和一些文字描述,生成一首诗。

3. 更长的上下文

GPT-4能够处理更长的上下文,这意味着它可以记住更多的信息,并在不同的对话或任务中使用它。12

例如,它可以根据一个长达1000个单词的文章摘要,生成一个完整的文章。

2.2 预测能力

GPT-4项目的一大重点是构建一个可预测扩展的深度学习堆栈。这个主要原因是,对于像GPT-4这样的大型训练,进行广泛的训练是不可行的特定型号的调整。为了解决这一问题,我们开发了基础设施和优化方法在多个尺度上具有非常可预测的行为。这些改进使我们能够可靠地从使用1000×–训练的较小模型中预测GPT-4性能的某些方面10000×更少的计算。

1.损失预测

在机器学习和深度学习领域中,损失预测是指通过训练模型来估计或预测模型的损失函数。损失函数是用于衡量模型在训练过程中的性能和误差的指标,通常用于优化模型的参数和权重。损失预测可以帮助开发者和研究人员评估模型的训练进展和效果,以便根据预测的损失进行调整和改进模型的性能。

经过适当训练的大型语言模型的最终损失被认为是幂的近似值用于训练模型的计算量定律[41,42,2,14,15]。为了验证我们优化基础设施的可扩展性,我们预测GPT-4在内部代码库(不是训练集的一部分),通过拟合具有不可约损失项的比例定律:L© = aCb + c,来自使用相同方法训练的模型但是使用最多比GPT-4少10000倍的计算。这个预测是在跑步后不久做出的

已启动,没有使用任何部分结果。拟合的比例定律预测了GPT-4的最终损失高精度,如下图所示:

2. 能力扩展

在训练之前对模型的能力有一种感觉可以改进关于对齐的决策,安全性和部署。除了预测最终损失外,我们还开发了预测方法更可解释的能力度量。一个这样的度量是人工评估数据集上的通过率[43],其测量合成不同复杂度的Python函数的能力。我们成功地通过从训练的模型中推断,预测人工评估数据集的一个子集的通过率最多可减少1000倍的计算量。对于人工评估中的单个问题,性能可能偶尔会随着规模的扩大而恶化。

在公式Ep[log(pass_rate©)] = a * C-k中,其中k和α是正常数,P是数据集中问题的子集。我们假设这种关系适用于该数据集中的所有问题。在实践中,非常低的通过率是困难的

或者不可能估计,所以限制在问题P和模型M上,使得给定一些大的样本预算,每个模型至少解决一次每个问题。在训练完成之前,在人类评估上注册了GPT-4性能的预测,使用

只有培训前的可用信息。除了15个最难的人类评估问题外,其他问题都被分解了基于较小模型的性能,分为6个难度桶。在上图中,表明由此产生的预测对此非常准确人类评估问题的子集,其中我们可以准确估计几个较小问题的log(pass_rate)模型。对其他五个桶的预测几乎同样出色,主要的例外是GPT-4在最简单的桶上表现不如我们的预测。

在各种基准测试中对GPT-4进行了测试,包括模拟最初为人类设计的考试。对于这些考试,没有进行特定的训练。模型在训练过程中只接触到了少数考试中的问题;对于每个考试,运行了一个去除了这些问题的变体,并报告其中较低的分数。相信这些结果是具有代表性的。

考试题目来自公开可获取的资料。考试题目包括多项选择题和自由回答题;为每种题型设计了单独的提示,并且对于需要图像的问题,在输入中包含了相应的图像。评估设置是基于验证集上的性能设计的,并且在保留的测试考试上报告最终结果。

综合分数是通过使用每个考试的公开可用方法,将多项选择题和自由回答题的得分相结合得出的。估计并报告每个综合分数所对应的百分位数。结果如下图所示:

GPT-4在大部分专业和学术考试中展现出与人类水平相当的表现。值得注意的是,它在模拟的统一法律职业资格考试中取得了前10%的得分。
该模型在考试中的能力主要来源于预训练过程,并且并未受到强化学习微调的显著影响。在我们测试的多项选择题中,基准GPT-4模型和经过强化学习微调的模型平均表现相当出色。
我们还对预训练的基准GPT-4模型进行了传统基准测试,这些测试旨在评估语言模型。对于每个基准测试,我们对出现在训练集中的测试数据进行了污染检查。在评估GPT-4时,我们使用了少样本提示的方法。

GPT-4在很大程度上超越了现有的语言模型,以及以往的最先进系统(SOTA),这些系统通常需要针对特定基准测试进行调整或额外的训练方案。如下图所示:

GPT-4在学术基准测试中的表现。将GPT-4与最先进的基准测试专用训练模型(SOTA)以及少样本评估中最好的语言模型(LM)进行了比较。在所有基准测试中,GPT-4表现优于现有的语言模型,并在除了DROP数据集之外的所有数据集上超越了基准测试专用训练的SOTA模型。在GPT-4的预训练数据中包含了部分训练集,并在评估时使用了思维链式提示。对于多项选择题,向模型展示了所有答案(ABCD),并要求它选择答案的字母,类似于人类解决这类问题的方式。

许多现有的机器学习基准测试都是用英语编写的。为了初步了解GPT-4在其他语言上的能力,使用Azure Translate将包含57个科目的MMLU基准测试(一套多项选择题)翻译成了多种语言。在测试的大多数语言中,包括拉脱维亚语、威尔士语和斯瓦希里语等资源较少的语言,GPT-4在英语表现方面优于GPT 3.5和现有的语言模型。

GPT-4在跟随用户意图方面大大提高了性能。在一个由5,214个提示提交给ChatGPT和OpenAI API 的数据集上,GPT-4生成的回复在70.2%的提示上优于GPT 3.5生成的回复。

官方开源了OpenAI Evals,这是用于创建和运行评估模型(如GPT-4)基准测试的框架,可以逐个样本检查性能。Evals与现有的基准测试兼容,并可用于跟踪模型在部署中的性能。官方计划逐步增加这些基准测试的多样性,以代表更广泛的失效模式和更困难的任务。

3.局限性

尽管具备强大的能力,GPT-4仍然存在与之前的GPT模型相似的限制。最重要的是,它仍然不是完全可靠的(会出现"产生幻觉"的事实和推理错误)。在使用语言模型的输出时,特别是在高风险环境下,需要格外谨慎,确保采用符合特定应用需求的确切协议(例如人工审核、附加上下文的基础支撑,或完全避免高风险使用)。

相对于之前的GPT-3.5模型(通过持续迭代不断改进),GPT-4在幻觉现象方面显著减少。在官方内部经过对抗设计的真实性评估中,GPT-4相对于我们最新的GPT-3.5模型得分提高了19个百分点。

GPT-4在公共基准测试如TruthfulQA 上取得了进展,该测试评估模型将事实与对抗性选择的一组错误陈述分开的能力。这些问题与统计上具有吸引力的错误答案配对。GPT-4基础模型在这个任务上只比GPT-3.5略好一些;然而,在RLHF后训练后,我们观察到相对于GPT-3.5有了很大的改进。

GPT-4通常缺乏对其预训练数据在2021年9月之后发生的事件的了解,并且不会从自身经验中学习。它有时会出现简单的推理错误,这些错误似乎与在如此多领域中表现出的能力不符,或者过于轻信用户明显错误的陈述。它在处理艰难问题时可能会与人类一样失败,例如在其生成的代码中引入安全漏洞。

当GPT-4可能会犯错时,它在预测时也可能会自信地出错,没有注意双重检查工作。有趣的是,预训练模型的校准性非常高(它对一组样本的正确性估计与实际正确性的比例相当),但它的错误是系统性的,这意味着它可能在某些方面过于自信。

总之,尽管GPT-4在许多基准测试上取得了进展,但它仍然存在一些限制和挑战,需要在使用过程中谨慎对待其输出,并结合特定应用的需求采取相应的验证和处理方法。

4.风险和安全改进措施

通过领域专家进行对抗性测试:GPT-4与较小的语言模型存在类似的风险,例如生成有害建议、错误的代码或不准确的信息。然而,GPT-4的额外功能导致了新的风险面。为了了解这些风险的程度,官方请来了领域专家,对GPT-4进行了广泛的测试和评估,以识别潜在的问题和风险。这有助于更好地理解模型的弱点和改进的方向。

模型辅助的安全流程:为了提高GPT-4的安全性,开发了一种模型辅助的安全流程。这个流程结合了人工审核和自动化工具,以检测模型生成的内容中可能存在的问题和风险。目标是及早发现和纠正潜在的安全问题,并确保模型生成的输出对用户和社会有益。

安全度量指标的改进:相比之前的模型,在安全度量指标方面取得了改进。通过对GPT-4生成的样本进行人工审核和自动化检测,提高了对生成内容中潜在问题和风险的识别能力。目标是降低模型生成有害或误导性内容的概率,并确保其对用户和社会的影响是正面的。

5.总结

GPT-4它是一个大型多模态模型,在专业和学术基准测试中表现出人类水平的性能,超越现有语言模型,在多种语言中展现出改进的能力,为构建广泛有用且安全的AI系统迈出重要一步。

如何系统的去学习大模型LLM ?

作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的 AI大模型资料 包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来

所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~

👉[CSDN大礼包🎁:[全网最全《LLM大模型入门+进阶学习资源包》免费分享**]👈

在这里插入图片描述

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

在这里插入图片描述

四、AI大模型商业化落地方案

img

阶段1:AI大模型时代的基础理解
  • 目标:了解AI大模型的基本概念、发展历程和核心原理。
  • 内容
    • L1.1 人工智能简述与大模型起源
    • L1.2 大模型与通用人工智能
    • L1.3 GPT模型的发展历程
    • L1.4 模型工程
      - L1.4.1 知识大模型
      - L1.4.2 生产大模型
      - L1.4.3 模型工程方法论
      - L1.4.4 模型工程实践
    • L1.5 GPT应用案例
阶段2:AI大模型API应用开发工程
  • 目标:掌握AI大模型API的使用和开发,以及相关的编程技能。
  • 内容
    • L2.1 API接口
      - L2.1.1 OpenAI API接口
      - L2.1.2 Python接口接入
      - L2.1.3 BOT工具类框架
      - L2.1.4 代码示例
    • L2.2 Prompt框架
      - L2.2.1 什么是Prompt
      - L2.2.2 Prompt框架应用现状
      - L2.2.3 基于GPTAS的Prompt框架
      - L2.2.4 Prompt框架与Thought
      - L2.2.5 Prompt框架与提示词
    • L2.3 流水线工程
      - L2.3.1 流水线工程的概念
      - L2.3.2 流水线工程的优点
      - L2.3.3 流水线工程的应用
    • L2.4 总结与展望
阶段3:AI大模型应用架构实践
  • 目标:深入理解AI大模型的应用架构,并能够进行私有化部署。
  • 内容
    • L3.1 Agent模型框架
      - L3.1.1 Agent模型框架的设计理念
      - L3.1.2 Agent模型框架的核心组件
      - L3.1.3 Agent模型框架的实现细节
    • L3.2 MetaGPT
      - L3.2.1 MetaGPT的基本概念
      - L3.2.2 MetaGPT的工作原理
      - L3.2.3 MetaGPT的应用场景
    • L3.3 ChatGLM
      - L3.3.1 ChatGLM的特点
      - L3.3.2 ChatGLM的开发环境
      - L3.3.3 ChatGLM的使用示例
    • L3.4 LLAMA
      - L3.4.1 LLAMA的特点
      - L3.4.2 LLAMA的开发环境
      - L3.4.3 LLAMA的使用示例
    • L3.5 其他大模型介绍
阶段4:AI大模型私有化部署
  • 目标:掌握多种AI大模型的私有化部署,包括多模态和特定领域模型。
  • 内容
    • L4.1 模型私有化部署概述
    • L4.2 模型私有化部署的关键技术
    • L4.3 模型私有化部署的实施步骤
    • L4.4 模型私有化部署的应用场景
学习计划:
  • 阶段1:1-2个月,建立AI大模型的基础知识体系。
  • 阶段2:2-3个月,专注于API应用开发能力的提升。
  • 阶段3:3-4个月,深入实践AI大模型的应用架构和私有化部署。
  • 阶段4:4-5个月,专注于高级模型的应用和部署。
这份完整版的所有 ⚡️ 大模型 LLM 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

全套 《LLM大模型入门+进阶学习资源包↓↓↓ 获取~

👉[CSDN大礼包🎁:[全网最全《LLM大模型入门+进阶学习资源包》免费分享**]👈

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3248228.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

Android 12系统源码_存储(二)StorageManagerService服务

前言 在 Android 系统中,StorageManagerService是一个用于获取存储设备信息和管理存储设备的服务。它提供了一系列方法,可以获取当前挂载的存储设备信息,以及对存储设备进行挂载和卸载操作。 一、Storage存储模块介绍 1.1、StorageManager…

Android 10.0 Launcher3拖拽图标进入hotseat自适应布局功能实现一

1.前言 在10.0的系统rom定制化开发中,在对于launcher3的一些开发定制中,在对hotseat的一些开发中,需要实现动态hotseat居中 的功能,就是在拖拽图标进入和拖出hotseat,都可以保持hotseat居中的功能,接下来分…

阿里云短信PHP集成api类

无需安装sdk扩展包&#xff0c;直接引入类即可使用 V3版本请求体&签名机制:自研请求体和签名机制 - 阿里云SDK - 阿里云 模版内容&#xff1a; <?phpnamespace common\components;use common\constant\UserConst; use common\models\bee\SmsReferer; use common\mode…

C++从入门到起飞之——类的定义/实例化 全方位剖析!

个人主页&#xff1a;秋风起&#xff0c;再归来~ C从入门到起飞 个人格言&#xff1a;悟已往之不谏&#xff0c;知来者犹可追 克心守己&#xff0c;律己则安&#xff01; 目录 1.类的定义 1.1、类定义格式 1.2、访问限定符 1.3、类域 2.实例化 2.…

备忘录删除了怎么恢复 备忘录误删恢复办法

备忘录作为我们日常生活中的得力助手&#xff0c;帮助我们记录重要事项和灵感&#xff0c;然而&#xff0c;使用中偶尔会出现误删的情况。若不能及时找回误删的内容&#xff0c;可能会造成重要信息的丢失&#xff0c;给我们的工作和生活带来不必要的麻烦。 如果你也担心备忘录…

tinymce富文本支持word内容同时粘贴文字图片上传 vue2

效果图 先放文件 文件自取tinymce: tinymce富文本简单配置及word内容粘贴图片上传 封装tinymce 文件自取&#xff1a;tinymce: tinymce富文本简单配置及word内容粘贴图片上传 页面引用组件 <TinymceSimplify refTinymceSimplify v-model"knowledgeBlockItem.content…

还在羡慕别人的爆款视频是怎么做出来的?Transform Video给你答案,让你轻松制作出爆款的作品!

大家好&#xff01;我是闷声轻创&#xff01;最近我发现了一个牛批的AI视频编辑工具——Transform Video。这款软件将彻底改变你的视频创作体验&#xff0c;来看看都有什么功能吧 先了解一下Transform Video是什么&#xff1f; Transform Video是一个革命性的AI视频编辑平台&a…

vxe-grid 实现配置式form搜索条件 form搜索条件框可折叠 配置式table

文章目录 效果图代码 效果图 代码 <template><div class"app-container"><vxe-grid refxGrid v-bind"gridOptions" v-if"tableHeight" :height"tableHeight"><template #billDate"{ data }"><e…

Linux内核编程(八) 添加自定义目录驱动菜单 (Kconfig文件使用)

本文目录 一、Linux 内核驱动目录二、自定义驱动的Kconfig编写●示例&#xff1a;在 drivers 菜单添加一个自己驱动的子菜单。 三、自写驱动的Makefile编写四、总结 一个Linux内核源码&#xff0c;其中包含了很多驱动程序&#xff0c;对应不同的功能。我们在编译内核时。如果将…

《TF2.x强化学习手册》P59-P65-SARSA-Q-learning

文章目录 实现SARSA算法和对应的强化学习智能体前期准备实现步骤工作原理初始化算法流程 构建基于Q学习的智能体前期准备实现步骤工作原理SARSA 算法的收敛性&#xff1a;SARSA 适合在线学习和真实系统&#xff1a;Q 学习算法的适用性&#xff1a; 实现SARSA算法和对应的强化学…

linux|多线程(一)

主要介绍了为什么要有线程 和线程的调用 和简单的对线程进行封装。 背景知识 a.重谈地址空间 我们知道物理内存的最小单元大小是4kB 物理内存是4G那么这样的单元友1M个 操作系统先描述再组织struct page[1M] 对于32位数据字长的机器&#xff0c;页表有2^32条也就是4G条&#…

随笔一、泰山派RK3566开发板调试串口波特率修改

摘要&#xff1a;立创泰山派RK3566开发板默认调试串口波特率是1500000bps&#xff0c;一般串口助手工具没有此波特率&#xff0c;为适应各种调试环境需要&#xff0c;打算修改调试串口波特率为115200bps 需要修改三个部分 1. uboot引导部分 修改tspi_linux_sdk/u-boot/config…

python数据可视化(10)——绘制地图图表

课程学习来源&#xff1a;b站up&#xff1a;【蚂蚁学python】 【课程链接&#xff1a;【【数据可视化】Python数据图表可视化入门到实战】】 【课程资料链接&#xff1a;【链接】】 python&#xff1a;3.12.3 所有库都使用最新版。 Python绘制中国地图和城市图表 from pyech…

CSS技巧专栏:一日一例 7 - 纯CSS实现炫光边框按钮特效

CSS技巧专栏&#xff1a;一日一例 7 - 纯CSS实现炫光边框按钮特效 本例效果图 案例分析 相信你可能已经在网络见过类似这样的流光的按钮&#xff0c;在羡慕别人做的按钮这么酷的时候&#xff0c;你有没有扒一下它的源代码的冲动&#xff1f;或者你当时有点冲动&#xff0c;却…

[第一期]带日期时间的LED滚动广告屏美化

效果图&#xff1a; 源代码&#xff1a; <style type"text/css">.studytextgzbox {background: #F9F9F9; border: 1px solid #999999;margin: 1px;text-align:center; float: left;line-height: 28px;height: 28px;overflow: hidden;width: 236px; }.hulik…

最新电子书|使用Anybus网关,轻松实现工业设备互联

无论何时&#xff0c;确保多网络连接 工业网关的关键角色 工业网关&#xff0c;又称为协议网关、协议转换器或协议翻译器&#xff0c;是实现工业设备互联的最简捷方法。作为信息的翻译器&#xff0c;它们使得不同工业协议的设备、机器、系统或网络能够无缝交换数据&#xff0c…

数据架构新篇章:存算一体与存算分离的协同演进

数据架构新篇章&#xff1a;存算一体与存算分离的协同演进 前言被误解的存算分离存算一体的概念存算一体的过往存算一体的演进 存算分离的定义存算分离的过往存算分离的演进 存算一体和分离示例总结 前言 降本增效大环境下&#xff0c;存算分离架构如火如荼&#xff0c;Why&am…

【STC89C51单片机】定时器中断系统

中断概念 中断是一种重要的硬件机制&#xff0c;用于在处理器正在执行程序时&#xff0c;能够及时响应某些外部或内部事件。中断可以临时中止当前正在执行的指令序列&#xff0c;转而去执行专门的中断服务程序&#xff08;ISR&#xff0c;Interrupt Service Routine&#xff0…

Stable Diffusion:解锁AI绘画新纪元的保姆级入门指南

在这个数字艺术日新月异的时代&#xff0c;Stable Diffusion如同一股清新的风&#xff0c;吹散了传统绘画的界限&#xff0c;让每个人都能成为创意无限的数字艺术家。作为一款基于Transformer结构的文本到图像生成模型&#xff0c;Stable Diffusion以其惊人的生成速度、细腻的画…

ubuntu22.04 配置grpc(优化官方教程)

优化了官方教程&#xff0c;2024.7.17顺利打通。 一&#xff1a;添加环境变量 打开root文件夹下的 .bashrc 文件 编辑文件&#xff1a;滚动到文件的底部&#xff0c;然后添加以下行&#xff1a; export MY_INSTALL_DIR$HOME/.local mkdir -p "$MY_INSTALL_DIR" exp…