多模态大模型(MM-LLMs)近期概述

《MM-LLMs: Recent Advances in MultiModal Large Language Models》

论文地址:https://arxiv.org/abs/2401.13601

GitHub地址:https://mm-llms.github.io/

1.介绍

目的:MM-LLMs旨在减少计算费用并提高多模态预训练的效率, 因为从头开始训练时会产生大量的计算成本。
挑战:如何有效地将LLM与其他模式的模型连接起来,实现协同推理是MM-LLM面临的核心挑战。
焦点:多模态预训练(PT) + MM指令调优(IT)流程来优化模态之间的对齐并与人类意图对齐。

2.模型架构

        在训练期间,模态编码器、LLM主干和模态生成器通常保持在冻结状态。主要的优化重点是输入和输出投影器。如Figure 2中的蓝色部分。

        投影器是轻量级组件与总参数数量相比,MM-LLMs中可训练参数的比例通常约为2%。总体参数计数取决于MM-LLMs中使用的核心LLM的规模。因此,MM-LLMs可以有效地训练以赋予各种多模态任务能力。

2.1模态编码器

模态编码器的主要功能是将不同模态的输入I_x转换成对应的特征表示F_x

图像/视频模态通常有四种可选编码器:ViT NFNet-F6(无归一化器的ResNetCLIP ViT 和Eva-CLIP ViT 。音频模态通常由HuBERT 、C-Former BEATs whisper 编码。3D点云模态通常由ULIP-2编码。统一的编码器:ImageBind。

2.2  Input Projector输入投影

        输入投影器\Theta _{X\rightarrow T}的任务是将其他模态的编码特征F_x与文本特征空间T对齐。对齐后的特征作为提示P_x然后与文本特征F_T一起输入LLM主干,给定X-text数据集{I_x,t},目标是最小化X条件的文本生成损失L_{txt-gen}

简单实现(交替使用线性投影器或多层感知器)→复杂实现(比如Cross-attention、Q-Former、P-Former)

2.3 LLM Backbone骨干

MM-LLM可以继承LLMs一些显著的特性样本泛化、少样本ICL、思维链(Chain-of-Thought, CoT)指令遵循。

LLM主干

处理来自各种模态的表示,参与关于输入的语义理解、推理和决策。它产生

(1)直接文本输出t。

(2)来自其他模态(如果有的话)的信号令牌S_x

这些信号令牌作为指示,指导生成器是否生成MM内容,如果是肯定的,指定要生成的内容。其中其他模态PX的对齐表示可以被认为是LLM主干的软提示调优。

PEFT

此外,一些工作还引入了参数高效微调(PEFT)方法,如前缀调优(Li and Liang, 2021)、适配器LoRA 。在这些情况下,额外可训练参数的数量非常少,甚至不到LLM参数总数的0.1%。

MM-LLM中常用的LLM:Flan-T5、ChatGLM 、UL2、Qwen、Chinchilla、OPT、PaLM、LLaMA、LLaMA-2和Vicuna

2.4、Output Projector输出投影器

输出投影器\Theta _{T\rightarrow X}将LLM主干的信号到标记表示S_X映射为H_X可理解的特征,以随后的模态生成器MG_X。给定X-text数据集\{I_X, t\},首先将t输入LLM以生成相应的S_X,然后将其映射到H_X。为了便于对齐映射后的特征H_X,目标是最小化H_XMG_X的条件文本表示之间的距离:

优化仅依赖于字幕文本,不使用任何音频或视觉资源X,其中H_X = \Theta _{T\rightarrow X}(S_X), τX 是MG_X中的文本条件编码器。输出投影器是由一个微型Transformer或MLP实现的。

2.5、Modality Generator模态生成器

        模态生成器MG_X的任务是产生不同模态的输出。通常,现有的工作使用现成的潜在扩散模型(LDMs) ,即用于图像合成的Stable Diffusion ,用于视频合成的Zeroscope ,以及用于音频合成的AudioLDM-2 。由输出投影器映射的特征H_X作为去噪过程中的条件输入,来生成MM内容。

在训练过程中,地面真值内容首先被预训练的VAE转化为潜在特征z0 。然后向z0添加噪音ϵ以获得嘈杂的潜在特征zt。使用预训练的Unet ϵ X计算条件LDM损失LX-gen如下:

3. 训练流程

        如何将预训练的仅文本LLM改进为支持多模态输入或输出,主要包括两个阶段:MM PTMM IT。

3.1 MM PT预训练

        在PT阶段,通常利用X-Text数据集,训练输入和输出投影器通过优化预定义的目标来实现各种模式之间的对齐(PEFT有时应用于LLM主干)。对于MM理解模型,优化仅关注式(2),而对于MM生成模型,优化涉及式(2)、式(4)、式(5)。在后一种情况下,式(2)还包括真值信号令牌序列。

3.1 MM IT 指令微调

        MM IT是一种方法,需要使用一组指令格式的数据集对预训练的MM-LLM进行微调。通过这个调优过程,MM-LLM可以通过遵守新的指令来推广到未见过的任务,从而提高零样本性能。这种直接而有影响力的概念催化了NLP领域后续努力的成功,例如InstructGPT 、OPT-IML 和in - structlip。

        MM IT包括监督微调(SFT)和从人类反馈中强化学习(RLHF),旨在与人类的意图或偏好保持一致,并增强MM-LLM的交互能力。

        SFT将部分PT阶段数据转换为指令感知格式。以视觉问答(QA)为例,可以使用各种模板,如(1)< image -age>{Question}问题的简短答案是;(2) <图片>检查图片,用一个简短的答案回答以下问题:{问题}。答:;等等......。接下来,它使用相同的优化目标对预训练的MM-LLM进行微调。SFT数据集可以构建为单回合QA或多回合对话。

        在SFT之后,RLHF涉及模型的进一步微调,依赖于MM-LLM响应的反馈(例如,手动或自动标记的自然语言反馈(NLF)) (Sun et al., 2023)。该过程采用强化学习算法对不可微NLF进行有效积分。该模型经过训练,在NLF条件下产生相应的响应(Chen et al., 2023h;aky<s:1> rek等人,2023)。

4. SOTA MM-LLMs

FlamingoBLIP-2LLaVAMiniGPT-4mPLUG-OwlX-LLMVideoChatInstructBLIPPandaGPTPaLI-x

Video-LLaMAVideo-ChatGPTShikraDLPBuboGPT ChatSpotQwen-VLNExT-GPT、MiniGPT-5

LLaVA-1.5MiniGPT-v2CogVLMDRESS、X-InstructBLIP、CoDi-2VILA

现有MM-LLM的趋势:

(1)从专注于MM理解逐渐发展为特定模态的生成,并进一步演变为任意到任意模态的转换(例如,MiniGPT-4→MiniGPT-5→NExT-GPT);

(2)从MM PT到SFT再到RLHF,训练流程不断完善,力求更好地符合人类意图,增强模型的对话交互能力(例如,BLIP-2→InstructBLIP →DRESS);

(3)采用多样化的模态扩展(例如,BLIP-2→X-LLM和InstructBLIP→X-InstructBLIP);

(4)结合更高质量的训练数据集(例如,LLaVA→LLaVA- 1.5);

(5)采用更高效的模型架构,从BLIP-2和DLP中复杂的Q-和P-Former输入投影机模块过渡到VILA中更简单但有效的线性投影机。

5. 基准与性能

列出了从各种论文中收集的18个VL基准中的主要MM-LLM。

从SOTA模型中提取出提高MM-LLM有效性的基本训练配方。

首先,更高的图像分辨率可以为模型包含更多的视觉细节,有利于需要细粒度细节的任务。例如,LLaVA-1.5和VILA的分辨率为336 × 336,而Qwen-VL和MiniGPT-v2的分辨率为448 × 448。然而,更高的分辨率会导致更长的令牌序列,从而产生额外的训练和推理成本。MiniGPT-v2通过在嵌入空间中连接4个相邻的视觉标记来减少长度来解决这个问题。最近,Monkey (Li et al., 2023h)提出了一种无需重新训练高分辨率视觉编码器即可提高输入图像分辨率的解决方案,该方案仅使用低分辨率视觉编码器,支持分辨率高达1300 × 800。为了增强对富文本图像、表和文档内容的理解,DocPedia 引入了一种将视觉编码器分辨率提高到2560 × 2560的方法,克服了开源ViT中表现不佳的低分辨率限制。其次,纳入高质量的SFT数据可以显著提高特定任务的性能,如将ShareGPT4V数据添加到llva -1.5和VILA-13B中,如表2所示。此外,VILA揭示了几个关键发现:(1)在LLM骨干上进行PEFT可以促进深层嵌层对准,这对ICL至关重要;(2)交错的图像-文本数据被证明是有益的,而单独的图像-文本对是次优的;(3)在SFT过程中,将纯文本指令数据(例如,非自然指令(Honovich et al., 2022))与图像文本数据重新混合,不仅可以解决纯文本任务的退化问题,还可以提高VL任务的准确性。

6.发展方向

我们可以从以下四个主要途径增强MM-LLM的能力:

(1)扩展模式:目前的MM-LLM通常支持以下模式:图像、视频、音频、3D和文本。然而,现实世界涉及更广泛的模式。扩展MM-LLM以适应额外的模式(例如,网页、热图和图表)将增加模型的多功能性,使其更普遍适用;

(2)多样化的LLM:纳入不同类型和规模的LLM,为从业者提供了根据具体要求选择最合适的LLM的灵活性;

(3)提高MM IT数据集质量:当前MM IT数据集有很大的改进和扩展空间。多样化的指令范围可以提高MM-LLM理解和执行用户命令的有效性。

(4)增强MM生成能力:目前大多数MM-LLM主要面向对MM的理解。尽管一些模型包含了生成MM的能力,但是生成的响应的质量可能受到ldm能力的限制。探索基于检索的方法的集成(Asai等人,2023)在补充生成过程方面具有重要的前景,可能会提高模型的整体性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3280728.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

Data Augmentation数据增强

目录 数据增强是什么 为什么数据增强 数组增强分类 有监督数据增强 无监督数据增强 数据增强是什么 数据增强又称数据扩增&#xff0c;是一种通过应用合理且随机的变换&#xff08;例如图像位移、旋转&#xff09;来增加训练集多样性的技术。让有限的数据产生等价于更多数…

Jenkins集成JDK、git、gitee、maven逐步实现自动拉取,自动部署,自动启动

1. jenkins集成JDK 成功登录Jenkins后&#xff0c;选择Manage Jenkins&#xff0c;选择Tools 集成JDK 2. jenkins集成git 因为Jenkins自动从git远程仓库拉取代码 首先要在Jenkins所在的linux服务器上安装git yum install -y git然后&#xff0c;实行集成JDK的第一步 配置g…

C#:枚举及位标志周边知识详解(小白入门)

文章目录 枚举为什么要有枚举?枚举的性质设置默认类型和显式设置成员的值 位标志(重要)位标记是什么及作用位标志周边知识HasFlag判断是否有该功能枚举前面加Flags的好处 关于枚举的更多知识using static简化代码获取枚举成员的字面量 枚举 为什么要有枚举? 为了增加代码的…

FlowUs息流作为一款技术驱动的笔记和知识管理平台,其核心功能和技术优势为新媒体行业带来了革命性的工作效率提升

FlowUs息流作为一款技术驱动的笔记和知识管理平台&#xff0c;其核心功能和技术优势为新媒体行业带来了革命性的工作效率提升。以下是对其技术特色的深入解析&#xff1a; 本地化技术优化&#xff1a;FlowUs息流通过深入研究中文用户的操作习惯&#xff0c;实现了界面的本地化设…

【WRF安装第二期(Ubuntu)】搭建WRF编译所需系统-系统环境检验

WRF安装第二期&#xff1a;搭建WRF编译所需系统-系统环境检验 0 升级和安装基础环境1 系统环境检验&#xff08;System Environment Tests&#xff09;1.1 检验和安装基础包1.1.1 安装指令1.1.2 检验指令 1.2 WRF安装的目录结构1.2.1 WRF系统环境测试 1.3 测试编译器&#xff0…

Python文件加密库之cryptography使用详解

概要 在现代信息社会中,数据的安全性变得越来越重要。为了保护敏感信息,文件加密技术被广泛应用。Python的cryptography库提供了强大的加密功能,可以轻松实现文件加密和解密。本文将详细介绍如何使用cryptography库进行文件加密,包含具体的示例代码。 cryptography库简介 …

模型剪枝综述

目录 1 深度神经网络的稀疏性&#xff1a; 2 剪枝算法分类&#xff1a; 3 具体的剪枝方法包括&#xff1a; 4 剪枝算法流程&#xff1a; 5 几种常见的剪枝算法&#xff1a; 6 结构化剪枝和非结构化剪枝各有其优缺点&#xff1a; 7 剪枝算法对模型精度的影响 8 影响剪枝…

《集成电路应用》是什么级别的期刊?是正规期刊吗?能评职称吗?

​问题解答 问&#xff1a;《集成电路应用》是不是核心期刊&#xff1f; 答&#xff1a;不是&#xff0c;是知网收录的第一批认定学术期刊。 问&#xff1a;《集成电路应用》级别&#xff1f; 答&#xff1a;国家级。主管单位&#xff1a;中国电子信息产业集团有限公司 主…

【错误总结】Ubuntu系统中执行 sudo apt-get update报错

Ubuntu系统中执行 sudo apt-get update报错 命令行描述升级sudo报错并解决错误描述错误解决原因1&#xff1a;系统网络问题 原因2&#xff1a;设置清华源后/etc/apt/sources.list不匹配原因3&#xff1a;ubuntu自带的源/etc/apt/sources.list有问题 apt-get update成功log参考 …

电脑的录屏功能在哪?精准操作,电脑录屏方法大揭秘

电脑的录屏功能已成为数字时代创作和分享的重要工具。然而&#xff0c;对于许多人来说&#xff0c;要找到电脑上的录屏功能可能并不容易。究竟它们隐藏在哪里&#xff1f;如何启用这个功能呢&#xff1f;这些问题可能会让人感到困惑。 本文将带您一起探索电脑上的录屏功能所在…

ip地址会因为位置不同而改变吗

在数字化时代&#xff0c;IP地址作为互联网用户的“数字指纹”&#xff0c;扮演着至关重要的角色。它不仅是设备接入网络的唯一标识&#xff0c;还常常与用户的地理位置紧密相连。然而&#xff0c;随着移动互联网的普及和人们日常活动的多样化&#xff0c;一个有趣的现象逐渐显…

【漏洞复现】泛微E-Cology9 WorkPlanService 前台SQL注入漏洞(XVE-2024-18112)

0x01 产品简介 泛微e-cology是一款由泛微网络科技开发的协同管理平台&#xff0c;支持人力资源、财务、行政等多功能管理和移动办公。 0x02 漏洞概述 该漏洞是由于泛微e-cology未对用户的输入进行有效的过滤&#xff0c;直接将其拼接进了SQL查询语句中&#xff0c;导致系统出…

Kafka的入门及简单使用

文章目录 前言一、Kafka 的基本架构&#xff1f;1. Producer&#xff08;生产者&#xff09;2. Broker&#xff08;代理/服务器&#xff09;3. Consumer&#xff08;消费者&#xff09;4. Consumer Group&#xff08;消费者组&#xff09;5. Topic&#xff08;主题&#xff09;…

openJdk21镜像打包制作

文章目录 一.目的&#xff1a;二.dockerfile 代码三.调试四.效果图五.声明 一.目的&#xff1a; 制作基于openjdk21的基础镜像&#xff0c;方便后续使用 内容&#xff1a; 1.使用的是Debian 11 slim 作为基础镜像&#xff08;在此感谢no name大佬提醒我alpine做为基础镜像不稳…

TypeScript 与 JavaScript 的对比区别

还是大剑师兰特&#xff1a;曾是美国某知名大学计算机专业研究生&#xff0c;现为航空航海领域高级前端工程师&#xff1b;CSDN知名博主&#xff0c;GIS领域优质创作者&#xff0c;深耕openlayers、leaflet、mapbox、cesium&#xff0c;canvas&#xff0c;webgl&#xff0c;ech…

保研408真题练习:2009年全国硕士研究生入学统一考试(单选篇1)

&#x1f9ca;&#x1f9ca;&#x1f9ca;单项选择题&#xff08;共40道&#xff09; &#x1f9ca;数据结构&#xff08;10道&#xff09; &#x1f965;1.打印机的缓冲区逻辑结构 栈&#xff1a;先进后出&#xff1b; 队列&#xff1a;先进先出。 缓冲区的作用是解决主机…

EasyExcel 初使用—— Java 实现多种写入 Excel 功能

前言 大家好&#xff0c;我是雪荷。之前有一篇博客&#xff08;EasyExcel 初使用—— Java 实现读取 Excel 功能_java easyexcel.read-CSDN博客&#xff09;介绍了 Java 如何读取 Excel 表格&#xff0c;那么此篇博客就和大家介绍下 Java 如何利用 EasyExcel 写入 Excel。 Ea…

基于PHP+MySQL组合开发的微信活动投票小程序源码系统 带完整的安装代码包以及搭建部署教程

系统概述 在当今数字化时代&#xff0c;微信作为社交媒体的巨头&#xff0c;为企业和个人提供了丰富的互动营销平台。其中&#xff0c;投票活动作为一种有效的用户参与和互动方式&#xff0c;被广泛应用于各种场景。为了满足这一需求&#xff0c;我们推出了一款基于PHPMySQL组…

【原创教程】电气电工主要做什么?(入门篇)

本系列文章主要介绍工业电气电工所涉及到的操作技能&#xff0c;器件原理&#xff0c;图纸识别&#xff0c;以及电气电工质量管理。掌握本系列的技能&#xff0c;将能够胜任电气自动化方面的电气电工工作。 电气电工&#xff0c;它是一个细分领域&#xff0c;是目前许多公司迫…

【Python系列】Python 中`eval()`函数的正确使用及其风险分析

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…