（MLLMs）多模态大模型论文分享（1）

Multimodal Large Language Models: A Survey

摘要：多模态语言模型的探索集成了多种数据类型，如图像、文本、语言、音频和其他异构性。虽然最新的大型语言模型在基于文本的任务中表现出色，但它们往往难以理解和处理其他数据类型。多模态模型通过结合各种模态来解决这一限制，使人们能够更全面地理解不同的数据。首先定义了多模态的概念，回顾了多模态算法的历史发展。此外，我们推出了一系列多模态产品，专注于主要技术公司的努力。提供了实用指南，对多模态模型的技术方面提供了见解。汇编了最新的算法和常用的数据集，为研究人员的实验和评估提供了宝贵的资源。最后，探讨了多模态模型的应用，并讨论了其发展所面临的挑战。通过解决这些方面的问题，旨在促进对多模态模型及其在各个领域的潜力的更深入的了解。

关键词：模态，语言模型，多模态模型，大型模型，综述

1介绍

多模态模型结合了多种数据类型，包括图像、文本、音频等。传统的大型语言模型(LLM)主要训练和应用于文本数据，但它们在理解其他数据类型方面有局限性。纯文本LLM，如GPT-3， BERT和RoBERTa，在文本生成和编码等任务中表现出色，但它们缺乏对其他数据类型的全面理解和处理。为了解决这个问题，多模态LLM集成了多种数据类型，克服了纯文本模型的限制，并为处理不同数据类型开辟了可能性。GPT-4是多模态LLM的一个很好的例子。它可以接受图像和文本形式的输入，并在各种基准测试中展示了人类水平的性能。多模态感知是实现通用人工智能的一个基本组成部分，因为它对知识获取和与现实世界的交互至关重要。此外，多模态输入的应用极大地扩展了语言模型在高价值领域的潜力，如多模态机器人、文档智能和机器人技术。研究表明，对多模态感知的原生支持为将多模态LLM应用于新任务提供了新的机会。通过广泛的实验，与单模态模型相比，多模态LLM在常识推理方面表现出了优越的性能，突出了跨模态迁移对知识获取的好处。

近年来，多模态模型的发展展示了更多的应用可能性。除了文本生成模型，多模态模型在人机交互、机器人控制、图像搜索和语音生成等领域的应用也越来越广泛。然而，将LLM的能力迁移到多模态文本和图像领域仍然是一个活跃的研究领域，因为puretext LLM通常只在文本语料库上进行训练，缺乏对视觉信号的感知能力。多模态模型有几篇综述，但每篇文章都有不同的重点，且缺乏对多模态模型的发展过程和实际应用的概述。本文旨在通过多模态的基本定义来解决这一差距，综述多模态算法的历史发展，并讨论了该领域的潜在应用和挑战。

本文贡献：

首先定义了多模态模型/算法的概念，然后深入研究了多模态算法的历史发展。
提供了与多模态模型相关的各种技术方面的实用指南，包括知识表示、学习目标选择、模型构建、信息融合和提示的使用。
回顾了多模态模型中使用的最新算法，以及常用的数据集。这为今后的研究和评价提供了基础资源。
探索了多模态模型的几种应用，并讨论了其当前发展中产生的几个关键挑战。

本文的其余部分组织如下:在第二节中，我们讨论了多模态的相关概念。在第三部分，我们指出了技术要点的实践指导。在第四节中，我们组织了相关的模型。在第五节中，提出了多模态和各种类型数据集的几个有希望的方向，并强调了第六节中的挑战。

2 相关概念

2.1 多模态

多模态是指通过多种模态来表达或感知复杂的事物，如图1所示。

多模态可以分为同质模态(如从两个不同的相机拍摄的图像)和异质模态(如图像和文本语言之间的关系)。多模态数据，从语义感知的角度来看，是指将视觉、听觉、触觉、嗅觉等多种感觉模态的信息进行整合，形成对环境的统一且有意义的表示。从数据的角度来看，多模态数据可以看作是不同数据类型的组合，如图像、数值数据、文本、符号、音频、时间序列，或者由集合、树、图等组成的复杂数据结构，甚至是来自不同数据库或知识库的各种信息资源的组合。对异构数据源的探索和分析可以理解为多模态学习。使用多模态数据可以更全面和整体地表示事物，使多模态研究成为一个重要的研究领域。利用多模态方法，在情感分析、机器翻译、自然语言处理和前沿生物医学研究等领域取得了重大突破。

2.2 发展历程

在多模态研究的发展过程中，可以识别出四个不同的阶段，如图2所示。

图2:多模态研究的四个不同阶段

2.2.1 单模态(1980-2000)

它的特点是依赖基本的计算能力。在20世纪80年代，统计算法和图像处理技术被用于人脸识别系统。这项工作为该领域的早期方法奠定了基础。同时，IBM的研究团队在语音识别方面做出了重大贡献，如使用隐马尔可夫模型(hidden Markov models, HMMs)，提高了语音识别技术的准确性和可靠性。90年代取得了进一步的进展。Kanade的团队开发了用于人脸识别的特征脸方法。该方法利用主成分分析(PCA)提取人脸特征，并基于人脸图像的统计模式进行个体识别。Dragon Systems等公司专注于推进语音识别系统，开发能够将口语转换为书面文本的技术，提高准确性。

2.2.2 模态转换(2000-2010)

模态融合(2010-2020)。在这一阶段，深度学习技术和神经网络的集成导致了该领域的显著进步。2011年，Ngiam提出了一种开创性的多模态深度学习算法。该算法通过实现图像和文本等多种模态的融合和分析，在该领域发挥了至关重要的作用。它促进了来自不同模态的特征的联合学习，并有助于提高在图像分类、语音识别和视频分析等任务中的性能。2012年，基于深度玻尔兹曼机(deep Boltzmann machines, DBMs)的多模态学习算法[20]旨在建模不同模态之间的依赖和交互。利用深度学习和DBMs的生成式建模能力，可以捕获模态之间的复杂关系，提高对复杂多模态数据的理解和表示。2016年，引入了一种具有语义注意力的神经图像描述算法，彻底改变了图像处理和描述的方式。该算法具有为图像生成描述性标题的功能，实现了图像的自动理解和解释。通过将计算机视觉技术与深度神经网络相结合，该算法可以分析图像的视觉内容并生成类似人类的描述，改善无障碍环境，并使自动图像标记、图像搜索和视障人士辅助技术等应用成为可能。

2.2.3 大规模模型(2020起）

大规模模型的快速发展为多模态算法提供了新的机遇。2021年，CLIP模型被引入。通过打破固定类别标签的传统范式，CLIP解放了组装具有预定类别计数的大规模数据集的负担。相反，CLIP增强了图像-文本对的集合，并利用无监督技术来预测它们的相似性或生成它们。在2022年，OpenAI中的产品DALL-E 2利用了以CLIP图像嵌入为条件的扩散模型。它可以根据文本提示生成高质量的图像和艺术品。微软还推出了BEiT-3 (BERT预训练图像transformer)。BEiT- 3采用共享的多路transformer结构，通过掩码数据完成预训练。它可以迁移到视觉和视觉语言的各种下游任务。2023年，KOSMOS-1由微软发布。KOSMOS-1是一种前沿的多模态LLM，具有令人印象深刻的一系列能力，包括处理和整合来自不同模态的信息，精确遵循指令，并通过上下文学习适应新的上下文的能力。该模型融合了语言和感知，使其能够看和说，使其能够熟练地完成视觉对话、图像描述和零样本图像分类等任务。另一个值得注意的模型，即PaLM- e，结合了高级语言和视觉模型，如PaLM和ViT-22B。他们可以在目标检测和场景分类等视觉任务中表现出色，同时也在语言任务中表现出熟练程度，例如生成代码和解决数学方程。PaLM-E在没有特定任务微调的情况下提供了一个新的视觉语言性能基准。

3 技术要点实用指南

多模态大型模型的技术要点包括但不限于知识表示、学习目标选择、模型构建、信息融合、提示运用等，如图3所示

图3:多模态模型的技术要点

3.1 知识表示

文本和图像都需要标记化和嵌入。标记是模型的基本输入单位，而嵌入是用于计算的标记的向量表示。

在文本的情况下，Word2Vec通常用于分词，包括一些方法，如CBOW和Skip-gram。尽管Word2Vec的计算效率很高，但它受到词汇表的限制。因此，子词标记化方法，如字节对编码，将单词划分为更小的单位。这种方法已经应用于各种transformer模型，如BERT。

相比之下，图像标记化比文本更复杂。算法可以分为三类，包括基于区域的、基于网格的和基于块的。基于区域的方法利用预训练的目标检测器来提取特征。基于网格的方法直接应用卷积神经网络从图像中提取基于网格的信息。而基于块的方法涉及将图像划分为较小的块，并从这些块中提取线性投影。根据仪表模型的数据，优化视觉特征侧比优化文本侧对结果的影响大得多。在多模态预训练模型的构建中，视觉特征的嵌入层数或复杂度超过文本特征，突出了视觉信息的重要性。多模态模型可以从视觉特征中学习更多的知识。

3.2 学习目标的选择

它在多模态预训练中至关重要。目前，多模态预训练中常见的学习任务包括图像-文本对比(ITC)、掩码语言建模(MLM)、掩码视觉建模(MVM)和图像-文本匹配(TM)。ITC涉及通过对比学习构建正样本和负样本对来对齐图像和文本。此外，通过利用MLM和MVM技术，可以学会从语言知识和视觉线索的结合中重构被掩盖的语言token，从而推断语言和视觉数据之间的微妙联系。这样可以提高其理解和生成多模态内容的能力。TM可以看作是一个二分类任务，旨在预测图像和文本对是否匹配。综合使用不同的学习目标可以提升多模态模型的性能。例如，在UNITER模型中，纳入更多的学习目标通常会带来更好的结果。UNITER利用多个学习目标，如MLM和ITC，并在各种专业场景中表现良好。然而，使用过多的学习目标可能并不总是产生良好的效果。这在仪表上的实验中得到了验证。

3.3 模型构建

根据模型结构的不同，多模态模型可分为纯编码器模型和编码器-解码器模型。

纯编码器模型仅利用Transformer的编码器部分。多模态输入直接由编码器处理以产生输出。纯编码器模型的常见示例包括CLIP和ALBEF，它们适用于像imagetext检索这样的任务，但不适合像图像描述这样的任务。

编码器-解码器模型包含了Transformer的编码器和解码器部分。解码器接收之前生成的token和它自己的输出，以自动回归生成输出序列。编码器-解码器模型，如T5和SimVLM，利用了解码器的能力，适合于生成任务，但可能不太适合图像-文本检索等任务。

3.4 信息融合

在对不同模态进行单独编码后，需要设计一个多模态编码编码器。根据融合方式的不同，多模态模型可分为融合编码器模型和双编码器模型。

融合编码器利用融合方法进行模态间的交互。通过自注意力或交叉注意力操作，融合编码器生成模态的融合表示。融合方法主要包括单流融合方法和双流融合方法。单流方法假设两模态之间存在简单的对齐或相关性，在连接前直接将自注意力机制应用于模态。双流模型假设模态内和跨模态交互应该分别建模，以使用交叉注意力机制获得更好的多模态表示。融合编码器在不同层次上对跨模态交互进行建模，并在某些推理任务中取得了良好的性能。然而，在imagetext检索等任务中，对所有图像-文本对的交互进行编码会导致推理速度慢。

双编码器采用单独的单模态编码器对两种模态进行编码。在充分编码后，使用简单的点积或浅层注意力层来计算它们之间的相似度得分，而不依赖复杂的Transformer结构。融合编码器适用于推理任务，双编码器适用于检索任务。因此，本文结合不同的模型架构或信息融合方法来增强多模态模型的能力。这也是实现多模态统一背后的机制。例如，VLMO采用"三位专家"的方法，在纯图像、纯文本和imagetext数据上进行预训练，以处理不同模态，并在推理和检索等任务中取得了良好的性能。

3.5 提示运用

提示方法主要用于缩小下游任务中的预训练和微调之间的差距。通过修改下游任务的模板，提示旨在最小化预训练和微调之间的差异，从而降低微调成本并提高模型在下游应用中的性能。它具有处理零样本或小样本数据的能力，在各种LLM中被广泛采用。提示方法在多模态预训练任务中也起着至关重要的作用。例如，在visual ChatGPT中，使用提示管理器来生成信息丰富的提示，以促进ChatGPT对相关图像的理解和生成。在CLIP中，提示方法被应用于零样本任务中，通过为文本生成有信息量的提示，从而提高了性能。

4 算法实用指南

多模态网络中的算法可分为基础模型和大规模多模态预训练模型两类。基础模型是多模态的基本框架。在此基础上，改进了许多新的大规模多模态预训练模型。

4.1 基础模型

4.1.1 Transformer

该模型于2017年提出，打破了传统的深度学习模型，在机器翻译任务中取得了良好的性能。它因能够在大规模语料库上进行自监督预训练和随后对下游任务进行微调而受到关注。许多预训练的大规模模型都遵循这种范式。Transformer的权值共享特性，与输入序列长度无关，使其适用于多模态应用。模型中的某些模块可以共享权重参数。Transformer中的权重共享概念源于这样一个事实，即自注意力模块和前馈神经网络都不受输入序列长度的影响。这种权重共享的概念也可以应用于多模态模型。例如，在涉及图像和文本的多模态设置中，从图像训练中学习到的权重参数可以用于文本训练，并且结果仍然有效，有时甚至不需要微调。

4.1.2 VIT

在自然语言处理(NLP)领域中，Transformer模型以其自关注机制表现出的优异性能引起了计算机视觉领域的广泛关注。许多研究已经开始将Transformer机制纳入计算机视觉任务。然而，Transformer在输入数据大小方面有限制，需要仔细考虑输入策略。谷歌从之前的工作中汲取灵感，提出了视觉transformer (vision transformer, ViT)模型，由强大的计算资源赋予能力。ViT模型通过将图像分割为小块(例如，将图像分割为16个小块)来解决输入大小的限制。然后，这些块被处理并转换为Transformer可以通过线性映射处理的输入。这一突破弥合了计算机视觉和NLP之间的差距。ViT不仅使Transformer能够处理图像，而且与以前的方法相比，还引入了更有效的图像特征提取策略。

4.1.3 BEiT

如果说ViT可以看作是Transformer模型在计算机视觉中的自适应，那么BEiT可以看作是BERT模型在计算机视觉中的自适应。生成式预训练是自监督学习中的一种重要方法和训练目标，模型学习如何在不依赖标签或人工标注的情况下生成数据。生成式预训练在自然语言处理中取得了显著的成功。

BEiT解决了计算机视觉生成式预训练中的两个关键挑战。

第一个挑战是如何将图像信息转换为类似于NLP的离散标记。BEiT采用离散视觉嵌入聚合方法对图像进行离散化。
第二个挑战是如何将图像信息有效地纳入预训练过程。BEiT利用成熟的ViT结构来处理图像信息。

通过解决这两点，BEiT成功地将掩码语言建模(MLM)和掩码图像建模(MIM)方法应用于计算机视觉领域，将生成式预训练带入计算机视觉领域，并实现大规模自监督预训练。

4.2 大规模多模态预训练模型

4.2.1 Visual ChatGPT

该模型集成不同的视觉基础模型(VFMs)来处理各种视觉任务，如图像理解和生成。这使得用户不仅可以发送和接收语言，还可以接收图像，从而实现复杂的视觉问题和指令，这些问题和指令需要多个人工智能模型的多步骤协作。该系统还引入了Prompt Manager，它有助于利用VFMs，并以迭代的方式接收它们的反馈。此迭代过程持续进行，直到系统满足用户的要求或达到终止条件。通过提示向ChatGPT中注入视觉模型信息，使视觉特征与文本空间对齐，增强ChatGPT的视觉理解和生成能力。视觉ChatGPT具有处理语言和图像之外的模态的能力。虽然该系统最初专注于语言和图像，但它为合并其他模式(如视频或声音)提供了可能性。这种灵活性消除了每次引入新的模态或函数时都需要训练一个全新的多模态模型的需要。

4.2.2 MM-REACT

该模型将ChatGPT与各种视觉模型相结合，以实现多模态任务，主要通过VQA格式进行演示。在回答问题时，ChatGPT利用可视化模型作为工具，根据具体问题来决定是否使用可视化模型。该系统与之前使用字幕模型和语言图像模型进行VQA的工作有相似之处。在这些方法中，标题模型将图像转换为文本，然后被一个更大的模型用作证据来生成答案。然而，MM-REACT在自主决定是否调用可视化模型的能力上有所不同。

4.2.3 Frozen

该模型引入了将LLM用于多模态上下文学习的新概念。具体方法包括使用视觉编码器将图像转换为嵌入。然后将这些嵌入与文本连接，创建一个集成两种模式的组合数据格式。随后，该模型使用自回归方法来预测下一个token。在整个训练过程中，LLM保持冻结，而视觉编码器是可训练的。这使得最终模型能够保留其语言建模能力，同时获得在多模态环境中进行上下文学习的能力。

4.2.4 BLIP-2

采用与Flamingo相似的方法编码图像，利用Qformer模型提取图像特征。Qformer扮演的角色类似于Flamingo的perceiver resampler。该模型通过交叉注意力促进了图像-文本交互。在训练过程中，BLIP-2冻结了视觉编码器和llm，只对Qformer进行微调。然而，在对特定的下游任务数据集进行微调时，BLIP-2解锁视觉编码器并与Qformer一起进行微调。BLIP-2的训练过程分为两个阶段。

只有Qformer和视觉编码器参与培训。它们使用经典的多模态预训练任务进行训练，如imagetext匹配、对比学习和以图像为基础的文本生成。这个阶段使Qformer能够学习如何从视觉编码器中快速提取与文本相关的特征。
将Qformer编码的向量插入到LLM中以生成标题。BLIP-2在VQA的零样本和微调场景中都表现出了很好的性能。对于同一任务，跨不同数据集具有良好的可迁移性。

4.2.5 LLaMA-Adapter

该模型通过插入适配器在LLaMA中引入高效的微调，可以扩展到多模态场景。适配器是适配提示向量，作为可调参数连接到Transformer的最后一层。当应用于多模态设置时，图像首先使用冻结的视觉编码器编码为多尺度特征向量。然后，在将这些向量元素添加到自适应提示向量之前，通过连接和投影操作对这些向量进行聚合。

4.2.6 MiniGPT-4

它是基于BLIP-2和Vicuna组合的GPT-4某些功能的复制。它直接从BLIP-2传输Qformer和视觉编码器，并将它们与LLM一起冻结，只在视觉侧留下一个线性层进行微调。这种可调参数的压缩导致模型大小为15 m。此外，采用了两阶段的微调策略。

训练任务采用字幕生成。该模型生成多个标题，然后使用ChatGPT对这些标题进行改写，以创建详细、生动的描述。
构建一组高质量的图像-文本对进行进一步微调。这组图像-文本对用于改进模型。

4.2.7 LLaVA

和MiniGPT-4类似，该模型旨在实现多模态指令微调。然而，它们在数据生成和训练策略方面存在差异，这导致了LLaVA模型的开发。在数据生成中，LLaVA利用GPT-4创建各种指令微调数据，包括多轮QA、图像描述和复杂推理任务。这确保了模型能够处理广泛的查询。由于目前GPT-4的接口只接受文本输入，图像信息需要转换为文本格式。该研究使用COCO数据集中为每个图像提供的五个标题和边界框坐标作为输入GPT-4的文本描述。关于训练策略，LLaVA采用两个步骤：

使用根据特定规则从cc3m数据集中过滤的60万对图像-文本对模型进行微调。微调过程冻结了视觉和语言模型，只关注线性层的微调。
采用上述数据生成策略，生成了16万个指令微调数据样本。然后使用语言模型损失进一步微调模型。在此阶段，视觉模型被冻结，线性层和语言模型都被微调。

4.2.8 PICa

PICa是使用LLM解决VQA任务的首次尝试。它的目标是使LLM能够理解和处理图像信息。为了实现这一目标，之前的研究采用了标题模型将图像转换为相应的文本描述。然后，将标题和问题一起输入到GPT-3中，形成一个三元组(问题、标题、答案)，并利用上下文学习训练GPT-3回答新问题。在少样本的上下文学习场景中，PICa取得了比Frozen更好的性能，但仍然低于Flamingo。这是因为在将图像转换为标题的过程中视觉信息的丢失。视觉信息在回答问题中起着至关重要的作用，而将图像转换为文本的过程不可避免地会导致视觉细节和语义的损失，限制了模型的性能。

4.2.9 PNP-VQA

PNP-VQA利用标题模型和预训练语言模型(PLM)来解决VQA任务。然而，它与PICa在选择PLM方面有所不同，因为它采用了一种名为UnifiedQAv2的问答模型。PNP-VQA专注于实现零样本VQA能力。为了解决标题信息中图像信息丢失的问题，PNPVQA在生成标题信息之前引入了图像-问题匹配模块。该模块识别图像中与给定问题最相关的补丁。然后专门为这些选定的补丁生成标题。这些标题-补丁对，连同原始问题，被用作上下文并输入UnifiedQAv2模型。该方法通过将相关图像块合并为上下文，确保生成的标题与问题密切相关。PNP-VQA通过引入图像-问题匹配模块，利用UnifiedQAv2作为PLM，旨在提高VQA中生成的描述的相关性和准确性。这种策略允许模型有效地利用图像和问题信息，以生成更与上下文相关的答案。

4.2.10 Img2LLM

旨在解决将LLM用于VQA任务时的两个主要挑战。

模态断开，LLM无法有效处理视觉信息
任务断开，通过文本生成进行预训练的LLM很难在没有微调的情况下利用VQA的标题。为了克服这些挑战，作者提出通过(问题，答案)对传递视觉信息。

具体来说，该方法涉及使用标题模型或类似于PNP-VQA的方法为图像生成标题。从这些标题中提取相关的单词，如名词和形容词，这些单词可能作为某些问题的答案。然后，使用问题生成模型生成相应的问题，从而创建(问题-答案)对。这些对作为上下文学习的示范，帮助LLM回答关于给定图像的问题。通过(问题-，答案)对传输视觉信息，Img2LLM解决了模态断开和任务断开的问题，使LLM更好地利用视觉信息进行VQA任务。

5 各种任务的实践指南

5.1 图像标注

图像标注是一项涉及为给定图像生成简短文本描述的任务。它是一个多模态任务，处理由图像和短文本描述组成的多模态数据集。多模态翻译任务具有开放性和主观性，因此生成的内容不具有唯一性。这项任务的目标是将视觉表示转换为文本表示，以解决翻译挑战。将视觉模态转换为文本的模型需要捕捉图像的语义信息，并需要检测目标的关键对象、动作和特征。此外，它还应该推断出图像中物体之间的关系。图像描述可以用来为图像提供文本替代，这对盲人和视障用户()特别有帮助。通过生成简短的文本描述，这些用户可以更好地理解和感知图像的内容。它为他们提供了与视觉世界互动的机会，提高了他们的体验和参与度。

5.2 文本图像生成

文本到图像生成确实是多模态学习最流行的应用之一。它解决了将文本转换为图像的挑战。OpenAI的DALL-E2和谷歌的Imagen等模型在该领域取得了重大突破，引起了广泛关注。这些模型的工作可以是图像描述的逆过程。通过提供简短的文本描述作为提示，文本到图像模型可以生成准确反映文本语义的新图像。最近，也出现了文本到视频模型。这些模型具有广泛的应用。它们可以协助照片编辑和平面设计，同时也为数字艺术提供灵感。它们为用户提供了一种直接将文本转化为视觉内容的工具，推动创意产业的发展与创新。这些技术的进步为创建和理解图像提供了新的可能性。

5.3 手势、手语识别

这项任务的目标是识别手语手势并将其转换为文本。手势可以通过摄像头捕捉到。为了准确识别手势，必须将相应的音频和两种模态对齐。手语识别是一项基于对齐方法的任务，因为它需要模型对齐视觉的时间信息(如视频帧)和音频模态(如音频波形)。这涉及到调整视频帧和音频波形之间的时间，以识别手势和相应的口语。

一个常用的用于手语识别的开源数据集是RWTH PHOENIX Weather 2014T数据集，它包含来自不同签名者的德语手语视频记录。该数据集同时提供了视觉和音频模态，非常适合依赖对齐方法的多模态学习任务。通过对齐视频和音频的时间信息，模型可以同时利用视觉和音频特征进行手语识别，从而提高识别的准确性和有效性。

5.4 情感识别

虽然只能使用单模态数据集进行情感识别，但使用多模态数据集作为输入可以提高性能。多模态输入可以采用视频、文本和音频的形式，也可以结合传感器数据(如脑波数据[54])。一个真实的例子是音乐中的情感识别。在这项任务中，模型需要使用音频特征和歌词来识别音乐的情感内容。在这种情况下，采用后期融合方法是合适的，因为它结合了在单个模态(如音频特征和歌词)上训练的模型的预测，以生成最终预测。DEAM数据集是专门为支持音乐情感识别和分析研究而设计的。它包括音频功能和歌词超过2000首歌曲。音频特征包含各种描述符，如MFCC、频谱对比和节奏特征，而歌词则使用词袋和词嵌入等技术来表示。

5.5 视频处理

在视频和音频领域，多模态融合也是一个不断发展的趋势。随着图像-文本多模态模型向视频-文本和音频-文本多模态领域的迁移，涌现出一系列具有代表性的模型。

用于图像-文本域的VideoCoCa模型。
CLIP模型促进了视频剪辑模型的发展。统一多模态大型模型的出现也推动了视频处理领域的进步
阿里巴巴的mplug 2在视频相关任务中表现出了令人印象深刻的性能，例如视频问答和视频字幕。
谷歌的MusiclM由于可以基于文本输入生成音乐，在音频多模态领域获得了识别。

此外，视频和音频领域还涉及一系列其他多模态任务。视听语音识别是对人的特定视频和音频进行语音识别的任务。视频声源分离是指在给定的视频和音频信号中定位和分离多个声源。从音频生成图像是指生成与给定声音相关的图像。语音条件人脸生成涉及根据给定的语音语句生成说话人的视频。有一些任务，如音频驱动的3D人脸动画，可以根据给定的语音生成说话人的3D人脸动画，以及3D人脸模板。

5.6 更智能的数字化人类

AIGC技术在数字化人类的发展中发挥了重要作用，简化了过程，提高了开发效率。像Meta和NVIDIA这样的公司已经推出了产品来帮助用户创建3D数字人类，NVIDIA的万能化身就是一个例子。用户可以通过上传照片、视频或音频来创建数字人，这在效率和成本效益方面具有优势。具体而言，自然语言生成技术影响人机交互中的内容质量，而计算机视觉技术影响数字人类的面部表情和肢体动作，如唇同步。AIGC技术的不断进步使高质量的人机交互成为可能。AIGC为人工智能驱动的数字人类提供智能发展，在多模态交互中提供识别、感知、分析和决策能力。

5.7 数据实用指南

多模态数据集在推进视觉和语言任务的研究方面发挥着至关重要的作用。这些数据集结合了不同的模态，如图像、文本、视频和音频，为各种应用提供了丰富多样的信息源。将多模态数据集分类为不同的类型，并为每个类别提供了有代表性的数据集的精选，如表II所示。在未来的研究中，我们可以使用这些数据集进行实验来测试模型的有效性。

6 挑战

为了进一步提高多模态应用的性能，还需要关注一些基础问题，包括但不限于:

6.1 模态扩张

传感器和数据源多样，可以获取丰富的信息，从而实现更全面、准确的分析和识别。例如，在情感计算领域，模态扩展涉及利用音频、面部表情、心电图(electrocardiography, ECG)、脑电图(electroencephalography, EEG)等多种模态来更全面地理解和识别人的情感状态。音频模态可以捕捉说话人的语调和语速的变化；视觉模态可以分析面部表情和肢体语言；心电图和脑电图可以提供与情绪变化相关的生理信号。此外，医学成像领域涉及多种模式，如CT扫描、mri和PET。例如，CT扫描可以提供有关组织结构和病变的详细信息；MRI可以观察组织的解剖结构和功能;PET可用于检测代谢和生物标志物的分布。通过结合不同模态的图像数据，医生和研究人员可以获得更全面和准确的医疗信息，以支持精准的诊断和治疗决策。

6.2 耗时的问题

对于优化培训架构和提高训练时间,大型模型对人工智能系统有重大影响。首先,由于模型的巨大规模,计算可能需要在集群中分布。其次,多用户和多任务场景是常见的,需要支持多租户。此外,高可靠性是必要的,要求模型具有动态容错能力。需要结合多种骨干模型。虽然多元模态LLMs在各个领域取得了巨大的成功,但它们的计算需求对模型培训造成了重大挑战。我们如何加速模型训练?我们可以动态地为两个高速连接的数据中心分配不同架构的多个模型。在培训和推理过程中,路径通过分组调度动态地调度模型,支持能力,如共享计算、共享权重和动态路由。

6.3 终身学习

当前的经典方法是在给定数据集上运行AI算法，建立一个模型，然后将该模型应用于实际任务。这被称为孤立学习，并导致算法没有记忆能力的缺点。因此，模型或算法并不会保留所学的知识，然后不断地将其应用到未来的学习中。对于实际应用，而不是孤立的任务，多模态大型模型需要终身学习或持续学习的能力。我们应该建立一个具有持续学习能力的LLM，可以根据自身的经验对世界进行复杂的理解，从而利用更复杂的知识进行自主渐进的训练和改进。

6.4 面向AGI

在通往人工通用智能(AGI)的道路上，我们仍然面临许多机遇和挑战。例如，灾难性遗忘问题[73]是指最初为语言任务训练的神经网络及其相关权重被重新用于其他任务，导致网络忘记其初始训练目标的现象。在这种情况下，大型模型可能会失去其原始的语言能力，从而导致衰退。例如，在转向基于机器人的应用程序时的语言能力。最近的研究，如BLIP-2, KOSMOS-1, BEiT-3和PaLI强调了解决这个问题的两种可行方法:i)通过使用更小的网络和用新数据从头开始重新训练来避免灾难性遗忘;Ii)通过使用更大的语言网络作为骨干来规避灾难性遗忘。请注意，在追求AGI时还存在其他挑战，包括多模态融合、多模态对齐、联合学习和模型即服务(MaaS)。

7 总结

多模态模型的进步为人工智能开辟了新的途径，使二进制机器能够理解并处理不同的数据类型。在不久的将来，多模态模型将导致更全面和智能的系统。我们对多模态模式的发展进行了全面的探索。首先介绍了多模态的概念，然后梳理了多模态算法的历史发展;然后，讨论了主要技术公司在开发多模态产品方面的努力，并对多模态模型的技术方面提出了见解。我们还介绍了一些常用数据集的汇编，这些数据集可以提供有价值的实验和评估资源。最后指出了多模态模型发展面临的挑战，并对未来的研究方向进行了展望。通过解决这些问题，旨在加深对多模态模型及其在各个领域的潜在特性的理解。