遥遥领先的大语言模型GPT-4的图像合成能力如何?

遥遥领先的多模态大语言模型GPT-4的图像合成能力如何?今天分享一个建立了一个用于评估GPT-4生成图像中纹理特征保真度的基准,其中包括手工绘制的图片及其AI生成的对应物。本研究的贡献有三个方面:首先,对基于GPT-4的图像合成特征的保真度进行了深入分析,这是对这一最先进模型的首次研究。其次,定量和定性实验充分揭示了GPT-4模型在图像合成方面的局限性。第三,编制了一个独特的手工绘图和相应的GPT-4生成图像的基准,引入了一个新的任务来推动AI生成内容(AIGC)的保真度研究。

数据集下载链接:

https://github.com/rickwang28574/DeepArt。

介绍

由GPT-4代表的多模态大语言模型(LLMs)展示了通过文本提示生成相应合成图像的强大功能。它们可以解释用户提供的文本描述,并将其转换为视觉表示。其强大的生成能力和易于操作性使其广泛应用于许多领域,包括但不限于绘画创作、产品设计、人机交互、医学分析等。然而,其强大的生成能力仍然存在许多缺陷,往往容易在不同程度上丢失、扭曲和伪造纹理特征。虽然有几项研究调查了人工智能生成的图像与自然或人工创建的图像之间的差异,但大多数研究主要集中在特定的图像生成模型如Stable Diffusion。与特定的生成网络不同,GPT-4在现代社会的日常生活中具有更广泛的应用,因此有必要对其图像生成能力进行更深入的研究,以满足社会需求和趋势。然而,现有的工作目前主要集中在探索GPT-4的生成能力的广度,即探索其在各种应用场景中的表现。相反,对于GPT-4生成图像中纹理特征的保真度的研究仍然较少。

一个非常直观的解决方案是将自然或制造的图像与GPT-4生成的图像进行比较。然而,对这种方法的评估必须根据具体的基准进行。值得注意的是,目前用于评估大型多模态模型(如GPT-4)性能的类似基准有限。事实上,以GPT-4为代表的各种大型多模态模型可以大量生成合成图像。获取足够的合成图像并不是一项具有挑战性的任务。然而,需要注意的是,这些大型模型的图像生成能力依赖于广泛的数据预训练,因此生成的模型图像往往具有显著的随机性。这种固有的随机性可能会导致难以在模型生成的样本和真实世界图像之间建立清晰的对应关系,这将在研究中引入一定的不确定性。

为了解决这一问题,本文首先引入了一个原始的基准,其中包括手绘图像。这批手绘图像来自著名画家丰子恺。这些图像代表了真正的人类艺术表达,具有很高的艺术水平,可通过Open Access Program获得,并且可以在合法的前提下用于研究目的。然后,作者提出了一种基于GPT-4的“编码-解码”映射方法,利用这种方法创建与原始数据相对应的合成数据,从而形成了一对对应且有意义的人造数据和生成图像。到目前为止,已成功开发和定义了一个新颖的数据基准:DeepArt。最后,本文对DeepArt基准进行了初步的定量和定性评估,并提出了GPT-4所代表的多模态大型模型中“图像保真度”的新挑战。

本研究主要贡献有四个方面:

● 本文是第一个研究基于当前最先进的大语言模型GPT-4的图像合成特征保真度的研究。以手绘图像为起点,深入探讨了基于GPT-4生成的图像与人工图像之间的特征差异。

● 提出了一种基于GPT-4的“编码-解码”映射方法,利用这种方法创建与原始数据相对应的合成数据。这种方法具有很高的可扩展性,并且可以用作生成其他类型数据样本的参考。

● 定量和定性实验反映了GPT-4大语言模型在图像合成方面的不足,并展示了本文定义的基准和任务中“图像保真度”的新挑战。

● 收集并构建了一组人造图像和相应的GPT-4生成图像的数据集。提供开放访问链接:https://github.com/rickwang28574/DeepArt。

相关工作

本节将首先描述由特定生成网络产生的相关工作。再讨论多模态大型模型在一些应用场景中的作用(以GPT-4为例)。

基于特定生成网络的工作

尽管目前有许多关于大型多模态模型在许多场景中应用的工作,但目前仍缺乏基于GPT-4等大型多模态模型的人工智能生成内容评估所使用的基准。当前的工作主要集中在专门的生成网络上。

生成应用

绘画设计

1)创意启发与概念化:艺术家可以利用像GPT-4这样的文本到图像模型基于描述性文本生成视觉想法。

2)快速原型设计:对于画家和设计师,从文本描述中快速可视化概念或场景可以显著加速创作过程。

3)协助复杂构图:对于复杂的设计或构图,GPT-4从文本生成图像的能力可以帮助艺术家可视化可能难以概念化的复杂场景或元素。

4)丰富艺术风格和技巧:GPT-4可以根据描述提供一系列艺术风格和技巧,使艺术家可以探索超出他们习惯方式的不同美学。

医学成像和可视化

医学成像和可视化是诊断和治疗疾病的重要组成部分,在现代医疗保健中发挥着关键作用。最近,人们对利用预训练的生成Transformer(GPT)模型,尤其是在医学成像和可视化领域越来越感兴趣。这些先进的人工智能模型正在探索其改变和增强医学诊断和教育的潜力。然而,在医学成像的专业领域中,图像的纹理的准确性和真实性至关重要。纹理包括医学图像中所见的细节和图案,对于准确诊断和理解各种医学状况至关重要。虽然GPT-4在文本到图像生成方面取得了重大进展,但其当前能力仍需要提高,以产生医学图像所需的高级别细节和准确性。

时装设计和可视化

对于时装设计师,创造服装、配饰和概念时装设计的高度详细和纹理的视觉表示是至关重要的。虽然GPT-4代表了文本到图像生成的重大进步,但目前的能力仍需要修订,以实现时装行业常常需要的严格的细节和精度水平。

方法

原始数据

为了深入评估GPT-4在图像合成中的纹理特征保真度,作者选择了来自具有影响力的现代中国艺术家丰子恺的301幅高质量诗画作为原始数据。这些数据收集自两本书籍,其中包含了丰子恺的绘画作品。这些书中的插图色彩鲜艳,质量高,是丰子恺艺术风格的典范。每幅画都附有一首诗作为其灵感,并附有现代汉语解释和额外的文本,以提供更好地理解诗歌的背景和情境。这个集合包含301个独特的诗画配对。每个配对的数据集包括各种元数据元素:诗歌ID、诗歌文本、诗歌标题、诗歌朝代、诗歌作者、解释、评论和绘画ID。这些元数据元素表示了诗歌的唯一标识符、文本、标题、创作朝代、作者姓名、复杂词语的注释、对诗歌的分析以及相关绘画的标识符。下图2显示了该数据集的一些示例。

使用这种类型的数据来研究人工智能生成和人类创作图像之间的差异非常适合且有益,主要有以下几个原因:

  • 多样的风格和技巧:这些艺术作品使得对GPT-4的图像生成能力进行彻底分析成为可能,因为它们代表了真正的人类艺术表达。

  • 艺术水准的高质量:这些作品的高水准工艺和艺术表现力为比较提供了高标准。它挑战了GPT-4达到或模仿这些杰作中所包含的复杂性和微妙之处。

  • 一致的参考点:使用统一的、知名的艺术作品确保了研究的一致参考点。由于这些作品易于识别且其属性有详细记录,它们为比较提供了稳定的基础。

  • 开放获取:这些艺术作品可以通过开放获取条款获得。这使得它们在研究目的上合法且易于获取,而不受版权限制的复杂性影响,后者可能会存在于较新或较少知名的艺术作品中。

基准创建

为了精确定义基准,并提供更详细和细致的理解和分析,本文使用GPT-4定义了一种“编码-解码”方法,专注于生成紧密模仿源图像属性的深度伪造图像。这种方法分为两个明确的阶段:

编码阶段

在这个初始步骤中,作者将源图像输入到GPT-4中。然后,GPT-4分析这些图像,重点是识别和理解它们的所有特征。这项分析最终会生成详细的特征描述提示。这些提示封装了源图像的关键元素,如色彩方案、纹理、形状和任何突出的具体细节。在获得相应的描述后,还进行了一些后处理,手动检查和校准生成的描述,以确保这些描述具有足够的细节和适用性,同时尊重GPT-4的原始输出。

解码阶段

第二阶段涉及重新引入先前生成的描述提示到GPT-4中。这一步是至关重要的,因为它指导GPT-4利用这些详细的提示重新创建目标图片的特征。这里的目标不仅是产生视觉相似性,而且是尽可能地再现原始图像的本质。这个过程测试了GPT-4利用复杂的描述性数据生成与源图像高度相似的图像的能力,无论是在外观上还是在更微妙、细微的方式上。

通过采用这种两步编码和解码方法,旨在评估GPT-4在图像处理和复发领域的能力边界,并达到一种精度和相似度水平,使原始图像与人工智能生成的图像之间的界限变得模糊。这种方法提供了一个全面的框架,用于分析GPT-4在创建深度模拟图像方面的有效性和准确性。

实验

定性分析

为了评估所提出的基准,进行了定性分析。定性分析突出了生成图像的特征的关键点,这些特点可能与人工制作的图片有细微或显著的差异。这些点是证明一幅图像是由GPT-4还是人类生成的关键组成部分。

不寻常的图案或纹理

根据已建立的基准,大多数由GPT-4生成的图像展示了与人类创作的艺术品有所不同的独特特征。这些特征包括在人类绘制的图像中不典型的图案或纹理。例如,许多由GPT-4生成的图像显示出通常在人类创建的图像中不会观察到的内容或图案。此外,许多图像中的纹理是非传统的,显示出与常见纹理不同的特点。此外,图像中存在一些区域,其细节水平或风格与作品的其余部分明显不同。这种不一致表现为图像中出现的一些区域,其外观要么比周围更模糊,要么更清晰,或者风格方法突然发生变化,打破了可见的视觉连续性。

检查人体或透视异常

GPT-4系统在处理人体和透视等复杂概念时偶尔会遇到困难,包括不自然位置的肢体、外貌特征比例失调或展示不正确透视的场景,导致缺乏逼真感或视觉一致性。这些错误会破坏图像的整体美感和准确性。

一致性和细节水平

人类艺术家以其独特的技术和视角,往往在艺术品的细节上显示出明显的变化,通常更加集中地关注图像的某些区域。这种个性化的方法导致了细节的独特、不均匀分布,反映了艺术家特定的风格或重点。相比之下,GPT-4生成的图像可能具有在整个作品中显著一致的细节水平。这种一致性缺乏人类艺术作品中典型的个性化细微差别。GPT-4的方法,受算法驱动,缺乏人类艺术家自然为其作品带来的更主观的强调和选择性细节。

艺术错误与数字伪影

尽管GPT-4生成的图像精确而一致,但容易出现特定的数字伪影。这些表现为像素化,即图像分辨率较低,导致可见的像素,或者作为元素混合的异常,即图像中不同组件的合并看起来不自然或不连贯。

上下文理解

人类艺术家擅长于对背景的微妙理解,以及图像中不同元素之间的复杂交互关系的把握。这种深刻的理解使他们能够创作出不仅视觉上吸引人,而且意义丰富、连贯性强的图像。他们可以微妙地操纵颜色、构图和象征主义,传达复杂的主题和情感,创造出和谐而发人深省的整体。尽管在许多方面都很先进,但GPT-4在理解这些关系的全部深度方面仍然面临挑战。因此,它有时会生成图像,其中的元素虽然个别准确,但需要无缝地整合以形成连贯的叙述。这些由GPT-4生成的图像显示了主题、风格或逻辑上的不一致,削弱了人类创作艺术品所具有的整体和谐感和目的性。这种差距凸显了GPT-4在充分复制人类创作者微妙艺术感知方面的当前局限性。

定量分析

该基准将图像分为两个主要类别:“手绘”(指由人类创建的图像)和“生成图像”(指使用GPT-4生成的图像)。将这个挑战定义为一个分类问题,具体实现包括以下步骤:

基线设置

深度学习擅长分析各种特征,包括纹理、风格和其他可能表明图像来源的视觉元素。这种方法允许更加细致和实用地评估GPT-4的图像生成能力,提供了对GPT-4在再现人类艺术技能方面当前局限性的更深入的理解。然而,不能假设大多数问题可以直接通过应用神经网络来解决,因为尽管数据驱动的神经网络(深度学习)具有出色的分类能力,但它们的缺点仍然显而易见。也就是说:当可用数据量不足时,模型可能无法完全学习,甚至可能学习到一些偏差,使模型学会如何欺骗(即,可以将其与人们经常说的走捷径和走后门进行比较)。

本文提出的基准可以被认为是小样本,即数据量可能不足。更严重的问题是,真实世界的图像(绘画)共享相似或相同的风格(原始数据是由同一位艺术家创作的),如下图6所示,但生成的图像大多不严格遵循这一原则,这是由于GPT-4的性质所致。

如果将这个任务视为典型的神经网络分类任务,网络可能会学习到真实样本组的风格,并利用技巧点:“风格”来区分人类创建和GPT-4生成的图像。这可能导致模型通过这些技巧走捷径(即:作弊),而不是简单地学习两组样本之间的特征差异。换句话说,即使学习不足,也可以得到相同的结果。因此,为了解决这个问题,本文提出了特殊的训练和测试策略,具体配置如下:

1)由于本文的重点不是设计一个特定的算法来监督神经网络的欺骗行为,所以策略的起点是越简单和实用越好。

2)使用多种不同参数量和计算方法的主干网络进行分类,对基准进行全面评估。

3)为了解决可能出现的神经网络欺骗问题,建议在网络收敛时停止训练,并尽可能调整数据集的分割比例,即尽量减少训练集的比例,增加测试集的比例,以充分反映网络的学习能力。还可以观察模型是基于学到的特征进行分类判断,还是通过学习捷径进行判断。根据以上策略作为起点,最终得到以下配置:训练集:验证集:测试集划分为1:1:8,时期设置为20,批量大小设置为8,图像分辨率调整为224×224,使用sgd优化器,动量设置为0.9,权重衰减设置为5e-4,lr衰减类型设置为cos,损失函数使用基本的交叉熵损失函数。

评估与分析

本文直接统计了对测试集的批量预测结果。对结果的评估直接计算了正确预测数量与总数的比率,并使用此结果获得基准的得分。然后,分别对人工图片的测试集和生成的图片的测试集进行预测,获得两个结果,然后计算两者的平均准确率,得到第三个结果。下表1显示,在测试中,大多数主干网络仍然容易受到捷径学习的影响。基于此,提出了定义的基准的潜在挑战。

Shortcut Learning

Shortcut Learning指的是神经网络倾向于选择最简单的模式来完成任务,而忽视更复杂但潜在更关键的特征。解决这个问题需要采取措施鼓励网络学习更深入、更全面的特征。因此,作者主要提出两个观点:

1)可以对这个基准进行某种预处理,使其不能完全依赖于颜色风格的线索来快速完成任务。例如,可以将统一风格处理成非统一颜色风格,同时保持其他特征不变。

2)调整任务或损失函数,使得简单特征不能轻易获得高性能。例如,可以通过使用更细粒度的标签来增加任务的难度。

除了Shortcut Learning之外,由于开放访问数据、劳动成本等因素的限制,当前数据集的规模与一般的视觉任务相比仍然较小。因此,需要考虑少样本学习或零样本学习。

Few-Shot Learning

Few-Shot Learning使模型能够在极小数量的数据上进行学习和泛化。这与传统的机器学习方法形成对比,后者通常需要大量的数据来训练模型以获得良好的性能。少样本学习的关键挑战在于如何有效地从少量数据中提取信息,并将这些信息应用于新的、未见过的任务或样本。因此,本文提出可以利用特定技术,如元学习、迁移学习、数据增强和模型正则化,来探索GPT-4生成的图像和人工图像检测的少样本场景。

Zero-Shot Learning

Zero-Shot学习使模型能够识别、理解或处理在训练阶段未遇到的数据,与传统的机器学习方法不同,后者通常需要训练数据涵盖所有可能的情景。Zero-Shot学习的基本概念是利用已有的知识来推断新的、未见过的类别或情况。例如,一个用于动物识别的模型可能会利用四肢和毛发等标准特征来识别在训练中未曾遇到的陌生动物。这种方法在数据有限的情况下特别有益。基于这一概念,建议利用由先进的生成模型(如Stable Diffusion)创建的大规模合成数据集所获得的知识,将由GPT-4生成的样本与人类创建的样本进行比较。然而,跨不同领域的零样本识别面临着重大挑战,主要是因为需要弥合领域之间的差距,以及GPT-4所创造的独特范式。

讨论与结论

本文研究了当前多模态大型模型的能力,主要关注它们从文本提示中生成图像的能力。本文的调查重点放在多模态GPT-4模型上,检查其在图像合成方面的能力。关键关注领域包括纹理特征的保真度以及生成图像之间的可辨别差异。进行了定量和定性实验,评估了GPT-4在图像生成方面的局限性。这是从人类视觉和具体评估指标的角度进行分析的,从而为AIGC技术提供了新的见解。本文研究的一个关键方面涉及创建和分析一个数据集,其中将手工艺品与相应的GPT-4生成的图像配对。该基准旨在对AIGC合成技术的保真度进行基准测试和推进研究。通过这项研究,旨在深入了解GPT-4的图像生成能力及其对AIGC技术未来的影响。在未来的工作中,计划通过专门努力以及在开源平台上其他贡献者的支持,进一步拓展基准。这将包括但不限于扩大基准的规模和完善其制定。此外,计划调查并建立定量评估标准。这些标准将有助于更全面、更详细地评估DeepArt基准中原始图像与AIGC生成图像之间的差异。

参考文献

[1] DeepArt: A Benchmark to Advance Fidelity Research in AI-Generated Content

文章链接:https://arxiv.org/pdf/2312.10407

 更多精彩内容,请关注公众号:AI生成未来

欢迎加群交流AIGC技术

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2799859.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

C++ 之LeetCode刷题记录(三十三)

😄😊😆😃😄😊😆😃 开始cpp刷题之旅。 目标:执行用时击败90%以上使用 C 的用户。 11. 盛最多水的容器 给定一个长度为 n 的整数数组 height 。有 n 条垂线,…

存内计算的主流技术方案

1 概述 和近数据计算不同,存内计算直接使用内存单元做计算,主要利用电阻和电流电压的物理关系表达运算过程。存内计算依赖于新型的非易失性存储器,如 ReRAM和 PCM 等。在所有存内计算操作中,最普遍的是利用基尔霍夫定律&#xff0…

shell基础实验(1)

1、判断当前磁盘剩余空间是否有20G,如果小于20G,则将报警邮件发送给管理员,每天检查次磁盘剩余空间。 1.1.安装邮件服务,配置邮件服务 [rootserver ~]# yum install mailx -y[rootserver ~]# vim /etc/mail.rc set from1580540058qq.com …

2023 re:Invent 用 PartyRock 10 分钟构建你的 AI 应用

前言 一年一度的亚马逊云科技的 re:Invent 可谓是全球云计算、科技圈的狂欢,每次都能带来一些最前沿的方向标,这次也不例外。在看完一些 keynote 和介绍之后,我也去亲自体验了一些最近发布的内容。其中让我感受最深刻的无疑是 PartyRock 了。…

学习笔记-Git

Git 问题一描述解决方法注意事项 问题一 描述 在commit和push的时候因为网络太慢了中途强行关闭了进程,而push的内容因为文件过大导致无法正常push 按照原本的流程在push的时候会提示失败,并且需要在解决了大文件之后重新push 而因为中途中断了&#x…

Java 后端面试指南

面试指南 TMD,一个后端为什么要了解那么多的知识,真是服了。啥啥都得了解 MySQL MySQL索引可能在以下几种情况下失效: 不遵循最左匹配原则:在联合索引中,如果没有使用索引的最左前缀,即查询条件中没有包含…

C# OpenCvSharp DNN Low Light image Enhancement

目录 介绍 效果 模型信息 项目 代码 下载 C# OpenCvSharp DNN Low Light image Enhancement 介绍 github地址:https://github.com/zhenqifu/PairLIE 效果 模型信息 Model Properties ------------------------- ------------------------------------------…

javaSE多态

文章目录 斜体样式1.1 面向对象三大特征 ?1.2 什么是多态 ?*斜体样式*1.3 多态的前提1.4 多态的成员访问特点1.5 多态的优缺点1.6 多态的转型1.7 多态的转型注意1.8 解决转型安全隐患 2 内部类2.1 内部类的分类什么是内部类 ?什么时候使用内部类 ?内部类分类 ? 2.2 成员内…

四、分类算法 - 朴素贝叶斯算法

目录 1、朴素贝叶斯算法 1.1 案例 1.2 联合概率、条件概率、相互独立 1.3 贝叶斯公式 1.4 朴素贝叶斯算法原理 1.5 应用场景 2、朴素贝叶斯算法对文本进行分类 2.1 案例 2.2 拉普拉斯平滑系数 3、API 4、案例:20类新闻分类 4.1 步骤分析 4.2 代码分析 …

数组方法深入探究(1)--atcopyWithin

at 数组at方法(获取数组中特定位置的元素) const arr [1M, 2M, 3M]; console.log(arr.at(-1)) // 倒数第一个值 console.log(arr.at(-2)) // 倒数第二个值 console.log(arr.at(0)) // 正数第一个 console.log(arr.at(1)) // 正数第二个 copyWithin …

Python 进阶语法:JSON

1 什么是 JSON? 1.1 JSON 的定义 JSON 是 JavaScript Object Notation 的简写,字面上的意思是 JavaScript 对象标记。本质上,JSON 是轻量级的文本数据交换格式。轻量级,是拿它与另一种数据交换格式XML进行比较,相当轻…

【vue项目升级node版本】Module not foun: Error: Can‘t resolve “async hooks’问题解决方案

项目本地启动一直出现这个顽固的警告,并且在项目页面一直显示无法使用 找了很多的文章,今天终于找到解决办法 解决办法思路来源于:【vue项目升级node版本】Module not foun: Error: Can‘t resolve “async hooks’问题解决方案_cant resolve async_hoo…

LINUX读取RTC实时时钟时间

linux 读写RTC时间_linux rtc 读写-CSDN博客

maven 打包命令

Maven是基于项目对象模型(POM project object model),可以通过一小段描述信息(配置)来管理项目的构建,报告和文档的软件项目管理工具。 Maven的核心功能便是合理叙述项目间的依赖关系,通俗点讲,就是通过po…

stm32——hal库学习笔记(ADC)

这里写目录标题 一、ADC简介(了解)1.1,什么是ADC?1.2,常见的ADC类型1.3,并联比较型工作示意图1.4,逐次逼近型工作示意图1.5,ADC的特性参数1.6,STM32各系列ADC的主要特性 …

LeetCode 0106.从中序与后序遍历序列构造二叉树:分治(递归)——五彩斑斓的题解(若不是彩色的可以点击原文链接查看)

【LetMeFly】106.从中序与后序遍历序列构造二叉树:分治(递归)——五彩斑斓的题解(若不是彩色的可以点击原文链接查看) 力扣题目链接:https://leetcode.cn/problems/construct-binary-tree-from-inorder-an…

HarmonyOS Stage模型基本概念讲解

本文 我们来说harmonyos中的一种应用模型 Stage模型 官方提供了两种模型 一种是早期的 FA模型 另一种就是就是 harmonyos 3.1才开始的新增的一种模型 Stage模型 目前来讲 Stage 会成为现在乃至将来 长期推进的一种模型 也就是 无论是 现在的harmonyos 4.0 乃至 之后要发布的 …

五、分类算法 总结

代码: from sklearn.datasets import load_iris, fetch_20newsgroups from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.model_selection import train_test_split, GridSearchCV from sklearn.naive_bayes import MultinomialNB from s…

unity-firebase-Analytics分析库对接后数据不显示原因,及最终解决方法

自己记录一下unity对接了 FirebaseAnalytics.unitypackage(基于 firebase_unity_sdk_10.3.0 版本) 库后,数据不显示的原因及最终显示解决方法: 1. 代码问题(有可能是代码写的问题,正确的代码如下&#xff…

React 事件处理 ( this问题 参数传递 ref)

React事件的命名采用小驼峰方式(cameCase),而不是小写 使用JSX语法时你需要传入一个函数作为事件处理函数,而不是一个字符串 你不能通过返回false 的方式阻止默认行为。你必须显示式的使用preventDefault 1 this 需要谨慎对待JSX回调函数中的…