CVPR2024论文解读|对齐人类审美!MPS让图像生成评估更“懂你”

导读

当人类从不同角度评估不同类型的图像时,偏好结果会有所不同。因此,为了学习多维的人类偏好,我们提出人类多元偏好模型(MPS),这是第一个评估文本生成图像的多维评分模型。MPS在3个公开数据集上表现出色,同时也在4个偏好维度上优于现有的评分方法,使其成为评估和改进文生图模型的核心指标。该模型和数据集已经公开,希望能促进文生图领域未来的发展研究。

一、论文解读

1.1 内容摘要

当前文本生成图像模型的评估通常依赖于统计指标,但这些指标不足以准确反映真实场景下的人类偏好。尽管最近有工作尝试通过人类标注的图像来学习这些偏好,但它们将多样化的人类偏好简化为单一的总体评分。然而,当人类从不同维度评估图像时,偏好结果会有所不同。因此,为了学习多维的人类偏好,我们提出了多维偏好模型(MPS),这是第一个用于评估文生图模型的多维偏好评分模型。

图片

MPS通过在CLIP模型上引入了偏好条件模块,以学习这些多样化的偏好。它基于收集的的多维人类偏好(MHP)数据集进行训练,该数据集包括918,315个人类偏好打分,包含了美学、语义对齐、细节质量和整体评估四个维度。MPS在4个维度上优于现有的评分方法,在3个公开数据集上表现出色,使其成为评估和改进文生图模型的核心指标。

该模型和数据集已公开(见下方链接),我们衷心希望MPS能促进文生图社区未来的发展研究。

  • Project-page:

    https://wangbohan97.github.io/MPS/

  • code:

    https://github.com/Kwai-Kolors/MPS

1.2 研究背景

文生图模型近年来取得了显著的进步,用户可以输入文本描述(Prompt)来生成高相关性、高清晰度和高美感的图像。为了评估生成图像的质量,有工作提出了一些评估指标,包括IS、FID和CLIP得分。然而,这些统计指标与人类的感知偏好并不一致。例如,像IS或FID这样的指标,尽管在某种程度上指示了图像质量,但不一定能反映出人类将如何根据保真度、连贯性或美学吸引力来评价图像。

除了上述统计指标,HPS、PickScore、ImageReward、HPS_v2和AGIQ-1K等方法也提出了以人为中心的评估。这些方法首先对生成的图像标注人类偏好,随后使用这些偏好数据对模型进行训练以预测偏好得分。然而,这些方法通常使用单个分数来总结所有人类偏好,忽略了人类偏好的多维性。当人类从不同的角度评估图像时,他们对图像的偏好结果也会有所不同。因此,使用单一维度的评估方法不足以捕捉用户群体中广泛的个性化需求和偏好。为了确保对文本到图像合成输出进行全面评估,学习和利用多维人类偏好至关重要。

为了学习这种多维人类偏好,我们提出了多维人类偏好(MHP)数据集。与之前的工作相比,MHP数据集在Prompt收集、图像生成和偏好标注方面进行了更精心的设计。对于Prompt收集,以前的工作直接利用现有的开源数据集(例如DiffusionDB等),但是这些数据集通常忽略了长尾分布带来的潜在数据偏差。为此,基于Parti的类别模式,我们将收集到的Prompt标注为7个大类(例如:人物、动物、场景等)。对于代表性不足的尾部类别,我们使用大型语言模型(LLM)来生成额外的Prompt进行扩充,用于后续的图像生成。

对于图像生成,我们不仅利用现有的开源扩散模型,还使用生成对抗模型和自回归模型来生成图像。最终,我们生成了包含607541张图像的数据集,这些图像进一步用于创建918315张图像的成对比较,用于人类偏好标注。对于人类偏好的标注,与现有工作的单一标注不同,我们考虑了更广泛的人类偏好维度,并使用人类标注在四个维度上标记每个图像对,包括美学、细节质量、语义对齐和总体得分。

为了学习人类的偏好,现有的方法使用预训练的视觉语言模型来独立地从图像和Prompt中提取特征,然后计算它们之间的相似性,进而用所收集的偏好数据来微调网络。当需要学习多维偏好时,一个最简单的策略是为不同的偏好训练单独的模型。然而,这样一个简单的策略需要为新的偏好重新收集数据和重新训练模型。此外,由于单一偏好数据中的潜在偏差,在一种偏好条件下训练的模型在与其他偏好进行评估时往往表现出较差的性能。

因此,我们提出了多维偏好模型(MPS),这是一个能够在各种偏好条件下预测分数的统一模型。具体来说,某一偏好是由一系列描述性词语表示的。例如,“美学”的偏好被分解为“光线”、“颜色”和“清晰度”等词语,用以描述这种条件的属性。这些属性词被用于计算与Prompt的相似性,从而生成反映Prompt中的词与指定条件之间的对应关系的相似性矩阵。

另一方面,使用预训练的视觉语言模型从图像和文本中提取特征。随后,通过多模态交叉注意力层融合两种模式。相似性矩阵充当了合并到交叉注意力层中的掩码,确保了视觉模态只关注与条件相关的文本。然后使用融合的特征来预测偏好得分。

我们的主要贡献如下:

提出了用于评估文本到图像生成模型的多维人类偏好(MHP)数据集。MHP包含类别平衡的Prompt和多维人类偏好标注的图像集合。基于MHP,提出了一个标准测试Benchmark用于评估现有的文本到图像生成模型。

提出了MPS模型,该模型学习了多维的人类偏好,并评估生成图片在不同偏好条件下的得分。

在预测总体偏好和多维偏好中,与三个数据集下的现有方法相比,MPS表现出更优的性能。

1.3 MHP数据集

我们的Prompt来自多个数据集,包括PromptHero、DiffusionDB等。参考Parti的类别模式,我们进一步对类别进行合并,最终确定了7个类别。基于这些定义的类别,我们对最初收集的59396条Prompt进行人工分类。此外,标注过程中还过滤掉异常Prompt(例如语义不连贯、不可理解和标点错误)。经过上一步处理,我们得到了52057条Prompt。如下图所示,最初收集的Prompt显示类别的长尾分布,而这种类别不平衡会导致生成图像的类别不平衡,从而使得学习到的人类偏好也可能存在偏差。

图片

为了解决上面的问题,我们通过使用GPT-4获得了额外的Prompt并进一步细化打标,最终共获得66389条类别分布均衡的Prompt,有助于学习更具代表性的人类偏好。接下来,我们利用扩散模型、生成对抗模型和自回归模型,基于收集到的Prompt生成图像。每个模型为每个Prompt生成2-4个图像,生成的图像来自各种模型架构,具有多样化的图像分辨率和宽高比。这种多样性确保了文本到图像模型的泛化能力的全面表示。为了增强这些图像对的代表性,在构建图像对的过程中,我们不仅引入了不同模型生成的图像,还包括由相同模型使用不同随机种子生成的图像。基于这些对比图像对,我们使用人类标注来评估生成的图像质量,包括三个子维度(即美学、细节质量和语义对齐)和一个总体维度(即总体得分)。

图片

1.4 MPS模型架构

我们采用CLIP从图像和Prompt中初步提取图像文本对的特征,为了计算不同偏好条件下的偏好得分,我们创新性的提出了一个条件掩码来突出显示相关的token,同时抑制不相关的token。最后,我们采用融合特征进行进一步预测人类偏好,最终MPS可表示为如下公式:

图片

图片

图片

二、实验分析

2.1 模型评估

我们选择了广泛使用的统计指标来评估文本到图像模型,即CLIP评分和美感评分进行比较。此外,我们还选择了与人类偏好一致的方法来评估文本到图像模型,包括image Reward、HPS和PickScore。我们使用了公开的预训练模型,而无需进行微调以进行评估。为了进行公平的比较,我们选择了现有的公开可用的人类偏好数据集:ImageReward测试集和HPD v2测试集,以及我们的MHP数据集,以将我们的方法与相关基线进行比较。如下表所示,我们的MPS在这三个数据集上表现出更好的准确性,表明我们的方法具有强大的泛化能力。

图片

我们使用Grad-CAM来生成图像的注意力热图和Prompt的注意热图。可视化结果表明,MPS可以根据特定的偏好条件处理不同的Prompt和图像区域。这归因于条件掩码,它只允许图像观察Prompt中与偏好条件相关的单词。条件掩码确保模型预测具有不同输入的偏好,并且模型只需要计算图像中的补丁和保留的部分Prompt之间的相似性来确定最终得分。

图片

2.2 RLHF

基于本文提出的MPS模型,我们也通过采用强化学习方法(如PPO、DPO等)将其作为奖励模型整合到可图文生图大模型的训练过程中,使得模型在训练中既能够准确建模匹配训练集的数据分布,又能够最大化奖励模型的输出。最终,通过引入强化学习和奖励模型技术(RLHF),使得可图模型输出更加接近人类审美标准,从而提升了整体美感和逼真度。

可图大模型是由快手 AI 团队自研打造的文生图大模型,具备强大的图像生成能力,能够基于开放式文本生成风格多样、画质精美、创意十足的绘画作品,让用户可以轻松高效地完成艺术创作,激漾灵感,智绘万物。

可图大模型全面开源,回馈开源社区。目前,Kolors已在Huggingface平台和GitHub上线,包括模型权重和完整代码,供企业与个人开发者免费使用。

  • 官网地址:

    https://kwai-kolors.github.io/

  • Github 项目地址:

    https://github.com/Kwai-Kolors/Kolors

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3250298.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

医疗设备安全、可靠,国产大功率医疗电源功不可没,旭之源医疗电源拥有高可靠性、优异EMC性能、满足医疗认证等优势!

我国作为人口大国,人均医疗资源相较于发达国家仍有不足,医疗健康产业还有很大提升空间。卡脖子的现象在医疗器械中十分明显,这也是医疗产业重点需要解决的。“国产化”便是有效的解决方案。 受益于医疗行业对产品自主可控意识的提升&#xff…

MySQL----初始数据类型

前言 一、tinyint 范围:-128-----127 在MySQL中,整型可以指定是有符号的和无符号的,默认是有符号的。可以通过UNSIGNED来说明某个字段是无符号的。如果我们向mysqlt特定的类型中插入不合法的数据,Mysq一般会直接拦截&#xff0c…

【python】Python高阶函数--map函数的详细语法分析与应用实战

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,…

哪个无线麦克风音质最好,无线领夹麦克风哪个牌子好,麦克风推荐

​如今,网络世界丰富多彩,每个人都有机会成为焦点。从旅行博主的精彩游记,到健身达人的锻炼分享,再到音乐爱好者的才艺展示,优质的内容层出不穷。如果你也渴望在这个舞台上大放异彩,一款出色的无线麦克风将…

vue3前端开发-小兔鲜项目-人气推荐栏目的前端渲染

vue3前端开发-小兔鲜项目-人气推荐栏目的前端渲染!今天和大家分享一下,人气推荐栏目的前端页面如何渲染内容。 经历过上一次的,新鲜好物的栏目渲染之后,我们已经熟练了,vue3的接口调用,数据渲染到页面中的整…

2024年7月17日(nodejs,npm设置国内镜像,vue脚手架,远程管理ssh,踢出用户,scp命令,ssh免密登录)

1、安装nodejs服务 nodejs是一个运行1环境,和javajdk运行环境格式一样 [roota ~]# yum -y install nodejs.x86_64 安装完成之后,使用node -v 查看版本 [roota ~]# node -v v16.20.2 2、简易服务器的环境安装npm 安装包管理器 npm node packae manger [ro…

【计算机毕设论文】基于SpringBoot学生作业管理系统

💗博主介绍:✌全平台粉丝5W,高级大厂开发程序员😃,博客之星、掘金/知乎/华为云/阿里云等平台优质作者。 【源码获取】关注并且私信我 感兴趣的可以先收藏起来,同学门有不懂的毕设选题,项目以及论文编写等相…

【MySQL-17】存储过程-[变量篇]详解-(系统变量&用户定义变量&局部变量)

前言 大家好吖,欢迎来到 YY 滴MySQL系列 ,热烈欢迎! 本章主要内容面向接触过C的老铁 主要内容含: 欢迎订阅 YY滴C专栏!更多干货持续更新!以下是传送门! YY的《C》专栏YY的《C11》专栏YY的《Lin…

修改单链表时传入二级指针详解

修改单链表时传入二级指针详解 我们先来看一个例子: 1.int *p &a; notice: p的值,*p,&p注意区分 p的值:就是变量a的地址:0x11 *p: 就是变量a的值:1 &p:就是p的地址:ox22 p代表的…

气膜篮球馆:理想的运动空间选择—轻空间

快速建造 气膜篮球馆的建造速度快,通常只需几周即可完成。这与传统建筑需要数月甚至数年的时间相比,显著缩短了工期。快速建造不仅能迅速投入使用,还减少了因工期延长而产生的额外费用。 成本效益 气膜结构相比传统建筑成本更低,特…

基于Llama Index构建RAG应用(Datawhale AI 夏令营)

前言 Hello,大家好,我是GISer Liu😁,一名热爱AI技术的GIS开发者,本文参与活动是2024 DataWhale AI夏令营;😲 在本文中作者将通过: Gradio、Streamlit和LlamaIndex介绍 LlamaIndex 构…

【C++题解】1212. 移动数组元素

问题:1212. 移动数组元素 类型:数组找数 题目描述: 在一个不重复的数组中,请将这个数组的最小数和数组第一个数交换,最大数和数组最后一个数交换。 输入: 第一行有一个整数 n ( 5≤n≤100 )…

【C】C语言静态链表转动态链表的技术探讨与实现

引言 在数据结构与算法的学习中,链表作为一种常用的线性表链式存储结构,具有灵活的内存分配和高效的插入删除操作等特点。根据链表在内存中的分配方式,链表可以分为静态链表和动态链表两种。静态链表在创建时预先分配一块连续的内存空间&…

微服务:nacos

Nacos 由Alibaba推出的集成于SpringCloudAlibaba中的一款开源注册中心框架 主要功能: 注册中心 配置管理 nacos的安装和部署 nacos默认访问端口8848 docker pull nacos/nacos-server:1.2.0 docker run --env MODEstandalone --name nacos --restartalways -d -p 8848:8…

Elasticsearch基础(五):使用Kibana Discover探索数据

文章目录 使用Kibana Discover探索数据 一、添加样例数据 二、数据筛选 三、保存搜索 使用Kibana Discover探索数据 一、添加样例数据 登录Kibana。在Kibana主页的通过添加集成开始使用区域,单击试用样例数据。 在更多添加数据的方式页面下方,单击…

idea2019版本创建JavaWeb项目并配置Tomcat步骤

一、创建JavaWeb项目 1.新建项目File->New->Project 2. 选择JavaWeb应用在New Project窗口中选择Java后勾选Java EE中的Web Application后点击next即可 3.设置项目名称后点击finish即可 4.至此项目创建完成,检查文件是否齐全,开始配置Tomcat 二、…

免费的数字孪生平台助力产业创新,让新质生产力概念有据可依

关于新质生产力的概念,在如今传统企业现代化发展中被反复提及。 那到底什么是新质生产力?它与哪些行业存在联系,我们又该使用什么工具来加快新质生产力的发展呢?今天我将介绍一款为发展新质生产力而量身定做的数字孪生工具。 新…

spring ioc的原理

1、控制反转(IOC):对象的创建控制权由程序自身转移到外部(容器) 2、依赖注入(DI):所谓依赖注入,就是由IOC容器在运行期间,动态地将某种依赖关系注入到对象之中。 Spring 中的 IoC 的实现原理就是工厂模式加反射机制。 参考资料…

中职省培丨2024年大数据技术中职教师专业技能培训班企业参观实践圆满结束

7月17日,“2024年大数据技术中职教师专业技能培训班(省培)”参训老师莅临广东泰迪智能科技股份有限公司产教融合实训中心开展企业参观实践。泰迪智能科技董事长张良均、中职业务部总监李振林、中职业务部经理黄炳德、校企合作经理吴桂锋及来自…

SCU(Seat Control Unit,座椅控制单元)

SCU也叫SCM(Seat Control Module) 智能座椅可以支持更多的座椅姿态调节,除了水平、高度、靠背常规调节,还支持旋转、腿托、肩部、侧翼等方向调节来实现舒适坐姿,智能座椅同时支持加热、通风、按摩、记忆、迎宾等功能。…