首个开源、原生多模态生成大模型:变色龙Anole一键生成 「煎鸡蛋」图文菜谱

首个开源、原生多模态生成大模型:变色龙Anole一键生成 「煎鸡蛋」图文菜谱

始智AI wisemodel 2024年07月09日 17:30 北京

首个开源、原生多模态生成大模型:变色龙Anole一键生成 「煎鸡蛋」图文菜谱

始智AI wisemodel.cn社区将打造成huggingface之外最活跃的中立开放的AI开源社区。欢迎《加入wisemodel社区志愿者团队》以及《欢迎加入wisemodel开源共创计划》。wisemodel社区上升级了体验空间,任何人都可以上wisemodel部署模型在线体验,并全面支持ollama在线运行。

图片

自LLaMa自回归文本生成大模型耀眼登场以来,整个AI界翘首以盼,期待一个能够真正实现原生、自回归图文生成的开源大模型。17个月的漫长等待,大家共同见证了以文本为核心的LLaVa的崛起,目睹了基于Diffusion的Dalle的惊艳,却始终未能一睹那个能够完美融合文字与图像的模型真容。

直到今天,Anole的诞生,终于填补了这一空白,满足了AI研究者和开发者的殷切期盼,让每个人都可以用开发LLaMa的方式去开发多模态大模型。想象一下,你只需敲击几个键盘,就能唤醒一位虚拟大厨,为你展示一道完美煎蛋的每一个精妙步骤。这不再是科幻,而是由上海交通大学GAIR团队带来的创新成果——Anole模型。变色龙Anole-7B模型已经发布到了始智AI wisemodel.cn开源社区,欢迎大家前往了解和使用。

图片

https://wisemodel.cn/models/GAIR/Anole-7B-v0.1(模型地址)

Anole是多模态大模型领域发展的一次重要技术突破,作为全球首个完全开源、自回归、原生的(文本与图片一起从头训练)多模态大模型。无需复杂的扩散模型,Anole凭借纯粹的"token"自回归预测,就能实现文字与图像的无缝交织。如图所示,当你在Anole的界面上输入"用图片和文字讲解煎鸡蛋的每一步"时,它会瞬间化身为你的私人厨艺导师。一系列生动形象的步骤图随即呈现,每一幅图都配有清晰明了的文字说明,仿佛一位耐心的大厨在为你量身定制教程。

图片

这仅仅是Anole众多强大功能中的一个。接下来,一起深入了解这个创新的多模态生成模型及其背后的技术。

图片

Anole是首个能够实现交错图文生成的开源、自回归、原生训练的大型多模态模型(无需使用稳定扩散技术)。虽然它建立在Meta 开源的Chameleon[1]的优势基础之上,但Anole新增了生成连贯的交替文本和图像序列这一复杂任务。通过使用精心构建的的约6,000张图像数据集进行创新性微调,Anole以最少的额外训练实现了出色的图像生成和理解能力。这种高效的方法,加上其开源特性,使Anole成为加速多模态AI研究和开发的催化剂。初步测试表明,Anole具有卓越的能力,能够遵循细致入微的指令,产生高质量的图像和交错的文本-图像内容,与用户提示密切吻合。

除了具备常规多模态模型的“文本生成”和“多模态理解”能力外,Anole还展现了出色的图文交错生成和文本生成图像的能力。

  • 文本 → 图片 + 文本:能够生成图像并附带相关文本描述。除开上文中使用Anole以生成一系列煎蛋步骤的图片并附上相关描述文字的例子外。模型还可以生成其他图文交错的数据。这种能力在初步测试中表现良好,能够生成有意义的图像并准确传达文本信息。

图片

图片

图片

文本 → 图片:能够根据文本生成图像。

指令: A piece of paper with word like "Anole" written on it, and a drawing of an Anole.

生成结果: 

图片

指令: An image depicting three cubes stacked on a table. Each cube has a random color and a letter on it.

生成结果: 

图片

更多例子:

图片

图片

图片

1

图片

训练技术

近年来,多模态AI技术取得了显著进展,Meta AI推出的Chameleon模型便是其中的代表。Chameleon通过在预训练期间融合图像和文本语料的方法,展示了在视觉和语言整合方面的潜力。然而,尽管Chameleon具有突破性,其图像生成的关键网络参数并未开源,限制了其进一步的研究和实际应用。

Chameleon的预训练数据本身就包含了文本和图像两种模态,理论上赋予了它图像生成的能力。我们的目标是在不影响其文本理解、生成和多模态理解能力的前提下,激活这种能力。为实现这一目标,我们冻结了Chameleon的大部分参数,仅对transformer的输出头层中与图像token ID对应的logits进行了微调。具体而言,Anole具体如下特性:

  • 快速高效的微调手段:通过创新的局部微调方法,只调整不到40m参数,在短时间内(8 个 A100 GPU 上大约 30 分钟),便成功激发出Chameleon的图像生成能力,使研究人员和开发者能够充分利用并基于Chameleon的架构进行后续的多模态AI研究工作。

  • 少即是多(Less is More)的微调数据:仅需5,859个图片样本便可有效激发Chameleon的图像生成能力,展示了在大型多模态模型中恢复复杂功能的高效性。

  • 全面的微调和推理代码:提供了一整套用于微调、推理Chameleon和Anole的代码库,显著降低了开发和实验的门槛。

  • 丰富的资源以提升可及性:提供了丰富的数据资源和详细的教程,旨在帮助各级别的研究人员更容易上手和实验。

图片

图片

2

图片

全方位开源

值得注意的是,GAIR团队已经对 Anole项目进行完全开源(提供了开源的模型权重、推理与训练代码和详细使用教程),以确保每个感兴趣的研究者都能重现这些结果,可以微调模型,创建自己的风格变体。该项目旨在建立和共享一个具有完整图文理解和生成能力的多模态模型,并通过完全开源实现多模态技术民主化,让更多人可以加入多模态大模型的开发中。

当前版本(v1.0)具体提供了如下的资源:

  • 模型微调代码(基于HuggingFace Trainer)

  • 权重转换代码(Hf->Meta & Meta->Hf)

  • 与图像生成有关的推理代码:包括文生图以及图文交互

  • 5k+图片用于微调模型以赋予其图像生成的能力

更重要的是,Anole 为学术界开启了一系列重要且富有挑战性的研究方向。具体而言:

  • 它为探索统一的基于分词器的多模态模型(token-based)的性能上限提供了新的途径,使得与扩散模型 (diffusion-based) 等方法的比较成为可能。

  • 同时,它推动了高效交错文本-图像解码技术的发展,这对实时应用至关重要(比如动漫生成、教材生成)

  • 此外,Anole 为探索这类复杂模型的最优微调策略创造了契机,并提出了如何确保生成图像安全性和伦理使用等亟待解决的问题。

从根本上说,Anole 不仅是一个强大的工具,更是为未来研究提供了沃土,为 AI 社区构建了一个稳固的资源和基础设施平台,使其能够在此基础上不断创新和发展。这种开放的方法有望加速多模态 AI 的进展,有可能带来突破性成果,而这些成果在过去因缺乏先进模型和技术的获取途径而难以实现。

生成式人工智能研究实验室(GAIR)由上海交通大学刘鹏飞副教授2023年4月回国创建,是国内首个聚焦于生成式人工智能的高校研究组。汇聚了来自于CMU、复旦、交大(ACM班、IEEE试点班等)等顶尖高校的年轻本硕博人才。实验室专注于三大核心领域:大模型基础研究、对齐系统和社会影响,致力于培养顶尖人工智能人才(具有原创、批判精神等)、开发尖端的生成式人工智能技术,赋能人类解决复杂问题,提升人类生活质量。

GAIR主页:https://plms.ai/

GAIR页面:

https://wisemodel.cn/organization/GAIR

模型地址:

https://wisemodel.cn/models/GAIR/Anole-7B-v0.1

编辑:成蕴年

-----    END   -----

始智AI wisemodel

构建中立开放AI开源社区,共建中国AI创新生态。

33篇原创内容

公众号

wisemodel相关

1、始智AI-wisemodel社区正式上线,目标打造中国版“HuggingFace”

2、始智AI wisemodel.cn社区,努力建成中国最活跃的AI开源社区

3、Sora热背后的冷思考,发起复现Sora计划

4、招募 | 开源共创计划-参与wisemodel-SDK/API及Sora复现计划等项目

系统升级

5、公告 | 升级完成,新功能上线,欢迎体验!

6、升级 | wisemodel上线新版在线体验,开源大模型人人可玩!

7、升级 | wisemodel社区全面支持ollama,gguf格式大模型直接在线运行!

系列模型:

8、OceanGPT:面向海洋科学任务的大型语言模型初探,人人可在线部署体验

9、CodeGeeX4模型开源同步首发,新一代代码大模型

10、ChemLLM模型及ChemData数据集上新,wisemodel零代码在线体验

11、Diffusion4D数分钟内实现4D内容生成,超81K的4D数据集已开源!

12、CVPR 2024 | TransNeXt:稳健的视觉感知ViT模型

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3225576.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

【uni-app+Vue3】 API请求封装:让接口调用更便捷

前言:uni-app是一款基于Vue.js框架的跨平台开发工具,可以将代码编译成H5、小程序、App等不同平台的应用。在进行uni-app开发时,网络请求是必不可少的环节。为了方便开发,我们可以封装一些网络请求方法,以便在多个页面中…

Flink ui 本地flink ui 报错 {“errors“:[“Not found: /“]}

在学习flink 的过程中&#xff0c;伊始的flink 版本是1.17.2 报题目的错误 &#xff0c;百思不得其解&#xff0c;尝试更替了1.19.1 然后就成功了 &#xff0c;期间未做任何的修改 。 ui 默认地址 &#xff1a; http://localhost:8081 pom 文件 如下 <?xml version&qu…

华为HCIP Datacom H12-821 卷33

1.判断题 缺省情况下&#xff0c;华为AR路由器的VRRP运行在抢占模式下 A、对 B、错 正确答案&#xff1a; A 解析&#xff1a; 无 2.判断题 一个Route-Policy下可以有多个节点&#xff0c;不同的节点号用节点号标识&#xff0c;不同节点之间的关系是"或"的关…

【Python大语言模型系列】Windows环境下部署Chatglm2-6B-int4大语言模型(完整教程)

这是我的第319篇原创文章。 一、引言 电脑配置 &#xff1a; python版本要求&#xff1a;3.8torch版本&#xff1a;2.0.1cuda&#xff1a;11.7windows系统&#xff1a;Windows 10 显卡&#xff1a;6G以上GPU 二、实现过程 2.1 下载chatglm2-6b的项目源码 上chatglm2-6B的官…

程序员学CFA——经济学(六)

经济学&#xff08;六&#xff09; 国际贸易与资本流动国际贸易相关术语开放/封闭经济自由贸易/贸易保护贸易比价国内生产总值与国民生产总值 国际贸易的利弊分析益处弊端 从贸易中获益&#xff1a;比较优势比较优势和绝对优势比较优势的来源 贸易限制和贸易保护施行贸易保护政…

Python基础小知识问答系列-遍历嵌套列表

1. 问题&#xff1a; 如何只使用一次for循环&#xff0c;遍历2层嵌套的列表&#xff1f; 2. 解决方法&#xff1a; 使用yield from语句的递归生成器&#xff0c;解决多层嵌套列表的遍历问题。 示例&#xff1a; from collections.abc import Iterablelist_b ["hong kong…

pcie 基础

1. 传输速率与带宽的关系 当我们谈论PCIe总线标准的传输速率时&#xff0c;我们使用GT/s&#xff08;Giga Transfers per second&#xff0c;千兆传输/秒&#xff09;来衡量&#xff0c;而不是Gbps&#xff08;Giga Bits Per Second&#xff0c;千兆位/秒&#xff09;。这是因为…

linux服务器信息获取(宝塔)工具

功能介绍 SSH连接到远程服务器&#xff1a; 用户可以输入目标服务器的IP地址、用户名、密码以及SSH端口&#xff08;默认22&#xff09;。 工具会尝试连接到远程服务器&#xff0c;并在连接失败时显示错误信息。 运行命令并返回输出&#xff1a; 工具可以在远程服务器上运…

万界星空科技日化行业MES解决方案

日化行业MES&#xff08;制造执行系统&#xff09;解决方案是针对日化行业特点而设计的一套全面的生产管理系统&#xff0c;旨在提高生产效率、优化资源配置、加强质量控制&#xff0c;并推动企业的数字化转型。以下是对日化行业MES解决方案的详细阐述&#xff1a; 一、MES解决…

CodeNavi 中代码表达式的节点和节点属性

本文分享自华为云社区《CodeNavi 中代码表达式的节点和节点属性》。作者&#xff1a;Uncle_Tom 1. 前期回顾 《寻找适合编写静态分析规则的语言》 根据代码检查中的一些痛点&#xff0c;提出了希望寻找一种适合编写静态分析规则的语言。 可以满足用户对代码检查不断增加的各种需…

【源码+文档+调试讲解】沙县小吃点餐系统

摘 要 随着社会的发展&#xff0c;社会的各行各业都在利用信息化时代的优势。计算机的优势和普及使得各种信息系统的开发成为必需。 沙县小吃点餐系统&#xff0c;主要的模块包括实现管理员&#xff1b;个人中心、用户管理、小吃信息管理、门店信息管理、预约信息管理、系统管…

Python数据分析-2023-2024 NBA 球员统计数据分析

一、研究背景 近年来&#xff0c;NBA&#xff08;美国国家篮球协会&#xff09;已经成为全球最受关注的篮球联赛之一。随着比赛的日益激烈和球员表现的多样化&#xff0c;分析NBA球员的表现数据变得越来越重要。现代数据分析技术的进步使得我们能够更加详细地研究和理解球员的…

【C++】———— 多态

作者主页&#xff1a; 作者主页 本篇博客专栏&#xff1a;C 创作时间 &#xff1a;2024年7月8日 一、什么是多态 什么是多态呢&#xff1f;通俗的来讲&#xff0c;就是多种形态&#xff0c;具体点就是去完成某个行为&#xff0c;当不同的对象去完成时会产生不同的状态。 举…

在误装Windows server2019 后如何利用Windows.old恢复?

&#x1f3c6;本文收录于《CSDN问答解惑》专栏&#xff0c;主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案&#xff0c;希望能够助你一臂之力&#xff0c;帮你早日登顶实现财富自由&#x1f680;&#xff1b;同时&#xff0c;欢迎大家关注&&收藏&…

S7-1200PLC基础学习记录

文章目录 前言一、基础1. 电线规格标准2. 数据类型2.1 数据类型和数值类型&#xff1f;2.2 浮点型数据类型2.3 时间日期型数据类型2.3 进制数据地址&#xff1f; 二、常见指令1.常开/常闭/线圈 更新 前言 前面对PLC做了软件使用记录&#xff0c;但是依旧存在对基础知识不清晰的…

8.3结构体数组

代码 #include <iostream> using namespace std; #include <string>//结构体数组 //1、定义结构体 struct Student {//姓名string name;//年龄int age;//分数int score; };int main() { //2、创建结构体数组struct Student stuArray[3] {{"张三",18,10…

目标检测基本标注工具-labelImg安装与使用

&#x1f349;一、安装 1.1 打开conda创建虚拟环境&#x1f388; conda create -n labelImg python3.8 -y 1.2 激活labelImg虚拟环境&#x1f388; activate labelImg1.3 安装labelImg&#x1f388; pip install -i https://pypi.tuna.tsinghua.edu.cn/simple lab…

kafka.common.KafkaException: Socket server failed to bind to xx:9092

部署分布式集群的时候遇到的错误。 解决方案: 修改config下的server.properties,添加 listenersPLAINTEXT://:9092 advertised.listenersPLAINTEXT://自己的服务器ip:9092 然后重新启动&#xff0c;检查进程是否存在ps -aux | grep kafka。 成功启动。

在超算平台或高性能集群上运行并行程序使用命令mpirun -np ,出现“no active ports detected”

问题&#xff1a; 在超算平台或高性能集群上运行并行程序使用命令mpirun -np &#xff0c;出现“no active ports detected” 具体使用的命令如下&#xff1a; Participant2"Solid" Solver2"linear_elasticity" nprocS4 # jie notes:24# Runecho "…

玄机——第五章 linux实战-CMS01 wp

文章目录 一、前言二、概览简介 三、参考文章四、步骤&#xff08;解析&#xff09;准备步骤#1.0步骤#1.1通过本地 PC SSH到服务器并且分析黑客的 IP 为多少,将黑客 IP 作为 FLAG 提交; 步骤#1.2通过本地 PC SSH到服务器并且分析黑客修改的管理员密码(明文)为多少,将黑客修改的…