什么是多模态大模型,有了大模型,为什么还要多模态大模型?

随着人工智能技术的愈演愈烈,其技术可以说是日新月异,每隔一段时间就会有新的技术和理念被创造出来;而多模态大模型也是其中之一。

什么是多模态

想弄明白什么是多模态大模型,那么首先就要弄明白什么是多模态。

简单来说,多模态就是数据或信息的多种表现形式。

举个栗子,比如说我想告诉你我在吃饭;这时我可以给你发段文字告诉你我在吃饭;也可以拍个照片或视频告诉你我在吃饭。

信息是我在吃饭,表现形式可以是文字,图片,视频;这就是多模态,一种信息,多种表现形式。

就类似于液体的水是水,固体的水是冰,气化的水是水蒸气,但其本质上还是水,只是表现形式不一样而已。

从更加广泛的角度来说,文字是一种模态,图像也是一种模态,视频当然也是一种模态;中文是一种模态,英文也是一种模态,日语也是一种模态。

多种终端与应用

我们知道,人类有不同的感官系统,比如眼睛,鼻子,嘴巴,触觉等;我们看到一块冰,我们知道它是冷的;看到一团火,我们知道它会烧到人。如果你不相信冰是冷的,火是热的,那么你可以用你的触觉去感受一下。

总而言之,世界上万事万物不同的表现形式,都可以算作一种模态,多模态的存在才使得我们这个世界丰富多彩。

就类似于电视机,彩色电视机出现之前,所有的电视都是黑白色的;而彩色电视机的出现,才让电视表演变得更加丰满,更加有张力。

知道了什么是多模态,那么就知道了什么是多模态大模型;所谓的多模态大模型就是能够处理多种类型数据的大模型,比如文字,图片,视频,音频等。

为什么多模态那么重要

为什么多模态那么重要,因为那是我们认识世界的基础。

我们从出生开始,就在不断的认识这个世界;不论是通过我们的眼睛,耳朵,嘴巴,鼻子,还是手,脚;亦或者书籍,影视,音乐等。

我们人类了解世界的途径是复杂的,过程也是复杂的,甚至在人类社会的发展过程中,很多经验和对世界的认识,是用大量的人命换来的。

而AI作为人工智能,它的目标是替代人类的工作;由AI来帮助我们完成工作,帮助我们学习,认识和改造这个世界。

五感

而AI要想替代人类处理工作和问题,那么它也需要拥有和人类一样的,对多模态数据的处理能力;虽然它没有手和脚,眼睛,鼻子,嘴巴,但AI在发展的过程中,也会逐渐拥有自己的眼睛,鼻子,嘴巴,触觉等。

只有这样,AI才能替代人类的工作,并且才能够和人类更好的交流。

而AI要想实现这样的能力,那么它首先就要具有多模态的数据处理能力;否则,其永远也不可能具有人的能力。

而这也是AGI(通用人工智能)的目标。

由此,大模型作为目前人工智能的主要实现形式,实现多模态大模型的功能是必不可少的一个环节。

虽然大模型还没有那么智能,但如果多模态大模型能够实现,即使不够智能,那也能够解决我们很多问题,以及提升我们的工作效率。

比如,多模态大模型出现之后,我们就可以使用一个模型去生成文字,图片,视频;而不是像现在,写文章搞一个大模型,图片又搞一个大模型,做视频又一个大模型。

总之,多模态大模型是实现AGI的一种方式,也是人工智能真正走向智能的一种方式。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3016578.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

【Git】Commit后进行事务回滚

起因 因为一直使用git add .,在学习pytorch中添加了一个较大的数据集后,导致git push失败,而这个大数据集并不是必须要上传到仓库的,但是因为自己在设置.gitignore前已经进行了git comit,所以,需要进行事务…

嵌入式linux学习第三天汇编语言点灯

嵌入式linux学习第三天汇编语言点灯 今天学习如何在linux板子上点灯。 I.MX6U GPIO 详解 我们发现I.MX6U GPIO是分为两类的,:SNVS 域的和通用的。在讨论i.MX6U或类似的复杂微处理器时,了解其GPIO(通用输入输出)引脚…

Windows环境编译 VVenC 源码生成 Visual Studio 工程

VVenC介绍 Fraunhofer通用视频编码器(VVenC)的开发是为了提供一种公开可用的、快速和有效的VVC编码器实现。VVenC软件基于VTM,其优化包括软件重新设计以减轻性能瓶颈、广泛的SIMD优化、改进的编码器搜索算法和基本的多线程支持以利用并行。此外,VVenC支…

深度学习之基于YOLOv5目标检测可视化系统

欢迎大家点赞、收藏、关注、评论啦 ,由于篇幅有限,只展示了部分核心代码。 文章目录 一项目简介 二、功能三、系统四. 总结 一项目简介 一、项目背景与意义 随着深度学习技术的快速发展,目标检测在多个领域中的应用日益广泛,包括…

125.两两交换链表中的节点(力扣)

题目描述 代码解决及思路 /*** Definition for singly-linked list.* struct ListNode {* int val;* ListNode *next;* ListNode() : val(0), next(nullptr) {}* ListNode(int x) : val(x), next(nullptr) {}* ListNode(int x, ListNode *next) : val(x), …

很快就可以试用Domino 15了

大家好,才是真的好。 前几天在比利时的安普卫特举办的Engage2024大会已经结束,流出的现场照片很多,主要是会议场地照片很多,说是令人震撼;可惜这次一手的PPT和会议内容不多.是的,本来我也是在等与会者写的…

VMware 虚拟机打开一段时间后卡死,VNX进程CPU占比高

一、问题描述 打开虚拟机后可以正常运行 运行几分钟后突然卡死 然后通过任务管理器可以观察到VMware Workstation VMX应用进程的CPU占比高,CPU也出现异常 关闭虚拟机重新开启,还是一样卡死 二、系统环境 系统: Windows10 VMware: Workstation 17 Pro …

如何提取视频二维码链接?二维码在线提取链接的方法

随着现在二维码用途的不断增多,很多不同的内容都可以生成二维码来展示,比如现在视频二维码就是比较常见的一种类型,一般用于产品介绍、教程演示、宣传推广等等。二维码的方式在某些情况下也有局限性,当无法扫码时就无法查看内容&a…

Linux信号捕捉

要处理信号, 我们进程就得知道自己是否收到了信号, 收到了哪些信号, 所以进程需要再合适的时候去查一查自己的pending位图 block 位图 和 hander表, 什么时候进行检测呢? 当我们的进程从内核态返回到用户态的时候&…

荷香堪筑梦,鸳鸯和月寻。(变相BFS搜索)

本题链接:登录—专业IT笔试面试备考平台_牛客网 题目: 样例: 输入 3 4 2 .... ***. ..a. 输出 yes 思路: 根据题意,这里 1 s 可以移动多次,我们将每次可以移动避开雪的的位置存储起来,判断当…

springboot3常用注解使用

组键注册注解 组件注册步骤总结 条件注解 演示示例 属性绑定注解 ConfigurationProperties进行绑定 EnableConfigurationProperties进行绑定 其他常用注解 EnableAutoConfiguration ComponentScan RequestMapping GetMapping PostMapping Autowired Resource Servi…

js浏览器请求,post请求中的参数形式和form-data提交数据时数据格式问题(2024-05-06)

浏览器几种常见的post请求方式 Content-Type 属性规定在发送到服务器之前应该如何对表单数据进行编码。 默认表单数据会编码为 "application/x-www-form-urlencoded" post请求的参数一般放在Body里。 Content-Type(内容类型),一般…

25-ESP32-S3 内置的真随机数发生器(RNG)

ESP32-S3 内置的真随机数发生器(RNG)😎 引言 📚 在许多应用中,随机数发生器(RNG)是必不可少的。无论是在密码学🔒、游戏🎮、模拟🧪或其他领域,随…

【第6节课笔记】LagentAgentLego

Lagent 最中间部分的是LLM,即为大语言模型模块,他可以思考planning和调用什么action,再将其转发给动作执行器action executer执行。 支持的工具如下: Arxiv 搜索 Bing 地图 Google 学术搜索 Google 搜索 交互式 IPython 解释器 IP…

6.Nginx

Nginx反向代理 将前端发送的动态请求有Nginx转发到后端服务器 那为何要多一步转发而不直接发送到后端呢? 反向代理的好处: 提高访问速度(可以在nginx做缓存,如果请求的是同样的接口地址,这样就不用多次请求后端&#…

【数据结构】C/C++ 带头双向循环链表保姆级教程(图例详解!!)

目录 一、前言 二、链表的分类 🥝单链表 🥝双链表 🥝循环链表 🥝带头双向循环链表 🍍头节点(哨兵位)的作用 ✨定义: ✨作用: 🍇总结 三、带头双向循环链表 …

一键解密,网络安全神器现已问世!

一、简介 当前版本V1.1这款工具是一款功能强大的网络安全综合工具,旨在为安全从业者、红蓝对抗人员和网络安全爱好者提供全面的网络安全解决方案。它集成了多种实用功能,包括解密、分析、扫描、溯源等,为用户提供了便捷的操作界面和丰富的功…

Python Dash库:一个Web应用只需几行代码

大家好,在数据科学领域,数据可视化是将数据以图形化形式展示出来,帮助我们更直观地理解数据。Python中有一个非常流行的数据可视化库叫做Dash,Dash以其简洁、高效和强大的功能而闻名,它允许开发者快速构建交互式Web应用…

Offline:IQL

ICLR 2022 Poster Intro 部分离线强化学习的对价值函数采用的是最小化均方bellman误差。而其中误差源自单步的TD误差。TD误差中对target Q的计算需要选取一个max的动作,这就容易导致采取了OOD的数据。因此,IQL取消max,,通过一个期望回归算子…

STM32接入CH340芯片的初始化进入升级模式(死机)问题处理

目录 1. 问题描述2. 问题分析2.1 CH340G/K 的初始化波形2.2 第1种USB升级电路2.3 第2种USB升级电路2.4 第3种USB升级电路2.5 第4种USB升级电路 3. 总结 1. 问题描述 我所用的CH340G(CH340K也用过)接在MCU的电路中,在插入CH340G/K 的接插件&a…