计算机视觉研究方向初学习,计算机视觉都有什么方向??!到底是干什么的?!

计算机视觉研究方向初学习,计算机视觉都有什么方向??!到底是干什么的?!

  • 语义分割
  • 图像分类
  • 目标检测和定位
  • 实例分割、全景分割
  • 物体跟踪
  • 姿态估计
  • 人脸识别
  • 人体识别
  • 图像增强
  • 风格迁移
  • 图像生成
  • 视觉问答
  • 视频分析
  • 光学字符识别

语义分割

**语义指具有人们可用语言探讨的意义,分割指图像分割。**语义分割即能够将整张图的每个部分分割开,使每个部分都有一定类别意义。和目标检测不同的是,目标检测只需要找到图片中目标,打上框然后分出类别。语义分割是以描边的形式,将整张图不留缝隙的分割成每个区域,每个区域是一个类别,没有类别的默认为背景background。
在这里插入图片描述
语义分割的例子:

这是一个骑马的照片,如上图的左边,这张照片中有马、汽车、人等多个对象。语义分割的任务就是将这张照片中的每一个像素都标记为相应的类别。

具体步骤如下:

  1. 原始图像:一张人骑马的照片。

  2. 语义分割模型:使用预训练的语义分割模型(例如U-Net, SegNet或DeepLab等),将输入图像进行处理。

  3. 输出图像:模型会输出一个与原始图像大小相同的图像,每个像素都有一个类别标签。如上图的右边。

  4. 结果解释:在输出图像中,每个像素被分配了一个颜色编码,代表不同的类别,例如:

    • 马用紫色表示
    • 人用粉色表示
    • 车用灰色表示
    • 其他用黑色表示

    通过这种方式,你可以直观地看到图像中不同对象的分布和边界。
    语义分割不仅能帮助理解图像中的内容,还能为许多应用提供支持,比如自动驾驶汽车需要准确识别道路和障碍物,医学影像分析需要区分不同的组织或病变区域。

图像分类

图像分类,核心是从给定的分类集合中给图像分配一个标签。
实际上,这意味着我们的任务是分析一个输入图像并返回一个将图像分类的标签。标签来自预定义的可能类别集。
更适用于图片比较单一的,一张图片只有一个物体的图片。
在这里插入图片描述
我们假定一个可能的类别集categories = {dog, cat, eagle},类别={狗、猫、鹰},之后我们提供一张图读取到分类系统
这里的目标是根据输入图像,从类别集中分配一个类别, 这里为dog我们的分类系统也可以根据概率给图像分配多个标签,如dog:95%,cat:4%,eagle:1%。
在这里插入图片描述

目标检测和定位

目标检测和定位是计算机视觉中的关键任务,旨在识别图像或视频中的目标对象,并确定其位置。目标检测不仅要识别出目标的类别(如人、车、动物等),还要在图像中框出这些目标的位置。
在这里插入图片描述

实例分割、全景分割

通常意义上的目标分割指的就是语义分割,图像语义分割,简而言之就是对一张图片上的所有像素点进行分类。
  语义分割(下图左)就是需要区分到图中每一点像素点,而不仅仅是矩形框框住了。但是同一物体的不同实例不需要单独分割出来。对下图左,标注为人,羊,狗,草地。而不需要羊1,羊2,羊3,羊4,羊5等。
在这里插入图片描述
实例分割(上图右)其实就是目标检测和语义分割的结合。相对目标检测的边界框,实例分割可精确到物体的边缘;相对语义分割,实例分割需要标注出图上同一物体的不同个体(羊1,羊2,羊3…)

全景分割是语义分割和实例分割的结合。
  跟实例分割不同的是:实例分割只对图像中的object进行检测,并对检测到的object进行分割,而全景分割是对图中的所有物体包括背景都要进行检测和分割。
在这里插入图片描述
a图为原图,b图为语义分割,c图为实例分割,d图为全景分割

物体跟踪

物体跟踪的主要目标是在视频序列中跟踪目标物体的位置和状态。这个过程包括两个主要步骤:首先,在视频序列中检测目标物体;然后,跟踪目标物体的位置和状态。视频就是由一张一张的图片构成的。

姿态估计

人体姿态估计是指通过计算机算法在图像或视频中定位人体关键点
在这里插入图片描述
在这里插入图片描述

人脸识别

在这里插入图片描述
人脸识别作为一种生物特征识别技术,具有非侵扰性、非接触性、友好性和便捷性等优点。人脸识别通用的流程主要包括人脸检测、人脸裁剪、人脸校正、特征提取和人脸识别。人脸检测是从获取的图像中去除干扰,提取人脸信息,获取人脸图像位置,检测的成功率主要受图像质量,光线强弱和遮挡等因素影响。

人体识别

人体识别是计算机视觉中的一个重要分支,主要目的是识别和分析图像或视频中人体的特征和动作。
在这里插入图片描述
人体动作捕捉
基于视觉技术实现动作捕捉,得到人体的各个关节在空间中的移动和旋转数据,从而捕捉到完整的人体动作。如上图
在这里插入图片描述
人体关键点识别2D/3D
机器视觉技术实时检测分析人体肢体、手部、头部等肢体信息,可计算得出25个核心关键点三维坐标数据。如上图
在这里插入图片描述
人体姿态识别
机器视觉技术对人体动作特征进行提取、分类,识别出人体动作,得出动作信息。让机器“读懂”人的肢体语言。

图像增强

图像增强技术通过多种方法和技术手段,可以有效改善图像的质量和可视性,提升图像在各个领域的应用价值。
失焦模糊、运动模糊、低照图像恢复、hdr、超级夜景等提高图像质量的技术。
在这里插入图片描述
在这里插入图片描述

风格迁移

风格迁移是一种计算机视觉技术,旨在将一种图像的艺术风格应用到另一幅图像上,使其呈现出与原始风格类似的视觉效果。
风格迁移分为两类,一类为风格图片(毕加索、梵高.)一类 是内容图片,通常来自现实世界中大多数普通图像
效果逼真的风格迁移图片有两个要求,一是要生成的图片在内容、细节上和输入的内容图片保持一致,二是要生成的图片在风格上尽可能与风格图片保持一致。

比如:期望风格
在这里插入图片描述
风格迁移期待实现效果图:
在这里插入图片描述
在这里插入图片描述

图像生成

图像生成是一种技术,可以通过计算机自动创建新的图像。简单来说,就是用电脑画出原本不存在的图片。
举个例子:
你想要一张从来没有拍过的风景照片,但手头没有这样的照片。通过图像生成技术,电脑可以根据已有的风景照片样本,自动生成一张看起来像真实风景的图片。

视觉问答

想象一下,你有一张朋友聚会的照片,你可以问计算机“有多少个人在笑?”或者“桌子上有多少个饮料?”计算机会“看”这张照片,并根据问题“回答”你。这就是视觉问答的基本原理。比如GPT可以根据你发送的图片进行回答问题。

视频分析

视频分析是一种技术,用于自动分析视频内容,提取有用的信息。它结合了计算机视觉、机器学习和数据处理技术,可以实现从视频中识别和理解不同的场景、物体、行为等。
你有一段监控视频,想知道视频中有没有人进入某个区域。视频分析技术可以自动处理视频,识别并告知你是否有人进入该区域,以及具体的时间和行为。
想象你有一台智能摄像头,它不仅能录制视频,还能“看懂”视频内容。如果家里进了小偷,它能马上识别出来并给你发警报;如果商店里某个货架前顾客停留时间很长,它能告诉店主这个商品可能很受欢迎。这就是视频分析的基本原理和应用。

光学字符识别

光学字符识别(Optical Character Recognition,简称OCR)是一种将印刷或手写文本转换为机器可读文本的技术。简单来说,OCR可以让计算机“读懂”印刷或手写的文字,并将其转化为可编辑的电子文本。
举个例子
你有一页打印的书页,想把上面的内容变成电子文档。通过OCR技术,你可以用扫描仪扫描这页纸,然后OCR软件会自动识别上面的文字,将其转换成电脑上的文字文件。
想象你有一份很重要的手写笔记,想把它变成电子文档保存起来。用OCR技术,你只需要拍一张照片或扫描这份笔记,计算机就能自动识别上面的文字,并把它们转换成可以在电脑上编辑的文本文件。这就像给计算机装上了一双会读书的眼睛。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3225097.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

大话光学原理:4.散射:瑞利、拉曼、米氏和布里渊

这是一缕柔和的光,在空气的舞台上轻盈地跳跃。它悠然自得,在宁静的空间中缓缓前行。然而,一片细薄透明的介质挡住了它的脚步,它毫无预兆地撞上了这片障碍。在这短暂的接触中,它被分解成无数微小的粒子,被迫…

【总线】AXI第九课时:介绍AXI响应信号 (Response Signaling):RRESP和 BRESP

大家好,欢迎来到今天的总线学习时间!如果你对电子设计、特别是FPGA和SoC设计感兴趣,那你绝对不能错过我们今天的主角——AXI4总线。作为ARM公司AMBA总线家族中的佼佼者,AXI4以其高性能和高度可扩展性,成为了现代电子系统中不可或缺的通信桥梁…

Python | Leetcode Python题解之第226题翻转二叉树

题目: 题解: class Solution:def invertTree(self, root: TreeNode) -> TreeNode:if not root:return rootleft self.invertTree(root.left)right self.invertTree(root.right)root.left, root.right right, leftreturn root

NLP入门——卷积语言模型的搭建、训练与预测

语言模型建模是针对句子建模,主要分为掩码语言模型和自回归语言模型。 我们从corpus中截取一句话作为例子,这句话是bpe分词后的句子: 1994 年 5 月 17 日 安全 理事会 第 33 77 次 会议 通过 掩码语言模型的主要机制是:例如将33 7…

关于MySQL mvcc

innodb mvcc mvcc 多版本并发控制 在RR isolution 情况下 trx在启动的时候就拍了个快照。这个快照是基于整个数据库的。 其实这个快照并不是说拷贝整个数据库。并不是说要拷贝出这100个G的数据。 innodb里面每个trx有一个唯一的trxID 叫做trx id .在trx 开始的时候向innodb系…

「C++系列」C++ 修饰符类型

文章目录 一、C 修饰符类型1. 访问修饰符(Access Modifiers)2. 存储类修饰符(Storage Class Specifiers)3. 类型修饰符(Type Modifiers)4. 函数修饰符 二、C 修饰符类型-案例1. 访问修饰符案例2. 存储类修饰…

AI转绘_animatediff-cli-prompt-travel

这个工具有两种主要模式:它可以直接通过提示创建视频,或者它可以对现有视频进行风格化。还有方法可以提高视频的分辨率。 正如工具名称所示,它的一个主要特点是"提示旅行"。这意味着你可以例如使用特定的提示用于前20帧&#xff0…

个人标准流程管理系统

个人标准流程管理系统(Personal Standard Operating Procedure System, PSOPS)是一种帮助个人组织和优化日常任务、项目管理、学习计划和其他重复性活动的工具。它旨在提升个人效率,确保各项事务按照预设的标准流程执行。以下是设计这样一个系…

计算给定数字的阶乘

1 问题 计算给定数字的阶乘. 2 方法 使用while循环。使用for循环。使用函数。 通过实验、实践等证明提出的方法是有效的&#xff0c;是能够解决开头提出的问题。 代码清单 1 使用while循环numberint(input(请输入一个数字:))factorial1i1while i<number: factorialfactor…

PTrade常见问题系列6

执行k_start.sh脚本发现没有生成日志&#xff1f; 执行k_start.sh脚本发现没有生成日志&#xff1f; 1、检查k_start.sh脚本发现执行downloader前需要检查是否有已存在的downloader进程&#xff0c;ps -ef|grep downloader 发现有很多历史的僵尸进程&#xff0c;所以下载进程…

Mosh|内连接、外连接、左连接、右连接(未完)

下图取自菜鸟教程&#xff0c;侵权删&#xff5e; 一、内连接&#xff1a;Inner Joins 模版&#xff1a;SELECT * FROM A JOIN B ON 条件 含义&#xff1a;返回A与B的交集&#xff0c;列为AB列之和 练习&#xff1a;将order_items表和products表连接&#xff0c;返回产品id和…

鸿蒙语言基础类库:【@ohos.util (util工具函数)】

util工具函数 说明&#xff1a; 本模块首批接口从API version 7开始支持。后续版本的新增接口&#xff0c;采用上角标单独标记接口的起始版本。开发前请熟悉鸿蒙开发指导文档&#xff1a;gitee.com/li-shizhen-skin/harmony-os/blob/master/README.md点击或者复制转到。 该模块…

【论文阅读笔记】Meta 3D AssetGen

【论文阅读笔记】Meta 3D AssetGen: Text-to-Mesh Generation with High-Quality Geometry, Texture, and PBR Materials Info摘要引言创新点 相关工作T23D基于图片的3d 重建使用 PBR 材料的 3D 建模。 方法文本到图像:从文本中生成阴影和反照率图像Image-to-3D:基于pbr的大型重…

hdfs大规模数据存储底层原理详解(第31天)

系列文章目录 一、HDFS设计原理 二、HDFS系统架构 三、HDFS关键技术 四、HDFS应用实例 五、解决HDFS不能处理小文件详解问题 文章目录 系列文章目录前言一、设计原理二、系统架构三、关键技术四、应用实例五、解决HDFS不能处理小文件详解问题1. 合并小文件2. 优化Hive配置3. 使…

计算机的错误计算(二十六)

摘要 结合计算机的错误计算&#xff08;二十四&#xff09;中的 Maple 环境下的计算过程&#xff0c;&#xff08;二十五&#xff09;讨论了&#xff08;不&#xff09;停机问题。事实上&#xff0c;其它数学软件比如 Mathematica 也存在该问题。 &#xff08;不&#xff09;停…

操作系统:信号究竟是什么?如何产生?

OS信号 一、信号的概念二、信号的产生1&#xff09;终端按键产生信号1、 前台进程、后台进程2、验证终端按键是否产生信号 2&#xff09;调用系统函数向进程发信号3&#xff09;硬件异常产生信号1、浮点数溢出&#xff0c;CPU产生信号2 浮点数溢出&#xff0c;产生信号原理3. 空…

基于与STM32的加湿器之雾化片驱动

基于与STM32的加湿器之雾化片驱动 加湿器是一种由电力驱动&#xff0c;用于增加环境湿度的家用电器。加湿器通过特定的方式&#xff08;如蒸发、超声波振动或加热&#xff09;将水转化为水蒸气&#xff0c;并将这些水蒸气释放到空气中&#xff0c;从而增加空气中的湿度。主要功…

Spin Image(旋转图像)

Spin Image特征描述子原理 Spin Image是Johnson于1999年提出&#xff0c;Lazebnik于2005年完善的基于点云空间分布的特征描述方法&#xff0c;其思想是将一定区域的点云分布转换成二维的Spin Image&#xff0c;然后对场景和模型的Spin Image进行相似性度量。Spin Image方法与通…

怎么制作gif动图,视频制作GIF动画更简单

在社交媒体和网络交流中&#xff0c;GIF动画以其生动活泼的表现形式成为了表达情感、幽默和创意的热门媒介。无论是分享日常趣事&#xff0c;还是制作专业演示&#xff0c;一个恰到好处的GIF动图总能吸引目光&#xff0c;传递信息。 但你知道吗&#xff1f;即使没有专业的设计背…

FastReport 指定sql 和修改 数据库连接地址的 工具类 :FastReportHelper

FastReport 指定sql 和修改 数据库连接地址的 工具类 &#xff1a;FastReportHelper 介绍核心代码&#xff1a;完整代码&#xff1a; 介绍 在FastReport中&#xff0c;经常会遇到需要给 sql 加条件的情况&#xff0c;或者给数据库地址做更换。 &#xff08;废话不多说&#x…