YOLO学习中的琐碎知识点

目录

一、导入的库

二、名词介绍

(1)pytorch张量

(2)边界框(bounding box)

三、pycharm操作

(1)参数设置

四、文件认识

五、YOLO如何训练自己的模型


一、导入的库

import torch

这行代码导入PyTorch库。

简单的说:PyTorch库是一个流行的深度学习框架,是一个基于Torch的Python开源机器学习库,用于自然语言处理等应用程序。

        Torch是一个有大量机器学习算法支持的科学计算框架,是一个与Numpy类似的张量(Tensor)操作库。

        对于PyTorch,通过反向求导技术,可以让你零延迟地任意改变神经网络的行为,而且其实现速度快。正是这一灵活性是PyTorch对比TensorFlow的最大优势。

优点:支持GPU;灵活,支持动态神经网络;底层代码易于理解;命令式体验;自定义扩展。

缺点:全面性处于劣势,目前PyTorch还不支持快速傅里叶、沿维翻转张量和检查无穷与非数值张量;针对移动端、嵌入式部署以及高性能服务器端的部署其性能表现有待提升;其次因为这个框架较新,使得他的社区没有那么强大,在文档方面其C库大多数没有文档。

pytorch简介和准备知识 - 夷则july的文章 - 知乎pytorch简介和准备知识 - 知乎

import cv2

这行代码导入OpenCV库,这是一个计算机视觉库,用于图像和视频处理。

import numpy as np

这行代码导入NumPy库,这是一个Python中用于科学计算的库,它提供了数组和矩阵的支持。

import time

这行代码导入time库,这是Python中用于测量时间的基本库之一。

import torchvision

这行代码导入torchvision库,这是PyTorch中专门用于计算机视觉任务的库,提供了一些常用的数据集、模型和预处理函数等。

from torchvision import transforms

这行代码从torchvision库中导入transforms模块,这个模块包含了一些常用的图像预处理函数,例如缩放、裁剪、旋转和标准化等。

二、名词介绍

(1)pytorch张量

        PyTorch张量是PyTorch中的核心数据结构,类似于多维数组。它们可以用来存储和操作数据,支持各种数学运算、线性代数操作和神经网络计算等。

        PyTorch张量类似于NumPy的多维数组,但是提供了额外的功能和优化,使其适用于深度学习任务。与NumPy数组相比,PyTorch张量还具有以下特点:

1. GPU加速:PyTorch张量可以在GPU上进行计算,通过将张量移动到GPU内存中,可以利用GPU的并行计算能力加速运算。

2. 自动求导:PyTorch张量可以自动跟踪和计算梯度。这对于使用梯度下降等优化算法来训练神经网络非常有用。

3. 动态计算图:PyTorch使用动态计算图,在每次前向传播时构建图形,从而允许更灵活的模型定义和控制流程。

4. 张量类型:PyTorch提供了不同类型的张量,如浮点型张量(torch.FloatTensor)、整数型张量(torch.LongTensor)和布尔型张量(torch.BoolTensor),以满足不同的需求。

通过使用PyTorch张量可以方便地进行各种数值计算、创建神经网络模型并进行训练。

(2)边界框(bounding box)

        边界框(bounding box)是指在图像或视频中标记物体位置的矩形框,通常用一组坐标表示。边界框可以用来描述目标物体的位置、大小和形状等信息。

        在计算机视觉领域,边界框是非常常见的一种数据结构,经常被用于目标检测、物体跟踪、人脸识别、姿态估计等任务中。例如,在目标检测中,我们需要从一张图像中找出所有的目标物体,并准确地框定它们的位置和大小。这时就需要使用边界框来描述每个目标物体的位置和尺寸。在物体跟踪中,我们需要不断地跟踪一个特定的物体,这时也需要使用边界框来描述物体的位置和大小。

三、pycharm操作

(1)参数设置

四、文件认识

instance_train.json是COCO数据集中的一个注释文件,其中包含了每张图片中所有物体的位置、类别、是否遮挡等信息。这些信息可以用于物体检测、语义分割等任务的训练和评估。

person_keypoints_train.json是COCO数据集中的另一个注释文件,它专门标注了人体关键点的位置信息,用于训练和评估人体姿态估计和动作识别等任务。

captions_val.json是COCO数据集中用于验证集的图像描述注释文件。它包含了每张图像的唯一标识符和对应的图像描述。每个图像通常会有多个描述,每个描述都是对该图像内容的自然语言描述。

captions:为图像描述的标注文件

instances:为目标检测与实例分割的标注文件

person_keypoints:为人体关键点检测的标注文件

注意:这些文件是自己下载的

推荐:COCO数据集(目标检测任务json文件内容总结) - Fangzh的文章 - 知乎
https://zhuanlan.zhihu.com/p/309549190

COCO数据集(.json)训练格式转换成YOLO格式(.txt)

推荐:http://t.csdnimg.cn/he7yq

五、YOLO如何训练自己的模型

推荐文章:http://t.csdnimg.cn/gT8vB

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2807941.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

【python】学习笔记03-循环语句

1. whlie循环的基础语法 - while循环的语法格式 - while循环的注意事项 条件需提供布尔类型结果,True继续,False停止 空格缩进不能忘 请规划好循环终止条件,否则将无限循环 """ 演示while循环基础练习题:求1-100…

检索增强生成(RAG)-重新排序方法

每日推荐一篇专注于解决实际问题的外文,精准翻译并深入解读其要点,助力读者培养实际问题解决和代码动手的能力。 欢迎关注公众号(NLP Research),及时查看最新内容 原文标题:Advanced RAG 04: Re-ranking 原文地址:https://medium.com/towards-artificial-intelligence…

ros自定义action记录

文章目录 自定义action1. 定义action文件2. 修改 package.xml3. 修改 CMakeLists.txt4. 运行 catkin build5. simple_action_server.py6. simple_action_client.py 测试 自定义action ros 版本:kinetic 自定义test包的文件结构如下 |-- test | |-- CMakeLists.t…

IS(Inception Score)和FID(Frechet Inception Distance score)的定义,区别,联系。

IS(Inception Score)和FID(Frechet Inception Distance score)的定义,区别,联系: IS(Inception Score) 定义: IS基于Google的预训练网络Inception Net-V3。…

32单片机基础:对射式红外传感器计次

接线如下图: 在HardWare建立两个文件:如图 COuntSensor.c 如何配置外部中断,根据下面图,我们需要把外部中断从GPIO到NVIC这一路出现的外设模块都配置好。把这条信号打通就OK了。 1.配置RCC:把我们这里涉及的外设时钟都打开,不打…

C++ //练习 8.2 测试函数,调用参数为cin。

C Primer(第5版) 练习 8.2 练习 8.2 测试函数,调用参数为cin。 环境:Linux Ubuntu(云服务器) 工具:vim 代码块见练习8.1 /**************************************************************…

FariyGUI × Cocos Creator 3.x 弹窗制作

在fgui里制作一个弹窗 新建一个按钮,作为返回按钮 新建一个标签 做成这个样子 其中包含两个节点,名称分别为title和closeButton 可以阅读fgui的源码window.js得到,closeButton按钮只需要输入名称即可在contentPane设置时自动绑定。 且会…

聊聊JVM运行时数据区的堆内存

聊聊JVM运行时数据区的堆内存 内存模型变迁: Java堆在JVM启动时创建内存区域去实现对象、数组与运行时常量的内存分配,它是虚拟机管理最大的,也是垃圾回收的主要内存区域 。 内存模型变迁: 为什么要有年轻区和老年区?…

yolov8添加注意力机制模块-CBAM

修改 在tasks.py(路径:ultralytics-main/ultralytics-main - attention/ultralytics/nn/tasks.py)文件中,引入CBAM模块。因为yolov8源码中已经包含CBAM模块,在conv.py文件中(路径:ultralytics-…

[ 2024春节 Flink打卡 ] -- 优化(draft)

2024,游子未归乡。工作需要,flink coding。觉知此事要躬行,未休,特记 资源配置调优内存设置 TaskManager内存模型 https://nightlies.apache.org/flink/flink-docs-release-1.18/docs/deployment/config/ TaskManager 内存模型…

查看仓库版本记录

打开命令行窗口 输入git log即可。 若发现分支不对,方法如下 查看项目目录,命令行输入dir可以查看 多个moudel,进入到需要查版本记录的moudel下 命令行输入cd .\文件名如wowo-win-server\ 切换到wowo-win-server文件夹下后,再输入…

【黑马程序员】2、TypeScript介绍_黑马程序员前端TypeScript教程,TypeScript零基础入门到实战全套教程

课程地址:【黑马程序员前端TypeScript教程,TypeScript零基础入门到实战全套教程】 https://www.bilibili.com/video/BV14Z4y1u7pi/?share_sourcecopy_web&vd_sourceb1cb921b73fe3808550eaf2224d1c155 目录 2、TypeScript初体验 2.1 安装编译TS的工…

Spring的优点

1.方便解耦,简化开发 Spring就是一个容器,可以将所有对象创建和关系维护交给Spring管理。 2.AOP编程支持 面向切面编程,方便实现程序进行权限拦截,运行监控等功能。 3.声明式事务的支持 通过配置完成事务的管理,…

三、OpenAI之Function Calling实战

黑8决心将对 OpenAI API 的学习应用到更多实际场景中,以展示新时代技术的巨大潜力。在接下来的日子里,他不断探索和尝试,将 API 中的各种功能融入到不同的生活场景中,取得了一系列令人瞩目的成果。 首先,他将 OpenAI …

三维模型轻量化、格式转换、可视化、数字孪生综合服务平台

老子云概述 老子云3D可视化快速开发平台,集云压缩、云烘焙、云存储云展示于一体,使3D模型资源自动输出至移动端PC端、Web端,能在多设备、全平台进行展示和交互,是全球领先、自主可控的自动化3D云引擎。 平台架构 平台特性 基于 …

在那静谧的冬天你飘落我荒凉心园

北风 - 刘蓝溪/梁弘志 --女--在那静谧的冬天你飘落我荒凉心园恰似北风一袭吹去秋意无限带来几片相思带来往日笑靥只见北风又起撒落枯叶片片--男--在那静谧的冬天你走进我冷漠心田恰似北风一袭吹去秋意无限北风婵媛白云白云本是轻烟只见北风又见带来白云片片--合--喔喔喔 海角…

【Pytorch深度学习开发实践学习】B站刘二大人课程笔记整理lecture11 Advanced_CNN 实现GoogleNet和ResNet

【Pytorch深度学习开发实践学习】B站刘二大人课程笔记整理lecture11 Advanced_CNN 代码: Pytorch实现GoogleNet import torch from torchvision import datasets, transforms from torch.utils.data import DataLoader import torch.nn as nn import torch.nn.fun…

遥感、航拍、影像等用于深度学习的数据集集合

遥感图像的纹理特征异常繁杂,地貌类型多变,人工提取往往存在特征提取困难和特征提取不准确的问题,同时,在这个过程中还会耗费海量的人力物力。随着计算力的突破、数据洪流的暴发和算法的不断创新,在具有鲜明“大数据”…

ArcgisForJS如何使用ArcGIS Server发布的GP服务?

文章目录 0.引言1.ArcGIS创建GP服务2.ArcGIS Server发布GP服务3.ArcgisForJS使用ArcGIS Server发布的GP服务 0.引言 ArcGIS for JavaScript(或简称AGJS)是一个强大的工具,它允许开发者使用JavaScript在Web浏览器中创建和运行ArcGIS应用程序。…

前端工程化面试题 | 18.精选前端工程化高频面试题

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 E…