yolov8训练数据警告检查

在这里插入图片描述
在yoloV8训练过程中，你应该也遇到过如图上的数据问题。
这里提供一个简单的提取脚本，可供检查。

首先，你需要将这些警告内容自行复制到一个新建的空白txt里，如下图
在这里插入图片描述
通过观察，大致发现会存在以下几种警告：
WARNING ⚠️ ignoring corrupt image/label: image file is truncated
WARNING ⚠️ ignoring corrupt image/label: non-normalized or out of bounds coordinates [ 1.0032]
WARNING ⚠️ 1 duplicate labels removed
具体的源码出处以及警告原因可以在你自己的源码路径下./ultralytics/ultralytics/data/utils.py文件的verify_image、verify_image_label函数里查询。

这里我把警告里出现两个冒号的都删了后面的一个，因为我根据冒号进行了分离字符串，
例如：
train: WARNING ⚠️ /path/imgs_new/636.jpg: ignoring corrupt image/label: non-normalized or out of bounds coordinates [ 1.0745]
修改成
/path/imgs_new/636.jpg: ignoring corrupt image/label non-normalized or out of bounds coordinates [ 1.0745]

然后根据常见的几个关键词，分类提取了数据，代码如下：

import os
import shutilwith open('1.txt', 'r', encoding='utf-8') as f:data = f.readlines()
print("一共有{}张待检查图像".format(len(data)))key_word_lists = ["duplicate", "truncated", "non-normalized"]
tmp_dict ={"duplicate":[], "truncated":[], "non-normalized":[], "other":[]}
for line in data:file, msg = line.split(':')for key in key_word_lists:if key in msg:if file not in tmp_dict[key]:tmp_dict[key].append(file)
# print(tmp_dict)outpath = "./warning_check/"
for k, v in tmp_dict.items():print(k, len(v))if not os.path.exists(os.path.join(outpath, k)):os.makedirs(os.path.join(outpath, k), exist_ok=True)if len(v)>0:for vi in v:print(vi)(filepath, filename) = os.path.split(vi)shutil.copy(vi, os.path.join(outpath,k))shutil.copy(os.path.join(filepath.replace("imgs_new","xmls_new"), filename.replace(".jpg",".xml")), os.path.join(outpath,k))shutil.copy(os.path.join(filepath.replace("imgs_new","yololabel"), filename.replace(".jpg",".txt")), os.path.join(outpath,k))