在yoloV8训练过程中,你应该也遇到过如图上的数据问题。
这里提供一个简单的提取脚本,可供检查。
首先,你需要将这些警告内容自行复制到一个新建的空白txt里,如下图
通过观察,大致发现会存在以下几种警告:
WARNING ⚠️ ignoring corrupt image/label: image file is truncated
WARNING ⚠️ ignoring corrupt image/label: non-normalized or out of bounds coordinates [ 1.0032]
WARNING ⚠️ 1 duplicate labels removed
具体的源码出处以及警告原因可以在你自己的源码路径下./ultralytics/ultralytics/data/utils.py文件的verify_image、verify_image_label函数里查询。
这里我把警告里出现两个冒号的都删了后面的一个,因为我根据冒号进行了分离字符串,
例如:
train: WARNING ⚠️ /path/imgs_new/636.jpg: ignoring corrupt image/label: non-normalized or out of bounds coordinates [ 1.0745]
修改成
/path/imgs_new/636.jpg: ignoring corrupt image/label non-normalized or out of bounds coordinates [ 1.0745]
然后根据常见的几个关键词,分类提取了数据,代码如下:
import os
import shutilwith open('1.txt', 'r', encoding='utf-8') as f:data = f.readlines()
print("一共有{}张待检查图像".format(len(data)))key_word_lists = ["duplicate", "truncated", "non-normalized"]
tmp_dict ={"duplicate":[], "truncated":[], "non-normalized":[], "other":[]}
for line in data:file, msg = line.split(':')for key in key_word_lists:if key in msg:if file not in tmp_dict[key]:tmp_dict[key].append(file)
# print(tmp_dict)outpath = "./warning_check/"
for k, v in tmp_dict.items():print(k, len(v))if not os.path.exists(os.path.join(outpath, k)):os.makedirs(os.path.join(outpath, k), exist_ok=True)if len(v)>0:for vi in v:print(vi)(filepath, filename) = os.path.split(vi)shutil.copy(vi, os.path.join(outpath,k))shutil.copy(os.path.join(filepath.replace("imgs_new","xmls_new"), filename.replace(".jpg",".xml")), os.path.join(outpath,k))shutil.copy(os.path.join(filepath.replace("imgs_new","yololabel"), filename.replace(".jpg",".txt")), os.path.join(outpath,k))
我这里分类进行了保存,便于后面根据不同的警告原因进行不同检查和处理。
后面自行检查这些数据即可。