AI测试:人工智能模型的核心测试指标,分类判别、目标检测、图像分割、定量计算分别有哪些指标?

在前面的人工智能测试技术系列文章中,我们详细介绍了人工智能测试的技术方法和实践流程。在了解人工智能测试方法后,我们需要进一步学习和研究如何衡量这些方法的有效性,即人工智能模型测试指标的选择。测试指标的选择主要取决于模型的类型和模型的实施计划。对于AI医学影像辅助诊疗、自动驾驶等特定类型智能模型的测试,我们应如何选择和理解测试指标?本篇文章,我们将以AI医学影像辅助诊疗模型为例,讨论用于评价人工智能模型测试性能的关键指标,了解这些指标是如何帮助我们理解人工智能模型表现的。

一般来说,AI医学影像辅助诊疗、自动驾驶、零售业货架监控、安全监控等视觉识别模型的性能指标根据不同的技术和业务场景,主要包含分类判别、目标检测、图像分割与定量计算四方面。

分类判别(Discrimination):在AI医学影像辅助诊疗系统中,判别分类的主要任务是区分医学影像中的不同病变组织,如区分良性和恶性肿瘤,其性能指标包括准确率、灵敏度等。在多分类场景,需要将多分类产品的性能指标评估问题转化成多个二分类问题,对各级计算得到的准确度、敏感度、特异度、精确度、AUC值分别进行加权平均,从而得到整个多分类人工智能系统的综合指标。

图像分割(Image Segmentation): 图像分割要求人工智能在医学影像中准确地勾勒出病变区域的边界,性能指标包括分割的准确度、边缘误差、完整性、运算速度等。

目标检测(Object Detection): 目标检测旨在识别影像中特定的病变位置,并对其进行定位。这一任务的性能指标包括定位精确度、召回率、平均精度以及检测的置信度阈值等。

定量计算(Quantitative Computation): 定量计算涉及从医学影像中提取有关病变的量化信息,如体积、表面积、纹理特征等,性能指标包括计算的准确性、重复性和可靠性等。

下面,我们以AI医学影像辅助诊疗系统为例对各任务场景下的测试指标进行一一介绍:

1.分类判别任务的评价指标

一般来说,AI医学影像辅助模型广泛采用的核心评价指标包括准确率、精确率、召回率、特异性、F-measure分数和AUC—ROC曲线。

准确率 (Accuracy):衡量模型整体正确识别的能力,即在所有样本中,模型能够正确识别的比例。准确率虽然直观,但在数据类别不平衡时会出现不够准确的问题。比如,如果大多数样本都是正常影像,模型即使对所有异常影像都判断错误,准确率也可能很高。

精确率(precision):衡量在模型预测为正类(如疾病)的样本中,实际为正类的比例。精确率高意味着模型预测的正类结果中大部分是正确的,有助于减少误诊,但可能会漏诊一些实际患病的患者。

召回率 (Recall)或敏感性(Sensitivity):指在所有实际为正类(如疾病)的样本中,模型正确预测为正类的样本比例。在医学影像诊断系统中,召回率越高,模型漏诊的可能性越小,但可能会伴随着较高的误诊率(即模型可能将一些健康样本误识别为阳性)。

特异性(Specificity):衡量的是模型识别出真实负类(健康)样本的能力,即在所有实际健康的患者中,模型能够正确识别出的比例。特异性高意味着误诊风险低,对于需要避免不必要的医疗干预的场景,特异性非常重要。高特异性可以减少不必要的治疗和患者的心理压力。

F-measure分数:是精确率和召回率的平均值,可以更全面地评估模型在分类任务中的表现。当F1值接近1时,说明模型在精确率和召回率之间取得了较好的平衡,对于医学影像辅助诊断系统来说,这既减少了假阳性导致的过度治疗风险,也减少了假阴性导致的治疗延误风险。

其中,True Positives(TP):正确识别出的正类别样本数量;

True Negatives(TN):正确识别出的负类别样本数量;

False Negatives(FN):正类别样本被错误预测为负类别样本数量;

False Positives(FP):负类别样本被错误地预测为正类别样本数量;

Total Positives:实际的正类别样本数量;

Total Negatives:实际的负类别样本数量;

AUC-ROC曲线:AUC(Area Under Curve)是ROC(Receiver Operating Characteristic)曲线下的面积。AUC是用于评估分类模型性能的指标,衡量模型将正例(疾病)排在负例(非疾病)样本之前的能力。AUC值越接近1,表示模型的性能越好,能够在不同的分类阈值下都保持较高的真阳性率和较低的假阳性率。AUC-ROC曲线可以直观比较不同模型的性能,帮助我们找到最佳的分类阈值,以平衡真阳性和假阳性的数量,适应不同的临床需求。

这些指标为软件测试人员提供了关于模型性能的全面视角。在实际应用中,需要根据具体情况权衡这些指标。例如,对于肺癌筛查,我们可能希望模型具有高召回率以尽可能找出所有潜在患者,同时保持一定的精确率以减少不必要的进一步检查。而在健康人群的体检中,可能会更注重精确率,以避免不必要的恐慌和医疗干预。

2.图像分割任务的评价指标

在医学影像领域,图像分割任务旨在通过人工智能系统精确描绘出病变区域。

医学影像关键部位的分割在疾病诊断是关键的步骤之一,精确的分割对提高系统的最终性能非常重要。对于AI医学影像系统的图片分割任务,除了上述的准确度、完整性、召回率、特异性等指标,还有以下关键的评价指标可以反映出人工智能系统在图像分割场景中的性能。

分割准确度(Segmentation Accuracy):是衡量分割效果最直接的一个指标,通常通过计算预测分割区域与真实分割区域之间的重合度(如Dice系数、Jaccard指数)来评估。

Dice系数(Dice Coefficient):衡量两个集合相似度的一种方法,适用于二值图像。计算公式为:

其中,A和B分别是预测分割区域和真实分割区域,∣A∩B∣是两个集合的交集大小,∣A∣和∣B∣分别是两个集合的大小。Dice系数取值范围在0到1之间,越接近1表示分割效果越好。

Jaccard指数(Jaccard Index):同样是衡量两个集合相似度的一个指标,适用于多分类情况。计算公式为:

A和B同样是预测分割区域和真实分割区域,∣A∩B∣是两个集合的交集大小,∣A∪B∣是两个集合的并集大小。Jaccard指数的取值范围也是0到1之间。

平均边缘误差(Average Edge Error, AEE):用于评估分割边缘与真实边缘之间的误差。计算方法可以是计算所有边缘像素点的预测位置与真实位置之间的平均欧氏距离。

3.目标检测任务的评价指标

在医学影像领域,目标检测是指在医学影像中自动识别和定位出特定的病变区域,例如肿瘤、病变等,并对其大小、形状、边缘等特征进行量化分析,辅助诊断。在目标检测任务中,系统会比较预测框与金标准框(即由专业医生标记的实际病灶区域)之间的位置关系。这个过程涉及判断预测框是否准确地包含了病灶区域。为了进行这一步,系统会使用一系列的检出指标。

平均精度(AP):平均精度是在不同的置信度阈值下,检测到的病变区域的平均精度,是PR曲线与坐标轴围成的面积。它是通过计算每个阈值下的精确度和召回率,以精确率为 y 轴和召回率为 x 轴,绘制PR(Precision-Recall)曲线得出的。AP的计算公式为:

其中,Pi表示精确度,Ri表示召回率,n是在不同置信度阈值下计算的点数。

MAP:各个类别AP的平均值,代表了在当前多个类别下能达到的平均精度。

此外,敏感度(真阳性率)、特异度(真阴性率)等上述指标同样可以量化预测框与金标准框之间的重合程度和位置偏差,评估病灶检测的准确性。

4.定量计算任务的评价指标

定量计通常涉及对影像中的特定区域或特征进行精确测量,提供关于病变性质、大小、形状和其他相关属性的数值信息,获得对疾病的量化理解。

对于乳腺癌钼靶影像,人工智能模型可以计算出乳腺肿块的边缘特征(肿块边缘的光滑程度、是否存在毛刺征象等)、肿块的密度、肿块的体积、肿块内的微钙化灶数量等,在这些指标的帮助下,我们能够对乳腺肿块的性质进行更为精确的判断,辅助医生进行诊断和治疗。

为了确保人工智能医学影像系统的定量计算结果的准确性,通常会使用性绝对误差和相对误差两个常用指标。绝对误差是指系统测量值与实际值(金标准值)之间的差异,而相对误差则是绝对误差与实际值的比例。这些指标可以帮助医生和测试人员了解系统的准确性。

医疗影像AI模型的评估指标是一个多方面的决策过程,需要综合考虑数据特性、疾病类型、临床需求、模型预期用途、实际应用的可行性以及法规标准。在实际应用中,我们往往会根据具体需求和不同业务场景选择合适的评估指标,结合多个指标对模型进行全面评估。

我们在医疗、汽车领域拥有丰富的人工智能测试经验。具备大量的数据模型和经过训练的测试数据集,如果您有人工智能测试技术交流、人工智能工具选型、人工智能模型训练、人工智能行业数据集等需求,可私信我,一起技术交流。

参考文献

[1] 李康. 基于深度学习的医学影像病灶检测算法研究.2024.

[2] 李曼,滕依杉,郭佳颖,等.基于人工智能的医学影像辅助诊断类软件监管与评测方法研究.2022.

[3] 郑光远,刘峡壁,韩光辉.医学影像计算机辅助检测与诊断系统综述.2018.

[4] 薄靖宇.基于深度学习的肺炎医学影像自动识别与检测技术研究.2022.

(本文引用部分内容版权属于原作者,仅作交流探讨,如有侵权请联系删除。谢绝转载)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3280024.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

MySQL基础练习题15-进店却未进行交易过的顾客

题目:有一些顾客可能光顾了购物中心但没有进行交易。来查找这些顾客的 ID ,以及他们只光顾不交易的次数。 准备数据 分析数据 题目:有一些顾客可能光顾了购物中心但没有进行交易。来查找这些顾客的 ID ,以及他们只光顾不交易的次…

介绍五款广受好评的企业级加密软件

在当今信息化时代,数据安全已成为企业管理的重要环节。随着网络攻击和数据泄露事件的频繁发生,如何有效保护企业数据不被泄露,成为各大企业关注的焦点。加密软件作为一种有效的防护工具,通过对数据进行加密处理,确保敏…

最好用的复制粘贴软件pastemate功能简介

这应当是windows下最好用的复制粘贴软件,遥遥领先的复制粘贴软件。 效增PasteMate - 下载页面 windows下界面最优美,操作最方便的复制粘贴神器,学生党论文必备,效率神器 pastemate 1.搜索功能,能够按文本、图片、文件…

AI多模态模型架构之输出映射器:Output Projector

〔探索AI的无限可能,微信关注“AIGCmagic”公众号,让AIGC科技点亮生活〕 本文作者:AIGCmagic社区 刘一手 前言 AI多模态大模型发展至今,每年都有非常优秀的工作产出,按照当前模型设计思路,多模态大模型的…

解析和解决Protobuf数据传输中的字段错位问题

个人名片 🎓作者简介:java领域优质创作者 🌐个人主页:码农阿豪 📞工作室:新空间代码工作室(提供各种软件服务) 💌个人邮箱:[2435024119@qq.com] 📱个人微信:15279484656 🌐个人导航网站:www.forff.top 💡座右铭:总有人要赢。为什么不能是我呢? 专栏导…

【Linux】全志Tina etc目录下关键文件内容修改

一、文件位置 V:\f1c100s\Evenurs\f1c100s\tina\target\allwinner\c200s-F1C200s\busybox-init-base-files\etc\ssv6x5x-wifi.cfg 二、文件内容 三、介绍 在此目录下,可以修改在etc目录下的文件内容,此处举例修改一个wifi模块的配置文件数据。

【前端 20】Element-UI快速入门

探索Element UI组件库:快速搭建Vue应用的必备工具 在现代Web开发中,Vue.js以其轻量级和灵活性赢得了广泛的关注。而Element UI,作为Vue.js的一个UI组件库,更是为开发者们提供了丰富、易用的前端组件,极大地加速了开发过…

【Spring】——Spring概述、IOC、IOC创建对象的方式、Spring配置、依赖注入(DI)以及自动装配知识

🎼个人主页:【Y小夜】 😎作者简介:一位双非学校的大二学生,编程爱好者, 专注于基础和实战分享,欢迎私信咨询! 🎆入门专栏:🎇【MySQL&#xff0…

前端vue3 巧妙的checkbox 选中框样式

我们 做前端页面交互效果的时候 我们会使用到 checkbox 复选框 做一些交互的效果 我是用的是 nut-ui 组件库中的 checkbox 组件 类似于这样的选中效果 假如 二选一的那种 可以 这样写 交互好看 而不是单纯的 checkbox 框 这里我就不使用 gif 图片了 大家应该都可以看懂的 …

操作系统课程设计:(JAVA)进程管理系统(附源码zip,jdk11,IDEA Ultimate2024 )

一.题目要求描述 本设计的目的是加深对进程概念及进程管理各部分内容的理解;熟悉进程管理中主要数据结构的设计及进程调度算法、进程控制机构、同步机构及通讯机构的实施。要求设计一个允许n个进程并发运行的进程管理模拟系统。 该系统包括有简单的进程控制、同步与…

Spring AOP总结

1、AOP(Aspect-Oriented Programming):面向切面编程让开发更高效。 工作中经常需要处理日志记录、事物管理、安全控制等跨越多个业务模块的公共逻辑。 它是一种编程的范式。它通过将跨多个业务模块的公共逻辑抽取并封装成独立的模块&#xf…

微信小程序云开发订单微信支付与小票和标签打印的完整高效流程

一个字“全”!!! 前言一、流程设定1、如何开通云支付流程2、以订单下单为例的支付流程2.1 业务场景介绍2.2 业务场景流程图 二、代码与代码文件组成1、页面JS2、云函数payPre3、支付回调函数pay_cb3.1 准备条件3.2 必要认知3.3 pay_cb 完整函…

Python使用pytest-benchmark做基准测试

安装pytest-benchmark pip install pytest-benchmark代码编写 导入pytest import pytest我们以“在120以内的正整数中找出和120互质的正整数,并统计个数和求和”为例,比较穷举和使用数学技巧完成该任务的性能。 def coprime_120_1():count 0sum 0f…

Java 8-函数式接口

目录 一、概述 二、 函数式接口作为方法的参数 三、函数式接口作为方法的返回值 四、 常用的函数式接口 简单总结 简单示例 4.1 Consumer接口 简单案例 自我练习 实际应用场景 多线程处理 4.2 Supplier接口 简单案例 自我练习 实际应用场景 配置管理 4.3 Func…

MindIE Service服务化集成部署通义千问Qwen模型

一、昇腾开发者平台申请镜像 登录Ascend官网昇腾社区-官网丨昇腾万里 让智能无所不及 二、登录并下载mindie镜像 #登录docker login -u XXX#密码XXX#下载镜像docker pull XXX 三、下载Qwen的镜像 使用wget命令下载Qwen1.5-0.5B-Chat镜像,放在/mnt/Qwen/Qwen1.5-…

将项目部署到docker容器上

通过docker部署前后端项目 前置条件 需要在docker中拉去jdk镜像、nginx镜像 docker pull openjdk:17 #拉取openjdk17镜像 docker pull nginx #拉取nginx镜像部署后端 1.打包后端项目 点击maven插件下面的Lifecycle的package 对后端项目进行打包 等待打包完成即可 2.将打…

源码搭建国内微短剧系统上架(微信抖音)所需资质全面解析

随着短视频和微短剧市场的持续升温,越来越多的企业和个人开始关注并尝试进入这一领域。微短剧以其短小精悍、内容丰富的特点,吸引了大量用户的关注。对于想要搭建并运营自己的微短剧系统的创业者来说,选择合适的平台以及准备必要的资质成为了…

Linux下文件编译器-GCC/G++

前言 本文介绍了c/c的编译过程以及gcc/g的时使用 一.c/c翻译的本质:将高级语言翻译成二进制 1)程序翻译过程: (1)预处理(头文件展开、宏替换、去注释、条件编译)还是C语言代码 ​ …

ad9361 CTRL_OUT0~7对应能读到的状态

ad9361 CTRL_OUT对应能读到的状态

新手小白如何投放知乎信息流广告推广?

随着越来越多的企业开始寻求更有效的方式来触达目标客户,知乎作为一个集知识分享、社交互动于一体的平台,已经成为众多品牌青睐的广告投放渠道之一。特别是知乎的信息流广告,因其高度融合的内容形式和精准的目标用户定向,成为了品…