人工智能 (AI) 应用:一个异常肺呼吸声辅助诊断系统

关键词:深度学习、肺癌、多标签、轻量级模型设计、异常肺音、音频分类

近年来,流感对人类的危害不断增加,COVID-19疾病的迅速传播加剧了这一问题,导致大多数患者因呼吸系统异常而死亡。在这次流行病爆发之前,呼吸系统疾病已经成为社会主要死亡原因之一,包括“五大”呼吸系统疾病:哮喘、慢性阻塞性肺病(COPD)、急性下呼吸道感染、肺癌和结核病。COPD在全球致命疾病中排名第三,每年夺去320万人的生命,占所有慢性呼吸系统疾病死亡的81.7%。

随着肺部疾病的关注度日益增加,这些疾病的早期诊断也成为关注的焦点。通过听诊监测呼吸音是评估患者呼吸健康的传统方法,医生通常使用听诊器作为诊断肺部疾病和异常的临床工具。听诊器的主要目的是在给定时间框架内识别呼吸音的变化,如喘鸣、啰音和喘息

  • 啰音是短暂、爆炸性、非音乐性的声音,通常出现在有实质性肺部疾病的患者中,如肺炎、间质性肺纤维化(PF)和肺水肿。
  • 喘鸣是与气道疾病如哮喘和慢性阻塞性肺病(COPD)相关的异常呼吸音,其特征是高音调,持续时间超过80毫秒。喘鸣被描述为一种连续的哨声和嘶嘶声,叠加在正常呼吸上。喘鸣是由气道狭窄引起的,导致气流受。
  • 喘息是一种类似于喘鸣的连续气道声音,其特征是嘶嘶声和音乐般的音质。这种声音主要在吸气时听到,但有时也可能出现于呼气或两个阶段。与喘鸣不同,喘息是由喉部或支气管树的气流湍流引起的,通常与上呼吸道阻塞有关。

这些不同类型的呼吸音在诊断各种肺和气道疾病中起着至关重要的作用。使用听诊器听肺音是一种传统技术,也是专家对呼吸系统疾病的初步评估中最受欢迎的诊断方法。听诊的优点包括是一种非侵入性诊断方法和有效的辅助诊断工具,有助于诊断和区分各种呼吸系统疾病。然而,这种诊断方法也有局限性,如下所述:

  • 主观性强不同医生对呼吸音的解读存在差异,这取决于他们的经验、知识水平和听力能力。即使是经验丰富的医生,也可能对某些呼吸音产生不同的解读。这种主观性会导致诊断结果的不一致性,影响治疗方案的确定。
  • 易混淆不同异常呼吸音之间存在相似性,例如:哮喘的喘鸣音和声带功能障碍的喘鸣音: 这两种声音都表现为连续、高音调的哨声,波形呈正弦波,在时域上具有周期性。肺炎的爆裂音和肺纤维化的爆裂音: 这两种声音都表现为短暂、爆炸性、非音乐性的声音。这种相似性容易导致医生在初步诊断阶段产生混淆,难以准确区分不同的呼吸音,从而影响诊断结果和治疗方案的制定。
  • 效率低使用听诊器诊断需要医生花费大量时间和精力,尤其对于经验不足的医生来说,需要更长的时间才能准确识别和区分不同的呼吸音。在疫情或紧急情况下,需要快速评估大量患者的呼吸状况,传统方法难以满足这种需求。
  • 受环境因素影响周围环境噪音、患者的体位和呼吸状态等因素都会影响医生对呼吸音的判断。

1 方法

1.1 相关技术

1.1.1 可学习频谱前端模块

传统方法使用人工设计的特征变换,例如短时傅里叶变换(STFT)、梅尔频率倒谱系数(MFCC)和常数Q变换(CQT)等。这些变换存在固定的特征偏差,无法保证在所有任务中都获得最佳性能。

可学习频谱前端模块通过学习滤波器来提取特征,可以更好地适应不同的任务,并避免固定的特征偏差。

常见的可学习频谱前端模块包括:

  • 基于Mel滤波器组的滤波器学习: 将滤波器初始化在Mel尺度上,并与其他网络组件一起学习。
  • 基于原始波形的滤波器学习: 直接从原始波形中学习卷积滤波器,例如SincNET和EfficientLeaf。
  • 基于Gabor滤波器的滤波器学习: 使用Gabor滤波器,结合正弦信号和高斯核,实现时间-频率局部化。

1.1.2 深度学习架构

随着深度学习技术的发展,许多深度学习模型被应用于呼吸音识别任务,并取得了较好的性能。常见的深度学习架构包括:

  • 卷积神经网络(CNN): 用于提取时频特征,例如ResNet、CNN6和MobileNetV2等。
  • 循环神经网络(RNN): 用于处理序列数据,例如LSTM和GRU等。
  • 注意力机制: 用于捕捉时频特征之间的关系,例如Transformer和CSRA等。

预训练模型的使用可以弥补训练样本不足的问题,并提高模型性能。轻量级模型的设计可以降低模型复杂度,方便部署到便携式设备上。

1.2 数据集

本研究使用了在国际生物医学健康信息学会议(ICBHI 2017)上组织好的呼吸音数据库。ICBHI数据集包含6,898个呼吸周期,总计约5.5小时,并正式分为训练集(60%)和测试集(40%)。值得注意的是,在训练集和测试集的分割中,两个数据集之间的患者数据不重叠。每个呼吸周期被标记为以下四类之一:正常、啰音、喘鸣或啰音&喘鸣。训练集包含来自79名患者的539个记录,包括1,215个啰音周期、501个喘鸣周期、363个啰音&喘鸣周期和2,063个正常呼吸周期。类似地,测试集包括来自49名患者的381个记录,总计649个啰音周期、385个喘鸣周期、143个啰音&喘鸣周期和1,579个正常呼吸周期。

链接:

https://github.com/Maheswara1/ICBHI-Respiratory-Challenge-2017-dataset.

1.3 实验流程

  • 数据收集和划分:将数据集按照患者进行划分,分为训练集、验证集和测试集。
  • 特征提取:使用可学习的频谱前端模块或直接将音频信号转换为特征谱图。
  • 数据增强:使用随机改变音频的速度和音调等方法进行数据增强。
  • 模型设计:选择轻量级模型进行训练,并对分类器结构进行调整优化。
  • 多标签学习:将类别标签转换为多标签形式,并使用二分类交叉熵损失函数进行训练。
  • 多头注意力机制:在分类器中使用多头注意力机制,提高模型对时频特征的提取能力。
  • 模型评估:使用Score、Specificity和Sensitivity等指标评估模型性能。

1.4 数据预处理

1.4.1 采样率统一:将所有音频录音的采样率统一为16 kHz,方便后续处理和模型训练。

1.4.2 时长统一:由于每个患者的呼吸周期时长不同,使用循环填充将所有呼吸周期的时长扩展到8秒,保证模型输入的一致性。

1.4.3 特征提取

  • 可学习的频谱前端模块: 如果使用可学习的频谱前端模块,则直接提取特征。
  • 梅尔谱图: 将音频信号转换为梅尔谱图,使用64个Mel滤波器,窗口大小为1024,步长为512,最小频率为50 Hz,最大频率为2000 Hz。梅尔谱图的尺寸为(64, 256)。

1.4.4 数据增强

  • 随机改变速度和音调: 如果使用可学习的频谱前端模块,则对音频信号进行随机改变速度和音调,增加数据多样性。
  • 时间掩码和频率掩码: 对梅尔谱图进行时间掩码和频率掩码,模拟真实世界中的噪声和干扰,提高模型的鲁棒性。

1.4.5 标签转换:将类别标签转换为多标签形式,例如将“爆裂音&喘鸣音”转换为“爆裂音”和“喘鸣音”。

1.5 Multi-breath模型

1.5.1 特征提取器

  • 可学习的频谱前端模块: 可以使用EfficientLeaf等可学习频谱前端模块,学习滤波器并提取音频特征。
  • 梅尔谱图: 将音频信号转换为梅尔谱图,提取时间-频率特征。

1.5.2 多标签学习

  • 将类别标签转换为多标签形式,每个呼吸周期可以同时属于多个类别。
  • 使用二分类交叉熵损失函数进行训练,每个类别单独计算损失。

1.5.3 多头注意力机制

  • 类特定注意力机制: 针对每个类别,学习不同的注意力权重,突出显示与该类别相关的特征。
  • 全局平均池化(GAP)和全局最大池化(GMP): 对特征图进行全局平均池化和全局最大池化,提取全局特征。
  • 多头注意力机制: 使用多个注意力头,每个注意力头使用不同的温度参数,捕捉不同粒度的特征。
  • 最终特征: 将类特定注意力机制和全局特征进行融合,得到最终的特征表示。

1.5.4 分类器

使用Softmax函数对最终特征进行分类,得到每个类别的预测概率。

2 结论

2.1 不同模型的比较

上表格展示了不同模型在测试集上的性能比较,包括CNN14、ResNet22、CNN6和MobileNetV2等。结果表明,CNN14模型性能最好,但参数量较大。CNN6模型在参数量和性能之间取得了较好的平衡,是本研究的首选模型。

2.2 多标签学习方法的比较

上表格展示了多标签学习方法在不同模型上的性能比较。结果表明,多标签学习方法在CNN6模型上取得了最大的性能提升,说明多标签学习可以缓解类别不平衡和数据多样性不足的问题,提高模型的性能。

2.3 多头注意力机制的比较

上表格展示了多头注意力机制在不同模型上的性能比较。

结果表明,大多数模型在引入多头注意力机制后,性能都有所提升,并且模型参数量有所降低。MobileNetV2模型由于特征维度较低,引入多头注意力机制后性能略有下降。

2.4 可学习频谱前端模块的比较

上表格展示了可学习频谱前端模块与本研究设计模型的性能比较。

结果表明,CNN14模型结合可学习频谱前端模块后,性能没有明显提升。CNN6模型结合可学习频谱前端模块后,性能与传统的梅尔谱图特征提取方法相当。这说明可学习频谱前端模块的有效性取决于模型的复杂度,需要根据实际情况进行调整。

2.5 与现有方法的比较

上表格展示了Multi-breath模型与其他方法的性能比较,包括基于Transformer的模型和基于CNN的模型。

结果表明,Multi-breath模型在CNN6架构上取得了最优性能,并且在轻量级模型方面优于其他方法。Multi-breath模型在ICBHI 2017数据集上的Score达到59.2%,超过了现有的轻量级模型方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3247098.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

【时时三省】(C语言基础)变量

山不在高,有仙则名。水不在深,有龙则灵。 ——csdn时时三省 变量 可以改变的量 比如 int age=20 (类型 变量的名字=0) 如果后面要改可以直接代入 age=age1 age可以是任何字母 变量的分类…

微信小游戏 彩色试管 倒水游戏 逻辑 (四)

最近开始研究微信小游戏,有兴趣的 可以关注一下 公众号, 记录一些心路历程和源代码。 定义了一个名为 WaterFlow class,该类继承自 cc.Graphics,用于在 Cocos Creator 中创建和显示水流的动画效果。下面是对代码的详细解释&#x…

Qt实现简单的导航进度条——自定义控件

导航进度条通过其动态的视觉效果,‌不仅提供了任务进度的实时反馈,‌还增强了用户体验的流畅性和直观性。‌“进度”的设计方式多种多样,不同种类的运用需要根据具体场景来规划具体的进度方式,一般都要在清楚了解了每个方式的设计…

MySQL数据库慢查询日志、SQL分析、数据库诊断

1 数据库调优维度 业务需求:勇敢地对不合理的需求说不系统架构:做架构设计的时候,应充分考虑业务的实际情况,考虑好数据库的各种选择(读写分离?高可用?实例个数?分库分表?用什么数据库?)SQL及索引:根据需求编写良…

JavaEE--JavaWeb服务器的安装配置(Tomcat服务器安装配置)

前言: 本文介绍了 Java Web 服务器 Tomcat 的安装配置,并详细说明了如何在 IntelliJ IDEA 中配置服务器,创建 JavaEE 项目,并发布文章。文章首先解释了前端程序如何访问后端程序以及 Web 服务器的概念,然后详细介绍了安装 Tomcat…

各地跨境电子商务示范区工具变量DID数据(2010-2022年)

数据来源:参考李震等(2023)的做法,从官方网站上搜集整理了我国跨境电子商务示范区名单与上市公司进行匹配制作。时间跨度:2010-2022年数据范围:上市企业包含指标: stock year 证券简称 In…

大模型RAG优化方案与实践(非常详细)从入门到精通,看这一篇就够了

RAG通过检索现有的大量知识,结合强大的生成模型,为复杂的问答、文本摘要和生成任务带来了全新的解决方案。本文详细的介绍了RAG遇到的挑战、通用范式、工程实践、优化实现策略等。 一、RAG的背景介绍 随着ChatGPT的兴起,大语言模型再次走进…

伪分布式部署 DolphinScheduler

1.添加用户 useradd dolphinscheduler echo "dolphinscheduler" | passwd --stdin dolphinscheduler sed -i $adolphinscheduler ALL(ALL) NOPASSWD: NOPASSWD: ALL /etc/sudoers sed -i s/Defaults requirett/#Defaults requirett/g /etc/sudoers chown -R …

7.17IO

1. #include <sys/types.h> #include <dirent.h> DIR *opendir(const char *name); 功能描述&#xff1a;打开name文件夹&#xff0c;返回该文件夹的描述符 返回值&#xff1a;成功返回描述符&#xff0c;失败返回NULL opendir()函数打开与目录名对应的目录流…

ssrf复习(及ctfshow351-360)

1. SSRF 概述 服务器会根据用户提交的URL发送一个HTTP请求。使用用户指定的URL&#xff0c;Web应用可以获取图片或者文件资源等。典型的例子是百度识图功能。 如果没有对用户提交URL和远端服务器所返回的信息做合适的验证或过滤&#xff0c;就有可能存在“请求伪造"的缺陷…

C++之智能指针:shared_ptr、unique_ptr、weak_ptr的概念、用法即它们之间的关系

智能指针 (1)概述 A.Why&#xff08;C为什么引入智能指针&#xff09; C引入智能指针的根本原因就是解决手动管理动态内存所带来的问题&#xff0c;手动管理动态内存常见的问题如下&#xff1a;内存泄漏、悬挂指针、释放操作未定义等 内存泄漏问题&#xff1a; 当程序用光了它…

国产开源系统openEuler_24.03_LTS部署安装/基础配置/验证连接实操手册

前言&#xff1a; openEuler 是开放原子开源基金会&#xff08;OpenAtom Foundation&#xff09;孵化及运营的开源项目。 欧拉操作系统(openEuler&#xff0c;简称“欧拉”,“开源欧拉”)是面向数字基础设施的操作系统&#xff0c;支持服务器、云计算、边缘计算、嵌入式等应用场…

ctfshow~菜狗杯 你会数数吗

用010Editor打开文件附件 选择工具->直方图 选择记数&#xff0c;从上到下就是flag ctfshow{a1b2d3e4g56i7j8k9l0}

操作系统内核源码杂谈篇:临界区

临界资源&#xff0c;是指同一时刻只能由一个线程&#xff08;linux下为进程&#xff09;访问的资源&#xff0c;而临界区就是为了确保临界资源访问是单一数据流。 临界区的代码执行&#xff0c;也就是进行原子操作&#xff0c;不会被打断。 先分析RTOS的运行架构&#xff0c…

构建自定义bootos

1 构建自定义bootos BootOS (也称 ramos ),是一个基于内存的操作系统,系统启动后全部加载到内存中运行,不依赖磁盘存储设备,因此可以对硬件层级进行一系列的操作。主要分为两部分内核和文件系统。 1.1 构建vmlinuz内核文件 1.1.1 从现有系统获取 从系统iso镜像获…

3.5、matlab打开显示保存点云文件(.ply/.pcd)以及经典点云模型数据

1、点云数据简介 点云数据是三维空间中由大量二维点坐标组成的数据集合。每个点代表空间中的一个坐标点&#xff0c;可以包含有关该点的颜色、法向量、强度值等额外信息。点云数据可以通过激光扫描、结构光扫描、摄像机捕捉等方式获取&#xff0c;广泛应用于计算机视觉、机器人…

第100+16步 ChatGPT学习:R实现Xgboost分类

基于R 4.2.2版本演示 一、写在前面 有不少大佬问做机器学习分类能不能用R语言&#xff0c;不想学Python咯。 答曰&#xff1a;可&#xff01;用GPT或者Kimi转一下就得了呗。 加上最近也没啥内容写了&#xff0c;就帮各位搬运一下吧。 二、R代码实现Xgboost分类 &#xff08…

【北京迅为】《i.MX8MM嵌入式Linux开发指南》-第二篇 Linux系统编程篇-第三十二章 目录IO

i.MX8MM处理器采用了先进的14LPCFinFET工艺&#xff0c;提供更快的速度和更高的电源效率;四核Cortex-A53&#xff0c;单核Cortex-M4&#xff0c;多达五个内核 &#xff0c;主频高达1.8GHz&#xff0c;2G DDR4内存、8G EMMC存储。千兆工业级以太网、MIPI-DSI、USB HOST、WIFI/BT…

Window 安装Open Cascade

目录 一、下载软件 二、环境配置 一、下载软件 下载网址&#xff1a;Download - Open CASCADE Technology 新手推荐exe方式进行安装&#xff0c;直接就可以使用&#xff0c;这里使用 vc140 &#xff0c;配合vs2015来使用。 假设安装在D盘&#xff0c;安装完成如下&#xff…

栈和队列深入浅出

目录&#xff1a; 一. 栈的概念及使用 二.栈的相关经典OJ 三. 队列的概念及使用 二. 队列的相关经典OJ 一. 栈的概念及使用&#xff1a; 1. 概念&#xff1a; 栈一种特殊的线性表&#xff0c;其只允许在固定的一端进行插入和删除元素操作。进行数据插入和删除操作的一端称为栈…