帕金森病(PD)诊断:三种基于语音的深度学习方法

        帕金森病(Parkinson’s disease, PD)是世界上第二大流行的神经退行性疾病,全球影响着超过1000万人,仅次于阿尔茨海默症。人们通常在65岁左右被诊断出患有此病。PD的一些症状包括震颤、肌肉僵硬和运动迟缓。这些症状往往出现在较晚的阶段,使得仅基于这些症状的早期诊断变得困难。PD可以影响语音产生的各个方面,包括发音、声音的音调和响度、韵律以及声音的质量,导致语音障碍特征表现为声音嘶哑(dysphonia)和言语障碍(dysarthria)。声音嘶哑意味着产生声音的能力降低,而言语障碍指的是产生单词的困难。这些语音障碍可能在其他症状出现前长达五年就已发生,表明早期PD诊断实际上是可能的。

       在前面已经有2篇文章针对帕金森病(PD)诊断进行了阐述,有兴趣的朋友可以直接翻阅以下链接:

首次使用回声状态网络 (ESN) 和语音特征进行帕金森病 (PD) 预测

PPINtonus (深度学习音调分析)帕金森病早期检测系统

     本文研究分析了三种基于语音的深度学习方法(端到端学习 (E2E) 、迁移学习 (Transfer Learning, TL) 、深度声学特征 (Deep Acoustic Features, DAF)),讲述各学习方法的性能、挑战及应用情况。

1 端到端学习(E2E)

在E2E方法中,原始语音信号可以直接映射到最终输出,与传统的基于高斯混合模型(GMMs)和隐马尔可夫模型(HMMs)的语音识别流程不同。在传统方法中,必须提取手工设计的特征(如梅尔频率倒谱系数MFCCs),然后使用语言模型将这些特征映射到文本符号,最后进行分类。E2E方法避免了手动特征提取,允许模型学习从输入到输出的直接映射。

1.1 E2E 学习的优势

  • 自动特征提取:E2E 学习可以自动从语音信号中提取具有区分性的特征,无需手动设计特征工程,节省了时间和精力。
  • 减少错误累积:E2E 学习避免了手动特征提取过程中可能出现的错误,例如特征选择不当或特征提取方法不适用等,从而提高了分类的准确率。
  • 模型优化:E2E 学习可以端到端地优化模型参数,使得模型能够更好地学习数据中的规律,并提高分类性能。

1.2 E2E 学习的挑战

  • 数据需求量大:E2E 学习需要大量的训练数据来训练模型,而 PD 语音数据集相对较小,这限制了模型的训练效果和泛化能力。
  • 模型复杂度高:E2E 模型通常比较复杂,需要大量的计算资源进行训练和推理,这增加了模型的部署难度。
  • 可解释性差:E2E 模型的决策过程难以解释,难以理解模型是如何进行分类的,这限制了模型的实际应用。

1.3 E2E 学习在 PD 语音分类中的应用

  • CNN 架构:卷积神经网络 (CNN) 是 E2E 学习中最常用的模型架构之一,它可以有效地学习语音信号中的局部特征,例如声谱图中的频谱特征。
  • LSTM 架构:长短期记忆网络 (LSTM) 可以有效地学习语音信号中的长期依赖关系,例如音节的时序特征。
  • Transformer 架构:Transformer 架构在自然语言处理领域取得了突破性的成果,近年来也被应用于语音信号处理领域,并展现出强大的潜力。

2 迁移学习 (Transfer Learning, TL)

TL方法通过利用在一个大型数据库上预训练的深度神经网络(DNN),然后将这些网络应用到另一个通常数据量较小的任务上。这种方法可以解决数据可用性问题,因为它允许模型利用在源领域学到的知识来提高在目标领域的性能。特别是跨语言的TL方法,已被证明可以增强诊断系统的稳健性,并在不同语言之间提高适用性。

2.1 迁移学习的优势

  • 解决数据稀缺问题:PD 语音数据集通常规模较小,难以训练大型深度学习模型。
  • TL 允许我们利用在其他大规模语音数据集(如 ImageNet)上预训练的模型,并将其迁移到 PD 语音数据集上进行微调。这样可以显著减少对大量标注数据的依赖,并提高模型的泛化能力。
  • 跨语言应用:不同语言之间存在差异,例如发音、语调等。TL 可以帮助我们将在一个语言上训练好的模型迁移到另一个语言上,从而实现跨语言 PD 分类。
  • 这对于开发通用的 PD 诊断系统具有重要意义,可以方便不同语言人群使用。
  • 提高模型性能:通过迁移学习,模型可以学习到更通用的特征,从而提高在目标语言或任务上的性能。一些研究表明,使用 TL 的模型在 PD 分类任务中取得了比仅使用目标语言数据训练的模型更好的性能。

2.2 迁移学习的挑战

  • 如何选择合适的基础模型和微调策略。
  • 如何处理不同语言之间的差异。
  • 如何评估 TL 模型的性能。

3 深度声学特征 (Deep Acoustic Features, DAF)

DAF方法旨在通过使用深度学习模型从音频信号中自动提取特征,来提高结果的可解释性和解释性。这些特征可以在深度学习模型的最后层中使用,也可以用作更传统机器学习方法的输入。尽管DAF方法可能在性能上不如E2E和TL方法,但它们通过检查深度特征对PD分类的影响,提供了对模型决策过程的更多洞察。

3.1 DAF 的提取方式

  • 从端到端 (E2E) 模型中学习: 将原始语音信号输入 E2E 模型,例如卷积神经网络 (CNN) 或 Transformer,模型会自动学习并提取特征,并在最终层进行分类。
  • 使用预训练模型: 使用已经在大规模数据集上预训练的模型,例如 Wav2Vec2.0、VGGish 或 SoundNet,生成 DAF。
  • 使用自编码器: 使用自编码器学习并提取音频信号的低维表示,作为 DAF。

3.2 DAF 的优势

  • 无需手动特征工程: DAF 的提取过程完全自动化,无需手动设计特征,节省了时间和精力。
  • 更鲁棒: DAF 能够更好地捕捉音频信号中的细微变化,对噪声和说话人差异更鲁棒。
  • 更抽象: DAF 能够捕捉到更高层次的特征,例如说话人的语音风格、语调等,这些特征对 PD 诊断更有价值。

3.3 DAF 的挑战

  • 解释性差: 由于 DAF 是自动学习的,其背后的原理和特征含义难以解释,这限制了 DAF 在临床应用中的推广。
  • 性能不如 E2E 和 TL: 目前 DAF 的性能通常不如 E2E 和迁移学习 (TL) 方法,这可能是因为 DAF 缺乏对特定任务的针对性。

4 实际应用情况

  • E2E 学习: CNN 架构通常可以达到 90% 以上的准确率,Transformer 架构也展现出与 CNN 相当的性能。
  • TL: TL 方法通常可以达到 60% 到 90% 的准确率,跨语言 TL 可以进一步提高准确率。
  • DAF: DAF 方法可以达到 87% 以上的准确率,并且比传统特征(如 MFCC)表现更好。

5 数据集

数据集名称(年份)

来源 #参与者

语言

总语音时长

数据质量

语音任务

备注

Saarbruecken Voice Database (2006)

1002参与者

德语

±300分钟

麦克风录音

1. 正常、高和低音的元音(i, a, u)。2. 音高变化的元音(i, a, u)。3. "Guten Morgen, wie geht es Ihnen?"句子。

851名健康对照组(HC),平均年龄9-84岁。

PC-GITA (2014)

100

西班牙语

±900分钟

麦克风录音

1. 持续元音。2. 快速重复单词和音节(DDK)。3. 单词和句子的重复。4. 对话阅读。5. 强调特定单词的句子阅读。

50名PD患者,平均年龄33-77岁。

Parkinson Speech Dataset with Multiple Types of Recordings (2014)

68 (40训练,28测试)

土耳其语

未提供

麦克风录音

1. 持续元音(/a/, /o/, /u/)。2. 数字(1到10)。3. 单词。4. 短句。

20名PD患者,平均年龄43-79岁。

Italian Parkinson’s Voice and Speech (2017)

65

意大利语

±116分钟

麦克风录音

1. 阅读语音平衡文本。2. 发音/pa/和/ta/音节。3. 元音/a/, /e/, /i/, /o/和/u/的音调。4. 阅读语音平衡单词。5. 阅读语音平衡句子。

28名PD患者,平均年龄40-89岁。

Parkinson’s Disease Classification (2018)

252

土耳其语

未提供

麦克风录音

持续元音/a/。

188名PD患者,平均年龄33-87岁。

Synthetic Vowels of Speakers with Parkinson’s Disease and Parkinsonism (2019)

83

捷克语

±385分钟

麦克风录音

持续元音/a/和/i/。

22名PD患者,21名多系统萎缩(MSA)患者,18名进行性核上性麻痹(PSP)患者,22名健康对照组。

NeuroVoz (2024)

108

西班牙语

±106分钟

麦克风录音

1. 持续元音3秒。2. DDK 10秒。3. 听后重复的语句。4. 自由独白30秒。

53名PD患者,平均年龄71.13岁。55名健康对照组,平均年龄64.04岁。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3268695.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

跟《经济学人》学英文:2024年07月20日这期 Japan’s strength produces a weak yen

Japan’s strength produces a weak yen Currency meddling will prove futile 货币干预将被证明是徒劳的 meddling:干涉;摸弄;(meddle的现在分词形式) futile: 美 [ˈfjuːtl] 无效的;徒劳…

RKNN3588——YOLOv10的PT模型转RKNN模型

一:PT转ONNX 修改yolov10的源码 1. 修改head.py文件,在lass v10Detect(Detect)中的forward添加 # 导出onnx增加y []for i in range(self.nl):t1 self.one2one_cv2[i](x[i])t2 self.one2one_cv3[i](x[i])y.append(t1)y.append(t2)return y# 导出onnx…

(精校版)高校大数据实验室建设解决方案

在当今数据驱动的时代,大数据已成为推动社会发展的核心动力。高校作为培养未来社会精英和科技创新人才的摇篮,迫切需要建设大数据实验室,以应对日益增长的大数据人才需求和科学研究挑战。大数据实验室不仅能够提供先进的教学资源和实践平台&a…

mysql面试(七)

前言 本章节列出了mysql在增删改查的时候,分别会涉及到哪些锁类型,又是如何交互的。 这个章节也是mysql面试基础系列的最后一章,后面准备更新redis数据类型和分布式锁相关问题。如果各位看官有什么问题的话,可以留言。 锁 之前…

leetocde662. 二叉树最大宽度,面试必刷题,思路清晰,分点解析,附代码详解带你完全弄懂

leetocde662. 二叉树最大宽度 做此题之前可以先做一下二叉树的层序遍历。具体题目如下: leetcode102二叉树的层序遍历 我也写过题解,可以先看看学习一下,如果会做层序遍历了,那么这题相对来说会简单很多。 具体题目 给你一棵…

Vue3+Element Plus 实现table表格中input的验证

实现效果 html部分 <template><div class"table"><el-form ref"tableFormRef" :model"form"><el-table :data"form.detailList"><el-table-column type"selection" width"55" align&…

Wonder3D 论文学习

论文链接&#xff1a;https://arxiv.org/abs/2310.15008 代码链接&#xff1a;https://github.com/xxlong0/Wonder3D 解决了什么问题&#xff1f; 随着扩散模型的提出&#xff0c;3D 生成领域取得了长足进步。从单张图片重建出 3D 几何是计算机图形学和 3D 视觉的基础任务&am…

【限免】16PAM、16PSK、16QAM、16CQAM星座图及误码率【附MATLAB代码】

​微信公众号&#xff1a;智能电磁频谱算法 QQ交流群&#xff1a;949444104 主要内容 MATLAB代码 % Parameters M 16; N 4; % Number of circles for CQAM SNR_dB 0:2:25; % Extended SNR range to reach higher values num_symbols 1e5; % Total number of symbols for s…

Linux学习笔记 --- 环境配置

在成功装载Ubuntu系统后我们需要设置其与windows系统的共享文件夹&#xff0c;按照以下步骤操作 设置完共享文件夹后在终端执行以下命令查看是否成功设置 此时下方出现设置的共享文件夹名称则为成功设置 如果未显示可以尝试进行重新安装VMware tools&#xff0c;步骤如下&…

git等常用工具以及cmake

一、将git中的代码克隆进电脑以及常用工具介绍 1.安装git 首先需要安装git sudo apt install git 注意一定要加--recursive&#xff0c;因为文件中有很多“引用文件“&#xff0c;即第三方文件&#xff08;库&#xff09;&#xff0c;加入该选项会将文件中包含的子模…

系统架构设计师②:操作系统

系统架构设计师②&#xff1a;操作系统 操作系统作用 ①管理系统的硬件、软件、数据资源 ②控制程序运行 ③人机之间的接口 ④应用软件与硬件之间的接口 进程管理 进程是程序在一个数据集合上运行的过程&#xff0c;它是系统进行资源分配和调度的一个独立单位。它由程序块、…

FastAPI(七十八)实战开发《在线课程学习系统》接口开发-- 评论

源码见&#xff1a;"fastapi_study_road-learning_system_online_courses: fastapi框架实战之--在线课程学习系统" 梳理下思路 1.判断是否登录 2.课程是否存在 3.如果是回复&#xff0c;查看回复是否存在 4.是否有权限 5.发起评论 首先新增pydantic模型 class Cour…

如何系统的学习C++和自动驾驶算法

给大家分享一下我的学习C和自动驾驶算法视频&#xff0c;收藏订阅都很高。打开下面的链接&#xff0c;就可以看到所有的合集了&#xff0c;订阅一下&#xff0c;下次就能找到了。 【C面试100问】第七十四问&#xff1a;STL中既然有了vector为什么还需要array STL中既然有了vec…

C#如何引用dll动态链接库文件的注释

1、dll动态库文件项目生成属性中要勾选“XML文档文件” 注意&#xff1a;XML文件的名字切勿修改。 2、添加引用时XML文件要与DLL文件在同一个目录下。 3、如果要是添加引用的时候XML不在相同目录下&#xff0c;之后又将XML文件复制到相同的目录下&#xff0c;需要删除引用&am…

VUE3学习第三篇:报错记录

1、在我整理好前端代码框架后&#xff0c;而且也启动好了对应的后台服务&#xff0c;访问页面&#xff0c;正常。 2、报错ReferenceError: defineModel is not defined 学到这里报错了 在vue网站的演练场&#xff0c;使用没问题 但是在我自己的代码里就出问题了 3、watchEffec…

企业公户验证API如何使用JAVA、Python、PHP语言进行应用

在纷繁复杂的金融与商业领域&#xff0c;确保每笔交易的安全与合规是至关重要的。而企业公户验证API&#xff0c;正是这样一位默默守护的数字卫士&#xff0c;它通过智能化的手段&#xff0c;简化了企业对公账户验证流程&#xff0c;让繁琐的审核变得快捷且可靠。 什么是企业公…

【北京迅为】《i.MX8MM嵌入式Linux开发指南》-第三篇 嵌入式Linux驱动开发篇-第五十七章 Linux中断实验

i.MX8MM处理器采用了先进的14LPCFinFET工艺&#xff0c;提供更快的速度和更高的电源效率;四核Cortex-A53&#xff0c;单核Cortex-M4&#xff0c;多达五个内核 &#xff0c;主频高达1.8GHz&#xff0c;2G DDR4内存、8G EMMC存储。千兆工业级以太网、MIPI-DSI、USB HOST、WIFI/BT…

普元开源OBS仓颉版客户端,相较于Java实现桶创建接口平均响应时长缩小46.8%

关于作者&#xff1a;许飞锋&#xff0c;资深软件工程师&#xff0c;参与公司多个核心产品的设计与开发&#xff0c;对中间件相关技术及组件研究较多&#xff0c;对仓颉语言特性及神农框架理解较深入。 01‍ 关于OBS仓颉版客户端 1.1 组件定位 对象存储服务软件开发工具包&…

Canvas生成动画---显示一组彩色气泡

一、JS版本 <!--* Author: LYM* Date: 2024-07-26 13:51:47* LastEditors: LYM* LastEditTime: 2024-07-26 16:14:40* Description: Please set Description --> <!DOCTYPE html> <html> <head><title>canvas动态气泡</title><style&g…

Spring Boot的Web开发

目录 Spring Boot的Web开发 1.静态资源映射规则 第一种静态资源映射规则 2.enjoy模板引擎 3.springMVC 3.1请求处理 RequestMapping DeleteMapping 删除 PutMapping 修改 GetMapping 查询 PostMapping 新增 3.2参数绑定 一.支持数据类型: 3.3常用注解 一.Request…