MSA+抑郁症模型总结（三）（论文复现）

本文所涉及所有资源均在传知代码平台可获取

文章目录

- MSA+抑郁症模型总结（三）（论文复现）
- 热门研究领域：情感计算的横向发展
- - 一、概述
  - 二、论文地址
  - 三、研究背景
  - 四、主要贡献
  - 五、模型结构和代码
  - - 总体框架
    - 模态表征学习
    - 模态融合
  - 六、数据集介绍
  - 七、性能展示
  - 八、复现过程
  - 九、运行过程
  - 总结

热门研究领域：情感计算的横向发展

随着社交网络的不断发展，近年来出现了多模态数据的热潮。越来越多的用户采用媒体形式的组合（例如文本加图像、文本加歌曲、文本加视频等）。来表达他们的态度和情绪。多模态情感分析（MSA）是从多模态信息中提取情感元素进行情感预测的一个热门研究课题。传统的文本情感分析依赖于词、短语以及它们之间的语义关系，不足以识别复杂的情感信息。随着面部表情和语调的加入，多模态信息（视觉、听觉和转录文本）提供了更生动的描述，并传达了更准确和丰富的情感信息。先前的研究证实，不同模式之间通常存在潜在的相互作用。下图显示了MSA的优势。比如，有些句子的情绪是模棱两可的，不同的情境下有各种各样的情绪。在引入相应的音频信息之后，可以更准确地预测情绪的极性。这些相互作用的有效建模仍然是一个开放的挑战。

在这里插入图片描述

同时，竞争激烈的市场和保持竞争领先的需要对组织在生产力、创新等方面提出了更多的要求。繁重的工作量、更紧迫的期限、不切实际的目标、更长的工作时间、工作不安全感和人际冲突等导致员工之间的紧张关系。这反过来又为组织内的员工创造了一个紧张的工作环境。超过一定限度的压力会对员工的工作效率、士气和积极性产生负面影响。它还导致各种生理和心理问题。长期的压力会导致失眠、抑郁和心脏病。最近的研究人员发现长期的压力和癌症之间存在正相关。国际劳工组织在2019年宣布，“压力，过长的工作时间和疾病，导致每年近280万工人死亡，另外3. 74亿人因工作受伤或生病”。早期诊断和治疗对于减少压力对员工健康的长期影响和改善工作环境条件至关重要。检测抑郁症的常规方法是由生理学家进行问卷访谈。但这种方法是定性的、耗时的和不私密的。没有保证员工提供真实的答案，很多时候这种方法并没有达到初步筛选的目标。但是，HRV（心率变异性）、ECG（心电图）、GSR（皮肤电反应）、血压、肌电图和EEG（脑电图）是客观的，但没有私密性，并且由于其能够推断私人健康信息，员工可能对这些测试有抵抗力。因此，在最近的工作中，已经研究了来自视频、音频和文本的抑郁症监测。基于视频的研究跟踪了嘴唇、头部、心脏、眨眼频率、凝视的分布、瞳孔的大小和眼睛在面部各个区域的运动。基于语音的方法提取诸如功率电平、LPCC、MPCC、倒谱系数等特征，并使用机器学习算法进行分类以强调。基于文本的方法基于文本的方法从文本中提取句法和语言特征，并使用机器学习分类器来检测重音。

在这里插入图片描述

我致力于对情感计算领域的经典模型进行分析、解读和总结，此外，由于现如今大多数的情感计算数据集都是基于英文语言开发的，我们计划在之后的整个系列文章中将中文数据集（SIMS, SIMSv2）应用在模型中，以开发适用于国人的情感计算分析模型，并应用在情感疾病（如抑郁症、自闭症）检测任务，为医学心理学等领域提供帮助，此外还加入了幽默检测数据集，在未来，我也计划加入更多小众数据集，以便检测更隐匿的情感，如嫉妒、嘲讽等，使得AI可以更好的服务于社会。

一、概述

这篇文章，我开始介绍第三篇情感计算经典论文模型，他是ACMMM 2020的一篇多模态情感计算的论文 “MISA: Modality-Invariant and -Specific Representations for Multimodal Sentiment Analysis”，其中提出的模型是MISA；
此外，原创部分为加入了抑郁症数据集以实现抑郁症检测任务，以及在SIMS数据集和SIMV2数据集上进行实验；值得注意的是，我们还加入了幽默检测的任务；

二、论文地址

MISA: Modality-Invariant and -Specific Representations for Multimodal Sentiment Analysis

三、研究背景

多模态情感分析和抑郁症检测是一个活跃的研究领域，它利用多模态信号对用户生成的视频进行情感理解和抑郁症程度判断。解决这一问题的主要方法是发展先进的模态融合技术。然而，信号的异质性造成了分布模式的差距，构成了重大挑战。在本文中，我们的目标是学习有效的模态表示，以帮助融合的过程。

四、主要贡献

提出MISA，一个简单而灵活的多模态学习框架，强调多模态表示学习作为多模态融合的前体。MISA学习modality-invariant和modality-specific表示，以提供多模态数据的全面和分解视图，从而帮助融合预测情感状态；
MSA任务的实验证明了MISA的强大功能，其中学习的表示帮助简单的融合策略超越复杂的最先进的模型。

五、模型结构和代码

总体框架

如下图所示，MISA的功能可以分为两个主要阶段：模态表征学习和模态融合。

在这里插入图片描述

模态表征学习

语言层面的表征。首先，对于每个模态 m∈{l，v，a}m∈{l，v，a}，把它的话语序列 Um∈RTm×dmU**m∈RTm×d**m映射到一个固定大小的向量um∈Rdhu**m∈Rdh上。使用一个堆叠LSTM，它的端态隐藏表示与一个完全连接的密集层相结合，给出了umu**m：

在这里插入图片描述

模态不变和特定的表征。现在将每个话语向量 umu**m投射到两个不同的表示。第一个是 modality-invariant组件，它学习一个具有分布相似性约束的公共子空间共享表示。该约束有助于最小化异质性间隙–这是多模融合的理想特性。第二个是特定于模态的组件，它捕获了该模态的独特特征。通过这篇论文，我们论证了模态不变和模态特定表示的存在为有效融合提供了一个整体的视角。学习这些表示法是该工作的首要目标。

if not self.config.use_cmd_sim:# discriminatorreversed_shared_code_t = ReverseLayerF.apply(self.utt_shared_t, self.config.reverse_grad_weight)reversed_shared_code_v = ReverseLayerF.apply(self.utt_shared_v, self.config.reverse_grad_weight)reversed_shared_code_a = ReverseLayerF.apply(self.utt_shared_a, self.config.reverse_grad_weight)self.domain_label_t = self.discriminator(reversed_shared_code_t)self.domain_label_v = self.discriminator(reversed_shared_code_v)self.domain_label_a = self.discriminator(reversed_shared_code_a)else:self.domain_label_t = Noneself.domain_label_v = Noneself.domain_label_a = Noneself.shared_or_private_p_t = self.sp_discriminator(self.utt_private_t)self.shared_or_private_p_v = self.sp_discriminator(self.utt_private_v)self.shared_or_private_p_a = self.sp_discriminator(self.utt_private_a)self.shared_or_private_s = self.sp_discriminator( (self.utt_shared_t + self.utt_shared_v + self.utt_shared_a)/3.0 )# For reconstructionself.reconstruct()

模态融合

在将模态投影到它们各自的表示中之后，我们将它们融合到一个联合向量中，用于下游预测。我们设计了一个简单的融合机制，首先执行自注意-基于Transformer，然后是所有六个变换的模态向量的级联。

融合进程：首先，我们堆叠六个模态表示矩阵。然后，我们在这些表示上执行多头自注意，以使每个向量都知道其他跨模态（和跨子空间）表示。这样做允许每个表征从同伴表征中诱导潜在的信息，这些信息对总体情感取向是协同的。这种跨模态匹配在最近的跨模态学习方法中已经非常突出。

# Projecting to same sized space
self.utt_t_orig = utterance_t = self.project_t(utterance_t)
self.utt_v_orig = utterance_v = self.project_v(utterance_v)
self.utt_a_orig = utterance_a = self.project_a(utterance_a)
self.utt_private_t = self.private_t(utterance_t)
self.utt_private_v = self.private_v(utterance_v)
self.utt_private_a = self.private_a(utterance_a)
self.utt_shared_t = self.shared(utterance_t)
self.utt_shared_v = self.shared(utterance_v)
self.utt_shared_a = self.shared(utterance_a)

六、数据集介绍

1. CMU-MOSI: CMU-MOSI数据集是MSA研究中流行的基准数据集。该数据集是YouTube独白的集合，演讲者在其中表达他们对电影等主题的看法。MOSI共有93个视频，跨越89个远距离扬声器，包含2198个主观话语视频片段。这些话语被手动注释为[-3，3]之间的连续意见评分，其中-3/+3表示强烈的消极/积极情绪。

2. CMU-MOSEI: CMU-MOSEI数据集是对MOSI的改进，具有更多的话语数量，样本，扬声器和主题的更大多样性。该数据集包含23453个带注释的视频片段（话语），来自5000个视频，1000个不同的扬声器和250个不同的主题

3. AVEC2019: AVEC2019 DDS数据集是从患者临床访谈的视听记录中获得的。访谈由虚拟代理进行，以排除人为干扰。与上述两个数据集不同的是，AVEC2019中的每种模态都提供了几种不同的特征。例如，声学模态包括MFCC、eGeMaps以及由VGG和DenseNet提取的深度特征。在之前的研究中，发现MFCC和AU姿势分别是声学和视觉模态中两个最具鉴别力的特征。因此，为了简单和高效的目的，我们只使用MFCC和AU姿势特征来检测抑郁症。数据集用区间[0，24]内的PHQ-8评分进行注释，PHQ-8评分越大，抑郁倾向越严重。该基准数据集中有163个训练样本、56个验证样本和56个测试样本。

4. SIMS/SIMSV2: CH-SIMS数据集[35]是一个中文多模态情感分析数据集，为每种模态提供了详细的标注。该数据集包括2281个精选视频片段，这些片段来自各种电影、电视剧和综艺节目，每个样本都被赋予了情感分数，范围从-1（极度负面）到1（极度正面）

5. UR_FUNNY: 对于MHD，我们考虑最近提出的UR_FUNNY数据集。与情绪类似，幽默的产生和感知也是通过多通道进行的。因此，这个数据集提供了多模态的话语，作为从TED演讲中采样的笑点。它还为每个目标话语提供相关的上下文，并确保说话者和主题的多样性。每个目标话语被标记为幽默/非幽默实例的二元标签。

七、性能展示

在情感计算任务中，可以看到MSIA模型性能超越其他模型，证明了其有效性；

在这里插入图片描述

抑郁症检测任务，以下是MISA模型在抑郁症数据集AVEC2019中的表现：

在这里插入图片描述

SIMS数据集

在这里插入图片描述

八、复现过程

在准备好数据集并调试代码后，进行下面的步骤，附件已经调通并修改，可直接正常运行；

下载多模态情感分析集成包

pip install MMSA

进行训练

$ python -m MMSA -d mosi/dosei/avec -m mmim -s 1111 -s 1112

九、运行过程

训练过程

在这里插入图片描述

总结

适用场景

社交媒体情感分析：MISA模型适用于分析社交媒体平台上用户的多模态数据，包括文本、图像和音频，从而深入理解用户的情感倾向、态度和情绪变化。例如，可以用于监测社交媒体上的舆情、分析用户对特定事件或产品的反应等。
情感驱动的内容推荐：在内容推荐系统中，MISA模型可以根据用户的多模态数据，如观看历史、社交互动、文字评论等，推荐符合用户情感和兴趣的个性化内容，提升用户体验和内容吸引力。
智能健康监测：MISA模型在智能健康监测领域具有潜力，可以通过分析用户的语音情绪、面部表情和文字记录来监测心理健康状态，包括抑郁倾向和情绪波动，为个体提供早期干预和支持。
教育和人机交互：在教育领域，MISA模型可以用于情感教育和个性化学习支持。通过分析学生的情感表达和反馈，提供定制化的学习体验和情感指导，增强教育效果和学习动机。

项目特点

多模态融合： MISA模型能够有效整合文本、图像和音频等多种数据源，充分利用不同模态之间的关联性和信息丰富度，提升情感分析的全面性和准确性。
情感感知和表达建模：通过先进的深度学习技术，MISA模型能够深入学习和模拟情感感知与表达过程，实现对复杂情感信息的准确捕捉和高效表示。
自适应学习和个性化： MISA模型具备自适应学习能力，可以根据具体任务和用户需求调整情感建模策略，实现个性化的情感分析和反馈。
跨领域应用能力：由于其多模态分析的通用性和灵活性，MISA模型不仅适用于社交媒体分析和智能健康监测，还能应用于广告推荐、产品评价和人机交互等多个领域。