BS-Diff | 扩散模型在骨抑制任务上的首次登场！

摘要

胸部 X 射线（CXR）是肺部筛查中常用的低剂量方式。然而，由于大约 75% 的肺部区域与骨骼重叠，这反过来又阻碍了疾病的检测和诊断，因此 CXR 的功效受到了一定程度的影响。作为一种补救措施，骨抑制技术已经问世。目前临床上使用的双能量减影成像技术需要昂贵的设备, 而且受试者会暴露在高辐射下。为了规避这些问题，人们提出了基于深度学习的图像生成算法。然而，现有方法在生成高质量图像和捕捉纹理细节（尤其是肺血管）方面存在不足。为了解决这些问题，作者提出了一种新的骨抑制框架，称为 BS-Diff，它由一个配备 U-Net 架构的条件扩散模型和一个包含自动编码器的简单增强模块组成。

1. Introduction

近年来，与肺部疾病相关的发病率和死亡率居高不下。胸部 X 光片（CXR）是一种广为接受的低剂量肺部筛查技术。然而，即使是技术娴熟的临床医生也可能会忽略肺部并不突出的病变，这主要是由于 CXR 中 75% 的肺部区域与骨骼重叠，从而阻碍了疾病的发现和诊断。为了提高临床诊断的准确性，人们引入了一种称为骨抑制的方法。目前最受推崇的方法是双能量减影（DES）成像技术。然而，这种技术需要昂贵的设备，并使患者暴露于较高的辐射剂量。因此，研究人员正在努力寻找危害较小、成本效益较高的骨抑制技术。

在早期的方法中，Suzuki 等人使用大规模人工神经网络从 CXR 中生成骨图像。然后再减去骨图像，生成类似软组织图像的图像。随后，Juhasz 等人使用主动形状模型分割 CXR 上的解剖结构并抑制骨阴影。他们将该模型应用于 JSRT 数据集，该数据集是目前唯一公开的同类数据集。然而，这些方法容易缺乏与骨骼结构相关的高级语义信息。因此，最近有几种骨抑制方法采用了深度学习技术来学习从 CXR 到软组织的映射。Yang等人开发了一种多尺度卷积神经网络（CNN）模型，用于图像梯度域内的骨抑制。该模型可以有效地学习稀疏特征，并取得了卓越的效果。Gusarev 等人将骨骼视为噪声级，分别采用自动编码器 (AE) 和具有各种损失函数的深度 CNN 来抑制骨骼。然而，这种方法由于无法捕捉高频细节而导致图像模糊。为了降低模糊度，Zhou 等人提出了一种多尺度条件生成对抗网络（GAN），以大幅保留高频细节并提高生成图像的清晰度。为了提高肺结核的分类和检测准确率，Rajaraman 等人利用性能最好的 ResNet-BS 开发了多个模型，大大抑制了骨骼。最近，Liu 等人利用一种特殊的数据校正方法和蒸馏学习算法，提出了一种用于侧位 CXR 的骨骼抑制技术。尽管如此，许多此类研究仍存在一些问题，如去噪苛刻或生成的骨图像质量不高，导致图像清晰度和纹理细节下降。此外，目前唯一可获得的数据集的质量也不够高。

最近，去噪扩散概率模型（DDPMs）这类新型生成模型浮出水面，以解决 GAN 中普遍存在的模式崩溃和不收敛问题。这些模型通过对随机噪声进行一系列变换来生成数据。在本文中，作者提出了一个名为 BS-Diff 的新框架，该框架集成了一个配备 U-Net 架构的条件扩散模型（CDM）和一个采用 AE 的直接增强模块。作者提出的方法证明了其生成高质量图像的能力，具有高度的骨抑制，并增强了捕捉复杂纹理细节（如肺部小血管）的能力。作者已经进行了全面的实验、比较、消融研究和临床评估，通过多种指标综合肯定了作者的 BS-Diff 优于现有的众多骨抑制模型。此外，作者还收集了 2010 年后最大的数据集，包括来自 120 名患者的高质量、高分辨率数据。该数据集包括成对的心血管造影和软组织图像，是与作者的合作医院共同收集的。作者研究的主要贡献可归纳如下：

这是一项开创性的研究，它利用扩散模型从 CXR 中生成软组织图像，从而解决并克服了 DES 的普遍局限性。

在增强模块中，作者引入了各种损失函数的创新组合，旨在更有效地囊括图像的空间特征和复杂纹理细节，同时保留图像的整体结构。

作者还收集了自 2010 年以来最广泛的数据集，其中包括与合作医院共同收集的 120 名患者的高质量、高分辨率配对图像。

通过全面的实验、比较分析、消融研究和临床评估，作者证实了作者提出的 BS-Diff 模型与几种高性能骨抑制模型相比的优越性能。

2. 方法

图1：作者提出的 BS-Diff 的总体结构。

作者提出的方法概览如图1所示。BS-Diff 模型通常分为两个阶段运行：第一阶段涉及采用 U-Net 架构的 CDM，第二阶段涉及使用 AE 的直接增强模块。在第一阶段，CDM 将高斯噪声和 CXR 作为输入，生成估计的软组织。随后，在第二阶段，AE 使用 CDM 的输出生成更清晰、更高质量的软组织图像。最重要的是，模型应保持软组织的纹理、颜色和肺血管，包括那些与骨骼结构重叠的组织。

3. Hybrid Loss Function

扩散模型的传统目标与作者的方法一致，都是利用均方误差（MSE）损失来预测前向处理过程中应用于图像的噪声。这一预测是通过噪声估计网络完成的。对于增强模块，作者提出了一种混合损失函数，旨在帮助网络生成更清晰、更锐利、更高质量的图像，同时保持出色的纹理细节。作者提出的损失函数包含多个新的加权损失。这些损失包括 MAE 损失、通过预训练 VGG-16 网络的感知损失（perceptual loss）、多尺度结构相似性（MS-SSIM）损失（multi-scale Structural Similarity loss），以及基于 Pix2PixHD 方法的补丁判别器上的对抗损失（adversarial loss ）。最终的损失函数可以表示为：

4. 对比

基于公平比较的原则，作者将所提出的模型与之前工作中的三种方法进行了比较：多尺度条件对抗网络（MCA-Net）、类似于自动编码器的卷积模型和ResNet-BS模型。为了评估生成的软组织，作者采用了骨抑制率（BSR）、SSIM、MSE和 PSNR指标。表1显示了不同方法的性能。总体而言，作者的方法在所有指标上都优于其他方法。由于亮度差异和纹理的明显损失，ResNet-BS 在所有评估指标上都表现最差，而类似于自动编码器的卷积模型和 MCA-Net 则表现出了相当的效果。总体而言，作者的方法超越了竞争模型，在 BSR、MSE、SSIM 和 PSNR 方面分别提高了至少 1.7%、0.003、0.015 和 0.164。图2展示了作者提出的两阶段 BS-Diff 的结果，它捕捉到了复杂的图像细节，保留了整体结构，并提高了性能。

表1：和之前工作的对比表现。

图2：CXR，DES软组织图像和作者的方法产生的软组织图像的可视化

5. 消融实验

为了评估 BS-Diff 中提出的增强模块的重要性，作者对有无该模块的模型进行了训练。作者发现，完全依赖 CDM 可生成更平滑的图像，但会忽略一些纹理细节；而使用增强模块生成的图像则不会出现这种情况。很明显，使用增强模块生成的图像效果更好，尤其是更清晰，PSNR 和 BSR 分数分别提高了 8.786 和 0.153，如表2所示。

表2：增强模块的消融表现。

6. Clinical evaluation

根据骨抑制应用评估标准，作者的模型生成的骨抑制图像由作者合作医院的三位不同专业水平的医生进行了独立评估。平均得分（最高分：3 分）如表3所示。结果表明，作者的软组织图像可以清晰地保留肺血管和中心气道的可见度，并极大地抑制了骨骼，这可以显著提高临床医生发现肺部病变的能力。

表3：作者提出的 BS-Diff 的临床评估。

7. 结论

为了减轻与 DES 设备相关的高成本和剂量问题，本文介绍了一种新型骨抑制框架 BS-Diff，该框架由一个 U-Net 架构的 CDM 和一个包含 AE 的直接增强模块组成。作者的方法能够生成具有高骨抑制率的高质量图像，并能增强辨别精细纹理信息的能力。综合实验和临床评估表明，作者提出的 BS-Diff 在多个指标上都优于现有的骨抑制模型。此外，作者还编制了 2010 年之后最大的高质量数据集，其中包括从作者的合作医院收集的 120 名患者的成对 CXR 和软组织图像数据。但仍有改进的余地。在本文中没有执行检测或分类等下游任务，可以进一步探索改进模型架构或引入更好的条件引导方法来精确控制生成。