SCI 1区论文:Segment anything in medical images(MedSAM)[文献阅读]

基本信息

  • 标题:Segment anything in medical images
  • 中文标题:分割一切医学图像
  • 发表年份: 2024年1月
  • 期刊/会议: Nature Communications
  • 分区: SCI 1区
  • IF:16.6
  • 作者: Jun Ma; Bo Wang(一作;通讯)
  • 单位:加拿大多伦多大学 健康网络中心
  • DOI:https://doi.org/10.1038/s41467-024-44824-z
  • 开源代码:https://github.com/bowang-lab/MedSAM

摘要: 医学图像分割是临床实践中的一个关键组成部分,有助于准确诊断、治疗计划和疾病监测。然而,现有的方法通常针对特定的模式或疾病类型,在各种医学图像分割任务中缺乏可推广性。在这里,我们介绍了MedSAM,这是一个基础模型,旨在通过实现通用医学图像分割来弥合这一差距。该模型是在大型医学图像数据集上开发的,有1570263对图像-掩码对,涵盖10种成像模式和30多种癌症类型。我们对86个内部验证任务和60个外部验证任务进行了全面评估,证明了比模态专家模型更好的准确性和稳健性。通过在广泛的任务中提供准确高效的分段,MedSAM在加快诊断工具的发展和治疗计划的个性化方面具有巨大潜力。

章节速览

  • Introduction
    1. Results
    • 1.1 MedSAM:快速医学图像分割的基础模型
    • 1.2 定量和定性分析
    • 1.2 训练数据集大小的影响
    • 1.4 MedSAM提升标注效率
    1. Discussion
    1. Methods
    • 3.1 数据集管理和预处理
    • 3.2 网络架构
    • 3.3 训练方案及实验设置
    • 3.4 损失函数
    • 3.5 人类注释
    • 3.6 评估指标
    • 3.7 统计分析
    • 3.8 使用软件
    • 3.9 报告总结

Introduction

医学图像分割领域对通用模型的需求日益增长:即一次训练后能够应用于广泛分割任务的模型。这样的模型不仅在模型容量方面表现出更高的多功能性,还有可能在不同任务中产生更加一致的结果。

然而,由于自然图像与医学图像之间存在显著差异,因此分割基础模型(例如 SAM)在医学图像分割领域的适用性仍然有限。SAM本质上是一种可提示的分割方法,需要使用点或边界框来指定分割目标

许多研究已经将开箱即用的SAM模型应用于典型的医学图像分割任务和其他具有挑战性的场景。我们进一步介绍了MedSAM,这是一种改进的基础模型,可显着增强 SAM 在医学图像上的分割性能。MedSAM 通过在包含超过一百万对医学图像-掩模对的前所未有的数据集上微调 SAM 来实现这一目标

1. Results

1.1 MedSAM:快速医学图像分割的基础模型

MedSAM 旨在发挥通用医学图像分割基础模型的作用。构建此类模型的一个关键方面是能够适应成像条件、解剖结构和病理条件的各种变化。为了应对这一挑战,我们策划了一个多样化的大规模医学图像分割数据集,其中包含 1,570,263 个医学图像掩模对,涵盖 10 种成像模式、30 多种癌症类型和多种成像协议

图1 该数据集涵盖了各种解剖结构、病理状况和医学成像模式。洋红色轮廓和掩模叠加分别表示专家注释和 MedSAM 分割结果

图1 轮廓细节

图 2a概述了数据集中不同医学成像模式的图像分布,按总数排序。很明显,计算机断层扫描(CT)、磁共振成像(MRI)和内窥镜检查是主要的检查方式,反映出它们在临床实践中的普遍性。

图 2a 数据集中不同医学成像模式的图像分布

我们采用了SAM中的网络架构,包括图像编码器、提示编码器和掩模解码器(图2b)。图像编码器将输入图像映射到高维图像嵌入空间。提示编码器通过位置编码将用户绘制的边界框转换为特征表示。最后,掩模解码器使用交叉注意力(方法)将图像嵌入和提示特征融合在一起。

图 2b 网络架构

1.2 定量和定性分析

我们通过内部验证和外部验证评估了 MedSAM。内部验证包含 86 个分割任务。外部验证包括 60 个分割任务,所有这些任务要么来自新数据集,要么涉及看不见的分割目标

图3:内部验证集的定量和定性评估结果

1.3 训练数据集大小的影响

我们还研究了不同数据集大小对 MedSAM 性能的影响,因为训练数据集大小已被证明对模型性能至关重要。我们还在两种不同的数据集大小上训练了 MedSAM:10K 和 100K 图像,并将它们的性能与默认的 MedSAM 模型进行了比较

图 5a:训练数据集大小的影响

增加训练图像的数量显着提高了内部和外部验证集的性能

1.4 MedSAM提升标注效率

此外,我们进行了人工注释研究来评估两个管道的时间成本(方法)。对于第一个管道,两名人类专家以逐片方式手动注释 3D 肾上腺肿瘤。对于第二条流程,专家们首先每隔3-10片用线性标记(初始标记)绘制肿瘤长轴和短轴,这是肿瘤反应评估的常见做法。然后,使用 MedSAM 根据这些稀疏线性注释对肿瘤进行分割。结果表明,在 MedSAM 的帮助下,两位专家的注释时间分别大幅减少了 82.37% 和 82.95%

图5 b MedSAM 可用于大幅减少注释时间成本

2. Discussion

尽管 MedSAM 拥有强大的功能,但它也存在一定的局限性

  • 训练集中的模态不平衡,其中 CT、MRI 和内窥镜图像在数据集中占主导地位。这可能会影响模型在较少代表性的模式(例如乳房X光检查)上的性能。
  • 它在分割血管状分支结构方面存在困难,因为在此设置中边界框提示可能不明确。例如,在眼底图像中,动脉和静脉共享相同的边界框。

然而,这些限制并没有削弱 MedSAM 的实用性。由于 MedSAM 从大规模训练集中学习了丰富且有代表性的医学图像特征,因此可以对其进行微调,以有效地将新任务从代表性较低的模式或复杂的结构(如血管)中分割出来。

3. Methods

3.1 数据集管理和预处理

数据来源:这些数据集是从互联网上的各种来源获得的,包括TCIA、Kaggle、Grand-Challenge、Scientific Data、CodaLab 和MICCAI。

数据处理:所有3D 数据集(DICOM、nrrd 或 mhd 格式)都转换为广泛使用的 NifTI 格式。此外,灰度图像(例如 X 射线和超声)以及 RGB 图像(包括内窥镜检查、皮肤镜检查、眼底和病理图像)也被转换为 png 格式。

归一化方案

  • CT图像归一化:对 Hounsfield 单位进行归一化。软组织、肺和脑所采用的窗口宽度和水平值分别为(W:400,L:40)、(W:1500,L:-160)和(W:80,L:40)。随后,强度值被重新调整到 [0, 255] 的范围。
  • MR、X 射线、超声波、乳房 X 光检查和光学相干断层扫描 (OCT) 图像,我们将强度值剪裁到第 0.5 个百分位数和第 99.5 个百分位数之间的范围,然后将其重新缩放到 [0, 255] 范围。
  • RGB图像(例如内窥镜、皮肤镜、眼底和病理图像),如果它们已经在[0, 255]的预期强度范围内,则它们的强度保持不变。但是,如果它们超出此范围,我们会利用最大-最小归一化将强度值重新调整为 [0, 255]。

图像尺寸

最后,为了满足模型的输入要求,将所有图像调整为统一大小1024×1024×3。对于全幻灯片病理图像,使用滑动窗口方法提取无重叠的斑块。位于边界上的斑块用 0 填充到该大小。对于 3D CT 和 MR 图像,每个 2D 切片的大小调整为 1024 × 1024,并且通道重复 3 次以保持一致性。其余的 2D 图像直接调整为 1024 × 1024 × 3。

3.2 网络架构

本研究中使用的网络是基于Transformer架构,该架构在自然语言处理和图像识别等各个领域展现出了显著的有效性。具体而言,该网络包括一个基于Vision Transformer(ViT)的图像编码器,负责提取图像特征;一个提示编码器,用于整合用户的交互(边界框);以及一个掩模解码器,利用图像嵌入、提示嵌入和输出令牌生成分割结果和置信度分数。

3.3 训练方案及实验设置

模型使用预先训练的 SAM 模型和 ViT-Base 模型进行初始化。损失函数是Dice损失和交叉熵损失之间的未加权总和。AdamW 优化器(β 1 = 0.9,β 2 = 0.999)进行优化,初始学习率为 1e-4,权重衰减为 0.01。全局批量大小为 160,未使用数据增强。该模型在 20 个 A100 (80G) GPU 上进行了 150 个 epoch 的训练,并选择最后一个检查点作为最终模型。

看到最后,20 个 A100,我欣慰了,并不是我脑子不够用才发不了这么好的文章

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2775914.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

排序算法---插入排序

原创不易,转载请注明出处。欢迎点赞收藏~ 插入排序是一种简单直观的排序算法,它的基本思想是将待排序的元素分为已排序和未排序两部分,每次从未排序部分中选择一个元素插入到已排序部分的合适位置,直到所有元素都插入到已排序部分…

微软技术专家带你学 AI|Azure OpenAI 服务

点击蓝字 关注我们 编辑:Alan Wang 排版:Rani Sun 微软技术专家带你学 AI 新的一年,为帮助开发者们在 Azure 上掌握人工智能,我们特别带来「微软技术专家带你学 AI」系列,通过4期的课程,带大家从机器学习的…

ES高可用架构涉及常用功能整理

ES高可用架构涉及常用功能整理 1. es的高可用系统架构和相关组件2. es的核心参数2.1 常规配置2.2 特殊优化配置2.2.1 数据分片按ip打散2.2.2 数据分片机架感知2.2.3 强制要求数据分片机架感知2.2.4 写入线程池优化2.2.5 分片balance优化2.2.6 限流控制器优化 3. es常用命令3.1 …

在屏蔽任何FRP环境下从零开始搭建安全的FRP内网穿透服务

背景 本人目前在境外某大学读博,校园网屏蔽了所有内网穿透的工具的数据包和IP访问,为了实现在家也能远程访问服务器,就不得不先开个学校VPN,再登陆。我们实验室还需要访问另一个大学的服务器,每次我都要去找另一个大学…

海外云手机——平台引流的重要媒介

随着互联网的飞速发展,跨境电商、短视频引流以及游戏行业等领域正经历着迅猛的更新换代。在这个信息爆炸的时代,流量成为至关重要的资源,而其中引流环节更是关乎业务成功的关键。海外云手机崭露头角,成为这一传播过程中的重要媒介…

消息中间件:Puslar、Kafka、RabbigMQ、ActiveMQ

消息队列 消息队列:它主要用来暂存生产者生产的消息,供后续其他消费者来消费。 它的功能主要有两个: 暂存(存储)队列(有序:先进先出 从目前互联网应用中使用消息队列的场景来看,…

【龙年大礼】| 2023中国开源年度报告!

【中国开源年度报告】由开源社从 2015 年发起,是国内首个结合多个开源社区、高校、媒体、风投、企业与个人,以纯志愿、非营利的理念和开源社区协作的模式,携手共创完成的开源研究报告。后来由于一些因素暂停,在 2018 年重启了这个…

Qt PCL学习(二):点云读取与保存

注意事项 版本一览:Qt 5.15.2 PCL 1.12.1 VTK 9.1.0前置内容:Qt PCL学习(一):环境搭建 0. 效果演示 1. pcl_open_save.pro QT core guigreaterThan(QT_MAJOR_VERSION, 4): QT widgets// 添加下行代码&#…

[word] word2019段落中创建纵横混排的方法图解教程 #知识分享#其他#职场发展

word2019段落中创建纵横混排的方法图解教程 有时候在word文档中需要让文字纵横混排,word2019正好为我们带来了纵横混排的功能了,今天我们就来给大家介绍一下word2019段落中创建纵横混排的方法。 步骤1:打开Word文档,选中需要纵向…

MT4和MT5中如何创建挂单,很简单,fpmarkets1秒教会

其实在MT4和MT5中创建挂单是非常容易的,今天fpmarkets1秒教会,接下来一步一步的演示: 首先单击新订单,将出现设置窗口。在“类型”选项卡中选择“按待定顺序”。 接着选择挂单的类型。选择买入止损单,并指定订单执行的…

【Leetcode】236. 二叉树的最近公共祖先

文章目录 题目思路代码结果 题目 题目链接 给定一个二叉树, 找到该树中两个指定节点的最近公共祖先。 百度百科中最近公共祖先的定义为:“对于有根树 T 的两个节点 p、q,最近公共祖先表示为一个节点 x,满足 x 是 p、q 的祖先且 x 的深度尽可…

Python爬虫http基本原理#2

Python爬虫逆向系列(更新中):http://t.csdnimg.cn/5gvI3 HTTP 基本原理 在本节中,我们会详细了解 HTTP 的基本原理,了解在浏览器中敲入 URL 到获取网页内容之间发生了什么。了解了这些内容,有助于我们进一…

攻防世界 CTF Web方向 引导模式-难度1 —— 1-10题 wp精讲

目录 view_source robots backup cookie disabled_button get_post weak_auth simple_php Training-WWW-Robots view_source 题目描述: X老师让小宁同学查看一个网页的源代码,但小宁同学发现鼠标右键好像不管用了。 不能按右键,按F12 robots …

备战蓝桥杯---搜索(完结篇)

再看一道不完全是搜索的题&#xff1a; 解法1&#xff1a;贪心并查集&#xff1a; 把冲突事件从大到小排&#xff0c;判断是否两个在同一集合&#xff0c;在的话就返回&#xff0c;不在的话就合并。 下面是AC代码&#xff1a; #include<bits/stdc.h> using namespace …

CTF--Web安全--SQL注入之‘绕过方法’

一、什么是绕过注入 众所周知&#xff0c;SQL注入是利用源码中的漏洞进行注入的&#xff0c;但是有攻击手段&#xff0c;就会有防御手段。很多题目和网站会在源码中设置反SQL注入的机制。SQL注入中常用的命令&#xff0c;符号&#xff0c;甚至空格&#xff0c;会在反SQL机制中…

从github上拉取项目到pycharm中

有两种方法&#xff0c;方法一较为简单&#xff0c;方法二用到了git bash&#xff0c;推荐方法一 目录 有两种方法&#xff0c;方法一较为简单&#xff0c;方法二用到了git bash&#xff0c;推荐方法一方法一&#xff1a;方法二&#xff1a; 方法一&#xff1a; 在github上复制…

【开源】JAVA+Vue.js实现高校实验室管理系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、研究内容2.1 实验室类型模块2.2 实验室模块2.3 实验管理模块2.4 实验设备模块2.5 实验订单模块 三、系统设计3.1 用例设计3.2 数据库设计 四、系统展示五、样例代码5.1 查询实验室设备5.2 实验放号5.3 实验预定 六、免责说明 一、摘…

基于鲲鹏服务器的LNMP配置

基于鲲鹏服务器的LNMP配置 系统 Centos8 # cat /etc/redhat-release CentOS Linux release 8.0.1905 (Core) 卸载已经存在的旧版本的安装包 # rpm -qa | grep php #查看已经安装的PHP旧版本# rpm -qa | grep php | xargs rpm -e #卸载已经安装的旧版&#xff0c;如果提示有…

介绍页引导页业务网搭建HTML网站源码

介绍页引导页业务网搭建HTML网站源码 介绍页引导页业务网搭建网站源码&#xff0c;HTMLJSCSS,卡片式风格业务介绍&#xff0c;简单大气,喜欢的朋友拿去吧&#xff0c;源码免积分下载 https://download.csdn.net/download/huayula/88821635 蓝奏云&#xff1a;https://wfr.lan…

Django(十)

1. Ajax请求 浏览器向网站发送请求时&#xff1a;URL 和 表单的形式提交。 GETPOST 特点&#xff1a;页面刷新。 除此之外&#xff0c;也可以基于Ajax向后台发送请求&#xff08;偷偷的发送请求&#xff09;。 依赖jQuery编写ajax代码 $.ajax({url:"发送的地址"…