人大網(wǎng)站建設報價單湖北網(wǎng)站seo
【論文閱讀】醫(yī)學SAM適配器:適應醫(yī)學圖像分割的任意分割模型
文章目錄
- 【論文閱讀】醫(yī)學SAM適配器:適應醫(yī)學圖像分割的任意分割模型
- 一、介紹
- 二、聯(lián)系工作
- 三、方法
- 四、實驗
Medical SAM Adapter: Adapting Segment Anything Model for Medical Image Segmentation
由于SAM在各種分割任務中的出色能力和基于提示的界面,SAM模型最近在圖像分割領域獲得了廣泛的應用
??
我們提出了醫(yī)學SAM適配器(Med-SA),而不是對SAM模型進行微調,該適配器使用輕而有效的自適應技術將特定領域的醫(yī)學知識整合到分割模型中
Med-SA中,我們提出了空間深度轉置(SD-Trans)來使2D SAM適應3D醫(yī)學圖像
超提示適配器(hyper - prompt Adapter)來實現(xiàn)提示條件適應
??
17種醫(yī)學圖像分割任務進行了綜合評價實驗
Med-SA優(yōu)于幾種最先進的(SOTA)醫(yī)學圖像分割方法,同時僅更新2%的參數(shù)
??
一、介紹
分割任意模型(SAM)作為一種強大而通用的視覺分割模型獲得了極大的關注
它可以根據(jù)用戶提示生成各種詳細的分段掩碼
認為它在醫(yī)學圖像分割上的表現(xiàn)欠佳。使醫(yī)學圖像分割具有交互性,例如采用SAM等技術,具有巨大的臨床價值
交互式分割可以極大地幫助臨床醫(yī)生有效地從這些復雜的結構中區(qū)分目標組織
??
采用像SAM這樣的基礎交互模型進行臨床應用變得至關重要
??
解決這個問題的最先進(SOTA)方法是完全微調香草SAM模型,
??
專門針對醫(yī)療數(shù)據(jù)(Ma和Wang 2023)
預訓練的視覺模型對醫(yī)學圖像具有很強的可移植性
??
試圖以最小的努力使訓練良好的SAM適應醫(yī)學圖像分割
選擇使用一種稱為自適應的參數(shù)有效微調(PEFT)技術對預訓練的SAM進行微調
??
Adaption的主要思想是將帶有部分參數(shù)的Adapter模塊插入到原始模型中,只更新少量額外的Adapter參數(shù)
自然圖像不同,許多醫(yī)學圖像是3D的,比如CT和MRI掃描
??
雖然adaptive在NLP中取得了成功,但將其應用于視覺模型,特別是SAM等交互式視覺模型的研究還很有限
我們提出了一種新的適應框架,稱為醫(yī)學SAM適配器(MedSA)
??
Med-SA僅通過更新總SAM參數(shù)的2%的額外參數(shù)來實現(xiàn)這種優(yōu)越的性能。
??
貢獻:
- 以實現(xiàn)高維(3D)醫(yī)療數(shù)據(jù)的分割,解決醫(yī)學圖像模式帶來的挑戰(zhàn)
- 提出HyP-Adpt以促進即時條件適應,承認用戶提供提示在醫(yī)療領域的重要性。(可能需要提示信息)
- 對17種不同圖像模式的醫(yī)學圖像分割任務進行了廣泛的實驗,清楚地確立了Med-SA優(yōu)于SAM和以前最先進的方法
??
二、聯(lián)系工作
交互式分割
- 交互式分割有著悠久的歷史,最初被研究者視為一種優(yōu)化技術
- DIOS的開創(chuàng)性工作(Xu et al . 2016)通過集成深度學習并將積極和消極點擊作為距離地圖
- Li, Chen,at al.專注于通過預測多種潛在結果并使選擇網(wǎng)絡或用戶從中選擇來解決不確定性
- RITM (2022)和AccuracyNet (Forte et al 2020)引入了使用以前的掩模作為輸入
??
然而,盡管交互式醫(yī)學圖像分割在臨床實踐中起著至關重要的作用,但人們對其的關注卻有限
??
Parameter-Efficient重要性
PEFT已被證明是針對特定用途微調大型基本模型的有效策略
??
PEFT方法比完全微調效果更好,因為它們避免了災難性的遺忘
所有PEFT策略中,Adaption(Hu et al . 2021)不僅在NLP中,而且在計算機視覺中,作為對下游任務的大型基本視覺模型進行微調的有效工具而脫穎而出
Adaption是將SAM帶入醫(yī)學領域的最合適的技術
??
三、方法
SAM架構 提供SAM體系結構的概述
SAM包括三個主要組件:
- 圖像編碼器
- 提示編碼器
- 掩碼解碼器
??
我們使用了ViT-H/16變體,它采用14×14窗口關注和四個等間隔的全局關注塊
如圖(a)所示。圖像編碼器的輸出是輸入圖像的16倍下采樣嵌入。
提示編碼器可以是稀疏的(點,框)或密集的(掩碼)
??
它將點和框表示為每個提示類型的位置編碼和學習嵌入
解碼器使用雙向交叉注意來學習提示和圖像嵌入之間的交互
SAM對圖像嵌入進行上采樣,MLP將輸出標記映射到動態(tài)線性分類器,該分類器預測給定目標掩碼
??
Med-SA架構
目標是通過微調來增強SAM架構在醫(yī)學圖像分割任務中的醫(yī)學能力
而不是完全調整所有參數(shù),我們保持預先訓練的SAM參數(shù)凍結
向下投影使用簡單的MLP層將給定的嵌入壓縮到較低的維度,而向上投影使用另一個MLP層將壓縮的嵌入擴展回其原始維度。
??
在SAM編碼器中,我們?yōu)槊總€ViT塊使用兩個適配器。對于標準ViT塊
- 第一個適配器位于多頭注意之后,剩余連接之前
- 第二個適配器被放置在MLP層的剩余路徑中,跟隨多頭注意
??
第一個適配器用于集成提示嵌入,為了實現(xiàn)這一目標,我們引入了一種新的結構,稱為HyPAdpt
第二個適配器以與編碼器完全相同的方式部署,以適應mlp增強的嵌入
??
SD-Trans
我們提出了SD-Trans,靈感來自圖像到視頻的改編
在每個塊中,我們將注意力操作分為兩個分支:空間分支和深度分支
D對應于操作的數(shù)量,允許在N × L上應用交互,捕獲和抽象空間相關性作為嵌入
??
在深度分支中,我們將輸入矩陣轉置以獲得N×D×L,并隨后將其饋送到相同的多頭注意力中
交互現(xiàn)在發(fā)生在D × L上
將深度分支的結果轉置回其原始形狀,并將其添加到空間分支的結果中,合并深度信息
??
HyP-Adpt
適應在交互式視覺模型中的應用仍然很大程度上未被探索
源任務和下游任務之間的交互行為可能表現(xiàn)出顯著差異
在這方面,我們提出了一種名為HyPAdpt的解決方案,旨在實現(xiàn)即時條件適應
??
操作:
- 僅利用投影和重塑操作從提示嵌入中生成一系列權重映射
- 權重映射(矩陣乘積)直接應用于適配器嵌入
- 實現(xiàn)廣泛而深入的特征級交互
- 顯著減少了所需參數(shù)的數(shù)量
??
減少的適配器嵌入上執(zhí)行超提示
被連接并縮減為提示嵌入提示。然后我們使用e提示符生成一個權重序列
??
HyP-Adpt有助于將參數(shù)以提示信息為條件,更靈活地適應不同的模式和下游任務。
??
Training Strategy
對于交互式分割,我們在模型訓練過程中使用點擊提示和邊界框(BBox)提示
生成BBox提示,我們采用與SAM相同的方法。但是,由于原始的SAM論文提供了有限的關于單擊提示符生成的細節(jié)
??
點擊提示生成過程背后的基本概念包括使用
- 積極的點擊來指示前景區(qū)域
- 消極的點擊來指示背景
??
我們結合隨機和迭代的點擊采樣策略,用這些提示訓練模型
我們使用迭代抽樣過程合并一些單擊。這種迭代采樣策略模擬了與真實用戶的交互
因為每次新的點擊都被放置在由網(wǎng)絡使用以前的點擊集生成的預測的錯誤區(qū)域中
??
四、實驗
在五種不同的醫(yī)學圖像分割數(shù)據(jù)集上進行了實驗
??
ISIC 2019數(shù)據(jù)集(Milton 2019)上進行了實驗。所有的數(shù)據(jù)集都是公開的
3D醫(yī)學圖像訓練,我們使用了16個較小的批處理大小
REFUGE2、TNMIX和ISIC數(shù)據(jù)集,我們訓練了40個epoch的模型
BTCV和BraTs數(shù)據(jù)集,我們將訓練擴展到60個epoch
- 隨機1個正點,記為“1點”
- 3個正點,記為“3點”
- 與目標重疊50%的邊界框,記為“BBox 0.5”
- 與目標重疊75%的邊界框,記為“BBox 0.75”
??
Comparing with SOTA on Abdominal Multi-organ Segmentation
??
![