傅勵瑤,尹夢曉,2,楊 鋒,2*
(1.廣西大學 計算機與電子信息學院,南寧 530004;2.廣西多媒體通信與網絡技術重點實驗室(廣西大學),南寧 530004)
相較于傳統(tǒng)的學習方法需要手動優(yōu)化特征表示,神經網絡可以自動學習特征表示,并利用梯度下降迭代優(yōu)化模型,從而得以迅速發(fā)展。在計算機視覺領域,近年來大熱的卷積神經網絡(Convolutional Neural Network,CNN)在各下游任務中表現(xiàn)出其自動學習表示的巨大潛能。隨著CNN 所含層數(shù)的增加,促進了處理各種任務的深度神經網絡的提出。如今,深度學習被應用到更多領域解決各類復雜問題,比如專家系統(tǒng)、自然語言處理(Natural Language Processing,NLP)、語音識別和智能醫(yī)療等。首個基于全卷積網絡(Fully Convolutional Network,F(xiàn)CN)[1]的U 型網絡(U-shaped Network,U-Net)由文獻[2]提出,作為經典的CNN,文獻[2]中利用跳躍連接(Skip-Connection)同時保留在下采樣中丟失的細節(jié)信息和在低分辨率圖像中獲取到的全局特征,這種融合不同尺度特征的編碼器-解碼器結構設計大幅提升了分割模型的性能。所以,U 型網絡是目前醫(yī)學圖像分割任務中應用最廣泛的模型之一。自U 型網絡被提出之后,各種改進版的U 型網絡在許多醫(yī)學圖像分割任務中都有著出色的表現(xiàn),這足以證明U 型網絡中的殘差多尺度特征融合網絡結構有利于處理醫(yī)學圖像分割任務。盡管如此,卷積與生俱來的歸納偏置特點阻礙了分割網絡性能的進一步提升,而利用自注意力機制獲取全局特征的Transformer[3]模型利用它捕捉長距離依賴的優(yōu)勢能彌補CNN 的不足。在計算機視覺領域,ViT(Vision Transformer)[4]打開了Transformer 進入該領域的大門。Transformer 應用于圖像分類任務中的優(yōu)秀表現(xiàn)展現(xiàn)了它在圖像處理領域的發(fā)展前景。在ViT 中,主要工作是把原始圖像分割成16×16 的二維圖像塊,然后把圖像塊映射為一維的二維圖像塊序列以模仿NLP 任務的輸入。這樣的變換既能避免在每個像素之間計算注意力會大幅增加計算和存儲負擔,又能在不改變NLP 任務中的Transformer 模型主體結構的前提下將它應用到計算機視覺領域中。ViT 提出之后,在圖像分割領域,文獻[5]中提出了基于純Transformer 編碼器的圖像分割模型——SETR(SEgmentation TRansformer);在目標檢測任務中,文獻[6]中引入了一個端到端Transformer 編碼器-解碼器網絡——DETR(DEtection TRansformer)。
醫(yī)學圖像難標注、目標和背景比例極不平衡和對比度低以及邊界模糊等問題加大了將Transformer 應用到醫(yī)學圖像分割任務中的難度;同時,醫(yī)學圖像大多是小數(shù)據(jù)集,難以預訓練出專用于醫(yī)學圖像處理的Transformer 模型。所以,Transformer 在醫(yī)學圖像分割模型中的潛能還有待進一步挖掘。雖然U 型網絡在醫(yī)學圖像任務中被廣泛應用,但是下采樣過程中細節(jié)特征的損失和卷積神經不擅長捕捉長距離依賴的缺點限制了U 型網絡的發(fā)展。為了進一步挖掘Transformer 和U 型網絡在醫(yī)學圖像分割任務中的潛能,本文從兩者各自的優(yōu)勢出發(fā),討論基于Transformer 的U 型網絡在醫(yī)學圖像分割任務中的研究進展,并對相關深度學習網絡結構進行全面的研究和分析,有助于讀者深入了解Transformer應用于U 型網絡的優(yōu)點。在本文最后討論了兩者結合在未來更有潛力的發(fā)展建議。
醫(yī)學圖像分割是計算機視覺領域重要的研究方向,目標是在醫(yī)學圖像上進行像素級別的分類,進而準確地分割目標對象。分割數(shù)據(jù)集來自專業(yè)醫(yī)學設備所采集到的單模態(tài)或者多模態(tài)圖像,比如核磁共振成像(Magnetic Resonance Imaging,MRI)、計算機斷層掃描技術(Computed Tomography,CT)、超聲(UltraSound,US)等。傳統(tǒng)的非深度學習醫(yī)學圖像分割技術主要依賴于基于閾值、區(qū)域生長、邊界檢測等方法。雖然傳統(tǒng)的分割方法速度快且簡單,對于硬件要求不高,但是需要人工參與才能得到好的特征表示;而基于深度學習的分割網絡可以自動學習特征表示,幾乎不需要人工參與,但需要高性能計算機花較長時間訓練網絡。隨著圖像處理單元(Graphic Processing Unit,GPU)和內存的發(fā)展,訓練大多數(shù)基于深度學習的網絡已不是難題,深度學習隨之被應用到各領域完成自動學習目標任務的特征表示。如今,基于CNN的分割模型廣泛用于許多分割任務當中,比如腫瘤分割、皮膚病變區(qū)域分割、左右心室分割以及眼底血管分割等。訓練這些模型的方法中,除了很少一部分是基于無監(jiān)督[7-9]和半監(jiān)督[10-14]的方法,其余則是基于全監(jiān)督[15-19]的方法,其中最經典的模型便是U 型網絡。醫(yī)學圖像分割技術的發(fā)展對計算機輔助診斷、智能醫(yī)療和臨床應用等領域的研究有著極其重要的作用。但CNN 由于感受野受限,只擅長獲取局部特征,而缺乏捕捉長距離依賴的能力,而且卷積核的大小和形狀固定,不能有效適應輸入圖像類型,限制了卷積的應用范圍,也降低了分割模型的泛化性;同時,醫(yī)學圖像也存在邊界模糊、對比度低、目標大小不一以及模態(tài)多樣等問題。要有效解決上述問題,獲取關鍵的全局上下文信息是必要的。因此,來自NLP 領域的利用自注意力機制獲取全局特征的Transformer 被用于優(yōu)化醫(yī)學圖像自動分割技術。在NLP 任務中使用的Transformer 大多經過在大規(guī)模的文本數(shù)據(jù)集上預訓練得到。因為自注意力部分的計算量太大,預訓練模型很大程度上能防止模型過擬合。但二維醫(yī)學圖像數(shù)據(jù)集通常規(guī)模較小,難以用于預訓練原始的Transformer 模塊;三維醫(yī)學圖像數(shù)據(jù)集不僅規(guī)模小,而且樣本體素多,將它們直接放進Transformer 訓練會大幅增加模型復雜度,增加過擬合的風險,反而可能降低模型性能。而ViT[4]中將圖像切成多個圖像塊的做法,不僅可以降低單個樣本的計算量和內存消耗,還可以增加數(shù)據(jù)的多樣性,降低模型過擬合的概率,使模型的訓練相對容易。借鑒ViT 的設計理念,Transformer 被應用到醫(yī)學圖像分割網絡[20-22]。
醫(yī)學圖像分割是計算機視覺領域重要的研究方向之一,而對準確的分割結果而言,細節(jié)信息和全局信息都很重要。如何在全局信息和局部信息之間找到完美的平衡,是提升分割模型性能的重要問題之一。此外,由于大多數(shù)醫(yī)學圖像數(shù)據(jù)集都很小,使訓練出兼顧全局和局部特征的分割模型更具有挑戰(zhàn)性。為了解決上述問題,U 型網絡利用它特殊的對稱結構在高分辨率圖像中獲取局部特征,在低分辨率圖像中捕捉全局特征,實現(xiàn)端到端的分割。經典U 型網絡結構如圖1所示。
圖1 經典U型網絡總體結構Fig.1 Overall structure of classic U-Net
U 型網絡在編碼器-解碼器結構中,結合上下采樣和跳躍連接,融合多尺度特征信息,為分割模型提供了粗細粒度特征圖的同時還能加速模型收斂,對于處理醫(yī)學圖像分割任務極其有效。不僅如此,文獻[2]提出的U 型網絡結構不包含全連接層,而是使用參數(shù)量少的全卷積層代替?;赨 型網絡的獨特設計,U 型網絡的分割精度幾乎好于當時的所有優(yōu)秀分割模型。U-Net++[23]為了能夠減小編碼器和解碼器特征圖之間的差異,進一步改進了U 型網絡。U-Net++在跳躍連接上加上了若干卷積層,并在各卷積層之間使用密集連接(Dense Connection)[24],以減小兩邊網絡特征表達的差異。此外,文獻[23]中把編碼器中產生的不同尺度的特征圖通過上采樣至原圖大小,然后和標簽計算損失,監(jiān)督特征融合操作。受文獻[2]的啟發(fā),ResUNet(Residual and U-Net)[25]把文獻[2]所提出模型的骨干網絡的卷積部分用殘差網絡(Residual Network,ResNet)[26]代 替,在此基礎上,ResUNet++[27]在ResUNet 編碼器中的每個殘差塊之后添加壓縮提取模塊(Squeeze and Extraction Block,SE Block)[28],不僅把編碼器中不同尺度的特征圖傳遞給解碼器,還傳遞了通道注意力權重。模型利用權重信息過濾掉解碼器特征圖的多余信息,再將它輸入到后面的網絡中。實驗表明,這種融合兩邊網絡特征的方式比起一次性串聯(lián)的融合方式更加有效。
V-Net(Network for Volumetric medical image segmentation)[29]把三維卷積層應用到U 型分割網絡中,用于分割三維醫(yī)學圖像。針對醫(yī)學圖像中常出現(xiàn)的前景和背景極不平衡的情況,文獻[29]中提出了Dice 損失函數(shù),進一步優(yōu)化醫(yī)學圖像分割模型。三維U 型網絡(3D U-Net)[30]將原U 型網絡中的二維卷積用三維卷積替換,用于從粗標記中半自動或者全自動地進行三維醫(yī)學圖像分割。從以上網絡可知,U 型網絡變體大多側重于修改U 型網絡的網絡結構,而Isensee 等[31]更加關注目標任務對U 型分割模型的影響,從而設計了自適應分割任務的網絡——nnU-Net(no new U-Net)。nnU-Net 把重心放到數(shù)據(jù)的預處理和后處理,以及對模型訓練超參數(shù)的設置,從而提升模型完成分割任務的效率。由于nnU-Net 在醫(yī)學圖像分割任務中的表現(xiàn)不錯,所以該領域的研究者通常會考慮將nnU-NeT 的分割效果作為參考,同時,它也給非該領域使用者提供了快捷便利的分割工具。
如今,U 型網絡不僅被頻繁用于圖像分割領域,還出現(xiàn)在道路提取、天氣預測和圖像分類等領域。各種U 型網絡的變體在深度學習任務中有著不錯的表現(xiàn),特別是在醫(yī)學圖像分割領域,U 型網絡更是勝過多數(shù)CNN。所以,即使自首個U 型網絡被提出已過了七年之久,U 型網絡處理醫(yī)學圖像分割的應用仍然隨處可見,研究者們也依然在不斷拓展U 型網絡和其他高性能模塊的結合應用,充分挖掘U型網絡的潛力。
Vaswani 等[3]首次提出Transformer,因其獨特的設計賦予了Transformer 能處理不定長輸入、捕捉長距離依賴和序列到序列(seq2seq)任務的特性。Transformer 主要包含解碼器和編碼器,每個編碼器包括位置編碼、多頭注意力機制、層正則化(Layer Normalization,LN)[32]、前饋神經網絡(Feed Forward Network,F(xiàn)FN)和跳躍連接,而解碼器除在輸入層增加了一個掩碼多頭注意力機制以外,其余部分與編碼器相同。Transformer 結構如圖2 所示。
圖2 Transformer總體結構Fig.2 Overall structure of Transformer
3.1.1 注意力機制
1)自注意力機制:自注意力機制是Transformer 的關鍵組成部分,Transformer 能夠獲取長距離依賴主要歸功于它。自注意力公式如下:
其中:q、k和v是輸入X經線性層映射后的向量;dk是向量k的維度。
2)注意力機制:多頭注意力機制中多個q、k和v向量分別組成矩陣Q、K和V,將每個組合并行計算后在通道維度進行拼接。在該注意力中,不同的頭能夠從不同位置的子空間中學習到不同種類的特征表示。下面是多頭注意力的公式:
3)掩碼多頭注意力機制:為了避免解碼器位置i依賴位置i后的數(shù)據(jù),確保當前輸出只依賴于i前的預測,后面的“未知”信息有必要被隱藏,即只用當前位置之前的信息推測結果。
3.1.2 位置編碼
因為Transformer 不含循環(huán)神經網絡(Recurrent Neural Network,RNN)和CNN,所以依賴于缺乏序列信息的注意力機制。但對于NLP 和圖像處理任務,位置信息發(fā)揮著重要作用,所以,Transformer 需要自動學習位置信息。經典的Transformer 利用正弦和余弦函數(shù)學習位置信息,公式如下:
其中:pos是當前對象在當前維度的序列所處位置;dpos是位置pos所在維度;100 002dpos/dmodel表示頻率。
3.1.3 層正則化
層正則化(LN)克服了批量正則化(Batch Normalization,BN)[33]難以處理變長輸入的序列任務的缺點,把正則化的范圍從樣本外部轉移到樣本內部,這樣的正則化就不會依賴于輸入大小,非常適用于NLP 任務。詳情見文獻[32]。
3.1.4 前饋神經網絡
前饋神經網絡(FFN)由兩個線性層加上ReLU 激活函數(shù)(max(0,input))組成,公式如下:
其中:X是輸入圖像矩陣;Wi是和X相同大小的矩陣;bi是長度等于X的通道數(shù)的一維向量。
相較于處理文字樣本,用Transformer 訓練處理圖像或視覺的模型更具有挑戰(zhàn)性。因為圖像比文本更多樣,且分辨率高。Swin Transformer(Shifted-window Transformer)[34]中提出的窗口多頭自注意力(Window Multi-head Self Attention,W-MSA)模塊和滑動窗口多頭自注意力(Shifted Window Multi-head Self Attention,SW-MSA)模塊緩解了Transformer在視覺領域中應用的困難。在W-MSA 中,圖像被分成若干個由若干圖像塊組成的窗口,計算注意力權重只在窗口內部。在SW-MSA 中,利用滑動設計計算各窗口之間注意力分數(shù),以此建立窗口之間的聯(lián)系。相鄰的W-MSA 和SW-MSA構成了Swin Transformer 模塊。相鄰Swin Transformer 塊的計算方法如下:
其中:zi表示第i層的輸出表示第i層的中間結果;LN()表示層正則化;W-MSA()表示窗口自注意力機制;SW-MSA()表示滑動窗口自注意力機制;MLP()表示多層感知機層。
Transformer 的提出對深度學習框架產生了極大的影響。因為CNN 的歸納偏好,導致CNN 獲得長距離信息的成本過高,而Transformer 剛好可以彌補CNN 的不足。但Transformer獲取全局信息的優(yōu)勢,不僅限于輪廓表示、形狀描述和根據(jù)長距離依賴獲取的目標類型先驗,更重要的是局部和全局信息需要不同的感受野,跟CNN 相比,Transformer 中的注意力機制把握長距離相關信息則更加直接有效??墒?,來自NLP領域的Transformer 并沒有考慮計算機視覺任務分辨率高、目標形狀和小大差異大等特點,限制了Transformer 在計算機視覺領域的應用。Swin Transformer 的出現(xiàn)無疑給Transformer處理圖像或視頻的應用開啟了一扇新的大門。如今,計算機視覺領域中的Transformer 變體也不僅限于Swin Transformer,還有通過改進原始Transformer 子結構使其適用于視覺任務的其他模型,又或者是通過遷移學習和對抗學習方法引入Transformer 的模型。即使如此,已存在的基于Transformer 的模型會借助CNN 的歸納偏置更好地發(fā)揮作用。所以,探索Transformer 結合CNN 的模型有著很大的發(fā)展前景。
ViT[9]將Transformer 應用到圖像分類任務中并取得成功之后,Chen 等[20]提出了TransUNet(Transformers and U-Net)。TransUNet 的提出開啟了Transformer 在醫(yī)學圖像分割領域中的應用。由于Transformer 在大規(guī)模數(shù)據(jù)集上才能更好地發(fā)揮其優(yōu)勢,而大多數(shù)醫(yī)學圖像數(shù)據(jù)屬于小規(guī)模數(shù)據(jù)集,因此,研究進一步改進Transformer 模塊使其適用于醫(yī)學圖像處理便成了熱門的研究方向之一。其中,最為有效的方法之一就是結合Transformer 與U 型網絡,利用U 型網絡盡可能減小計算量的同時也能有效捕捉重要信息的特點,充分挖掘Transformer 和U 型網絡的潛力。接下來,本文從Transformer在U 型網絡中所處的不同位置對相關研究工作進行分類討論。
TransUNet 是首個將Transformer 應用到醫(yī)學圖像分割領域的U型網絡,如圖3所示。
圖3 TransUNet總體框架Fig.3 Overall framework of TransUNet
該模型直接將編碼器中下采樣之后的圖像序列化,然后套用最原始的Transformer 模塊進行訓練,利用Transformer 在低分辨率圖像中獲取長距離依賴的優(yōu)勢和對稱的編碼器-解碼器結構,提升了模型自動分割的性能。也因為TransUNet直接使用了NLP的Transformer模型,序列中的圖像塊大小固定,注意力計算量大,所以TransUNet的分割效率還有待進一步提升。文 獻[22]結合文 獻[35-36]提出了MedT(Medical Transformer),該網絡在位置嵌入中加入門控機制,使模型在訓練不同大小的數(shù)據(jù)集時能夠自動調節(jié)門控參數(shù),獲得適合當前數(shù)據(jù)集的位置嵌入權重。實驗結果表明基于MedT 的U型網絡能適應不同大小的數(shù)據(jù)集。基于雙編碼器-解碼器的X-Net(X-shaped Network)[37]把Transformer 作為主干分割網絡的編碼器,并通過跳躍連接建立基于卷積的輔助網絡的編碼器和解碼器特征圖的聯(lián)系。X-Net 中的輔助網絡的解碼器把重建圖像任務作為代理任務,在約束用于分割任務的編碼器的同時,也能讓編碼器學習到表達能力更強的特征。相較于TransUNet 只有編碼器和解碼器分支的U 型對稱結構,TransClaw(Claw U-Net with Transformers)[21]設計了編碼器、上采樣和解碼器三分支的網絡結構,利用跳躍連接將各部分的多尺度特征圖相連。文獻[21]中通過融合上采樣的特征圖、Transformer 在深層網絡獲取到的全局上下文信息以及卷積捕捉到的局部特征,使模型得到進一步優(yōu)化。雖然實驗結果顯示模型在Dice 指標上沒有明顯提升,但在豪斯多夫距離(Hausdorff Distance,HD)指標上有著不錯的表現(xiàn)。受GoogLeNet[38]和 Swin Transformer 的啟發(fā),TransConver(Transformer and Convolution parallel network)[39]用Transformer模塊和卷積模塊替換GoogLeNet 中的多分支結構,利用基于交叉注意力機制交互全局和局部特征(Cross-Attention Fusion with Global and Local features,CAFGL)模塊替換GoogLeNet 的過濾器拼接層得到TC-Inception(Transformer Convolution Inception),再放到U 型網絡的編碼器中。CNN 和Swin Transformer 通過交叉注意力模塊交換三維腦部圖像的細節(jié)特征和全局背景信息,在提高腫瘤分割精度的同時,還降低了模型的計算負載,提升了模型訓練效率。以上提到的大多數(shù)網絡側重于提升模型精度,在一定程度上忽略了模型的效率。為了同時權衡分割模型的速度和準確度,LeViT-UNet(Vision Transformer based U-Net)[15]嵌入了快速推理網絡——LeViT(Vision Transformer)[40]。由于LeViT 既能提高模型推理速度又能有效地從特征圖中提取全局上下文信息,將LeViT 置于U 型結構的編碼器中,有利于模型從經卷積之后得到的具有空間先驗的特征圖中獲取全局特征。LeViT-UNet 在Synapse數(shù)據(jù)集上的分割精度超過了大多數(shù)模型,特別值得注意的是,LeViT-UNet 在當時的快速分割網絡中分割性能最好。為了降低模型復雜度,TransFuse(Fusing Transformer and CNNs)[41]使用在ImageNet 數(shù)據(jù)集 上預訓 練之后 的DeiT(Dataefficient image Transformers)[42]減少模型參數(shù),并且設計了并行的CNN 模塊和Transformer 特征提取模塊。為了充分利用兩者優(yōu)勢,作者在并行的U 型網絡中設計新的跳躍連接——BiFusion Block,該模塊從Transformer 的特征圖中提取通道特征,從CNN 的特征圖中提取空間特征,然后有效地融合兩者,以便引導后面的特征提取網絡。Swin UNETR(Swin UNEt TRansformers)[43]是基于Swin Transformer 提出的一個自監(jiān)督預訓練分割模型。該模型在5 050 張非目標CT 圖像中分別在對比學習、掩碼體素塊和隨機數(shù)據(jù)增強三個代理任務上預訓練Swin Transformer 模塊。這三個代理任務能夠幫助預訓練模型學習到感興趣區(qū)域(Region Of Interest,ROI)信息、鄰近體素信息和結構先驗知識。在目標任務中,微調之后的Swin Transformer 模塊結合卷積層在三維醫(yī)學圖像分割任務中有著出色的表現(xiàn)。
Li 等[44]提出了基于壓縮-擴展Transformer 的 解碼器Segtran。其中,壓縮注意力模塊來自于專門處理無序集合特征的Set Transformer[45]中的ISAB(Induced Squeezed Attention Block)。ISAB 通過過渡特征圖I(形為m×d的矩陣)濃縮X(形為n×d的矩陣)(n?m)的關鍵信息,這樣做可以大幅降低注意力模塊的復雜度。對于擴展注意力模塊,作者從混合高斯分布好于單一高斯分布的事實出發(fā),提出了用多個單頭Transformer 代替多頭注意力機制的策略,以適應數(shù)據(jù)的多樣性,獲取更有區(qū)分度的樣本特征。在位置編碼部分,為了能夠獲得像素的局部性和語義的連續(xù)性,文獻[44]基于原Transformer 中的正弦位置編碼,提出了可學習的正弦位置編碼。實驗結果表明可學習的位置編碼以及多個Transformer提取的特征都能給模型性能帶來一定的提升。
前面所介紹的工作將Transformer 單獨放在編碼器或解碼器中,接下來將討論把Transformer 同時放在編碼器和解碼器中的分割模型。nnFormer(not another transFormer)[46]在網絡中交替使用Transformer 和CNN,并提取每一尺度的特征信息進行多尺度監(jiān)督學習,保證多尺度的特征表達盡可能準確;但引入多個Transformer 會大幅增加計算負載,于是文獻[46]將Transformer 提前在ImageNet 中預訓練之后,固定注意力模塊和多層感知機(Multi-Layer Perceptron,MLP)層參數(shù),其他部分根據(jù)目標任務進行新的學習。另外,受Swin Transformer 啟發(fā),文獻[46]還用三維窗口替換原來的二維窗口,在窗口內進行自注意力計算,相較于原始的三維多頭注意力機制,計算量減少了90%以上。為了避免三維窗口和三維圖像不匹配而導致計算時填充冗余信息,三維窗口大小根據(jù)三維圖像專門設定。不僅如此,作者提出用連續(xù)的、小的卷積層比ViT 中直接用單個的、大的卷積層學到的嵌入層有著更豐富的位置信息,還有助于降低模型復雜度。與模型nnFormer 用于處理三維醫(yī)學圖像一樣,D-Former(Dilated transFormer)[47]借鑒空洞卷積提出了由局部處理模塊(Local Scope Module,LSM)和全局處理模塊(Global Scope Module,GSM)組成的空洞Transformer。其中,鄰近的若干圖像塊組成的單元構成了LSM 的作用范圍,GSM 的作用范圍則是從整個特征圖中選擇間隔為g的圖像塊組成的單元。LSM 和GSM 模塊的聯(lián)合能夠提取出區(qū)分度很強的局部和全局上下文聯(lián)系。該模塊在Synapse 數(shù)據(jù)集上的分割Dice 值高達88.93%,超過了許多高表現(xiàn)的分割模型。
Huang 等[16]設計了 高效的 分割模 型MISSFormer(Medical Image Segmentation tranSFormer)。在注意力模塊,K和V被調整為(N/S,C×S),以減小序列長度,再用于計算注意力,然后用線性層將結果的通道恢復到C:
其 中:W(a,b) 代表輸 出形式 為(a,b) 的二維 權重矩 陣;Reshape()代表重塑矩陣的函數(shù);N=h×w(h和w分別輸入圖像長和寬);S是壓縮率。這樣自注意力模塊的計算復雜度從O(N2)降低到O(N2/S),即使處理高分辨率的圖像也容易了許多。作者還用卷積層、跳躍連接和層正則化的組合替換感知機層,進而再減少計算量。值得一提的是,作者所用的跳躍連接是一個全新的設計,作者稱為增強上下文聯(lián)系的Transformer 過渡連接(Enhanced Transformer Context Bridge)。該模塊將編碼器得到的多尺度特征圖整合之后拉成一個大的序列放入Transformer 模塊。文獻[16]中提出的跳躍連接不僅能從低分辨圖像中習得全局特征和從高分辨率圖像中獲得有辨別性的局部信息,還能有效獲取兩種表示之間的聯(lián)系。實驗表明MISSFormer[16]在多器官分割數(shù)據(jù)集上的表現(xiàn)好于Swin UNet[48]。針對自注意力機制只關注單個樣本內部的聯(lián)系,而忽略了樣本之間的聯(lián)系的問題,MT Net(Mixed Transformer U-Net)[49]將外部注意力(External Attention)[50]機制應用到改進后的Transformer 模塊,并稱為混合Transformer模塊(Mixed Transformer Module,MTM)。該模塊由三種不同的注意力模塊連接而成,分別是局部、全局和外部注意機制。局部和全局注意力模塊用于提取樣本內的特征表達,外部注意力機制則用于建立樣本之間的聯(lián)系。整個U 型網絡中包含4 個MTM 和4 個卷積塊。實驗結果表明建立樣本之間的聯(lián)系有助于提升模型分割精度。
類似于MTM 中的局部和全局注意力的設計理念,PCATUNet(Patches Convolution Attention based Transformer U-Net)[51]提出了圖像塊間的卷積自注意力(Cross Patches Convolutional self-Attention,CPCA)塊和圖像塊內的卷積自注意力(Inner Patches Convolution self-Attention,IPCA)塊分別用于提取圖像塊之間和內部像素之間的全局特征。但是與傳統(tǒng)的Transformer 不同,PCAT 中的注意力機制基于CNN 構成。為了減小編碼器和解碼器特征表示之間的區(qū)別,PCAT通過特征分組注意力模塊(Feature Grouping Attention Module,F(xiàn)GAM)中的平均池化層進行下采樣,并將每次得到的特征圖在通道維度均分成n份再放到m個卷積層中,以在不同的通道組合中提取詳細且多樣的特征。
Luo 等[52]提出了由U 型網絡和Swin Transformer 共同作為主干網絡的半監(jiān)督模型。該模型通過CNN 和Transformer之間的相互學習(CNN 的偽標簽監(jiān)督Transformer 預測結果,Transformer 偽標簽監(jiān)督卷積神經網絡預測結果)得到高質量偽標簽。這種方法類似于“老師學生”網絡,但與之不同的是,模型中的兩個網絡處于平等的地位,且骨干結構類型不同,這樣的組合能夠使模型學習到更豐富的特征表達。Swin Unet 是基于純Transformer 的U 型分割網絡,它完全拋棄了CNN,整個模型由Swin Transformer 和線性層組成,如圖4所示。
圖4 Swin UNet總體框架Fig.4 Overall framework of Swin UNet
文獻[52]用圖像切片融合實現(xiàn)下采樣,用圖像切片擴展塊實現(xiàn)上采樣。實現(xiàn)結果顯示,純Transformer 模型分割結果好于文獻中提到的FCN 或者Transformer 和卷積混合的神經網絡。另一個基于Swin Transformer 的U 型網絡是DSTransUNet(Dual Swin Transformer U-Net)[53],它在編碼器中采用了雙Swin Transformer 分支,為得到更多樣的多尺度特征,每條分支的圖像切片大小不同。又為了進一步豐富多尺度特征,基于Transformer 的交互融合模塊(Transformer Interactive Fusion module,TIF)被用來融合兩條分支產生的不同大小的特征圖,同時充當跳躍連接的角色去連通編碼器和解碼器。以上模型展現(xiàn)了Swin Transformer 應用于醫(yī)學圖像數(shù)據(jù)集的潛能。比起在NLP 中需要大量數(shù)據(jù)預訓練的Transformer 來說,Swin Transformer 更輕量,更適合醫(yī)學圖像分割任務。
為了處理各向異性的三維醫(yī)學圖像,Guo 等[54]利用單頭Transformer 計算相鄰切片之間的相似性,建立切片之間的信息編碼,提出了新的分割模型。該模型只在切片內部進行卷積操作,在z軸不使用卷積,選擇二維U 型網絡作為主要結構,在降低計算復雜度的同時,也提升了分割精度。但利用簡單的注意力機制去建立切片之間的聯(lián)系,缺乏細節(jié)特征之間的聯(lián)系。類似于文獻[54],UCATR(TransUNet and Multihead Cross-Attention)[55]和 TransBTSv1(multimodal Brain Tumor Segmentation using Transformer)[56]在U 型網絡底部直接套用ViT 的Transformer 模塊從低分辨率圖像中提取全局上下文。為了解決特征融合不足的問題,UCATR 在跳躍連接上插入了交叉注意力機制,其中Q和K來自解碼器提取的特征表示,V來自編碼器中的CNN。Q和K得到的注意力權重能夠過濾掉后者的圖像噪聲和不相關信息,還能夠將模型注意力集中到關鍵體素。而TransBTSv1 在三維CNN 中僅僅使用一次串聯(lián)跳躍連接實現(xiàn)多尺度融合,如圖5 所示。在底部使用了L層Transformer 建立三維多模態(tài)腦部醫(yī)學圖像體素之間的關系。雖然兩者都使用Transformer 學習全局相關性,加上CNN 善于提取局部空間特征,比起純CNN 模型分割精度確實有所提升,但是,由于兩者使用的Transformer 和ViT相同,圖像切塊固定,注意力矩陣的計算量大,所以從頭訓練處理三維圖像或者長序列任務仍然很吃力。為了減小三維醫(yī)學圖像在注意力模塊中的計算和空間復雜度,MS(MultiScale)-TransUNet++[57]同樣利用deep-wise 卷積層減小K和V的特征空間,減小計算注意力分數(shù)的成本,作者稱其為高效Transformer,并在模型底部疊加了多個該模塊。除此之外,在多尺度特征融合模塊,引入網連接和密集連接加強編碼器和解碼器之間特征的聯(lián)系,更好地恢復在下采樣中損失的細節(jié)表示。與大多數(shù)醫(yī)學圖像分割模型使用Dice 加多分類交叉損失或二值交叉損失作為網絡損失函數(shù)不同,MSTransUNet++使 用Focal[58]、MS-SSIM(MultiScale Structural SIMilarity)[59]和Jaccard[60]構成全局損失,監(jiān)督分割結果。實驗結果表明MS-TransUNet++的損失函數(shù)組合有助于提升該模型的分割精度。與MS-TransUNet++減小注意力模塊特征空間的方法不同,TransBTSv2[61]把Transformer 從更深改到更寬,即擴大K和V特征空間,用更大的注意力范圍代替堆疊多個Transformer 模塊:
圖5 TransBTSv1總體框架Fig.5 Overall framework of TransBTSv1
其中:dm=Edinput,E是膨脹率,dm是膨脹之后的維度;WQ、WK和WV分別是 形式為(dinput,dm)、(dinput,dm)和(dinput,dinput)的 矩陣,dinput是輸入維度;Xinput是形式為(N,dinput)的矩陣;Q、K和V分別是形式為(N,dm)、(N,dm)和(N,dinput)的矩陣;Softmax()是激活函數(shù)。為了獲取形狀先驗知識和清晰的邊界特征,各尺度的跳躍連接中嵌入由三維CNN 構成的DBM(Deformable Bottle Module)。為了減小DBM 的計算復雜度,分別在該模塊的前面和后面都加上了1×1×1 卷積分別用于壓縮通道和恢復通道數(shù)。
文獻[62]在跳躍連接中添加了門控注意力機制[63],用來過濾掉編碼器中各層輸出的冗余信息。為進一步優(yōu)化分割網絡,該模型不是改變損失函數(shù)組成成分,而是同時監(jiān)督中間特征和最后結果,保證模型各部分之間的特征一致性。MBT-Net(Multi-Branch hybrid Transformer Network)[64]為了分割邊界密集的角膜內皮細胞分割數(shù)據(jù)集,在細胞邊界、細胞體和整個細胞分別設置了損失函數(shù),以提升模型處理邊界模糊以及密集分割的能力。其中,細胞邊界標簽通過坎尼算子(Canny Operator)從整個分割標簽中提取而來,細胞體標簽則先將分割標簽翻轉(0→1,1→0),再在邊界上進行高斯模糊(Gaussian Blurring)操作。通過使用對位置敏感的軸注意力機制把握全局信息和監(jiān)督細胞各部分的分割結果,模型的性能得到進一步提升。采用與軸注意力方法類似的AFTer-UNet(Axial Fusion Transformer UNet)[65]將軸注意力轉移到z軸,即只在同一位置(i,j)(i=1,2,…,h,j=1,2,…,w)沿z軸計算像素之間的相似度,而不是在整個三維體素上計算。這樣使三維注意力模塊復雜度從O(hw×Ns)(h和w分別是輸入的長和寬,Ns是鄰近切片數(shù))降低到O(hw+Ns)。雖然這樣能夠大幅減輕模型訓練負載,但切片之間處于不同坐標的體素聯(lián)系被忽略,在一定程度上會影響分割結果。CoTr(Convolutional neural network and a Transformer)[66]將 編碼器中的多尺度特征圖拉成一個大的圖像序列,丟進基于三維可變形Transformer 的橋模塊,然后傳遞給解碼器。歸功于可變形注意力機制[67]能夠通過學習從整個K集合中挑選出關鍵鍵值形成目標K集合,然后用目標K集合和當前Q計算注意力權重,既能減少計算量也能避免噪聲的干擾。同樣用可變形Transformer 提升模型效率的MCTrans(Multi-Compound Transformer)[68]在過渡 模塊上 嵌入了TSA(Transformer Self Attention)和 TCA(Transformer Cross Attention),用可變形注意力機制促進TSA 獲取CNN 輸出特征圖;而對于整個TCA 模塊,添加的可學習的輔助嵌入矩陣作為Q,將來自TSA 的特征表示映射為K和V。在TCA 模塊最后,通過線性映射得到暫時的多分類結果,并用標簽計算該輔助損失,引導TSA 學習不同類之間特征表示的區(qū)別和同類之間特征表達的聯(lián)系,保證類內一致性和類間的區(qū)分度。上述分割模型絕大部分使用一次性跳躍連接,而在TransAttUnet(multi-level Attention guided U-Net with Transformer)[69]中,作者設計了三種不同的多級跳躍連接,并結合基于CNN 的全局空間注意力模塊和基于多頭注意力機制的Transformer 模塊,篩選出關鍵特征傳遞給解碼器,增強了模型的泛化性。實驗中,模型在5 個分割數(shù)據(jù)集上都能產生優(yōu)秀的分割結果。
4.5.1 跳躍連接
Ma 等[70]把Transformer 放到U 型網絡的跳躍連接上學習不同尺度的全局像素交互,提出了HTNet(Hierarchical context-attention Transformer Network)。每個跳躍連接有RAPP(Residual Atrous spatial Pyramid Pooling)、PAA(Positionsensitive Axial Attention)和 HCA(Hierarchical Context-Attention)三個模塊。RAPP 是ASPP[71]和殘差連接的組合,能夠從不同大小的卷積核和高分辨率的原圖像中捕捉到豐富的多尺度特征和細節(jié)特征;PAA 則是基于對位置敏感的軸注意力機制,該注意力機制在減少計算注意力矩陣的計算量的同時,也能獲取全局上下文;HCA 通過模仿Transformer 結構計算特征之間的關聯(lián)性。與常見的注意力機制最大的不同在于,HCA 中的Q、K和V來自U 型網絡中不同尺度的特征圖。由于特征圖之間的大小不同,所以利用上下采樣操作完成圖像塊之間相似性的計算,實現(xiàn)多尺度特征之間的聯(lián)系。
4.5.2 輸出塊
RTNet(Relation Transformer Network)[72]用于分割糖尿病視網膜病變多病灶,該模型主要由基于卷積的全局Transformer 模塊(Global Transformer Block,GTB)和關系Transformer 模塊(Relation Transformer Block,RTB)組 成。GTB 利用血管分支分割出血管域,利用病變分支并行分割病變域,然后將各自得到的特征圖傳給關系Transformer。RTB中的自注意力模塊所用的Q、K和V全部來自病變分支輸出,目的是提取各病變域之間的聯(lián)系;交叉注意力模塊則用于獲取病變域和血管域特征的異同,其中的Q來自病變分支,K和V來自血管分支。該模型的分割結果好于基準網絡,但模型中的多個注意力模塊增加了較多計算量和空間占用量。
從上述工作可以看出,選擇將Transformer 置于編碼器的分割模型明顯多于將Transformer 置于解碼器的分割模型。這一現(xiàn)象很大原因是處于解碼器的模塊的主要任務是融合來自編碼器的特征,而編碼器的主要任務是提取特征。只將Transformer 置于解碼器不能充分發(fā)揮其從低表達能力的特征圖中捕捉上下文聯(lián)系的優(yōu)勢,從而降低其優(yōu)化模型的能力。為了更好地將全局和局部信息有效融合,利用位于編碼器中的Transformer 提取信息,利用位于解碼器中的Transformer 融合信息,再結合卷積網絡獲取細節(jié)特征的優(yōu)勢,進一步增強模型對特征的表達能力。但是兩邊都插入Transformer 的模型會因注意力機制的計算復雜度而變得低效,所以探索高效的注意力模塊有助于提升該類模型的效率。為了使Transformer 提取和融合全局特征的能力保持較好的平衡,將Transformer 放在過渡連接處是個不錯的選擇,既能從具有較低表達能力的特征中獲取聯(lián)系又能依靠全局特征引導后面的融合器。更值得一提的是,在過渡連接處特征圖的分辨率是U 型網絡所有特征圖中最低的,即使使用多層疊加的Transformer 模塊,也不會給模型帶來很大的負載。但相較于將Transformer 置于編碼器或解碼器的方式,將Transformer 置于過渡連接處的方式在特征提取和融合方面的能力有限,需要花費更大的成本去權衡過渡連接處提取和融合的能力。
將Transformer 放到跳躍連接的位置是個不錯的嘗試工作。Transformer 在處理多模態(tài)信息的融合比CNN 更具有優(yōu)勢。在跳躍連接兩邊的特征雖然屬于同一尺度,但由于所在網絡的深度不同,會導致同尺度的特征圖存在較大的差異。借助于Transformer,可以更好地拉近兩者距離,降低因特征差異太大對后續(xù)融合部分的影響。但在U 型網絡中處理高分辨率特征圖時,Transformer 不一定能夠提升模型效率。
總的來說,Transformer 處于不同位置有著不同的優(yōu)缺點,讀者應該從具體任務出發(fā),選擇合適的位置。比如,若任務更側重于數(shù)據(jù)提取,可以考慮把Transformer 嵌入編碼器中;當任務更側重于數(shù)據(jù)融合,可以考慮把Transformer 插入編碼器中。
上述分割模型所用數(shù)據(jù)集包括BCV(multi-atlas labeling Beyond the Cranial Vault)[73]、ACDC(Automated Cardiac Diagnosis Challenge)[74]、Brain US[75]、GLAS(GLAnd Segmentation in colon histology images)[76]、DSB18(2018 Data Science Bowl)[77]、TNBC(Triple Negative Breast Cancer)[78]、BraTS(Brain Tumor Segmentation)[79-80]、Kvasir[81]、ISIC(International Skin Imaging Collaboration)2017[82]、DRIVE(Digital Retinal Images for Vessel Extraction)[83]、STARE(STructured Analysis of the REtina)[84]、CHASE_DB1[85]、ISIC2018[86]、The Segmentation Decathlon[87]、PROMISE12[88]、LiTS(Liver Tumor Segmentation benchmark)[89]、Alizarine[90]、Thorax-85[91]、PanNuke(open Pan-cancer histology dataset for Nuclei instance segmentation and classification)[92]、KiTS19(Kidney and Kidney Tumor Segmentation)[93]、IDRiD(Indian Diabetic Retinopathy image Dataset)[94]、DDR(Dataset for Diabetic Retinopathy)[95]等,還有作者自己收集的數(shù)據(jù)集,如ABVS(Automated Breast Volume Scanner),詳情見表1。
表1 基于Transformer的醫(yī)學圖像分割模型概覽Tab.1 Overview of Transformer-based medical image segmentation models
目前Transformer 已成為深度學習各領域研究的熱點之一,尤其是在自然語言處理和計算機視覺領域,在各下游任務中都可見其身影。在醫(yī)學圖像分割任務中,U 型網絡和Transformer 的混合模型展現(xiàn)出較好的分割效果。但即使如此,利用Transformer 處理醫(yī)學圖像仍然面臨巨大挑戰(zhàn):
1)醫(yī)學圖像數(shù)據(jù)集偏?。簶俗⑨t(yī)學圖像需要具有專業(yè)適合和豐富經驗的醫(yī)生,且醫(yī)學圖像的分辨率普遍很高,以至于醫(yī)學圖像的標注費時費力,成本很高,所以較少有大的醫(yī)學圖像數(shù)據(jù)集。充分發(fā)揮Transformer 捕捉長距離依賴的優(yōu)勢需要一定的樣本量,而大多數(shù)醫(yī)學圖像數(shù)據(jù)集都不能滿足該需求。
2)醫(yī)學圖像分辨率高:Transformer 原用于處理自然語言中的序列任務,若用于處理圖像任務需要將圖像序列化。但醫(yī)學圖像分辨率高,像素點多,序列化之后會形成過長的序列。雖然ViT 提出了圖像塊序列,但切割高分辨率的醫(yī)學圖像之后的序列仍然會導致計算量較大。
3)Transformer 缺乏位置信息:在醫(yī)學圖像分割任務中,目標位置信息對于分割結果非常重要。由于Transformer 不含位置信息,只能通過學習嵌入位置信息。但對于不同的數(shù)據(jù)集位置信息不同,對位置信息的要求也不同,那么學習位置的方式也不同,嚴重影響了模型的泛化性。
4)自注意力機制只在圖像塊之間進行:為減少Transformer 處理圖像的計算量,圖像被序列化之后,注意力權重的計算只在圖像塊之間進行,而忽略了圖像塊內部像素之間的聯(lián)系。當分割、識別或檢測小目標以及邊界模糊的任務時,像素之間的關鍵信息會影響模型精度。
結合目前Transformer 和U 型網絡的混合網絡發(fā)展現(xiàn)狀和所面臨的挑戰(zhàn),對未來研究提出了以下幾點建議和展望:
1)半監(jiān)督或無監(jiān)督學習:利用Transformer 能夠從大數(shù)據(jù)集上提取出全局關鍵特征的優(yōu)勢,用它在大數(shù)據(jù)集上用輔助任務進行訓練或學習已有標記圖像特征進而自動生成高置信度的偽標簽。兩者可以緩解醫(yī)學圖像數(shù)據(jù)集規(guī)模普遍偏小的問題。
2)加入先驗知識:先驗知識能夠幫助模型關注目標任務的關鍵特征,降低模型擬合冗余信息的概率。通常醫(yī)學圖像中的先驗知識包括形狀先驗和位置先驗等。
3)多模態(tài)圖像融合:不同模態(tài)的醫(yī)學圖像提供不同的圖像信息,融合多模態(tài)的圖像特征能夠幫助模型學習有利于分割的表示。比如T1 用于觀察解剖結構,T2 用于確定病灶部位。
4)提出高效的采樣操作:在U 型網絡下采樣和上采樣操作不可避免地會導致細節(jié)特征的缺失和冗余數(shù)據(jù)的產生。提出高效采樣方法既能降低模型復雜度,也能保留重要特征信息。
Transformer 是近兩年深度學習領域研究的熱門框架之一。得益于其獲取全局上下文的優(yōu)勢,在醫(yī)學圖像分割任務中能夠緩解目標區(qū)域分散、形狀差異大等問題。但對于規(guī)模不大的醫(yī)學圖像數(shù)據(jù)集,Transformer 難以充分發(fā)揮其優(yōu)勢。所以,借助于U 型網絡結構能夠充分利用樣本信息提取多尺度局部空間特征,使模型的全局信息和局部信息達到較好的平衡,提高模型性能。本文從U 型網絡中Transformer 所處位置的角度,歸納了結合兩者的醫(yī)學圖像分割網絡。從文中分割網絡的表現(xiàn)可以看出,混合使用U 型網絡和Transformer 模塊有不錯的發(fā)展前景和很大的研究意義。