梁禮明,何安軍,陽 淵,朱晨錕
(江西理工大學(xué) 電氣工程與自動(dòng)化學(xué)院,江西 贛州 341000)
在各種癌癥中,結(jié)直腸癌是最常見的惡性腫瘤之一,其發(fā)病率和死亡率均位于世界前三[1]。最新發(fā)布的數(shù)據(jù)顯示,2020年世界結(jié)直腸癌新發(fā)病數(shù)約為193萬,占全部惡性腫瘤的10%,且晚期結(jié)直腸癌死亡率高達(dá)90%[1]。因此,定期通過結(jié)腸鏡篩查結(jié)腸是預(yù)防結(jié)直腸癌的有效方法。盡管結(jié)腸鏡檢查被認(rèn)為是結(jié)直腸癌篩查的金標(biāo)準(zhǔn),但這項(xiàng)檢查很大程度取決于內(nèi)鏡醫(yī)生的工作經(jīng)驗(yàn)和個(gè)人能力,導(dǎo)致息肉檢查的漏檢率高達(dá)14%~30%[2]。因此,在臨床環(huán)境下設(shè)計(jì)一種自動(dòng)準(zhǔn)確分割的結(jié)直腸息肉算法變得十分重要。
傳統(tǒng)的息肉分割方法主要是通過提取顏色、紋理和形狀等特征,然后使用分類器來區(qū)分息肉和其周圍環(huán)境。如Gupta等[3]采用一種基于邊緣算法,通過檢測不同區(qū)域的像素值或梯度變化顯著的區(qū)域,從而分割出目標(biāo)區(qū)域。Vala等[4]提出了一種基于閾值的算法,利用圖像灰度值計(jì)算一個(gè)或多個(gè)閾值,并通過比較圖像的灰度值與所得閾值,進(jìn)而從背景中分割出目標(biāo)區(qū)域。然而息肉與周圍粘膜之間對比度低,且息肉在大小、顏色和形狀上各異,導(dǎo)致傳統(tǒng)分割方法分割性能低、泛化性能差、漏檢率很高。
近年來,隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的不斷發(fā)展,已經(jīng)被證明明顯優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)分割方法。比如,Brandao等[5]首先使用全卷積網(wǎng)絡(luò)(Fully Convolution Network,F(xiàn)CN)和預(yù)訓(xùn)練的VGG[6]模型在結(jié)腸鏡圖像中識別和分割息肉,實(shí)現(xiàn)了端到端的逐像素分割。Zhou等[7]在原U-Net[8]的基礎(chǔ)上添加了一系列嵌套的密集跳躍路徑,形成了一個(gè)具有深度監(jiān)督密集連接的編碼器解碼器網(wǎng)絡(luò)U-Net++。Jha等[9]提出了ResUNet++,以ResNet[10]作為骨干網(wǎng)絡(luò),結(jié)合殘差塊、空洞空間金字塔池化和注意力模塊,對息肉分割的部分區(qū)域具有很高的準(zhǔn)確率,但對邊界處理還存在模糊和缺失等問題。Fan等[11]提出了PraNet,使用一個(gè)并行解碼器來聚合高級特征,然后使用一個(gè)反向注意模塊來建立區(qū)域和邊界之間的關(guān)系,從而糾正一些錯(cuò)誤位置的邊界預(yù)測。Nguyen等[12]提出了CCBANet利用級聯(lián)上下文模塊來提取局部和全局特征,并提出平衡注意模塊來增加對前景、背景和邊界區(qū)域的注意。盡管上述方法與傳統(tǒng)方法相比,息肉分割性能有了較大的提升,但仍然存在一些問題,例如息肉與周圍粘膜之間對比度較低的區(qū)域分割精度低、分割邊界存在偽影、分割圖像內(nèi)部不連續(xù)以及錯(cuò)分割和分割不足等問題。
為了解決上述問題,實(shí)現(xiàn)更高的邊界分割精度,本文提出了一種融合Transfomer和多尺度并行注意網(wǎng)絡(luò)(Fusion of Transfomer and Multiscale Parallel Attention Networks,F(xiàn)TMPA-Net)的結(jié)直腸息肉分割算法,主要包括以下幾點(diǎn)工作:① 在跳躍連接處引入多尺度感受場模塊(Multiscale Receptive Field Block,RFB)和高效通道注意力機(jī)制,以重新加權(quán)編碼器的特征,增強(qiáng)分割任務(wù)的關(guān)鍵特征,同時(shí)抑制背景顏色的響應(yīng);② 在譯碼部分采用并行解碼模塊來聚合不同尺度的特征,有效地將上下文信息進(jìn)行高效融合;③ 提出了一種新的高效多頭注意力機(jī)制(Efficient Multi-Head Self-Attention Module,EMHSA),將經(jīng)過不同模塊的深層特征、淺層特征和全局上下文特征相融合,減少各特征之間的語義鴻溝,細(xì)化邊緣信息,構(gòu)建局部與全局的聯(lián)系,提升分割精度。
由于息肉在形狀、大小和位置上有很大的差異性(類內(nèi)不一致)以及在運(yùn)動(dòng)模糊和光反射等條件下,息肉和周圍背景具有高度的相似性(類間不一致),為了克服類內(nèi)不一致和類間不一致,本文以改進(jìn)的密集網(wǎng)絡(luò)(HarDNet)作為基本主干,提出了FTMPA-Net,其主要結(jié)構(gòu)包括改進(jìn)的密集網(wǎng)絡(luò)、RFB、高效通道注意力機(jī)制、并行解碼模塊和EMHSA。
FTMPA-Net的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。首先將數(shù)據(jù)增強(qiáng)后的圖像輸入到改進(jìn)的密集網(wǎng)絡(luò)編碼器中,逐層提取息肉圖像的語義信息和空間細(xì)節(jié)。其次,在編碼器和解碼器之間的跳躍連接部分引入RFB和高效通道注意力機(jī)制,利用不同的感受野去捕捉變化尺寸的待分割目標(biāo),進(jìn)而加強(qiáng)空間和通道相關(guān)性信息的表征能力。然后,通過并行解碼模塊逐層恢復(fù)特征,生成初始預(yù)測分割結(jié)果圖用于后續(xù)深層監(jiān)督。最后,利用EMHSA以逐像素點(diǎn)的方式完善邊緣結(jié)構(gòu)信息,建立局部與全局的依賴關(guān)系,得到最終預(yù)測分割結(jié)果圖。其中,在生成初始預(yù)測分割結(jié)果和最終預(yù)測分割結(jié)果前,都先使用1×1的卷積進(jìn)行特征提取并通道壓縮,然后采用8×8的雙線性插值上采樣操作使其恢復(fù)至原始圖像大小。
圖1 FTMPA-Net網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.1 FTMPA-Net network model structure
由于息肉圖像中待分割的目標(biāo)區(qū)域與周圍環(huán)境具有高度的相似性,單一尺度的特征學(xué)習(xí)往往忽略了上下文語義信息,不能建立局部與全局的依賴關(guān)系,最終影響分割性能。本文使用RFB[13],用不同的感受野來提取目標(biāo)區(qū)域特征信息,并根據(jù)目標(biāo)區(qū)域的大小動(dòng)態(tài)分配不同的學(xué)習(xí)權(quán)重,進(jìn)而提高特征學(xué)習(xí)的表征能力和構(gòu)建全局與局部的聯(lián)系。RFB如圖2所示。
圖2 RFBFig.2 Multi-scale receptive field block
包含4個(gè)并行的分支:第1個(gè)分支采用1×1的卷積操作;第2個(gè)分支采用堆疊的1×3,3×1和3×3卷積操作;第3個(gè)分支采用堆疊的1×5,5×1和3×3卷積操作;第4個(gè)分支采用堆疊的1×7,7×1和3×3卷積操作。在每一個(gè)3×3和1×1的卷積后面都加入非線性激活函數(shù)(ReLU)和一個(gè)批量歸一化(BN)操作,最終每個(gè)分支獲得的感受野分別為1,3,5和7。為了保證每條支路特征之間的相關(guān)性和完整性,最后將4條支路提取到的多尺度特征進(jìn)行Concatenate操作。
注意力機(jī)制是可以嵌套在機(jī)器學(xué)習(xí)算法中的一種輕量級結(jié)構(gòu),它可以為其感興趣的區(qū)域分配更大的權(quán)重,幫助模型重新校準(zhǔn)權(quán)重的分配。為了捕獲空間和通道特征的相關(guān)性信息,同時(shí)抑制不相關(guān)區(qū)域的特征激活,本文使用高效通道注意力模塊(Efficient Channel Attention Moudle,ECAM),沿著通道維度進(jìn)行注意,有效地修剪特征響應(yīng),增強(qiáng)共性特征激活,使模型能準(zhǔn)確地定位待分割區(qū)域,提高不同尺度特征的適應(yīng)能力。ECAM是一個(gè)輕量級通用模塊,它可以無縫地集成到任何卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)中,而且可以忽略計(jì)算開銷,并且可以與基本卷積神經(jīng)網(wǎng)絡(luò)骨架一起進(jìn)行端到端訓(xùn)練[14]。
ECAM如圖3所示。圖中,C為特征圖的通道數(shù),H為特征圖的高度,W為特征圖的寬度。首先,對輸入特征圖采用全局平均池化(AvgPool)和全局最大池化(MaxPool)操作聚焦特征圖的空間信息,得到平均池化特征描述符(FAvgPool)和最大池化特征描述符(FMaxPool)。然后,將這2組特征圖輸送到一個(gè)權(quán)重共享的多層感知機(jī)網(wǎng)絡(luò)(Muti-Layer Perceptron,MLP)。多層感知機(jī)網(wǎng)絡(luò)包括了1×1卷積(降維操作,減少計(jì)算量)、ReLU激活函數(shù)(增加非線性元素)和一個(gè)恢復(fù)到與輸入分辨率相同的升維操作(1×1標(biāo)準(zhǔn)卷積操作實(shí)現(xiàn))。再后,將這2個(gè)通道注意力映射圖進(jìn)行和操作。最后,利用Sigmoid激活函數(shù)將特征值壓縮到0和1之間,獲得最終的通道相關(guān)矩陣。通道相關(guān)矩陣Mc為:
圖3 ECAMFig.3 Efficient Channel Attention Moudle
Mc=S{σReLU[MLP(FMaxPool)]+σReLU[MLP(FAvgPool)]},
(1)
式中,S表示Sigmoid激活函數(shù);σReLU表示ReLU激活函數(shù);F為輸入特征圖;Mc∈RC×1×1。
為了增強(qiáng)通道信息的表征能力,將原始特征圖F和經(jīng)過Sigmoid激活函數(shù)獲得的通道相關(guān)矩陣Mc進(jìn)行元素乘法,最終獲得具有空間和位置信息的高效注意力特征圖,其計(jì)算式為:
MF=Mc⊙F,
(2)
式中,⊙表示矩陣乘法。
現(xiàn)有的分割網(wǎng)絡(luò)都是編碼器解碼器結(jié)構(gòu),比如U-Net,ResUnet和TGA-Net,這種結(jié)構(gòu)通常聚合卷積神經(jīng)網(wǎng)絡(luò)中提取的所有多層次特征,這使得模型計(jì)算量偏大,嚴(yán)重消耗計(jì)算機(jī)資源。為了減少計(jì)算資源,加快推理速度,本文采用如圖4所示的并行部分解碼模塊(Parallel Decoding Module,PD)[15]。圖中,MF5,MF4和MF3為編碼器后3個(gè)階段經(jīng)過RFB和ECAM的輸出特征圖。PD具體來說主要由2個(gè)級聯(lián)部分組成。第一部分,深層特征重構(gòu),首先將高級特征圖MF5進(jìn)行2×2的雙線性插值上采樣操作使其與特征圖MF4具有相同的分辨率,然后通過2個(gè)3×3的卷積單元進(jìn)行特征映射,分別得到F5-1和F5-2,接著將特征映射圖F5-1和特征圖MF4進(jìn)行矩陣乘法,并將乘積結(jié)果與特征映射圖F5-2進(jìn)行和操作,最后使用3×3的卷積來平滑連接特征,最終得到融合特征圖F5-4,其過程計(jì)算式如下:
圖4 并行解碼模塊Fig.4 Parallel decoding module
F5-4=Conv{Conv[up1(MF5)]}⊙MF4+Conv[up1(MF5)],
(3)
式中,Conv表示3×3的標(biāo)準(zhǔn)卷積;up1表示2×2的雙線性插值上采樣;⊙表示矩陣乘法。
第二部分跟第一部分的過程類似。淺層特征與深層特征的高效融合。首先將特征圖MF5,MF4,F5-4分別進(jìn)行上采樣操作,使其分辨率與特征圖MF3的分辨率相同,并分別利用3×3卷積單元將特征圖平滑處理,得到特征映射結(jié)果F5-3,F(xiàn)4-3和F5-4-3。然后將平滑處理得到的特征映射結(jié)果F5-3,F(xiàn)4-3與特征圖MF3三者進(jìn)行矩陣乘法,得到F543,接著將映射結(jié)果F543和平滑處理得到的特征圖F5-4-3進(jìn)行相加,最后將累加得到的特征映射結(jié)果依次經(jīng)過2個(gè)3×3的卷積進(jìn)行降維操作。該操作一方面用于生成初始預(yù)測結(jié)果,另一方面用于后續(xù)邊界監(jiān)督。該過程計(jì)算式如下:
Fout=Conv{Conv[up2(MF5)]⊙Conv[up1(MF4)]⊙
MF3}+Conv[up1(F5-4)],
(4)
式中,Conv表示3×3卷積;up1表示2×2的雙線性插值上采樣;up2表示4×4的雙線性插值上采樣;⊙表示矩陣乘法。
由于圖像是高度結(jié)構(gòu)化的數(shù)據(jù),在局部高分辨率特征圖中大多數(shù)像素除了邊界區(qū)域外都具有相似的特征。因此,在所有像素之間成對注意計(jì)算是非常低效和冗余的。從理論角度來看,長序列自我注意本質(zhì)上是低秩的,這表明大部分信息集中在最大奇異值上。受這一發(fā)現(xiàn)以及文獻(xiàn)[16-17]的啟發(fā),提出了EMHSA以高級位置信息作為邊界監(jiān)督,逐步細(xì)化邊緣信息,從不同的維度上建構(gòu)區(qū)域與邊界之間的關(guān)系。
EMHSA如圖5所示,其中Fout1和MF2分別是并行解碼模塊的輸出特征圖和編碼第二階段經(jīng)過ECAM的輸出特征圖,C為特征圖的通道數(shù),H為特征圖的高度,W為特征圖的寬度。首先,將輸入特征圖Fout1和MF2分別采用1×1的標(biāo)準(zhǔn)卷積進(jìn)行投影映射得到3個(gè)特征向量Q,K,V。為了減少計(jì)算量,加快收斂速度,采用雙線性插值下采樣操作對特征向量K,V進(jìn)行空間尺寸收縮,其中收縮尺寸大小為8×8。其次,為了獲得絕對的上下文語義信息以及添加相對應(yīng)的高度和寬度信息,本文使用二維相對位置進(jìn)行位置編碼。假設(shè)像素i=(ix,iy),像素j=(jx,jy),則i,j之間的相對位置編碼計(jì)算式為:
圖5 EMHSAFig.5 Efficient multi-head self-attention module
(5)
為了將位置編碼信息嵌入到高級語義信息特征圖中,首先將特征向量Q與含位置編碼信息特征圖T進(jìn)行矩陣乘法,并與特征向量Q和降維后的映射鍵矩陣K′相乘的結(jié)果進(jìn)行矩陣加法,得到對應(yīng)的計(jì)算權(quán)重值,然后通過Softmax函數(shù)將權(quán)重值自適應(yīng)歸一化,在把歸一化得到的結(jié)果沿著降維鍵矩陣V′的方向進(jìn)行加權(quán)求和,從而得到EMHSA的輸出,計(jì)算式為:
(6)
為了驗(yàn)證本文算法的有效性,實(shí)驗(yàn)采用了CVC-ClinicDB[18]數(shù)據(jù)集和Kvasir-SEG[19]數(shù)據(jù)集。CVC-ClinicDB數(shù)據(jù)集為2015年由醫(yī)學(xué)圖像與計(jì)算機(jī)輔助國際會議發(fā)布的公開數(shù)據(jù)集;Kvasir-SEG數(shù)據(jù)集于2020年用于計(jì)算機(jī)輔助胃腸道疾病檢測。各個(gè)數(shù)據(jù)集的細(xì)節(jié)如表1所示,為了方便模型的訓(xùn)練和測試,將CVC-ClinicDB數(shù)據(jù)集和Kvasir-SEG數(shù)據(jù)集的圖像統(tǒng)一裁剪成352 pixel×352 pixel。根據(jù)文獻(xiàn)[20],將CVC-ClinicDB數(shù)據(jù)集和Kvasir-SEG數(shù)據(jù)集按照8∶1∶1劃分為訓(xùn)練集、驗(yàn)證集和測試集3個(gè)部分,為了讓模型能學(xué)習(xí)到某些細(xì)微的特征,在進(jìn)行模型訓(xùn)練之前本文對這2個(gè)數(shù)據(jù)集的原始圖像以及對應(yīng)標(biāo)簽都同時(shí)進(jìn)行數(shù)據(jù)歸一化操作。
表1 數(shù)據(jù)集細(xì)節(jié)描述Tab.1 Detailed description of datasets
本文實(shí)驗(yàn)環(huán)境基于開源的PyTorch框架,所有實(shí)驗(yàn)都是在Ubuntu16.04操作系統(tǒng)Inter Core i7-6700H CPU 16 GB內(nèi)存上進(jìn)行,顯卡為NVIDA GeForce GTX2070 GPU 8 GB。在模型訓(xùn)練過程中采用的網(wǎng)絡(luò)損失函數(shù)是加權(quán)交并比(IoU)損失和加權(quán)二值交叉熵(BCE)損失之和,Adam優(yōu)化器,批量處理大小設(shè)置為12,網(wǎng)絡(luò)迭代次數(shù)epoch設(shè)置為60,學(xué)習(xí)率設(shè)置為0.000 1。
為了評估本文算法的分割性能,采用醫(yī)學(xué)領(lǐng)域上常用的5個(gè)性能指標(biāo)來對模型分割結(jié)果的準(zhǔn)確性進(jìn)行定量分析。
① 平均交并比(MIoU):指模型預(yù)測分割結(jié)果與金標(biāo)準(zhǔn)分割圖像的重疊范圍來度量被檢測圖像的準(zhǔn)確度,最后對每一個(gè)類別取平均值,計(jì)算式為:
(7)
② 平均相似性系數(shù)(Mean Dice Similariy Coefficient,MDice):用于評估網(wǎng)絡(luò)模型分割結(jié)果與金標(biāo)準(zhǔn)圖像之間的相似度,計(jì)算式為:
(8)
③ 精確度(Precision):其含義是在實(shí)際為正的樣本中被預(yù)測為正樣本的概率,計(jì)算式為:
(9)
④ 召回率(Recall):其含義是在被所有預(yù)測為正的樣本中實(shí)際為正樣本的概率,計(jì)算式為:
(10)
⑤ 平均絕對誤差(MAE):逐像素比較指標(biāo),表示模型預(yù)測值與真實(shí)值之間絕對誤差的平均值,計(jì)算式為:
(11)
式中,TP表示正例被正確判斷成正例的樣本數(shù);FN表示正例被錯(cuò)誤判斷成負(fù)例的樣本數(shù);TN表示負(fù)例被正確判斷成負(fù)例的樣本數(shù);FP表示負(fù)例被錯(cuò)誤判斷成正例的樣本數(shù);GT為專家標(biāo)注標(biāo)簽;SR為網(wǎng)絡(luò)分割結(jié)果。
為了評估本文提出的FTMPA-Net算法的性能,在CVC-ClinicDB和Kvasir-SEG數(shù)據(jù)集上將本文算法對息肉圖像分割結(jié)果分別與Unet,Unet++,PraNet,ColonSegNet[21]和DDA-Net[22]算法對腸息肉的分割結(jié)果進(jìn)行了對比,最終得到的性能指標(biāo)對比結(jié)果如表2所示,其中加粗表示此項(xiàng)為最優(yōu)值。從表2中的結(jié)果可以看出,本文提出的FTMPA-Net分割算法的MDice, MIoU, Recall, Precision和MAE五項(xiàng)指標(biāo)均取得了最優(yōu)的結(jié)果,在CVC-ClinicDB數(shù)據(jù)集上,這5項(xiàng)指標(biāo)分別達(dá)到了95.58%,91.70%,95.86%,95.52%和0.007 2,比經(jīng)典U-Net網(wǎng)絡(luò)的分割結(jié)果分別提高了4.41%,6.45%,4.16%,2.99%和降低了0.008 2。與先進(jìn)CologSegNet網(wǎng)絡(luò)相比,在MDice和MIoU上分別提高了3.62%和4.65%。在Kvasir-SEG數(shù)據(jù)集上,這5項(xiàng)指標(biāo)分別達(dá)到了92.34%,86.77%,95.01%,91.29%和0.021 8。比經(jīng)典PraNet網(wǎng)絡(luò)在MDice, MIoU, Recall, Precision上分別提高了1.41%,1.56%,1.27%和0.74%。實(shí)驗(yàn)結(jié)果表明,本文算法能有效地提升息肉分割精度,可以進(jìn)一步提升醫(yī)生診斷的效率和準(zhǔn)確率,減少醫(yī)生的誤診率。
表2 數(shù)據(jù)集CVC-ClinicDB和Kvasir-SEG在不同算法下的實(shí)驗(yàn)對比數(shù)據(jù)Tab.2 Experimental comparison of datasets CVC-ClinicDB and Kvasir-SEG under different algorithms
圖6和圖7分別給出了本文算法與其他分割算法在CVC-ClinicDB數(shù)據(jù)集和Kvasir-SEG數(shù)據(jù)集上的分割結(jié)果對比。其中,圖6和圖7中的(a)~(h)分別對應(yīng)的是原圖、真實(shí)標(biāo)簽、U-Net、U-Net++、ColonSegNet、DDA-Net、PraNet和本文算法的分割結(jié)果圖。圖6中第1幅和圖7中第1幅圖存在息肉和周圍黏膜對比度低的現(xiàn)象,U-Net,U-Net++,ColonSegNet,DDA-Net和PraNet的分割結(jié)果出現(xiàn)了明顯的錯(cuò)分割和漏分割情況,而FTMPA-Net可以捕獲更多的空間細(xì)節(jié)特征,高效精準(zhǔn)定位息肉,從而使分割結(jié)果更能接近金標(biāo)簽。圖6中第2幅和第3幅圖像存在局部過度曝光的情況,U-Net,U-Net++和ColonSegNet抑制背景顏色干擾能力較差以及精準(zhǔn)定位息肉能力較弱,導(dǎo)致分割結(jié)果依然存在錯(cuò)分割和漏分割的現(xiàn)象。DDA-Net和PraNet能有效地抑制干擾因素,但是在局部過度曝光區(qū)域邊界出現(xiàn)了偽影以及漏分割的情況。FTMPA-Net可以構(gòu)建全局與局部的聯(lián)系,細(xì)化邊緣特征,使分割結(jié)果在邊界處能平滑連接。圖7中第2幅和第3幅圖息肉附近的背景顏色與待分割的息肉顏色幾乎一致,背景顏色的干擾容易導(dǎo)致息肉定位不準(zhǔn)確,同時(shí)也影響息肉邊界分割,使目標(biāo)區(qū)域難以區(qū)分。FTMPA-Net豐富的特征提取和強(qiáng)大的邊界處理能力使其在具有極致顏色干擾的背景時(shí)也能有效地精準(zhǔn)定位息肉,也能在邊界處平滑分割,減少漏分割和錯(cuò)分割的現(xiàn)象,而其他算法不同程度地出現(xiàn)了分割結(jié)果內(nèi)部不連貫、分割邊界模糊、漏分割和錯(cuò)分割問題,從而進(jìn)一步說明本文算法的優(yōu)越性和魯棒性。
圖6 CVC-ClinicDB數(shù)據(jù)集分割結(jié)果Fig.6 Segmentation results of CVC-ClinicDB dataset
圖7 Kvasir-SEG數(shù)據(jù)集分割結(jié)果Fig.7 Segmentation results of Kvasir-SEG dataset
為了進(jìn)一步驗(yàn)證本文算法的分割性能,表3給出了不同的息肉分割方法在Kvasir-SEG數(shù)據(jù)集的MIou, MDice, Recall和Precision值,數(shù)據(jù)來自2017—2022年相關(guān)文獻(xiàn),加粗表示此項(xiàng)為最優(yōu)值。
表3 Kvasir-SEG數(shù)據(jù)集算法對比Tab.3 Comparison of algorithm indexes in Kvasir-SEG dataset
從表3可知,現(xiàn)有的息肉分割算法在Kvasir-SEG數(shù)據(jù)集上的MIoU, MDice, Recall均低于本文算法,進(jìn)而說明本文算法可以更好地定位息肉位置,細(xì)化邊緣信息,減少分割結(jié)果圖像中內(nèi)部不連貫、錯(cuò)分割和分割不足問題。文獻(xiàn)[15]采用編碼器解碼器結(jié)構(gòu),在跳躍連接處引入多尺度感受塊來減少編碼與譯碼之間的語義鴻溝問題,利用級聯(lián)解碼結(jié)構(gòu)來恢復(fù)更多的空間細(xì)節(jié),但該算法并沒有充分利用淺層特征,導(dǎo)致解碼部分提取特征能力不足,在Kvasir-SEG數(shù)據(jù)集上指標(biāo)明顯低于本文算法。文獻(xiàn)[29]以ResNet50作為編碼器,在跳躍連接處采用一種混合通道空間注意模塊對編碼器提取的特征進(jìn)行重新加權(quán),在譯碼部分采用全局上下文金字塔特征提取模塊來捕獲多尺度接受閾的特征信息。最后利用特征融合模塊,融合高級信息、低級信息和全局上下文信息,來減少語義差異,完善邊緣細(xì)節(jié),提高分割精度。在Kvasir-SEG數(shù)據(jù)集上精確度最高,比本文算法高了1.51%,而MIoU, MDice和Recall均比本文低1.47%,0.74%和3.11%。文獻(xiàn)[25]使用2個(gè)U型結(jié)構(gòu)的網(wǎng)絡(luò),在網(wǎng)絡(luò)中增加了SE模塊[30]來進(jìn)一步增強(qiáng)對通道和空間信息的依賴性,同時(shí)在譯碼和解碼之間的底部采用ASPP模塊來提取多尺度信息,能很好地定位息肉,減少分割結(jié)果內(nèi)部不連貫問題,獲得較好的分割性能,而本文算法在對比的4項(xiàng)指標(biāo)上均高于文獻(xiàn)[25],進(jìn)一步說明本文算法的優(yōu)越性和準(zhǔn)確性。
為了驗(yàn)證實(shí)驗(yàn)中每個(gè)模塊的有效性,并研究其在息肉分割上的實(shí)用性,本文使用控制變量方法在CVC-ClinicDB數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)。FTMPA-Net1以密集型網(wǎng)絡(luò)為主干,在編碼器和解碼器之間的跳躍連接部分加入RFB和ECAM,解碼部分采用并行解碼模塊來聚合多尺度信息。FTMPA-Net2在FTMPA-Net1的基礎(chǔ)上將解碼部分中的并行解碼模塊替換成EMHSA。FTMPA-Net3和FTMPA-Net4與最終模型FTMPA-Net的區(qū)別在于跳躍連接處是否引入RFB和ECAM。定量消融分析結(jié)果如表4所示,展示了每個(gè)模塊對息肉分割精度的影響,其中加粗表示此項(xiàng)為最優(yōu)值。從表4可以看出,F(xiàn)TMPA-Net1和FTMPA-Net的MDice分別為93.76%和95.58%,MIoU分別為89.44%和91.70%,明顯提高算法的MDice和MIoU,說明EMHSA模塊能進(jìn)一步細(xì)化邊緣信息,構(gòu)建局部與全局的聯(lián)系。FTMPA-Net2在FTMPA-Net的基礎(chǔ)上去掉了PD,使得MDice和MIoU下降了1.3%和1.96%,從側(cè)面反映PD模塊能有效地融合多尺度上下文信息,增強(qiáng)通道和空間特征的表征能力。FTMPA-Net3和FTMPA-Net4在FTMPA-Net的基礎(chǔ)上去掉了RFB和ECAM,實(shí)驗(yàn)結(jié)果表明RFB能利用不同的感受野去適應(yīng)的不同大小的分割目標(biāo),ECAM能提高各特征之間的空間細(xì)節(jié)聯(lián)系,抑制背景顏色特征的響應(yīng),使得MDice, MIoU和Recall分別提高了0.64%和0.66%,0.55%和0.52%,0.08%和0.73%。本文算法在并行解碼模塊的基礎(chǔ)上加入了EMHSA,在提高交并比的同時(shí)能權(quán)衡召回率和精確度。
表4 CVC-ClinicDB數(shù)據(jù)集消融指標(biāo)對比Tab.4 Comparison of ablation metrics in CVC-ClinicDB dataset
消融結(jié)果對比實(shí)驗(yàn)分割圖如圖8所示。從圖8中可以看出,EMHSA能細(xì)化邊緣信息,建立局部與全局的關(guān)系。對比圖8(c)和圖8(d)的分割結(jié)果,圖8(c)分割效果精度更高,邊緣細(xì)節(jié)更加清晰,然而圖8(d)的分割結(jié)果中出現(xiàn)了偽影、錯(cuò)分割和分割不足現(xiàn)象。高效通道注意力機(jī)制,能有效地修剪特征響應(yīng),增強(qiáng)共性特征激活,使模型能準(zhǔn)確地定位待分割區(qū)域,提高不同尺度特征的適應(yīng)能力。對比圖8(c)和圖8(e)的分割結(jié)果,圖8(e)的分割結(jié)果中出現(xiàn)了內(nèi)部不連貫問題,分割邊界出現(xiàn)錯(cuò)分,而圖8(c)能更好地表征通道維度的信息,區(qū)分背景與前景,使其分割結(jié)果與真實(shí)標(biāo)簽更接近。并行解碼模塊,能聚合多層次語義信息,減少各特征信息之間的語義差異。對比圖8(c)和圖8(f)分割結(jié)果,圖8(c)有更好的邊緣特征、更多的細(xì)節(jié)信息,沒有出現(xiàn)分割結(jié)果不連續(xù)問題。RFB利用不同的感受野去學(xué)習(xí)不同大小的待分割目標(biāo),使其保留更多的空間細(xì)節(jié),增強(qiáng)有效信息的權(quán)重。對比圖8(c)和圖8(g)的分割結(jié)果,圖8(g)的分割結(jié)果中邊緣細(xì)節(jié)分割不準(zhǔn)確,出現(xiàn)了少部分錯(cuò)分割和漏分割的問題。綜合上述分析,最終FTMPA-Net在分割結(jié)果邊界處與金標(biāo)簽更為接近,且在分割結(jié)果邊界外部不存在圖像偽影和圖像內(nèi)部不連貫問題。
圖8 CVC-ClinicDB數(shù)據(jù)集消融結(jié)果對比Fig.8 Comparison of ablation results in CVC-ClinicDB dataset
針對結(jié)直腸息肉精細(xì)分割,提出了一種端到端的醫(yī)學(xué)圖像分割算法FTMPA-Net,引入了4個(gè)功能模塊來解決結(jié)直腸息肉分割結(jié)果精度低、存在偽影、錯(cuò)分割和分割不足問題。其中,RFB和ECAM能提取更多的細(xì)節(jié)特征信息,并建立各信息之間的長期依賴關(guān)系,同時(shí)有效地抑制背景顏色的響應(yīng),提高網(wǎng)絡(luò)的性能。PD通過逐層聚合由高效通道注意力機(jī)制得到增強(qiáng)特征圖,使各層次之間的特征信息進(jìn)行有效交互,減少語義差異,最終生成初始預(yù)測分割圖,用于后續(xù)深層監(jiān)督。其次,提出的EMHSA去融合高級語義信息和多尺度語義信息,以解決目標(biāo)腸息肉尺寸大小不一和邊界分割模糊問題,進(jìn)一步細(xì)化邊緣特征,使分割邊界處能平滑連接。在CVC-ClinicDB數(shù)據(jù)集和Kvasir數(shù)據(jù)集上評估FTMPA-Net算法的分割性能。實(shí)驗(yàn)結(jié)果表明,本文算法的整體分割性能均優(yōu)于目前先進(jìn)分割算法,具有重要的臨床參考價(jià)值。