摘要:考慮到結(jié)直腸息肉圖像中病灶區(qū)域和周圍粘液存在對(duì)比度低、邊界模糊和形狀不規(guī)則等復(fù)雜特性,導(dǎo)致現(xiàn)有大部分算法無(wú)法實(shí)現(xiàn)高精準(zhǔn)的分割結(jié)直腸息肉。鑒于以上難點(diǎn),提出一種融合PVTv2和多尺度邊界聚合的結(jié)直腸息肉分割算法。首先,利用PVTv2逐層提取腸息肉圖像中的病灶特征,解決傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)對(duì)病灶區(qū)域特征提取能力不足的問(wèn)題;然后,針對(duì)網(wǎng)絡(luò)對(duì)復(fù)雜病灶區(qū)域的空間特征信息表征能力不強(qiáng)的問(wèn)題,在網(wǎng)絡(luò)跳躍連接處構(gòu)建多尺度上下文空間感知模塊;其次,設(shè)計(jì)多尺度擠壓適配融合模塊聚合不同尺度的特征信息,以減少各個(gè)尺度特征的語(yǔ)義差異;最后,為進(jìn)一步加強(qiáng)邊緣細(xì)節(jié)特征的識(shí)別能力,創(chuàng)造性構(gòu)造殘差軸向雙邊界細(xì)化模塊。該算法在Kvasir-SEG和CVC-ClinicDB數(shù)據(jù)集上進(jìn)行大量實(shí)驗(yàn)驗(yàn)證,其相似性系數(shù)分別為93.29%和94.52%,平均交并比分別為88.36%和89.88%。實(shí)驗(yàn)結(jié)果表明,對(duì)于復(fù)雜的病灶區(qū)域以及病灶邊界模糊的情況,所提算法在分割精度上均有較大的提升。
關(guān)鍵詞:結(jié)直腸分割;PVTv2;上下文空間感知;擠壓適配融合;殘差軸向雙邊界細(xì)化
中圖分類號(hào):TP183文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2023)05-042-1553-06
doi:10.19734/j.issn.1001-3695.2022.09.0441
0引言
結(jié)直腸癌是世界上最常見(jiàn)和最致命的惡性腫瘤之一,其后期死亡率高達(dá)90%。腸黏膜息肉是結(jié)直腸癌的前體,容易發(fā)生惡性病變,如果不及時(shí)治療將會(huì)導(dǎo)致結(jié)直腸癌變[1]。也就是說(shuō),早發(fā)現(xiàn)和準(zhǔn)確診斷腸黏膜息肉是有效降低死亡率的關(guān)鍵。結(jié)腸鏡檢查是一項(xiàng)有效篩查和預(yù)防結(jié)直腸癌的技術(shù),它可以篩選出結(jié)直腸息肉的位置和外觀信息,使醫(yī)生在發(fā)展為結(jié)直腸癌之前予以切除[2]。研究表明,利用結(jié)腸鏡進(jìn)行早期檢查可使結(jié)直腸癌發(fā)病率下降到30%[3]。然而,息肉通常在大小、顏色和質(zhì)地上各異,且息肉與其周圍粘膜之間對(duì)比度非常低,息肉的邊界幾乎無(wú)法區(qū)分,導(dǎo)致息肉分割不準(zhǔn)確,出現(xiàn)漏檢和錯(cuò)檢的問(wèn)題。因此,在臨床醫(yī)學(xué)下設(shè)計(jì)一種準(zhǔn)確的自適應(yīng)結(jié)直腸息肉分割算法對(duì)于預(yù)防結(jié)直腸癌具有重要意義。
結(jié)直腸息肉分割方法大致可分為兩類,即基于手工特征提取的傳統(tǒng)方法和基于深度學(xué)習(xí)的方法。傳統(tǒng)手工特征提取方法主要是通過(guò)提取顏色、輪廓、邊緣和紋理等低層次的特征,然后使用分類器來(lái)區(qū)分息肉和正常的腸粘膜。然而,傳統(tǒng)的特征提取和分類的策略高度依賴于設(shè)計(jì)者的經(jīng)驗(yàn),在不同的腸息肉圖像中息肉的大小和形狀質(zhì)地各異,導(dǎo)致傳統(tǒng)的分割方法分割性能較差,存在較高的漏檢率和錯(cuò)檢率。近年來(lái),隨著深度學(xué)習(xí)的普及,卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,CNN)在各種計(jì)算機(jī)視覺(jué)任務(wù)中都取得了顯著的突破。比如Zhou等人[4]在原U-Net[5]的基礎(chǔ)上添加了一系列嵌套的密集跳躍路徑,形成了一個(gè)具有深度監(jiān)督密集連接的編解碼器網(wǎng)絡(luò)U-Net++。密集跳躍路連接和卷積操作,能有效地提高小物體的分割性能,實(shí)現(xiàn)了良好的深層聚合。Khanh等人[6]提出一種空間通道注意門(scAG),并將其引入U(xiǎn)-Net,用于異常組織分割。scAG可將上下文信息嵌入到編碼器的低級(jí)特征中,引導(dǎo)網(wǎng)絡(luò)模型更多地關(guān)注重要區(qū)域,從而減小編碼器和解碼器特征之間的語(yǔ)義差異。Fang等人[7]構(gòu)建一種具有面積和邊界約束的三步選擇性特征聚合網(wǎng)絡(luò)用于息肉分割,該方法充分考慮了區(qū)域和邊界之間的依賴關(guān)系,并在額外的邊緣監(jiān)督下獲得了良好的分割結(jié)果。Zhang等人[8]為了提高對(duì)全局上下文特征信息建模的效率,同時(shí)防止底層細(xì)節(jié)特征的丟失,提出一種基于Transformer和CNN的并行分支架構(gòu)網(wǎng)絡(luò)TransFuse。
與傳統(tǒng)方法相比,基于深度學(xué)習(xí)的方法在其準(zhǔn)確性和泛化性上得到了質(zhì)的飛躍,但依然存在問(wèn)題,比如在局部過(guò)度曝光區(qū)域分割結(jié)果容易出現(xiàn)偽影、分割邊緣不連續(xù)、出現(xiàn)誤分割等。為了提高分割精度以及銳化邊緣細(xì)節(jié),本文提出一種融合PVTv2(PyramidVisionTransformerv2)[9]和多尺度邊界聚合的結(jié)直腸息肉分割算法,主要包括以下工作:a)Transformer和CNN的結(jié)合,利用PVTv2作為主干網(wǎng)絡(luò),逐層提取息肉圖像的語(yǔ)義信息和空間細(xì)節(jié),構(gòu)建特征信息之間的長(zhǎng)期依賴關(guān)系,緊接著利用CNN對(duì)特征信息進(jìn)一步提取,以提升網(wǎng)絡(luò)的魯棒性和泛化性;b)為了減少編碼器與解碼器之間的語(yǔ)義鴻溝和增強(qiáng)對(duì)待分割目標(biāo)區(qū)域的表征能力,在跳躍連接處構(gòu)建多尺度上下文空間感知模塊;c)為了有效地融合高級(jí)特征、低級(jí)特征和全局上下文特征,本文設(shè)計(jì)一種多尺度擠壓適配融合模塊;d)創(chuàng)造性地構(gòu)建一種殘差軸向雙邊界細(xì)化模塊,以高級(jí)位置特征信息作為邊界約束,協(xié)同淺層特征信息,進(jìn)一步銳化目標(biāo)區(qū)域的邊緣細(xì)節(jié),提升分割性能。
1算法描述
針對(duì)現(xiàn)有方法不能充分利用位置特征信息以及對(duì)病灶特征的邊緣像素點(diǎn)劃分不準(zhǔn)確,導(dǎo)致出現(xiàn)其分割邊界模糊、錯(cuò)分割和漏分割等問(wèn)題,本文提出一種融合PVTv2和多尺度邊界聚合網(wǎng)絡(luò)(PVTv2andmultiscaleboundaryaggregationnetwork,PMBA-Net)。PMBA-Net模型總體架構(gòu)如圖1所示,該模型主要結(jié)構(gòu)包括四個(gè)部分即編碼器、多尺度上下文空間感知模塊(scalecontextspatialawarenessmodule,CSAM)、多尺度擠壓適配融合模塊(multi-scaleextrusionfittingfusionmodule,MSEM)、殘差軸向雙邊界細(xì)化模塊(residualaxialdoubleboundaryrefinementmodule,RADBRM)。編碼器采用金字塔視覺(jué)變壓器PVTv2作為主干網(wǎng)絡(luò),逐層提取息肉圖像的語(yǔ)義信息和空間細(xì)節(jié),捕獲特征信息之間的長(zhǎng)期依賴關(guān)系。多尺度上下文空間感知模塊利用不同的感受野去適應(yīng)不同大小的分割目標(biāo),并動(dòng)態(tài)地構(gòu)建多個(gè)尺度特征信息之間的空間聯(lián)系;多尺度擠壓適配融合模塊通過(guò)逐級(jí)上采樣操作聚合來(lái)自不同層次的上下文空間特征信息,增強(qiáng)每個(gè)層次通道特征信息的表征能力,弱化不同層次之間的語(yǔ)義鴻溝;殘差軸向雙邊界細(xì)化模塊利用所得的高級(jí)位置特征信息作為雙邊引導(dǎo),并通過(guò)額外的邊界監(jiān)督來(lái)抑制非病灶區(qū)域的邊界特征,從而細(xì)化病灶區(qū)域的邊界。
1.1多尺度上下文空間感知模塊
由于不同結(jié)直腸息肉圖像中待分割目標(biāo)區(qū)域大小和位置存在巨大的差異,單一尺度的特征學(xué)習(xí)往往不能兼顧上下文信息以及不能有效地對(duì)全局和局部特征信息進(jìn)行自適應(yīng)加權(quán)。在一定程度上將導(dǎo)致其特征提取能力不足,最終影響分割性能。為了獲得圖像的空間上下文特征信息,得到相應(yīng)的具備上下文空間相關(guān)性信息的多尺度特征注意力圖,受文獻(xiàn)[10,11]的啟發(fā),提出多尺度上下文空間感知模塊。CSAM能動(dòng)態(tài)地分配不同尺度下的權(quán)重,增強(qiáng)對(duì)待分割目標(biāo)區(qū)域的表征能力,其結(jié)構(gòu)如圖2所示。CSAM主要包括多尺度上下文表征模塊[12](multiscalecontextrepresentationmodule,MCRM)、空間注意力機(jī)制[13](spatialattentionmechanism,SAM)和殘差連接結(jié)構(gòu)三個(gè)部分。為了減少計(jì)算的空間復(fù)雜度和時(shí)間復(fù)雜度,特征圖在輸送到多尺度上下文表征模塊前,使用1×1的卷積核提取特征并壓縮通道數(shù)量。MCRM由四個(gè)并行分支組成,以空洞卷積級(jí)聯(lián)方式堆疊而成,每個(gè)分支都設(shè)置不同的空洞卷積率,空洞卷積率依次為1,1,3和5,最終每個(gè)分支獲得的感受野分別為3,7,9和19。經(jīng)過(guò)卷積后,每個(gè)分支的通道數(shù)量與原輸入通道數(shù)量保持一致。最后,將提取到的四個(gè)多尺度特征注意力圖進(jìn)行矩陣加法運(yùn)算。為了強(qiáng)化不同分支之間的空間特征響應(yīng),聚焦特征圖中的病灶部分,弱化背景顏色的特征激活,本文在MCRM之后引入空間注意力機(jī)制SAM。SAM首先對(duì)特征圖進(jìn)行全局最大池化和全局平均池化操作,其中全局最大池化是對(duì)腸息肉圖像中的病灶區(qū)域進(jìn)行去噪,最大池化主要作用是凸顯病灶區(qū)域;接著將兩種池化后的特征圖進(jìn)行拼接,然后對(duì)所得特征圖采用7×7的卷積操作建立局部與全局特征信息的聯(lián)系,利用sigmoid激活函數(shù)計(jì)算特征圖向量。最后將原始特征圖與經(jīng)過(guò)sigmoid激活函數(shù)后得到的特征向量進(jìn)行乘法。為了避免梯度消失,加快網(wǎng)絡(luò)收斂速度,本文在SAM輸出后面引入殘差短連接。
1.2多尺度擠壓適配融合模塊
網(wǎng)絡(luò)解碼部分得到不同尺度的特征圖主要包含編碼路徑提取的低級(jí)語(yǔ)義特征和解碼路徑編譯的高級(jí)語(yǔ)義特征。高級(jí)語(yǔ)義信息具有豐富的空間細(xì)節(jié)信息,低級(jí)語(yǔ)義信息含有明顯的輪廓細(xì)節(jié)。通過(guò)簡(jiǎn)單的上采樣操作去放大不同尺度的特征圖,容易造成特征圖局部信息丟失。為了適應(yīng)性地捕獲和聚合多個(gè)層次上的局部細(xì)節(jié)信息和全局語(yǔ)義信息,并且能自適應(yīng)不同大小和形狀的病灶區(qū)域分割。Liu等人[14]提出領(lǐng)域上下文細(xì)化模塊通過(guò)循環(huán)利用上下文信息,從而精準(zhǔn)定位病變區(qū)域。Zamir等人[15]提出選擇性核特征融合模塊對(duì)多尺度信息進(jìn)行自適應(yīng)聚合,互補(bǔ)不同階段上的語(yǔ)義空白,進(jìn)而減少局部信息的丟失。本文構(gòu)建多尺度擠壓適配融合模塊MSEM來(lái)處理不同尺度之間的特征聯(lián)系,其結(jié)構(gòu)如圖3所示。圖3中X2,X3和X4(Xi∈{H/2i+1,W/2i+1},i∈(2,3,4),H和W為特征圖的高和寬)分別為編碼器stage2、stage3和stage4經(jīng)過(guò)多尺度上下文空間感知模塊后輸出的特征圖。該模塊主要分為以下三個(gè)部分:
1.3殘差軸向雙邊界細(xì)化模塊
傳統(tǒng)的結(jié)直腸息肉分割網(wǎng)絡(luò),主要是通過(guò)上下采樣的方式,在進(jìn)行圖像分割時(shí)容易產(chǎn)生邊界模糊。文獻(xiàn)[17]提出一種反轉(zhuǎn)注意力模塊用于結(jié)直腸息肉分割,有效地改善了邊緣細(xì)節(jié)模糊的問(wèn)題,但容易丟失邊界外的上下文信息,在此基礎(chǔ)上,文獻(xiàn)[18]提出雙邊邊界提取模塊來(lái)解決病灶邊緣像素點(diǎn)劃分和精準(zhǔn)定位病灶區(qū)域。文獻(xiàn)[19]通過(guò)軸向注意操作,以增強(qiáng)邊緣病變特征之間的信息交互。本文結(jié)合反轉(zhuǎn)注意力、雙邊邊界特征提取和軸向殘差結(jié)構(gòu)的優(yōu)點(diǎn)提出殘差軸向雙邊界細(xì)化模塊RADBRM,以高級(jí)的位置信息作為雙邊引導(dǎo),增強(qiáng)息肉的邊界特征響應(yīng),并通過(guò)額外的邊界監(jiān)督來(lái)抑制背景顏色的特征激活,其結(jié)構(gòu)如圖4所示。該模塊由三個(gè)級(jí)聯(lián)分支構(gòu)成,在第一條分支和第三條分支中,將輸入特征圖F1進(jìn)行上采樣操作,得到與X1具有相同尺寸的特征圖U2和U3,為了凸顯息肉圖像的非病灶區(qū)域,將采樣后的特征圖U2與X1進(jìn)行矩陣乘法。對(duì)特征圖U3使用reverse操作以獲得更好的邊界像素級(jí)預(yù)測(cè)的特征表示F2。其中reverse操作是從單位矩陣中減去輸入特征圖經(jīng)過(guò)sigmoid激活函數(shù)后的取反操作。在第二條分支中,為了增強(qiáng)通道、空間特征表征能力,同時(shí)額外地為第三條分支提供輪廓信息,本文利用軸向注意力機(jī)制[20]對(duì)特征圖X1中的每一行、每一列像素點(diǎn)做相關(guān)性的建模,并引入殘差結(jié)構(gòu)來(lái)緩解梯度消失問(wèn)題。同時(shí),為了進(jìn)一步減少非病灶區(qū)域的響應(yīng)和聚焦病灶區(qū)域的邊緣細(xì)節(jié),將第一條分支和第三條分支所獲得的結(jié)果進(jìn)行矩陣加法。
2實(shí)驗(yàn)結(jié)果與分析
2.1數(shù)據(jù)集及實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)采用三個(gè)公開(kāi)的醫(yī)學(xué)影像數(shù)據(jù)集來(lái)驗(yàn)證本文模型的有效性和泛化性。使用CVC-ClinicDB[21]數(shù)據(jù)集和Kvasir-SEG[22]數(shù)據(jù)集驗(yàn)證模型的有效性,使用ETIS[23]數(shù)據(jù)集驗(yàn)證模型的泛化性。其中CVC-ClinicDB數(shù)據(jù)集是由醫(yī)學(xué)圖像計(jì)算機(jī)與計(jì)算機(jī)輔助干預(yù)國(guó)際會(huì)議于2015年發(fā)布。Kvasir-SEG數(shù)據(jù)集是由挪威奧斯陸大學(xué)醫(yī)院內(nèi)窺鏡專家采集并標(biāo)注。ETIS數(shù)據(jù)集是由MIC-CAI息肉挑戰(zhàn)賽于2017年發(fā)布。3個(gè)數(shù)據(jù)集的具體細(xì)節(jié)如表1所示。實(shí)驗(yàn)中CVC-ClinicDB數(shù)據(jù)集按照文獻(xiàn)[17,24]的劃分方法把數(shù)據(jù)集按照8:1:1劃分為訓(xùn)練集、驗(yàn)證集、測(cè)試集;Kvasir-SEG數(shù)據(jù)集按照文獻(xiàn)[25,26]的方法將88%的數(shù)據(jù)作為訓(xùn)練集,12%的數(shù)據(jù)作為測(cè)試集;ETIS數(shù)據(jù)集全部作為測(cè)試集。
本文算法硬件設(shè)備參數(shù)為IntelCorei7-6700HCPU,16GB內(nèi)存,顯卡為NVIDIAGeForceGTX2070,內(nèi)存為8GB;軟件環(huán)境為Ubuntu16.04操作系統(tǒng),深度學(xué)習(xí)框架為PyTorch1.7.1。為了客觀地評(píng)價(jià)本文算法的準(zhǔn)確性,在進(jìn)行算法模型對(duì)比時(shí),采用的模型參數(shù)幾乎保持一致。輸入到模型的圖像大小統(tǒng)一調(diào)整為256×256,在訓(xùn)練過(guò)程中采用Adam優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.0001,動(dòng)量和權(quán)重衰減分別設(shè)置為0.9和0.0005,使用加權(quán)IoU損失和加權(quán)二進(jìn)制交叉熵?fù)p失之和,批量處理量設(shè)置為12,迭代次數(shù)設(shè)置為100,并使用多尺度訓(xùn)練策略{0.75,1,1.25}。當(dāng)驗(yàn)證集的平均相似性系數(shù)連續(xù)20輪不再變優(yōu),則提前終止訓(xùn)練。本文算法迭代到57次時(shí)停止訓(xùn)練。
2.3實(shí)驗(yàn)結(jié)果分析
為了驗(yàn)證本文模型的分割性能,將本文算法(PMBA-Net)與目前最具代表性的算法進(jìn)行對(duì)比,包括U-Net[5]、U-Net++[4]、PraNet[17]、HarDNet-MSEG[25]和CaraNet[27],最終得到不同模型的分割性能指標(biāo)。在Kvasir-SEG和CVC-ClinicDB數(shù)據(jù)集上的分割性能指標(biāo)如表2所示。表2中加粗表示此項(xiàng)指標(biāo)最優(yōu)。
從表2中的結(jié)果可以發(fā)現(xiàn),本文算法在Kvasir-SEG數(shù)據(jù)集上的指標(biāo)均高于在同一配置環(huán)境下對(duì)比的其他算法,其相似性系數(shù)、平均交并比、精確度、召回率、F1分?jǐn)?shù)和F2分?jǐn)?shù)分別為93.29%、88.36%、94.13%、93.21%、93.29%和93.13%,同時(shí)浮點(diǎn)運(yùn)算速度(FLOPs,用于衡量模型的復(fù)雜度)為5.538G,均低于上述五種算法。相比U-Net算法在這六項(xiàng)指標(biāo)中分別提高了6.14%、8.23%、2.84%、6.89%、6.14%和6.79%。與CaraNet算法相比,在相似性系數(shù)和平均交并比這兩個(gè)指標(biāo)上分別提高了1.37%和1.93%。在CVC-ClinicDB數(shù)據(jù)集上對(duì)比的六項(xiàng)指標(biāo)分別為94.52%、89.88%、94.05%、95.24%、94.52%和94.92%。除了召回率和F2值略低外,其他四項(xiàng)指標(biāo)均高于對(duì)比算法,其中PraNet算法在F2值上取得最優(yōu),CaraNet算法在召回率獲得最優(yōu),均比本文算法略高0.88%和0.06%,而本文算法在平均相似性系數(shù)上比PraNet和CaraNet算法高出0.52%和0.35%,在平均交并上比PraNet和CaraNet算法高出0.52%和0.43%,進(jìn)一步說(shuō)明本文算法能很好地抑制背景顏色的干擾,精準(zhǔn)定位息肉以及權(quán)衡背景像素和前景像素不平衡問(wèn)題。圖5和6分別展示了本文算法與其他分割算法在Kvasir-SEG和CVC-ClinicDB數(shù)據(jù)集上的分割結(jié)果對(duì)比。圖(a)代表數(shù)據(jù)庫(kù)的原始圖像,圖(b)對(duì)應(yīng)的是真實(shí)標(biāo)簽,圖(c)~(h)分別代表U-Net、U-Net++、PraNet、HarDNet-MSEG、CaraNet和本文算法分割結(jié)果。在圖5的第一行和第二行的結(jié)直腸病變圖像中,病變區(qū)域和正常的組織在顏色上高度一致,U-Net、U-Net++和PraNet不能有效地精準(zhǔn)定位息肉,容易將背景像素誤分割成息肉,導(dǎo)致分割邊界出現(xiàn)偽影,分割結(jié)果內(nèi)部不連續(xù),出現(xiàn)了錯(cuò)分割現(xiàn)象,使得結(jié)果誤差極大。而HarDNet-MSEG和CaraNet能有效地區(qū)分病變區(qū)域和正常的組織,但在病變邊界上,分割結(jié)果依然存在誤分割的情況。本文算法通過(guò)采用金字塔結(jié)構(gòu)的PVTv2通過(guò)重塑圖像結(jié)構(gòu),縮短遠(yuǎn)距離特征間距,充分捕獲更多的空間細(xì)節(jié),減少背景與前景的誤分類,能清晰地識(shí)別病灶位置和大小,使分割結(jié)果更加精準(zhǔn)。在圖5中的第3行、第4行和圖6中第1行、第4行結(jié)直腸病變圖像中,病變區(qū)域存在局部過(guò)度曝光的現(xiàn)象,U-Net和U-Net++分割算法抑制背景顏色干擾能力差,在局部過(guò)度曝光的小區(qū)域容易產(chǎn)生漏分割以及分割邊界處存在偽影,而PraNet、HarDNet-MSEG和本文算法在分割局部過(guò)度曝光區(qū)域時(shí),能夠有效地抑制背景顏色干擾,減少漏分割和分割邊界不連續(xù)的問(wèn)題以及在過(guò)度曝光區(qū)域產(chǎn)生假陽(yáng)性的概率大大減少。在圖6中第2、3中的結(jié)直腸病變圖像中息肉邊界區(qū)域與周圍黏膜之間的對(duì)比度非常低,在對(duì)比度低的區(qū)域容易錯(cuò)分割和漏分割,例如U-Net、U-Net++、PraNet和HarDNet-MSEG均出現(xiàn)邊緣細(xì)節(jié)模糊不平滑。本文算法豐富的特征提取能準(zhǔn)確地定位息肉,邊界細(xì)節(jié)處理模塊能有效地將息肉邊緣平滑處理,減少誤分割、錯(cuò)分割的弊端,而其他算法卻不同程度地出現(xiàn)了邊界錯(cuò)分,產(chǎn)生錯(cuò)分斑點(diǎn),其邊緣細(xì)節(jié)的平滑處理進(jìn)一步驗(yàn)證本文算法的準(zhǔn)確性和魯棒性?;谏鲜龇治?,本文算法在采用金字塔結(jié)構(gòu)的Transformer同時(shí)采用多尺度上下文空間感知模塊、擠壓適配融合模塊和殘差軸向雙邊界細(xì)化模塊,使分割結(jié)果在邊緣細(xì)節(jié)處理上和病變區(qū)域內(nèi)部連貫上更加接近掩膜。
為了更加直觀地體現(xiàn)本文算法的優(yōu)越性,圖7給出了不同算法在Kvasir-SEG數(shù)據(jù)集上的受試者工作特征(ROC)曲線圖7(a)和精度召回率(PR)曲線圖7(b)走勢(shì)。ROC圖中曲線越靠近左上角表明分割精度越高,PR圖中曲線與靠近右上角表明正負(fù)樣本區(qū)分效果越好。從圖7(a)可以看出,本文算法PMBA-Net曲線更接近于左上角和最高的AUC值,進(jìn)一步說(shuō)明了本文算法PMBA-Net比其他先進(jìn)算法分類息肉和非息肉像素點(diǎn)能力更強(qiáng),能有效地弱化背景顏色的干擾。由圖7(b)可以看出本文算法PMBA-Net曲線越接近于右上角,說(shuō)明分類息肉圖像像素時(shí)錯(cuò)誤分類為非息肉像素的概率最低。
2.4消融實(shí)驗(yàn)
為了驗(yàn)證本文算法模型中各個(gè)模塊的有效性,采用控制變量法在Kvasir-SEG數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),分別缺失多尺度上下文空間感知模塊、多尺度擠壓適配模塊和殘差軸向雙邊界細(xì)化模塊測(cè)試算法性能,實(shí)驗(yàn)結(jié)果如表3所示,其中最優(yōu)指標(biāo)加粗表示。通過(guò)對(duì)比表3中第1行和第4行的實(shí)驗(yàn)結(jié)果,結(jié)果表明多尺度上下文空間感知模塊能夠提升1.11%的RMDice和1.4%的RmIoU指標(biāo),驗(yàn)證了多尺度上下文空間感知模塊能有效地聚焦特征圖中的病灶部分,弱化病理和噪聲的影響,從不同尺度中捕獲更多的空間細(xì)節(jié),進(jìn)而提升分割性能。通過(guò)對(duì)比表中第2行和第4行的實(shí)驗(yàn)結(jié)果,精確度由原來(lái)的93.07%提升到了94.13%,召回率由原來(lái)的92.99%提升到了93.21%,表明殘差軸向雙邊界細(xì)化模塊能有效地識(shí)別病灶邊緣像素點(diǎn),增強(qiáng)網(wǎng)絡(luò)對(duì)特征的適應(yīng)能力,在提高邊緣像素點(diǎn)劃分能力的同時(shí)能有效地定位病變區(qū)域,使預(yù)測(cè)結(jié)果精度更高。通多對(duì)比第3行和第4行的實(shí)驗(yàn)結(jié)果,RMDice、RmIoU、P和RF2均提高了0.55%、0.79%、0.96%和0.07%,表明多尺度擠壓適配融合模塊能減少聚合過(guò)程中由于語(yǔ)義空白而引起的鴻溝問(wèn)題,并充分融合不同層次上的特征信息,為病灶區(qū)域分配更高的權(quán)重,對(duì)全局信息進(jìn)行有效建模。以上實(shí)驗(yàn)結(jié)果說(shuō)明,本文所提的PMBA-Net具有一定的合理性和有效性。
2.5泛化性能
為了進(jìn)一步驗(yàn)證本文模型算法的泛化性能,本文分別在Kvasir-SEG和CVC-ClinicDB數(shù)據(jù)集上進(jìn)行訓(xùn)練,在ETIS數(shù)據(jù)集上進(jìn)行測(cè)試。在實(shí)驗(yàn)中,本文依然將Kvasir-SEG數(shù)據(jù)集按照88%劃分為訓(xùn)練集,12%劃分為測(cè)試集,將CVC-ClinicDB數(shù)據(jù)集按照8:1:1的方式劃分訓(xùn)練集、驗(yàn)證集和測(cè)試集,ETIS數(shù)據(jù)集作為測(cè)試集,并分別與U-Net、U-Net++、PraNet、HarDNet-MSEG和CaraNet模型進(jìn)行對(duì)比。其各種量化結(jié)果如表4所示,加粗表示此項(xiàng)指標(biāo)最優(yōu)。
在Kvasir-SEG數(shù)據(jù)集上訓(xùn)練,在ETIS數(shù)據(jù)集上測(cè)試泛化結(jié)果:從表4可以看出,本文算法在相似性系數(shù)、平均交并比,F(xiàn)1值和F2值取得了最優(yōu)的效果分別為74.73%、66.42%、74.73%和76.99%。其中PraNet算法在精確度指標(biāo)上最優(yōu)為76.04%,CaraNet算法在召回率指標(biāo)上獲得最優(yōu)值為79.93%,相比本文算法略高1.81%和0.44%,但F1分?jǐn)?shù)均比本文算法低17.23%和4.04%,F(xiàn)2分?jǐn)?shù)均比本文算法低18.27%和1.86%。
在CVC-ClinicDB數(shù)據(jù)集上訓(xùn)練,在ETIS數(shù)據(jù)集上測(cè)試泛化結(jié)果:從表4中可以看出,本文算法在相似性系數(shù)、平均交并比、準(zhǔn)確度和F1分?jǐn)?shù)上取得最優(yōu)的結(jié)果,與HarDNet-SEGM先進(jìn)算法相比,分別提高了5.65%、4.27%、2.24%和5.65%,其召回率和F2分?jǐn)?shù)取得次優(yōu)的結(jié)果。綜合分析對(duì)比,本文算法在未知數(shù)據(jù)集上的泛化能力較強(qiáng),在保證分割精度的同時(shí)能權(quán)衡召回率和精確度。
3結(jié)束語(yǔ)
針對(duì)結(jié)直腸息肉圖像中病灶區(qū)域和周圍粘膜對(duì)比度不均勻、邊界模糊、病灶區(qū)域變化尺度大和形狀不規(guī)則等復(fù)雜特性,提出一種融合PVTv2和多尺度邊界聚合的結(jié)直腸息肉分割算法。其中多尺度上下文空間感知模塊能根據(jù)病灶區(qū)域的大小自適應(yīng)地分配權(quán)重,并捕獲不同尺度特征信息之間的位置關(guān)聯(lián)性。為了減少不同階段之間的語(yǔ)義鴻溝,構(gòu)建多尺度擠壓適配融合模塊聚合不同層次的抽象語(yǔ)義信息和空間細(xì)節(jié)特征。通過(guò)設(shè)計(jì)殘差軸向雙邊界細(xì)化模塊來(lái)增強(qiáng)邊緣細(xì)節(jié)特征的識(shí)別能力,構(gòu)建邊界與全局的聯(lián)系。在Kvasir-SEG和CVC-ClinicDB數(shù)據(jù)集對(duì)該算法進(jìn)行測(cè)試,其相似性系數(shù)、平均交并比分別為93.29%和94.52%,88.36%和89.88%。相對(duì)于經(jīng)典算法U-Net這兩個(gè)評(píng)價(jià)指標(biāo)分別提升了6.14%和2.04%,8.23%和2.9%。同時(shí),在Kvasir-SEG數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明三個(gè)創(chuàng)新模塊的有效性。最后,為了驗(yàn)證本文算法的泛化性,在ETIS數(shù)據(jù)集上進(jìn)行了對(duì)應(yīng)實(shí)驗(yàn)驗(yàn)證,實(shí)驗(yàn)結(jié)果進(jìn)一步說(shuō)明了本文算法在未知數(shù)據(jù)集上的適應(yīng)能力較強(qiáng),魯棒性較好。
參考文獻(xiàn):
[1]SiegelRL,MillerKD,F(xiàn)uchsHE,etal.Cancerstatistics[J].CA:aCancerJournalforClinicians,2021,71(1):7-33.
[2]ZauberAG,WinawerSJ,O′BrienMJ,etal.Colonoscopicpolypectomyandlong-termpreventionofcolorectal-cancerdeaths[J].NationalLibraryofMedicine,2012,366(8):687-696.
[3]HaggarFA,BousheyRP.Colorectalcancerepidemiology:incidence,mortality,survival,andriskfactors[J].ClinicsinColonandRectalSurgery,2009,22(4):191-197.
[4]ZhouZongwei,SiddiqueeMMR,TajbakhshN,etal.UNet+:anestedU-Netarchitectureformedicalimagesegmentation[M]//DeepLearninginMedicalImageAnalysisandMultimodalLearningforClinicalDecisionSupport.Cham:Springer,2018:3-11.
[5]RonnebergerO,F(xiàn)ischerP,BroxT.U-Net:convolutionalnetworksforbiomedicalimagesegmentation[C]//ProcofInternationalConferenceonMedicalImageComputingandComputer-AssistedIntervention.Cham:Springer,2015:234-241.
[6]KhanhTLB,DaoDP,HoNH,etal.EnhancingU-Netwithspatial-channelattentiongateforabnormaltissuesegmentationinmedicalimaging[J].AppliedSciences,2020,10(17):5729.
[7]FangYuqi,ChenG,YuanYixuan,etal.Selectivefeatureaggregationnetworkwitharea-boundaryconstraintsforpolypsegmentation[C]//ProcofInternationalConferenceonMedicalImageComputingandComputer-AssistedIntervention.Cham:Springer,2019:302-310.
[8]ZhangYundong,LiuHuiye,HuQiang.TransFuse:fusingtransformersandCNNsformedicalimagesegmentation[C]//ProcofInternationalConferenceonMedicalImageComputingandComputerAssistedIntervention.Cham:Springer,2021:14-24.
[9]WangWenhai,XieEnze,LiXiang,etal.PVTv2:improvedbaselineswithpyramidvisiontransformer[J].ComputationalVisualMedia,2022,8(3):415-424.
[10]張宇杰,葉西寧.基于WU-Net網(wǎng)絡(luò)的肺結(jié)節(jié)圖像分割算法[J].計(jì)算機(jī)應(yīng)用研究,2022,39(3):895-899,905.(ZhangYujie,YeXi-ning.ImprovedlungnodulessegmentationalgorithmonWU-Net[J].ApplicationResearchofComputers,2022,39(3):895-899,905.)
[11]梁禮明,盛校棋,藍(lán)智敏,等.自適應(yīng)尺度信息的U型視網(wǎng)膜血管分割算法[J].光學(xué)學(xué)報(bào),2019,39(8):126-140.(LiangLiming,ShengXiaoqi,LanZhimin,etal.U-Shapedretinalvesselsegmentationalgorithmbasedonadaptivescaleinformation[J].ActaOpticaSinica,2019,39(8):126-140.)
[12]GuZaiwang,ChengJun,F(xiàn)uHuazhu,etal.CE-Net:contextencodernetworkfor2Dmedicalimagesegmentation[J].IEEETransonMedicalImaging,2019,38(10):2281-2292.
[13]WooS,ParkJ,LeeJY,etal.CBAM:convolutionalblockattentionmodule[C]//ProcofEuropeanConferenceonComputerVision.Cham:Springer,2018:3-19.
[14]LiuQi,WangJingkun,ZuoMengying,etal.NCRNet:neighborhoodcontextrefinementnetworkforskinlesionsegmentation[J].Compu-tersinBiologyandMedicine,2022,146:105545-105545.
[15]ZamirSW,AroraA,KhanS,etal.Learningenrichedfeaturesforrealimagerestorationandenhancement[C]//ProcofEuropeanConfe-renceonComputerVision.Cham:Springer,2020:492-511.
[16]HuJie,ShenLi,SunGang.Squeeze-and-excitationnetworks[C]//ProcofIEEEConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2018:7132-7141.
[17]FanDengping,JiGepeng,ZhouTao,etal.PRANet:parallelreverseattentionnetworkforpolypsegmentation[C]//ProcofInternationalConferenceonMedicalImageComputingandComputer-AssistedIntervention.Cham:Springer,2020:263-273.
[18]YueGuanghui,HanWanwan,JiangBin,etal.Boundaryconstraintnetworkwithcrosslayerfeatureintegrationforpolypsegmentation[J].IEEEJournalofBiomedicalandHealthInformatics,2022,26(8):4090-4099.
[19]DucNT,OanhNT,ThuyNT,etal.ColonFormer:anefficienttransformerbasedmethodforcolonpolypsegmentation[EB/OL].(2022-06-07).http://doi.org/10.48550/arxiv.2205.08473.
[20]WangHuiyu,ZhuYukun,GreenB,etal.Axial-DeepLab:stand-aloneaxial-attentionforpanopticsegmentation[C]//ProcofEuropeanConferenceonComputerVision.Cham:Springer,2020:108-126.
[21]BernalJ,SánchezFJ,F(xiàn)ernández-EsparrachG,etal.WM-DOVAmapsforaccuratepolyphighlightingincolonoscopy:validationvs.saliencymapsfromphysicians[J].ComputerizedMedicalImagingandGraphics,2015,43:99-111.
[22]JhaD,SmedsrudPH,RieglerMA,etal.Kvasir-SEG:asegmentedpolypdataset[C]//ProcofInternationalConferenceonMultimediaModeling.Cham:Springer,2020:451-462.
[23]SilvaJ,HistaceA,RomainO,etal.TowardembeddeddetectionofpolypsinWCEimagesforearlydiagnosisofcolorectalcancer[J].InternationalJournalofComputerAssistedRadiologyandSurgery,2014,9(2):283-293.
[24]HuangXiaodong,ZhuoLi,ZhangHui,etal.Polypsegmentationnetworkwithhybrid.channel-spatialattentionandpyramidglobalcontextguidedfeaturefusion[J].ComputerizedMedicalImagingandGraphics,2022,98:102072.
[25]HuangCH,WuHY,LinYL.HarDNet-MSEG:asimpleencoder-decoderpolypsegmentationneuralnetworkthatachievesover0.9meandiceand86FPS[EB/OL].(2021-01-18).https://arxiv.org/abs/2101.07172v2.
[26]TomarNK,JhaD,BagciU,etal.TGANet:text-guidedattentionforimprovedpolypsegmentation[EB/OL].(2022-05-09).http://doi.org/10.48550/arxiv.2205.04280.
[27]LouAnge,GuanShuyue,KoH,etal.CaraNet:contextaxialreverseattentionnetworkforsegmentationofsmallmedicalobjects[EB/OL].(2022-01-13).http://doi.org/10.48550/arxiv.2108.07368.