鄧曉青 李征 王雁林
息肉圖像的分割在臨床醫(yī)療和計算機(jī)輔助診斷技術(shù)等領(lǐng)域具有廣泛的研究和應(yīng)用價值,但是就目前的研究和應(yīng)用需求來看,準(zhǔn)確的息肉分割仍然是一項挑戰(zhàn). 針對內(nèi)窺鏡息肉圖像中出現(xiàn)的息肉與黏膜邊界不清晰、息肉的大小和形狀差異較大等影響分割質(zhì)量的問題,該文提出了一種基于U-Net改進(jìn)的息肉圖像分割算法(SBF-Net). 首先,在U-Net架構(gòu)上引入了邊界特征加強(qiáng)模塊(BFEM),考慮到息肉邊界和內(nèi)部區(qū)域的關(guān)鍵線索,該模塊利用編碼器高層特征生成額外的邊界補(bǔ)充信息,在解碼器階段進(jìn)行融合,提升模型處理邊界特征的能力. 其次,該模型的解碼器(GFBD)采用了從上至下逐步融合特征的方式,將編碼器階段的輸出特征經(jīng)過局部加強(qiáng)(LE)模塊之后再逐步融合邊界特征,這種多尺度特征融合方式有效緩解了編碼器和解碼器之間的語義差距問題. 最后,在后處理階段采用測試時數(shù)據(jù)增強(qiáng)(TTA)來進(jìn)一步對分割結(jié)果進(jìn)行細(xì)化. 該模型在CVC-300、CVC-ClinicDB、Kvasir-SEG、CVC-ColonDB和ETIS-LaribPolypDB等5個公開數(shù)據(jù)集上進(jìn)行了對比實驗和消融實驗,實驗結(jié)果證明了該文所改進(jìn)方法的有效性,并在內(nèi)窺鏡息肉圖像上表現(xiàn)出更好的分割性能和更強(qiáng)的穩(wěn)定性,為息肉圖像的處理和分析提供了新的參考.
內(nèi)窺鏡息肉圖像; 息肉分割; U-Net; 邊界加強(qiáng)
TP391.41 A 2024.013004
An improved endoscopic polyp image segmentation algorithm based on U-Net
DENG Xiao-Qing 1, LI Zheng ?1,2 , WANG Yan-Lin 1
(1.College of Computer Science, Sichuan University, Chengdu 610065, China; ??2. Tianfu Engineering-Oriented Numerical Simulation & Software Innovation Center, Sichuan University, Chengdu 610207, China )
The segmentation of polyp images has extensive research and application value in the fields of clinical treatment and computer-aided diagnostic technology, but accurate polyp segmentation is still a challenge in terms of current research and application needs. In order to solve the problems that affect the segmentation quality of endoscopic polyp images, such as the unclear boundary between polyps and mucous membranes, and the large difference in the size and shape of polyps, this paper proposed an improved U-Net polyp segmentation algorithm. Firstly, the boundary feature enhancement module was introduced on the U-Net architecture. Considering the key clues of polyp boundary and internal area, this module used the high-level features of the encoder to generate additional boundary supplementary information, which is fused at the decoder stage to improve the ability of the model to process boundary features. Secondly, the decoder of the model adopts the method of gradually fusing features from the top to the bottom. After the output features of the encoder stage are passed through local emphasis module, the boundary features are gradually fused. This multi-scale feature fusion method effectively reduces the semantic gap between the encoder and the decoder. Finally, test-time augmentation was used in the post-processing stage to further refine the segmentation results. The model has been compared and ablated on five public datasets: CVC-300, CVC-ClinicDB, Kvasir-SEG, CVC-ColonDB and ETIS-LibPolypDB. The experimental results prove the effectiveness of the modified method, and it shows better segmentation performance and stronger stability in the endoscopic polyp image, which provides a new reference for the processing and analysis of the polyp image.
Endoscopic polyp image; Polyp segmentation; U-Net; Boundary strengthening
1 引 言
結(jié)直腸癌是世界上第三大最常見的癌癥類型 ?[1] ,大多數(shù)結(jié)直腸癌通常是由于結(jié)直腸息肉未及時發(fā)現(xiàn)和治療而轉(zhuǎn)變成為惡性腫瘤所引起的 ?[2] . 研究表明,在息肉轉(zhuǎn)為惡性腫瘤之前,可以通過結(jié)腸鏡檢查和治療使結(jié)直腸癌的發(fā)病率和死亡率得到有效降低. 結(jié)直腸息肉檢查中,內(nèi)窺鏡檢查是最重要也是最常用的一種方式,內(nèi)窺鏡檢查是利用結(jié)腸鏡深入到患者的結(jié)直腸內(nèi)部,通過內(nèi)窺鏡拍攝大量的圖像或者實時視頻的方式獲取病灶的信息,這種方式不僅可以確定結(jié)直腸息肉的位置,還能明確息肉的大小、體積和質(zhì)地等信息,為診斷治療提供參考,使醫(yī)生能夠在其發(fā)展成結(jié)直腸癌之前將其切除 ?[3] ,迄今為止,結(jié)腸鏡檢查仍然是最有效的結(jié)直腸癌預(yù)防技術(shù). 但是,此過程高度依賴于臨床醫(yī)生的技能和經(jīng)驗,檢查效果非常不穩(wěn)定,這也是息肉檢測錯誤率和漏檢率高的原因之一,漏檢率甚至高達(dá)25% ?[4] . 用于息肉分割的計算機(jī)輔助診斷系統(tǒng)可以通過提高準(zhǔn)確性和減少人工干預(yù)來減少醫(yī)生的工作量并改善臨床工作流程 ?[5] ,因此,能夠在早期檢測到所有可能的息肉并進(jìn)行自動和準(zhǔn)確的分割,這對于預(yù)防結(jié)直腸癌具有重要意義 ?[6] .
早期的息肉圖像分割方法大多依賴于閾值、形狀和邊緣檢測等傳統(tǒng)方法,雖然實現(xiàn)簡單,但是精度不高 ?[7] . 圖像分割是醫(yī)學(xué)圖像處理的重要研究方向之一,隨著深度學(xué)習(xí)技術(shù)的迅速發(fā)展,各種深度神經(jīng)網(wǎng)絡(luò)模型被廣泛應(yīng)用于醫(yī)學(xué)圖像分割領(lǐng)域 ?[8] ,并取得了顯著的成果. Ronneberger等人 ?[9] 提出的U-Net是一個用于醫(yī)學(xué)圖像分割的全卷積網(wǎng)絡(luò),因其能夠采用多級特征來重建圖像的預(yù)測結(jié)果而引起了醫(yī)學(xué)圖像分割領(lǐng)域的廣泛關(guān)注,該網(wǎng)絡(luò)使用跳躍連接將編碼器的每一層特征都拼接至對應(yīng)的解碼器端,以實現(xiàn)對淺層特征中的空間信息的最大利用. Zhou等人 ?[10] 提出的UNet++是U-Net的改進(jìn)版本,與U-Net不同的是,UNet++在編碼器和解碼器之間使用了密集的跳躍連接,通過這種連接間接地融合了多個層次的特征,這對于醫(yī)學(xué)圖像中各種形狀和大小不同的病灶分割效果良好. Jha等人 ?[11] 提出的ResUnet++是在基于U-Net結(jié)構(gòu)的基礎(chǔ)上增加了SE(Squeeze and Excitation)模塊、ASPP(Atrous Spatial Pyramidal Pooling)模塊、殘差模塊和注意力塊來增強(qiáng)模型的特征提取能力,實現(xiàn)更快更準(zhǔn)確的息肉分割. Wei等人 ?[12] 提出了淺層注意力網(wǎng)絡(luò)SANet,使用顏色交換的方式來消除顏色對分割結(jié)果的影響,以及一種概率校正策略來減少負(fù)樣本的干擾并提高正樣本的預(yù)測能力. 這些方法專注于分割息肉的整體區(qū)域,忽略了邊界和內(nèi)部區(qū)域的關(guān)系,而這對于準(zhǔn)確的分割非常重要. 因此,F(xiàn)an等人 ?[13] 提出了PraNet,該網(wǎng)絡(luò)采用了兩階段分割方法,使用反向注意模塊來恢復(fù)息肉的邊界和內(nèi)部結(jié)構(gòu)從而實現(xiàn)更加準(zhǔn)確的息肉分割. 受此啟發(fā),Kim等人 ?[14] 提出的UACANet整合了前景、背景以及不確定區(qū)域的特征來細(xì)化邊界的線索. 然而這些方法提出的息肉邊界和內(nèi)部結(jié)構(gòu)信息都未在特定的監(jiān)督下生成,因而隱藏層的特征透明度和辨別力不高. BDG-Net ?[15] 模型添加了邊界分布圖來指導(dǎo)解碼器分割,但是未考慮來自編碼器的淺層特征與解碼器的深層特征存在的信息差距問題,并且未充分利用編碼器的淺層信息.
基于強(qiáng)化息肉邊界的關(guān)鍵線索以及減少特征層之間信息差距的思想,本文提出了一種基于U-Net改進(jìn)的內(nèi)窺鏡息肉圖像分割網(wǎng)絡(luò),稱為逐步融合邊界特征網(wǎng)絡(luò)(Stepwise Boundary Fusion Net,SBF-Net).其整體上基于U-Net框架,在編碼器階段利用高層特征生成息肉邊界補(bǔ)充信息,提升模型對邊界處特征的學(xué)習(xí)能力,輔助解碼器恢復(fù)出更準(zhǔn)確的分割結(jié)果. 在解碼器階段,將編碼器的輸出特征經(jīng)過局部加強(qiáng)(Local Emphasis, LE) ?[16] 模塊后與當(dāng)前階段的上一層輸出特征和息肉邊界特征進(jìn)行逐步融合,最后將TTA ?[17] (Test-Time Augmentation)應(yīng)用于模型的后處理階段以實現(xiàn)對分割結(jié)果的進(jìn)一步細(xì)化.
2 SBF-Net模型結(jié)構(gòu)
2.1 SBF-Net模型
SBF-Net的整體架構(gòu)如圖 1所示,該網(wǎng)絡(luò)主體上是U型網(wǎng)絡(luò)結(jié)構(gòu),中間部分是編碼器,右側(cè)是逐步融合邊界特征的解碼器(Gradually Fused Boundary Feature Decoder, GFBD),跳躍連接部分加入了局部加強(qiáng)(LE)模塊,編碼器左側(cè)部分是邊界特征加強(qiáng)模塊(Boundary Feature Enhancement Module, BFEM). 由于內(nèi)窺鏡息肉圖像中息肉的顏色與周圍黏膜非常相似,因此邊界的區(qū)分非常不明顯 ?[18] .所以為了讓模型更好地學(xué)習(xí)邊界特征,本文參考了BDG-Net ?[15] 中以高斯分布近似真實的息肉邊界分布.但是為了充分利用淺層特征的有效信息,本文將編碼器最后四個階段的輸出用于生成額外的邊界補(bǔ)充信息.同時,考慮到U型網(wǎng)絡(luò)中可能產(chǎn)生的語義差距問題,本文的解碼器使用局部加強(qiáng)的跳躍連接來融合編碼器特征、息肉邊界特征和當(dāng)前階段的上一層輸出特征,使高維特征和低維特征之間融合的信息差距更小,同時還能更好地減少了息肉邊界處的信息損失,恢復(fù)出高分辨率的預(yù)測結(jié)果.
2.2 邊界特征加強(qiáng)模塊
醫(yī)學(xué)圖像與普通圖像的差異較大,例如在內(nèi)窺鏡息肉圖像中,部分病灶邊緣模糊不清,邊緣與周圍黏膜組織的過渡區(qū)域附近存在細(xì)小的紋理及噪聲,在息肉病灶局部區(qū)域,息肉與周圍鄰近像素點間存在較高的顏色相似性和亮度,但整體區(qū)域的一致性卻各有不同. 目前許多優(yōu)秀的息肉分割算法在息肉內(nèi)部區(qū)域的分割效果良好,但是息肉邊界上往往無法得到很好的處理 ?[13] .為了更好地讓模型學(xué)習(xí)邊界處的特征,本文提出了一種基于殘差結(jié)構(gòu)和通道注意力機(jī)制的邊界特征加強(qiáng)模塊,即圖1中BFEM部分,為充分利用編碼器淺層的細(xì)節(jié)信息,該模塊由編碼器的最后4個階段生成.
BDG-Net中添加了邊界分布生成模塊來生成息肉邊界分布圖指導(dǎo)解碼器實現(xiàn)更準(zhǔn)確的分割,但是該模塊在保持模型輕量的情況下只融合了編碼器的高三層特征,缺少局部細(xì)節(jié)信息,恢復(fù)出的息肉邊界精度有限.本文將編碼器四個階段的輸出進(jìn)行融合輸出息肉邊界,在提升精度的同時分割的息肉結(jié)果擁有更豐富的邊緣細(xì)節(jié).考慮到淺層特征可能包含更多噪聲,BDG-Net中簡單的卷積融合并不能很好地抑制息肉黏膜周圍的干擾信息,因此本文引入了通道注意力機(jī)制來融合多尺度特征,以盡可能抑制邊界處的無用噪聲,增強(qiáng)有用特征.本文重新設(shè)計了邊界生成的方式,BFEM的設(shè)計旨在加強(qiáng)該模塊的學(xué)習(xí)能力和特征復(fù)用能力以生成包含更多細(xì)節(jié)信息的息肉邊緣,總體上是基于ResNet ?[19] 中提出的殘差機(jī)制以及通道注意力機(jī)制 ?[20] 的思想. 首先,使用RF Block ?[21] 對來自編碼器的特征進(jìn)行處理,RF Block是在Inception ?[22] 的基礎(chǔ)上引入了不同膨脹系數(shù)的卷積層,可以在減少特征圖的通道數(shù)的同時,增大模型的感受野,輔助BFEM提取出包含更多全局信息的特征. 其次,為了使得深層網(wǎng)絡(luò)中包含更多的特征信息,并緩解其可能存在的退化問題,我們添加了如圖2所示的殘差連接,使模型在原有特征的基礎(chǔ)上學(xué)習(xí)出新的特征,從而提升特征復(fù)用能力. 最后,由于內(nèi)窺鏡息肉圖像中在息肉病灶以外的區(qū)域也可能表現(xiàn)出諸如毛細(xì)血管、褶皺等復(fù)雜的結(jié)構(gòu)特征,這些信息會對息肉邊界的分割造成干擾.因此我們在BFEM融合過程中引入了通道注意力機(jī)制的擠壓激勵(Squeeze and Excite, SE)模塊,以達(dá)到強(qiáng)化有效特征,抑制邊界處無效噪聲的目的. BFEM以此機(jī)制作為一個學(xué)習(xí)單元,可以使模型恢復(fù)出更加準(zhǔn)確的息肉邊緣,BFEM的具體融合過程如圖 2所示.
首先,我們將編碼器最后兩個階段的輸出特征進(jìn)行融合,低層特征表示為 ?e ??l ?,高層特征表示為 ?e ??h ?, ?e ??l ?經(jīng)過RF Block后進(jìn)行 C ??3 BR模塊處理得到 ?e ′ ?l ?, ?C ??3 BR 包括3×3卷積層(Convolution)、批次歸一化 ?[23] (Batch Normalization)和Relu ?[24] 激活函數(shù)層, ?e ′ ?l ?再傳入SE模塊對不同通道的特征進(jìn)行加權(quán),在恒等映射和殘差相加之前對殘差分支進(jìn)行了“特征重標(biāo)定”. 然后與經(jīng)過RF Block后的 ?e ??l ?進(jìn)行殘差連接得到 ?e ″ ?l ?. 類似地, ?e ??h ?進(jìn)行同樣的處理得到 ?e ″ ?h ?,接著將 ?e ″ ?h ?進(jìn)行雙線性插值上采樣后與 ?e ″ ?l ?相加得到融合了高層和低層特征的 ?e ??lh ?,接著 ?e ??lh ?經(jīng)過 C ??3 BR處理,再傳入SE模塊后與輸入特征 ?e ??lh ?進(jìn)行殘差連接,最后再作上采樣處理得到最終的輸出 ?e ???out . 輸出特征 ?e ???out 與上一階段編碼器特征繼續(xù)同樣的融合過程,直到融合至編碼器的第二個階段為止. 最終的輸出 ?e ???out 可以描述為式(1)所示, ?e ??lh ?表達(dá)式如式(2)所示, ?e ″ ?l ?和 ?e ″ ?h ?表達(dá)式分別如式(3)和式(4)所示, ?e ′ ?h ?和 ?e ′ ?l ?的生成表達(dá)式分別如式(5)和式(6)所示. 其中, RFB · ?表示RF Block, SE(·) 表示擠壓激勵操作, Up(·) 表示雙線性插值上采樣.
e ??out ?=Up SE C 3BR e ?lh ??+e ?lh ???(1)
e ?lh =Up e″ h +e″ l ?(2)
e″ h=SE e′ h +RFB e h ??(3)
e″ l=SE e′ l +RFB e l ??(4)
e′ h=C 3BR RFB e h ???(5)
e′ l=C 3BR RFB e l ???(6)
由于內(nèi)窺鏡息肉圖像存在的反光、粗邊緣等原因,息肉與黏膜界限很難確定.為了更加精確地定位息肉邊界附近的像素是否屬于息肉,使模型訓(xùn)練出更加真實的邊界分布,本文使用高斯分布來近似息肉邊界像素的分布,以此作為息肉與黏膜的理想界限. 高斯分布是一種隨機(jī)分布,用于描述測量值在真值附近的分布,距離真值越遠(yuǎn),觀測實例就越稀少.所以本文參考了BDG-Net的真實邊界分布圖的生成方式,假設(shè)息肉的邊界是遵循均值為0,標(biāo)準(zhǔn)差為 σ 的高斯分布 ?[15] ,息肉邊界分布的真實值可以近似為一元高斯分布,表達(dá)式如下式所示.
Gs(b ?ij )= 1 ?2π σ e ?- ??ε (b ?ij ) ?2 2σ 2 ???(7)
式中, ε ?b ??ij ??表示 ?i,j ?像素點到邊界的最短歐式距離. 首先將息肉分割標(biāo)簽 mask 先進(jìn)行預(yù)處理轉(zhuǎn)換為前景為1,背景為0的二值化圖像,然后分別計算出前景點和背景點到息肉邊界像素點的距離,得到距離轉(zhuǎn)換圖,并整合前景和背景到邊界的距離,我們將式(7)作用于距離轉(zhuǎn)換圖像即可估計出邊界附近的像素點屬于邊界的概率映射,最終的息肉邊界分布可以表示為如下式所示.
BFEM mask,σ =
λ·G s ?trans mask +trans 1-mask ,σ ??(8)
式中, mask 表示息肉分割的標(biāo)簽圖像; λ 表示增強(qiáng)因子,用于增強(qiáng)特征響應(yīng),本文實驗中將 λ 設(shè)為 σ 2 ; trans 表示距離轉(zhuǎn)換操作.
2.3 逐步融合邊界特征解碼器
由于U-Net在醫(yī)學(xué)圖像分割領(lǐng)域的優(yōu)秀性能,現(xiàn)已廣泛用于各種病灶分割.雖然U-Net因其能夠融合多尺度特征,充分利用圖像的空間語義信息,在小型醫(yī)學(xué)數(shù)據(jù)集上也能表現(xiàn)良好.但是類似于U-Net這樣的編碼器-解碼器結(jié)構(gòu)的一個主要問題就是來自編碼器的淺層特征和來自解碼器的深層特征存在較大的語義差距.這種來自編碼器和解碼器之間的語義鴻溝,限制了分割性能,甚至有一些跳躍連接會對分割產(chǎn)生負(fù)面效應(yīng).
基于減少特征層語義差距的思想,本文提出的解碼器采用了U型網(wǎng)絡(luò)中從上至下的方式逐步恢復(fù)高分辨率的息肉分割結(jié)果,在逐步融合邊界特征的過程中盡可能使特征融合平滑進(jìn)行,如圖 1中GFBD部分. 首先,我們通過在編碼器輸出的特征上引入了局部加強(qiáng)的非線性變換來加強(qiáng)跳躍連接,以縮小編碼器和解碼器之間的語義差距,利用卷積的固定感受野來混合每個像素點相鄰的圖像塊,從而增加相鄰圖像塊到圖像中心的相關(guān)權(quán)重,以強(qiáng)調(diào)每個圖像塊關(guān)鍵的局部信息. 其次,整個解碼器端采用U-Net中從上到下的方式逐步融合特征金字塔中不同層次的特征,避免直接聚合具有顯著深度差異的特征影響分割性能. 最后,將BFEM生成的息肉邊界特征在解碼器端輔助GFBD生成更加準(zhǔn)確的分割結(jié)果. 這種特征融合方式旨在保持輕量和高效,并且可以使融合的高維和低維特征之間的信息差距更小.
以圖 1中GFBD2為例,解碼器融合息肉邊界特征過程如圖 3所示. GFBD2融合過程的輸入包括上一階段解碼器的輸出 d ?i-1 ?、BFEM輸出的息肉邊界 b 和經(jīng)過LE的編碼器輸出特征 e′ i ,輸出是 d i . GFBD1和GFBD3的結(jié)構(gòu)與此類似,由于GFBD1為解碼器端首個融合單元,該部分輸入包括 e′ ?i-1 ?、 e′ i 和 b ,在GFBD3中,在輸出 d i 后還經(jīng)過了一個由卷積層和兩倍雙線性插值上采樣組成的分割頭來預(yù)測最終的分割結(jié)果.
LE模塊是兩個3×3卷積和Relu激活函數(shù),再加上一個雙線性插值上采樣組成,編碼器的輸出 e i 經(jīng)過LE后得到 e′ i . 接著 e′ i 再與 d ?i-1 ?和 b 進(jìn)行連接,最后再經(jīng)過 ?C ??1 BR 塊得到輸出特征 d i , C ??1 BR包括1×1卷積、批次歸一化和Relu激活函數(shù). 解碼器融合各個特征的操作輸出 d i . d i 作為GFBD3的輸入繼續(xù)下一階段融合. ?d i 表達(dá)式可以描述為式(9)所示, LE · ?表示局部加強(qiáng),表達(dá)式如式(10)所示, Down · ?表示下采樣,本文中采用的是雙線性插值法, Conv · ?表示3×3卷積, ?Concat(·) ?表示連接操作.
d i=C 1BR ?Concat ?LE e i ,d ?i-1 , Down ?b ????(9)
LE(e i)=Up( Relu(Conv (Relu( Conv (e i))))) ?(10)
2.4 測試時數(shù)據(jù)增強(qiáng)
測試時數(shù)據(jù)增強(qiáng)(TTA)廣泛應(yīng)用于各類視覺任務(wù)上提升精度,但同時會帶來測試時間的增加,在非實時的視覺任務(wù)中應(yīng)用更多. TTA是一種通過對測試數(shù)據(jù)集進(jìn)行裁剪、翻轉(zhuǎn)、旋轉(zhuǎn)等增強(qiáng)手段 ?[17] ,對每個測試圖像進(jìn)行增強(qiáng),并對增強(qiáng)后的圖像進(jìn)行預(yù)測,將預(yù)測結(jié)果的均值作為最終的輸出預(yù)測. 在本文中,我們在測試時應(yīng)用到了水平翻轉(zhuǎn)和旋轉(zhuǎn)的增強(qiáng)方法.
2.5 損失函數(shù)
本文的損失函數(shù)由邊界特征加強(qiáng)模塊的損失 ?L ???bfem 與分割損失 ?L ???seg 的和來作為最終的損失 L . ??L ???bfem 采用BDG-Net的輔助損失 ?[15] 用于計算邊界特征加強(qiáng)模塊的中間結(jié)果與真實值之間的損失,如式(11)所示, f ?b ??ij ??用于忽略損失較低的部分,表達(dá)式如式(12)所示.
L ?bfem = ∑ ?(i,j) ??b ??ij -b ?^ ???ij ???2·f b ??ij ???(11)
f b ?ij ?=δ ??b ?ij -b ?^ ??ij ???2<κ ??(12)
其中, ?b ??ij ?表示息肉邊界的預(yù)測值; ??b ??^ ???ij ?表示理想的真實值. ?k 表示忽略損失區(qū)間的閾值, k 的初始值設(shè)置為0002,隨著訓(xùn)練次數(shù)的增加,損失越來越低, k 的值也會逐漸降低. 當(dāng)預(yù)測點與真實值之間的歐式距離的平方小于 k 時, δ · ?的值為0,即忽略掉這部分損失,當(dāng)大于 k 時, δ · ?的值為1.最終的損失函數(shù) L 如式(13)所示. ??L ???seg 用于計算最終分割結(jié)果和真實值之間的損失,由加權(quán)二元交叉熵(Binary Cross Entropy,BCE)和加權(quán)交并比(Intersection over Union,IoU)損失組成,如式(14)所示.
L=L ??bfem ?+L ??seg ?(13)
L ??seg = L ??wbce + L ??wiou ?(14)
3 實驗結(jié)果和分析
3.1 實驗環(huán)境
本文提出的模型基于PyTorch 1.12.1實現(xiàn). 在實驗中,使用了Intel(R) Core(TM) i7-4790K CPU @ 4.00 GHz 的處理器,并在兩張NVIDIA GeForce GTX 1080 Ti(11 GB)設(shè)備上進(jìn)行訓(xùn)練,使用Adam(Adaptive Moment Estimation)優(yōu)化器 ?[25] 來調(diào)整模型參數(shù),初始學(xué)習(xí)率為10 ?-4 ,隨著訓(xùn)練次數(shù)的增加逐漸降低學(xué)習(xí)率.
3.2 數(shù)據(jù)集
為了更加全面地評估模型的性能,本文在CVC-300 ?[26] 、CVC-ClinicDB ?[27] 、Kvasir-SEG ?[28] 、CVC-ColonDB ?[29] 和ETIS-LaribPolypDB ?[30] 等5個公開數(shù)據(jù)集進(jìn)行了對比實驗. CVC-300數(shù)據(jù)集是EndoScene ?[26] 數(shù)據(jù)集的一部分,我們選取了60張圖像作為測試集,EndoScene包含了來自36例患者的44個結(jié)腸鏡檢查序列的912張圖像,分辨率為574×500. CVC-ClinicDB包含了來自31個結(jié)腸鏡檢查序列的612張圖像,分辨率為384×288. Kvasir-SEG是胃腸息肉圖像及其相應(yīng)標(biāo)簽的數(shù)據(jù)集,由醫(yī)生手動標(biāo)注,然后由經(jīng)驗豐富的胃腸病學(xué)家驗證,圖像的分辨率各不相同. CVC-ColonDB數(shù)據(jù)集中包含了來自15個結(jié)腸鏡檢查序列的380張圖像,圖像大小為574×500. ETIS-LaribPolypDB數(shù)據(jù)集包含了從34個結(jié)腸鏡視頻中采集的一共196張圖像,圖像大小為1225×966,是幾個數(shù)據(jù)集中分辨率最高的,并且由于ETIS-LaribPolypDB是早期的息肉圖像,所以該數(shù)據(jù)集中息肉與黏膜極其相似,并且形狀和大小多樣化,這使得該數(shù)據(jù)集更具有挑戰(zhàn)性.
我們參考了PraNet ?[13] 的數(shù)據(jù)集分割方案,為了使實驗結(jié)果更加客觀,這與現(xiàn)在許多息肉分割模型所采用的數(shù)據(jù)集保持一致,在CVC-ClinicDB選取了550張圖像,在Kvasir-SEG數(shù)據(jù)集中選取了900張圖像,一共1450張圖像作為訓(xùn)練集,CVC-ClinicDB剩余的62張圖像和Kvasir-SEG剩余的100張圖像作為測試集. 同時,為了驗證模型的泛化能力,我們還在CVC-300、CVC-ColonDB和ETIS-LaribPolypDB這三個模型未見過的數(shù)據(jù)集上也進(jìn)行了測試.
3.3 評估指標(biāo)
實驗中使用了醫(yī)學(xué)圖像分割領(lǐng)域中使用頻率最高的度量指標(biāo)Dice系數(shù)(Dice Similarity Coefficient, DSC)以及語義分割中的系統(tǒng)性能評價指標(biāo)平均交并比MIoU(Mean Intersection over Union). Dice系數(shù)常用于醫(yī)學(xué)圖像分割領(lǐng)域中計算兩個樣本的相似度,閾值為[0,1],分割的結(jié)果最好時為1,最差時為0,計算公式如式(15)所示. MIoU是用于計算真實值和預(yù)測值兩個集合的交集與并集之比,如式(16)所示. 其中, A 表示模型的預(yù)測結(jié)果集; B 表示原始息肉圖像的真實標(biāo)簽結(jié)果集; TP 表示被模型預(yù)測為正類的正樣本數(shù); FN 表示被模型預(yù)測為負(fù)類的正樣本數(shù); FP 表示被模型預(yù)測為正類的負(fù)樣本數(shù).
Dice(A,B)= 2× A∩B ??A + B ?= 2×TP FP+FN+2×TP ???(15)
MIoU(A,B)= A∩B ?A ∪B = TP TP+FP+FN ??(16)
3.4 與現(xiàn)有方法的對比實驗
為了驗證本文提出的SBF-Net的性能,本文將SBF-Net在息肉圖像上的分割結(jié)果與U-Net ?[9] ,UNet++ ?[10] ,PraNet ?[13] ,SANet ?[12] ,UACANet-S ?[14] 和BDG-Net ?[15] 模型分別在五個公開數(shù)據(jù)集上進(jìn)行對比. 算法對比結(jié)果如表 1所示.
我們提出的經(jīng)過SBF-Net模型經(jīng)過TTA后在CVC-ClinicDB和Kvasir- SEG數(shù)據(jù)集上均取得了最優(yōu)的Dice和MIoU. 在CVC-ClinicDB數(shù)據(jù)集中,SBF-Net在Dice和MIoU上分別達(dá)到了9232%和88.53%,經(jīng)過TTA處理后(SBF-Net+TTA)分別達(dá)到了92.60%和88.81%,均優(yōu)于對比方法. 在Kvasir-SEG數(shù)據(jù)集上,SBF-Net在MIoU上達(dá)到了86.79%,優(yōu)于所有對比方法,Dice系數(shù)達(dá)到了91.04%,BDG-Net的Dice僅高于SBF-Net約0.004 5,達(dá)到幾乎可以忽略的優(yōu)勢,并且SBF-Net經(jīng)過TTA處理后Dice和MIoU分別達(dá)到了91.60%和87.92%,高于BDG-Net和其他對比方法.
為了評估SBF-Net的穩(wěn)定性和泛化能力,我們將SBF-Net和SBF-Net+TTA在CVC-300、CVC-ClonDB和ETIS-LaribPolypDB三個模型未見過的數(shù)據(jù)集上進(jìn)行了測試,算法對比結(jié)果如表2所示.
由表2可知,我們提出的模型在CVC-300、CVC-ColonDB和ETIS-LaribPolypDB上也表現(xiàn)出優(yōu)秀的性能,Dice和MIoU均高于其他方法. 其中,ETIS-LaribPolypDB數(shù)據(jù)集為早期息肉圖像,大部分息肉還未出現(xiàn)明顯的凸起,因此表現(xiàn)為小型的扁平狀,我們的模型分割結(jié)果仍然取得了顯著提高. 該測試結(jié)果可以反映出我們提出的方法具有更加優(yōu)秀的泛化能力和準(zhǔn)確的預(yù)測能力.
圖4展示了SBF-Net與其他分割模型在部分息肉圖像上的分割結(jié)果對比. 圖4每一列分別是原息肉圖像、真實標(biāo)簽圖、SBF-Net、U-Net、UNet++、PraNet、SANet、UACANet-S和BDG-Net網(wǎng)絡(luò)的分割結(jié)果圖.
從圖4可以看出,SBF-Net的分割結(jié)果相比于其他方法更接近于真實標(biāo)簽. 如圖4中第1行所示,息肉由于過度曝光導(dǎo)致U-Net、UNet++和PraNet模型根本無法識別,剩余的幾個方法的分割結(jié)果也與真實標(biāo)簽出現(xiàn)較大差異,SBF-Net通過加強(qiáng)局部特征并融合多尺度特征的解碼器能夠有效捕獲更多深層和淺層信息,對過度曝光區(qū)域的處理更好. 如圖4第2行和第3行所示,由于周圍黏膜與息肉顏色極其相似,許多對比方法都將黏膜誤識別為息肉,我們的模型可以在關(guān)注關(guān)鍵局部信息的同時,還抑制了其他無用信息,并且在息肉外部無偽影出現(xiàn). 如圖4第4和第5行所示,SBF-Net都比其他算法表現(xiàn)出更好的邊界處理效果,在其他對比方法中均出現(xiàn)了過度分割或分割不足的情況,我們的模型通過邊界加強(qiáng)模塊讓模型對邊界處特征有更好的學(xué)習(xí)能力,有效地對息肉邊緣進(jìn)行了更準(zhǔn)確的分割.
3.5 消融實驗
為了驗證邊界特征加強(qiáng)模塊、逐步融合邊界特征解碼器和TTA的有效性,我們設(shè)計了從Base模型逐漸過渡到SBF-Net模型的消融實驗來評價各個模塊對實驗結(jié)果的影響,并分別在五個數(shù)據(jù)集上進(jìn)行了對比,消融實驗結(jié)果如表 3所示. 本文主要做了5組實驗,第1組是使用EfficientNet-B5編碼器 ?[31] 加上一個語義分割頭SegmentationHead作為Base模型. 第2組是在Base的基礎(chǔ)上加上U-Net的解碼器,并加入邊界特征加強(qiáng)模塊(BFEM). 第3組是在Base的基礎(chǔ)上加入了逐步融合邊界特征解碼器(GFBD). 第4組則是為了研究邊界特征加強(qiáng)模塊與逐步融合邊界特征解碼器的組合是否有效,即本文提出的模型SBF-Net. 第5組為加上TTA作為后處理的SBF-Net. 通過對比可以發(fā)現(xiàn),本文提出的邊界特征加強(qiáng)模塊和逐步融合邊界特征解碼器對模型有著積極的影響,從第一組到第4組實驗相對于前一組實驗均有不同程度的提升. 第4組(SBF-Net)相比于第1組(Base) 在CVC-ColonDB和ETIS-LaribPolypDB數(shù)據(jù)集上的Dice和MIoU有4.19%~6.37%的明顯上升,在其他數(shù)據(jù)集上也有顯著上升. 而經(jīng)過TTA處理后的SBF-Net模型也在大部分?jǐn)?shù)據(jù)集上都有精度上的提升. 實驗結(jié)果表明,本文方法生成的息肉分割圖像在分割質(zhì)量和泛化能力上都具有優(yōu)秀的表現(xiàn).
4 結(jié) 論
針對內(nèi)窺鏡息肉圖像分割中存在的邊界分割過度或不足,以及在不同圖像上息肉形狀差異較大導(dǎo)致分割效果差等問題,本文提出了一種基于U-Net改進(jìn)的SBF-Net模型. 該模型通過引入邊界特征加強(qiáng)模塊來提升模型對邊界特征的學(xué)習(xí)能力,在編碼器的跳躍連接中間加入一個特征加強(qiáng)模塊用來加強(qiáng)關(guān)鍵的局部特征和淺層特征,在解碼器階段,通過逐步融合編碼器特征、上一階段的輸出特征和息肉邊界特征,指導(dǎo)生成更加準(zhǔn)確的分割,并減少高維和低維特征之間的信息差距,改善了U-Net中直接并行聚合深度差異較大的不同階段特征而產(chǎn)生的信息差距問題,最后再使用TTA來進(jìn)一步提高模型在某些數(shù)據(jù)集上的整體預(yù)測性能. 在5個公開數(shù)據(jù)集上的實驗結(jié)果表明,SBF-Net的Dice和MIoU在5個數(shù)據(jù)集上都在不同程度上優(yōu)于其他方法,較為客觀地說明本文方法在分割性能和泛化能力上更有優(yōu)勢. 但是我們在測試時發(fā)現(xiàn)經(jīng)過TTA處理的SBF-Net在推理效率上有顯著降低,因此我們未來將進(jìn)一步對本文方法進(jìn)行優(yōu)化,以及考慮使用數(shù)據(jù)預(yù)處理等手段來改善因內(nèi)窺鏡圖像高光對分割造成的不良影響等.
參考文獻(xiàn):
[1] ??Bray ?F, Ferlay J, Soerjomataram I, ?et al . Global cancer statistics 2018: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries [J]. CA-Cancer J Clin, 2018, 68: ??394.
[2] ?Gschwantler ?M, Kriwanek S, Langner E, ?et al . High-grade dysplasia and invasive carcinoma in colorectal adenomas: a multivariate analysis of the impact of adenoma and patient characteristics [J]. EUr J Gastroen Hepat, 2002, 14: 183.
[3] ?Haggar F A, Boushey R P. Colorectal cancer epidemiology: incidence, mortality, survival, and risk factors [J]. Clin Colon Rect Surg, 2009, 22: 191.
[4] ?Leufkens A M, Van Oijen M G H, Vleggaar F P, ?et al . Factors influencing the miss rate of polyps in a back-to-back colonoscopy study[J]. Endoscopy, 2012, 44: 470.
[5] ?Rahim T, Usman M A, Shin S Y. A survey on contemporary computer-aided tumor, polyp, and ulcer detection methods in wireless capsule endoscopy imaging [J]. Comput Med Imag Grap, 2020, 85: 101767.
[6] ?Jia X, Xing X, Yuan Y, ?et al . Wireless capsule endoscopy: a new tool for cancer screening in the colon with deep-learning-based polyp recognition [J]. P IEEE, 2019, 108: 178.
[7] ?Wang ?Y G, Xi Y Y, Pan X Y. Method for intestinal polyp segmentation by improving DeepLabv3+ network [J]. FCST, 2020, 14: 1243.[王亞剛, 郗怡媛, 潘曉英. 改進(jìn) DeepLabv3+ 網(wǎng)絡(luò)的腸道息肉分割方法[J]. 計算機(jī)科學(xué)與探索, 2020, 14: 1243.]
[8] ?Li ?D, Wang Y, Ma Z Q, ?et al . Ultrasound image segmentation based on Dense ASPP model [J]. J Sichuan Univ(Nat Sci Ed), 2020, 57: 741.[李頔, 王艷, 馬宗慶, 等. 基于DenseASPP模型的超聲圖像分割[J]. 四川大學(xué)學(xué)報(自然科學(xué)版),2020, 57: 741.]
[9] ?Ronneberger O, Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentation[C]//International Conference on Medical Image Computing and Computer-assisted Intervention. Cham: Springer, 2015.
[10] ?Zhou ?Z, Rahman S M M, Tajbakhsh N, ?et al . Unet++: A nested u-net architecture for medical image segmentation [M]//Deep learning in medical image analysis and multimodal learning for clinical decision support. Berlin: Springer, 2018: 3.
[11] Jha D, Smedsrud P H, Riegler M A, ?et al . Resunet++: an advanced architecture for medical image segmentation [C]//2019 IEEE International Symposium on Multimedia (ISM). [S. l.]: IEEE, 2019.
[12] Wei J, Hu Y, Zhang R, ?et al . Shallow attention network for polyp segmentation[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer, ??2021.
[13] Fan D P, Ji G P, Zhou T, ?et al . Pranet: parallel reverse attention network for polyp segmentation[C]//International Conference on Medical Image Computing and Computer-assisted Intervention. Cham: Springer, 2020.
[14] Kim T, Lee H, Kim D.Uacanet: uncertainty augmented context attention for polyp segmentation[C]//Proceedings of the 29th ACM International Conference on Multimedia. New York: ACM Press, 2021.
[15] Qiu Z, Wang Z, Zhang M, ?et al . BDG-Net: boundary distribution guided network for accurate polyp segmentation[C]//Medical Imaging 2022: Image Processing. [S. l.]: SPIE, 2022.
[16] Wang J, Huang Q, Tang F, ?et al . Stepwise feature fusion: local guides global[C]//International Conference on Medical Image ?Computing and Computer-Assisted Intervention. Cham: Springer Nature Switzerland, ?2022.
[17] Jha D, Smedsrud P H, Johansen D, ?et al . A comprehensive study on colorectal polyp segmentation with ResUNet++, conditional random field and test-time augmentation [J]. IEEE J Biomed Health, 2021, 25: 2029.
[18] DongB, Wang W, Fan D P, ?et al . Polyp-pvt: polyp segmentation with pyramid vision transformers [EB/OL]. [2022-11-20]. https://arxiv.org/abs/2108.06932.
[19] He K, Zhang X, Ren S, ?et al . Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. [S. l.]: IEEE, 2016.
[20] Hu J, Shen L, Sun G. Squeeze-and-excitation networks [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE, 2018.
[21] Liu S, Huang D. Receptive field block net for accurate and fast object detection[C]//Proceedings of the European Conference on Computer Vision (ECCV). Cham: Springer, 2018.
[22] Szegedy C, Liu W, Jia Y, ?et al . Going deeper with convolutions [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. [S. l.]: IEEE, 2015.
[23] Ioffe S, Szegedy C. Batch normalization: accelerating deep network training by reducing internal covariate shift [C]//International Conference on Machine Learning. New York: PMLR, 2015.
[24] Glorot X, Bordes A, Bengio Y. Deep sparse rectifier neural networks [C]//Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics. Fort Lauderdale, USA: JMLR, 2011.
[25] Kingma D P, Ba J. Adam: a method forstochastic optimization [EB/OL]. [2022-11-24]. https://arxiv.org/abs/1412.6980v6.
[26] Vázquez D, Bernal J, Sánchez F J, ?et al . A benchmark for endoluminal scene segmentation of colonoscopy images[J]. J Healthc Eng, 2017, 2017: 4037190.
[27] Bernal J, Sánchez F J, Fernández-Esparrach G, ?et al . WM-DOVA maps for accurate polyp highlighting in colonoscopy: validation vs. saliency maps from physicians[J]. Comput Med Imag Grap, 2015, 43: 99.
[28] Jha D, Smedsrud P H, Riegler M A, ?et al . Kvasir-seg: a segmented polyp dataset[C]//International Conference on Multimedia Modeling. Cham: Springer, ??2020.
[29] Tajbakhsh N,Gurudu S R, Liang J. Automated polyp detection in colonoscopy videos using shape and context information [J]. IEEE T Med Imaging, 2015, 35: 630.
[30] Silva J,Histace A, Romain O, ?et al . Toward embedded detection of polyps in wce images for early diagnosis of colorectal cancer [J]. Int J Comput Ass Rad, 2014, 9: 283.
[31] Tan M, Le Q.Efficientnet: rethinking model scaling for convolutional neural networks [C]//International Conference on Machine Learning. New York: PMLR, 2019.
收稿日期: ?2023-01-05
基金項目: ?國家重點研發(fā)計劃項目(2020YFA0714003); 國家重大項目(GJXM92579); 四川省科技廳重點研發(fā)項目(2021YFQ0059)
作者簡介: ??鄧曉青(1999-), 女, 四川資陽人, 碩士研究生, 研究方向為計算機(jī)視覺. E-mail: dengxq0123@163.com
通訊作者: ?李征. E-mail: lizheng@scu.edu.cn