基于EfficientNetV2和物體上下文表示的胃癌圖像分割方法

2023-09-27 06:32:02張自力胡新榮何儒漢

計(jì)算機(jī)應(yīng)用 2023年9期

周迪，張自力*，陳佳，胡新榮，何儒漢，張俊

（1.武漢紡織大學(xué) 計(jì)算機(jī)與人工智能學(xué)院，武漢 430200；2.武漢紡織大學(xué) 湖北省服裝信息化工程技術(shù)研究中心，武漢 430200；3.武漢紡織大學(xué) 紡織服裝智能化湖北省工程研究中心，武漢 430200；4.武漢工程大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院，武漢 430205）

0 引言

癌癥是困擾全世界的疾病之一，根據(jù)世界衛(wèi)生組織在2019 年的調(diào)查統(tǒng)計(jì)［1］，胃癌的發(fā)病率和死亡率都比較高，僅在2020 年里，就增加了100 多萬(wàn)新病例和76.9 萬(wàn)的死亡病例，相當(dāng)于每13 個(gè)死亡病例里就有1 例死于胃癌。目前推測(cè)慢性幽門桿菌傳染是造成患病的主要原因，該細(xì)菌的傳染性極強(qiáng)，傳染了全世界近50%的人口［2］。

病理作為醫(yī)療領(lǐng)域的“金標(biāo)準(zhǔn)”，在臨床診斷中有著其他診斷所無(wú)法替代的重要作用。然而，病理診斷行業(yè)存在諸多問(wèn)題［3］：職業(yè)風(fēng)險(xiǎn)大、培養(yǎng)周期長(zhǎng)以及職業(yè)收入低?；谝陨显颍鲃?dòng)做病理醫(yī)生的人數(shù)少。

近年來(lái)，隨著全切片掃描技術(shù)的發(fā)展，不但使病理切片的獲取更方便，更重要的是改變了傳統(tǒng)的閱片方式，使得將計(jì)算機(jī)視覺(jué)技術(shù)和病理圖像診斷結(jié)合成為可能。利用計(jì)算機(jī)技術(shù)對(duì)病理圖像進(jìn)行分割，讓醫(yī)生更直觀地發(fā)現(xiàn)圖像中的病變區(qū)域，對(duì)于幫助病理醫(yī)生更進(jìn)一步地判斷胃癌的分期、分型具有重要意義。

神經(jīng)網(wǎng)絡(luò)在短短幾年內(nèi)迅速發(fā)展，如今已應(yīng)用到語(yǔ)音識(shí)別、圖像識(shí)別、自然語(yǔ)言處理等諸多領(lǐng)域。隨著人工智能的迅速發(fā)展，卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）越來(lái)越強(qiáng)大，在圖像分割領(lǐng)域出現(xiàn)了許多優(yōu)秀的網(wǎng)絡(luò)框架，如全卷積網(wǎng)絡(luò)（Fully Convolutional Network，F(xiàn)CN）［4］，它被認(rèn)為是深度學(xué)習(xí)用于語(yǔ)義分割的開(kāi)山之作，將傳統(tǒng)CNN中最后的全連接層換成了卷積層，這樣的設(shè)計(jì)可以使網(wǎng)絡(luò)適用于任意尺寸的輸入，實(shí)現(xiàn)了端到端的訓(xùn)練。但是，它的缺點(diǎn)也很明顯，上采樣過(guò)程過(guò)于粗糙，只用了簡(jiǎn)單的反卷積，使得最后分割結(jié)果不夠精細(xì)。后續(xù)也有許多研究者采用馬爾可夫隨機(jī)場(chǎng)［5］和條件隨機(jī)場(chǎng)［6］優(yōu)化分割結(jié)果。比如DeepLab［7-10］系列讓深度學(xué)習(xí)在分割領(lǐng)域前進(jìn)了一大步，通過(guò)引入空洞卷積來(lái)解決卷積越多，丟失信息越多的問(wèn)題，在沒(méi)有加入?yún)?shù)和多余計(jì)算的情況下，擴(kuò)大了感受野；同時(shí)，引入了空洞空間卷積池化金字塔（Atrous Spatial Pyramid Pooling，ASPP）結(jié)構(gòu)，在不改變特征圖大小的前提下，增大網(wǎng)絡(luò)的感受野，使網(wǎng)絡(luò)能提取多尺度信息。采用以上優(yōu)秀的成果使利用計(jì)算機(jī)視覺(jué)技術(shù)分割病理圖像成為可能。

目前深度學(xué)習(xí)在胃癌病理領(lǐng)域的應(yīng)用較少，不過(guò)在整個(gè)醫(yī)學(xué)領(lǐng)域中已經(jīng)有了較多的研究成果。Ronneberger 等［11］提出的U-Net 模型是醫(yī)學(xué)分割中最經(jīng)典的網(wǎng)絡(luò)模型之一，該模型及其改進(jìn)方法仍然被應(yīng)用在各種醫(yī)學(xué)分割任務(wù)中，并且取得了不錯(cuò)的分割結(jié)果。U-Net 基于FCN 結(jié)構(gòu)，將上采樣模塊設(shè)計(jì)成和下采樣類似的模塊；同時(shí)，通過(guò)跳躍連接防止細(xì)節(jié)丟失，結(jié)構(gòu)簡(jiǎn)單、效果好，在當(dāng)時(shí)ISBI（International Symposium on Biomedical Imaging）比賽的神經(jīng)元等多項(xiàng)任務(wù)中獲得冠軍，但是缺點(diǎn)也十分明顯，該模型的特征提取網(wǎng)絡(luò)太淺，導(dǎo)致提取的特征具有局限性。Milletari 等［12］針對(duì)臨床圖像是3D 圖像的問(wèn)題，提出了V-Net 模型，將3D 卷積與UNet 進(jìn)行結(jié)合來(lái)分割3D 圖像；同時(shí)，提出Dice 系數(shù)損失函數(shù)來(lái)解決數(shù)據(jù)集正負(fù)樣本不平衡的問(wèn)題，在前列腺核磁共振（Magnetic Resonance Imaging，MRI）數(shù)據(jù)集中分割的Dice 評(píng)分達(dá)到了86.9%。Alom 等［13］基于傳統(tǒng)U-Net 提出一個(gè)全新的R2U-Net（Recurrent Residual Convolutional Neural Network based on U-Net）模型，將循環(huán)殘余卷積與U-Net 結(jié)合，有利于深層網(wǎng)絡(luò)的訓(xùn)練，在相同參數(shù)的情況下，該模型在視網(wǎng)膜血管等分割任務(wù)中取得了更好的結(jié)果。Zhou 等［14］針對(duì)U-Net最佳深度未知的問(wèn)題，提出了U-Net++模型，在編碼器和解碼器之間加入大量跳躍連接來(lái)提高網(wǎng)絡(luò)特征提取能力，該模型在六種常見(jiàn)數(shù)據(jù)集中皆取得了優(yōu)于當(dāng)時(shí)其他網(wǎng)絡(luò)模型的成績(jī)。Oktay 等［15］在U-Net 上采樣過(guò)程中添加注意力機(jī)制，讓網(wǎng)絡(luò)學(xué)會(huì)抑制不相關(guān)區(qū)域，注重有用的特征，提出了Att UNet（Attention U-Net），在電子計(jì)算機(jī)斷層掃描（Computed Tomography，CT）數(shù)據(jù)集的胰腺任務(wù)中Dice 系數(shù)達(dá)到84%。張澤中等［16］基于多尺度輸入提出了多輸入融合網(wǎng)絡(luò)（Multi-Input-Fusion Net，MIFNet），同時(shí)將不同尺寸的圖片作為網(wǎng)絡(luò)的輸入，提高網(wǎng)絡(luò)提取不同尺度特征的準(zhǔn)確度，在病理切片識(shí)別AI 挑戰(zhàn)賽數(shù)據(jù)集上的Dice 評(píng)分達(dá)到81.87%。

一般來(lái)說(shuō)，超聲、CT 和MRI 等醫(yī)學(xué)造影圖像中的數(shù)據(jù)特征相對(duì)較少，器官位置等信息相對(duì)固定，往往能花費(fèi)較低的計(jì)算資源就獲得令人滿意的效果，但在具有復(fù)雜特征的病理學(xué)等數(shù)據(jù)中，獲得的結(jié)果往往不盡如人意。所以，想要提高網(wǎng)絡(luò)預(yù)測(cè)結(jié)果準(zhǔn)確度，需要解決以下3 個(gè)問(wèn)題：1）針對(duì)胃癌病變區(qū)域和形狀不固定的問(wèn)題，如何提取更好的病變特征圖？2）針對(duì)胃癌病變區(qū)域邊緣復(fù)雜的問(wèn)題，如何讓網(wǎng)絡(luò)上采樣過(guò)程中保留更多細(xì)節(jié)？3）如何解決數(shù)據(jù)集偏小，容易出現(xiàn)過(guò)擬合的問(wèn)題？

針對(duì)上述問(wèn)題，本文改進(jìn)U-Net 并結(jié)合EfficientNetV2 和物體上下文表示（Object-Contextual Representation，OCR）的優(yōu)點(diǎn)，提出一種基于改進(jìn)U-Net 的自動(dòng)分割胃癌病理圖像模型EOU-Net。本文使用公開(kāi)的2021“SEED”第二屆江蘇大數(shù)據(jù)開(kāi)發(fā)與應(yīng)用大賽（華錄杯）醫(yī)療衛(wèi)生賽道提供的胃癌病理切片圖像數(shù)據(jù)集（后文簡(jiǎn)寫為SEED 數(shù)據(jù)集）（https：//www.marsbigdata.com/competition/details？id=21078355578880）、2017 中國(guó)大數(shù)據(jù)人工智能創(chuàng)新創(chuàng)業(yè)大賽系列之“病理切片識(shí)別AI 挑戰(zhàn)賽”提供的胃癌病理切片數(shù)據(jù)集（后文簡(jiǎn)寫為BOT 數(shù)據(jù)集）（http：//www.datadreams.org/#/newraceintro_detail？id=225）和經(jīng)典分割數(shù)據(jù)集PASCAL VOC 2012（http://host.robots.ox.ac.uk/pascal/VOC/voc2012/）進(jìn)行實(shí)驗(yàn)。

1 本文方法

1.1 網(wǎng)絡(luò)框架

針對(duì)引言提出的3 個(gè)問(wèn)題，本文對(duì)傳統(tǒng)U-Net 作出了3點(diǎn)修改：首先，為了讓網(wǎng)絡(luò)能應(yīng)對(duì)病理圖像復(fù)雜特征，引入優(yōu)秀的分類網(wǎng)絡(luò)EfficientNetV2［17］作為U-Net 的編碼器（Encoder）來(lái)提高網(wǎng)絡(luò)的特征提取能力；然后，為防止網(wǎng)絡(luò)在上采樣階段丟失病理圖片復(fù)雜的邊緣信息，加入了本文改進(jìn)的OCR 模塊，通過(guò)細(xì)胞上下文特征信息判斷某個(gè)像素是否與周圍像素屬于同一類，從而提高網(wǎng)絡(luò)分割的邊緣精度；最后，為了應(yīng)對(duì)醫(yī)學(xué)數(shù)據(jù)集普遍偏小，訓(xùn)練過(guò)程容易出現(xiàn)過(guò)擬合的問(wèn)題，加入了驗(yàn)證階段增強(qiáng)（Test Time Augmentation，TTA）后處理模塊，對(duì)同一張圖片進(jìn)行多次變化，分別預(yù)測(cè)，并將不同預(yù)測(cè)結(jié)果通過(guò)特征融合的方式得到網(wǎng)絡(luò)最后的分割結(jié)果。具體網(wǎng)絡(luò)模型如圖1 所示，主要分為三個(gè)部分：1）由MBConv 和Fused-MBConv 組成的編碼器，用于提取圖像中不同感受野的胃癌區(qū)域特征；2）加入了改進(jìn)后的OCR 解碼器模塊（Decoder），將不同感受野提取的特征圖進(jìn)行融合，然后上采樣恢復(fù)到原圖大小，并通過(guò)探索圖像中像素間關(guān)系來(lái)解決上采樣帶來(lái)的細(xì)節(jié)丟失問(wèn)題，優(yōu)化模型輸出的邊緣細(xì)節(jié)；3）TTA 后處理模塊，通過(guò)對(duì)輸入圖片進(jìn)行多次變換，并融合多次變換的預(yù)測(cè)結(jié)果，得到最終的網(wǎng)絡(luò)輸出結(jié)果。

圖1 EOU-Net網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.1 Network model structure of EOU-Net

在數(shù)據(jù)處理階段，本文首先對(duì)胃癌數(shù)據(jù)集進(jìn)行預(yù)處理，將圖像統(tǒng)一縮放到512×512，在編碼階段通過(guò)EfficientNetV2主干網(wǎng)絡(luò)提取特征，得到5 個(gè)感受野不同的特征圖：F1、F2、F3、F4和F5，其中：K為卷積核大??；S為卷積步距，R表示SE（Squeeze-and-Excitation）注意力模塊節(jié)點(diǎn)舍棄的比例，MBConvM×N表示中間層通道數(shù)擴(kuò)大M倍，該模塊重復(fù)N次。特征提取后，依次對(duì)特征圖進(jìn)行上采樣，接著將Up2-1上采樣之后的結(jié)果，通過(guò)改進(jìn)后的OCR 模塊，這樣就完成了一次預(yù)測(cè)。接著，通過(guò)TTA 后處理模塊對(duì)輸入圖像多次預(yù)測(cè)，就能得到網(wǎng)絡(luò)最后的預(yù)測(cè)結(jié)果。

1.2 EfficientNetV2特征提取模塊

傳統(tǒng)U-Net 的特征提取網(wǎng)絡(luò)有一個(gè)致命的局限性，即模塊細(xì)節(jié)是人為決定，那么很容易讓人產(chǎn)生懷疑：如果網(wǎng)絡(luò)更深、更寬，輸入圖像更大，那么網(wǎng)絡(luò)的特征提取能力是否會(huì)更好。然而，隨著卷積神經(jīng)網(wǎng)絡(luò)（CNN）的發(fā)展，已經(jīng)出現(xiàn)了許多更優(yōu)秀的卷積、激活函數(shù)、注意力等模塊，這些模塊的搭配方案非常多，想要人為窮舉找出最好的特征提取網(wǎng)絡(luò)并不現(xiàn)實(shí)。所以，如果能借助某種方法找出這些優(yōu)秀模塊的最佳組合方案，能有效提高特征提取網(wǎng)絡(luò)的特征提取能力。

目前，主要從網(wǎng)絡(luò)的深度、寬度和圖像分辨率來(lái)提升CNN 的特征提取能力。然而，這三個(gè)參數(shù)并不是增加得越多，網(wǎng)絡(luò)的特征提取能力越好，隨意修改參數(shù)，往往會(huì)出現(xiàn)反效果；同時(shí)，參數(shù)選擇過(guò)多，人工調(diào)參優(yōu)化工作也會(huì)過(guò)于繁重。Tan 等［18］研究這三個(gè)參數(shù)的最佳搭配關(guān)系，并提出了EfficientNet，通過(guò)NAS（Neural Architecture Search）技術(shù)［19］以準(zhǔn)確度和運(yùn)算量為優(yōu)化目標(biāo)來(lái)平衡網(wǎng)絡(luò)深度、寬度和圖像分辨率，最后得到EfficientNet-B0，在ImageNet 分類任務(wù)上有84.3%的準(zhǔn)確度，需要的參數(shù)也遠(yuǎn)少于其他網(wǎng)絡(luò)。

EfficientNetV2［17］是繼EfficientNet 之后提出的全新網(wǎng)絡(luò)。針對(duì)EfficientNet 訓(xùn)練圖像過(guò)大時(shí)，有可能出現(xiàn)內(nèi)存不夠以及在淺層網(wǎng)絡(luò)使用DW（DepthWise）［20］卷積訓(xùn)練速度過(guò)慢的問(wèn)題，提出了Fused-MBConv 模塊，并且使用NAS 技術(shù)探索Fused-MBConv 和MBConv 模塊的最佳組合方式，最后提出了全新的EfficientNetV2，在ImageNet 分類數(shù)據(jù)集上，不僅有87.3%的準(zhǔn)確度，訓(xùn)練速度也更快。本文將EfficientNetV2 引入圖像分割領(lǐng)域，提出一種使用EfficientNetV2 提取特征的方法，使U-Net 的編碼器有更優(yōu)秀的特征提取能力，EfficientNetV2 的基本模塊如表1 所示。其中：MBConvM的M表示中間層通道數(shù)擴(kuò)大倍率；k 表示卷積核大?。籗E 表示注意力模塊節(jié)點(diǎn)舍棄比例。本文的輸入圖像大小統(tǒng)一縮放為512×512。首先，通過(guò)Stage0 的stem 模塊得到256×256 的特征圖F1；其次，通過(guò)Stage1、Stage2 的Fused-MBConv 模塊得到128×128 的特征圖F2；然后，通過(guò)Stage3 的Fused-MBConv模塊得到64×64 的特征圖F3；接著，通過(guò)Stage4 的MBConv 模塊得到32×32 的特征圖F4；最后，通過(guò)Stage5、Stage6 的MBConv 模塊得到16×16 的特征圖F5。至此，得到5 個(gè)不同感受野的特征圖，將用于后續(xù)的上采樣和特征融合。

表1 EfficientNetV2基本模塊Tab.1 Basic modules of EfficientNetV2

1.3 改進(jìn)后的OCR解碼器模塊

感受野對(duì)于語(yǔ)義分割任務(wù)來(lái)說(shuō)非常重要，能直接影響網(wǎng)絡(luò)分割物體的大小。而CNN 使用的卷積不論是3 × 3 還是7 × 7，始終有大小限制。所以，CNN 通過(guò)堆疊卷積獲取的感受野也必然有局限性。早些年，為了擴(kuò)大網(wǎng)絡(luò)的感受野往往會(huì)采用金字塔場(chǎng)景解析網(wǎng)絡(luò)（Pyramid Scene Parsing Network，PSPNet）［21］，或者ASPP［8］結(jié)構(gòu)。隨著Non-local［22］提出后，許多研究［23-25］嘗試從self-attention 的角度解決該問(wèn)題。受到OCRNet［26］的啟發(fā)，本文對(duì)OCR 模塊作出了兩點(diǎn)改進(jìn)：1）沒(méi)有將像素特征（Pixel Representations）與細(xì)目標(biāo)區(qū)域（Fine Object Regions）進(jìn)行拼接；2）將Fine Object Regions 和軟目標(biāo)區(qū)域（Soft Object Regions）按照相加的方式進(jìn)行特征融合，因?yàn)榭紤]到人工設(shè)置權(quán)重往往很難找到最合適的值，不如直接交給卷積去完成這個(gè)任務(wù)，這樣就能在保證效果的同時(shí)，減少模塊的參數(shù)和計(jì)算量，具體結(jié)構(gòu)如圖2 所示。

圖2 改進(jìn)后的OCR模塊結(jié)構(gòu)Fig.2 Structure of improved OCR module

在解碼階段，本文使用線性插值的上采樣方法，該方法相較于轉(zhuǎn)置卷積需要的計(jì)算量更小，其實(shí)際效果與轉(zhuǎn)置卷積效果相差不大，而且轉(zhuǎn)置卷積如果參數(shù)選擇得不合適很容易出現(xiàn)棋盤效應(yīng)［27］?；谝陨显?，本文選擇線性插值方法，實(shí)際結(jié)構(gòu)如圖3 所示。

圖3 上采樣的結(jié)構(gòu)Fig.3 Structure of upsampling

首先，將上一層上采樣得到的特征圖通過(guò)線性差值的方式放大一倍；然后，將它與骨干特征提取網(wǎng)絡(luò)得到的同一大小特征圖按相加的方式進(jìn)行特征融合；最后，通過(guò)兩個(gè)3 × 3的卷積便能得到這一層上采樣輸出，重復(fù)這個(gè)過(guò)程直至上采樣到原圖大小1/2 時(shí)，為了避免感受野帶來(lái)的局限性，通過(guò)改進(jìn)后的OCR 模塊來(lái)探索像素與像素之間的關(guān)系。OCR 本質(zhì)就是一種由粗到細(xì)的分割，設(shè)輸入圖片為I∈RH×W×C，對(duì)應(yīng)的輸出結(jié)果為Y∈RH×W。其中，H、W、C表示輸入圖片的行、列和通道數(shù)。在本文中，H=W=512，C=3。首先，通過(guò)骨干特征網(wǎng)絡(luò)以及上采樣操作得到輸入特征圖；然后，再依次通過(guò)變換函數(shù)得到每個(gè)像素特征（Pixel Representations）和2 個(gè)軟目標(biāo)區(qū)域（Soft Object Regions）分別對(duì)應(yīng)病變區(qū)域和健康區(qū)域，如式（1）～（3）所示：

其中：θ(·)表示做4 次圖3 所示操作，得到原圖大小1/2 的特征圖fB，將它作為改進(jìn)后OCR 模塊的輸入；?1(·)和?2(·)是變換函數(shù)，由3×3 卷積、批歸一化（Batch Normalization，BN）、線性整流函數(shù)（Rectified Linear Unit，ReLU）實(shí)現(xiàn)；fS代表軟目標(biāo)區(qū)域，通道數(shù)為2，將它作為粗分割，用于最后的特征融合；fP代表每個(gè)像素的語(yǔ)義信息和特征，通道數(shù)為256。

根據(jù)每個(gè)像素的語(yǔ)義信息和特征得到每個(gè)類別區(qū)域特征（Object Region Representations）：

其中：Xi表示第i個(gè)像素的特征向量；Mki表示第i個(gè)像素是k類的概率，本文分為病變區(qū)域和健康區(qū)域兩類，所以，k=2。隨后，使用self-attention 計(jì)算每個(gè)像素與各個(gè)區(qū)域的關(guān)系，具體見(jiàn)式（5）～（6）：

其中：κ(·)、γ(·)、δ(·)均為變換函數(shù)，由1×1 卷積、BN、ReLU 激活函數(shù)實(shí)現(xiàn)；Q、K、V為3 個(gè)向量；dK是K的維度，fR是像素與各個(gè)區(qū)域的關(guān)系。然后計(jì)算物體上下文特征fO：

最后，通過(guò)卷積將上下文特征通道數(shù)轉(zhuǎn)換到分割類別數(shù)，然后和粗分割采用相加的方式進(jìn)行特征融合，就能得到最終改進(jìn)后OCR 模塊的輸出，具體見(jiàn)式（8）：

其中：Y為改進(jìn)后OCR 模塊的最終輸出；ρ(·)和σ(·)為3×3卷積。OCR 模塊能很好地優(yōu)化胃癌病理圖像的病變細(xì)胞和正常細(xì)胞的復(fù)雜的邊緣區(qū)域，使預(yù)測(cè)圖更接近實(shí)際情況。

1.4 TTA后處理模塊

通過(guò)1.3 節(jié)的方法能得到預(yù)測(cè)圖，但該預(yù)測(cè)圖很可能存在因網(wǎng)絡(luò)過(guò)擬合而導(dǎo)致分割錯(cuò)誤的地方，所以需要后處理方法來(lái)解決這個(gè)問(wèn)題。圖像增強(qiáng)技術(shù)目前被廣泛應(yīng)用在訓(xùn)練階段，常常通過(guò)對(duì)原數(shù)據(jù)集進(jìn)行一系列變換來(lái)達(dá)到擴(kuò)充數(shù)據(jù)集的目的，從而增加數(shù)據(jù)集的多樣性，常見(jiàn)的變換有翻轉(zhuǎn)、裁剪、旋轉(zhuǎn)和縮放等。許多研究表明，通過(guò)后處理方式能進(jìn)一步提高網(wǎng)絡(luò)的精確度，DeepLabV2［8］使用稠密條件隨機(jī)場(chǎng)（Dense Conditional Random Field，DenseCRF）優(yōu)化分割的邊緣細(xì)節(jié)，從而提高網(wǎng)絡(luò)分割結(jié)果；然而，該算法要求分割區(qū)域與其他區(qū)域存在一定差異才會(huì)有比較好的效果，具有一定局限性。Wachinger 等［28］使用3D DenseCRF 提高國(guó)際醫(yī)學(xué)圖像計(jì)算和計(jì)算機(jī)輔助干預(yù)協(xié)會(huì)（Medical Image Computing and Computer Assisted Intervention society，MICCAI）數(shù)據(jù)集的邊緣分割效果；石志良等［29］利用腐蝕圖替代人工輸入初始化圖割模型，實(shí)現(xiàn)相鄰骨組織的自動(dòng)分離。TTA 也是其中一種后處理方法，在驗(yàn)證階段對(duì)輸入圖片進(jìn)行增強(qiáng)。本文使用TTA后處理進(jìn)一步提高預(yù)測(cè)精確度，常見(jiàn)的流程是在驗(yàn)證階段將輸入圖像進(jìn)行多次旋轉(zhuǎn)、縮放、翻轉(zhuǎn)，然后依次預(yù)測(cè)，最后將預(yù)測(cè)結(jié)果進(jìn)行特征融合得到最終的預(yù)測(cè)結(jié)果。對(duì)于比較小的醫(yī)學(xué)數(shù)據(jù)集，該方法很有效。本文對(duì)增強(qiáng)方法選擇翻轉(zhuǎn)加旋轉(zhuǎn)，因?yàn)槲赴┎±韴D像具有位置、形狀不固定的特點(diǎn)，通過(guò)翻轉(zhuǎn)和旋轉(zhuǎn)能大幅增加數(shù)據(jù)集的多樣性，解決容易過(guò)擬合的問(wèn)題。特征融合方式選擇取平均。具體操作如圖4 所示。

圖4 TTA后處理過(guò)程Fig.4 Procedure of TTA post-processing

2 實(shí)驗(yàn)與結(jié)果分析

本文實(shí)驗(yàn)的硬件環(huán)境：CPU 為Intel Xeon Gold 5218 CPU@ 2.30 GHz，GPU 為NVIDIA Tesla V100。實(shí)驗(yàn)使用的PyTorch 版本為1.8.1，CUDA 版本為10.1。

2.1 數(shù)據(jù)集與預(yù)處理

SEED 數(shù)據(jù)集包含正常、管狀腺癌、黏液腺癌3 種類型共1 770 張樣本；BOT 數(shù)據(jù)集包含正常和病變兩種類型共700 張樣本。每一張圖像都有對(duì)應(yīng)的分割蒙版，其中：0 代表正常區(qū)域；255 代表病變區(qū)域。PASCAL VOC 2012 有2 913 張語(yǔ)義分割圖片，訓(xùn)練集和驗(yàn)證集分別有1 464、1 449 張圖片，共有背景、人、飛機(jī)等21 類。

胃癌病理細(xì)胞一般具備以下特征：1）癌細(xì)胞的細(xì)胞核體積比較大，通常是正常細(xì)胞的5～10 倍；2）癌細(xì)胞的外形一般不規(guī)則；3）癌細(xì)胞細(xì)胞質(zhì)減小，細(xì)胞核與細(xì)胞質(zhì)面積之比增大。它們是判斷胃癌病理圖像中有無(wú)病變區(qū)域的重要因素。

數(shù)據(jù)集中有的圖像分辨率非常大，對(duì)比Patch 預(yù)測(cè)的結(jié)果與直接縮放到統(tǒng)一大小預(yù)測(cè)之后的結(jié)果，發(fā)現(xiàn)直接縮放的效果會(huì)好很多，所以在實(shí)驗(yàn)過(guò)程中會(huì)將所有圖像統(tǒng)一縮放到512×512 大小。同時(shí)，因?yàn)镃NN 對(duì)環(huán)境因素非常敏感，數(shù)據(jù)采集設(shè)備、光照、標(biāo)注質(zhì)量等都會(huì)影響最后的分割結(jié)果。為避免網(wǎng)絡(luò)模型出現(xiàn)訓(xùn)練過(guò)擬合問(wèn)題，在訓(xùn)練前對(duì)數(shù)據(jù)進(jìn)行增強(qiáng)，提高訓(xùn)練集多樣性，從而提高網(wǎng)絡(luò)的魯棒性。在獲取圖像數(shù)據(jù)前，使用albumentations 庫(kù)對(duì)圖像進(jìn)行隨機(jī)翻轉(zhuǎn)、隨機(jī)改變亮度、隨機(jī)改變對(duì)比度、隨機(jī)改變飽和度等操作，實(shí)際效果如圖5 所示。圖5（a）分別為原始圖與它對(duì)應(yīng)的分割蒙版；圖5（b）分別為進(jìn)行縮放和圖像增強(qiáng)后的訓(xùn)練數(shù)據(jù)與它對(duì)應(yīng)的分割蒙版，這樣訓(xùn)練數(shù)據(jù)的多樣性將會(huì)大大增加，可以有效防止數(shù)據(jù)過(guò)少或者單一導(dǎo)致的過(guò)擬合問(wèn)題。

圖5 增強(qiáng)處理前后的對(duì)比Fig.5 Comparison before and after enhancement processing

2.2 實(shí)驗(yàn)設(shè)置

平均交并比（Mean Intersection over Union，MIoU）是真實(shí)值和預(yù)測(cè)值兩個(gè)集合的交并比，能客觀地反映網(wǎng)絡(luò)分割結(jié)果的好壞。MIoU 的計(jì)算公式見(jiàn)式（9）：

其中：pij表示真實(shí)值為i，被預(yù)測(cè)為j的像素?cái)?shù)量；k是類別個(gè)數(shù)；pii是預(yù)測(cè)正確的數(shù)量。MIoU 一般都根據(jù)類來(lái)計(jì)算，將每一類的交并比（Intersection over Union，IoU）計(jì)算出來(lái)后累加，最后再除以類別數(shù)，就能得到全局的預(yù)測(cè)評(píng)價(jià)。MIoU 越高，分割圖像與分割蒙版重疊性越高，即分割效果越好。

本文首先通過(guò)消融實(shí)驗(yàn)驗(yàn)證每個(gè)模塊的有效性，接著使用DeepLabV3+［8］、U-Net［11］、U-Net++［14］等經(jīng)典醫(yī)學(xué)分割模型與本文提出的EOU-Net 進(jìn)行比較。

將數(shù)據(jù)集按8∶2 劃分為訓(xùn)練集和驗(yàn)證集，設(shè)定隨機(jī)種子為0 來(lái)保證數(shù)據(jù)集的一致性。在訓(xùn)練過(guò)程中，訓(xùn)練集的batch size 為12，驗(yàn)證集的batch size 為1，損失函數(shù)為二值交叉熵?fù)p失函數(shù)，優(yōu)化器為Adam 優(yōu)化器，初始學(xué)習(xí)率為10-4，學(xué)習(xí)率的調(diào)整策略為每30 個(gè)epoch 之后將學(xué)習(xí)率減半，總共訓(xùn)練250 個(gè)epoch，因?yàn)榫W(wǎng)絡(luò)使用EfficientNetV2 的ImageNet21k 的訓(xùn)練權(quán)重進(jìn)行遷移學(xué)習(xí)，所以初始學(xué)習(xí)率比較小，只需要根據(jù)新數(shù)據(jù)集進(jìn)行微調(diào)便能達(dá)到很好的效果。訓(xùn)練集和驗(yàn)證集的MIoU 變化如圖6 所示。

圖6 訓(xùn)練集和驗(yàn)證集的MIoU曲線Fig.6 MIoU curves for training and validation sets

2.3 實(shí)驗(yàn)結(jié)果分析

2.3.1 消融實(shí)驗(yàn)

為了驗(yàn)證EOU-Net 各模塊的有效性，分別對(duì)各模塊進(jìn)行消融實(shí)驗(yàn)，具體結(jié)果如表2 所示?；€模型為使用了ImageNet 預(yù)訓(xùn)練權(quán)重的EfficientNet 作為編碼器的U-Net。首先，將編碼器替換為使用了ImageNet 預(yù)訓(xùn)練權(quán)重的EfficientNetV2 之后，MIoU 比U-Net 提高了0.50%；在解碼器上添加改進(jìn)后的OCR 模塊后，MIoU 比U-Net 提高了0.87%；使用TTA 后處理，MIoU 比U-Net 提高了1.62%。由此可見(jiàn)，本文提出的模塊均能有效提升分割精度。

表2 EOU-Net消融實(shí)驗(yàn)結(jié)果單位：%Tab.2 Ablation experimental results of EOU-Net unit：%

為了更直觀地觀察各模塊的提升效果，隨機(jī)從驗(yàn)證集中選出1 張圖片，并依次使用不同的網(wǎng)絡(luò)模型分割，具體結(jié)果如圖7 所示，Label 為人工標(biāo)注結(jié)果。從圖7 中能更直觀地看出各模塊的有效性，將骨干特征提取網(wǎng)絡(luò)換成EfficientNetV2后，找到的病變區(qū)域更準(zhǔn)確，說(shuō)明網(wǎng)絡(luò)的特征提取能力確實(shí)有所提高；再加入改進(jìn)后的OCR 模塊之后，也能明顯觀察到分割邊緣細(xì)節(jié)得到了優(yōu)化；最后，TTA 后處理也能讓EOUNet 在面對(duì)不同的環(huán)境因素時(shí)，表現(xiàn)差異不會(huì)過(guò)大。

圖7 消融實(shí)驗(yàn)可視化Fig.7 Visualization of ablation experiment

2.3.2 后處理方法對(duì)比實(shí)驗(yàn)

本文以未添加TTA 后處理的EOU-Net 作為基礎(chǔ)模型，通過(guò)比較不同圖像增強(qiáng)和特征融合的TTA 模塊來(lái)找到最好的圖像增強(qiáng)方式和特征融合方式。圖像增強(qiáng)方法包括：水平垂直翻轉(zhuǎn)、水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)以及水平垂直翻轉(zhuǎn)加旋轉(zhuǎn)。特征融合方式包括：平均、相加和幾何平均。同時(shí)，為了驗(yàn)證本文的后處理方法在胃癌數(shù)據(jù)集中的有效性，將它與經(jīng)典的DenseCRF-n（n代表算法迭代的次數(shù)）后處理方法進(jìn)行比較，具體結(jié)果見(jiàn)表3。

由表3 可以看出，選擇水平垂直翻轉(zhuǎn)加旋轉(zhuǎn)的圖像增強(qiáng)方式效果最好；同時(shí)，平均和相加的特征融合方式效果相當(dāng)，MIoU 基本沒(méi)有差別。實(shí)驗(yàn)中效果最好的TTA 模塊與DeepLab 中的DenseCRF 后處理相比，MIoU 提升了1.10%。因?yàn)镈enseCRF 算法要求分割區(qū)域的邊緣與周圍像素具有一定差異，所以并不適合特征復(fù)雜的醫(yī)學(xué)圖像，由此可見(jiàn)，本文的TTA 后處理優(yōu)于經(jīng)典后處理方法。

2.3.3 不同方法對(duì)比實(shí)驗(yàn)

1）SEED 數(shù)據(jù)集對(duì)比實(shí)驗(yàn)。

在SEED 數(shù)據(jù)集上將EOU-Net 與Att U-Net［15］、U-Net［11］、U-Net++［14］等經(jīng)典網(wǎng)絡(luò)進(jìn)行了比較，具體結(jié)果如表4 所示。Att R2U-Net［13］和Att U-Net 沒(méi)有使用ImageNet 預(yù)訓(xùn)練的權(quán)重，因此，將未使用ImageNet 預(yù)訓(xùn)練權(quán)重的EOU-Net 與這兩個(gè)模型進(jìn)行比較?？梢钥闯?，OCRNet 的表現(xiàn)一般，MIoU 比EOU-Net 小1.8 個(gè)百分點(diǎn)，說(shuō)明對(duì)于醫(yī)學(xué)分割還是U 型結(jié)構(gòu)更通用。通過(guò)MIoU 和不同種類的IoU 結(jié)果可以發(fā)現(xiàn)，EOUNet 無(wú)論是正常區(qū)域還是病變區(qū)域分割結(jié)果都優(yōu)于目前經(jīng)典網(wǎng)絡(luò)模型。

表4 SEED和BOT數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果單位：%Tab.4 Comparison experimental results on SEED and BOT datasets unit：%

2）BOT 數(shù)據(jù)集對(duì)比實(shí)驗(yàn)。

為進(jìn)一步驗(yàn)證EOU-Net 的有效性，在BOT 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，結(jié)果見(jiàn)表4。實(shí)驗(yàn)設(shè)置和SEED 數(shù)據(jù)集一致，因?yàn)锽OT數(shù)據(jù)集的較多樣本病變區(qū)域占整張圖像比例較小，所以病變區(qū)域的IoU 普遍不高。但是，從MIoU 和不同種類的IoU 結(jié)果可以看出，EOU-Net 能有效提高胃癌病理圖片的分割結(jié)果，MIoU 比OCRNet 提高了0.6 個(gè)百分點(diǎn)。

為了更直觀地比較預(yù)測(cè)結(jié)果，隨機(jī)從驗(yàn)證集中挑出4 張病理圖像，采用不同算法進(jìn)行處理并顯示分割效果，如圖8所示。可以直觀地發(fā)現(xiàn)，面對(duì)特征比較復(fù)雜的胃癌病理圖像，EOU-Net 確實(shí)能更好地提取圖片中的病變區(qū)域以及處理邊緣信息，從而達(dá)到更好的分割結(jié)果。

圖8 對(duì)比實(shí)驗(yàn)可視化Fig.8 Visualization of comparison experiments

3）PASCAL VOC 2012 數(shù)據(jù)集對(duì)比實(shí)驗(yàn)。

在PASCAL VOC 2012 數(shù)據(jù)集上驗(yàn)證EOU-Net 在其他類型數(shù)據(jù)集上的表現(xiàn)，實(shí)驗(yàn)結(jié)果見(jiàn)表5?？梢钥闯?，EOU-Net 在非醫(yī)學(xué)的數(shù)據(jù)集中的性能相較于經(jīng)典網(wǎng)絡(luò)也有所提高。當(dāng)種類數(shù)變多時(shí)，U-Net 的MIoU 很低；而EOU-Net 不僅沒(méi)有受太大影響，同時(shí)相較于OCRNet 有所提升，MIoU 提高了4.5個(gè)百分點(diǎn)。

表5 PASCAL VOC 2012數(shù)據(jù)集上的對(duì)比結(jié)果單位：%Tab.5 Comparison results on PASCAL VOC 2012 dataset unit：%

將EOU-Net、OCRNet 和DeepLabV3+進(jìn)行可視化分割結(jié)果比較，如圖9 所示。從圖9 中也能更直觀地發(fā)現(xiàn)EOU-Net確實(shí)能通過(guò)提高邊緣分割精度從而提升網(wǎng)絡(luò)分割準(zhǔn)確度。

3 結(jié)語(yǔ)

本文針對(duì)胃癌病理圖像特點(diǎn)，改進(jìn)U-Net 模型的基本結(jié)構(gòu)，提出了一種新的EOU-Net 模型。利用EfficientNetV2 的特征提取能力，使編碼器部分能更好地提取胃癌病理圖像復(fù)雜的病變特征；接著，通過(guò)改進(jìn)后的OCR 模塊，讓網(wǎng)絡(luò)在上采樣階段基于物體上下文特征探索像素間的關(guān)系，從而得到更好的邊緣分割結(jié)果；最后，使用TTA 后處理方法，從多個(gè)旋轉(zhuǎn)角度分別對(duì)輸入圖像進(jìn)行分割，解決了醫(yī)學(xué)圖像數(shù)據(jù)集普遍偏小、容易出現(xiàn)過(guò)擬合的問(wèn)題。在SEED 病理圖像數(shù)據(jù)集、BOT 病理圖像數(shù)據(jù)集以及PASCAL VOC 2012 數(shù)據(jù)集上的結(jié)果表明，本文的EOU-Net 能夠有效提高網(wǎng)絡(luò)分割效果，MIoU分別達(dá)到了81.4%、75.4%和76.8%，能為醫(yī)生診斷提供輔助。然而，病理圖像之間分辨率的差距非常大，本文在訓(xùn)練過(guò)程中將圖像尺寸統(tǒng)一縮放到512×512，導(dǎo)致很多特征沒(méi)有被充分利用，所以，未來(lái)準(zhǔn)備在如何充分利用這些特征上作進(jìn)一步研究。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放