穆應(yīng)晨,王學(xué)軍,王怡雯,盧 琳
(石家莊鐵道大學(xué) 信息科學(xué)與技術(shù)學(xué)院,河北 石家莊 050043)
世界衛(wèi)生組織國(guó)際癌癥研究機(jī)構(gòu)(IARC)發(fā)布了2020年全球最新癌癥負(fù)擔(dān)數(shù)據(jù),這份數(shù)據(jù)報(bào)告顯示,2020年全球1 930萬(wàn)人新確診癌癥,近1 000萬(wàn)人死亡,中國(guó)新發(fā)癌癥數(shù)與癌癥死亡數(shù)均位居全球第一。其中肺癌是發(fā)病率和死亡率最高的惡性腫瘤,所以盡早發(fā)現(xiàn)和診斷是治療肺癌的第一步?,F(xiàn)如今CT影像學(xué)檢查是診斷肺癌的主要手段。肺癌早期,CT影像可清晰顯示支氣管壁的不規(guī)則增厚、管腔狹窄、管腔內(nèi)結(jié)節(jié)等改變[1]。晚期時(shí),通過(guò)CT影像可看清腫塊的邊緣、形態(tài)、瘤周表現(xiàn)、內(nèi)部結(jié)構(gòu)及密度變化等[2]。將醫(yī)學(xué)圖像處理技術(shù)應(yīng)用于肺部診斷的輔助治療,對(duì)醫(yī)生更快地判斷患者的肺部疾病具有重要意義。
醫(yī)學(xué)圖像分割技術(shù)是醫(yī)學(xué)圖像處理中最常用的方法之一。常用的圖像分割技術(shù)包括手工分割方法、半自動(dòng)分割方法和全自動(dòng)分割方法[3]。其中帶有自動(dòng)分割的分割方法已經(jīng)是醫(yī)學(xué)圖像分割方法的支柱,利用深度學(xué)習(xí)實(shí)現(xiàn)醫(yī)學(xué)圖像的自動(dòng)分割已經(jīng)成為了新的趨勢(shì)。Long J等[4]在2015年提出全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Networks,FCN),并用于自然圖像的語(yǔ)義分割領(lǐng)域。基于全卷積神經(jīng)網(wǎng)絡(luò)的醫(yī)學(xué)圖像分割方法是一種端到端的分割方法,有效地避免了卷積神經(jīng)網(wǎng)絡(luò)中計(jì)算量大等問(wèn)題[5]。隨后Ronneberger O等[6]提出了一個(gè)編碼器-解碼器的對(duì)稱網(wǎng)絡(luò)U-Net,它真正意義上將全卷積網(wǎng)絡(luò)應(yīng)用到醫(yī)學(xué)圖像分割領(lǐng)域,通過(guò)跳躍連接(Skip Connection)將淺層和深層的圖像信息進(jìn)行融合。Gu Z等[7]在2019年提出了上下文編碼網(wǎng)絡(luò)(Context Encoder Networks,CE-Net),利用上下文信息對(duì)特征進(jìn)行捕獲。Vaswani A等[8]提出的Transformer模型早在2107年就開(kāi)始流行起來(lái),它將注意力機(jī)制的思想發(fā)揮到了極致,拋棄了以往深度學(xué)習(xí)任務(wù)里面使用到的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[9]和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[10]。Transformer目前已經(jīng)成為了自然語(yǔ)言處理(Natural Language Processing,NLP)領(lǐng)域的標(biāo)準(zhǔn)配置,也為計(jì)算機(jī)視覺(jué)領(lǐng)域開(kāi)拓了一條新的道路。Dosovitskiy A等[11]在2020年提出將Transformer框架應(yīng)用到計(jì)算機(jī)視覺(jué)中,提出了Vision Transformer(ViT),證明了不需要依賴CNN也可以進(jìn)行圖像的處理。Transformer的優(yōu)勢(shì)就在于利用多個(gè)自注意力機(jī)制的方式來(lái)捕獲全局的上下文信息從而對(duì)目標(biāo)建立起遠(yuǎn)距離的依賴,提取出更強(qiáng)有力的特征。
為了減少肺部CT影像的分割損失,提高神經(jīng)網(wǎng)絡(luò)對(duì)肺部CT影像的分割能力,研究提出了TCU-Net(U-Net with Transformer and Context Encoder for Image Segmentation,TCU-Net)算法。TCU-Net是基于混合Transformer的一種圖像分割算法,將混合Transformer的編碼結(jié)構(gòu)代替了U-Net中的編碼結(jié)構(gòu),編碼和解碼之間加入了上下文信息編碼模塊(Context Encoder Block,CE-Block)[7],保留轉(zhuǎn)置卷積(Transposed Convolution)[12]上采樣解碼部分不變,使網(wǎng)絡(luò)結(jié)構(gòu)聚焦于肺部圖像的細(xì)節(jié),提高了模型的分割能力。
作為人體最重要的呼吸器官,肺承載著呼吸調(diào)節(jié)功能、免疫功能、肺循環(huán)功能、造血功能等多種重要的功能[13]。精準(zhǔn)分割肺的大小以及邊緣,對(duì)臨床診斷、提前發(fā)現(xiàn)病變有著重要的作用。TCU-Net算法是在U-Net基礎(chǔ)上,結(jié)合了混合Trasformer結(jié)構(gòu)與上下文信息編碼模塊,利用多尺度特征有針對(duì)性地對(duì)不同大小的形狀進(jìn)行分割,從而提高了分割算法的準(zhǔn)確率和肺部分割精度。該網(wǎng)絡(luò)在編碼層引入了混合Transformer結(jié)構(gòu),并利用多頭自注意力機(jī)制(Multi-Head Self Attention,MHSA)更好地實(shí)現(xiàn)了全局特征學(xué)習(xí)。在像素恢復(fù)過(guò)程中,使用跳躍連接將圖像的低層特征與高層特征結(jié)合,最終實(shí)現(xiàn)圖像分割任務(wù)。
混合Transformer結(jié)構(gòu)采用了ResNet50[14]作為特征圖提取的主干網(wǎng)絡(luò),相比Transformer結(jié)構(gòu),混合Transformer模型結(jié)合了CNN與Transformer的優(yōu)勢(shì):卷積運(yùn)算擅長(zhǎng)提取局部特征,但在捕獲全局特征方面具有一定的局限性,而Transformer中的級(jí)聯(lián)自注意力模塊可以捕獲長(zhǎng)距離的特征依賴,彌補(bǔ)了CNN的缺陷。
圖1 混合Transformer模型結(jié)構(gòu) 圖2 Transformer-Encoder層的內(nèi)部結(jié)構(gòu)
對(duì)于Transformer-Encoder的輸入,z0計(jì)算過(guò)程如式(1)所示:
(1)
式中,C代表圖片的通道數(shù)。
Transformer-Encoder層的內(nèi)部結(jié)構(gòu)如圖2所示。由圖2可知,其是由L層的多頭自注意力機(jī)制塊和多層感知機(jī)(Multi-Layer Perceptron,MLP)[15]塊組成的,因此第l層的輸出記為zl,計(jì)算過(guò)程如式(2)、(3)所示:
(2)
(3)
式中,LN代表LayerNorm層。
CE模塊(CE-Block)是由密集空洞卷積(Dense Atrous Convolution,DAC)模塊和殘差多核池化(Residual Multi-kernel Pooling,RMP)模塊兩部分組成。DAC模塊使用多尺度空洞卷積來(lái)提取豐富的特征信息,RMP模塊使用多尺度池化操作保留更多的空間信息。該模塊可以捕獲更多抽象特征和保留更多空間信息從而提高分割的性能。
空洞卷積(Atrous Convolution)[16]應(yīng)用在語(yǔ)義分割和目標(biāo)檢測(cè)任務(wù)中可以得到更大的感受野,獲得更加密集的數(shù)據(jù),它最初是為提高小波變換的計(jì)算效率而提出的,空洞卷積的計(jì)算如式(4)所示:
y[i]=∑x[i+rk]w[k],
(4)
式中,輸出特征y是由輸入特征x和濾波器w的卷積產(chǎn)生的;空洞率rate對(duì)應(yīng)輸入的步幅;k代表卷積核的大小。通過(guò)調(diào)整不同的rate可以獲得不同的感受野,如圖3所示。
圖3 空洞卷積
DAC模塊如圖4所示。由圖4可以看出,DAC模塊有4個(gè)級(jí)聯(lián)分支,是空洞卷積以級(jí)聯(lián)方式堆疊而成的。每個(gè)分支使用不同rate進(jìn)行卷積,感受野分別是3、7、9、19。DAC模塊采用了不同大小的空洞卷積獲取不同的感受野。在每個(gè)卷積分支后,使用一個(gè)RELU激活函數(shù)。最后將原始特征直接添加到其他特征中。
圖4 DAC模塊
RMP模塊主要依靠多個(gè)有效視野來(lái)檢測(cè)不同大小的目標(biāo)。一般的最大池化操作只使用單個(gè)池化核,而RMP模塊通過(guò)4個(gè)不同大小的池化核 (2×2,3×3,5×5和6×6)對(duì)全局上下文信息進(jìn)行編碼。輸出包含不同大小的特征映射。并在每一級(jí)池化后使用1×1卷積對(duì)特征圖進(jìn)行降維,再對(duì)低維特征圖進(jìn)行上采樣,使用雙線性插值得到與原始特征圖相同大小的特征。最后將原始特征與上采樣特征圖連接起來(lái),如圖5所示。
圖5 RMP模塊
TCU-Net網(wǎng)絡(luò)模型如圖6所示,該模型的輸入是H×W×C的數(shù)據(jù),首先,使用ResNet50網(wǎng)絡(luò)提取特征圖,將尺寸縮小到原尺寸的1/16,因?yàn)門ransformer網(wǎng)絡(luò)的輸入必須是向量序列,所以將特征圖轉(zhuǎn)化為向量的形式輸入到Transformer Layer層。其次,將向量轉(zhuǎn)化為張量,送入CE-Block中,提取上下文信息。最后,使用跳躍連接和轉(zhuǎn)置卷積的上采樣操作,輸出最終結(jié)果,優(yōu)化模型分割結(jié)果。
圖6 TCU-Net網(wǎng)絡(luò)模型
實(shí)驗(yàn)的數(shù)據(jù)集是2017年Lung Nodule Analysis (LUNA)競(jìng)賽中的公開(kāi)數(shù)據(jù)集,LUNA競(jìng)賽是為了檢測(cè)結(jié)節(jié)和減少假陽(yáng)性,而分割肺部是進(jìn)一步篩選肺結(jié)節(jié)的基礎(chǔ)。實(shí)驗(yàn)選取二維CT圖像中的肺部進(jìn)行分割,該數(shù)據(jù)集包含534個(gè)2D樣本,帶有各自的標(biāo)簽圖像,全部為512×512像素,使用80%的圖像進(jìn)行訓(xùn)練,其余的用于測(cè)試,并進(jìn)行交叉驗(yàn)證。
為了驗(yàn)證模型的分割性能,研究選取了4種常用的醫(yī)學(xué)圖像分割中的評(píng)價(jià)指標(biāo):精確率(Accuracy,Acc),相似性系數(shù)(Dice Similarity Coefficient,DSC),敏感度(Sensitivity,Se)和F1-score(F1),各項(xiàng)評(píng)價(jià)指標(biāo)的定義如表1所示。True Positive(TP)表示分類正確的肺部像素個(gè)數(shù),Ture Negative(TN)表示分類正確的背景像素個(gè)數(shù),F(xiàn)alse Positive(FP)表示背景像素被分成肺部像素的個(gè)數(shù),F(xiàn)alse Negative(FN)表示肺部像素被分成背景像素的個(gè)數(shù)。
表1 評(píng)價(jià)指標(biāo)
由于LUNA 2017數(shù)據(jù)集的2D圖像存在一些噪聲,因此在輸入網(wǎng)絡(luò)前首先對(duì)圖像使用了高斯濾波進(jìn)行去噪操作,并且對(duì)圖像進(jìn)行腐蝕操作,加強(qiáng)了前景與背景間的區(qū)分度,處理之后的CT圖像如圖7所示。
圖7 圖像預(yù)處理 圖8 ROC曲線
根據(jù)混淆矩陣中的TP、TN、FP、FN參數(shù),以敏感度(Sensitivity,Se)為縱坐標(biāo),特異性(Specificity)為橫坐標(biāo)畫(huà)出ROC曲線,如圖8所示。
為了驗(yàn)證各個(gè)模塊對(duì)整體模型的影響,對(duì)U-Net網(wǎng)絡(luò)、添加了CE-Block的CE-Net網(wǎng)絡(luò)、加入Transformer-Encoder模塊的網(wǎng)絡(luò)以及TCU-Net網(wǎng)絡(luò)進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示。U-Net作為原始網(wǎng)絡(luò),精確率為98.87%,Dice系數(shù)為9826%,敏感度為97.98%,F(xiàn)1分?jǐn)?shù)為97.07%;分別添加了CE-Block和Transformer模塊的U-Net網(wǎng)絡(luò),其評(píng)價(jià)指標(biāo)有著不同程度的提升;當(dāng)結(jié)合兩個(gè)模塊后,精確率為99.35%,Dice系數(shù)為99.06%,敏感度為98.26%,F(xiàn)1分?jǐn)?shù)為98.56%,相比原始的U-Net網(wǎng)絡(luò),各項(xiàng)指標(biāo)分別提高了0.48%、0.8%、0.28%、1.49%,充分證明了研究提出模型具有一定有效性。
表2 各個(gè)模塊對(duì)整體模型的影響
由此看出加入了Transformer-Encoder和CE-Block的模型,其分割效果明顯優(yōu)于未加模型,Transformer-Encoder運(yùn)用在圖像分割網(wǎng)絡(luò),能夠有效減少連續(xù)下采樣帶來(lái)的信息損失。CE-Block從編碼器中獲取了上文信息,加強(qiáng)了目標(biāo)區(qū)域的輸出,從而提高了分割性能。分割結(jié)果如圖9所示。
圖9 分割結(jié)果
針對(duì)肺部大小不一、細(xì)小位置分割精度低等問(wèn)題提出了改進(jìn)算法TCU-Net,它的整體結(jié)構(gòu)為編碼-解碼的U型結(jié)構(gòu),使用混合Transformer結(jié)構(gòu)作為編碼部分,CNN與Transformer的優(yōu)點(diǎn)相互結(jié)合,使用CNN獲取局部特征,使用多頭自注意力機(jī)制獲取全局特征。采用具有多尺度信息的CE-Block充分提取了上下文特征信息,使用轉(zhuǎn)置卷積網(wǎng)絡(luò)作為解碼器,保留了跳躍連接,結(jié)合低層特征和高層特征,加強(qiáng)信息的捕捉。在公開(kāi)數(shù)據(jù)集LUNA 2017上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,相比U-Net算法,改進(jìn)算法在精確率、Dice系數(shù)、敏感度、F1分?jǐn)?shù)上分別提高了0.48%、0.8%、0.28%、1.49%。該方法能對(duì)2D圖像中的肺部區(qū)域?qū)崿F(xiàn)更精確的分割,對(duì)后續(xù)的肺結(jié)節(jié)檢測(cè)提供了更好的醫(yī)學(xué)輔助診斷技術(shù)。