王艷梅,張佳良,張艷珠,史銘宇,李 妍
(1.沈陽理工大學(xué)信息科學(xué)與工程學(xué)院,遼寧 沈陽 110159; 2.沈陽理工大學(xué)自動(dòng)化與電氣工程學(xué)院,遼寧 沈陽 110159;3.中國醫(yī)科大學(xué)附屬第四醫(yī)院,遼寧 沈陽 110005)
視網(wǎng)膜脫落是一種常見的眼科疾病,是視網(wǎng)膜與眼球后壁之間的色素上皮層發(fā)生分離,導(dǎo)致視網(wǎng)膜功能障礙或喪失的病理過程。視網(wǎng)膜脫落的原因有多種,如外傷、近視、糖尿病、老年性黃斑變性等。視網(wǎng)膜脫落的臨床表現(xiàn)主要有視力下降、視野缺損、閃光、飛蚊等。視網(wǎng)膜脫落如果得不到及時(shí)診斷和治療,可能導(dǎo)致視網(wǎng)膜萎縮、眼球萎縮、失明等嚴(yán)重后果。因此,視網(wǎng)膜脫落的早期發(fā)現(xiàn)和確診斷對(duì)于保護(hù)患者的視力和眼球健康具有重要意義。眼底超聲是一種利用超聲波探測眼球內(nèi)部結(jié)構(gòu)的檢查方法[1],具有無創(chuàng)、快速、廉價(jià)、可重復(fù)等優(yōu)點(diǎn),適用于各種眼科疾病的診斷,尤其是對(duì)于不能直接觀察眼底的情況,如白內(nèi)障、玻璃體混濁、眼球出血等。眼底超聲可以分為B超和彩超兩種模式,B超是黑白的二維圖像,顯示眼球內(nèi)部的反射強(qiáng)度,彩超是彩色的二維圖像,顯示眼球內(nèi)部的血流速度和方向。眼底超聲可以用于視網(wǎng)膜脫落的診斷,通過觀察視網(wǎng)膜的位置、形態(tài)、活動(dòng)度等,判斷視網(wǎng)膜是否脫落,以及脫落的范圍、程度、類型等。然而,眼底超聲圖像的質(zhì)量通常較低,存在噪聲、模糊、偽影等問題,且其他模型無法充分提取圖像特征,存在特征提取不充分、信息丟失等問題[2]。以往主要通過醫(yī)生的眼睛動(dòng)態(tài)判斷,人工分割視網(wǎng)膜脫落區(qū)域較為困難。
本文基于U-Net[3]進(jìn)行改進(jìn),提出一種基于深度學(xué)習(xí)的眼底圖像疾病分割方法,將殘差網(wǎng)絡(luò)和可變性卷積加入到主干網(wǎng)絡(luò),利用注意力機(jī)制對(duì)現(xiàn)有的深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)進(jìn)行優(yōu)化改進(jìn),將這個(gè)改進(jìn)模型稱為RDFA-Net(Residual and Deep-scale Feature Fusion Attention Network),可以有效地對(duì)病灶部位進(jìn)行分割。本文主要工作有以下四個(gè)方面:第一,對(duì)眼底超聲圖像的病灶進(jìn)行圖像分割;第二,在U-Net網(wǎng)絡(luò)的基礎(chǔ)上,引入了空間注意力和通道注意力兩種注意力機(jī)制,分別用于增強(qiáng)圖像的局部特征和全局特征,提高網(wǎng)絡(luò)的感受野和表征能力,并加在網(wǎng)絡(luò)的深層部位;第三,在殘差主干網(wǎng)絡(luò)中提出可變形殘差卷積組成特殊的殘差網(wǎng)絡(luò);第四,設(shè)計(jì)深層信息傳遞結(jié)構(gòu),將深層特征中的信息送到淺層網(wǎng)絡(luò)中進(jìn)行堆疊,使得網(wǎng)絡(luò)模型可以聯(lián)系上下文提取多尺度特征信息。并在自建的視網(wǎng)膜脫落的彩超數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),與其他幾種常用的深度學(xué)習(xí)分割方法進(jìn)行了對(duì)比。
本文提出了一種新的網(wǎng)絡(luò)結(jié)構(gòu)(RDFA-Net結(jié)構(gòu)),如圖1所示,用以分割視網(wǎng)膜脫落超聲圖像的病灶部位。新模型保留傳統(tǒng)U-Net的主干特征提取網(wǎng)絡(luò)和加強(qiáng)特征提取網(wǎng)絡(luò)的編碼器解碼器結(jié)構(gòu)。原U-Net主干特征提取部分由卷積和最大池化組成,整體結(jié)構(gòu)與VGG類似,本文使用改進(jìn)的ResNet50[4]特征提取網(wǎng)絡(luò)作為主干網(wǎng)絡(luò),由于視網(wǎng)膜脫落病灶部位目標(biāo)比較大,但是形狀不一,傳統(tǒng)的特征提取方法使用固定的卷積視野較小,效果不佳,所以在主干網(wǎng)絡(luò)第四階段使用可判定可變形卷積DCNV2[5],為網(wǎng)絡(luò)提供更大的靈活性,可以選擇具有信息量的區(qū)域,提高對(duì)細(xì)節(jié)的捕捉能力,使模型的效果能得到提升。在解碼器部分參考多尺度特征網(wǎng)絡(luò)在深處提取特征進(jìn)行8倍上采樣拼接到淺層特征中,不進(jìn)行過多拼接,使得深層特征得到展現(xiàn),有效地將多尺度信息進(jìn)行特征高效化傳遞,為解碼器提供深層層次的特征信息,以此提高分割精度。同時(shí)在深層解碼器中引入通道注意力模塊和空間注意力模塊CBAM以提高對(duì)目標(biāo)的關(guān)注度,產(chǎn)生更好的分割結(jié)果[6]。
圖1 RDFA-Net結(jié)構(gòu)圖
在超聲圖像分割任務(wù)中,由于目標(biāo)形狀的特征是立體動(dòng)態(tài)變化的,且區(qū)域較大,普通的特征提取方法難以提取到有效的特征,且隨著網(wǎng)絡(luò)層數(shù)的加深,正確率會(huì)變得增長緩慢或是下降,模型的準(zhǔn)確率會(huì)降低。為了解決這一問題,將原來U-Net中的主干特征提取網(wǎng)絡(luò)Vgg網(wǎng)絡(luò)結(jié)構(gòu)替換為Resnet50殘差結(jié)構(gòu),ResNet50結(jié)構(gòu)在輸入Input經(jīng)過Resnet50到輸出Output,分為5個(gè)階段(STAGE0~STAGE4),如圖2所示。共經(jīng)過了50個(gè)層,STAGE0中的2層(conv7×7、max pooling),STAGE1中9層(3×3),STAGE2中的12層(3×4),STAGE3中的18層(3×6),STAGE4中的9層(3×3)。其中STAGE0可以看作數(shù)據(jù)的預(yù)處理,后面的STAGE1至STAGE4都由數(shù)個(gè)Bottleneck模塊組成,結(jié)構(gòu)相似,圖2虛線框中為各Bottleneck的結(jié)構(gòu),其中CONV是卷積,BN是Batch Normalization的縮寫,即BN層,RELU指ReLU激活函數(shù)。
圖2 可變形殘差卷積模塊結(jié)構(gòu)
傳統(tǒng)的殘差結(jié)構(gòu)雖然動(dòng)態(tài)性較好,對(duì)于深層網(wǎng)絡(luò)的補(bǔ)償性較好,但是對(duì)于網(wǎng)絡(luò)性能的正面提升沒有幫助。為了加強(qiáng)效果,將第四個(gè)Bottlenet中的殘差通道判定部分的原卷積Conv,替換為動(dòng)態(tài)的可變形卷積DCNV2,在判定通道數(shù)輸出不等于輸入時(shí),或殘差通道起作用時(shí),可通過可變形卷積進(jìn)行下采樣,提高特征提取能力,將新的結(jié)構(gòu)命名為Bottleneck3模塊。
可變形卷積DCNV2是可變形卷積DCNV1的改進(jìn)版,在傳統(tǒng)卷積單元(卷積核)中對(duì)輸入的特征圖在固定的位置進(jìn)行采樣。所帶來的問題是卷積核權(quán)重的固定導(dǎo)致同一CNN在處理一張圖不同位置區(qū)域時(shí)感受野尺寸都相同,這對(duì)于編碼位置信息的深層卷積神經(jīng)網(wǎng)絡(luò)是不合理的。因?yàn)椴煌奈恢每赡軐?duì)應(yīng)不同尺度或者不同形變的物體,這些層需要能夠自動(dòng)調(diào)整尺度或者感受野的方法。DCN卷積模塊的結(jié)構(gòu)如圖3所示,偏差通過一個(gè)卷積層conv獲得,輸入特征圖,輸出偏差。生成通道維度是2N,其中的“2”分別對(duì)應(yīng)X和Y這兩個(gè)2D偏移,N是通道數(shù)。一共有兩種卷積核:卷積核和卷積核學(xué)習(xí)offset對(duì)應(yīng)的卷積層內(nèi)的卷積核,這兩種卷積核通過雙線性插值反向傳播,同時(shí)進(jìn)行參數(shù)更新。這種實(shí)現(xiàn)方式相當(dāng)于比正常的卷積操作多學(xué)習(xí)了卷積核的偏移。在DCNV2中,每個(gè)樣本不僅需要學(xué)習(xí)DCNV1中的偏移量,而且還要通過學(xué)習(xí)到的特征幅度進(jìn)行調(diào)制。這個(gè)網(wǎng)絡(luò)模塊因此能夠改變其樣本的空間分布和相互之間的影響,特征幅度的表達(dá)如下:
(1)
圖3 可變形卷積模塊結(jié)構(gòu)
其中,Δmk是第k個(gè)位置的調(diào)制標(biāo)量(k是卷積網(wǎng)格的表示位置的數(shù)字)。
調(diào)制標(biāo)量Δmk的取值范圍為[0,1]。Δpk和Δmk可在相同的輸入特征圖x上,分別通過一個(gè)單獨(dú)的卷積得到。該卷積層與當(dāng)前卷積層具有相同的空間分辨率和膨脹度。輸出通道數(shù)為3K,其中前面的2K通道對(duì)應(yīng)學(xué)習(xí)到的偏移Δpk,剩下的K個(gè)通道再送到Sigmoid層[7],得到調(diào)制標(biāo)量Δmk。將之后得到的Δmk加入到輸入特征上,用來在學(xué)到的偏移位置上調(diào)制特征的幅度。
本文提出的可變形殘差卷積模塊殘差結(jié)構(gòu)和可變形卷積相結(jié)合,形成互補(bǔ)的效果,可以動(dòng)態(tài)地提升特征提取能力,提升模型的精度效果。
為了解決原U-Net網(wǎng)絡(luò)橫向融合特征而忽略深層特征的問題,提高病灶分割的效果,將深層的橫向融合后的特征,通過深尺度特征提取,并入淺層特征融合中,之后進(jìn)行預(yù)測。如圖1所示,在特征提取部分第一次拼接操作后,將拼接后的深層特征p2直接進(jìn)行8倍上采樣后提出,生成具有深層語義信息的特征圖,與第四次拼接的結(jié)果再次拼接,用以同時(shí)捕捉深層的深尺度特征信息和淺層的空間幾何特征信息,之后進(jìn)行兩次卷積操作和Relu激活函數(shù)運(yùn)算,將通道數(shù)同步為與第四次拼接處結(jié)果相同的通道數(shù)。
令O∈R(H×W×C),P∈R(H×W×C),O表示編碼器在第二層的輸出特征圖,P表示解碼器在第二層的輸出特征圖,其中H,W,C分別表示特征圖的高度、寬度和通道數(shù)。因此深尺度信息傳遞結(jié)構(gòu)可表示為:
V=Ct(Ct(C1∶Up(C2))∶Up(C3))·Cv·R,
(2)
其中,C1為解碼器第一層輸入特征,C2為編碼器第二層輸入特征,C3為第四層編碼器輸入特征,Ct(1∶2)表示將通道1和通道2進(jìn)行特征通道融合操作,Up表示上采樣操作,Cv表示卷積,R為Relu激活函數(shù)。
本研究使用空間和通道結(jié)合的注意力機(jī)制CBAM(Convolutional Block Attention Module)來提取病灶特征,CBAM同時(shí)將空間注意力和通道注意力相結(jié)合,其結(jié)構(gòu)如圖4所示。將圖像特征的輸入分別進(jìn)行通道注意力和空間注意力的處理,擁有良好的信息獲取能力,在輸入的單層特征后依次進(jìn)行全局平均池化和全局最大池化。之后對(duì)上述操作得到的結(jié)果,利用共享的全連接層進(jìn)行處理,將處理后的兩個(gè)結(jié)果相加,通過Sigmoid激活函數(shù)得到輸入特征層每一個(gè)通道的0到1之間的權(quán)值。在獲得這個(gè)權(quán)值后,將這個(gè)權(quán)值乘以原輸入特征層??臻g注意力機(jī)制對(duì)輸入進(jìn)來的特征層,在每一個(gè)特征點(diǎn)的通道上取最大值和平均值,之后將這兩個(gè)結(jié)果進(jìn)行一個(gè)拼接,利用一次通道數(shù)為1的卷積調(diào)整通道數(shù),同樣使用Sigmoid激活函數(shù)得到輸入特征層每一個(gè)通道的0到1之間的權(quán)值之后乘以原輸入特征層。由于深層特征較為抽象,本文將此注意力機(jī)制加在特征提取網(wǎng)絡(luò)部分中的第三層輸入之后,在經(jīng)過特征提取后與上采樣的結(jié)果進(jìn)行拼接。
圖4 通道和空間注意力機(jī)制
實(shí)驗(yàn)所用的環(huán)境為CPU:R7 5800,GPU:RTX3060,16 G內(nèi)存,Windows11系統(tǒng),Python3.6,在相同的環(huán)境下進(jìn)行網(wǎng)絡(luò)訓(xùn)練。
本研究所用的數(shù)據(jù)集來自合作醫(yī)院長期收集的視網(wǎng)膜脫落患者的彩色超聲視頻,將患者檢測的超聲視頻逐幀截取篩選,手工截取相關(guān)區(qū)域,用Yolov5深度學(xué)習(xí)網(wǎng)絡(luò)檢測眼眶統(tǒng)一數(shù)據(jù)集尺度,再進(jìn)行鏡像翻轉(zhuǎn)擴(kuò)充數(shù)據(jù)集的數(shù)量。通過Labelme軟件標(biāo)注病灶區(qū)域,之后交給醫(yī)生修改并確認(rèn)正確后,得到最終數(shù)據(jù)集。最終處理成224×224的圖像129張。將數(shù)據(jù)集的80%劃分為訓(xùn)練集,20%劃分為測試集,進(jìn)行深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練。
對(duì)視網(wǎng)膜脫落的視網(wǎng)膜病灶部分進(jìn)行語義分割,實(shí)際是對(duì)圖像中的每個(gè)像素點(diǎn)進(jìn)行分類。圖像中的每個(gè)像素點(diǎn)被分為病灶部位和非病灶部位兩類[8]。評(píng)價(jià)指標(biāo)有真陽性(TP)、假陽性(FP)、真陰性(TN)、假陰性(FN)。通過計(jì)算可得到準(zhǔn)確率(PA)、類別平均像素準(zhǔn)確率(MPA)、交并比(IoU)、召回率(RECALL)、平均交并比(MIoU)。
在自制的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),使用RDFA-Net對(duì)相應(yīng)病灶部位進(jìn)行分割,分割結(jié)果如圖5所示,其中(a)(c)為原始圖片,(b)(d)為前一張對(duì)應(yīng)的分割結(jié)果。RDFA-Net正確地確定到視網(wǎng)膜脫落的視網(wǎng)膜位置,并未錯(cuò)誤識(shí)別附近相鄰不相關(guān)的非病灶區(qū)域,且由第二個(gè)病變的分割結(jié)果可知,分割的邊緣表現(xiàn)結(jié)果也較為準(zhǔn)確。
圖5 RDFA-Net的分割結(jié)果
將RDFA-Net與HRNet[8]、ResNet、U-Net、Deeplabv3[9]方法進(jìn)行比較(表1)。RDFA-Net模型的準(zhǔn)確率達(dá)到了0.978 3,相較于U-Net提升了0.004 3;IoU值達(dá)到了0.692 5,相較于U-Net提升了0.022 6,相較于HR-Net提升了0.113 2;MPA值達(dá)到了0.917 9,均優(yōu)于其他方法。
表1 RDFA-Net與其他方法的評(píng)價(jià)指標(biāo)
為了進(jìn)一步證明本文提出的可變形殘差卷積模塊和深層信息傳遞結(jié)構(gòu),進(jìn)行消融實(shí)驗(yàn),分別保留可變形殘差卷積模塊(表2),去除CBAM注意力機(jī)制模塊(表3),去除深層信息傳遞結(jié)構(gòu)(表4),與基線網(wǎng)絡(luò)U-Net和RDFA-Net進(jìn)行對(duì)比。
表2 保留可變形殘差卷積模塊對(duì)評(píng)價(jià)指標(biāo)的影響
表3 去除CBAM注意力機(jī)制模塊對(duì)評(píng)價(jià)指標(biāo)的影響
表4 去除深層信息傳遞結(jié)構(gòu)對(duì)評(píng)價(jià)指標(biāo)的影響
由表2可以看出,在保留可變形殘差卷積模塊后,網(wǎng)絡(luò)性能相較于U-Net準(zhǔn)確率提升了0.002 6,MPA值提升了0.013 1,IoU值提升了0.016 0,MIoU值提升了0.011 5。由此可見,可變形卷積模塊動(dòng)態(tài)卷積對(duì)于分割是有提升效果的。
由表3可以看出,在去除CBAM注意力機(jī)制后,RDFA-Net的各項(xiàng)性能指標(biāo)都有所下降,說明CBAM在第二層連接處可以有效地提取病變的空間和通道特征,CBAM模塊擁有優(yōu)秀的特征提取能力。
由表4可以看出,在去除深層信息傳遞結(jié)構(gòu)后,保留其他模塊,IoU值下降了0.029 1,其他性能指標(biāo)也均有所下降,由此驗(yàn)證了保留深層提取信息的有效性,深層信息傳遞結(jié)構(gòu)可以有效地保留深層信息,提升分割精度。
本文針對(duì)視網(wǎng)膜脫落超聲圖像的病灶分割問題,以U-Net為基礎(chǔ),在優(yōu)化為殘差主干特征網(wǎng)絡(luò)的同時(shí)加入可變性卷積,可以動(dòng)態(tài)卷積提取特征,引入通道和空間注意力機(jī)制,加強(qiáng)網(wǎng)絡(luò)的信息獲取能力,改進(jìn)了加強(qiáng)特征提取網(wǎng)絡(luò)部分的結(jié)構(gòu),使網(wǎng)絡(luò)能兼顧深層尺度信息,實(shí)現(xiàn)了對(duì)超聲圖像視網(wǎng)膜脫落病灶的分割工作,實(shí)現(xiàn)了較好的性能,優(yōu)于其他方法。視網(wǎng)膜脫落病灶與其他部位的超聲圖像是相似的,RDFA-Net也可以應(yīng)用到其他病灶分割任務(wù)。