高鐘宇,禹 龍,田生偉,吳衛(wèi)東,張德志
(1.新疆大學 軟件學院,新疆 烏魯木齊 830091;2.新疆大學 網(wǎng)絡中心,新疆 烏魯木齊 830046;3.新疆維吾爾自治區(qū)人民醫(yī)院,新疆 烏魯木齊 830000)
全卷積神經(jīng)網(wǎng)絡在醫(yī)學圖像分類、分割和檢測方面表現(xiàn)出卓越的性能.其中具有編碼解碼結(jié)構(gòu)的U-Net[1]網(wǎng)絡在醫(yī)學圖像處理方面表現(xiàn)出色,多種基于U-Net[1]網(wǎng)絡結(jié)構(gòu)的變體網(wǎng)絡也都在此基礎(chǔ)上獲得了性能提升.Fu等[2]改進網(wǎng)絡監(jiān)督策略,提出多尺度深度監(jiān)督策略用于U型網(wǎng)絡的訓練,提升了網(wǎng)絡訓練效果.CE-Net[3]將密集空洞卷積(DAC)和剩余多核池(RMP)集成到U-Net結(jié)構(gòu)中,從而獲取到更多具有高級特征的上下文信息.R2Unet[4]使用殘差循環(huán)卷積模塊替換U-Net中基礎(chǔ)卷積模塊,提升了網(wǎng)絡特征提取的能力.U-Net++[5]通過在編碼器和解碼器之間引入嵌套、密集的跳躍路徑序列,來解決編碼器和解碼器之間的語義鴻溝問題.盡管這些工作都取得了不錯的結(jié)果,但仍存在著下述問題:現(xiàn)有的模型中多尺度特征提取、融合多集中在模塊內(nèi)部,對于多尺度通道融合的方法研究較少.單模態(tài)數(shù)據(jù)通常使用單通道模型進行處理,這不僅要求單通道模型對多尺度信息敏感,而且模型設(shè)計是一個巨大的挑戰(zhàn).受啟發(fā)于Transform[6]中并行多通道模式,本文構(gòu)建了多通道網(wǎng)絡,將復雜的分割任務進行拆解,使單通道處理工作分攤到多通道中進行,不僅使各通道處理任務時更加專一,而且可以獲得更多的不同尺度的特征表示.對比單通道模型,多通道模型在每個通道之中都可以產(chǎn)生豐富的尺度特征.通過將不同通道中的多尺度特征進行結(jié)合,可以克服單通道成像技術(shù)的局限性.
為了解決上述問題,本文設(shè)計了一種自適應動態(tài)卷積模塊(Dynamic Selective Kernel Module,DSC)來構(gòu)建多通道并行U型網(wǎng)絡.DSC模塊具有兩種模式:發(fā)散模式(Dynamic Selective Kernel Module Branch Model,DSC BM)與集束模式(Dynamic Selective Kernel Module Aggregation Model,DSCAM).在網(wǎng)絡編碼階段通過DSCBM模塊提取輸入特征中不同尺度的特征信息,再將相應尺度信息發(fā)送到對應通道中進行處理,從而形成不同尺度的處理通道.在解碼階段通過逐層收集這些不同尺度通道中所產(chǎn)生的低維特征與上采樣得到的高維語義特征,通過DSC AM模塊逐級解碼,完成語義分割.
所設(shè)計的多通道并行U型網(wǎng)絡(MCPU-Net)的網(wǎng)絡架構(gòu)如圖1所示.MCPU-Net遵循U-Net[1]的編碼解碼結(jié)構(gòu),主要由編碼階段與解碼階段組成.在編碼階段內(nèi)部,網(wǎng)絡通過多通道逐層卷積將輸入圖片編碼成高維特征,解碼階段利用這些高維特征通過逐層解碼生成像素級的分割掩碼.同時,通過引入跳躍連接將淺層的語義特征輸送到后續(xù)層中補充因多層卷積而丟失的細節(jié)信息.因此,網(wǎng)絡結(jié)構(gòu)主要由兩個部分組成:3個并行的4級編碼器和5個解碼器,共9個階段,每個階段都使用DSC BM或DSC AM進行填充.
圖1 網(wǎng)絡總體架構(gòu)
動態(tài)卷積模塊由三個部分組成:多路分裂、壓縮和選擇分散或選擇聚合.多路分裂操作將輸入特征映射到不同核大小的路徑,這些路徑由不同大小的卷積核處理得到.壓縮操作將這些不同路徑的信息進行聚合,獲得具有全局信息的特征表示.選擇分散或選擇聚合操作根據(jù)所獲得的全局特征進行分散或聚合不同大小內(nèi)核處理得到的特征圖.為了敘述方便,在1.2.1節(jié)與1.2.2節(jié)使用雙分支結(jié)構(gòu)舉例說明,所設(shè)計的動態(tài)卷積模塊很容易擴展到多分支情況.
1.2.1 動態(tài)卷積-發(fā)散模式(SC_BM)
在發(fā)散模式中主要將輸入特征拆解為不同尺度的特征信息,再輸送到相應通道中進行處理,具體過程如圖2所示.
圖2 動態(tài)卷積-發(fā)散模式
多路分裂:對給定的輸入特征X∈RW×H×C,通過F 1與F 2操作F 1:X→X1∈RW×H×C、F 2:X→X2∈RW×H×C得到特征X1與X2.F 1、F 2操作由分組卷積、BatchNorm和ReLU操作組成.分組卷積的卷積核都為擴張卷積,卷積核大小為3,擴張率為2i(i=0,2,4···).通過這種方式得到2個不同尺度的特征圖X1與X2.
壓縮操作:為使模塊具有拆解功能,需要匯總所有分支中的特征信息生成全局信息,使用全局信息來指導對各路徑中特征的加強操作.具體過程如下:首先,通過逐元素相加操作F 3融合各分支的結(jié)果得到特征X3.
其次,通過全局平均池化操作生成各分支的信道級統(tǒng)計數(shù)據(jù)作為各分支的全局信息X1→Xavg1∈R1×1×C、X2→Xavg2∈R1×1×C、X3→Xavg3∈R1×1×C.Xavg中第C個元素的計算方法是通過計算Xavg中第C個通道上所有W×H個值的平均值得到的:
將得到的特征Xavg1、Xavg2和Xavg3在W維度上進行合并得到特征Favg,并用卷積核大小為(3×1)的卷積對其處理得到特征S:
式中:Conv表示卷積核為(k×1)大小的卷積操作,k為分支個數(shù),Cont表示在W維度上進行合并操作.
最后,通過使用Z∈R1×1×L特征來更精確地指導模塊進行選擇性強化.計算方法如下:
式中:δ是ReLU操作,β是BatchNorm操作,f c表示全連接操作.模塊對于維度縮放比例進行了控制,L表示輸出通道數(shù),由以下方法計算得到:
式中:C表示輸入的通道數(shù),k表示分支個數(shù),d默認為32.
選擇分散:在全局特征Z的引導下,通過一個跨通道的軟注意力來選擇性地強化不同路徑中的特征.具體方法為:Z特征通過全連接操作得到描述各分支特征的注意力圖A,B∈R1×1×C,并對得到的每個注意力圖在通道方向上使用了Softmax運算.
式中:f c表示全連接操作,a與b為經(jīng)過Sof tmax運算的分別描述F 1與F2的注意力特征圖.Ac與Bc表示的是在通道方向上A特征的第c個數(shù)值和在通道方向上B特征的第c個數(shù)值,在雙分支的情況下ac+bc=1.特征圖Fout1與Fout2是F 1與F2通過和各自的注意力特征圖a與b逐元素相乘得到的:
式中:Fout1=[Fout11,···,Fout1C],F(xiàn)out2=[Fout21,···,Fout2C],{Fout1c,Fout2c}∈RW×H,“×”表示逐元素相乘.
1.2.2 動態(tài)卷積-集束模式(SC_AM)
集束模式主要用來調(diào)整卷積模塊的感受野大小,其中多路分裂、壓縮操作與SC_BM類似.通過多路分裂獲取具有不同頻射大小的特征圖,再通過壓縮操作獲取關(guān)于所有分支的全局信息,最后通過選擇聚合將不同分支中的特征圖非線性地聚合在一起.由于多路分裂與壓縮操作與SC_BM相同,這里只介紹選擇聚合操作,如圖3所示.
圖3 動態(tài)卷積-集束模式
選擇聚合:由Z特征通過全連接操作得到描述各分支的注意力圖A,B∈R1×1×C.在多分支的情況下,多路獲取的特征之間存在冗余,通過跨通道的軟注意力來適應性地選擇不同分支中的信息進行融合.對得到的每個注意力圖在通道方向上使用了Sof tmax運算.
式中:f c為全連接操作,a與b為經(jīng)過Softmax運算的分別描述F 1與F 2的注意力特征圖.Ac與Bc表示的是在通道方向上A特征的第c個數(shù)值和在通道方向上B特征的第c個數(shù)值,在雙分支的情況下ac+bc=1.特征圖Fout1與Fout2是F1與F 2通過和各自的注意力特征圖a與b逐元素相乘得到的,最后將Fout1與Fout2逐元素相加得到Fout:
式中:Fout=[Fout1,Fout2,···,Foutc],F(xiàn)outc∈RW×H,“+”表示逐元素相加.
醫(yī)學圖像數(shù)據(jù)中病變區(qū)域的尺寸可能存在極大的變化,因為數(shù)據(jù)的多樣性,選擇一個固定的卷積內(nèi)核變來處理數(shù)據(jù)是不合適的.因此,本文選擇IVD-Net[7]中擴展的卷積模塊來獲取全局信息與局部信息.通過在這種擴展的卷積模塊之后串聯(lián)所設(shè)計的動態(tài)卷積模塊來實現(xiàn)自適應動態(tài)卷積模塊.
1.3.1 自適應動態(tài)卷積-發(fā)散模式(DSC BM)
通過在擴展卷積模塊之后串聯(lián)SC_BM模塊以實現(xiàn)自適應動態(tài)卷積-發(fā)散模式.如圖4所示,對于任意輸入特征X∈RW×H×C,首先,經(jīng)過(3×3,dil=1)卷積操作,得到特征Conv1∈RW×H×C,3×3是指卷積核大小為3,dil=1是指卷積擴張率為1.其次,將得到的Conv1特征輸入到多個并行的擴充卷積中分別進行運算得到不同尺度的特征.卷積模塊的參數(shù)分別為(1×1,dil=1)、(3×3,dil=1)、(5×5,dil=1)、(3×3,dil=2)和(3×3,dil=4).然后將這些多尺度特征在通道方向進行合并得到Conv3∈RW×H×5C,并使用(1×1,dil=1)卷積對Conv3的通道進行壓縮得到Conv4∈RW×H×C.將Conv4輸入到SC_BM模塊中得到分別描述不同尺度的信息特征Conv51,Conv52,Conv53∈RW×H×C.為了緩解因網(wǎng)絡過深導致梯度消失的問題,在每個路徑上都進行殘差連接.將特征Conv1分別與每個路徑中的特征Conv51,Conv52與Conv53逐元素相加得到Conv61,Conv62,Conv63∈RW×H×C.最后,將這些特征分別送到卷積(3×3,dil=1)中運算,得到各路徑的輸出特征Conv71,Conv72,Conv73∈RW×H×C.值得注意的是,在整個模塊內(nèi)部,除了合并操作使特征Conv3的通道數(shù)達到輸入特征通道數(shù)的5倍,其余運算所得到的特征尺寸都與輸入特征X∈RW×H×C的尺寸相同.各運算過程公式如下:
圖4 自適應動態(tài)卷積-發(fā)散模式
式中:conv(N×N,dil=k)表示卷積操作,N表示卷積核大小,k表示擴張率,SC_BM表示動態(tài)卷積 發(fā)散模塊,“+”表示逐元素相加.
1.3.2 自適應動態(tài)卷積-集束模式(DSC_AM)
通過在擴展卷積模塊之后串聯(lián)SC_AM模塊以實現(xiàn)自適應動態(tài)卷積-集束模式,如圖5所示.首先,通過與DSC_BM相同的方式獲得特征Conv4,與之前不同的是使用SCAM來對Conv4進行處理,得到輸出Conv5∈RW×H×C.然后,在此通道上使用殘差結(jié)構(gòu)得到Conv6∈RW×H×C,再經(jīng)過卷積(3×3,dil=1),得到最終輸出Conv7∈RW×H×C.
圖5 自適應動態(tài)卷積-集束模式
式中:SC_AM表示動態(tài)卷積集束模塊.
多尺度特征融合技術(shù)在語義分割領(lǐng)域運用十分頻繁,因為不同尺度的特征對于不同尺寸的目標具有不同的敏感程度.具有大感受野的特征對于尺寸規(guī)模大的目標識別度更好,小感受野的特征對于小尺寸目標處理更精準[8?9].網(wǎng)絡中處于不同深度的特征其抽象語義信息也是不同的,淺層特征注重提取紋理、顏色等細節(jié)信息,深層特征注重提取高級的語義信息[10].因此,充分利用不同深度的特征并將它們進一步融合處理,對于提高網(wǎng)絡性能是十分必要的.本文設(shè)計了一種多通道并行網(wǎng)絡架構(gòu),將傳統(tǒng)的單通道特征提取過程擴展到多通道中進行.由于通道固有的深度與復雜的結(jié)構(gòu),可以很好地完成特征提取任務.通過使用DSC_BM模塊將輸入特征當中不同尺度的特征進行分流,從而減輕單一通道處理多尺度特征的壓力,再將不同尺度的特征輸入到相應的通道中進行處理,這樣復雜的多尺度特征處理問題就轉(zhuǎn)移到通道中進行解決.由于每個通道都只對同一種尺度的特征進行表示學習,通道的專一性與任務相關(guān)性就得到提升,從而會獲得更加優(yōu)秀的特征表達.最后將這些多尺度特征從各個通道中獲取,在解碼階段與上采樣特征融合以獲取更準確的分割掩碼.
1.4.1 網(wǎng)絡編碼階段
如圖6所示,網(wǎng)絡編碼部分劃分為5個階段.本文使用通道1來舉例說明各階段內(nèi)模塊的輸入輸出格式以及網(wǎng)絡內(nèi)部的連接方式.其余通道的輸入輸出格式以及內(nèi)部連接方式與通道1類似.
圖6 多通道并行架構(gòu)
Stage1:輸入為原始圖片,使用Input表示.其中黃綠藍表示三個不同尺度的通道.在通道1中輸入Input經(jīng)過DSC_BM模塊得到3種不同尺度的特征,使用F 3、F 5和F 7表示,不同顏色代表所屬不同模塊.在階段末尾收集在第一階段內(nèi)產(chǎn)生的3個F 3尺度的特征并用逐元素相加的方式進行組合.將組合后的特征使用最大池化(MP)操作進行處理作為本階段通道1的輸出.第一階段內(nèi)的各通道輸出通用公式如下:
式中:Stage1-Out1th表示第一階段通道1的輸出,MP表示最大池化操作,F(xiàn) 3[N]表示來自通道N的F 3特征,N與通道數(shù)相同.值得注意的是,網(wǎng)絡的通道數(shù)是由DSC BM模塊分支數(shù)決定的,如果要構(gòu)建多通道網(wǎng)絡,就要使用對應分支數(shù)的DSC BM模塊進行構(gòu)建.
Stage2:通道1的輸入為Stage1-Out1th,經(jīng)過DSCBM模塊后得到3個不同尺度的特征F 3、F5和F7.與上一階段相似,收集本階段內(nèi)部所有的F 3特征進行逐元素相加.將相加后的特征與Stage1-Out1th在通道方向上進行合并,并將合并后的特征使用最大池化操作進行處理作為本階段通道1的輸出.第二階段內(nèi)的各通道輸出通用公式如下:
式中:Cont表示在通道方向上進行合并.
Stage3:通道1的輸入為Stage2-Out1th,與之前處理類似,Stage2-Out1th經(jīng)過DSCBM模塊后得到3個不同尺度的特征F3、F 5和F 7,收集相同尺度特征并進行逐元素相加,將相加后的特征與Stage2Out1th在通道方向上進行合并,最后將合并后的特征使用最大池化操作進行處理作為本階段通道1的輸出.第三階段的各通道輸出通用公式如下:
Stage4:通道1的輸入為Stage3Out1th,本階段主要將各通道獲得的多尺度特征進行融合,故使用DSCAM對輸入特征進行處理.將融合后的各多尺度特征T 1、T 2和T 3逐元素相加,并與上階段各通道的輸出特征在通道方向上進行合并,最后將合并后的特征使用最大池化操作進行處理作為本階段的輸出.第四階段的輸出通用公式如下:
Stage5:將Stage4Out輸入到DSCAM模塊中進行處理得到各尺度融合特征,并將其上采樣作為本階段的輸出特征F 5.
1.4.2 網(wǎng)絡解碼階段
解碼階段主要將編碼階段產(chǎn)生的各尺度特征進行收集,并通過逐層解碼獲得最終的分割掩碼.本節(jié)以Stage6為例,舉例說明第六階段內(nèi)的輸入輸出格式,其余階段輸入輸出格式與Stage6類似.在Stage6中首先獲取與解碼階段對應深度的編碼階段Stage4中各DSC AM模塊輸出特征F 4 3、F 4 5和F 47,然后將其逐元素相加后與Stage5階段的輸出F5在通道方向上進行合并,并將合并后的結(jié)果使用DSCAM模塊處理,最后將處理后的特征進行上采樣作為本階段的輸出.輸入輸出公式為:
式中:DSC AM表示DSCAM處理模塊,UP為上采樣操作.特別注意的是,由于在Stage7、Stage8和Stage9中,與之對應的編碼階段的處理模塊為DSCBM,所以在獲取多尺度特征時,需要先將DSCBM模塊中各分支所有的輸出特征進行相加作為本模塊的輸出特征,再將各通道特征進行融合.
本文在ISIC2017數(shù)據(jù)集上進行了實驗[11],并對所提方法進行評估.通過與目前先進的網(wǎng)絡模型進行比較,實驗結(jié)果表明:MCPU-Net在ISIC2017數(shù)據(jù)集上具有更好的分割結(jié)果.在接下來的章節(jié)中,將首先對數(shù)據(jù)集和評估指標進行介紹.然后通過一系列的消融實驗,驗證所提出的動態(tài)卷積模塊、多通道并行架構(gòu)的有效性.最后與一些先進的網(wǎng)絡模型進行比較,驗證所提模型的有效性.
本文使用ISIC2017挑戰(zhàn)數(shù)據(jù)集對模型進行訓練和測試.該數(shù)據(jù)集取自2017年舉辦的Kaggle皮膚損傷分割競賽.該數(shù)據(jù)集共由2 750張圖像組成.包括2 000張訓練圖像、150張驗證圖像和600張測試圖像.ISIC2017數(shù)據(jù)集中的所有皮膚鏡圖像已被皮膚科醫(yī)生分類為良性痣、脂溢性角化病或黑色素瘤.此外,ISIC2017數(shù)據(jù)集提供了原始皮膚鏡圖像及其真實二值掩模,這些圖像均由皮膚科醫(yī)生手動標注.數(shù)據(jù)集中圖像分辨率范圍從540×722到4 499×6 748像素不等.由于醫(yī)學皮膚鏡圖像的大小變化,大多數(shù)ISIC2017數(shù)據(jù)集的長寬比為3︰4.為了評估所提出的方法的性能,采用了ISIC推薦的幾個指標,即準確性(Acc)、敏感性(SE)、特異性(SP)、Jaccard指數(shù)(JI)和骰子系數(shù)(Dice).它們的計算公式分別為:
式中:TP和FP分別代表真陽性和假陽性;TN和FN分別代表真陰性和假陰性.
本文通過PyTorch(深度學習框架)框架搭建所提模型,通過在NVIDIA Tesla V100 GPU上進行訓練來實現(xiàn)所設(shè)計的方法.實驗數(shù)據(jù)統(tǒng)一縮放至224×224大小,優(yōu)化器選擇Adam,學習率設(shè)置為2×10?4.同時,將批處理大小設(shè)置為5,并在網(wǎng)絡末端采用多損失函數(shù)融合的方法(IoU loss+交叉熵混合損失函數(shù)).在被監(jiān)測的指標沒有進一步的顯著變化之前(至少50個epoch),保存訓練的最佳參數(shù),并預測測試數(shù)據(jù).最后,以0.5的閾值對所有預測結(jié)果進行閾值化.
2.3.1 自適應動態(tài)卷積模塊消融實驗
為了驗證自適應動態(tài)卷積模塊的有效性,通過構(gòu)建具有不同通道數(shù)的MCPU-Net進行消融實驗.由于MCPUNet中通道個數(shù)由DSC BM模塊的分支數(shù)決定,所以在編碼階段使用DSC BM-2、DSC BM-3與DSCBM-4分別來構(gòu)建2通道MCPU-Net-2網(wǎng)絡、3通道MCPU-Net-3網(wǎng)絡和4通道MCPU-Net-4網(wǎng)絡的編碼部分.在解碼階段由于使用DSCAM模塊來融合多尺度特征,而DSCAM模塊內(nèi)部具有多分支結(jié)構(gòu),故也對其分支數(shù)進行了消融.使用DSCAM-1、DSC AM-2與DSC AM-3分別表示1分支DSC AM、2分支DSC AM和3分支DSCAM.將具有不同分支數(shù)的DSCBM與DSCAM模塊進行組合構(gòu)建具有不同通道數(shù)的MCPU-Net,并在ISIC2017數(shù)據(jù)集上進行實驗,結(jié)果如表1所示.
表1 通道數(shù)與分支數(shù)消融對比
如表1所示,選擇不同分支數(shù)的自適應動態(tài)卷積模塊來構(gòu)建網(wǎng)絡,所獲得的網(wǎng)絡性能差異是明顯的.通過增加自適應動態(tài)卷積模塊的分支數(shù),模型的性能呈上升趨勢,并在使用DSC BM-3與DSCAM-3組合時JI指標達到最大.
固定DSCBM分支數(shù)時,DSC AM不同分支數(shù)對模型性能有不同程度的影響.如表1所示,DSCBM分支數(shù)固定的情況下,與DSCAM-1分支比較,隨著分支數(shù)的增加,模型的JI指標分別增加0.005與0.008(DSC BM-2)、0.005與0.009(DSC BM-3)、0.003與0.008(DSC BM-4).這說明增加DSCAM模塊的分支數(shù),模型區(qū)分病變區(qū)域與正常皮膚的準確度得到提升.在DSCAM模塊內(nèi)部通過融合更大尺度的特征,使網(wǎng)絡在空間維度上注意到跨度更大的像素點之間的聯(lián)系,從而更好地區(qū)分病變與非病變區(qū)域.同時,對具有不同分支結(jié)構(gòu)的MCPU-Net分割結(jié)果進行了可視化表示,以便直觀地表現(xiàn)不同分支結(jié)構(gòu)的組合對分割結(jié)果產(chǎn)生的影響.如圖7所示,Image表示原始皮膚鏡圖片,GT表示對應分割標簽,N-n表示使用DSC BM-N與DSCAM-n的組合所構(gòu)建的MCPU-Net網(wǎng)絡.如圖7第3行3-1、3-2和3-3所示,隨著DSCAM分支數(shù)的增加,模型對病變區(qū)域識別范圍逐步擴大.通過增加DSC AM分支數(shù),模型對病變區(qū)域的識別準確性得到提高,識別范圍擴大.
固定DSC AM分支數(shù)時,隨著DSCBM分支數(shù)的增加,模型的性能也在逐步上升,并在分支數(shù)為3時達到最大.在DSCAM分支數(shù)為3的情況下,使用DSC BM-3比DSC BM-2的模型JI指標增加0.007.在DSCAM分支數(shù)為2的情況下,使用DSCBM-3比DSC BM-2的模型JI指標增加0.006.在DSCAM分支數(shù)為1的情況下,使用DSCBM-3比DSC BM-2的模型JI指標增加0.006.這說明增加DSCBM模塊的分支數(shù),網(wǎng)絡中不同尺度特征的數(shù)量增加,模型區(qū)分正負樣本的準確性得到提升,這對于具有挑戰(zhàn)性的數(shù)據(jù)集來說是必要的.如圖7第1行2-1與3-1所示,增加DSCBM模塊的分支數(shù),模型在恢復分割邊界時,將正常皮膚與病變區(qū)域難以區(qū)分的邊界進行準確恢復.這是由于模型通道數(shù)不同,在解碼階段所融合的淺層特征的數(shù)量也是不同的.3-1通過融合更多的淺層細節(jié)信息,在恢復邊界信息時比2-1更加準確.通過實驗證明,本文設(shè)計的自適應動態(tài)卷積模塊對網(wǎng)絡性能的提升是有效的.
圖7 消融模型實驗結(jié)果
值得注意的是,自適應動態(tài)卷積模塊的分支數(shù)并不是越多越好.將DSC BM模塊的分支數(shù)擴展到4時,模型性能出現(xiàn)大幅下降,這可能是淺層信息中所包含的噪音導致的.模型通道數(shù)的增加導致在解碼階段引入更多的噪音,從而影響最終的分割結(jié)果.
2.3.2 網(wǎng)絡架構(gòu)消融實驗與DSCAM對比實驗
在多模態(tài)領(lǐng)域,多數(shù)網(wǎng)絡同樣使用具有多通道架構(gòu)的網(wǎng)絡來處理圖像.例如HyperDense-Net[12]通過改變各通道輸出數(shù)據(jù)順序的方式來構(gòu)建多通道網(wǎng)絡,其方法如圖8所示.為了將所提多通道網(wǎng)絡架構(gòu)與傳統(tǒng)多通道網(wǎng)絡架構(gòu)進行比較,將使用HyperDense-Net的方式構(gòu)建的網(wǎng)絡與使用本文所設(shè)計的DSC BM模塊構(gòu)建的網(wǎng)絡進行比較.由于使用DSC BM模塊搭建網(wǎng)絡會使網(wǎng)絡中參數(shù)量增加,從而影響對比結(jié)果.為了降低干擾,本文使用HyperDense-Net的方式構(gòu)建網(wǎng)絡時,在編碼階段將DSC BM模塊全部替換為DSCAM模塊,所構(gòu)建的網(wǎng)絡記為HyNet,并將MCPU-Net網(wǎng)絡中解碼階段的DSCAM模塊全部去除,記為MCP-AM.實驗結(jié)果表明:本文所提出的網(wǎng)絡架構(gòu)優(yōu)于傳統(tǒng)多通道網(wǎng)絡架構(gòu).如表2所示,MCP-AM與HyNet相比,JI指標提高0.003,Acc指標提高0.002.為了進一步對網(wǎng)絡架構(gòu)進行對比,還將HyNet在解碼階段也插入DSC AM模塊記為HyNet+AM,與MCPU-Net相比除了在編碼階段MCPU-Net使用DSC BM構(gòu)建網(wǎng)絡,HyNet+AM使用HyperDense-Net的方式構(gòu)建網(wǎng)絡之外,其余網(wǎng)絡部分完全相同.由表2可知,MCPU-Net與HyNet+AM相比,JI指標提高0.005,Dice指標提高0.004,SE指標提高0.012.同時實驗結(jié)果也證明了DSC AM模塊的有效性,MCPU-Net網(wǎng)絡去除DSCAM模塊后,JI指標下降0.011,Acc指標下降0.003.HyNet+AM在去除DSCAM模塊后,JI指標下降0.009,Acc指標下降0.006.
為了證明DSC AM模塊可以方便地插入到網(wǎng)絡中提高模型性能,將DSCAM模塊、傳統(tǒng)通道注意力模塊、傳統(tǒng)相關(guān)注意力模塊、傳統(tǒng)通道與相關(guān)注意力模塊的組合分別插入到U-Net[13]網(wǎng)絡所有的跳躍連接中,并分別記為U-Net+AM、U-Net+C、U-Net+R和U-Net+C+R進行比較,傳統(tǒng)注意力模塊結(jié)構(gòu)如圖8所示.結(jié)果如表2所示,所提出的DSCAM模塊對于U-Net網(wǎng)絡性能的提升是巨大的,U-Net網(wǎng)絡在插入DSCAM模塊后,JI指標提升0.020,Acc指標提升0.009,Dice指標提升0.015.與傳統(tǒng)的注意力模塊相比,U-Net網(wǎng)絡插入DSCAM模塊比插入傳統(tǒng)的通道注意力模塊在JI指標上提高0.005、Acc指標上提高0.006、Dice指標上提高0.003;插入DSC AM模塊比插入傳統(tǒng)相關(guān)注意力模塊在JI指標上提高0.009、Acc指標上提高0.005、Dice指標上提高0.005;插入DSC AM模塊比插入傳統(tǒng)注意力模塊與相關(guān)注意力模塊的組合在JI指標上提高0.001、Dice指標上提高0.002.上述實驗充分證明了本文所提出的網(wǎng)絡架構(gòu)與DSC AM模塊的有效性.
表2 分支結(jié)構(gòu)消融與DSC AM模塊消融結(jié)果
圖8 HyperDense-Net連接方式與傳統(tǒng)注意力模塊
2.3.3 不同分割模型對比實驗
將MCPU-Net與現(xiàn)有的一些分割方法進行了比較,結(jié)果如表3所示.所評估的模型包括CENet[3]、DANet[14]、Deeplabv3+[9]、DoubleU-net[15]、HRNet[16]、Unet++[5]、PSPNet[17]、R2Unet[4]、ResUNet[4]、SCSEUNet[18]、Seg Net[19]和IVD-Net[7],所有的對比網(wǎng)絡均參考了原論文的配置進行實現(xiàn).此外,由于IVD-Net是多模態(tài)模型,在實驗中為使模型能夠訓練,將各模態(tài)數(shù)據(jù)替換為多個相同的輸入圖片進行訓練.
表3 與一些分割模型比較結(jié)果
如表3所示,以往的模型對于復雜度高和具有挑戰(zhàn)性的數(shù)據(jù)集,如ISIC2017數(shù)據(jù)集并沒有得到很好的分割效果.這些模型中CENet的JI指標達到0.760、Acc指標達到0.934,這是由于CENet使用了優(yōu)秀的上下文提取模塊,并且使用大量的跳躍連接為網(wǎng)絡提供豐富淺層細節(jié)信息,這也證明了融合淺層信息的重要性.DANet通過使用雙通道并行注意力模塊跨空間建模像素之間的聯(lián)系,有效解決局部感受野的問題,其JI指標達到0.761.R2Unet使用循環(huán)卷積模塊作為基本的處理模塊,并使用U-Net架構(gòu)構(gòu)建網(wǎng)絡,其JI指標達到0.760.相比之下,MCPUNet不僅使用并行的多通道編碼器為網(wǎng)絡提供充足的淺層特征,而且使用DSC AM模塊更好地融合這些特征,使所提模型在復雜和具有挑戰(zhàn)性的ISIC2017數(shù)據(jù)集中取得最好的結(jié)果.
為了更好地展現(xiàn)網(wǎng)絡的分割效果,本文將各網(wǎng)絡的輸出結(jié)果進行了可視化表示,如圖9所示.Image為輸入皮膚鏡圖像,GroundTruth為對應分割標簽,其余列為不同模型分割結(jié)果.在這些分割模型中,CENet的分割結(jié)果與MCPU-Net十分相似,但是對病變區(qū)域的邊界及中等大小目標的處理不如MCPU-Net,這可能與MCPUNet中引入更大感受野的卷積結(jié)構(gòu)有關(guān).在小目標處理上,DANet容易將與膚色相近的像素誤認為病變區(qū)域(如圖9第5行第5列),這可能是由于淺層信息不足,導致網(wǎng)絡未能準確地對病變區(qū)域邊界的陰性與陽性進行區(qū)分.在R2UNet模型中,由于自定義的高效處理模塊,在正負樣本差異大時表現(xiàn)良好,但在病變區(qū)域與正常皮膚區(qū)分度小的區(qū)域,病變區(qū)域的邊界處理模糊.
圖9 不同分割模型的分割結(jié)果
為了進一步對網(wǎng)絡中各通道輸出特征進行分析,將MCPU-Net編碼部分中步驟2與步驟3的各分支輸出特征進行了可視化表示,如圖10所示.顏色亮度高代表激活數(shù)值大,顏色亮度低代表激活數(shù)值小.其中:第1列表示輸入與預測結(jié)果,第2~4列為第一通道中DSC BM各分支輸出特征,第5~7列為第二通道中DSCBM各分支輸出特征,第8~10列為第三通道中DSCBM各分支輸出特征.
圖10 特征圖可視化結(jié)果
如圖10所示,對比第1行中各通道輸出特征圖發(fā)現(xiàn),第一通道各分支主要關(guān)注與任務相關(guān)的紋理信息,而第二、第三通道各分支主要對病變區(qū)域的邊界信息感興趣.對比第3行中各通道輸出特征圖發(fā)現(xiàn),第一通道各分支主要關(guān)注全局紋理信息,而第二、第三通道各分支主要關(guān)注病變區(qū)域的紋理信息.這證明了多通道并行架構(gòu)中,不同通道對于處理任務具有不同的關(guān)注點.并且在同一個通道中,不同分支所關(guān)注的特征也是有差異的.在第1行通道一中,第一分支由于具有小感受野,對于全局紋理有較高的響應度;第二分支具有中等感受野,對圖中偏左部分響應度高;第三分支具有大感受野,對圖中偏右部分響應度高.同樣的情形,在第3行通道一中也有體現(xiàn).由于不同分支具有不同的響應區(qū)域,故各分支所提取的特征存在差異,這些具有差異的特征信息,確實可以增加網(wǎng)絡中特征信息的種類與數(shù)量.
提出了一種多通道并行的網(wǎng)絡架構(gòu)用于皮膚癌病變區(qū)域分割,它可以增加網(wǎng)絡當中特征信息的總量.具體來講,本文設(shè)計了DSC BM模塊用來構(gòu)建多通道并行網(wǎng)絡,多通道網(wǎng)絡可以增加網(wǎng)絡中特征信息的總量,為解碼階段提供大量優(yōu)質(zhì)的淺層特征,在解碼階段使用DSC AM模塊融合獲取的淺層特征,從而獲取更加精準的分割結(jié)果.同時通過大量實驗證明,使用DSC BM模塊構(gòu)建網(wǎng)絡的方法與DSC AM模塊的有效性.所提出的DSC AM模塊可以有效地嵌入到各種端到端網(wǎng)絡中以提升網(wǎng)絡總體性能.