馮翔,康文清,吳瀚,王風(fēng)云,王星皓,季超
(1.濰坊醫(yī)學(xué)院生命科學(xué)與技術(shù)學(xué)院,濰坊 261000;2.濰坊市益都中心醫(yī)院,濰坊 262500)
新冠肺炎(COVID-19)主要依靠檢測試劑、影像診斷等方式篩查。肺炎影像篩查需經(jīng)驗豐富的放射科醫(yī)生、臨床醫(yī)生等逐級閱讀、診斷、分析,尤其在疑似病例大量激增的情況下,難以短時間內(nèi)處理。同時,長時間閱片、分析也在一定程度上加重醫(yī)生身心負(fù)擔(dān),易造成漏診、誤診。
近年來,以深度學(xué)習(xí)為代表的人工智能技術(shù)在醫(yī)學(xué)圖像分析領(lǐng)域飛速發(fā)展,其可減輕醫(yī)生的工作量,避免主觀因素影響,提高診斷準(zhǔn)確率。Shen等[1]提出一種多尺度融合的卷積網(wǎng)絡(luò),融合不同尺度感受野特征來增強(qiáng)網(wǎng)絡(luò)特征提取能力,識別率達(dá)到86.8%;張弛名等[2]引入遷移學(xué)習(xí)方法實現(xiàn)肺結(jié)節(jié)的輔助診斷,準(zhǔn)確率達(dá)91.44%;張物華等[3]利用多模型融合策略來診斷肺炎X光圖像,準(zhǔn)確率為89.08%;吳柯薇等[4]基于深度殘差網(wǎng)絡(luò)對冠狀動脈CT血管造影圖像斑塊進(jìn)行識別,取得86.82%的準(zhǔn)確度。實際應(yīng)用中,由于CT、X光片等影像數(shù)據(jù)相對匱乏且難以獲取,上述深度模型往往面臨訓(xùn)練難、易過擬合等問題。醫(yī)學(xué)圖像分類中涉及更多的是細(xì)粒度圖像分類,其難點在于圖像所屬的類別粒度更加精細(xì)。常規(guī)醫(yī)學(xué)圖像中病變組織與正常組織間往往僅在紋理、邊緣等細(xì)微處存在差異,肉眼識別存在諸多非客觀因素,尤其對經(jīng)驗不足的醫(yī)師來說,疫情背景下對醫(yī)學(xué)圖像的診斷面臨巨大心理挑戰(zhàn)。
針對該問題,本研究構(gòu)建了一種新的基于跨層連接機(jī)制的多主干網(wǎng)絡(luò)特征融合卷積模型,利用多尺度感受野融合思想來捕獲醫(yī)學(xué)圖像局部細(xì)節(jié),實現(xiàn)COVID-19醫(yī)學(xué)影像的篩查,提高診斷準(zhǔn)確率。仿真中引入COVID-19的X光數(shù)據(jù)集及CT數(shù)據(jù)集來驗證所提算法及模型的性能;實驗表明所提方法能夠提升影像診斷的準(zhǔn)確率。
傳統(tǒng)圖像特征提取往往采用人工干預(yù)的方式,如Sobel、Robert等算子提取邊緣特征,LBP算子提取紋理特征等思路[5-6]。該方式通常針對某一屬性特征,難以兼顧像素點及區(qū)域特征的多模態(tài)性,無法表征圖像整體特性。而基于卷積神經(jīng)網(wǎng)絡(luò)的圖像特征提取技術(shù)能夠自主分析像素聯(lián)系,無需顧慮圖像背景或亮度的變化,體現(xiàn)了自適應(yīng)性。
傳統(tǒng)卷積網(wǎng)絡(luò)模型中因網(wǎng)絡(luò)層間缺乏跨層式信息互通,經(jīng)多層卷積、池化后信息損失也越來越多,尤其是醫(yī)學(xué)影像中的細(xì)小紋理特征易被忽略,影響診斷。本研究借鑒UNet模型[7],在第3層卷積層后進(jìn)行反卷積(Deconv)操作,并將反卷積特征與第2層的卷積特征相融合,得到跨層連接的融合特征。對于醫(yī)學(xué)圖像的分類,涉及較多的是細(xì)粒度分類,反卷積通過將各像素點分離,可更好地提取病變部位的細(xì)節(jié)信息。最后通過Concat操作將大、小尺度特征信息融合,即使較淺層次網(wǎng)絡(luò)也能達(dá)到較好的分類效果??鐚舆B接模型見圖1。
圖1 跨層連接模型示意圖Fig.1 Schematic diagram of cross-layer connection model
現(xiàn)有卷積網(wǎng)絡(luò)模型采用主干網(wǎng)絡(luò)來提取深層特征,其分類器性能在很大程度上取決于主干網(wǎng)絡(luò)所提取的特征;故通常做法是增加卷積層數(shù)目,如ResNet、DenseNet等可訓(xùn)練至上千層[8-9]。但醫(yī)學(xué)圖像中數(shù)據(jù)維度相對較少,過度增加卷積層易導(dǎo)致過擬合現(xiàn)象。由文獻(xiàn)[10]知,擴(kuò)增主干網(wǎng)絡(luò)并行處理性能可提高分類器的準(zhǔn)確率。在此,基于跨層連接機(jī)制,引入一種多主干網(wǎng)絡(luò)并行組合的特征融合分類模型,見圖2。
圖2 基于跨層連接多主干網(wǎng)絡(luò)組合的特征融合模型
圖2中采用雙主干網(wǎng)絡(luò),兩個網(wǎng)絡(luò)結(jié)構(gòu)完全相同,將主干網(wǎng)絡(luò)1的特征圖與網(wǎng)絡(luò)2的對應(yīng)特征圖疊加之后繼續(xù)傳遞給網(wǎng)絡(luò)2,同時將部分深層、淺層特征一起傳遞給全連接層。若將每一層特征圖都進(jìn)行融合,將導(dǎo)致計算量暴增。因此,為降低計算量,僅對第3、4、5層的池化層特征融合,同時將第3、5層的池化特征一起傳遞給全連接層,深層、淺層的語義信息互通交流,增強(qiáng)了模型的抽象能力。
肺炎患者影像早期主要是多發(fā)的小斑片狀影及間質(zhì)性改變,多以肺外側(cè)帶為主,進(jìn)而發(fā)展成兩肺多發(fā)的磨玻璃狀影以及浸潤影[11];由文獻(xiàn)[12]知,新型冠狀病毒肺炎影像與正常肺部影像的典型區(qū)別在于其紋理特征;該特征作為一種全局信息,可用卷積神經(jīng)網(wǎng)絡(luò)來深度分析。本研究所用數(shù)據(jù)集來源分為兩部分,見圖3,其中COVID-19為新型冠狀病毒檢測成陽性患者的影像[13],Normal為新型冠狀病毒檢測成陰性患者的影像[14]。原始圖像尺寸大小不一,首先對數(shù)據(jù)集進(jìn)行歸一化,并調(diào)整其尺寸為244×244。
圖3 數(shù)據(jù)集示例Fig.3 The data set sample
另考慮到醫(yī)學(xué)影像成像過程中的機(jī)器噪聲、組織、脂肪覆蓋、臟器重疊導(dǎo)致各類的噪聲,以及灰度對比不突出等問題,都可能嚴(yán)重影響后續(xù)分類器性能,本研究先采取自適應(yīng)直方圖均衡、高斯濾波等思路對醫(yī)學(xué)圖像進(jìn)行預(yù)處理,然后再構(gòu)建卷積網(wǎng)絡(luò)進(jìn)行訓(xùn)練識別。
本研究將圖像劃分成幾個區(qū)域分別對其進(jìn)行直方圖均衡化操作,然后再利用線性插值法來減弱各個區(qū)域邊界處的區(qū)塊效應(yīng),優(yōu)化均衡化的效果,保留醫(yī)學(xué)圖像中更多的細(xì)節(jié)信息,見圖4。
(a)原始圖像 (b)直方圖均衡化 (c)自適應(yīng)直方圖均衡化圖4 圖像處理比較示意圖Fig.4 Comparison of image processing
高斯濾波過程主要是對輸入圖像計算加權(quán)平均,濾波后圖像像素值均為原像素值和掩膜內(nèi)的像素值加權(quán)平均所得,濾波后的圖像更加平滑柔和,有效避免了振鈴效應(yīng);同時,濾波后每一像素點的權(quán)值隨著到中心點的距離單調(diào)變化,靠近中心的像素值的權(quán)重也更高,可更好地保留圖像的邊緣信息,且平滑程度隨高斯方差參數(shù)的變化而變化,通過調(diào)節(jié)參數(shù)可在圖像特征過分模糊、過多突變量間取折中,見圖5。
圖5 高斯濾波前后圖像比較
本研究在CAFFE深度學(xué)習(xí)環(huán)境進(jìn)行,使用NVidia GTX 1050ti 4GB進(jìn)行GPU加速,最大迭代次數(shù)(iteration)設(shè)置為3000次,基礎(chǔ)學(xué)習(xí)率(base_lr)為0.001,學(xué)習(xí)率(lr)下降策略為inv,Gamma(γ)為0.0001,power為0.75,學(xué)習(xí)率下降公式如下:
lr=base_lr·(γ·Iteration+1)-power
(1)
首先,比較LeNet模型、跨層連接模型、多主干網(wǎng)絡(luò)以及嵌入跨層連接機(jī)制的多主干特征融合網(wǎng)絡(luò)模型對新冠肺炎影像的識別準(zhǔn)確率隨訓(xùn)練迭代次數(shù)變化,見圖6。
圖6 不同模型識別準(zhǔn)確率Fig.6 The recognition accuracy of different models
由圖6可看出,3 000次迭代下4種模型中LeNet識別準(zhǔn)確率最低,僅為92.7%;而其他3種模型趨于95%左右,可見跨層連接模型、多主干網(wǎng)絡(luò)以及嵌入跨層機(jī)制的多主干特征融合模型對于肺部特征的抽取能力更好。對比這幾種模型發(fā)現(xiàn),跨層連接的多主干網(wǎng)絡(luò)特征融合模型在較少的迭代次數(shù)下達(dá)到更高的準(zhǔn)確率,迭代次數(shù)1 000次左右時,就已達(dá)到了95%以上的識別準(zhǔn)確率,而單純的多主干網(wǎng)絡(luò)、跨層連接模型的識別準(zhǔn)確率僅為90%左右,表明前者對于深層和淺層的語義信息利用更加豐富,是一種抽象能力更強(qiáng)的模型。
其次,對于所提模型設(shè)置不同的全連接神經(jīng)元個數(shù)以及不同的基礎(chǔ)學(xué)習(xí)率進(jìn)行訓(xùn)練,可觀察到相關(guān)參數(shù)對模型性能影響,見圖7—圖9。
圖7 不同全連接層神經(jīng)元個數(shù)對準(zhǔn)確率的影響Fig.7 The impact of neurons number in FC layers on the accuracy
圖8 不同基礎(chǔ)學(xué)習(xí)率對準(zhǔn)確率的影響Fig.8 The impact of different basic learning rates on the accuracy
圖9 不同基礎(chǔ)學(xué)習(xí)率對損失函數(shù)的影響Fig.9 The impact of different basic learning rates on the loss function
圖7中觀察不同全連接層神經(jīng)元個數(shù)對模型準(zhǔn)確率的影響可發(fā)現(xiàn),當(dāng)神經(jīng)元個數(shù)較少時,在訓(xùn)練開始階段(500迭代以內(nèi))準(zhǔn)確率相對較低;而當(dāng)神經(jīng)元個數(shù)較多時,訓(xùn)練初始階段準(zhǔn)確率略高,但在訓(xùn)練后期相較其他兩種較少神經(jīng)元個數(shù)的準(zhǔn)確率有所下降。這是因為全連接層的神經(jīng)元個數(shù)增加時,一定程度上可提高網(wǎng)絡(luò)模型對于復(fù)雜函數(shù)的擬合性能,但是過多神經(jīng)元個數(shù)也可能導(dǎo)致過擬合現(xiàn)象,因此需設(shè)置合適的全連接層神經(jīng)元個數(shù),或采用Dropout技術(shù)來抑制過擬合。
由圖8和圖9觀察不同基礎(chǔ)學(xué)習(xí)率對模型性能的影響可發(fā)現(xiàn),當(dāng)學(xué)習(xí)率過高時(lr=0.006),模型準(zhǔn)確率沒有提升,且損失函數(shù)也在震蕩,無法收斂;表明過高的學(xué)習(xí)率無法得到模型最優(yōu)解。而當(dāng)學(xué)習(xí)率過低時(lr=0.00005),模型損失函數(shù)收斂速度緩慢,訓(xùn)練時間過長,表明過低學(xué)習(xí)率難以在短時間內(nèi)收斂。因此,只有在合適范圍內(nèi)選擇相對較高的學(xué)習(xí)率,在相同迭代次數(shù)下可達(dá)到更高準(zhǔn)確率,且模型可在更短的時間內(nèi)得到全局最優(yōu)解。
將跨層機(jī)制的多主干網(wǎng)絡(luò)特征融合模型應(yīng)用于COVID-19 CT數(shù)據(jù)集,設(shè)置基礎(chǔ)學(xué)習(xí)率為 0.0005,其準(zhǔn)確率和損失函數(shù)隨迭代次數(shù)的變化,見圖10。
圖10 多主干網(wǎng)絡(luò)組合的特征融合模型在新冠肺炎CT數(shù)據(jù)集中的表現(xiàn)Fig.10 Performance of multi-backbone network feature fusion model in CT data set
由圖10可看出,該模型在COVID-19 CT數(shù)據(jù)集中也取得了較高識別準(zhǔn)確率,達(dá)到92.5%,且損失函數(shù)在6 000次訓(xùn)練迭代下明顯下降,具有較強(qiáng)的穩(wěn)健性。
綜上,本研究所提網(wǎng)絡(luò)模型利用融合思想將不同隱含層的特征融合為具有多視角層次的特征,在特征融合過程中實現(xiàn)了深淺層特征的互通交流,使得多種局部特征可優(yōu)勢互補(bǔ),消除了不同特征集間的冗余信息,通過將CNN特征進(jìn)行高階綜合,該“粗細(xì)結(jié)合”的方式可更好地把握細(xì)粒度特征。另外,本研究采取多主干策略,其分支在開始訓(xùn)練時處于隨機(jī)初始化狀態(tài),使得不同主干的同一層權(quán)重也不盡相同,模型自適應(yīng)性、穩(wěn)健性大大增強(qiáng)。
本研究構(gòu)建了一種新的基于跨層連接機(jī)制的多主干網(wǎng)絡(luò)特征融合卷積模型,利用多尺度感受野挖掘融合思想來捕獲醫(yī)學(xué)圖像局部細(xì)節(jié),仿真中引入COVID-19 X光數(shù)據(jù)集及CT數(shù)據(jù)集來驗證所提算法及模型的性能。實驗證明,本研究所提模型能夠大幅提升醫(yī)學(xué)影像診斷的準(zhǔn)確率,對于解決COVID-19疫情背景下的快速、準(zhǔn)確、高效診斷具有重大的社會意義。