程 博,薛茹惠,楊 航,祝來(lái)李,王雅麗,向 偉
(西南民族大學(xué)電子信息學(xué)院,四川 成都 610041)
在2019年發(fā)現(xiàn)的新型冠狀肺炎,被稱為“嚴(yán)重急性呼吸道綜合癥冠狀病毒”,于2020年1月被宣布為國(guó)際關(guān)注的突發(fā)公共衛(wèi)生事件.在2020年的2月份被世界衛(wèi)生組織正式命名為COVID-19[1].目前新冠肺炎的主要傳播途徑是經(jīng)飛沫傳播、接觸傳播以及不同大小的呼吸道氣溶膠近距離傳播[2].當(dāng)前疫情感染檢測(cè)方式比較單一,目前新冠肺炎發(fā)展的趨勢(shì)鼓勵(lì)我們嘗試提出一種深度網(wǎng)絡(luò)學(xué)習(xí)模型[3].
人工智能方向的先驅(qū)們通過(guò)圖像分類技術(shù)對(duì)胸部CT和X光圖像進(jìn)行分類[4-5].他們分別提出了不同的深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)對(duì)患者進(jìn)行診斷.Hemdan[6]使用深度學(xué)習(xí)模型診斷X射線圖像中的COVID-19,并提出了包含7層卷積層的COVIDX-Net模型.Wang和Wong[6]提出了一個(gè)用于COVID19檢測(cè)的深度模型(COVID-Net),該模型在對(duì)正常非COVID肺炎和COVID-19進(jìn)行分類時(shí)獲得了92.4%的準(zhǔn)確率.Ioannis[7]使用224張COVID-19圖像開(kāi)發(fā)了深度學(xué)習(xí)模型.他們的模型分別在2分類和3分類中獲得了98.75%和93.48%的精確率.Narin[8]使用與Res-Net50模型耦合的胸部X射線圖像獲得了98%的COVID-19檢測(cè)精度.Sethy和Behera[9]使用支持向量機(jī)(SVM)分類器,使用X射線圖像對(duì)從各種卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型獲得的特征進(jìn)行了分類.他們的研究表明,帶有SVM分類器的ResNet50模型具有最佳性能.最近還有一些關(guān)于COVID-19檢測(cè)的研究,這些研究采用了具有CT圖像的各種深度學(xué)習(xí)模型[10-11].
在本節(jié)中,我們將討論使用的數(shù)據(jù)處理方式、模型架構(gòu)的實(shí)現(xiàn)和訓(xùn)練方法.
由于獲取新冠肺炎患者的胸部X光圖像困難,所以我們收集的新冠肺炎病例胸部X光圖像較少.用少量的數(shù)據(jù)去訓(xùn)練網(wǎng)絡(luò)模型容易造成模型過(guò)擬合,導(dǎo)致在測(cè)試集上驗(yàn)證的識(shí)別準(zhǔn)確率非常低.在計(jì)算機(jī)視覺(jué)領(lǐng)域,圖像增強(qiáng)是降低深度卷積神經(jīng)網(wǎng)絡(luò)中過(guò)度擬合的常見(jiàn)隱式正則化技術(shù),并被廣泛用于提高[12-13]基準(zhǔn)數(shù)據(jù)集的性能.
常見(jiàn)的圖像增強(qiáng)手段包括翻轉(zhuǎn)、旋轉(zhuǎn)、縮放和裁剪的某些變體和組合.不同的領(lǐng)域,成像方式和任務(wù)可能會(huì)受益于各種不同數(shù)量的圖像變換和組合[14].例如,在本文所做的醫(yī)學(xué)圖像分析中,與自然圖像相比數(shù)據(jù)集通常很小且獲取困難,并且圖像中細(xì)節(jié)部分非常重要,可能就是醫(yī)生判別疾病的依據(jù).所以我們?cè)谧鰯?shù)據(jù)增強(qiáng)的時(shí)并不能過(guò)于修改原圖像,否則就會(huì)消除x射線圖像上的細(xì)節(jié).在本論文的實(shí)驗(yàn)中經(jīng)過(guò)多次嘗試,發(fā)現(xiàn)圖1所示的數(shù)據(jù)增強(qiáng)過(guò)程可以取得比較好的結(jié)果.整個(gè)過(guò)程經(jīng)歷三個(gè)步驟處理,step1:把圖像的窄邊縮放到224大小;setp2:從[224,n]或者[n,224]大小的圖像隨機(jī)裁剪一個(gè)大小為[224,224]大小的圖片;setp3:把[224,224]大小的圖片經(jīng)過(guò)仿射變換處理:翻轉(zhuǎn)、旋轉(zhuǎn)、縮放.
在這個(gè)部分,我們會(huì)討論整個(gè)網(wǎng)絡(luò)框架,該網(wǎng)絡(luò)是以深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的,整體框架如圖2所示,對(duì)Covid-19 x射線圖片進(jìn)行分類,網(wǎng)絡(luò)的主體框架為DPN網(wǎng)絡(luò)[15],結(jié)構(gòu)如圖3所示,該網(wǎng)絡(luò)在2017年ImageNet分類比賽中獲得了冠軍,結(jié)合了ResNet[16]與DenseNet[17]的優(yōu)點(diǎn).在本論文中,我們使用的是92層的DPN網(wǎng)絡(luò),一開(kāi)始是一個(gè)7*7的卷積層和最大池化層,然后是4個(gè)stage,每個(gè)stage又由多個(gè)substage組成,substage的核心思想是將ResNet與DenseNet相融合,ResNet:側(cè)重于特征的再利用,參數(shù)的共享;DenseNet:側(cè)重于新特征的發(fā)掘.實(shí)現(xiàn)優(yōu)缺點(diǎn)互補(bǔ),緊接著是一個(gè)平均池化層和全連接層,最后是softmax層.但是由于DPN92由大量的卷積層組成,而卷積核作為卷積神經(jīng)網(wǎng)絡(luò)的核心,一般只能從局部感受野上去獲得特征圖,缺乏全局感受野的特征.所以我們?cè)贒PN92的基礎(chǔ)上引入了注意力機(jī)制網(wǎng)絡(luò).
圖2 網(wǎng)絡(luò)整體框架Fig.2 Network overall framework diagram
目前注意力機(jī)制網(wǎng)絡(luò)已經(jīng)被大量地使用在自然語(yǔ)言處理,圖像識(shí)別以及語(yǔ)音識(shí)別等各種深度學(xué)習(xí)應(yīng)用當(dāng)中.在本文中我們使用的注意力機(jī)制網(wǎng)絡(luò)為SENet[18].
SENet主要由三個(gè)各部分構(gòu)成:壓縮部分、激勵(lì)部分以及權(quán)重部分,壓縮部分在空間維度上對(duì)圖像特征壓縮,把每層通道特征變?yōu)橐粋€(gè)參數(shù),該參數(shù)具有全局的感受野,輸入維度和輸入特征通道數(shù)相匹配,用全局池化來(lái)實(shí)現(xiàn)該功能.激勵(lì)部分可以看作循環(huán)神經(jīng)網(wǎng)絡(luò)[4]中門(mén)的機(jī)制,在每個(gè)特征通道層生成權(quán)重,該參數(shù)可以進(jìn)行學(xué)習(xí)調(diào)整.權(quán)重部分,把激勵(lì)部分輸出的權(quán)重每個(gè)特征通道層的重要程度,使用乘法逐通道加權(quán)到最開(kāi)始輸入的特征上.在DPN92網(wǎng)絡(luò)當(dāng)中引入SENet網(wǎng)絡(luò),網(wǎng)絡(luò)部分變?yōu)镈PN-SE網(wǎng)絡(luò),如圖3所示.
圖3 DPN-SE網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Framework of DPN-SE
隨著人工智能的迅速發(fā)展,人工智能對(duì)各行各業(yè)也產(chǎn)生了深遠(yuǎn)的影響.小到美圖軟件,大到火車站的人臉識(shí)別,圍繞人工智能建立的系統(tǒng)已經(jīng)對(duì)醫(yī)療,交通,刑事司法,金融風(fēng)險(xiǎn)管理以及社會(huì)其他領(lǐng)域產(chǎn)生了巨大的影響.
從廣義角度來(lái)講,可解釋性[19-20]就是當(dāng)我們需要解決一件事情或者對(duì)其做決策的時(shí)候,我們需要從這件事中獲得可以足夠理解能幫助我們做決策的信息.所以在本文中我們需要將胸部X光圖像上對(duì)于模型判定的特征進(jìn)行明顯的標(biāo)注,可以讓醫(yī)生快速找到病灶區(qū)域并判斷標(biāo)注部位是否為判斷依據(jù).在機(jī)器學(xué)習(xí)模型局部可解釋性研究中,一種代表性方法是由Marco Tulio Ribeiro等人提出的LIME[21].LIME的是使用可解釋性模型(如線性模型,決策樹(shù))局部近似目標(biāo)黑盒模型的預(yù)測(cè),該方法不關(guān)心模型內(nèi)部,對(duì)輸入的數(shù)據(jù)進(jìn)行輕微的改變,觀察黑盒模型的輸出變化,根據(jù)變化在興趣點(diǎn)(原始輸入)訓(xùn)練一個(gè)可解釋性模型.值得注意的是,可解釋性模型是黑盒模型的局部近似,而不是全局近似,這也是其名字的由來(lái).LIME的數(shù)學(xué)表達(dá)式如下:
使用實(shí)例x的解釋模型g,利用最小化損失函數(shù)來(lái)比較原模型f和g的近似性,符號(hào)Ω(g)表示解釋模型g的復(fù)雜程度,G表示可能的解釋模型,πx定義了x的領(lǐng)域.使用過(guò)程中模型g的范圍大小和模型復(fù)雜度均需要定義.
在本節(jié)中,我們將介紹數(shù)據(jù)集的基本信息,并根據(jù)以下方面介紹分析實(shí)驗(yàn)數(shù)據(jù)結(jié)果.
模型訓(xùn)練的精確程度在很大程度上依賴于數(shù)據(jù)集.COVID-19是一個(gè)新的疾病,我們需要選取大量的X光胸片來(lái)讓我們的模型充分學(xué)習(xí)到肺部的特征.而COVID-19的X射線圖片在GitHub上有由Joseph[22]公開(kāi)的資源,作者總結(jié)了來(lái)自北美放射學(xué)會(huì)各種真實(shí)來(lái)源的新冠肺炎胸部X光放射圖像.我們的數(shù)據(jù)集是一個(gè)四分類的數(shù)據(jù)集,不僅包含了新冠肺炎的胸部X光放射圖像,還包含了來(lái)自Kaggle repository“Chest X-Ray Images(Pneumonia)[23]”的細(xì)菌肺炎、病毒肺炎以及正常的胸部X光圖像.這個(gè)數(shù)據(jù)集由1 203張正常胸片,660張細(xì)菌肺炎胸片以及931張病毒性肺炎胸片.而我們模型訓(xùn)練的數(shù)據(jù)集來(lái)自Khan[24]整理的數(shù)據(jù).其中,新冠肺炎圖片有304張;正常圖片有375張;細(xì)菌肺炎有379張;病毒肺炎有354張.后期為了避免過(guò)擬合問(wèn)題,我們使用了數(shù)據(jù)增強(qiáng)來(lái)擴(kuò)展數(shù)據(jù)集.四種類別的圖片如圖4.
圖4 肺部X射線圖像的類型Fig.4 Types of lung X-ray images
在這項(xiàng)研究中,使用3.1節(jié)提到的胸部X射線數(shù)據(jù)集來(lái)訓(xùn)練模型.我們使用的網(wǎng)絡(luò)結(jié)構(gòu)為VGG16、ResNet、InceptionV4、DenseNet、DPNNet和自己設(shè)計(jì)的添加了通道自注意力機(jī)制的DPN-SE網(wǎng)絡(luò).首先,把經(jīng)過(guò)數(shù)據(jù)增強(qiáng)和未經(jīng)數(shù)據(jù)增強(qiáng)的數(shù)據(jù)訓(xùn)練結(jié)果進(jìn)行對(duì)比(數(shù)據(jù)增強(qiáng)的方法在2.1小節(jié)介紹了).實(shí)驗(yàn)中所有的網(wǎng)絡(luò)模型都訓(xùn)練地100epochs,觀察代價(jià)損失圖,最終都達(dá)到了收斂狀態(tài).評(píng)估分類模型的4個(gè)性能指標(biāo)是:
公式(2)-(5)中的TN、TP、TN和FN分別表示真正,假正,真負(fù)和假負(fù)的數(shù)目.TP是模型預(yù)測(cè)結(jié)果被正確標(biāo)記為正類的比例;FP是被錯(cuò)誤標(biāo)記為正類的比例;TN是被正確標(biāo)記為假類的比例,而FN是被錯(cuò)誤標(biāo)記為假類的比例(COVID-19為正類,其他類別為假類).
在圖5中,我們用混淆矩陣(CM)的形式呈現(xiàn)了DPN131網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練出來(lái)的識(shí)別結(jié)果,a)圖為未加入圖像增強(qiáng)的識(shí)別效果,b)圖為加入了圖像增強(qiáng)的識(shí)別效果.在混淆矩陣a)和b)的對(duì)比中,我們可以觀察到在加入了數(shù)據(jù)增強(qiáng)之后.平均準(zhǔn)確率由0.808 9漲到了0.832 8.對(duì)于COVID-19類別準(zhǔn)確率由0.92漲到了0.97,recall召回率由97%漲到了98%,F(xiàn)1-score由94%漲到了98%.其他幾個(gè)類別的指標(biāo)也有所增長(zhǎng).為了加入更多的驗(yàn)證實(shí)例,我們使用了其他模型做了對(duì)比.如表1所示為使用多種不同的網(wǎng)絡(luò)模型測(cè)試使用數(shù)據(jù)增強(qiáng)和未使用數(shù)據(jù)增強(qiáng)的效果,評(píng)估指標(biāo)包含準(zhǔn)確率、精準(zhǔn)率、召回率、F值(精準(zhǔn)率、召回率、F值等指標(biāo)的計(jì)算把COVID-19類別算為正例,其他為假例).
圖5 使用resnet52網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練的模型(a)without using data augmentation method,(b)using data augmentation method.Fig.5 Model trained using resnet52 network structure
從表1中的數(shù)據(jù)中可以看到,我們使用了Res-Net、DenseNet、DPNNet、VGG16、InceptionV3等10個(gè)網(wǎng)絡(luò)模型來(lái)測(cè)試.評(píng)估指標(biāo)包含準(zhǔn)確率、精準(zhǔn)率、召回率、F值(精準(zhǔn)率、召回率、F值等指標(biāo)的計(jì)算把covid-19類別算為正例,其他為假例).大部分模型的識(shí)別準(zhǔn)確率在80%以上.使用ResNet50的網(wǎng)絡(luò)模型對(duì)比.如果未經(jīng)數(shù)據(jù)增強(qiáng)處理的數(shù)據(jù)集來(lái)訓(xùn)練網(wǎng)絡(luò),獲得的平均準(zhǔn)確率為79%,精準(zhǔn)率為92%,召回率為98%,F(xiàn)1-score為95%.如果經(jīng)過(guò)數(shù)據(jù)增強(qiáng)處理的數(shù)據(jù)集來(lái)訓(xùn)練網(wǎng)絡(luò),獲得的平均準(zhǔn)確率為80%,精準(zhǔn)率為97%,召回率為98%,F(xiàn)1-score為98%.從對(duì)比中可以看出數(shù)據(jù)經(jīng)過(guò)數(shù)據(jù)增強(qiáng)處理,訓(xùn)練出的網(wǎng)絡(luò)模型可以提升1%的識(shí)別準(zhǔn)確率.總共展示的10個(gè)網(wǎng)絡(luò)模型中,有7個(gè)網(wǎng)絡(luò)模型在經(jīng)過(guò)數(shù)據(jù)增強(qiáng)處理之后識(shí)別效果有所提升,有2個(gè)網(wǎng)絡(luò)模型識(shí)別效果有所下降,有1個(gè)網(wǎng)絡(luò)模型識(shí)別效果基本沒(méi)有變化.最后,我們可以推斷在使用數(shù)據(jù)增強(qiáng)的手段處理了x-ray樣本數(shù)據(jù)之后,再訓(xùn)練網(wǎng)絡(luò)模型可以有效的提升1%左右的識(shí)別準(zhǔn)確率.
表1 使用多種不同的網(wǎng)絡(luò)模型測(cè)試使用數(shù)據(jù)增強(qiáng)和未使用數(shù)據(jù)增強(qiáng)的效果Table 1 Use a variety of different network models to test the effects of data enhancement and unused data enhancement
我們的目的是提升網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率,除了使用數(shù)據(jù)增強(qiáng)來(lái)增加識(shí)別準(zhǔn)確率外,還想到通過(guò)修改網(wǎng)絡(luò)模型來(lái)使得識(shí)別準(zhǔn)確率增加.網(wǎng)絡(luò)的主體框架為DPN網(wǎng)絡(luò)[15],我們使用的是92層的DPN網(wǎng)絡(luò),一開(kāi)始是一個(gè)7*7的卷積層和最大池化層,然后是4個(gè)stage,每個(gè)stage由多個(gè)substage組成.在DPN92的基礎(chǔ)上引入注意力機(jī)制網(wǎng)絡(luò).訓(xùn)練時(shí)候的數(shù)據(jù)集時(shí)經(jīng)過(guò)2.1節(jié)介紹的數(shù)據(jù)增強(qiáng)處理.
如圖6所示,是我們展示用經(jīng)典的DPN網(wǎng)絡(luò)和經(jīng)過(guò)修改之后的增加了自注意力機(jī)制的DPN-SE網(wǎng)絡(luò)識(shí)別效果的混淆矩陣.左側(cè)的(a)圖是的DPNNet網(wǎng)絡(luò)模型訓(xùn)練的結(jié)果,右側(cè)的(b)圖是使用DPN-SE網(wǎng)絡(luò)模型訓(xùn)練的結(jié)果.表2顯示了在測(cè)試集上DPN的準(zhǔn)確性、精度、召回率和F1-score.表3顯示了在測(cè)試集上DPN-SE的準(zhǔn)確性、精度、召回率和F1-score.混淆矩陣中可以看到此測(cè)試集有64例新冠肺炎病例、89例正常、76例病毒肺炎病例和64例病毒肺炎病例.分類病毒肺炎和細(xì)菌肺炎的性能比另外兩類的分類性能較低從而導(dǎo)致了整體的精確率變低.如果我們將細(xì)菌性肺炎和病毒性肺炎合并為肺炎類,那么總體準(zhǔn)確性將顯著提高.值得令人高興的是我們對(duì)新冠和正常肺部的檢測(cè)都準(zhǔn)確率都很高,在DPN網(wǎng)絡(luò)上平均準(zhǔn)確率為82%,精密度為98%,召回率為98%,F(xiàn)-measure為98%.在DPN-SE網(wǎng)絡(luò)上,平均準(zhǔn)確率為84%,精密度為97%,召回率為98%,F(xiàn)measure為98%.平均準(zhǔn)確率有了2%的提升.在實(shí)驗(yàn)的數(shù)據(jù)中得到的積極結(jié)果是關(guān)于COVID-19類別的精度和召回率很高.較高的召回率意味著較低的假陰性(FN),且假陰性(FN)數(shù)較低是我們希望得到的結(jié)果.這一點(diǎn)很重要,因?yàn)楸M可能減少COVID-19漏診病例是這醫(yī)學(xué)診斷的重要目標(biāo).總的來(lái)說(shuō),當(dāng)網(wǎng)絡(luò)模型增加了注意力機(jī)制結(jié)構(gòu)后,可以觀察到DPN-SE網(wǎng)絡(luò)的平均準(zhǔn)確率增加了2%,說(shuō)明修改的網(wǎng)絡(luò)模型起到了作用.
表2 DPNNet模型的性能Table 2 Performance of DPNNet.
表3 DPN-SE模型的性能Table 3 Performance of DPN-SE.
圖6 DPNNet和DPN-SENet模型訓(xùn)練的結(jié)果Fig.6 The results of DPNNet and DPNN-SE model training
我們需要將胸部X光圖像上對(duì)于模型判定的特征進(jìn)行明顯的標(biāo)注,以便讓醫(yī)生快速找到病灶區(qū)域并判斷標(biāo)注部位是否為判斷依據(jù).圖7顯示了使用lime可以解釋模型生成的激活圖實(shí)例.Lime模型的決策用紅/藍(lán)背景表示,其中紅色區(qū)域表示分類模型所關(guān)注的重點(diǎn)特征,藍(lán)色區(qū)域?yàn)椴槐匾P(guān)注的區(qū)域.從圖中可以觀察到紅色的重點(diǎn)特征區(qū)域基本都分布在胸腔內(nèi)部,是需要重點(diǎn)關(guān)注的.而藍(lán)色區(qū)域在身體中間和邊緣的非肺部區(qū)域.
圖7 OVID-19模型激活圖示例Fig.7 Examples of COVID-19 model activation maps.
隨著COVID-19流行,病例日益增多.許多地方面臨著檢測(cè)資源短缺的調(diào)挑戰(zhàn).在本文中,我們提出了一種通過(guò)胸部x射線來(lái)識(shí)別COVID-19病例的深度神經(jīng)網(wǎng)絡(luò)模型DPN-SE.并針對(duì)少量樣本使用了數(shù)據(jù)增強(qiáng)的辦法,在測(cè)試集上取得了不錯(cuò)的效果.DPN-SE相比與DPN網(wǎng)絡(luò)結(jié)構(gòu)擁有相同計(jì)算開(kāi)銷,但是卻提升2%左右的識(shí)別準(zhǔn)確率.當(dāng)使用更多的訓(xùn)練樣本時(shí),性能可以進(jìn)一步提高.該模型的識(shí)別結(jié)果準(zhǔn)確率很高,相信可以幫助放射科醫(yī)師更深入地了解與COVID-19的相關(guān)病例.
源碼
為了大家很好的繼續(xù)進(jìn)行研究,我們提供了實(shí)驗(yàn)研究的代碼和數(shù)據(jù)集,經(jīng)過(guò)訓(xùn)練的模型和數(shù)據(jù)可以在這里獲得:
https://github.com/ChengBo5/covid19-X-ray.git.