陳強(qiáng)銳,謝世朋
(南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210003)
計(jì)算機(jī)輔助診斷(CAD)[1]是指運(yùn)用計(jì)算機(jī)技術(shù)分析計(jì)算影像、病理等數(shù)據(jù),輔助發(fā)現(xiàn)病灶,從而提高診斷的準(zhǔn)確率?,F(xiàn)代計(jì)算機(jī)技術(shù)的快速發(fā)展對(duì)其起到了極大的推進(jìn)作用。目前CAD技術(shù)已經(jīng)廣泛應(yīng)用于各種疾病的診療過(guò)程中,被形象地稱之為醫(yī)生的“第三只眼”。肺癌檢測(cè)是最常見(jiàn)的CAD技術(shù)應(yīng)用之一。近年來(lái)國(guó)內(nèi)肺癌發(fā)病率呈逐年上升趨勢(shì),年平均增長(zhǎng)率為1.63%。而肺癌的發(fā)病率及死亡率已居所有惡性腫瘤之首。引入計(jì)算機(jī)輔助診斷技術(shù)對(duì)肺癌的早期發(fā)現(xiàn)與診療有著重要的積極作用,所以它在輔助醫(yī)生診療肺癌領(lǐng)域有著巨大的發(fā)展前景。
對(duì)于肺癌檢測(cè)的CAD技術(shù)關(guān)鍵在于腫瘤病灶的定位與分類(lèi)。目前已經(jīng)有許多傳統(tǒng)機(jī)器學(xué)習(xí)的方法可以對(duì)腫瘤進(jìn)行檢測(cè)。文獻(xiàn)[2]從灰度特征、紋理特征、形態(tài)特征等多個(gè)角度提取肺部CT圖像的特征,并利用支持向量機(jī)[3](SVM)對(duì)肺部CT圖像進(jìn)行分類(lèi)分析。文獻(xiàn)[4]針對(duì)肺結(jié)節(jié)的形態(tài)、位置、紋理、灰度等17個(gè)特征,利用主成分分析(PCA)方法,對(duì)特征集進(jìn)行優(yōu)化選擇和降維處理,最后利用基于SVM的分類(lèi)器對(duì)樣本進(jìn)行分類(lèi)檢測(cè)。文獻(xiàn)[5]開(kāi)發(fā)了一種提取肺結(jié)節(jié)特征信息的轉(zhuǎn)換器,并結(jié)合隨機(jī)森林算法利用提取到的特征信息對(duì)模型進(jìn)行訓(xùn)練和測(cè)試。這些方法較好地解決了分類(lèi)問(wèn)題,但實(shí)驗(yàn)結(jié)果也并非十分完美,仍有提升的空間,尤其在復(fù)雜的特征提取方法和結(jié)節(jié)的位置預(yù)測(cè)方面。
深度學(xué)習(xí)[6]的概念于2006年由Hinton等提出,作為機(jī)器學(xué)習(xí)的一個(gè)分支,由于其善于發(fā)現(xiàn)高維數(shù)據(jù)的復(fù)雜結(jié)構(gòu),使用泛化目標(biāo)的學(xué)習(xí)過(guò)程可以自動(dòng)學(xué)習(xí)好的特征,所以近年來(lái)發(fā)展十分迅速。深度學(xué)習(xí)算法模仿人腦的機(jī)制來(lái)解釋并處理數(shù)據(jù),在語(yǔ)音識(shí)別、圖像識(shí)別、自然語(yǔ)言理解等領(lǐng)域取得了重大突破。卷積神經(jīng)網(wǎng)絡(luò)(CNN)則是深度學(xué)習(xí)在圖像領(lǐng)域的一個(gè)重要應(yīng)用,已成為眾多科學(xué)領(lǐng)域的研究熱點(diǎn)之一。卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像的特征提取十分方便,只需設(shè)置合理的網(wǎng)絡(luò)結(jié)構(gòu)與網(wǎng)絡(luò)參數(shù),每對(duì)圖像進(jìn)行一次卷積操作就可以生成一個(gè)特征圖。通過(guò)加深網(wǎng)絡(luò)結(jié)構(gòu)可以學(xué)習(xí)到圖像更深層次的特征。相較于人工設(shè)計(jì)特征的方法,卷積神經(jīng)網(wǎng)絡(luò)的適用范圍更廣,對(duì)圖像的特征提取更加深刻全面。國(guó)內(nèi)知名學(xué)者也曾表明深度學(xué)習(xí)將取代人工特征加機(jī)器學(xué)習(xí)的方法而逐漸成為主流圖像識(shí)別方法[7]。文中采用深度學(xué)習(xí)的方法,將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到肺部腫瘤圖像的特征提取中,結(jié)合區(qū)域生成網(wǎng)絡(luò)預(yù)測(cè)肺癌結(jié)節(jié)的位置,并通過(guò)實(shí)驗(yàn)驗(yàn)證該方法的有效性。
腫瘤檢測(cè)的流程如圖1所示。首先讓整幅圖像經(jīng)過(guò)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,然后針對(duì)獲得的特征圖像生成腫瘤位置建議框,最后對(duì)各個(gè)建議框包圍的圖像進(jìn)行分類(lèi)并微調(diào)建議框的位置。
圖1 肺部腫瘤檢測(cè)流程
對(duì)于圖像的特征提取方法有很多,它們大多依賴于人工的設(shè)計(jì)。例如算法HOG[8]和SIFT[9]。但是SIFT和HOG受限于圖像中梯度的方向直方圖[10],并不具備普適性。
1998年,LeCun提出的卷積神經(jīng)網(wǎng)絡(luò)是第一個(gè)真正多層結(jié)構(gòu)學(xué)習(xí)算法[11],并成功地將其應(yīng)用到手寫(xiě)數(shù)字識(shí)別中,標(biāo)志著卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像特征提取的第一次成功應(yīng)用。由于當(dāng)時(shí)的硬件計(jì)算條件不足以支撐更深層次的網(wǎng)絡(luò),只適合做小圖片的識(shí)別,因此對(duì)于大規(guī)模數(shù)據(jù)識(shí)別效果不佳。直至2012年ImageNet圖像分類(lèi)競(jìng)賽中,AlexNet憑借Top-5錯(cuò)誤率低于上一年十個(gè)百分點(diǎn)的優(yōu)秀成績(jī),使得CNN受到了研究者們的重視[12]。
卷積神經(jīng)網(wǎng)絡(luò)的再次流行主要得益于非線性激活函數(shù)Relu和防止過(guò)擬合方法Dropout的提出,當(dāng)然還有大數(shù)據(jù)訓(xùn)練以及GPU并行計(jì)算的發(fā)展。文中使用的特征提取網(wǎng)絡(luò)是基于Zeiler和Fergus提出的ZF[13]網(wǎng)絡(luò)。
網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 特征提取網(wǎng)絡(luò)結(jié)構(gòu)
網(wǎng)絡(luò)總共含有5層可共享特征的卷積層,每一卷積層都應(yīng)用了一個(gè)Relu激活函數(shù)。卷積層第一層與第二層的卷積核大小分別為7*7和5*5,卷積步長(zhǎng)為2。卷積層后三層的卷積核大小為3*3,卷積步長(zhǎng)為1。卷積層的第一層與第二層之后分別設(shè)置了一個(gè)最大值池化層。這種網(wǎng)絡(luò)結(jié)構(gòu)保證了神經(jīng)網(wǎng)絡(luò)既能充分學(xué)習(xí)到圖像特征,又能夠防止過(guò)擬合。
傳統(tǒng)生成區(qū)域建議框的方法如selective search[14],是將輸入圖像分割成許多相鄰的小區(qū)域,計(jì)算相鄰區(qū)域的相似度且合并相似度最高的相鄰區(qū)域然后重復(fù)迭代,并融合各種多樣化策略。雖然這種方法相較之前exhaustive search[15]方法提升很大,但是其不能通過(guò)GPU加速導(dǎo)致耗時(shí)很大。或者是像YOLO[16]中將原始圖片分成S*S個(gè)網(wǎng)格,將生成建議框看成單一的回歸問(wèn)題,雖然解決了耗時(shí)問(wèn)題,但是這種方法對(duì)于處在網(wǎng)格邊緣或者尺寸較小的腫瘤,生成的建議框效果較差。
上述兩種方法的輸入都是原始圖像,并未充分利用CNN輸出的特征提取后的圖像。文中使用的區(qū)域建議網(wǎng)絡(luò)是RPN,結(jié)構(gòu)如圖3所示。其輸入是CNN網(wǎng)絡(luò)輸出的特征圖像。該方法在特征圖像上設(shè)計(jì)了一個(gè)滑動(dòng)窗口,在每一個(gè)窗口的中心生成3種不同大小、3種不同寬縱比,總計(jì)9個(gè)固定的建議框。同時(shí)將每一個(gè)滑動(dòng)窗口映射成為一個(gè)256維的向量,該向量輸出給兩個(gè)同級(jí)的全連接層cls layer與reg layer,分別用作建議框的回歸和分類(lèi)。
圖3 區(qū)域建議網(wǎng)絡(luò)
文中方法利用目標(biāo)區(qū)域與ground-truth面積的交并比(IOU)對(duì)建議框進(jìn)行篩選,IOU定義為:
(1)
其中,A與B分別表示不同區(qū)域的面積。
選用IOU大于0.7的建議框作為目標(biāo)建議框,將IOU小于0.3的建議框記為背景樣本,棄用其余以及跨越圖像邊界的建議框。每張圖片最后至多生成300個(gè)建議框,并利用其對(duì)應(yīng)的向量對(duì)建議框內(nèi)容進(jìn)行分類(lèi)且微調(diào)其位置。
實(shí)驗(yàn)采用的數(shù)據(jù)集來(lái)自于NLST以及Kaggle。從不同肺癌患者的CT中挑選出451張切片,并將DICOM文件格式轉(zhuǎn)換成512*512像素的JPG圖像。隨機(jī)挑選出361幅圖像并對(duì)這些圖像中肺癌特征區(qū)域進(jìn)行標(biāo)注,作為訓(xùn)練集,剩余的90幅圖像則作為測(cè)試集。文中采用的檢測(cè)框架為Faster RCNN[17],對(duì)每幅圖像的損失函數(shù)定義為:
(2)
分類(lèi)損失函數(shù)Lcls定義為:
(3)
建議框回歸損失函數(shù)Lreg定義為:
(4)
其中,R是魯棒的損失函數(shù)smoothL1[18]定義為:
(5)
網(wǎng)絡(luò)訓(xùn)練時(shí)損失函數(shù)超參數(shù)λ設(shè)置為10,卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)學(xué)習(xí)速率設(shè)置為0.001,權(quán)重衰減設(shè)置為0.000 5,在配置為Intel Core i7-2600 3.4 GHz處理器,4 G內(nèi)存,8 G顯存,顯卡為GTX1070的服務(wù)器上訓(xùn)練總時(shí)長(zhǎng)約4個(gè)小時(shí)。
經(jīng)過(guò)實(shí)驗(yàn),測(cè)試集共90幅CT圖像成功檢測(cè)出86幅,其中典型的檢測(cè)效果如圖4所示。
圖4 檢測(cè)結(jié)果
由圖4可見(jiàn),肺部腫瘤可以被文中方法準(zhǔn)確定位,并且具有較好的檢測(cè)效果。
文中準(zhǔn)確率定義為:
(6)
其中,j為測(cè)試圖像的索引號(hào);Idet為檢測(cè)結(jié)果標(biāo)記,檢測(cè)成功為1,檢測(cè)失敗為0;Pr(j)為預(yù)測(cè)概率;N=90為參與檢測(cè)的圖像總數(shù)。
利用相同的數(shù)據(jù)集在YOLO_V2框架上進(jìn)行了重復(fù)實(shí)驗(yàn),并將兩次的實(shí)驗(yàn)結(jié)果進(jìn)行了對(duì)比,結(jié)果如表1所示。
表1 不同框架檢測(cè)結(jié)果對(duì)比
由表1可以看出,文中方法的檢測(cè)效果更佳,準(zhǔn)確率高達(dá)95.1%且高于YOLO_V2約15個(gè)百分點(diǎn),并且訓(xùn)練時(shí)間也大大縮短。雖然每幅圖像的檢測(cè)用時(shí)略高于YOLO_V2,但是綜合考慮各方面因素,文中方法對(duì)于肺部腫瘤的檢測(cè)有著更好的性能。
將文中方法的檢測(cè)結(jié)果與利用傳統(tǒng)機(jī)器學(xué)習(xí)方法的檢測(cè)結(jié)果進(jìn)行了對(duì)比,結(jié)果如表2所示。
表2 不同方法檢測(cè)結(jié)果對(duì)比
由表2可以看出,文中方法的檢測(cè)準(zhǔn)確率可達(dá)95.1%,相較于其他檢測(cè)方法,具有更高的準(zhǔn)確率,其準(zhǔn)確率提升約6個(gè)百分點(diǎn)。由于文中方法可以對(duì)腫瘤圖像自動(dòng)地進(jìn)行特征提取,并且深層次的網(wǎng)絡(luò)結(jié)構(gòu)可以提取到更好的特征,所以檢測(cè)效果明顯有所提高。并且該方法還可以準(zhǔn)確定位出腫瘤的具體位置,相較其他方法具有一定的優(yōu)勢(shì)。
提出了基于深度學(xué)習(xí)的肺部腫瘤的檢測(cè)方法,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)對(duì)CT圖像進(jìn)行特征提取,最終定位出圖像中腫瘤的位置。該方法在NLST以及Kaggle數(shù)據(jù)集上取得了較好的實(shí)驗(yàn)效果,對(duì)于腫瘤檢測(cè)領(lǐng)域具有一定的積極意義。然而,該方法只考慮到腫瘤圖像的二維特征,若能夠?qū)δ[瘤進(jìn)行三維特征提取,其檢測(cè)效果則會(huì)更好。接下來(lái)的工作將向此方面發(fā)展。
參考文獻(xiàn):
[1] 舒榮寶,王成林.電子計(jì)算機(jī)輔助診斷(CAD)的原理及臨床應(yīng)用[J].中國(guó)CT和MRI雜志,2004,2(2):55-56.
[2] 馬楊林.基于SVM的肺部CT圖像特征提取及分類(lèi)研究[D].成都:西華大學(xué),2012.
[3] SCH?LKOPF B,SMOLA A.Learning with kernels:support vector machines,regularization,optimization,and beyond[J].IEEE Transactions on Neural Networks,2005,16(3):781.
[4] 張 婧.基于SVM的肺結(jié)節(jié)自動(dòng)識(shí)別方法研究[D].廣州:華南理工大學(xué),2011.
[5] KOUZANI A Z,LEE S L A,HU E J.Lung nodules detection by ensemble classification[C]//IEEE international conference on systems,man and cybernetics.[s.l.]:IEEE,2008:324-329.
[6] LECUN Y,BENGIO Y,HINTON G.Deep learning[J].Nature,2015,521(7553):436-444.
[7] 余 凱,賈 磊,陳雨強(qiáng),等.深度學(xué)習(xí)的昨天、今天和明天[J].計(jì)算機(jī)研究與發(fā)展,2013,50(9):1799-1804.
[8] LOWE D G.Distinctive image features from scale-invariant keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.
[9] DALAL N,TRIGGS B.Histograms of oriented gradients for human detection[C]//IEEE computer society conference on computer vision & pattern recognition.Washington DC,USA:IEEE Computer Society,2005:886-893.
[10] GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//IEEE conference on computer vision and pattern recognition.Washington DC,USA:IEEE Computer Society,2014:580-587.
[11] 孫志軍,薛 磊,許陽(yáng)明,等.深度學(xué)習(xí)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2012,29(8):2806-2810.
[12] 李彥冬,郝宗波,雷 航.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計(jì)算機(jī)應(yīng)用,2016,36(9):2508-2515.
[13] ZEILER M D,FERGUS R.Visualizing and understanding convolutional networks[J].Lecture Notes in Computer Science,2013,8689:818-833.
[14] UIJLINGS J R,SANDE K E,GEVERS T,et al.Selective search for object recognition[J].International Journal of Computer Vision,2013,104(2):154-171.
[15] HARZALLAH H,JURIE F,SCHMID C.Combining efficient object localization and image classification[C]//International conference on computer vision.[s.l.]:[s.n.],2010:237-244.
[16] REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once:unified,real-time object detection[C]//IEEE conference on computer vision and pattern recognition.Washington DC,USA:IEEE Computer Society,2016:779-788.
[17] REN S,HE K,GIRSHICK R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2017,39(6):1137-1149.
[18] GIRSHICK R.Fast R-CNN[C]//International conference on computer vision.[s.l.]:[s.n.],2015:1440-1448.