王 黎,陸慧娟,葉敏超,嚴(yán) 珂
(中國(guó)計(jì)量學(xué)院 信息工程學(xué)院,浙江 杭州 310018)
根據(jù)2015年的中國(guó)癌癥報(bào)告[1],中國(guó)癌癥已成為主要的公共健康問(wèn)題和首要死亡原因.如果癌癥患者在出現(xiàn)早期病變時(shí)得到及時(shí)的診斷和治療,將會(huì)大大提高生存率,因此,癌癥的早期篩查和準(zhǔn)確診斷極其重要.醫(yī)學(xué)影像作為一種廣泛的癌癥診斷方式,能夠?yàn)椴∏樵\斷提供大量有用的信息.然而,對(duì)于日益增加的圖像數(shù)據(jù)也為人工閱片帶來(lái)極大的挑戰(zhàn),不同醫(yī)生主觀意識(shí)上的偏差,往往會(huì)造成效率低下甚至是誤判的情況出現(xiàn).因此,對(duì)于醫(yī)學(xué)影像的信息提取和處理分析,成為近年來(lái)的一個(gè)重要研究領(lǐng)域.
本文將Faster-RCNN(Regions with CNN features)的網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)用于癌癥影像的檢測(cè),第一階段針對(duì)于醫(yī)學(xué)影像的特點(diǎn),通過(guò)垂直翻轉(zhuǎn)擴(kuò)增數(shù)據(jù)集樣本數(shù)量,并添加了一層拉普拉斯卷積層對(duì)圖像進(jìn)行卷積銳化,增強(qiáng)圖像的邊緣對(duì)比度,突出具有癌變風(fēng)險(xiǎn)的結(jié)節(jié)輪廓,第二階段針對(duì)于結(jié)節(jié)的目標(biāo)特點(diǎn),在Faster-RCNN訓(xùn)練時(shí),對(duì)模型中的錨框(anchor)大小做了修改,并且修改了超參數(shù)進(jìn)行訓(xùn)練,使癌癥的早期檢測(cè)更加高效和準(zhǔn)確.
隨著機(jī)器學(xué)習(xí)在生物信息學(xué)的廣泛應(yīng)用,將機(jī)器學(xué)習(xí)方法用于醫(yī)學(xué)影像的癌癥診斷中是科研人員一直致力研究的方向,Mungle T[2]等人使用馬爾科夫隨機(jī)場(chǎng)模型對(duì)圖像進(jìn)行分割后,通過(guò)人工神經(jīng)網(wǎng)絡(luò)對(duì)分割后的圖像進(jìn)行評(píng)分分級(jí).Nguyen T H[3]將定量相位成像掃描儀得到的醫(yī)學(xué)影像訓(xùn)練出隨機(jī)森林分類模型,用于輔助醫(yī)生診斷乳腺癌,提高了醫(yī)生的診斷效率.Garapati S S[4]使用多種機(jī)器學(xué)習(xí)算法用于膀胱癌的CT數(shù)據(jù),分析了形態(tài)特征和紋理特征的模型準(zhǔn)確性,將多個(gè)模型組合,得到用于膀胱癌CT的預(yù)測(cè)模型.
深度學(xué)習(xí)是以人工神經(jīng)網(wǎng)絡(luò)為理論基礎(chǔ)的機(jī)器學(xué)習(xí)分支方向,自Hinton G[5]在2006年提出了逐層貪婪算法以來(lái),深度學(xué)習(xí)掀起了人工智能革命的熱潮,其中Bengio Y,Lecun Y[6]于1995年提出的卷積神經(jīng)網(wǎng)絡(luò)(Convolution neural network,CNN)對(duì)處理圖像數(shù)據(jù)取得了顯著的效果,被廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)方向.基于卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)基礎(chǔ),發(fā)展出很多應(yīng)用于圖像分類、目標(biāo)檢測(cè)、圖像分割的網(wǎng)絡(luò)結(jié)構(gòu).2014年Girshick R[7]將深度學(xué)習(xí)應(yīng)用于目標(biāo)檢測(cè)中,提出了R-CNN模型結(jié)構(gòu),將Region proposals與CNN結(jié)合,使用SVM對(duì)卷積特征進(jìn)行分類后,對(duì)每類目標(biāo)使用線性脊回歸器進(jìn)行回歸框的精修.該模型使PASCAL VOC數(shù)據(jù)集的檢測(cè)率從35.1%提升到53.7%,是深度學(xué)習(xí)應(yīng)用于目標(biāo)檢測(cè)的開(kāi)山之作.2015年Girshick R[8]將空間金字塔池化[9](Spatial Pyramid Pooling SPP)方法加入到R-CNN中,提出Fast-RCNN模型,大幅度提高了訓(xùn)練時(shí)間;同年,Girshick R和He K[10]提出了Faster-RCNN,增加了Region Proposal Networks(RPN)網(wǎng)絡(luò),使用網(wǎng)絡(luò)生成候選區(qū)域,實(shí)現(xiàn)端到端訓(xùn)練.
深度卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)非常龐大,需要大量的標(biāo)注數(shù)據(jù)才能夠滿足訓(xùn)練要求,但是對(duì)于醫(yī)學(xué)影像這類數(shù)據(jù)來(lái)說(shuō),有標(biāo)注的數(shù)據(jù)是非常有限的,如何充分利用有限的數(shù)據(jù)訓(xùn)練模型,就需要進(jìn)行數(shù)據(jù)增強(qiáng).常用的數(shù)據(jù)增強(qiáng)方法有裁剪、翻轉(zhuǎn)、顏色亮度變化等方法[11].本文使用垂直翻轉(zhuǎn)的方法,對(duì)現(xiàn)有的數(shù)據(jù)集進(jìn)行樣本擴(kuò)增.
圖像銳化的目的在于提高邊緣像素的灰度值差異性.在圖像銳化中使用差分運(yùn)算,可以反映每個(gè)圖像像素的灰度值.差分運(yùn)算能夠確定邊緣像素并增強(qiáng)其像素值.本文將卷積銳化作為一層網(wǎng)絡(luò)結(jié)構(gòu),加入到檢測(cè)模型中,使用拉普拉斯算子作為卷積核.
拉普拉斯算子是一種常見(jiàn)的二階導(dǎo)數(shù)算子,可以增強(qiáng)圖像中灰度值的不連續(xù)性,減少灰度區(qū)域的逐漸變化.因此,在連續(xù)二維的情況下,原始圖像f(x,y)的梯度如式(1)[12]
(1)
式(1)中,原始圖像梯度是一個(gè)向量,它的方向是函數(shù)f(x,y)的最大變化率的方向.
函數(shù)f(x,y)的最大變化率
(2)
由式(1)、(2)可以得到
(3)
(4)
根據(jù)式(3)、(4)和拉普拉斯算子結(jié)合得到
▽2f(x,y)=f(x+1,y)+f(x-1,y)+
f(x,y+1)+f(x,y-1)-
4f(x,y).
(5)
式(5)為四鄰接拉普拉斯算子,其值與相鄰四個(gè)像素的灰度差異有關(guān),可以通過(guò)模板卷積操作實(shí)現(xiàn)拉普拉斯算子的計(jì)算,實(shí)現(xiàn)模板如圖1.
0-10-14-10-10
圖1拉普拉斯算子
Figure 1Laplace operator
將四鄰接拉普拉斯算子作為卷積核構(gòu)建一層拉普拉斯卷積層處理輸入原始圖像,在保留圖像原始信息的情況下,增強(qiáng)灰度突變邊緣的對(duì)比度,應(yīng)用于醫(yī)學(xué)影像中,可以突出結(jié)節(jié)的輪廓,使模糊的圖像變得清晰,更容易檢測(cè).
Faster-RCNN在Fast-RCNN的基礎(chǔ)上增加了一個(gè)區(qū)域建議網(wǎng)絡(luò)(Region Proposal Networks,RPN),能夠通過(guò)網(wǎng)絡(luò)生成候選區(qū)域,相比于傳統(tǒng)的區(qū)域搜索算法Selective Search、EdgeBoxes等方法,有明顯的速度提升[10].
如圖2所示,在傳統(tǒng)的Faster-RCNN模型添加一層拉普拉斯卷積層,其中拉普拉斯卷積層參數(shù)固定,不參與反向傳播訓(xùn)練,因?yàn)楫?dāng)拉普拉斯卷積層參數(shù)改變時(shí),會(huì)對(duì)輸入圖像造成不確定的銳化效果,造成檢測(cè)效果的波動(dòng).
圖2 結(jié)節(jié)檢測(cè)模型結(jié)構(gòu)Figure 2 Structure of nodule detection model
RPN網(wǎng)絡(luò)與Fast-RCNN共享卷積層得到了輸入特征圖,通過(guò)滑動(dòng)窗口對(duì)輸入的特征圖滑動(dòng)卷積,每個(gè)滑動(dòng)窗口將特征圖映射到一個(gè)較低維向量(ZF網(wǎng)絡(luò)為256-d,VGG16網(wǎng)絡(luò)為512-d),該向量輸入到區(qū)域分類層和區(qū)域回歸層得到輸出結(jié)果后進(jìn)入ROI池化層.
訓(xùn)練RPN時(shí),首先需要生成錨框,Faster-RCNN以每個(gè)像素為中心點(diǎn)生成三種不同比例面積為1282、2562和5122像素的錨框,對(duì)于產(chǎn)生的錨框(anchor),使用IoU(Intersection over-Union)來(lái)選擇正負(fù)樣本集進(jìn)行網(wǎng)絡(luò)訓(xùn)練,選擇規(guī)則為表1.
在訓(xùn)練中,使用梯度下降算法進(jìn)行反向傳播訓(xùn)練,其損失函數(shù)定義為[8]:
(6)
(7)
在得到預(yù)測(cè)框的坐標(biāo)參數(shù)后,需要對(duì)坐標(biāo)參數(shù)回歸調(diào)整,使預(yù)測(cè)框更接近目標(biāo)框的真實(shí)坐標(biāo)
(8)
其中:x,y,w和h表示預(yù)測(cè)框的中心坐標(biāo)、寬度和高度,xa,ya,wa和ha表示生成錨框的中心坐標(biāo)、寬度和高度,x*,y*,w*和h*表示目標(biāo)框的中心坐標(biāo)、寬度和高度.
本文實(shí)驗(yàn)數(shù)據(jù)集采用LIDC-IDRI(The Lung Image Database Consortium)[13],該數(shù)據(jù)集由肺癌醫(yī)學(xué)影像和對(duì)應(yīng)的診斷結(jié)果病變標(biāo)注XML文件組成,是由美國(guó)國(guó)家癌癥研究所(National Cancer Institute)發(fā)起收集的,目的是為了研究高危人群早期癌癥檢測(cè).
由LIDC-IDRI數(shù)據(jù)集預(yù)處理得到帶有肺癌結(jié)節(jié)的CT影像數(shù)據(jù)集共有5850張圖片,3150張用做訓(xùn)練集,2700張用做測(cè)試集,測(cè)試集與訓(xùn)練集相互獨(dú)立,見(jiàn)表2.
表2 數(shù)據(jù)集樣本數(shù)量
其中,訓(xùn)練集A是原始數(shù)據(jù)集,訓(xùn)練集B是做了數(shù)據(jù)擴(kuò)增的數(shù)據(jù)集,采用垂直翻轉(zhuǎn)的方法對(duì)原始數(shù)據(jù)集進(jìn)行擴(kuò)增,使訓(xùn)練圖片達(dá)到了6300張.
本文采用Windows10環(huán)境下的Caffe框架進(jìn)行模型訓(xùn)練,在Nvidia GTX 1070 GPU下加速訓(xùn)練,使用VGG16模型在ImageNet下的預(yù)訓(xùn)練模型參數(shù)作為初始化訓(xùn)練參數(shù).
圖3為數(shù)據(jù)集隨機(jī)抽取的圖像樣本,圖4為拉普拉斯卷積層的輸出特征圖,可以看到圖4(a)、(b)、(d)都有明顯的邊緣增強(qiáng)效果,而(c)圖因?yàn)樵紭颖净叶葘?duì)比度較清晰,銳化效果稍差,該層的輸出特征圖作為Faster-RCNN的輸入數(shù)據(jù).
圖3 原始圖片F(xiàn)igure 3 Original picture
圖4 拉普拉斯卷積層輸出特征圖Figure 4 Feature map of the Laplace convolution layer
因?yàn)獒t(yī)學(xué)影像中的癌變區(qū)域通常僅有十幾個(gè)像素甚至幾個(gè)像素的大小,所以本文調(diào)整了Faster-RCNN模型中的初始錨框大小,將原始的1282、2562和5122像素大小的錨框調(diào)整為162、322和642像素大小,對(duì)比效果如圖5.
圖5 訓(xùn)練loss值對(duì)比Figure 5 Comparison of training loss values
圖5(a)是原始錨框訓(xùn)練時(shí)的loss值收斂圖,(b)是修改錨框后的loss值收斂圖,取前40 k次迭代loss值下降情況來(lái)看,修改錨框后,收斂速度明顯加快,這樣可以提高訓(xùn)練速度,也有利于模型學(xué)習(xí)數(shù)據(jù)中的細(xì)節(jié)信息.模型訓(xùn)練結(jié)果如表3所示.
表3 實(shí)驗(yàn)結(jié)果
在醫(yī)學(xué)影像數(shù)據(jù)中,僅有癌變區(qū)域和背景區(qū)域,所以使用平均正確率(Average Precision, AP)[14]作為評(píng)價(jià)指標(biāo),由表3可以看出,經(jīng)過(guò)數(shù)據(jù)擴(kuò)增的訓(xùn)練集B在添加了拉普拉斯卷積層的Faster-RCNN模型上得到AP=52.6%的測(cè)試精度,能夠達(dá)到輔助診斷的效果,同時(shí),相較原始訓(xùn)練集A在Faster-RCNN上得到的測(cè)試精度,總體可以提高約11.1%的AP值.部分測(cè)試圖像效果如圖6.
圖6 結(jié)節(jié)檢測(cè)實(shí)例Figure 6 Nodule detection example
將檢測(cè)閾值p設(shè)置為0.8,可以看到訓(xùn)練得到的模型可以檢測(cè)出圖6前四張圖的癌變區(qū)域,且檢測(cè)概率較高,實(shí)現(xiàn)了輔助診斷的效果.對(duì)于圖6(e)的癌變區(qū)域漏檢,因?yàn)閳D中的癌變區(qū)域過(guò)小,模型得到的概率過(guò)低,無(wú)法檢測(cè),這也是Faster-RCNN應(yīng)用于癌癥檢測(cè)中存在的問(wèn)題.
深度學(xué)習(xí)應(yīng)用于計(jì)算機(jī)輔助診斷是一個(gè)新興的研究領(lǐng)域,本文將Faster-RCNN應(yīng)用于醫(yī)學(xué)癌癥影像的檢測(cè),在LIDC-IDRI數(shù)據(jù)集上實(shí)現(xiàn)癌癥檢測(cè)的目的,并通過(guò)添加拉普拉斯卷積層等方式提升了檢測(cè)效果.但是對(duì)于小目標(biāo)結(jié)節(jié)的檢測(cè)效果不理想,存在漏檢和檢測(cè)率低的情況,這將是下一步的研究方向.