唐思源,楊 敏*,劉燕茹
(1. 內(nèi)蒙古科技大學(xué)包頭醫(yī)學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)系,2. 內(nèi)蒙古科技大學(xué)包頭醫(yī)學(xué)院 醫(yī)學(xué)影像技術(shù)系,內(nèi)蒙古 包頭 014060)
胰腺癌(Pancreatic Cancer)是全球致死率較高的惡性腫瘤之一,盡早發(fā)現(xiàn)可以顯著提高患者的生存率[1]。具美國國家胰腺癌篩查試驗(yàn)的研究結(jié)果顯示,CT的檢測可以降低胰腺癌高危人群死亡率約20%,印證了CT在胰腺癌檢測方面的巨大價(jià)值[2]。目前,高精度的 CT掃描儀掃描一次患者部位可產(chǎn)生上百副圖像,放射科醫(yī)生巨大的閱片工作量導(dǎo)致誤判等情況無可避免,因此,開發(fā)一個(gè)輔助放射科醫(yī)生診斷的計(jì)算機(jī)系統(tǒng)勢在必行。
目前,專家學(xué)者們提出了很多有效的胰腺癌檢測方法,傳統(tǒng)的方法是先提取胰腺癌區(qū)域的灰度、紋理等特征,然后采用支持向量機(jī)等分類器對提取的特征進(jìn)行分類訓(xùn)練,檢測出胰腺癌[3]。傳統(tǒng)的方法,需要人為的選定圖像特征,具有很多不確定性,容易出現(xiàn)漏診、誤診等現(xiàn)象。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)重要分支,近幾年得到了迅猛發(fā)展,深度學(xué)習(xí)可以通過自主學(xué)習(xí),提取圖像的特征。卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)中較好的網(wǎng)絡(luò)模型,它不需要人工設(shè)計(jì),可以根據(jù)現(xiàn)有的數(shù)據(jù)自動(dòng)學(xué)習(xí)并提取圖像特征,較適合于大數(shù)據(jù)量的醫(yī)學(xué)圖像處理。目前,大量可用數(shù)據(jù)和高效的圖形處理器(GPU)的計(jì)算能力使得卷積神經(jīng)網(wǎng)絡(luò)在腦部、細(xì)胞、肺部等進(jìn)行分割與檢測中取得了不錯(cuò)的成就[4]。
本文利用卷積神經(jīng)網(wǎng)絡(luò)模型檢測胰腺癌,在進(jìn)行分類器訓(xùn)練時(shí),利用量子遺傳算法對網(wǎng)絡(luò)參數(shù)進(jìn)行優(yōu)化,提高胰腺癌的檢測準(zhǔn)確率。檢測胰腺癌的過程為:首先,將獲取的醫(yī)學(xué) DICOM格式圖像轉(zhuǎn)換成BMP格式圖像;然后,提取整個(gè)胰腺區(qū)域(即感興趣區(qū)域ROI);接著,對圖像進(jìn)行預(yù)處理,把處理后的圖像送入卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練;最后,優(yōu)化網(wǎng)絡(luò)模型參數(shù),提取圖像特征,再對測試集中的數(shù)據(jù)進(jìn)行檢測及分類,得出胰腺癌檢測結(jié)果。
在本節(jié)中,詳細(xì)介紹所提出的計(jì)算機(jī)輔助檢測方案。胰腺癌檢測過程如圖1所示,檢測過程分為兩個(gè)階段,學(xué)習(xí)階段和檢測階段。
圖1 胰腺癌檢測系統(tǒng)框架圖Fig.1 Panoramic cancer detection system framework
從醫(yī)院CT影像設(shè)備直接獲取的圖像是DICOM格式,需要將圖像轉(zhuǎn)換成常用的BMP或JPG格式,才能被諸如MATLAB、Photo shop等常用圖像處理軟件直接打開,再對圖像進(jìn)行降噪、檢測等后續(xù)操作。本文通過SPM和MriCro兩個(gè)軟件進(jìn)行圖像格式轉(zhuǎn)換[5],該方法操作簡單易懂,安裝后按照步驟即可轉(zhuǎn)換。該軟件能自動(dòng)適應(yīng)各種影像設(shè)備生成的圖像,經(jīng)過實(shí)驗(yàn)后,轉(zhuǎn)換后的圖像損耗少,基本包含了原有的圖像信息,完全能滿足后續(xù)圖像處理和分析的要求。
由于胰腺在人體位置的特殊性,體積也比較小,周圍相近的組織器官也比較多,因?yàn)?,把整個(gè)胰腺作為ROI進(jìn)行提取。傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)存在特征提取不充分的情況,本文應(yīng)用改進(jìn)的射線法自動(dòng)提取完整的胰腺區(qū)域。首先,將放射醫(yī)生手動(dòng)標(biāo)記的胰腺輪廓區(qū)域進(jìn)行填充并取交集;然后,把填充的輪廓區(qū)域再取交集,再與自動(dòng)獲取的相同結(jié)節(jié)的輪廓區(qū)域取交集;最后,為了更好地將取交集后的胰腺輪廓在圖像上標(biāo)記出來,提出了一種鄰域搜索方法,通過結(jié)節(jié)的區(qū)域信息提取邊界坐標(biāo),把ROI區(qū)域標(biāo)記出來,得到唯一綜合的胰腺區(qū)域輸入網(wǎng)絡(luò)模型檢測出胰腺ROI區(qū)域。
所采集的數(shù)據(jù),由于受到噪聲等因素的影響,病灶不明顯的區(qū)域很容易遺漏,遺漏的區(qū)域很可能是惡性腫瘤區(qū)域,這類樣本就被忽視后,會(huì)造成漏診現(xiàn)象。為了避免少數(shù)類樣本在收集的過程中被遺漏,造成數(shù)據(jù)不平衡,本文采用隨機(jī)采樣算法對容易遺漏的樣本數(shù)據(jù)集進(jìn)行處理,收集少數(shù)類樣本更多的樣本信息,減少少量樣本信息的丟失,保證樣本數(shù)據(jù)集中數(shù)據(jù)信息的全面及平衡。
應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練數(shù)據(jù)集,需要大數(shù)據(jù)量的樣本支持,從醫(yī)院獲得的數(shù)據(jù)樣本有限,本文通過水平、垂直翻轉(zhuǎn)、平移變換等方法[6]擴(kuò)大數(shù)據(jù)量,增加訓(xùn)練樣本的數(shù)量,提高網(wǎng)絡(luò)的泛化能力。
卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)由輸入層、卷積層、池化層、全連接層以及分類器組成[7]。輸入層用來接受預(yù)處理后的ROI區(qū)域,對輸入圖像進(jìn)行歸一化處理后,選取40 pixel×40 pixel大小的圖像塊可以將胰腺區(qū)域完全包含在內(nèi)。選取6層卷積層提取圖像的特征,為了提取更豐富的特征,對每一個(gè)卷積層提取的特征進(jìn)行融合,最終得到融合后的特征圖。通過引入的池化層的最大池化方法對特征圖進(jìn)行精簡以降低訓(xùn)練的復(fù)雜度,在減少特征數(shù)目的同時(shí),保留了主要特征。全連接層通過神經(jīng)元將前面的卷積層及池化層進(jìn)行全連接,將獲取的特征傳遞給分類器得出分類結(jié)果,在全連接層加入 PRelu(parametric rectified linear unit)激勵(lì)函數(shù)[8],可以增強(qiáng)網(wǎng)絡(luò)的泛化能力,避免過擬合的產(chǎn)生。在卷積神經(jīng)網(wǎng)絡(luò)中采用Softmax分類器計(jì)算分類概率,最終得出檢測結(jié)果。
掘進(jìn)機(jī)試驗(yàn)樣機(jī)的遠(yuǎn)程控制可由控制中心通過自動(dòng)控制算法的計(jì)算實(shí)現(xiàn)自動(dòng)控制,若試驗(yàn)過程中沒有智能算法,通過遙控手柄進(jìn)行控制更加方便,遙控手柄如圖3所示??刂菩盘?hào)在光纖上的透明傳輸,大幅延長控制距離。
本文的研究是在 Matlab2010a的環(huán)境下進(jìn)行實(shí)驗(yàn)的。實(shí)驗(yàn)的硬件環(huán)境為:CPU Intel Core i5-2520M,顯存 2G。實(shí)驗(yàn)中所使用的數(shù)據(jù)來自包頭第一附屬醫(yī)院影像科,所獲得的數(shù)據(jù)都是經(jīng)過醫(yī)院批準(zhǔn)同意,免簽患者知情同意書,無任何糾紛,所采集的 CT圖像病灶清晰、有醫(yī)生標(biāo)注。數(shù)據(jù)都是64層CT機(jī)掃描獲得,層間距為2 mm,格式為DICOM,總共采集的樣本數(shù)為120例,其中胰腺癌37例,胰腺炎49例,正常的34例。
對數(shù)據(jù)進(jìn)行預(yù)處理后,把實(shí)驗(yàn)數(shù)據(jù)集隨機(jī)均勻的劃分為訓(xùn)練集和測試集兩組,訓(xùn)練集62例(癌癥19例,非癌癥43例),測試集58例(癌癥17例,非癌癥41例)。但考慮到隨機(jī)的將原始數(shù)據(jù)分組,測試集分類準(zhǔn)確率的高低與原始數(shù)據(jù)的分組有很大關(guān)系,因此將多次均分訓(xùn)練集和測試集,降低有限樣本帶來的誤差,計(jì)算均方誤差這一指標(biāo),說明算法的有效性。
卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程分為前向傳播和反向傳播兩個(gè)階段[9],前向傳播主要是收集特征并把特征傳遞給不同的網(wǎng)絡(luò)層,反向傳播主要是調(diào)整網(wǎng)絡(luò)結(jié)構(gòu),保證特征信息傳遞無誤,其詳細(xì)的訓(xùn)練過程如下:
(1)前向傳播的公式為:
ul表示當(dāng)前層,f表示ReLU函數(shù), xl表示輸出層, xl-1表示輸出層的上一層, Wl和bl表示權(quán)值和偏置兩個(gè)參數(shù)。前向傳播通過不斷改變權(quán)值和偏置值提取圖像的特征,把特征送給下一個(gè)網(wǎng)絡(luò)層。
(2)反向傳播的公式為:
δl表示l層殘差值,yn表示n個(gè)數(shù)據(jù)樣本輸出結(jié)果, tn表示n個(gè)樣本中得到正確訓(xùn)練的值,f′表示激活函數(shù)。反向傳播就是不斷計(jì)算每一層的梯度值,優(yōu)化網(wǎng)絡(luò)模型,使實(shí)際輸出與理想輸出誤差達(dá)到最小的過程。反向傳播的過程是從后向前,通過不斷調(diào)整參數(shù),使損失函數(shù)最小,反向傳播算法過程如下所示:
Begin:
參數(shù)的選擇對網(wǎng)絡(luò)結(jié)構(gòu)的影響很大,其中卷積核尺寸的大小是影響網(wǎng)絡(luò)模型檢測的重要因素,本文在保證其它參數(shù)不變的情況下,利用3*3,5*5,7*7,9*9和11*11尺寸的卷積核訓(xùn)練網(wǎng)絡(luò)模型。實(shí)驗(yàn)結(jié)果表明,不斷增加卷積核尺寸可以提高檢測的準(zhǔn)確率,但是增大到一定尺寸,準(zhǔn)確率趨于不變后,但訓(xùn)練耗時(shí)變長,因此選擇5*5的卷積核尺寸較為合適,可以保證準(zhǔn)確率高的前提下,獲得較好的網(wǎng)絡(luò)模型。加入優(yōu)化算法也可以提高網(wǎng)絡(luò)的收斂速度,本文通過選擇 Adadelta、Adagrad、Adam、Nadam四種優(yōu)化算法[10]驗(yàn)證網(wǎng)絡(luò)結(jié)構(gòu)的檢測性能,實(shí)驗(yàn)結(jié)果表明,加入Adagrad優(yōu)化算法后,網(wǎng)絡(luò)模型的檢測準(zhǔn)確率最高,收斂速度也快。
為了解決學(xué)習(xí)模型中數(shù)據(jù)量不足的問題,應(yīng)用遷移學(xué)習(xí)思想[11]調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)、參數(shù)及權(quán)值后,實(shí)現(xiàn)小規(guī)模數(shù)據(jù)集的遷移訓(xùn)練。遷移學(xué)習(xí)訓(xùn)練的流程為:首先,收集大數(shù)據(jù)量數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,采用遷移學(xué)習(xí)方法獲得圖像的特征及參數(shù),并初始化小數(shù)據(jù)集模型。然后,應(yīng)用 BP算法與隨機(jī)梯度下降算法相結(jié)合對網(wǎng)絡(luò)模型結(jié)構(gòu)進(jìn)行過程的微調(diào)整。最后,選擇 Softmax激活函數(shù)結(jié)合分類器輸出檢測識(shí)別結(jié)果。
最終的實(shí)驗(yàn)結(jié)果需要客觀的評價(jià)參數(shù)來判斷實(shí)驗(yàn)的可行性及檢測性能。本文采用正確率(Accuracy,ACC)、靈敏度(Sensitivity,SN)、特異度(Specificity,SP)、FROC曲線下與坐標(biāo)軸圍成的面積AUC(Area Under Curve)來評估實(shí)驗(yàn)結(jié)果,相關(guān)的概念描述如下。
ACC表示全部的樣本都被正確檢測出的概率;SN表示靈敏度,又稱真陽率,表示所有正樣本數(shù)被檢測出的準(zhǔn)確率,是將真患病者準(zhǔn)確地判斷為真陽性的比例,若SN越高,誤診率越小;SP表示特異度,又稱假陽率,表示所有負(fù)樣本數(shù)被檢測出的準(zhǔn)確率,是將未患病者準(zhǔn)確地判斷為真陰性的比例,若SP值越大,漏診率越小。AUC是指FROC曲線下方的面積,AUC的取值范圍為0~1,值越大,說明檢測性能越好。
為了驗(yàn)證本方案的可行性,與 BP神經(jīng)網(wǎng)絡(luò)、傳統(tǒng)SVM分類器進(jìn)行性能比較,對比實(shí)驗(yàn)結(jié)果如表1所示。結(jié)果顯示,利用本方案的網(wǎng)絡(luò)模型,相比于已有的網(wǎng)絡(luò)模型檢測胰腺癌的準(zhǔn)確率、真陽率、假陽率都有所提高,有效的降低了誤診率和漏診率,AUC面積值也最大。實(shí)驗(yàn)結(jié)果表明,本方案提出的網(wǎng)絡(luò)結(jié)構(gòu)具有更好的胰腺癌檢測能力。
表1 不同網(wǎng)絡(luò)模型在數(shù)據(jù)集上的結(jié)果Tab.1 Results of different network models on data sets
本文設(shè)計(jì)出一種有效、可行的基于 CT圖像的胰腺癌檢測方案,該方案可以輔助醫(yī)生檢測胰腺癌并給出客觀的診斷意見,減輕醫(yī)生的工作量,提高診斷的準(zhǔn)確性。研究的主要內(nèi)容包括:收集病變CT圖像,建立起實(shí)驗(yàn)樣本數(shù)據(jù)庫;提取整體胰腺區(qū)域作為感興趣區(qū)域;構(gòu)建基于卷積神經(jīng)網(wǎng)絡(luò)的胰腺癌分類模型,對圖像進(jìn)行預(yù)處理,根據(jù)胰腺癌圖像特征,選擇樣本數(shù)據(jù)庫中的合適圖像,構(gòu)建訓(xùn)練集,把訓(xùn)練集放入卷積神經(jīng)網(wǎng)絡(luò)模型中學(xué)習(xí)訓(xùn)練,構(gòu)建測試集,驗(yàn)證提出的網(wǎng)絡(luò)模型可以檢測出胰腺癌;制定胰腺癌檢測系統(tǒng)評價(jià)標(biāo)準(zhǔn),實(shí)驗(yàn)驗(yàn)證該算法的有效性,得出測試圖像的分類結(jié)果,證明本文提出的基于卷積神經(jīng)網(wǎng)絡(luò)的胰腺癌檢測方案是一種可行的、有效的胰腺癌早期診斷方法。