胡小洋, 劉 穎, 倪春霞, 陳 淑, 董彬彬
(1.上海理工大學健康科學與工程學院, 上海 200093;2.上海伽瑪醫(yī)院放療科, 上海 200235;3.上海伽瑪醫(yī)院放射科, 上海 200235)
橋小腦角區(qū)(Cerebellopontine Angle,CPA)是顱內(nèi)腫瘤好發(fā)的部位之一,發(fā)病率約占顱內(nèi)腫瘤的10%[1]。橋小腦角區(qū)的結(jié)構(gòu)復雜,病變的組織來源較多,常見的腫瘤有聽神經(jīng)瘤和腦膜瘤。其中,聽神經(jīng)瘤約占橋小腦角區(qū)腫瘤的80%,腦膜瘤占10%~15%[2]。磁共振影像(Magnetic Resonance Imaging,MRI)可以準確地顯示解剖結(jié)構(gòu),反映組織病理學特征,并具有高軟組織對比度和無顱骨偽影影響的特點,在橋小腦角區(qū)腫瘤診斷中發(fā)揮的作用尤為突出。橋小腦角區(qū)聽神經(jīng)瘤和腦膜瘤的MRI表現(xiàn)和臨床表現(xiàn)相似,所以對病變的診斷有一定的難度,高度依賴臨床醫(yī)生的經(jīng)驗和知識。
隨著深度學習技術(shù)的發(fā)展,已有大量的基于醫(yī)學圖像的分析處理網(wǎng)絡模型[3-5]。VGG-net由牛津大學的Visual Geometry Group提出,表明增加網(wǎng)絡深度可以在一定程度上提升網(wǎng)絡性能,VGG-net是在圖像特征提取、分類性能中表現(xiàn)良好的網(wǎng)絡結(jié)構(gòu)[6]。目前,對基于深度學習診斷橋小腦角區(qū)腫瘤的研究不多,利用深度學習技術(shù)實現(xiàn)對橋小腦角區(qū)腫瘤的分類,可以為臨床診斷提供幫助,提升臨床診斷的準確率和工作效率。本研究基于VGG-net的優(yōu)點,構(gòu)建s-VGG深度學習分類模型,采用橫斷位T1WI(T1 Weighted Imaging)增強圖像和T2WI(T2 Weighted Imaging)圖像,完成對橋小腦角區(qū)聽神經(jīng)瘤和腦膜瘤的分類任務。在分類模型結(jié)果的基礎上,集合放射科及放療科臨床醫(yī)生的診斷結(jié)果,建立深度學習輔助臨床診斷模型;該診斷模型綜合深度學習與臨床的診斷結(jié)果,給出最終的腫瘤診斷,可以降低腫瘤誤診率,提升診斷的準確率和臨床工作的效率。
本研究的腫瘤影像數(shù)據(jù)采集于上海某醫(yī)院放射科,回顧性地收集了2015—2018年的經(jīng)病理或臨床診斷確診為橋小腦角區(qū)聽神經(jīng)瘤和腦膜瘤的病例,共收集聽神經(jīng)瘤427例和腦膜瘤116例,本研究過程中遵守國家生物醫(yī)學研究倫理標準。
所有病例的MRI圖像采集均使用美國GE公司的SignaHDxt 1.5 T磁共振掃描儀,采用單通道頭部線圈,T1WI增強序列的掃描參數(shù)如下:掃描層厚2 mm,層間距為0 mm,重復時間(Repetition Time,TR)為580 ms,回波時間(Echo Time,TE)為8 ms,矩陣大小為256×256,掃描視野(Field Of View,FOV)為280 mm×280 mm,激勵次數(shù)為2,回波鏈長度(Echo Train Length,ETL)為3,帶寬(Bandwidth,BW)為25 kHz。對比劑使用釓噴酸葡胺注射液(北京北陸藥業(yè)股份有限公司生產(chǎn)),注射劑量為0.2 ml/kg,通過肘前靜脈以1.5 ml/s的速率注入。T2WI序列的掃描參數(shù)如下:掃描層厚2 mm,層間距為0 mm,TR為5 000 ms,TE為100 ms,矩陣大小為256×256,FOV為280 mm×280 mm,激勵次數(shù)為2,ETL為3,BW為25 kHz。
收集的病例通過影像歸檔和通信系統(tǒng)(Picture Archiving and Communication System,PACS)中導出,利用MicroDicom軟件讀取病例圖像,剔除不含有病灶或顯示不清楚的圖像,篩選后導出并以JPG格式儲存。共收集聽神經(jīng)瘤T1WI增強圖像、T2WI圖像各2 725張,腦膜瘤T1WI增強圖像、T2WI圖像各909張。
使用MATLAB軟件對圖像進行預處理。根據(jù)圖像的旋轉(zhuǎn)不變性,對圖像進行旋轉(zhuǎn)以擴充數(shù)據(jù)集,采用imrotate函數(shù)對圖像進行旋轉(zhuǎn)批處理,分別設置旋轉(zhuǎn)參數(shù)為90°、180°、270°,得到旋轉(zhuǎn)后的圖像。如圖1所示,圖1(a)為原圖像,圖1(b)為90°旋轉(zhuǎn)圖像,圖1(c)為180°旋轉(zhuǎn)圖像,圖1(d)為270°旋轉(zhuǎn)圖像。經(jīng)處理后,數(shù)據(jù)集共包含聽神經(jīng)瘤T1WI增強圖像、T2WI圖像各10 900張,腦膜瘤T1WI增強圖像、T2WI圖像各3 636張。
(a)原圖像
(b)90°旋轉(zhuǎn)圖像
(c)180°旋轉(zhuǎn)圖像
(d)270°旋轉(zhuǎn)圖像
使用T1WI增強圖像和T2WI圖像制作深度學習數(shù)據(jù)集,共建立T1WI增強和T2WI兩個深度學習數(shù)據(jù)集,分別按照8∶1∶1的比例劃分為訓練集(training set)、驗證集(validation set)和測試集(test set)。對于T1WI增強數(shù)據(jù)集和T2WI數(shù)據(jù)集,訓練集中有聽神經(jīng)瘤圖像8 720張、腦膜瘤圖像2 910張,驗證集中有聽神經(jīng)瘤圖像1 090張、腦膜瘤圖像363張,測試集中有聽神經(jīng)瘤圖像1 090張、腦膜瘤圖像363張。其中,training set的作用是訓練模型,validation set的作用是在訓練中驗證模型,對模型參數(shù)進行調(diào)整,test set的作用是在模型訓練結(jié)束后,評估模型指標,測試模型性能。
VGG-net相比以往的神經(jīng)網(wǎng)絡,改進之處在于使用了小卷積核,堆疊采用3×3的卷積核代替較大的卷積核,兩個3×3的卷積核串聯(lián)相當于一個5×5的卷積核,三個3×3的卷積核串聯(lián)相當于一個7×7的卷積核,串聯(lián)的3×3卷積核相比大卷積核使用了更小的參數(shù)量,并且擁有更多的非線性變化,使網(wǎng)絡對圖像的特征學習能力更強;VGG-net使用了更小的2×2的池化層,小池化層更容易捕捉圖像中梯度的變化,能提升對局部信息差異性的感知,使模型能更好地學習圖像邊緣的細節(jié)信息。小卷積核增大了特征圖通道數(shù),小池化層縮小了特征圖的高和寬,使VGG-net可以建立更深層次的網(wǎng)絡模型,在一定程度上提升了模型性能;VGG-net采用了全連接層,并剔除了作用不明顯的局部響應歸一化層(Local Response Normalization,LRN)。
圖2為VGG-net網(wǎng)絡示意圖。如圖2所示,VGG-net的數(shù)據(jù)處理流程如下:①輸入圖像先通過2層64×3×3卷積,經(jīng)過ReLU激活;②最大池化層,2層128×3×3卷積,ReLU激活;③最大池化層,3層256×3×3卷積,ReLU激活;④最大池化層,3層512×3×3卷積,ReLU激活;⑤最大池化層,3層512×3×3卷積,ReLU激活;⑥經(jīng)最大池化層后,2層1×1×4 096的全連接層,ReLU激活;⑦經(jīng)1×1×1 000的全連接層,由Softmax函數(shù)輸出1 000個分類結(jié)果。
圖2 VGG-net網(wǎng)絡示意圖Fig.2 Sketch map of VGG-net network
VGG-net的缺點是參數(shù)量過大,導致計算資源耗費大,模型訓練時間長,參數(shù)調(diào)整難度大。因此,本文構(gòu)建了s-VGG網(wǎng)絡模型。
s-VGG模型借鑒VGG-net的優(yōu)點,使用小卷積核和小池化層,減少計算量的同時增加了網(wǎng)絡深度。s-VGG添加了dropout層,參數(shù)為0.25,作用是隨機切斷當前神經(jīng)網(wǎng)絡層節(jié)點與下一神經(jīng)網(wǎng)絡層節(jié)點間的連接,概率為25%,隨機切斷的過程幫助網(wǎng)絡降低了過擬合的可能性;使用Batch Normalization(BN)層對數(shù)據(jù)進行批標準化處理,在神經(jīng)網(wǎng)絡訓練過程中使每一層的神經(jīng)網(wǎng)絡的輸入保持相同的分布,可以在一定程度上緩解深層網(wǎng)絡中“特征分布彌散”的問題,提高模型訓練速度并加快模型的收斂。BN層采用類似正態(tài)分布歸一化的方法對數(shù)據(jù)進行批標準化處理,公式如下:
(1)
其中:X為原批處理數(shù)據(jù),X*為BN層處理后的數(shù)據(jù),μ為批處理數(shù)據(jù)的均值,σ2為批處理數(shù)據(jù)的方差,ε為避免除數(shù)為0而添加的微小正數(shù);因歸一化后的數(shù)據(jù)基本被限制在正態(tài)分布下,使網(wǎng)絡的表達能力下降,故引入?yún)?shù)γ和β解決上述問題,γ為尺度因子,β為平移因子,這兩個參數(shù)由模型在訓練中得到。
s-VGG采用Sigmoid函數(shù)輸出,訓練中使用Binary cross entropy二元交叉熵損失函數(shù)Loss,公式如下:
其中:yi表示二元標簽0或1,p(yi)表示輸出屬于yi的概率。
本研究構(gòu)建的s-VGG的網(wǎng)絡示意圖如圖3所示。網(wǎng)絡在每個卷積層后增加一個BN層進行數(shù)據(jù)的批標準化處理。在池化層后添加Dropout層,按照25%的概率隨機切斷神經(jīng)網(wǎng)絡節(jié)點的連接。
圖3 s-VGG網(wǎng)絡示意圖Fig.3 Sketch map of s-VGG network
本研究模型環(huán)境為Windows 10操作系統(tǒng),Intel(R) Core(TM) i5-9400F CPU,32.0 GB內(nèi)存,編譯軟件為PyCharm,編譯環(huán)境為Python 3.7。使用s-VGG網(wǎng)絡分別訓練橋小腦角區(qū)聽神經(jīng)瘤和腦膜瘤的T1WI增強數(shù)據(jù)集和T2WI數(shù)據(jù)集。將訓練得到的模型記為s-VGG-T1、s-VGG-T2。
為驗證s-VGG-T1、s-VGG-T2兩個分類模型的精度,采用精確率(precision,P)、召回率(recall,R)、特異性(specificity,S)三個指標進行評估。
在測試集中對兩個分類模型進行評估。設定以聽神經(jīng)瘤為正樣本,腦膜瘤為負樣本。TP(True Positive)為聽神經(jīng)瘤分類正確,TN(True Negative)為腦膜瘤分類正確,FP(False Positive)為腦膜瘤被分類為聽神經(jīng)瘤,FN(False Negative)為聽神經(jīng)瘤被分類為腦膜瘤。
P、R、S的計算公式如下:
(3)
(4)
(5)
s-VGG-T1和s-VGG-T2分類模型訓練的epochs為100,學習率(Learning Rate,LR)為1e-3。如圖4所示,圖4(a)為s-VGG-T1模型訓練中train set和validation set的loss曲線,圖4(b)為s-VGG-T2模型訓練中train set和validation set的loss曲線,train set和validation set的loss曲線在圖4中表示為train_loss和val_loss。兩個模型的loss曲線均收斂良好。
(a)s-VGG-T1模型loss曲線
(b)s-VGG-T2模型loss曲線圖4 兩個模型的loss曲線Fig.4 Loss curve of two models
表1中的數(shù)據(jù)為s-VGG-T1和s-VGG-T2兩個分類模型的評價指標,可以看到s-VGG-T1的P、R、S指標分別為0.937、0.839、0.829,s-VGG-T2的P、R、S指標分別為0.925、0.810、0.802,兩個模型均具有較好的分類指標。
表1 兩個模型的評價指標
s-VGG-T1和s-VGG-T2兩個分類模型的橋小腦角區(qū)聽神經(jīng)瘤和腦膜瘤的分類結(jié)果如圖5所示。其中:圖5(a)為s-VGG-T1分類的聽神經(jīng)瘤,圖5(b)為s-VGG-T1分類的腦膜瘤,圖5(c)為s-VGG-T2分類的聽神經(jīng)瘤,圖5(d)為s-VGG-T2分類的腦膜瘤。標簽an表示聽神經(jīng)瘤(Acoustic Neuroma),標簽mg表示腦膜瘤(Meningioma),數(shù)值表示此標簽出現(xiàn)的概率。
(a)s-VGG-T1分類的聽神經(jīng)瘤
(b)s-VGG-T1分類的腦膜瘤
(c)s-VGG-T2分類的聽神經(jīng)瘤
(d)s-VGG-T2分類的腦膜瘤
醫(yī)學影像的臨床診斷工作中,主要的診斷方法仍是依賴臨床醫(yī)生人工閱片,并不能滿足當前影像數(shù)據(jù)的增長速度。在面對大量的影像數(shù)據(jù)時,人工判斷方式很可能出現(xiàn)偏差,得出錯誤的結(jié)論。
聽神經(jīng)瘤的治療方式中,立體定向放射治療(Stereotactic Radiosurgery,SRS)目前已成為聽神經(jīng)瘤的有效治療方式,表現(xiàn)出良好的腫瘤控制率和較低的副作用,可以作為手術(shù)的替代治療技術(shù),表現(xiàn)出巨大的優(yōu)勢和潛力[7]。腦膜瘤的最佳治療方式是顯微手術(shù)治療(Microsurgery,MS),但在臨床中,橋小腦角區(qū)腦膜瘤毗鄰重要組織結(jié)構(gòu)而難以手術(shù),所以對聽神經(jīng)瘤和腦膜瘤的治療,會有放射治療(Radiotherapy,RT)的參與,放療科醫(yī)生對兩種腫瘤的診斷意見也比較重要。
多學科診療(Multi-Disciplinary Team,MDT)是由多學科資深醫(yī)生以共同討論的方式,為患者診療提出個體化方案[8]。傳統(tǒng)對于腫瘤患者的診療受限于臨床各科室的專業(yè)分工,科室間的聯(lián)系不足,患者的綜合治療難以實施或綜合治療的效果難以保證。多學科診療模式可以聚合各科室專家討論患者的診療方向,為患者提供規(guī)范化、個體化的綜合腫瘤治療方案。MDT模式的優(yōu)勢在于集中各科室專家討論診斷結(jié)果,提高了診斷的準確性,并降低醫(yī)生誤診的可能性,有利于各科室間資源整合,實現(xiàn)資源共享。
本研究基于深度學習結(jié)果,仿照MDT模式構(gòu)建深度學習輔助診斷模型DL-MDT(Deep Learning based Multi-Disciplinary Team)。診斷模型中集合了s-VGG-T1分類結(jié)果、s-VGG-T2分類結(jié)果、放射科醫(yī)生診斷意見、放療科醫(yī)生診斷意見。分類模型的結(jié)果由腫瘤識別圖得出,腫瘤識別圖對某一類別的識別概率大于等于50%時,即為分類模型的結(jié)果。臨床醫(yī)生的診斷意見基于腫瘤的T1WI增強圖像、T2WI圖像和臨床癥狀,通過對MRI圖像多方位的閱片并結(jié)合臨床表現(xiàn),給出當前圖像的腫瘤診斷。DL-MDT模型流程如圖6所示。
圖6 DL-MDT模型流程圖Fig.6 Flow chart of DL-MDT model
針對分類模型和臨床醫(yī)生的診斷結(jié)果,將診斷為聽神經(jīng)瘤的結(jié)果記為1、診斷為腦膜瘤的結(jié)果記為0,最終模型的輸出是兩個分類模型結(jié)果和放射科、放療科醫(yī)生診斷結(jié)果的加權(quán)求和結(jié)果,各個診斷結(jié)果的權(quán)重值之和為1,所以最終的輸出結(jié)果是0~1的一個值。若最終結(jié)果大于等于0.5,則認為模型最終診斷為聽神經(jīng)瘤,反之為腦膜瘤。加權(quán)求和公式如下:
Result=RT1×wT1+RT2×wT2+Rro×wro+Rrt×wrt
(6)
RT1表示s-VGG-T1的分類結(jié)果,RT2表示s-VGG-T2的分類結(jié)果,Rro表示放射科醫(yī)生的診斷結(jié)果,Rrt表示放療科醫(yī)生的診斷結(jié)果;w為各結(jié)果對應的權(quán)重值,經(jīng)與臨床醫(yī)生的綜合決定,將wT1、wT2、wro、wrt的權(quán)重值均定為0.25。
DL-MDT模型對10例腫瘤病例進行診斷,結(jié)果見表2。從表2中結(jié)果可知,病例2和病例6中s-VGG-T2的分類出現(xiàn)錯誤,病例5和病例7中臨床醫(yī)生的診斷出現(xiàn)錯誤,但DL-MDT模型最終給出的診斷正確率為100%,表明DL-MDT模型可以輔助臨床診斷,降低誤診率。
表2 DL-MDT模型診斷結(jié)果
橋小腦角區(qū)是顱內(nèi)腫瘤的好發(fā)部位之一,其中聽神經(jīng)瘤和腦膜瘤是常見的兩種腫瘤。聽神經(jīng)瘤和腦膜瘤患者會患有橋小腦角區(qū)綜合征,出現(xiàn)頭痛、耳鳴、聽力下降、走路不穩(wěn)等臨床表現(xiàn)。兩種腫瘤的MRI表現(xiàn)和臨床癥狀類似,對腫瘤的診斷有一定的難度,易導致誤診。
基于深度學習的醫(yī)學影像是當下的熱點研究領域。HERENT等[9]基于深度學習對乳腺MRI中的腫塊進行分類評估,共分為乳腺、良性病變、浸潤性導管癌和其他惡行病變四類,模型評估結(jié)果AUC值為0.816,表現(xiàn)出良好的分類能力。趙尚義等[10]提出3D CNN網(wǎng)絡對MRI圖像的膠質(zhì)瘤進行分類,在BraTS 2018數(shù)據(jù)集中的低級別膠質(zhì)瘤和高級別膠質(zhì)瘤的分類準確率達到91.67%,說明此模型在低級別膠質(zhì)瘤和高級別膠質(zhì)瘤分類領域取得了良好的成果。本文構(gòu)建的s-VGG網(wǎng)絡,在借鑒VGG-net網(wǎng)絡優(yōu)點的同時增加了Dropout層和BN層,降低了訓練過程中過擬合現(xiàn)象的發(fā)生,提升了模型訓練速度及收斂速度。對T1WI增強數(shù)據(jù)集和T2WI數(shù)據(jù)集的訓練得到s-VGG-T1和s-VGG-T2兩個分類模型,在測試集的評估中,s-VGG-T1的P、R、S值分別為0.937、0.839、0.829,s-VGG-T2的P、R、S值分別為0.925、0.810、0.802,對橋小腦角區(qū)聽神經(jīng)瘤和腦膜瘤的分類達到了較好的效果。
在分類模型結(jié)果的基礎上,本文依照MDT的模式構(gòu)建了橋小腦角區(qū)聽神經(jīng)瘤和腦膜瘤的深度學習輔助診斷模型DL-MDT,在對10例腫瘤的診斷中,診斷模型的準確率為100%。在病例2和病例6中,s-VGG-T2的分類結(jié)果錯誤,可能是腫瘤T2WI圖像的特征不如T1WI增強圖像明顯,導致s-VGG-T2的性能低于s-VGG-T1,分類錯誤率高。在病例5、病例7中,臨床醫(yī)生的診斷出現(xiàn)錯誤。聽神經(jīng)瘤患側(cè)的聽神經(jīng)束相比健側(cè)會明顯增粗并與腫瘤相連,聽神經(jīng)束的改變是聽神經(jīng)瘤的特征性表現(xiàn),有研究表明此改變約占聽神經(jīng)瘤的96%[11];腦膜瘤在MRI增強后,T1WI增強會出現(xiàn)腦膜尾征,產(chǎn)生的機制是腦膜瘤細胞侵入硬腦膜,致使鄰近的腫瘤充血、血管增生擴張及結(jié)締組織增生[12];腦膜瘤內(nèi)鈣化的發(fā)生率較高,聽神經(jīng)瘤內(nèi)鈣化的發(fā)生率較低。病例5、病例7中,聽神經(jīng)瘤和腦膜瘤的MRI圖像特征性表現(xiàn)不明顯,致使臨床醫(yī)生出現(xiàn)不同程度的誤診。但是,分類模型s-VGG-T1、s-VGG-T2的分類結(jié)果正確,證明通過DL-MDT給出的診斷結(jié)果正確。以上結(jié)果表明,深度學習輔助臨床診斷,可以降低臨床工作中出現(xiàn)誤診、漏診的概率。本文提出的深度學習輔助診斷模型DL-MDT具有良好的診斷性能,可提升臨床診斷的準確性和臨床工作的效率。
本文在對VGG-net網(wǎng)絡進行優(yōu)化和改進的基礎上構(gòu)建s-VGG網(wǎng)絡,采用橋小腦角區(qū)聽神經(jīng)瘤和腦膜瘤的T1WI增強圖像和T2WI圖像,分別訓練s-VGG-T1和s-VGG-T2模型。測試集中s-VGG-T1與s-VGG-T2的P、R、S指標分別達到0.937、0.839、0.829與0.925、0.810、0.802,證明模型具有良好的分類性能。在分類模型結(jié)果的基礎上,結(jié)合放射科與放療科的臨床診斷結(jié)果,構(gòu)建深度學習輔助臨床診斷模型DL-MDT,該診斷模型在10例腫瘤中的診斷準確率為100%,表明了本文構(gòu)建的DL-MDT模型具有良好的診斷性能,可以在臨床工作中提升診斷的準確性和臨床工作的效率。