楊 潔,胡明娣,李 立,翟曉紅,許天倚,張中茂
1.西安郵電大學 通信與信息工程學院,西安710121
2.中山大學 腫瘤防治中心,廣州510060
3.深圳市坪山區(qū)婦幼保健院,廣東 深圳518022
根據(jù)2018 年全球癌癥統(tǒng)計報告可知:女性乳腺癌的發(fā)病率和死亡率均居女性癌癥發(fā)病和死亡的首位[1]。研究表明:早發(fā)現(xiàn)、早診斷以及早治療能提高乳腺癌存活率,降低死亡率[2]。目前常用的乳腺成像技術(shù)有乳腺鉬靶X成像、超聲成像、核磁共振等,由于乳腺鉬靶X成像低輻射、低成本和較高的分辨率被認為是早期發(fā)現(xiàn)和診斷乳腺癌的金標準[3]。乳腺腫塊和鈣化是乳腺癌的早期征象,通常腫塊邊緣模糊,大小不一,鈣化面積較小,灰度和對比度較低[4],而且,由于我國女性乳房大多為致密性乳腺為主[5],乳腺腫塊、鈣化與正常腺體重疊,上述征象依靠人工肉眼不易辨認,這導致醫(yī)生確診腫塊、鈣化、腫塊鈣化更加困難,因此容易出現(xiàn)誤診、漏診等情況,耽誤患者最佳治療時期。
近年來,隨著計算機技術(shù)的飛速發(fā)展,深度學習在圖像處理方面正不斷取得突破性進展[6]。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[7]從AlexNet[8]到VGGNet[9],在從GooleNet[10]到ResNet[11],在解決圖像分類問題上有了突破性的進展。相對于CNN具有非常強的圖像特征自動提取能力,可以提取較高等級的特征[12],在醫(yī)學圖像領(lǐng)域得到了廣泛應(yīng)用[13-16]。
CNN端對端的訓練已被廣泛應(yīng)用到乳腺影像分類上。例如:孫利雷[17]等提出適用于X射線乳腺腫塊雙路徑卷積神經(jīng)網(wǎng)絡(luò)是為了區(qū)分腫塊良惡性之間的細微差距,在MIAS(Mammographic Image Analysis Society Digital Mammogram Database,MIAS)和DDSM(Digital Database for Screening Mammography)[18]中提取997個良性腫塊和984 個腫塊進行分類,AUC 達到了0.712 9。Jiao等[19]將使用CNN模型提取乳腺鉬靶不同層次特征,將第五層卷積層和第七層全連接層進行特征融合,將融合后的特征使用SVM 分類器分類,在DDSM 數(shù)據(jù)集抽取600 張乳腺鉬靶圖片進行分類,達到了97.6%的分類準確率。魏鑫磊等[20]等根據(jù)乳腺組織特點,將乳腺鉬靶圖像分為脂肪型、致密型和過渡型,在MIAS 數(shù)據(jù)集取得了66.9%的分類精度。孫澤宇等[21]使用DDSM 乳腺鉬靶數(shù)據(jù)集,然后將乳腺鉬靶切塊采樣得到切塊數(shù)據(jù),將切塊數(shù)據(jù)進行良性腫塊、惡性腫塊、良性鈣化、惡性鈣化分類,使用ResNet-50、inception v3和VGG-16訓練和測試,取得了高準確率。Jiao 等[22]提出了一種用于乳腺腫塊良惡性分類的聯(lián)合深度度量學習神經(jīng)網(wǎng)絡(luò)。該神經(jīng)網(wǎng)絡(luò)由CNN 層和度量學習層組成,提高了整個深層網(wǎng)絡(luò)的分類性能,取得了高準確率。
前文提到的經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)直接使用提取到的高級特征對乳腺鉬靶圖像進行多分類,分類準確率不高。受不同層次特征融合能夠豐富圖像細節(jié)信息的啟發(fā),借鑒殘差網(wǎng)絡(luò)中殘差結(jié)構(gòu)方法,本文提出了“人型”網(wǎng)絡(luò)結(jié)構(gòu)。用“人型”網(wǎng)絡(luò)結(jié)構(gòu)對乳腺鉬靶圖像進行四分類,識別出良性腫塊、惡性腫塊、惡性鈣化、惡性腫塊鈣化。在人型網(wǎng)絡(luò)中,下身從原始圖像中提取邊緣、紋理、顏色、亮度等低級特征,上身逐步返回圖像形式的特征圖,頭部提取抽象的包含豐富語義信息的更高級特征。在網(wǎng)絡(luò)返回圖像形式特征圖和提取更高級特征的同時使用跨層連接使圖像所有深度特征進行多次融合以提高特征的多樣性,最終將融合的特征經(jīng)過全局最大池化層進行全局池化并經(jīng)Softmax 分類器得到最終分類,以此來提高圖像分類準確率。
本文通過構(gòu)建帶有殘差結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)“人型”網(wǎng)絡(luò)模型,實現(xiàn)乳腺鉬靶影像進行四分類研究,流程如圖1 所示。可以看出,通過“人型”網(wǎng)絡(luò),訓練提取圖像的有效特征,根據(jù)每次迭代卷積、下采樣和反池化操作自動調(diào)節(jié)網(wǎng)絡(luò)參數(shù),將下身、上身和頭部不同特征進行融合學習;最后,采用Softmax分類器實現(xiàn)特征分類,完成乳腺鉬靶四分類。
圖1 本文方法流程圖
眾所周知,網(wǎng)絡(luò)越深越復雜,通過大量網(wǎng)絡(luò)參數(shù)訓練時越容易產(chǎn)生過擬合[23-24]。本文為得到高級特征和低級特征的特征融合,構(gòu)建了多個殘差結(jié)構(gòu),以下身第四個堆疊卷積層至上身第一個堆疊卷積層為例,如圖2所示,上身反池化后的輸出為:
其中,F(xiàn)(x)為乳腺鉬靶圖像下身第四個堆疊卷積至上身第一個堆疊卷積后結(jié)果,x代表輸入,在人型網(wǎng)絡(luò)中下身第四個堆疊卷積后分支為殘差結(jié)構(gòu),主徑通過兩個堆疊卷積層用于提取乳腺鉬靶的深層特征,支路保留淺層特征,最終使淺層特征和深層特征融合。
圖2 殘差結(jié)構(gòu)
本文構(gòu)建了帶有殘差結(jié)構(gòu)的“人型”網(wǎng)絡(luò),如圖3所示。整個“人”分為三部分:上身、下身和頭部。下身通過堆疊的卷積層以及最大池化層來進行圖片的低級特征提取。上身通過堆疊的卷積層、反池化層以及反池化層跳躍連接之前的下采樣層將特征逐步返回到圖片形式的特征圖,在得到圖片形式的特征圖后頭部通過堆疊的卷積層以及最大池化層再次提取到更高級的特征,并且在這個過程中與前面的反池化層進行跳躍連接。最終將高級特征與之前的低級特征進行級聯(lián),全局最大池化以及SoftMax分類器進行分類從而實現(xiàn)分類功能。
下身中第一個卷積層設(shè)定卷積核大小為3×3,即滑動窗口選定乳腺鉬靶圖片3×3 的區(qū)域與卷積核非線性運算,卷積層輸入為:
其中,w為權(quán)值,?表示二維卷積操作,xi為乳腺鉬靶輸入特征圖,m為卷積層數(shù),bj表示偏置。f( )? 是激活函數(shù),這里使用的是修正線性單元(ReLU)。ReLU函數(shù),能夠在加快收斂速度的同時又盡可能避免陷入局部最優(yōu)。conv1層的輸出為:
本文使用堆疊卷積,第二個卷積層和第一個卷積層使用相同的操作(注:本文中有多個堆疊卷積層,卷積核大小均設(shè)置為3×3,padding 模式設(shè)置為SAME,步長設(shè)置為1;在下身中卷積核大小依次為32、64、128、256、512),在堆疊卷積層之后,添加一個2×2的最大池化來獲得更緊湊和高效特征。最大池化替換每個多維數(shù)據(jù)集的最大值,以減少沿空間維度的要素圖。它可以保持識別的最重要特征。此外,從低級到高級的特征變得更緊湊,這可以實現(xiàn)針對某些變化的魯棒性。最大池化層輸出為:
其中,代表最大池化層輸入,p(?)為最大池化函數(shù),代表最大池化層輸出(下身中所有池化為最大池化,設(shè)置為2×2)。
在上身中,下身中的最后一個堆疊卷積后接一個反池化層,反池化是池化的逆操作,是通過池化的結(jié)果還原出全部的原始數(shù)據(jù),在本文中,使用2×2的反池化來還原出原始數(shù)據(jù),因為在池化過程中只保留了主要信息,舍棄了部分信息,想從池化后的主要信息恢復處全部信息,則存在信息丟失,這時通過補零位操作,實現(xiàn)信息還原,用原始尺寸特征圖保存了高分辨率。反池化層輸出為:
其中,代表反池化的輸入,p(?)-1為反池化函數(shù),代表反池化的輸出(注:上身中卷積核大小以此為256、128、64、32,下身所有池化為反池化,設(shè)置為2×2)。在第四個堆疊卷積后接一個1×1的卷積層,代替了全連接層,改變了通道數(shù)目,這里的激活函數(shù)用的是Sigmoid函數(shù)。
在頭部中,頭部中用跳躍連接將上身特征(上身特征中包含下身特征)和頭部特征連接,保留上身特征然后提取更高級特征(注:上身中卷積核大小以此為32、64、128、256、256,頭部所有池化為最大池化,設(shè)置為2×2)。在最后添加全局最大池化層,用全局最大池化層代替全連接層,在添加Dropout 層,設(shè)置參數(shù)dropout_ratio 為0.5,能有效防止過擬合,以及SoftMax 分類器進行分類。SoftMax是邏輯函數(shù)的一種推廣,定義如下:
其中,Si為第i類的最終評分。
因此,本文的網(wǎng)絡(luò)沒有使用全連接層,而是用全局最大池化層代替全連接層,進而縮減參數(shù)量避免過擬合現(xiàn)象。此外引入跳躍連接,充分利用網(wǎng)絡(luò)提取的低層次特征,將圖像的低層次信息和高層次信息融合在一起,從而能更加準確反映圖像信息。最終將高級特征也與之前的低級特征進行級聯(lián),全局最大池化以及SoftMax分類器進行分類從而實現(xiàn)深監(jiān)督以及提高分類準確率。
本文數(shù)據(jù)集選用中山大學腫瘤防治中心的463 名患者的乳腺鉬靶影像數(shù)據(jù),每個患者的左右乳房各兩個不同角度拍攝的共四幅影像,分別是左乳腺側(cè)斜位(LMLO)、左乳腺頭足位(L-CC)、右乳腺側(cè)斜位(R-MLO)、右乳腺頭足位(R-CC)。如圖4所示。共1 824幅乳腺鉬靶圖像,其中良性腫塊鉬靶圖片622 幅,惡性腫塊鉬靶圖片397幅,惡性鈣化鉬靶圖片402幅,惡性腫塊鈣化鉬靶圖片403幅。
圖3 人型網(wǎng)絡(luò)結(jié)構(gòu)
圖4 乳腺鉬靶影像
深度學習是一種通過數(shù)據(jù)驅(qū)動的方法,從某種意義上來說數(shù)據(jù)數(shù)量可以直接決定網(wǎng)絡(luò)訓練的結(jié)果。而醫(yī)學圖像由于種種的限制,如病例過少,病人隱私等問題,大量收集數(shù)據(jù)是十分困難的、此外還需要擁有豐富臨床經(jīng)驗的醫(yī)生對每張圖像進行標注,這使得大規(guī)模醫(yī)學圖像數(shù)據(jù)集的構(gòu)建面臨重重挑戰(zhàn)。因此可以通過進行數(shù)據(jù)增強的方式來擴大數(shù)據(jù)量。具體來說:首先將圖片像素降采樣至256×256,將RGB三通道歸一化0到1通道,變成灰度圖;然后隨機將圖片翻轉(zhuǎn)0°~180°,并且上下左右平移,距離為0%~20%之內(nèi)的隨機數(shù),以及0%~20%的隨機裁剪進行數(shù)據(jù)增強。本文將良性腫塊鉬靶圖片、惡性腫塊鉬靶圖片、惡性鈣化鉬靶圖片、惡性腫塊鈣化鉬靶圖片分別按比例(80%∶10%∶10%)隨機分為訓練組、驗證組和測試組。
本文通過構(gòu)建人型網(wǎng)絡(luò)對乳腺鉬靶圖像進行四分類研究。網(wǎng)絡(luò)結(jié)構(gòu)的訓練和測試使用絕對交叉熵作為損失函數(shù),使用Adam 作為優(yōu)化器,其中學習率設(shè)為0.000 1,批尺寸設(shè)為64,循環(huán)訓練迭代40次。本文圖像預(yù)處理軟件環(huán)境為MATLAB 2016A,電腦配置為Win 10操作系統(tǒng),i7 處理器,32 GB 運行內(nèi)存。本文訓練和測試實驗?zāi)P筒捎肗vidia Titan Xt GPU 訓練,運行環(huán)境為Python中的Keras庫。
將 人 型 網(wǎng) 絡(luò) 與AlexNet、GoogleNet、VGGNet 和ResNet做對比,幾種方法的對比結(jié)果如表1所示。為評估分類性能,使用不同的性能指標。這些指標包括:準確率(Accuracy)、靈敏度(Sensitivity)、特異度(Specificity)、AUC(Area Under ROC Curve)、F1 值(F1-Score)。準確度是全部樣本中預(yù)測正確的比例,準確度值越大,代表模型的預(yù)測和真實情況越接近,模型的分類性能越好;靈敏度是實際為正例的樣本中,預(yù)測為正例的占比;漏診率是實際為正例的樣本中,預(yù)測為反例的占比;特異度是實際為反例的樣本中,預(yù)測為反例的占比,誤診率是實際為反例的樣本中,預(yù)測為正例的占比;F1值是精確率和召回率的調(diào)和平均數(shù)AUC是受試者工作特征ROC(Receiver Operating Characteristic)曲線下的面積,AUC越接近于1,代表模型分類性能越好。在實驗中均是對四個類別分別計算,另外對四個類別的數(shù)值進行了求平均得到。實驗結(jié)果如表1所示。
表1 不同模型的分類精度 %
由表1 可知,本文方法分類準確率達到了74.54%,優(yōu)于其他網(wǎng)絡(luò)模型;在VGG和本文算法中,本文算法通過跳躍連接使不同層次的特征融合在最后分類任務(wù)中保留圖像更多細節(jié)信息,使本文算法中的AUC 不低于VGG 模型情況下,TP 和TN 都大幅提升,使得ACC、SEN、SPEC、F1 指標遠優(yōu)于VGG 模型。其中ResNet 與GoogleNet這兩種網(wǎng)絡(luò)由于參數(shù)量龐大但數(shù)據(jù)量較小因此出現(xiàn)了過擬合的現(xiàn)象,因此分類精度反而更低。此外,制作了混淆矩陣(Confusion matrix)(圖5)以及ROC曲線(圖6)。
圖5 混淆矩陣圖
圖6 ROC曲線
由混淆矩陣的對角線可知,良性腫塊的分類效果最好,但是對惡性腫塊鈣化分類效果很差,主要因為惡性腫塊鈣化包括了惡性腫塊與惡性鈣化,因此極易與惡性腫塊與惡性鈣化相混淆。ROC 曲線是用靈敏度(真陽性率TPR)和誤診率(假陽性率TPR)作圖所得曲線,它可以表示靈敏度和特異度之間的相互的關(guān)系。根據(jù)靈敏度、特異度互補的原理,用靈敏度為縱坐標,假陽性率為橫坐標作圖,所得的曲線可用來決定最佳臨界點。ROC曲線理想目標:TPR=1,F(xiàn)PR=0,即圖中(0,1)點,故ROC 曲線越靠攏(0,1)點,越偏離45°對角線越好。由圖6 可知,本文模型對良性腫塊的分類效果最好,惡性鈣化、惡性腫塊次之,惡性腫塊鈣化最差,因為惡性腫塊鈣化中包括了惡性腫塊和惡性鈣化,導致惡性腫塊鈣化分類效果最差。此外如圖7所示,將特征圖進行了可視化,通過可視化發(fā)現(xiàn)本文模型可以有效地定位到腫塊的位置,對臨床醫(yī)生有幫助。
圖7 特征圖可視化
本文提出的人型網(wǎng)絡(luò)結(jié)構(gòu)和其他網(wǎng)絡(luò)結(jié)構(gòu)相比較,人型網(wǎng)路使用級聯(lián)將圖像不同層次特征進行融合,保留了圖像的所有深度特征對乳腺鉬靶圖像進行四分類研究。實驗結(jié)果驗證了人型網(wǎng)絡(luò)的有效性,人型網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)于經(jīng)典網(wǎng)絡(luò)結(jié)構(gòu)模型,提高了乳腺鉬靶圖像的分類準確率。人型網(wǎng)絡(luò)對良性腫塊的分類效果最好,下一步的研究目標主要是高效區(qū)別惡性腫塊、惡性鈣化以及惡性腫塊鈣化,進而取得高的分類準確率,在一定程度上滿足更高要求的臨床需求。