楊建利,朱德江,邵嘉俊,劉秀玲
1.河北大學(xué) 電子信息工程學(xué)院,河北 保定 071002
2.河北省數(shù)字醫(yī)療工程重點實驗室,河北 保定 071002
肺癌是所有癌癥中死亡率最高的,肺癌的早期診斷和治療是預(yù)防死亡的關(guān)鍵。早期肺癌表現(xiàn)為肺結(jié)節(jié)。肺結(jié)節(jié)的準確檢測和分類對于實現(xiàn)早期診斷和精確治療至關(guān)重要[1-4]。計算機斷層掃描(computed tomography,CT)是臨床應(yīng)用中最常用的診斷工具[5-6],肺結(jié)節(jié)的良、惡性界限難以區(qū)分,且放射科醫(yī)生的診斷存在主觀性,使得肺癌初期的精確診斷變得非常困難。深度學(xué)習(xí)已經(jīng)成功地應(yīng)用于包括醫(yī)學(xué)圖像分析在內(nèi)的許多研究領(lǐng)域。與放射科醫(yī)師相比,這項技術(shù)可以自動從醫(yī)學(xué)圖像中提取深層次的特征,并且能夠發(fā)現(xiàn)有效的隱藏特征幫助人們自動進行肺結(jié)節(jié)的良性和惡性分類。
Xie等[7]將紋理和形狀特征與深度卷積神經(jīng)網(wǎng)絡(luò)提取的特征相融合,以更好地表征肺結(jié)節(jié)。通過特征融合的方式,準確率和靈敏度分別達到了89.53%和84.19%。與人工選擇的特征相比,深度神經(jīng)網(wǎng)絡(luò)自動提取的特征效果更好。Filho等[8]提出了兩個拓撲指標,即基本分類權(quán)重和標準化分類權(quán)重之和,來描述肺結(jié)節(jié)的紋理特征,并使用卷積神經(jīng)網(wǎng)絡(luò)對這些特征進行分類。該方法使用50 580個肺結(jié)節(jié)進行驗證并取得了92.63%的準確度和90.70%的靈敏度。徐久強等[9]針對數(shù)據(jù)集中肺結(jié)節(jié)良惡性樣本數(shù)量不平衡的問題設(shè)計了生成對抗網(wǎng)絡(luò),實現(xiàn)肺結(jié)節(jié)良惡性準確分類。吳世洋等[10]先提取肺實質(zhì)影響,利用深度神經(jīng)網(wǎng)絡(luò)提取結(jié)節(jié)特征,結(jié)合羅杰斯特分類器進行良惡性分類決策。Shen等[11]設(shè)計了多尺度卷積神經(jīng)網(wǎng)絡(luò),可從交替堆疊層中提取特征來捕獲結(jié)節(jié)的異質(zhì)性。Shen等[12]還提出了多裁剪卷積神經(jīng)網(wǎng)絡(luò),通過使用最大池化操作提取特征圖中不同區(qū)域的特征,使結(jié)節(jié)語義屬性得到有效的表征。Lei等[13]使用U-net網(wǎng)絡(luò)結(jié)構(gòu)來分別提取特征并對比分類結(jié)果,并將特征可視化來證明特征的有效性和可解釋性。
上述研究僅關(guān)注肺結(jié)節(jié)二維特征,因此不能完全描述肺結(jié)節(jié)的整體特征。Xie等[14]后續(xù)提出了一種基于知識協(xié)同的深度神經(jīng)網(wǎng)絡(luò)來區(qū)分良性和惡性肺結(jié)節(jié)。從肺結(jié)節(jié)立體信息中截取不同視覺下的結(jié)節(jié)圖像,并通過微調(diào)ResNet-50模型來學(xué)習(xí)每個視圖中的特征。隨后,這些來自不同視圖的特征被融合以分類出良性和惡性肺結(jié)節(jié),分類結(jié)果達到了91.60%的準確度和86.52%的靈敏度。
此外,從結(jié)節(jié)的立體特性考慮,引入了3D卷積神經(jīng)網(wǎng)絡(luò)[15-18],以便于提取肺結(jié)節(jié)的詳細特征,為肺結(jié)節(jié)的良性和惡性分類提供了更符合實際的診斷結(jié)果。Jiang等[19]提出了用于提取結(jié)節(jié)細節(jié)特征的3D雙路徑卷積神經(jīng)網(wǎng)絡(luò),并通過在網(wǎng)絡(luò)中添加注意力機制來定位特征關(guān)鍵區(qū)域。其肺結(jié)節(jié)分類的準確率為90.24%,靈敏度為92.04%。為了解決關(guān)于肺結(jié)節(jié)的3D特征數(shù)據(jù)量的局限,Hussein等[20]應(yīng)用遷移學(xué)習(xí)提取三維肺結(jié)節(jié)的判別特征,并引入多任務(wù)學(xué)習(xí)進行分類。
雖然基于深度學(xué)習(xí)的特征提取在肺結(jié)節(jié)分類中得到有效應(yīng)用,但是深度學(xué)習(xí)網(wǎng)絡(luò)的黑盒特性使得提取的特征無法具體解釋。為了解決這個問題,Lei等[13]通過從包含結(jié)節(jié)的立體數(shù)據(jù)中分別選擇四組不同切片數(shù)的立體數(shù)據(jù)作為初始特征,使用U-net網(wǎng)絡(luò)結(jié)構(gòu)來分別提取特征并對比分類結(jié)果,還加入特征可視化技術(shù)來證明其特征的有效性和可解釋性。該方法的驗證結(jié)果達到了99.13%的高精度,證明了深度神經(jīng)網(wǎng)絡(luò)提取的精細特征能夠取得更好的效果。
雖然許多2D和3D深度學(xué)習(xí)網(wǎng)絡(luò)已經(jīng)被用于肺結(jié)節(jié)分類中,但特征提取過程中不可避免地丟失一些細節(jié)信息,從而影響肺結(jié)節(jié)分類效果。為了盡可能保留微小結(jié)節(jié)的有用信息,本文提出了一種深度三維多尺度交叉融合網(wǎng)絡(luò)來挖掘肺結(jié)節(jié)的深層特征,提高肺結(jié)節(jié)分類算法的準確性。
本文中使用的肺結(jié)節(jié)影像數(shù)據(jù)來自圖像數(shù)據(jù)庫聯(lián)合會圖像收集(lung image database consortium image collection,LIDC-IDRI)[21],它包含1 018例肺部掃描數(shù)據(jù)。每例數(shù)據(jù)都由四名放射科專家醫(yī)生獨立注釋,包括肺結(jié)節(jié)的位置、惡性程度和鈣化程度等特征描述信息。其中結(jié)節(jié)惡行程度分為1~5級。平均惡性度為3的被視作不確定結(jié)節(jié),平均惡性程度低于3的視為良性,平均惡性度高于3的為惡性。最后,得到了509個良性和635個惡性肺結(jié)節(jié)。為了消除肺部掃描切片厚度和像素距離差異的影響,在這三個軸向上使用樣條插值重新采樣到1 mm3/體素。隨后,切片數(shù)據(jù)取[-1 200,600]之間的霍恩斯菲爾德值并標準化。在LIDC-IDRI數(shù)據(jù)集內(nèi),肺結(jié)節(jié)直徑從2 mm到38 mm不等。因此,根據(jù)結(jié)節(jié)的位置構(gòu)建了以結(jié)節(jié)為中心的48×48×48的三維體數(shù)據(jù)。本文通過旋轉(zhuǎn)120°、240°和翻轉(zhuǎn)數(shù)據(jù)來增強數(shù)據(jù),使得數(shù)據(jù)量擴充了三倍防止訓(xùn)練出現(xiàn)過擬合現(xiàn)象。
圖1 三維多尺度交叉融合卷積神經(jīng)網(wǎng)絡(luò)圖Fig.1 Flow chart of 3D multi-scale cross fusion convolution neural network
本文構(gòu)建深度三維多尺度交叉融合深度卷積神經(jīng)網(wǎng)絡(luò)用于肺結(jié)節(jié)的良惡性分類,其結(jié)構(gòu)如圖1所示。圖中立方體上方符號@前后數(shù)字描述了特征圖的大小和通道數(shù)。對角向下箭頭表示下采樣操作,對角向上箭頭表示上采樣操作,多箭頭相交表示交叉融合其方式是加法融合,DBi是密集網(wǎng)絡(luò)模塊[22]。網(wǎng)絡(luò)輸入是以結(jié)節(jié)為中心從病例數(shù)據(jù)中截取大小為48×48×48的3D肺結(jié)節(jié)。網(wǎng)絡(luò)輸出的是結(jié)節(jié)惡性(M)和良性(B)的概率。
網(wǎng)絡(luò)縱向由邊長為24、12、6三種尺度特征層組成,網(wǎng)絡(luò)橫向通過多次密集連接模塊和交叉融合兩個關(guān)鍵操作提取特征。利用密集網(wǎng)絡(luò)提取特征前后文信息,利用交叉融合獲得上下文信息。以24@128特征圖為例:首先將該特征圖下采樣與12@256特征圖做加法融合得到新特征。然后12@256特征圖通過上采樣后與24@128特征圖做加法融合得到新特征。再分別輸入密集連接模塊中繼續(xù)卷積提取特征,分別得到通道數(shù)為256和512的特征圖。特征交叉融合同時增強深層語義信息和淺層內(nèi)容信息相互的表達能力。類似此過程,最后得到三種尺度有效特征組(24@256,12@512,6@768),分別將經(jīng)全連接層后,使用softmax分類器進行分類,按投票方式得到分類最終結(jié)果。
網(wǎng)絡(luò)中密集連接模塊如圖2所示。立方體表示結(jié)節(jié)三維特征。Lj由卷積核為1×1×1和3×3×3組成。在密集連接過程中,每層特征可以被描述為所有先前特征的融合,圖中可表示為Nj=(L0,L1,…,Lj),其每層特征通道數(shù)Nj的計算如式(1)所示:
其中,N0是密集模塊中初始特征輸入的數(shù)量,k是特征通道增率,n是密集模塊中的卷積層數(shù)。
圖2 密集模塊(DB)結(jié)構(gòu)Fig.2 Dense block(DB)architecture
密集連接操作的優(yōu)點是增強了特征前后文信息的傳遞和多尺度特征間的轉(zhuǎn)移,深度三維多尺度交叉融合卷積神經(jīng)網(wǎng)絡(luò)各個密集模塊的具體參數(shù)設(shè)置如表1所示。
表1 各密集模塊中的參數(shù)設(shè)置Table 1 Parameter setting of DB
在本文訓(xùn)練模型中所用到的其他參數(shù)具體設(shè)置如表2所示。優(yōu)化器使用小批量隨機梯度下降算法,最小批量為32,動量為0.9,訓(xùn)練次數(shù)為100。初始學(xué)習(xí)率設(shè)為0.000 1,第50次后降為0.000 01。
表2 網(wǎng)絡(luò)訓(xùn)練參數(shù)設(shè)置Table 2 Network training parameter setting
為了更好地評估分類結(jié)果,定義了四個常見的評估指標:準確性(Ac)、特異性(Spe)、敏感性(Se)和接收者操作特性曲線(receiver operating characteristic,ROC)曲線下面積(area under curve,AUC)。Ac、Spe、Se的計算公式如式(2)、(3)、(4)所示:
其中,TP為正確結(jié)節(jié)的個數(shù),TN是未識別結(jié)節(jié)個數(shù),F(xiàn)P是假陽性個數(shù),F(xiàn)N是假陰性個數(shù)。本文的實驗結(jié)果是通過取五次五折交叉驗證的平均值來評價模型的好壞。
肺結(jié)節(jié)的分類與其形態(tài)特征和背景環(huán)境密切相關(guān)。在特征學(xué)習(xí)中豐富的背景信息對肺結(jié)節(jié)分類是否有重要作用,目前尚不清楚。為了驗證,使用了三種方法來截取以結(jié)節(jié)為中心的體數(shù)據(jù)。第一種方法根據(jù)肺結(jié)節(jié)的大小裁剪得到體數(shù)據(jù),背景信息擴充了10像素,并使用水的值(CT值為0)填充將其擴展到48×48×48,名為Nod_p;第二種方法通過以肺結(jié)節(jié)中心位置來截取得到三維數(shù)據(jù)48×48×48,名為Nod_d;第三種方式通過Nod_p和Nod_d像素相加融合得到結(jié)節(jié)灰度增強的數(shù)據(jù),名為Nod_f。分別使用上述三種類型的輸入數(shù)據(jù)來訓(xùn)練網(wǎng)絡(luò),結(jié)果如表3所示。Nod_p組的分類效果最好,Nod_f組次之,Nod_d最差。Nod_d組的特異性明顯低于Nod_f組和Nod_p組,其主要原因是引入肺結(jié)節(jié)周圍豐富的背景信息后湮滅肺結(jié)節(jié)本身的特征,致使假陽性比例上升,而通過Nod_p和Nod_d的融合后,能有效地凸顯肺結(jié)節(jié)特征,降低背景信息影響,顯著降低假陽性。Nod_p組在四項指標中皆是最優(yōu)的,證明了豐富背景信息帶來的影響和該網(wǎng)絡(luò)能集中關(guān)注到結(jié)節(jié)主要特征。
表3 不同輸入體積結(jié)節(jié)的分類結(jié)果Table 3 Classification results of nodules with different input volumes %
深度三維多尺度交叉融合卷積神經(jīng)網(wǎng)絡(luò)是一個多尺度特征融合的框架,它既有效地保留了肺結(jié)節(jié)詳細的內(nèi)容信息且又具有高級的抽象信息,網(wǎng)絡(luò)學(xué)習(xí)過程中同時利用這兩種信息來做分類決策。實驗中,同時設(shè)計了三種網(wǎng)絡(luò)結(jié)構(gòu)來提取肺結(jié)節(jié)的最優(yōu)特征。第一個網(wǎng)絡(luò)是深度三維多尺度交叉融合深度卷積神經(jīng)網(wǎng)絡(luò)(DMFN_db)如圖1所示;第二個網(wǎng)絡(luò)是通過將圖1中的密集模塊更改為殘差模塊[23]而形成的(DMFN_res);第三個網(wǎng)絡(luò)是在圖1網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上去掉多尺度間的融合(DMN_db)。分別利用這三種網(wǎng)絡(luò)結(jié)構(gòu)的肺結(jié)節(jié)分類結(jié)果見表4,相應(yīng)的ROC曲線見圖3。從圖和表中數(shù)據(jù)可以看出,DMFN_db在四項指標上皆優(yōu)于DMN_db,表明網(wǎng)絡(luò)中的多尺度融合對提升分類效果明顯。DMFN_res雖然在敏感性上高于DMFN_db,但在其他三個指標上皆不如DMFN_db,特別是在特異性上差距明顯,表明密集連接的卷積模塊比殘差卷積模塊更能準確地提取肺結(jié)節(jié)的關(guān)鍵特征,能有效減少假陽性。DMN_db和DMFN_res的分類結(jié)果類似,也側(cè)面說明了卷積的密集連接和多尺度的交叉融合能有效提取肺結(jié)節(jié)的關(guān)鍵特征,對提升肺結(jié)節(jié)的良惡性分類結(jié)果均有較大作用。
表4 不同網(wǎng)絡(luò)結(jié)構(gòu)的分類結(jié)果Table 4 Classification results of different network structures %
圖3 三種網(wǎng)絡(luò)結(jié)構(gòu)的ROC曲線Fig.3 ROC curves of three network structures
Xie等[7,14]使用肺結(jié)節(jié)的2D和2D多視角圖像作為數(shù)據(jù)輸入,通過融合形狀特征、灰度共生矩陣紋理特征和使用基于多視角知識協(xié)同卷積神經(jīng)網(wǎng)絡(luò)提取的深度特征,從2D角度實現(xiàn)了良惡性肺結(jié)節(jié)圖像的高精度分類。然而,2D分類模型需要特殊的2D切片作為輸入,這限制了算法在臨床應(yīng)用中的適應(yīng)性和準確性。針對三維肺結(jié)節(jié)良惡性分類,Shen等[15]提出了一種深度層次語義卷積神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)從肺結(jié)節(jié)數(shù)據(jù)中提取低層語義特征來預(yù)測紋理、鈣化、球形度、檢測難度、邊緣等低層特征,再結(jié)合高層語義信息預(yù)測良惡性。在訓(xùn)練過程中這些低層次的標簽會因醫(yī)生而異,正如該文中棄用了分葉征和毛刺征標簽,因為文獻[24]指出該數(shù)據(jù)集中存在不確定子集與這兩個特征標注出現(xiàn)不一致的現(xiàn)象。在實際中準確地標注這些低層次的特征標簽也需要耗費大量人力物力。Jiang等[19]提出帶注意力的三維雙路徑網(wǎng)絡(luò),引入了注意力機制以闡明靈敏度和誤報率之間的最佳權(quán)衡,達到90.24%的準確率??紤]到三維肺結(jié)節(jié)的訓(xùn)練數(shù)據(jù)有限,Hussein等[20]引入遷移學(xué)習(xí)來利用其他數(shù)據(jù)模型參數(shù)學(xué)習(xí)肺結(jié)節(jié)特征和多任務(wù)學(xué)習(xí)對肺結(jié)節(jié)分類,準確率達到91.26%,但其他指標未提及。與其他三維分類方法相比,本文方法不僅具有相當(dāng)?shù)臏蚀_率和較高的靈敏度,而且可直接從原始肺部CT影像中截取肺結(jié)節(jié)三維數(shù)據(jù)即可得到分類結(jié)果,無需其他復(fù)雜的特征預(yù)處理過程,如表5。
本文提出深度三維多尺度交叉融合卷積神經(jīng)網(wǎng)絡(luò)用于良性和惡性肺結(jié)節(jié)分類。網(wǎng)絡(luò)可以自動提取肺結(jié)節(jié)的三維多尺度特征,數(shù)據(jù)輸入方式還加快了網(wǎng)絡(luò)三維卷積的計算速度。為了解決特征提取過程中細節(jié)信息損失的問題,對不同尺度的特征進行交叉融合。因此,獲得了三維肺結(jié)節(jié)的完整特征表示,通過Softmax多分類器對判別特征進行硬投票決策,實現(xiàn)了具有兼顧靈敏性和特異性的高精度分類。本文算法采用三維數(shù)據(jù)處理方式,卷積過程中會增加計算量,限制算法的應(yīng)用。同時算法需要大量的標簽數(shù)據(jù)。后期可引入弱監(jiān)督算法,減低對數(shù)據(jù)標注的依賴。同時引入遷移學(xué)習(xí)選用合適的模型進行參數(shù)初始化,加快網(wǎng)絡(luò)的訓(xùn)練速度和優(yōu)化預(yù)測結(jié)果。
表5 方法與其他方法的比較Table 5 Comparison of method with other methods %