高峰,張仕瑞
1. 天津大學(xué) 精密儀器與光電子工程學(xué)院,天津 300072;2. 天津市生物醫(yī)學(xué)檢測技術(shù)與儀器重點(diǎn)實(shí)驗(yàn)室,天津 300072
如今,在全球范圍內(nèi)肺癌依舊是發(fā)病率和死亡率最高的癌癥。而相比于其他國家,我國的肺癌發(fā)病率與死亡率為全球第一[1]。研究顯示早期肺癌的術(shù)后10年生存率為92%[2],因此患者的早期診斷與早期治療尤為重要。目前肺部疾病的早期診斷中最常用的是計(jì)算機(jī)斷層掃描(Computed Tomography,CT),醫(yī)師通過觀察肺部CT圖像診斷患有肺部疾病。但是每位患者采集得到的CT圖像有數(shù)百張,導(dǎo)致醫(yī)師的工作負(fù)荷大。
自從Hinton[3]提出深度信念網(wǎng)絡(luò)(Deep Belief Network,DBN),深度學(xué)習(xí)方法引起了學(xué)術(shù)界的浪潮。有相當(dāng)多學(xué)者研究其在肺部CT圖像診斷中的應(yīng)用,用來輔助醫(yī)師的診斷和減少醫(yī)師的工作負(fù)荷。目前提出方法主要有肺結(jié)節(jié)中間層切片2D圖像[4-5]或肺結(jié)節(jié)所在3D圖像[6]作為卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)輸入,通過在模型中提取與整合輸入圖像特征信息從而實(shí)現(xiàn)輔助診斷的應(yīng)用。而在臨床醫(yī)學(xué)的發(fā)展中,醫(yī)師們總結(jié)了許多結(jié)節(jié)特征與其良惡性的關(guān)系,如鈣化結(jié)節(jié)的良性概率為97%、無鈣化結(jié)節(jié)的良性概率為29%[7]、結(jié)節(jié)中出現(xiàn)脂成分往往是良性病變[8]、肺癌出現(xiàn)空氣支氣管征比良性病變更加普遍[9]等。
本文方法旨在將醫(yī)師標(biāo)注待診斷肺結(jié)節(jié)時(shí)的上述語義信息,作為模型在提取圖像特征時(shí)的先驗(yàn)知識,通過圖像特征與語義特征的多模態(tài)信息[10]融合,實(shí)現(xiàn)對肺結(jié)節(jié)的良惡性診斷。
為了本文方法的可復(fù)現(xiàn)性和與其他方法的可對比性,本文中使用的實(shí)驗(yàn)數(shù)據(jù)集為LIDC-IDRI,該數(shù)據(jù)集由美國國家癌癥研究所發(fā)起收集,主要為了研究高危人群早期肺結(jié)節(jié)檢測,是研究人員可通過網(wǎng)絡(luò)訪問的國際公開資源。該數(shù)據(jù)集包含1018個(gè)研究實(shí)例,由4名經(jīng)驗(yàn)豐富的胸部放射科醫(yī)師分別獨(dú)立診斷標(biāo)注后,獨(dú)立復(fù)審其他三位醫(yī)師的標(biāo)注,并給出自己最終的診斷結(jié)果。在避免強(qiáng)迫共識的前提下,盡可能完整的標(biāo)注所有結(jié)果。
醫(yī)師標(biāo)注信息中有結(jié)節(jié)的區(qū)域、長度以及由醫(yī)師肉眼觀察給出的結(jié)節(jié)特征。特征有:subtlety、internalStructure、calcification、sphericity、margin、lobulation、spiculation、texture、malignancy等,各特征按照不同的診斷意見,標(biāo)注對應(yīng)的表示數(shù)值。
在本文中針對數(shù)據(jù)集中各結(jié)節(jié),將所有醫(yī)師對其標(biāo)注的均值作為實(shí)驗(yàn)中標(biāo)注值。在結(jié)節(jié)的標(biāo)注區(qū)域中間位置以像素大小32×32切割得到圖像作為模型輸入。在結(jié)節(jié)良惡性的分類中,‘malignancy’特征可被標(biāo)注為‘1.Highly Unlikely’‘2.Moderately Unlikely’‘3.Indeterminate’‘4.Moderately Suspicious’或‘5.Highly Suspicious’,因此將標(biāo)注均值大于3的結(jié)節(jié)視為惡性;均值小于3的結(jié)節(jié)視為良性;均值等于3的結(jié)節(jié)不在實(shí)驗(yàn)中使用。
1.2.1 模糊one-hot碼
由于醫(yī)師標(biāo)注的語義信息沒有連續(xù)性,不適合在單節(jié)點(diǎn)以連續(xù)數(shù)值表示,因此本文提出模糊one-hot碼,以各特征的每一個(gè)可選標(biāo)注作為一個(gè)節(jié)點(diǎn),將醫(yī)師標(biāo)注對應(yīng)節(jié)點(diǎn)設(shè)定為1,其他節(jié)點(diǎn)設(shè)定為0,并將所有特征的標(biāo)注相連,將語義信息轉(zhuǎn)換為可輸入模型的離散節(jié)點(diǎn)信息,具體的轉(zhuǎn)換算法如下所示。
1.2.2 結(jié)節(jié)區(qū)域分割
醫(yī)師標(biāo)注的語義信息只針對于結(jié)節(jié),因此為了模型能夠?qū)⒔Y(jié)節(jié)區(qū)域與語義信息關(guān)聯(lián),對結(jié)節(jié)區(qū)域做分割處理,去除結(jié)節(jié)以外信息。在本文中為得到結(jié)節(jié)區(qū)域采用的方法為區(qū)域生長法[11],由于在該算法中設(shè)定不同的閾值可切割得到不同的結(jié)節(jié)區(qū)域,且較難找到適合于每一個(gè)結(jié)節(jié)的算法閾值,因此將設(shè)定不同閾值得到的圖像同時(shí)輸入至模型中,使模型在訓(xùn)練中可自適應(yīng)找到適合的閾值。區(qū)域生長法的初始種子點(diǎn)設(shè)定為圖像中間4個(gè)像素,設(shè)定不同閾值實(shí)施區(qū)域生長法效果如圖1所示。
圖1 區(qū)域生長法效果圖
1.2.3 訓(xùn)練樣本擴(kuò)增
針對模型訓(xùn)練時(shí)樣本數(shù)量少的問題,對輸入圖像分別采用隨機(jī)仿射變換實(shí)現(xiàn)數(shù)據(jù)擴(kuò)增。圖2為對原始圖像做隨機(jī)放射變換的效果圖
圖2 仿射變換效果圖
本文提出整體模型主要由提取圖像深度特征的子模型(Image Feature Extracting sub-Model,IE模型),整合醫(yī)師標(biāo)注語義信息的子模型(Semantics Integration sub-Model,SI模型),以及融合圖像特征與語義特征的部分構(gòu)成。模型圖中FULL表示全連接層、Conv表示卷積層。
IE模型如圖3所示,即分別以大小不同的卷積核提取深度圖像特征并融合后輸出深度特征信息。將原圖像輸入至3×3卷積核大小的卷積層,原因是對原圖進(jìn)行卷積過程中,如卷積核大則較容易將結(jié)節(jié)區(qū)域與其他組織區(qū)域混合起來。將區(qū)域生長算法設(shè)定閾值較大的輸出圖像輸入至5×5卷積核的卷積層;將設(shè)定閾值較小的輸出圖像輸入至7×7卷積核的卷積層。原因是生長區(qū)域法設(shè)定閾值較大時(shí)輸出結(jié)節(jié)區(qū)域較?。幌喾吹?,設(shè)定閾值較小時(shí)輸出圖像較大。在卷積過程中各卷積核的移動(dòng)距離為1×1,并且對圖像做padding處理,使得不同卷積核大小的卷積層輸出圖像大小相同。
圖3 IE模型
SI模型如圖4所示,即將醫(yī)師標(biāo)注語義信息轉(zhuǎn)換為模糊one-hot碼后輸入該模型,經(jīng)過全連接層輸出深度特征信息。
圖4 SI模型
將圖像特征與語義特征融合的部分,實(shí)質(zhì)是多模態(tài)融合[10]。多模態(tài)的融合方法有前融合、后融合、混合融合等。后融合會(huì)導(dǎo)致臨近輸出層的層節(jié)點(diǎn)數(shù)為4,經(jīng)過實(shí)驗(yàn)得出該融合方法不易訓(xùn)練?;旌先诤蠒?huì)導(dǎo)致圖像或語義其中一種模態(tài)的信息表達(dá)節(jié)點(diǎn)數(shù)失衡,因此最終選擇前融合方式實(shí)現(xiàn)多模態(tài)融合。整體模型具體如圖5所示,即輸入預(yù)處理結(jié)節(jié)圖像與先驗(yàn)知識,分別經(jīng)過IE模型與SI模型提取特征后融合,在模型末端通過LogSoftMax激活函數(shù)預(yù)測結(jié)節(jié)的良惡性。
圖5 整體模型
考慮到當(dāng)深度學(xué)習(xí)方法實(shí)際應(yīng)用于臨床診斷時(shí),若進(jìn)行預(yù)測時(shí)需要由醫(yī)師向模型輸入語義信息則仍然有相應(yīng)工作量,較難實(shí)現(xiàn)進(jìn)一步的診斷自動(dòng)化。為減少上述整體模型在診斷中的語義輸入過程,將對其進(jìn)行改進(jìn)。
在SI模型之前加入由輸入圖像提取語義信息的子模型(Semantics Extracting sub-Model,SE模型)。其結(jié)構(gòu)為IE模型的輸出端連接全連接層,使其輸出值為醫(yī)師標(biāo)注語義信息。SE模型如圖6所示,為實(shí)現(xiàn)多標(biāo)簽分類,在其末端設(shè)置Sigmoid激活函數(shù)。訓(xùn)練該子模型時(shí)使用全部訓(xùn)練集對其進(jìn)行,即將設(shè)定不同閾值區(qū)域生長法的輸出圖像輸入SE模型,對應(yīng)的模糊one-hot碼作為輸出標(biāo)簽進(jìn)行訓(xùn)練。
圖6 SE模型
改進(jìn)的整體模型如圖7所示。將已訓(xùn)練的SE模型去掉Sigmoid激活函數(shù)層后固定其權(quán)重作為語義提取器置于SI模型前。改進(jìn)的整體模型將醫(yī)師標(biāo)注結(jié)節(jié)時(shí)的先驗(yàn)知識融合于模型中,醫(yī)師標(biāo)注結(jié)節(jié)語義信息作為特權(quán)信息,在預(yù)測過程中只輸入圖像信息。
圖7 改進(jìn)的整體模型
本文中采用五折交叉驗(yàn)證[12]對改進(jìn)的整體模型分類性能進(jìn)行評價(jià),模型性能指標(biāo)分別為準(zhǔn)確率Γ、靈敏度χ、特異性ξ以及ROC曲線線下面積ψ,各指標(biāo)定義如公式(1)所示。
式中,γ、?、λ、σ分別表示真陽性、真陰性、假陽性、假陰性的結(jié)節(jié)個(gè)數(shù);m+為驗(yàn)證集正例數(shù)量;m-為驗(yàn)證集反例數(shù)量;D+為驗(yàn)證集中正例集;D-為驗(yàn)證集中反例集;∏(?)為示性函數(shù);f(·)為訓(xùn)練后的模型。
表1為本文提出方法與其他方法的模型性能對比,表中各實(shí)驗(yàn)使用數(shù)據(jù)均為LIDC-IDRI。由表1可以看出,本文提出方法的模型分類準(zhǔn)確率、靈敏度、特異性均相對高于其他方法的模型性能。說明了本文提出的將醫(yī)師對結(jié)節(jié)的語義標(biāo)注信息作為先驗(yàn)知識融合于深度學(xué)習(xí)模型中是一種可采用的網(wǎng)絡(luò)搭建方式,也為深度學(xué)習(xí)方法在臨床診斷的應(yīng)用提供了新的方法。
表1 不同方法性能對比
本文提出一種融合先驗(yàn)知識的肺結(jié)節(jié)深度學(xué)習(xí)分類方法,與其他方法的模型輸入相比,將醫(yī)師標(biāo)注結(jié)節(jié)時(shí)語義描述作為模型的先驗(yàn)知識,在模型中與輸入圖像融合實(shí)現(xiàn)良惡性分類。為了將醫(yī)師語義信息輸入模型,提出“模糊one-hot碼”,將醫(yī)師標(biāo)注語義信息轉(zhuǎn)換為矩陣信息。
醫(yī)師標(biāo)注語義只針對肺結(jié)節(jié)本身,因此在CT圖像輸入模型前,對其進(jìn)行生長區(qū)域法預(yù)處理。為了更好的提取規(guī)律性不明顯的肺結(jié)節(jié),使用算法時(shí)設(shè)置不同的閾值,將得到圖像分別輸入至獨(dú)立的卷積層使模型自適應(yīng)各結(jié)節(jié)的適合閾值。
為了減少實(shí)際使用過程中醫(yī)師語義信息的輸入,設(shè)計(jì)了由圖像提取語義信息的模型,訓(xùn)練后固定權(quán)重置入整體模型中,醫(yī)師的語義信息作為深度學(xué)習(xí)中特權(quán)信息,將模型改進(jìn)為只需輸入圖像信息。
有研究指出,結(jié)節(jié)在肺中的生長速度、存在位置、患者煙齡等信息亦可用于診斷良惡性的依據(jù),若結(jié)節(jié)病變?nèi)莘e明顯增大,倍增時(shí)間30~400 d則幾乎100%為惡性[13]。若位于右肺或上葉則為惡性可能性更大[14]。年齡55~74歲,且吸煙≥30包/年(戒煙<15年)為高危人群[15]等。因此,將針對融合上述信息的模型結(jié)構(gòu),以及對語義信息的轉(zhuǎn)換算法展開進(jìn)一步研究。
在新技術(shù)方法不斷出現(xiàn)的醫(yī)學(xué)研究中,本文認(rèn)為將先驗(yàn)知識與新方法融合起來更有利于應(yīng)用新技術(shù),因此提出融合醫(yī)師先驗(yàn)知識的深度學(xué)習(xí)良惡性分類方法。目前深度學(xué)習(xí)方法仍然有大部分“黑箱子”問題,因此采用深度學(xué)習(xí)方法時(shí),也將臨床醫(yī)學(xué)中總結(jié)得來的信息融合于模型中,使深度學(xué)習(xí)方法可更好應(yīng)用于醫(yī)學(xué)領(lǐng)域。