王祥,李清楚,邵影,鄒勤,孫安,陳彥博,陳如譚,高耀宗,劉士遠(yuǎn),蕭毅
表2 測(cè)試集5臺(tái)CT機(jī)器詳細(xì)掃描參數(shù)
肺癌是全球范圍內(nèi)發(fā)病率及死亡率最高的惡性腫瘤[1,2],患者早期往往沒(méi)有任何臨床癥狀而被忽視,研究表明肺癌患者五年生存率約為10%~16%[3],大多數(shù)患者檢出時(shí)已經(jīng)失去了早期根治的機(jī)會(huì)。早期發(fā)現(xiàn)、早期診斷及早期治療可以顯著提高肺癌患者五年生存率[4]。低劑量胸部 CT 具有較高的空間分辨率、掃描時(shí)間短及可對(duì)病變進(jìn)行三維重建等優(yōu)點(diǎn),廣泛應(yīng)用于肺結(jié)節(jié)的檢出及鑒別診斷。然而,CT篩查數(shù)量急劇增加及掃描層厚越來(lái)越薄,影像醫(yī)生工作強(qiáng)度顯著提升,臨床工作中漏診及誤診現(xiàn)象時(shí)有發(fā)生[5,6]。因此一個(gè)準(zhǔn)確的肺結(jié)節(jié)自動(dòng)檢測(cè)系統(tǒng)將給影像科醫(yī)生提供巨大幫助,有望真正成為醫(yī)生的好幫手。
傳統(tǒng)肺結(jié)節(jié)計(jì)算機(jī)輔助檢查技術(shù)雖然可以提高肺結(jié)節(jié)檢測(cè)的效率和準(zhǔn)確性,但是由于該方法對(duì)磨玻璃結(jié)節(jié)檢出率低、假陽(yáng)性率高等問(wèn)題,因此在臨床應(yīng)用中并未常規(guī)使用[7,8]。隨著醫(yī)療大數(shù)據(jù)庫(kù)的建立及計(jì)算機(jī)硬件水平的發(fā)展,深度學(xué)習(xí)算法在醫(yī)療診斷領(lǐng)域優(yōu)勢(shì)明顯,為實(shí)現(xiàn)醫(yī)學(xué)影像的自動(dòng)智能診斷提供了新的契機(jī)[9]。目前,雖然部分研究者采用深度學(xué)習(xí)算法對(duì)肺結(jié)節(jié)進(jìn)行自動(dòng)檢測(cè)[10,11],但大部分算法還是基于2D或2.5D影像[12],沒(méi)有有效利用CT影像中的三維信息。因此,筆者建立了基于三維卷積神經(jīng)網(wǎng)絡(luò)的肺結(jié)節(jié)自動(dòng)檢出模型,并對(duì)其在獨(dú)立測(cè)試集上進(jìn)行驗(yàn)證。
本研究經(jīng)長(zhǎng)征醫(yī)院倫理委員會(huì)批準(zhǔn)并免除了患者知情同意書(shū)。本研究屬于回顧性研究,所涉及到的患者信息均進(jìn)行了脫敏處理。所有數(shù)據(jù)分為訓(xùn)練集及測(cè)試集兩部分,訓(xùn)練集用于訓(xùn)練三維卷積神經(jīng)網(wǎng)絡(luò),測(cè)試集用于驗(yàn)證三維卷積神經(jīng)網(wǎng)絡(luò)的效能。訓(xùn)練數(shù)據(jù)集來(lái)自2018~2019年多家醫(yī)院以及臨床機(jī)構(gòu)收集到的回顧性數(shù)據(jù)。訓(xùn)練數(shù)據(jù)集分別來(lái)自體檢、門(mén)診及住院患者中采集的胸部CT影像。
病例納入標(biāo)準(zhǔn):①行薄層CT(層厚≤1 mm)檢查;②術(shù)前未有治療史;③術(shù)后病理報(bào)告完善;④所有結(jié)節(jié)大小均≤3 cm;⑤薄層CT上無(wú)明顯空洞。
病例排除標(biāo)準(zhǔn):①肺葉掃描不全;②圖像存在嚴(yán)重偽影;③圖像存在缺層或斷層;④圖像不符合DICOM 3.0協(xié)議。
通過(guò)納入及排除標(biāo)準(zhǔn)的篩選,最終7144例患者共45662個(gè)結(jié)節(jié)納入訓(xùn)練集。7144例患者中女4000例(56%),年齡20~96歲,平均(51.0±14.7)歲;男3144例(44%),年齡19~94歲,平均(52.2±14.3)歲。
測(cè)試數(shù)據(jù)集來(lái)自長(zhǎng)征醫(yī)院2012年7月至2017年3月回顧性納入的400例患者(男173例,女227例,年齡27~80歲)。采用與訓(xùn)練集相同的納入標(biāo)準(zhǔn)與排除標(biāo)準(zhǔn),最終經(jīng)過(guò)篩選96例患者共733個(gè)肺結(jié)節(jié)納入測(cè)試集。所有入組病例均為多發(fā)結(jié)節(jié),每個(gè)結(jié)節(jié)視為獨(dú)立結(jié)節(jié),本研究沒(méi)有考慮不同結(jié)節(jié)之間的相關(guān)性影響。訓(xùn)練集與測(cè)試數(shù)據(jù)集中肺結(jié)節(jié)大小和類(lèi)型的分布見(jiàn)表1。
表1 數(shù)據(jù)集中不同大小、不同類(lèi)型結(jié)節(jié)的分布
測(cè)試集數(shù)據(jù)掃描范圍自肺尖至后肋膈角下緣,包括兩側(cè)胸壁、腋窩?;颊呶鼩饽┢翚鈷呙?,避免呼吸運(yùn)動(dòng)偽影。所有測(cè)試病例均行胸部薄層MSCT掃描,CT圖像采集來(lái)自5臺(tái)CT機(jī)器,詳細(xì)掃描參數(shù)見(jiàn)表2。
圖1 三維卷積神經(jīng)網(wǎng)絡(luò)的fROC曲線。
參照胸部CT肺結(jié)節(jié)數(shù)據(jù)標(biāo)注與質(zhì)量控制專家共識(shí)[13],建立本次肺結(jié)節(jié)測(cè)試數(shù)據(jù)集。對(duì)入組的733個(gè)結(jié)節(jié)的 CT影像學(xué)特征在標(biāo)準(zhǔn)肺窗(窗寬1500 HU,窗位-450 HU)進(jìn)行標(biāo)注,每個(gè)結(jié)節(jié)均由3位胸部影像診斷醫(yī)師(5年以上胸部亞專業(yè)工作經(jīng)驗(yàn))同步盲法診斷并標(biāo)注,判斷結(jié)節(jié)類(lèi)型,當(dāng)診斷結(jié)果不一致時(shí),由第4位高年資亞專業(yè)國(guó)內(nèi)權(quán)威影像醫(yī)師作為仲裁專家進(jìn)行判定,最后匯總意見(jiàn)作為結(jié)節(jié)診斷及標(biāo)注金標(biāo)準(zhǔn)。本測(cè)試數(shù)據(jù)庫(kù)根據(jù)結(jié)節(jié)大小分為3組:<5 mm、5~10 mm和>10 mm。結(jié)節(jié)密度分為鈣化結(jié)節(jié)與非鈣化結(jié)節(jié)(實(shí)性結(jié)節(jié)、亞實(shí)性結(jié)節(jié))。其中,亞實(shí)性結(jié)節(jié)進(jìn)一步分為純磨玻璃密度結(jié)節(jié)與混雜磨玻璃結(jié)節(jié),純磨玻璃密度結(jié)節(jié)指肺實(shí)質(zhì)內(nèi)圓型或類(lèi)圓形邊界清楚的密度增高影,其內(nèi)血管及支氣管顯示清晰,通過(guò)縱隔窗判斷有無(wú)實(shí)性腫瘤成分,無(wú)實(shí)性成分者為純磨玻璃密度結(jié)節(jié),反之判斷為混雜磨玻璃密度結(jié)節(jié)[14]。特殊部位的結(jié)節(jié)主要納入胸膜結(jié)節(jié),定義為與胸膜廣基底相連的圓形、類(lèi)圓形或不規(guī)則形的局灶性密度增高影。結(jié)節(jié)尺寸測(cè)量以肺部CT肺結(jié)節(jié)數(shù)據(jù)標(biāo)注與質(zhì)量控制專家共識(shí)為標(biāo)準(zhǔn),在標(biāo)準(zhǔn)肺窗測(cè)量,選取結(jié)節(jié)最大橫截面長(zhǎng)徑及短徑計(jì)算其平均直徑,平均直徑為(長(zhǎng)徑+短徑)/2[13],并記錄檢出結(jié)果。本次測(cè)試集總納入733個(gè)肺結(jié)節(jié),其中實(shí)性結(jié)節(jié)277個(gè),磨玻璃結(jié)節(jié)390個(gè),胸膜結(jié)節(jié)39個(gè),鈣化結(jié)節(jié)27個(gè)。肺結(jié)節(jié)大小范圍為3~30 mm,平均肺結(jié)節(jié)直徑為6.5 mm,其中惡性結(jié)節(jié)145個(gè),均經(jīng)病理證實(shí)。
本研究從肺結(jié)節(jié)檢出的靈敏度(Sensitivity),精準(zhǔn)度(Precision)以及平均每例假陽(yáng)性個(gè)數(shù)來(lái)衡量肺結(jié)節(jié)篩查算法的綜合性能。真陽(yáng)性檢出(True Positive)指當(dāng)CAD系統(tǒng)檢出的肺結(jié)節(jié)定位框與金標(biāo)準(zhǔn)中任意一個(gè)肺結(jié)節(jié)定位框有重合時(shí),則這個(gè)肺結(jié)節(jié)檢出被認(rèn)為是一個(gè)真陽(yáng)性檢出;反之,則認(rèn)為這個(gè)肺結(jié)節(jié)檢出是假陽(yáng)性檢出。CAD系統(tǒng)的肺結(jié)節(jié)靈敏度定義為CAD系統(tǒng)真陽(yáng)性個(gè)數(shù)/金標(biāo)準(zhǔn)肺結(jié)節(jié)總個(gè)數(shù);精準(zhǔn)度定義為CAD系統(tǒng)真陽(yáng)性個(gè)數(shù)/CAD系統(tǒng)檢出肺結(jié)節(jié)的總個(gè)數(shù);平均每例假陽(yáng)性個(gè)數(shù)定義為總共假陽(yáng)性檢出數(shù)量/總共測(cè)試集的病例個(gè)數(shù)。肺結(jié)節(jié)檢出的靈敏度反映了CAD系統(tǒng)對(duì)肺結(jié)節(jié)的檢出率,精準(zhǔn)度和平均每例假陽(yáng)性個(gè)數(shù)體現(xiàn)了CAD系統(tǒng)肺結(jié)節(jié)檢出的假陽(yáng)性。
分別使用本研究建立的三維卷積神經(jīng)網(wǎng)絡(luò)模型,Siemens syngo.via(VB 3.0)及Philips ISP(V8)CAD軟件進(jìn)行標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集中肺結(jié)節(jié)的檢出。通過(guò)與醫(yī)生確立的肺結(jié)節(jié)“金標(biāo)準(zhǔn)”對(duì)比,計(jì)算三類(lèi)方法在肺結(jié)節(jié)檢出的靈敏度、精準(zhǔn)度以及平均每例患者假陽(yáng)性檢出的個(gè)數(shù),同時(shí)比較對(duì)于不同大小、不同類(lèi)型肺結(jié)節(jié)檢出的靈敏度。
在測(cè)試集733個(gè)肺結(jié)節(jié)中,三維卷積神經(jīng)網(wǎng)絡(luò)算法模型共檢出658個(gè)結(jié)節(jié),另外有273個(gè)為假陽(yáng)性檢出。整體肺結(jié)節(jié)檢出靈敏度為90%,精準(zhǔn)度為71%,平均每例患者假陽(yáng)性檢出2.8個(gè)。驗(yàn)證的三維卷積神經(jīng)網(wǎng)絡(luò)的自由響應(yīng)受試者工作特征(free-response receiver operating characteristics,fROC)曲線[15]見(jiàn)圖1,綠色框在fROC曲線所對(duì)應(yīng)的點(diǎn)是該三維卷積神經(jīng)網(wǎng)絡(luò)的臨床應(yīng)用的操作點(diǎn)。
Siemens syngo.via工作站CAD軟件共檢出263個(gè)結(jié)節(jié),另外有117個(gè)為假陽(yáng)性檢出,整體肺結(jié)節(jié)檢出靈敏度為36%,精準(zhǔn)度為69%,平均每例患者假陽(yáng)性檢出1.2個(gè)。在同樣的假陽(yáng)性檢出下,fROC曲線顯示三維卷積神經(jīng)網(wǎng)絡(luò)的靈敏度為67%,z檢驗(yàn)表明該靈敏度顯著優(yōu)于syngo.via工作站(P<0.05)。
Philips ISP工作站CAD軟件共檢出249個(gè)結(jié)節(jié),另外有90個(gè)為假陽(yáng)性檢出,整體肺結(jié)節(jié)檢出靈敏度為34%,精準(zhǔn)度為73%,平均每例患者假陽(yáng)性檢出0.9個(gè)(表3)。在同樣的假陽(yáng)性檢出下,三維卷積神經(jīng)網(wǎng)絡(luò)的靈敏度為59%,z檢驗(yàn)表明該靈敏度顯著優(yōu)于Philips ISP(P<0.05)。
表3 基于標(biāo)準(zhǔn)測(cè)試集的肺結(jié)節(jié)檢測(cè)各項(xiàng)指標(biāo)
表4 測(cè)試集中不同大小、不同類(lèi)型的肺結(jié)節(jié)檢出個(gè)數(shù)及靈敏度
注:表中數(shù)據(jù)分別表示肺結(jié)節(jié)檢出個(gè)數(shù)及靈敏度(括號(hào));*表示在該類(lèi)型的肺結(jié)節(jié)檢出上,三維卷積神經(jīng)網(wǎng)絡(luò)顯著優(yōu)于所比較方法,差異有統(tǒng)計(jì)學(xué)意義(Z檢驗(yàn),P<0.05)。
圖2 基于級(jí)聯(lián)學(xué)習(xí)的肺結(jié)節(jié)輔助篩查流程圖,綠色方塊表示肺結(jié)節(jié),紅色方塊表示非肺結(jié)節(jié)。
針對(duì)不同大小、不同類(lèi)型的肺結(jié)節(jié)進(jìn)行分層統(tǒng)計(jì),分別計(jì)算三維卷積神經(jīng)網(wǎng)絡(luò)、Siemens syngo.via以及Philips ISP對(duì)于各類(lèi)結(jié)節(jié)檢出的靈敏度。對(duì)于三維卷積神經(jīng)網(wǎng)絡(luò),<5 mm的實(shí)性結(jié)節(jié)檢出237個(gè)(99%),5~10 mm實(shí)性結(jié)節(jié)檢出35個(gè)(100%),>10 mm實(shí)性結(jié)節(jié)檢出2個(gè)(100%);<5 mm的磨玻璃結(jié)節(jié)檢出109個(gè)(71%),5~10 mm的磨玻璃結(jié)節(jié)檢出157個(gè)(88%),>10 mm的磨玻璃結(jié)節(jié)檢出52個(gè)(88%);胸膜結(jié)節(jié)檢出39個(gè)(100%);鈣化結(jié)節(jié)檢出27個(gè)(100%)(表4)。
通過(guò)與syngo.via以及Philips ISP進(jìn)行對(duì)比,可以看出三維卷積神經(jīng)網(wǎng)絡(luò)幾乎在所有類(lèi)別的肺結(jié)節(jié)檢出上都有更高的靈敏度,尤其在<5 mm的實(shí)性結(jié)節(jié)、磨玻璃結(jié)節(jié)、胸膜和鈣化結(jié)節(jié)上,其靈敏度的優(yōu)勢(shì)更為明顯。
肺結(jié)節(jié)早期檢出并明確診斷對(duì)肺結(jié)節(jié)的臨床管理至關(guān)重要。我們前期基于回顧性數(shù)據(jù)建立了基于三維卷積神經(jīng)網(wǎng)絡(luò)算法的肺結(jié)節(jié)深度學(xué)習(xí)算法模型,所建立的肺結(jié)節(jié)檢出算法是基于特征金字塔網(wǎng)絡(luò)的檢測(cè)框架[16],采用三維卷積操作來(lái)替代傳統(tǒng)的二維卷積操作。整個(gè)算法的流程圖如圖2所示,通過(guò)多個(gè)檢測(cè)網(wǎng)絡(luò)對(duì)胸部CT肺結(jié)節(jié)進(jìn)行檢出?;谏疃葘W(xué)習(xí)計(jì)算的肺結(jié)節(jié)影像特征,每個(gè)檢測(cè)網(wǎng)絡(luò)會(huì)對(duì)圖像中的任意一個(gè)位置是否存在肺結(jié)節(jié)進(jìn)行判斷。只有所有檢測(cè)網(wǎng)絡(luò)一致認(rèn)為存在肺結(jié)節(jié)的位置,才會(huì)被算法輸出給醫(yī)生進(jìn)行審閱。通過(guò)結(jié)合多個(gè)深度學(xué)習(xí)檢測(cè)網(wǎng)絡(luò),該算法模型可以有效并準(zhǔn)確地檢出肺結(jié)節(jié)的位置。通過(guò)對(duì)模型的準(zhǔn)確性進(jìn)行獨(dú)立驗(yàn)證,并與傳統(tǒng)CAD系統(tǒng)(Siemens syngo.via VB 3.0 和Philips ISP V8)在肺結(jié)節(jié)檢出靈敏度、精準(zhǔn)度以及平均每例假陽(yáng)性個(gè)數(shù)等多個(gè)指標(biāo)方面進(jìn)行優(yōu)效驗(yàn)證,結(jié)果顯示該模型基于三維卷積神經(jīng)網(wǎng)絡(luò),可以充分反映每枚結(jié)節(jié)的三維空間信息,較傳統(tǒng)CAD模型具有較明顯的優(yōu)勢(shì)。基于三維卷積神經(jīng)網(wǎng)絡(luò)算法的肺結(jié)節(jié)自動(dòng)檢測(cè)模型較傳統(tǒng)CAD肺結(jié)節(jié)檢出系統(tǒng)具有更高的靈敏度,整體肺結(jié)節(jié)檢出靈敏度為90%,精準(zhǔn)度為71%,平均每例患者假陽(yáng)性檢出2.8個(gè),尤其對(duì)于<5mm的肺結(jié)節(jié)的檢出提升效果更為顯著。在不考慮結(jié)節(jié)大小對(duì)模型假陽(yáng)性影響的情況下,對(duì)結(jié)節(jié)假陽(yáng)性率的控制稍優(yōu)于Li等[17]的研究結(jié)果,該算法模型在實(shí)性結(jié)節(jié),胸膜結(jié)節(jié)及鈣化結(jié)節(jié)檢出上有著較高的靈敏度,但在磨玻璃結(jié)節(jié)檢出上靈敏度仍有不足。主要原因是由于磨玻璃結(jié)節(jié)在訓(xùn)練集中僅占7.8%,大量標(biāo)注結(jié)節(jié)為實(shí)性結(jié)節(jié),因此訓(xùn)練得到的算法模型偏向于學(xué)習(xí)實(shí)性結(jié)節(jié)的影像特征,對(duì)實(shí)性結(jié)節(jié)表現(xiàn)靈敏,而對(duì)樣本量較少的磨玻璃結(jié)節(jié)則相對(duì)不靈敏。
通過(guò)對(duì)測(cè)試集假陽(yáng)性結(jié)節(jié)進(jìn)行回顧性研究,筆者發(fā)現(xiàn)導(dǎo)致誤診的主要原因包括擴(kuò)張支氣管內(nèi)分泌物、迂曲增粗的血管、正常小葉核心結(jié)構(gòu)、馬賽克樣局限氣體潴留及一些不同病因?qū)е碌难仔愿腥静∽兊?。同樣?duì)于密度較淡磨玻璃結(jié)節(jié)、隱藏在血管旁結(jié)節(jié)、肺門(mén)旁結(jié)節(jié)、氣管內(nèi)結(jié)節(jié)及胸膜旁結(jié)節(jié)是主要的漏檢原因。 對(duì)于一款肺癌篩查軟件來(lái)說(shuō),較高的假陽(yáng)性率在肺結(jié)節(jié)臨床篩查中尚可接受,但假陰性率需盡力避免,因此,本研究模型雖然靈敏度較高,但對(duì)于臨床應(yīng)用來(lái)說(shuō)仍有較大的提升空間。
通過(guò)對(duì)本研究的初級(jí)模型的檢測(cè)結(jié)果可以看出,由于深度學(xué)習(xí)算法需要大量帶有肺結(jié)節(jié)標(biāo)注的胸部CT影像數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練,數(shù)據(jù)的多樣性以及標(biāo)注質(zhì)量直接決定了算法的效能;從而反映出一個(gè)深度學(xué)習(xí)的算法模型,其訓(xùn)練集數(shù)據(jù)的量和數(shù)據(jù)的標(biāo)注質(zhì)量至關(guān)重要,同時(shí)訓(xùn)練集的數(shù)據(jù)分布也直接影響著模型的魯棒性[18]。
本研究有以下局限性:①本研究屬于回顧性研究且測(cè)試集樣本量相對(duì)較少,存在選擇偏倚;②沒(méi)有對(duì)結(jié)節(jié)特殊位置進(jìn)行詳細(xì)分類(lèi);③不同類(lèi)別的樣本量不均衡,會(huì)導(dǎo)致算法訓(xùn)練性能下降,這是機(jī)器學(xué)習(xí)中常見(jiàn)的問(wèn)題[19]。下一步我們將建立經(jīng)過(guò)質(zhì)控達(dá)標(biāo)的標(biāo)準(zhǔn)測(cè)試集來(lái)驗(yàn)證深度學(xué)習(xí)模型的效能,并對(duì)漏診結(jié)節(jié)分析其漏診原因,有針對(duì)性地增加模型訓(xùn)練集分類(lèi)權(quán)重進(jìn)一步迭代優(yōu)化。
綜上所述,三維卷積神經(jīng)網(wǎng)絡(luò)算法模型相較于傳統(tǒng)CAD系統(tǒng),在肺結(jié)節(jié)檢出靈敏度上有顯著提升,通過(guò)對(duì)漏診結(jié)節(jié)的補(bǔ)充訓(xùn)練迭代,有望在臨床上提高醫(yī)生的閱片效率并降低漏診率,成為影像醫(yī)生的助手。當(dāng)然,這僅僅是用于結(jié)節(jié)篩查,肺結(jié)節(jié)鑒別診斷模型有待進(jìn)一步研發(fā)驗(yàn)證。