唐依琳 張淥愷 金倞 王坤 楊玉玲 馬莊宣 李騁 李銘,3△
(1復(fù)旦大學(xué)附屬華東醫(yī)院放射科 上海 200040; 2復(fù)旦大學(xué)附屬華山醫(yī)院放射科 上海 200040;3復(fù)旦大學(xué)醫(yī)學(xué)功能與分子影像研究所 上海 200040)
主動脈夾層(aortic dissection,AD)是一種危及生命健康的心血管危重疾病,是心血管疾病中死亡率最高的疾病之一。近年來中國AD的發(fā)病率呈上升趨勢[1],針對AD流行病學(xué)的現(xiàn)有研究大多以就診患者為基礎(chǔ),缺少未就診病例,這使得該疾病的真實發(fā)病率可能高于目前報道的發(fā)病率[2-4]。AD根據(jù)Stanford分型可分為A、B型,A型AD相較于B型AD發(fā)病更兇險,應(yīng)立即進(jìn)行手術(shù),而B型AD可以使用藥物治療或血管內(nèi)治療,因此提高A型AD的早期檢出率至關(guān)重要[5-6]。目前應(yīng)用碘對比劑增強(qiáng)CT是發(fā)現(xiàn)和診斷AD最常用的成像檢查方式,敏感性為100%,特異性為98%~99%[7-8]。然而,有碘對比劑禁忌的患者不能接受該檢查,還會使受檢者發(fā)生對比劑腎病的風(fēng)險增加[9-10]。此外,在夜間、節(jié)假日或一些醫(yī)療落后的地區(qū),增強(qiáng)CT檢查的可及性受限[11]。另外,許多早期缺乏典型癥狀或無癥狀的AD患者只采取了平掃CT檢查,導(dǎo)致這部分患者無法通過增強(qiáng)CT及時診斷[12-13]。平掃CT診斷AD的靈敏度低、假陰性率高,因此提高放射科醫(yī)師通過平掃CT診斷AD的信心,提高該檢查對AD的檢出率具有重要的臨床意義[14]。
近年來,人工智能已被廣泛應(yīng)用于醫(yī)學(xué)領(lǐng)域[15]。影像組學(xué)作為人工智能與影像大數(shù)據(jù)的交叉產(chǎn)物,具有無害、普適、快捷、經(jīng)濟(jì)等優(yōu)勢[16]。影像組學(xué)能捕捉醫(yī)學(xué)圖像中不能為肉眼識別的組織和病變的微觀異質(zhì)性,彌補(bǔ)傳統(tǒng)影像學(xué)診斷依靠肉眼識別病變和經(jīng)驗依賴性較強(qiáng)的缺陷[17],從而幫助放射科醫(yī)師提高對疾病診斷的信心。基于影像組學(xué)特征構(gòu)建的機(jī)器學(xué)習(xí)模型在平掃CT上檢測AD以及Stanford A型AD,目前國內(nèi)外尚未有相關(guān)研究。本研究旨在探討基于平掃CT影像組學(xué)的機(jī)器學(xué)習(xí)方法檢測AD和Stanford A型AD的可行性,以期提高平掃CT對非典型或無癥狀A(yù)D患者的檢出率,以及在增強(qiáng)CT檢查不可取或者獲得受限的情況下識別AD。
研究對象回顧性收集2011年7月至2022年7月期間在復(fù)旦大學(xué)附屬華東醫(yī)院同時接受了胸腹平掃CT和增強(qiáng)CT檢查的患者。AD陽性患者的納入標(biāo)準(zhǔn):(1)放射科醫(yī)師根據(jù)增強(qiáng)CT圖像表現(xiàn)確診的AD,CT檢查時尚未置入主動脈裝置;(2)患者在同一天進(jìn)行了平掃CT和增強(qiáng)CT檢查;(3)對照增強(qiáng)CT圖像,確保平掃CT圖像范圍包括夾層部分;(4)如果同一患者有多個CT檢查結(jié)果,則將最近一次檢查數(shù)據(jù)納入本研究。AD陰性患者的納入標(biāo)準(zhǔn):(1)增強(qiáng)CT圖像排除AD、且沒有與AD鑒別困難的壁間血腫、血栓和穿透性潰瘍;(2)患者在同一天有平掃CT和增強(qiáng)CT檢查。
按上述標(biāo)準(zhǔn),本研究共納入128例患者,其中男性86例(67.2%)。所有患者平均年齡(66±13)歲。128例患者中有AD患者61例,非AD患者67例。61例AD患者中男性53例(86.9%),平均年齡(67±14)歲。67例非AD患者中男性33例(49.3%),平均年齡(64±11)歲。按7∶3的比例將128例患者隨機(jī)劃分為訓(xùn)練集(n=89)和驗證集(n=39)?;颊叩呐R床資料包括年齡、性別、AD Stanford分型等。
CT影像采集采用Somatom Drive、Somatom Flash(德國西門子公司)和Revolution 256(美國GE公司) 3臺CT儀進(jìn)行平掃和CT增強(qiáng)掃描,采集體位為仰臥位,管電壓80~140 kVp,自動調(diào)節(jié)管電流技術(shù),矩陣為512×512,重建層厚0.625 mm/1 mm/1.25 mm/1.5 mm。
VOI勾畫將薄層(0.625 mm/1 mm/1.25 mm/1.5 mm)平掃CT圖像導(dǎo)入3D-slicer軟件(version4.11.0,http://www.slicer.org),由1名技術(shù)員在橫斷面圖像上隔層勾畫主動脈輪廓,并自動填充全部主動脈得到體積感興趣區(qū)(volumetric region of interest,VOI),再手動調(diào)整VOI范圍,盡量排除心肌、胸膜、脊柱、腹膜和胃腸道等無關(guān)結(jié)構(gòu),使VOI準(zhǔn)確覆蓋主動脈。最后,所有病例的主動脈VOI和平掃CT數(shù)據(jù)以NII(脫敏格式)導(dǎo)出,用于影像組學(xué)特征提取。
影像組學(xué)特征提取、篩選和機(jī)器學(xué)習(xí)模型的構(gòu)建和評價本研究采用Pyradiomics軟件(Python,Version 3.7)進(jìn)行影像組學(xué)特征的提取,在128例患者的主動脈VOI上共提取1 905個特征,其中包括一階特征、2D形態(tài)特征、3D形態(tài)特征、灰度共生矩陣特征、灰度大小區(qū)域矩陣特征、灰度游程矩陣特征、相鄰灰階差矩陣特征、灰度依賴矩陣特征和小波變換特征。為了便于分析,對提取的特征數(shù)據(jù)進(jìn)行正則化處理,轉(zhuǎn)換到均值為0、方差為1范圍內(nèi)。用Spearman相關(guān)性分析(特征之間Spearman系數(shù)>0.8時取其一),最小絕對收縮選擇算子(least absolute shrinkage and selection operator,LASSO)進(jìn)行特征篩選,降維后得到最優(yōu)特征集,在訓(xùn)練集中分別用支持向量機(jī)(support vector machine,SVM)、決策樹(decision tree,DT)、隨機(jī)森林(random forest,RF)、極端梯度提升(extreme gradient boosting,XGBoost)、輕量梯度提升(light gradient boosting,LightGBM)和極端隨機(jī)樹(extra trees,ET)模型構(gòu)建6種機(jī)器學(xué)習(xí)模型。評價指標(biāo)包括:受試者操作特性(receiver operating characteristic curve,ROC)曲線下面積(area under the ROC curve,AUC)、準(zhǔn)確度、F1分?jǐn)?shù)和召回率。
統(tǒng)計學(xué)分析采用SPSS統(tǒng)計軟件(Version 26版)和R(Version 4.1.0)進(jìn)行統(tǒng)計分析和模型構(gòu)建。計量資料用表示,計數(shù)資料用頻數(shù)和百分?jǐn)?shù)表示。使用AUC、準(zhǔn)確度、F1值和召回率評估各模型的檢測效能。
檢測AD的機(jī)器學(xué)習(xí)模型1 905個特征經(jīng)過Spearman相關(guān)性分析和LASSO回歸降維后得到35個影像組學(xué)特征的最優(yōu)特征集合,特征篩選過程、最終的35個特征參數(shù)及相應(yīng)權(quán)重見圖1。SVM、DT、RF、XGBoost、LightGBM和ET模型在訓(xùn)練集和驗證集中檢測AD的效能見表1、圖2和圖3。結(jié)果顯示,XGBoost模型在訓(xùn)練集和驗證集中均具有最高的檢測性能,且在訓(xùn)練集和驗證集中的表現(xiàn)差異最小。該模型在驗證集中的AUC、召回率、F1分?jǐn)?shù)和準(zhǔn)確度分別為0.982、100.0%、0.960、96.2%。
表1 基于三維平掃CT影像組學(xué)特征不同機(jī)器學(xué)習(xí)模型檢測AD效能Tab 1 Efficacy of different machine learning models for detecting AD based on non-contrast CT 3D-radiomics features
圖2 各模型在驗證集上檢測AD的ROC曲線Fig 2 ROC curve for each model to detect aortic dissection in the validation set
圖3 6種機(jī)器學(xué)習(xí)模型的混淆矩陣Fig 3 Confusion matrix for 6 machine learning models
檢測Stanford A型AD的機(jī)器學(xué)習(xí)模型進(jìn)一步探究影像組學(xué)機(jī)器學(xué)習(xí)模型對Stanford A型AD的檢測效能。128個研究對象中有23例Stanford A型AD患者。1 905個特征經(jīng)過Spearman相關(guān)性分析和LASSO回歸降維后得到包括13個影像組學(xué)特征的最優(yōu)特征集合。特征篩選過程、最終的13個特征參數(shù)及相應(yīng)權(quán)重見圖4。
圖4 LASSO回歸篩選特征和確定最優(yōu)特征集Fig 4 LASSO regression for feature selection and optimal feature set determination
SVM、DT、RF、XGBoost、LghtGBM和ET在訓(xùn)練集和驗證集中檢測AD的效能見表2和圖5。結(jié)果顯示RF模型對Stanford A型AD的檢測能力最好。RF在訓(xùn)練集中的AUC、F1分?jǐn)?shù)、準(zhǔn)確度和召回率分別為0.999、0.976、99.0%、100.0%;在驗證集中分別為0.852、0.625、76.9%、100.0%。
圖5 各模型在驗證集上檢測Stanford A型AD的ROC曲線Fig 5 ROC curve for each model to detect Stanford type A AD in the validation set
本研究以增強(qiáng)CT掃描確診的AD為金標(biāo)準(zhǔn),基于平掃CT影像組學(xué)方法分別構(gòu)建了檢測AD的6個機(jī)器學(xué)習(xí)模型,結(jié)果顯示XGBoost模型在識別AD上表現(xiàn)最佳,RF模型在檢測Standford A型AD上表現(xiàn)最佳,召回率均為100%。這表明通過影像組學(xué)機(jī)器學(xué)習(xí)模型,有望提高平掃CT對AD的診斷效能,從而提高平掃CT對非典型或無癥狀A(yù)D患者的檢出率,為有碘對比劑使用禁忌的患者、增強(qiáng)CT檢查受限或可及性不足地區(qū)的患者、以及擔(dān)憂碘對比劑腎病而不愿接受增強(qiáng)CT檢查的患者提供可行的替代檢查方式。
關(guān)于機(jī)器學(xué)習(xí)模型在CT圖像上檢測AD的價值,Harris等[18]開發(fā)了一種基于2維增強(qiáng)CT圖像的卷積神經(jīng)網(wǎng)絡(luò)模型,在檢測AD和主動脈破裂上表現(xiàn)出良好的性能,并通過外部驗證集證實。隨后,Cheng等[19]將U-Net深度學(xué)習(xí)模型應(yīng)用于增強(qiáng)后的CT橫斷面圖像,以實現(xiàn)主動脈的自動分割和診斷AD。研究結(jié)果顯示,該方法的準(zhǔn)確度高達(dá)85.0%。Tan等[20]在88例CT病例(43例AD患者和45例健康人)中比較了基于增強(qiáng)CT橫斷面圖像的3種CNN模型對AD的診斷性能,結(jié)果顯示DenseNet121性能最好,在驗證集中F1值和召回率均為0.968。上述研究僅利用二維影像數(shù)據(jù)構(gòu)建機(jī)器學(xué)習(xí)模型,沒有利用三維影像數(shù)據(jù),且均基于增強(qiáng)CT圖像診斷AD,沒有嘗試基于平掃CT來檢測AD。因此在增強(qiáng)CT不可及或無法獲得的情況下,上述方法可能無法使患者受益。目前,國內(nèi)外已有學(xué)者研究深度學(xué)習(xí)模型在平掃CT上對AD的診斷價值。Hata等[21]構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)模型可在平掃CT的橫斷面圖像上診斷AD,在準(zhǔn)確性、敏感性和特異性方面,與放射科醫(yī)師對AD的診斷無統(tǒng)計學(xué)差異。Yi等[22]聯(lián)合形態(tài)學(xué)特征和深度學(xué)習(xí)特征構(gòu)建深度集成模型來診斷AD,結(jié)果顯示該模型的診斷準(zhǔn)確性與放射科醫(yī)師無統(tǒng)計學(xué)差異。然而,上述兩個研究均將深度學(xué)習(xí)模型與放射科醫(yī)師在平掃CT上識別AD的表現(xiàn)進(jìn)行比較,但他們并未將基于平掃CT的深度學(xué)習(xí)模型與放射科醫(yī)師基于增強(qiáng)CT識別AD的效能進(jìn)行比較。鑒于增強(qiáng)CT目前仍然是檢測AD的一線成像方式,加上放射科醫(yī)師基于平掃CT識別AD敏感度低、假陰性率高[14,23],因此在增強(qiáng)CT使用受限的情況下,上述研究所構(gòu)建的模型是否可以作為增強(qiáng)CT的替代檢查方式來幫助識別AD有待進(jìn)一步驗證。
本研究基于影像組學(xué)特征分別應(yīng)用SVM、DT、RF、ET、LightGBM、XGBoost 6種機(jī)器學(xué)習(xí)算法進(jìn)行模型構(gòu)建,并計算AUC、準(zhǔn)確度、召回率、F1分?jǐn)?shù)及混淆矩陣指標(biāo)評價模型的效能。召回率是真實陽性樣本中的正確檢測比例,計算公式為:正確檢測為陽性的樣本數(shù)/真陽性樣本數(shù)。F1分?jǐn)?shù)同時兼顧了精確度和召回率,是對它們的調(diào)和平均。由于AD是心血管疾病中死亡率最高的疾病之一,所以提高該疾病的檢出率具有重要的臨床意義。根據(jù)專家共識[8],增強(qiáng)CT識別AD的召回率為100%。本研究結(jié)果顯示,XGBoost模型在平掃CT上識別AD的召回率為100%。在檢測AD的能力上,該模型的表現(xiàn)可以被很好的接受。因此,在增強(qiáng)CT不可用或不可得的情況下,用該模型幫助放射科醫(yī)師識別AD具有可行性。另外,鑒于Stanford A型AD比Stanford B型AD發(fā)病更兇險,死亡率更高,更迫切需要緊急手術(shù)治療[24],因此我們探究了影像組學(xué)機(jī)器學(xué)習(xí)模型識別累及升主動脈的Stanford A 型AD的效能。結(jié)果顯示,RF模型檢測出了所有A型AD患者,表明該模型有望對此類患者有所幫助。
在這6個機(jī)器學(xué)習(xí)模型中,DT的效能不佳,在檢測AD和A型AD的驗證集中AUC和F1分?jǐn)?shù)均低于其他模型,且在訓(xùn)練集和驗證集表現(xiàn)差異大,提示該模型存在過擬合。SVM是一種廣義的線性分類器模型[25],在檢測AD以及Stanford A型AD上,SVM模型在驗證集的檢測性能均為第二,在訓(xùn)練集和驗證集的表現(xiàn)差異也較小,具有較好的準(zhǔn)確性。RF和ET是以決策樹為基分類器的集成模型。在檢測AD上,RF模型在驗證集實現(xiàn)了良好的檢測準(zhǔn)確性,AUC達(dá)0.896,但稍遜色于XGBoos和LightGBM模型。但在檢測Stanford A型AD上,RF模型的表現(xiàn)最好。ET的原理與RF類似,但具有更強(qiáng)的隨機(jī)性。在檢測AD上,ET模型在訓(xùn)練集與驗證集中表現(xiàn)出良好的檢測性能,在驗證集中AUC、F1分?jǐn)?shù)、準(zhǔn)確度分別為0.886、0.783、80.8%。然而,在檢測Stanford A型AD上,ET模型在訓(xùn)練集和驗證集表現(xiàn)差異較大。XGBoost模型和LightGBM模型都采用損失函數(shù)的負(fù)梯度作為當(dāng)前決策樹的殘差近似值,去擬合新的決策樹,因此均為基于決策樹的分布式梯度提升框架[26]。在檢測AD上,這2個模型均表現(xiàn)出優(yōu)于另外4個模型的性能,而XGBoost模型相較于LightGBM模型,對陽性AD樣本的檢出率更高。無論是檢測AD還是檢測Stanford A型AD,這2個模型性能差別較小。
本研究存在一些局限性。首先,這是一項單中心回顧性研究,不可避免地存在偏倚;其次,本研究的結(jié)論缺少外部數(shù)據(jù)的驗證;再次,本研究僅分析影像組學(xué)特征的診斷效能,未結(jié)合臨床特征建模;最后,本研究納入的樣本量較少,可能影響結(jié)果的準(zhǔn)確性。
綜上所述,本研究基于平掃CT的三維影像組學(xué)構(gòu)建了檢測AD及Stanford A型AD的機(jī)器學(xué)習(xí)模型。在檢測AD上XGBoost模型效能最佳,在檢測Stanford A型AD上RF模型效能最佳。通過機(jī)器學(xué)習(xí),有望通過平掃CT提高非典型或無癥狀A(yù)D患者的檢出率,降低發(fā)生對比劑腎病的風(fēng)險,為有對比劑禁忌或增強(qiáng)CT不可及的患者提供可行的替代檢查方式。
作者貢獻(xiàn)聲明唐依琳 文獻(xiàn)調(diào)研和整理,數(shù)據(jù)收集、整理和統(tǒng)計,模型構(gòu)建,論文撰寫和修訂。張淥愷 論文構(gòu)思,數(shù)據(jù)收集和分析,技術(shù)指導(dǎo)。金倞 研究選題和設(shè)計,論文指導(dǎo)。王坤,楊玉玲數(shù)據(jù)收集和整理。李騁,馬莊宣 可行性分析,論文修訂。李銘 數(shù)據(jù)分析,項目統(tǒng)籌,論文修訂。
利益沖突聲明所有作者均聲明不存在利益沖突。