張 巖, 孫成建, 張照龍, 謝宜興, 徐 銳, 劉國平, 趙曉龍, 邵黎明, 王振光
顱內(nèi)動(dòng)脈瘤的發(fā)病率為1%~2%,破裂后引起的蛛網(wǎng)膜下腔出血(SAH)占非創(chuàng)傷性SAH 的80%~85%[1]、破裂后所致死亡占了腦血管病死亡的22%~25%[2]。在顱內(nèi)動(dòng)脈瘤中,前交通動(dòng)脈瘤占到了30%~35%[3]。 隨著影像技術(shù)的發(fā)展與人們對(duì)健康的愈益關(guān)注,顱內(nèi)動(dòng)脈瘤臨床檢出率也越來越高。當(dāng)發(fā)現(xiàn)未破裂顱內(nèi)動(dòng)脈瘤時(shí), 往往需要權(quán)衡動(dòng)脈瘤短期和長期破裂的風(fēng)險(xiǎn)以及手術(shù)自身相關(guān)的風(fēng)險(xiǎn)。PHASES 評(píng)分作為目前常用的判斷顱內(nèi)動(dòng)脈瘤破裂風(fēng)險(xiǎn)的工具[4],提出了將年齡、高血壓、SAH 病史、動(dòng)脈瘤大小、動(dòng)脈瘤位置以及地理區(qū)域作為判斷動(dòng)脈瘤破裂風(fēng)險(xiǎn)的指標(biāo)。 而具體到前交通動(dòng)脈瘤,據(jù)文獻(xiàn)報(bào)道,其破裂的危險(xiǎn)因素包括動(dòng)脈瘤的大小、形態(tài)、A1 優(yōu)勢(shì)、患者的年齡、病史等[5]。 機(jī)器學(xué)習(xí)作為近些年興起的前交通動(dòng)脈瘤破裂風(fēng)險(xiǎn)的預(yù)測(cè)模型建立方法,受到越來越多的關(guān)注。其中分類樹及隨機(jī)森林作為有監(jiān)督機(jī)器學(xué)習(xí)中的一部分,是非常強(qiáng)大的方法,特別是在分類問題中。
研究對(duì)象為經(jīng)青島大學(xué)附屬醫(yī)院臨床科研大數(shù)據(jù)平臺(tái)檢索出的于2012 年12 月至2020 年4 月期間住院的前交通動(dòng)脈瘤患者,共檢索出452 例患者。 患者因SAH、腦血管疾病、健康查體等原因在我院行腦血管CT 血管造影(CTA)檢查,并診斷為前交通動(dòng)脈瘤。 381 例前交通動(dòng)脈瘤患者符合納入標(biāo)準(zhǔn)。 其中破裂引起SAH 患者244 例,未破裂前交通動(dòng)脈瘤患者137 例?;颊咧心?09 例,女172 例。破裂組平均年齡為(57.1±10.2)歲,未破裂組為(60.4±10.0)歲。
納入標(biāo)準(zhǔn):①因各種原因于我院行腦血管CTA檢查,并診斷為前交通動(dòng)脈瘤。 ②有詳細(xì)的臨床資料與影像學(xué)資料。 排除標(biāo)準(zhǔn):①梭形動(dòng)脈瘤、夾層動(dòng)脈瘤、血管畸形患者。 ②患者及家屬不能配合完成研究。 ③患者因外傷或其他因素導(dǎo)致的前交通動(dòng)脈瘤。 ④患者臨床資料或影像學(xué)資料不全。
1.2.1 資料收集 有關(guān)患者的年齡、性別、病史及頭頸部CTA 圖像均從醫(yī)渡云配合病歷系統(tǒng)檢索及測(cè)量。根據(jù)既往文獻(xiàn)研究[6],收集患者的年齡、性別、吸煙史、 高血壓病史、SAH 病史, 并分別測(cè)量患者CTA 圖像中前交通動(dòng)脈瘤的高度、瘤頸寬度、是否有A1 優(yōu)勢(shì)、動(dòng)脈瘤是否規(guī)則、動(dòng)脈瘤朝向,將以上特征納入預(yù)測(cè)模型。 A1 優(yōu)勢(shì)定義為一側(cè)A1 段明顯增粗, 對(duì)側(cè)A1 段未顯影或直徑小于優(yōu)勢(shì)側(cè)二分之一。 動(dòng)脈瘤朝向?yàn)閺腃TA 矢狀位,以枕骨粗隆上緣與眉弓上緣連線為標(biāo)準(zhǔn),根據(jù)動(dòng)脈瘤瘤頂朝向分為前上、前下、后上及后下。 動(dòng)脈瘤不規(guī)則定義為動(dòng)脈瘤表面不光滑,有子囊、分葉或凸起。
1.2.2 數(shù)據(jù)處理及分析 采用R 軟件(3.6.3 版本)對(duì)數(shù)據(jù)進(jìn)行處理及分析。 正態(tài)分布的計(jì)量資料組間比較采用獨(dú)立樣本t檢驗(yàn), 計(jì)數(shù)資料的組間比較采用χ2檢驗(yàn);后選用機(jī)器學(xué)習(xí)中的決策樹及隨機(jī)森林方法建立預(yù)測(cè)模型, 預(yù)測(cè)指標(biāo)為動(dòng)脈瘤的破裂與否,模型樣本量符合每個(gè)變量的事件數(shù)(EPV)原則。得出模型后在測(cè)試集中計(jì)算預(yù)測(cè)模型的準(zhǔn)確度、靈敏度及特異度,并繪制受試者工作特征(ROC)曲線。以P<0.05 為具有統(tǒng)計(jì)學(xué)意義。
破裂組與未破裂組的年齡、動(dòng)脈瘤高度、瘤頸寬度、動(dòng)脈瘤不規(guī)則及A1 優(yōu)勢(shì)這些特征,差異有統(tǒng)計(jì)學(xué)意義(P<0.05),而性別、吸煙史、高血壓史、動(dòng)脈瘤朝向、SAH 病史這些特征之間的差異并無統(tǒng)計(jì)學(xué)意義。 表1。
將數(shù)據(jù)集以有放回的隨機(jī)抽樣方法即自助法,按照7∶3 比例分為訓(xùn)練集及測(cè)試集。 訓(xùn)練集273 例患者,其中動(dòng)脈瘤破裂患者179 例;測(cè)試集108 例患者,其中動(dòng)脈瘤破裂患者65 例。 在訓(xùn)練集中,用分類回歸樹(CART)的方法進(jìn)行模型建立。 生成分類樹后, 繼續(xù)在訓(xùn)練集中利用10 折交叉驗(yàn)證的方法,得到標(biāo)準(zhǔn)差最小的樹的分裂次數(shù),從而對(duì)決策樹模型進(jìn)行剪枝,最終得到分裂次數(shù)為7 的決策樹模型。如圖1 所示可以看到,在訓(xùn)練集得出的決策樹模型中,動(dòng)脈瘤不規(guī)則、動(dòng)脈瘤高度、瘤頸寬度及年齡是參與決策樹分裂的較早的節(jié)點(diǎn)特征,其中動(dòng)脈瘤高度以5.54 mm 作為最佳切分點(diǎn), 動(dòng)脈瘤頸寬度以3.59 mm 作為最佳切分點(diǎn)。 將該模型應(yīng)用于測(cè)試集后,ROC 中曲線下面積(AUC)為0.737(95%CI: 0.637~0.837);最佳截?cái)嘀禐?.500(圖2)。在該截?cái)嘀迪?,模型的預(yù)測(cè)準(zhǔn)確率為73.15%,靈敏度為0.831,特異度為0.581,一致性檢驗(yàn)(kappa)值為0.424。
表1 破裂動(dòng)脈瘤與未破裂動(dòng)脈瘤特征對(duì)比
圖1 決策樹預(yù)測(cè)模型
圖2 預(yù)測(cè)模型ROC 曲線
圖3 特征重要性排序
隨機(jī)森林是指多次隨機(jī)抽取數(shù)據(jù), 生成許多決策樹,之后將這些樹得出的結(jié)果結(jié)合起來,理論上可以防止模型過度擬合。 訓(xùn)練集及測(cè)試集分類方法同上。 將基尼指數(shù)的改善作為特征重要程度的評(píng)價(jià)標(biāo)準(zhǔn), 對(duì)隨機(jī)森林中變量重要性進(jìn)行排序,如圖3 所示,前3 位分別是動(dòng)脈瘤的高度、動(dòng)脈瘤頸寬度以及年齡,較單個(gè)分類樹模型有所區(qū)別。 在樹的規(guī)模為219 時(shí),整體誤差率最小,模型達(dá)到最優(yōu)。 將該模型應(yīng)用于測(cè)試集,ROC 中AUC 為0.675(95%CI:0.569~0.7806);最佳截?cái)嘀禐?.521(圖2)。在該截?cái)嘀迪?,模型的預(yù)測(cè)準(zhǔn)確率為68.52%,靈敏度為0.800,特異度為0.512,kappa 值為0.322。準(zhǔn)確率及ROC AUC 較決策樹無明顯改善。
由于分類樹及隨機(jī)森林模型效果不甚理想,故選用Xgboost()方法改善模型效果。 Xgboost 同隨機(jī)森林類似,亦是一種集成樹模型,但是由于其算法的優(yōu)勢(shì),往往經(jīng)過參數(shù)的調(diào)優(yōu)后得到更為理想的模型,廣泛應(yīng)用于模型的優(yōu)化提升。 利用網(wǎng)格搜索的方法,建立了一個(gè)具有36 個(gè)模型的網(wǎng)格,參數(shù)范圍如下:最大迭代次數(shù)為75、219;學(xué)習(xí)率為0.01、0.1、0.3;gamma 值為0.5、0.25;單個(gè)樹的最大深度為2、3、4。 利用5 折交叉驗(yàn)證方法調(diào)優(yōu)各個(gè)超參數(shù),得出最優(yōu)模型,其參數(shù)如下:最大迭代次數(shù)為為219;學(xué)習(xí)率為0.1;gamma 值為0.5;單個(gè)樹的最大深度為4。 最終ROC 中Auc 為0.758(95%CI:0.6569~0.8587);最佳截?cái)嘀禐?.545(圖2)。 在該截?cái)嘀迪?,模型的預(yù)測(cè)準(zhǔn)確率為77.78%,靈敏度為0.893,特異度為0.605,kappa 值為0.518,均較前改善。
考慮到本研究仍為一個(gè)相對(duì)較小樣本研究,當(dāng)數(shù)據(jù)量較小時(shí),訓(xùn)練集與測(cè)試集的劃分對(duì)模型效能的影響較大, 故采用3 折交叉驗(yàn)證訓(xùn)練的方法,利用Xgboost 梯度提升訓(xùn)練模型,并分別在不同的測(cè)試集中進(jìn)行驗(yàn)證。 如圖4 所示,在測(cè)試集1 中,ROC 中AUC 為0.848(95%CI:0.7759~0.9197);在測(cè)試集2中,ROC 中AUC 為0.797(95%CI:0.7171~0.8768;在測(cè)試集3 中,ROC 中AUC 為0.858(95%CI:0.7847~0.9306),均表現(xiàn)出了較好的模型效能。
圖4 不同測(cè)試集ROC 曲線
Greving 等[4]前瞻性隊(duì)列研究的結(jié)果中發(fā)現(xiàn),顱內(nèi)動(dòng)脈瘤5 年的破裂風(fēng)險(xiǎn)隨PHASES 評(píng)分分值的增高而增加。 其中PHASES 評(píng)分主要包括以下6 個(gè)因素:年齡、高血壓、SAH 史、動(dòng)脈瘤大小、動(dòng)脈瘤位置和地理區(qū)域。 前交通動(dòng)脈瘤作為顱內(nèi)動(dòng)脈瘤中發(fā)生率最高的動(dòng)脈瘤,專注于其破裂風(fēng)險(xiǎn)預(yù)測(cè)模型的研究相對(duì)較少。 本研究中,按照預(yù)測(cè)模型判斷動(dòng)脈瘤破裂與否的特征重要性進(jìn)行排序, 動(dòng)脈瘤深度,動(dòng)脈瘤寬度,年齡,動(dòng)脈瘤不規(guī)則,A1 優(yōu)勢(shì)征以及是較為重要的分類特征,而性別、吸煙史、動(dòng)脈瘤朝向?qū)Y(jié)果影響相對(duì)較小。 這也與一些國內(nèi)外的既往研究相符。
有研究表明, 動(dòng)脈瘤的破裂風(fēng)險(xiǎn)隨著動(dòng)脈瘤大小的增加而增加[7]。 本模型中,動(dòng)脈瘤深度達(dá)到5.54 mm 時(shí), 是預(yù)測(cè)前交通動(dòng)脈瘤破裂與否的一個(gè)重要切分點(diǎn)。 在隨機(jī)森林中根據(jù)基尼指數(shù)改善而得到的特征重要性排序中,動(dòng)脈瘤高度亦是最重要的分類特征。 國外的一項(xiàng)基于ISUIA 數(shù)據(jù)庫進(jìn)行的研究中,在進(jìn)行多因素回歸分析后,動(dòng)脈瘤的高度是唯一的獨(dú)立危險(xiǎn)因素[8]。 此外,在本模型中,動(dòng)脈瘤瘤頸寬度的切分點(diǎn)為3.585 mm,而破裂組的瘤頸寬度要小于未破裂組,差異有統(tǒng)計(jì)學(xué)意義。 有研究認(rèn)為,較小的瘤頸寬度會(huì)導(dǎo)致動(dòng)脈瘤內(nèi)的壁切應(yīng)力改變,引起動(dòng)脈瘤壁重建,從而增加破裂的風(fēng)險(xiǎn)[9]。
有多個(gè)葉、子囊或其他類型的壁突的動(dòng)脈瘤定義為不規(guī)則動(dòng)脈瘤[10]。 本研究中的決策樹模型中,動(dòng)脈瘤不規(guī)則是最早參與決策樹分裂的預(yù)測(cè)特征。瘤腔不規(guī)則增加破裂風(fēng)險(xiǎn)的機(jī)制可能與不規(guī)則瘤腔附近出現(xiàn)的高剪切應(yīng)力值有關(guān)[11]。 一項(xiàng)關(guān)于前交通動(dòng)脈瘤破裂的形態(tài)學(xué)特征的研究指出,不規(guī)則的動(dòng)脈瘤是動(dòng)脈瘤破裂的獨(dú)立危險(xiǎn)因素[10]。 日本一項(xiàng)大型的關(guān)于動(dòng)脈瘤自然病程的研究中表明,有子囊的動(dòng)脈瘤更容易破裂(危險(xiǎn)比1.63)[7]。 國外的另一項(xiàng)研究也表明,前交通動(dòng)脈瘤出現(xiàn)瘤泡與前交通動(dòng)脈瘤破裂顯著相關(guān)(OR∶22)[12]。 本研究與其得出的結(jié)論相符。
A1 優(yōu)勢(shì)定義為一側(cè)A1 段明顯增粗, 對(duì)側(cè)A1段未顯影或直徑小于優(yōu)勢(shì)側(cè)二分之一。 一項(xiàng)關(guān)于前交通小動(dòng)脈瘤的研究中指出,A1 優(yōu)勢(shì)征與動(dòng)脈瘤破裂相關(guān)[13]。 有研究對(duì)A1 段的發(fā)育異常與前交通動(dòng)脈瘤的形成及破裂的關(guān)系進(jìn)行了血流動(dòng)力學(xué)的三維數(shù)值模擬。 A1 段的發(fā)育異常會(huì)導(dǎo)致壁切應(yīng)力的變化及湍流形成, 從而影響動(dòng)脈瘤的形成與破裂[14]。本研究中, 破裂組與未破裂組的A1 優(yōu)勢(shì)征有顯著差異,但依照基尼指數(shù)改善對(duì)特征排序,其重要性相對(duì)前述特征略低。
隨著血流動(dòng)力學(xué)的研究深入,許多血流動(dòng)力學(xué)參數(shù)也被證明與前交通動(dòng)脈瘤的破裂相關(guān)。 采用計(jì)算流體力學(xué)(CFD)對(duì)動(dòng)脈瘤血流動(dòng)力學(xué)參數(shù)進(jìn)行計(jì)算是目前應(yīng)用較多的一種研究方法。 壁應(yīng)切力(WSS)是研究比較多的一種參數(shù)。 但是研究結(jié)果存在一定爭議。Detmer 等[15]對(duì)大量的動(dòng)脈瘤患者的血流動(dòng)力學(xué)進(jìn)行了研究, 結(jié)果表明, 破裂動(dòng)脈瘤的WSS 明顯較低,這與以前的研究一致。 有研究表明,較低的WSS 可能會(huì)引起內(nèi)皮細(xì)胞的凋亡,從而導(dǎo)致血管壁變化,這可能是低WSS 與動(dòng)脈瘤破裂相關(guān)的機(jī)制[16]。 但Zhang 等[17]的研究表明,WSS 幅值高于12.3 達(dá)因/ cm2時(shí), 載瘤動(dòng)脈中的WSS 可能是預(yù)測(cè)動(dòng)脈瘤破裂狀態(tài)的可靠血流動(dòng)力學(xué)參數(shù)之一。 分析表明,每增加一單位WSS,前交通動(dòng)脈瘤破裂的風(fēng)險(xiǎn)也會(huì)增加6.2 倍。 本研究受限于納入的病例影像資料為CTA,顯示動(dòng)脈瘤形態(tài)欠佳,采用CFD計(jì)算動(dòng)脈瘤的血流動(dòng)力學(xué)參數(shù)誤差較大。 根據(jù)相關(guān)研究[14],本文納入了動(dòng)脈瘤朝向和大腦前動(dòng)脈A1優(yōu)勢(shì)征這兩種與血流動(dòng)力學(xué)表現(xiàn)密切相關(guān)的因素進(jìn)行了分析。
年齡對(duì)動(dòng)脈瘤破裂的影響目前尚有爭議。 既往有研究表明,高齡(尤其是超過60 歲)是顱內(nèi)動(dòng)脈瘤破裂的重要的危險(xiǎn)因素[18]。 但也有對(duì)前交通動(dòng)脈瘤研究得出的結(jié)果中, 動(dòng)脈瘤破裂的患者更加年輕[12]。 此外,國外的一項(xiàng)研究認(rèn)為,隨著年齡的增長,前交通動(dòng)脈瘤的大小可能保持穩(wěn)定,年輕患者和老年患者的破裂風(fēng)險(xiǎn)相似的。 在本研究中,破裂組的患者明顯要比未破裂組更加年輕(P=0.003)。參考本研究的結(jié)果,當(dāng)我們面對(duì)年輕的未破裂前交通動(dòng)脈瘤患者時(shí),可能需要更加積極的干預(yù)[16]。
機(jī)器學(xué)習(xí)正在越來越多被人們應(yīng)用到預(yù)測(cè)模型的建立。 有學(xué)者應(yīng)用兩層的前饋人工神經(jīng)網(wǎng)絡(luò)對(duì)前交通動(dòng)脈瘤的破裂風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè),結(jié)果較為理想[19]。 在近期的另一項(xiàng)研究中,支持向量機(jī)、隨機(jī)森林以及多層感知器亦應(yīng)用在動(dòng)脈瘤的破裂風(fēng)險(xiǎn)預(yù)測(cè)中[20]。 作為機(jī)器學(xué)習(xí)中的一員,分類樹較為簡潔易懂,而且對(duì)分類問題上有其獨(dú)到的優(yōu)勢(shì)。 目前國內(nèi)外的研究中,最常用的是logistic 回歸[21]。 logistic 回歸在線性關(guān)系的數(shù)據(jù)處理中有優(yōu)勢(shì),而面對(duì)非線性問題時(shí), 機(jī)器學(xué)習(xí)的方法可能更加適合; 而且logistic 容易多重共線性,通常需要正則化,這些恰恰是決策樹的強(qiáng)項(xiàng);此外,決策樹還能更加便捷的得出預(yù)測(cè)因子的最佳切分點(diǎn),這也是相對(duì)于logistic回歸的一項(xiàng)優(yōu)勢(shì)。在本研究中,選用了決策樹、隨機(jī)森林來建立預(yù)測(cè)模型, 并應(yīng)用xgboost 梯度提升建立了更加優(yōu)化的模型,得到了較為理想的結(jié)果。
本研究存在一定的局限性。 首先,本研究是一項(xiàng)回顧性研究,而不是一項(xiàng)前瞻性的關(guān)于前交通動(dòng)脈瘤自然病程的研究,所以可能不能完全代表前交通動(dòng)脈瘤破裂的真實(shí)風(fēng)險(xiǎn)。 其次,使用該模型評(píng)估未來動(dòng)脈瘤破裂的風(fēng)險(xiǎn)是基于這樣的假設(shè),即具有高破裂風(fēng)險(xiǎn)的動(dòng)脈瘤與那些已經(jīng)破裂的動(dòng)脈瘤相似。 當(dāng)輸入數(shù)據(jù)后,該數(shù)據(jù)進(jìn)入預(yù)測(cè)模型并被分類為破裂組,便可認(rèn)為其破裂可能性大。 該模型主要用于預(yù)測(cè)動(dòng)脈瘤短期破裂可能性,從而幫助臨床醫(yī)師制訂治療方案。 另外,本研究是單中心研究,缺乏外部驗(yàn)證,這可能會(huì)提高模型的置信水平,因此模型的泛化能力有待進(jìn)一步論證。
應(yīng)用機(jī)器學(xué)習(xí)中的決策樹、隨機(jī)森林、梯度提升方法建立模型,能較好地進(jìn)行前交通動(dòng)脈瘤的破裂預(yù)測(cè), 其中梯度提升方法所建立的模型效能更優(yōu)。 本研究在進(jìn)行未破裂前交通動(dòng)脈瘤的治療決策方面,具有一定的臨床應(yīng)用價(jià)值。