湛先發(fā), 余小亞, 王洪軍, 熊坤林
(重慶市豐都縣人民醫(yī)院, 1. 放射科, 2. 神經內科, 重慶, 408200;3. 陸軍特色醫(yī)學中心 放射科, 重慶, 400042)
腦梗死又稱缺血性腦卒中,是腦組織缺血、缺氧所致壞死或軟化的腦血管疾病。近年來,流行病學研究[1]表明腦梗死發(fā)病率、致殘率和再發(fā)生率持續(xù)升高,極大影響了患者的生活質量。頸動脈是向腦組織供血的主干血管,其分叉處極易形成動脈斑塊,而頸部不穩(wěn)定的斑塊脫落可增加腦梗死事件的發(fā)生風險[2]。因此,分析研究頸動脈斑塊的性質對于預測腦梗死的發(fā)生具有重要意義。隨著醫(yī)療衛(wèi)生信息化建設的迅猛發(fā)展,機器學習算法在醫(yī)療領取中得到了廣泛應用。既往有學者使用機器學習算法輔助腦梗死的診斷[3], 預測腦梗死發(fā)病的風險[4], 以及評估腦梗死的預后[5]。但應用機器學習算法評估腦梗死患者頸動脈斑塊穩(wěn)定性的研究仍較少。鑒于此,本研究基于列線圖、決策樹和隨機森林共3種機器學習算法,建立腦梗死患者頸動脈斑塊穩(wěn)定性的判別模型,以期為臨床識別高風險人群、改善腦梗死患者預后提供依據。
回顧性收集2017年1月—2023年6月在神經內科住院的腦梗死患者臨床資料。納入標準: ① 符合《中國急性缺血性腦卒中診治指南2018》[6]相關診斷標準,且經頭顱CT或磁共振檢查確診前循環(huán)系統腦梗死,同時急性卒中治療低分子肝素試驗(TOAST)分型為大動脈粥樣硬化型者; ② 年齡18~90周歲者; ③ 住院期間完善頸動脈多層螺旋CT血管成像(MSCTA)檢查者。排除標準: ① 合并有惡性腫瘤者; ② 合并免疫系統疾病者; ③ 合并嚴重肝、腎疾病者; ④ 相關資料缺失超過20%者。本研究已通過醫(yī)院倫理審核。
1.2.1 數據采集: 從電子病例系統提取研究對象的首頁個人信息和診斷信息、頸動脈血管成像檢查結果及住院期間相關實驗室檢查資料。提取患者的個人信息,包括性別、年齡、基礎病(糖尿病、高血壓、冠心病)、吸煙史、飲酒史等; 相關實驗室檢查資料包括血小板與淋巴細胞比值(PLR)、中性粒細胞與淋巴細胞比值(NLR)、白細胞計數(WBC)、紅細胞分布寬度(RDW)、肌酐(CREA)、尿酸(UA)、總膽固醇(TC)、甘油三酯(TG)、低密度脂蛋白膽固醇與高密度脂蛋白膽固醇比值(LDL-C/HDL-C)、同型半胱氨酸(Hcy)、D-二聚體(D-D); 影像學檢查資料(MSCTA檢查結果)包括斑塊總面積、鈣化面積、斑塊內出血面積、脂質壞死核面積等。
1.2.2 MSCTA檢查: 采用Siemens Healthineers, Magnetom Amira. 128層螺旋CT檢查,掃描前固定患者頭部。掃描參數: 管電壓120 kV, 序列4 mm×0.75 mm, 管電流200 mA, 螺距1.15, 重組間隔0.7 mm, 矩陣512×512; 肘靜脈注射75~90 mL碘帕醇(370 mgI/mL)造影劑,速率3.5~4.5 mL/s, 范圍為主動脈弓部到顱底交通動脈環(huán)。采用示蹤技術,智能觸發(fā),主動脈弓部為閾值監(jiān)測點, 120 HU, 延遲5 s啟動。使用CT工作站上的斑塊分析軟件(syngo.via)自動測量斑塊的總面積、鈣化面積、斑塊內出血面積、脂質壞死核面積,單位以mm2表示。
1.2.3 相關變量界定: 糖尿病診斷參照《中國2型糖尿病防治指南(2020年版)》[7]; 高血壓診斷參照《中國高血壓防治指南(2018年修訂版)》[8]; 冠心病診斷參照《穩(wěn)定性冠心病診斷與治療指南》[9]; 吸煙史指過去有持續(xù)或累計長達半年以上的吸煙行為; 飲酒史指過去持續(xù)或累計長達半年及以上每周有飲用酒精類飲料1次的行為; MSCTA斑塊穩(wěn)定性判斷[10]: 對斑塊密度的CT值進行測量,根據斑塊的穩(wěn)定性,將其分為穩(wěn)定斑塊(鈣化斑塊)和不穩(wěn)定斑塊(軟斑塊、混合斑塊)。軟斑塊: 以脂質為主要成分, CT值<50 HU; 混合斑塊: 同時存在多種成分, CT值50~120 HU; 鈣化斑塊: 以鈣化為主, CT值>120 HU。
采用SPSS 23.0統計學軟件進行數據處理。符合正態(tài)分布的計量資料以均值±標準差描述,采用獨立樣本t檢驗; 計數資料以[n(%)]描述,采用χ2檢驗進行分析。使用單因素分析對可能與頸動脈斑塊穩(wěn)定性相關的因素進行篩選,對篩選后的變量進行多因素Logistic回歸分析,確定影響頸動脈斑塊穩(wěn)定性的危險因素。用R 4.1.3軟件將數據按照7∶3的比例隨機分成訓練集和測試集,并使用不同的程序包構建3種不同的預測模型,其中列線圖用“rms”包,決策樹用“rpart”包,隨機森林用“random Forest”包[11]。最后通過計算靈敏度、特異度、精確率、召回率、正確率以及受試者工作特征(ROC)曲線的曲線下面積(AUC)等指標比較3種模型的預測效果,以評選出預測效果最優(yōu)的模型。AUC的比較采用Delong檢驗。P<0.05為差異具有統計學意義。
本研究共納入500例腦梗死患者,其中男294例,女206例; 頸動脈斑塊穩(wěn)定206例(穩(wěn)定組),平均年齡(65.2±7.1)歲; 不穩(wěn)定294例(不穩(wěn)定組),平均年齡(66.7±8.4)歲。單因素分析結果顯示,穩(wěn)定組和不穩(wěn)定組的年齡、糖尿病、Hcy、LDL-C/HDL-C、鈣化面積、斑塊內出血面積、脂質壞死核面積比較,差異均有統計學意義(P<0.05), 見表1。
以單因素分析差異有統計學意義的指標,包括年齡、糖尿病、Hcy、LDL-C/HDL-C、鈣化面積、斑塊內出血面積、脂質壞死核面積為自變量,以頸動脈斑塊的性質為因變量(穩(wěn)定=0, 不穩(wěn)定=1), 分類變量賦值[糖尿病(無=0, 有=1)], 連續(xù)變量原值錄入,進行二分類Logistic回歸分析。結果顯示,糖尿病、LDL-C/HDL-C、鈣化面積、斑塊內出血面積、脂質壞死核面積是腦梗死患者頸動脈斑塊穩(wěn)定性的影響因素(P<0.05), 見表2。
表2 頸動脈斑塊穩(wěn)定性的多因素Logistic回歸分析
基于多因素Logistic回歸分析結果,本研究納入糖尿病、LDL-C/HDL-C、鈣化面積、斑塊內出血面積和脂質壞死核面積共5個特征變量作為預測因子,構建預測腦梗死患者頸動脈斑塊穩(wěn)定性的列線圖模型,見圖1。
本研究構建出一個包含3個特征、9個節(jié)點、深度為4的預測腦梗死患者頸動脈斑塊穩(wěn)定性的決策樹模型?!?個特征”分別為斑塊內出血面積、脂質壞死核面積、糖尿病。其中,斑塊內出血面積是腦梗死患者頸動脈斑塊穩(wěn)定性的首層影響因素,當斑塊內出血面積≥2.3 mm2時,腦梗死患者發(fā)生非穩(wěn)定性動脈斑塊的風險為43%。深度為4表明預測腦梗死患者頸動脈斑塊穩(wěn)定性至多需要4個步驟,見圖2。
將糖尿病、LDL-C/HDL-C、鈣化面積、斑塊內出血面積和脂質壞死核面積指標全部納入隨機森林模型,當ntree=500, mtry=4時,模型誤差率的變動幅度開始減小且趨于平穩(wěn),模型達到最優(yōu)。變量輸出重要性測度結果顯示,變量重要性評分從高到低的影響因素依次為斑塊內出血面積、脂質壞死核面積、鈣化面積、LDL-C/HDL-C、糖尿病,見圖3。
3種模型效能評價結果顯示,在訓練集數據中,隨機森林評估腦梗死患者頸動脈斑塊穩(wěn)定性的整體效能均優(yōu)于列線圖模型、決策樹,其靈敏度為0.972, 特異度為0.995, 精確率為0.993, 召回率為0.972, 正確率為0.986,AUC為0.984。其中訓練集中隨機森林模型AUC大于決策樹,差異有統計學意義(Z=-3.141,P=0.002), 見表3和圖4。在測試集中,列線圖模型AUC大于決策樹模型(Z=2.017,P=0.045), 而隨機森林模型與列線圖的AUC大小相當,見表4、圖5和表5。
表3 3種模型預測訓練集腦梗死患者頸動脈斑塊穩(wěn)定性的效能
表4 3種模型預測測試集腦梗死患者頸動脈斑塊穩(wěn)定性的效能
表5 3種模型預測腦梗死患者頸動脈斑塊穩(wěn)定性的AUC比較
腦卒中具有較高的發(fā)病率、病死率和致殘率,是全世界成人死亡和致殘的主要原因[12]。腦梗死占中國腦卒中患者總數的80%[13], 是最常見的卒中類型,其中頸動脈狹窄和頸動脈粥樣硬化斑塊是腦卒中發(fā)展的重要病理基礎。腦梗死的發(fā)生與頸動脈斑塊穩(wěn)定性密切相關。動脈粥樣硬化斑塊可分為穩(wěn)定斑塊和不穩(wěn)定斑塊(易損斑塊),不穩(wěn)定斑塊破裂容易誘發(fā)血栓栓塞,導致腦梗死[13]。因此,準確判斷頸動脈斑塊穩(wěn)定性,并實施針對性的干預,是預防腦梗死事件發(fā)生的關鍵。
本研究數據分析提示,脂質壞死核面積、斑塊內出血面積、鈣化面積是腦梗死患者頸動脈斑塊穩(wěn)定性的影響因素。隨著現代醫(yī)學影像技術的蓬勃發(fā)展及診斷水平的提高,腦卒中早期診斷率顯著上升, MSCTA是目前臨床上頸動脈影像學檢查的重要手段之一。MSCTA的空間分辨率高,成像速度快,適用患者范圍更廣,檢查費用低,選擇其來評估頸動脈斑塊的性質有明顯優(yōu)勢[14]。研究[15-16]表明, MSCTA不僅可以評估頸動脈狹窄,還可識別易損斑塊的高危征象,如富含脂質的壞死核心、斑塊內出血和纖維帽等。脂質核壞死面積對斑塊的穩(wěn)定性有較大的影響,文獻[17]報道,脂質核面積占斑塊比例>40%時,易引起斑塊破裂。斑塊內出血被公認為是易損斑塊的重要特征,與斑塊的穩(wěn)定性密切相關,斑塊內出血可促進脂質核心的形成,進一步增加斑塊的不穩(wěn)定性[18]。在病理形態(tài)上,易損斑塊除了形成較大的脂質核和斑塊內出血外,還有纖維帽的破裂和鈣化灶的形成[19]。斑塊內的鈣化對于斑塊易損性的貢獻目前還存在爭議。學者[20]指出,斑塊表面鈣化容易導致斑塊的破損和出血,是不穩(wěn)定斑塊形成的重要因素。也有學者[21]認為,斑塊內相比于大片狀鈣化灶,小鈣化灶周圍更容易發(fā)生炎癥和血栓,不利于斑塊穩(wěn)定。本研究結果表明,斑塊內小鈣化面積與不穩(wěn)定斑塊形成風險顯著相關。研究[22]顯示,CT發(fā)現的非鈣化斑與美國心臟協會(AHA)基于MRI定義的Ⅵ型斑塊(復雜高危斑塊)存在高度一致性,即MRI定義的高風險成分在CT中則大多以非鈣化斑塊的形式呈現。斑塊內鈣化區(qū)有大量的鈣鹽沉積及纖維成分增加,可以促進斑塊的機械穩(wěn)定性增加,防止斑塊破裂,是穩(wěn)定性斑塊的重要標志[23]。
此外,本研究還發(fā)現, LDL-C/HDL-C、糖尿病也是影響頸動脈斑塊穩(wěn)定性的重要因素。血漿中LDL-C水平升高是預測腦梗死發(fā)病的重要傳統危險因素之一[24]。LDL-C氧化后形成的氧化型低密度脂蛋白(ox-LDL)是斑塊形成并趨于不穩(wěn)定的關鍵成分,其可通過抑制內皮一氧化氮合酶的表達,加重細胞內皮功能障礙,促進動脈粥樣硬化穩(wěn)定性斑塊的形成[25]。研究[26]指出,相對于單純的LDL-C,評估LDL-C/HDL-C更能有效預測頸動脈不穩(wěn)定性斑塊的風險,以上研究均與本研究結果相近。脂質代謝異常引起的血管內皮炎癥是能降低斑塊穩(wěn)定性的重要機制, LDL-C可以促進動脈血管壁膽固醇的內流及沉積,并增加血管內膜的氧化敏感性,進而促進動脈不穩(wěn)定斑塊形成[27], HDL-C則通過保護內皮血管和逆轉膽固醇轉運,發(fā)揮抗動脈粥樣硬化的作用[28]。本研究證實,糖尿病是評估腦梗死患者頸動脈斑塊穩(wěn)定性的影響因素,其既是頸動脈斑塊形成的危險因素,也是影響其穩(wěn)定性的重要因素。炎癥反應是促使斑塊發(fā)生發(fā)展和破裂的重要機制,在糖尿病患者群體中,頸動脈斑塊的檢出率可高達90%[29]。在長期的高血糖刺激下,患者斑塊內的炎性反應增加,并使斑塊的表面張力增加,導致斑塊表面穩(wěn)定性下降而趨于破裂[30]。臨床上可以考慮通過評估斑塊脂質壞死核面積、斑塊內出血面積、鈣化面積、LDL-C/HDL-C、糖尿病等因素對腦梗死患者頸動脈斑塊的穩(wěn)定性進行判斷,以指導醫(yī)護人員對患者進行提前干預治療。
頸動脈不穩(wěn)定斑塊的形成與發(fā)展是由多種因素共同作用的結果。隨著大數據時代的到來和算法的更新,海量數據和機器學習算法的發(fā)展可為頸動脈不穩(wěn)定斑塊的評估提供新技術[31-32]。機器學習算法擅長探索多維數據中的復雜關系,可從大量數據中提取隱藏的有效信息,為疾病的預測和診斷提供準確的參考[33]。本研究基于上述5項危險因素,運用機器學習算法建立了評估急性腦梗死患者頸動脈斑塊穩(wěn)定性的3種預測模型。隨機森林具有隨機化特征,對線性和非線性數據均能進行分類,并且不限制預測變量的數量,適用性較廣,但在處理噪聲較大的數據集時容易出現過擬合的情況[34]。本研究中通過適當增加數據集的大小來減少隨機森林模型過擬合的情況。經驗證,在訓練集數據中隨機森林評估頸動脈斑塊穩(wěn)定性的效能(AUC為0.984, 靈敏度為0.972, 特異度為0.995, 精確率為0.993, 召回率為0.972和正確率為0.986)優(yōu)于列線圖和決策樹。目前,列線圖預測疾病的使用頻率很高,但預測能力不如隨機森林,且無法對5項因子的重要特征進行排序,存在無法過濾特征、對多個協方差數據更敏感、難以處理不平衡數據的缺點[35]。隨機森林是一種基于多個決策樹的集成模型,通過投票或平均的方式得出更準確的預測結果。相比之下,單個決策樹的預測受到噪聲和異常值的影響,因此預測能力略低于隨機森林。
綜上所述,基于隨機森林算法建立的模型在評估腦梗死患者頸動脈斑塊穩(wěn)定性中具有較好的預測效果和穩(wěn)定性,其預測效能優(yōu)于列線圖和決策樹,本研究結果有利于頸動脈不穩(wěn)定斑塊的風險評估。本研究處于初次探索階段,仍存在許多不足: 本研究為回顧性研究,部分臨床資料不全的患者被排除,可能存在選擇偏倚和信息偏倚; 本研究為單中心研究,缺乏外部驗證,尚需在不同人群中加以驗證。