鄒新亮,鄭萬(wàn)香,何國(guó)祥,2,景 濤△
(1.陸軍軍醫(yī)大學(xué)第一附屬醫(yī)院心血管內(nèi)科,重慶 400038;2.貴黔國(guó)際總醫(yī)院心血管內(nèi)科,貴陽(yáng) 550000)
腎病綜合征(NS)以大量蛋白尿、低蛋白血癥以及不同程度的水腫為主要特征,常并發(fā)高脂血癥和(或)靜脈血栓等[1]。NS患者的心血管風(fēng)險(xiǎn)升高,據(jù)研究統(tǒng)計(jì),原發(fā)性NS患者5年心血管事件累積發(fā)生率約在6.1%~8.8%[2-4]。盡管NS的人口發(fā)病率約為3/10萬(wàn)人年[2],但在如此龐大的人口基數(shù)下,NS罹患心血管疾病的患者數(shù)量仍然非常多,給患者家庭和社會(huì)造成極大的醫(yī)療負(fù)擔(dān)。因此,早期對(duì)NS患者出現(xiàn)心血管疾病風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)和干預(yù)極其重要。針對(duì)真實(shí)世界中NS患者可能存在錯(cuò)綜復(fù)雜的心血管危險(xiǎn)因素,本研究采用機(jī)器學(xué)習(xí)算法中的隨機(jī)森林模型,對(duì)NS患者5年心血管疾病風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè),現(xiàn)將結(jié)果報(bào)道如下。
本研究為單中心回顧性巢式病例對(duì)照研究,收集并選取1999年1月1日至2014年11月30日陸軍軍醫(yī)大學(xué)第一附屬醫(yī)院就診的NS患者隨訪5年的診療資料,以評(píng)估和預(yù)測(cè)NS患者心血管風(fēng)險(xiǎn)。研究納入隨訪期間18~85歲的確診心血管疾病患者115例,并將患者隊(duì)列中根據(jù)性別、年齡、指標(biāo)時(shí)間按照約1∶2比例匹配,納入235例無(wú)心血管疾病對(duì)照者,總計(jì)350例。將全部患者應(yīng)用統(tǒng)計(jì)學(xué)軟件算法按照約7∶3的比例劃分為訓(xùn)練集和測(cè)試集。本研究經(jīng)陸軍軍醫(yī)大學(xué)第一附屬醫(yī)院倫理委員會(huì)批準(zhǔn)(批準(zhǔn)文號(hào):KY2019153)。
納入標(biāo)準(zhǔn):原發(fā)性腎病綜合征(微小病變腎病、系膜增生性腎小球腎炎、局灶節(jié)段性腎小球硬化、膜增生性腎小球腎炎、膜性腎病)或繼發(fā)性腎病綜合征(過(guò)敏性紫癜性腎炎和狼瘡腎炎)[1];所有腎病綜合征患者均根據(jù)活檢確診;沒(méi)有性別或醫(yī)療限制;本研究預(yù)測(cè)結(jié)局包括的心血管疾病為:穩(wěn)定型冠狀動(dòng)脈疾病、非致命性心肌梗死、不穩(wěn)定性心絞痛和心血管死亡;其中心血管疾病診斷均有影像學(xué)證據(jù)支持。
排除標(biāo)準(zhǔn):診斷為高血壓腎病或糖尿病腎病;診斷為急性腎損傷;應(yīng)用透析治療的慢性腎?。粰z測(cè)到腎小球?yàn)V過(guò)率(eGFR)<45 mL·min-1·1.73 m-21次;第1次就診時(shí)已確診為心血管疾?。环切难芩劳?;丟失隨訪或丟失醫(yī)療記錄。
1.2.1數(shù)據(jù)收集
從所有患者的醫(yī)療記錄中收集數(shù)據(jù),包括以下變量信息:一般情況,性別、年齡、體重指數(shù)(BMI)、民族、吸煙狀況、飲酒狀況;既往病——外周動(dòng)脈粥樣硬化、血糖升高、高血壓病、靜脈血栓疾??;藥物使用情況,抗血小板藥、抗凝藥、人血清蛋白(ALB)、血管緊張素Ⅱ受體阻滯劑(ARB)、血管緊張素轉(zhuǎn)化酶抑制劑(ACEI)、他汀類藥物、糖皮質(zhì)激素、細(xì)胞毒性藥物、免疫抑制劑。
1.2.2血液檢驗(yàn)指標(biāo)
高密度脂蛋白膽固醇(HDL-C)、低密度脂蛋白膽固醇(LDL-C)、eGFR、血尿酸(UA)、ALB、載脂蛋白A1(apoA1)、載脂蛋白B(apoB)、脂蛋白a[Lp(a)]、纖維蛋白原(Fib)。血液檢測(cè)儀器為貝克曼庫(kù)爾特AU5800系列全自動(dòng)生化分析儀(分光光度測(cè)定法和電勢(shì)測(cè)定法),檢測(cè)數(shù)值取心血病管患者出現(xiàn)結(jié)局前,對(duì)照組取5年隨訪期間檢測(cè)記錄平均水平。
1.2.3觀察及評(píng)價(jià)指標(biāo)
主要對(duì)隨機(jī)森林模型相關(guān)的以下參數(shù)和指標(biāo)進(jìn)行觀察與評(píng)價(jià):(1)隨機(jī)森林模型參數(shù),節(jié)點(diǎn)值(mtry)、決策樹(shù)數(shù)目(ntree);(2)變量的預(yù)測(cè)重要性指標(biāo),Gini值平均降低量(mean decrease gini);(3)模型預(yù)測(cè)性能評(píng)估,準(zhǔn)確率(accuracy)=(真陽(yáng)性+真陰性)/(全部測(cè)試集)×100%;精確率(precision)=真陽(yáng)性/(真陽(yáng)性+假陽(yáng)性)×100%;召回率(recall)=真陽(yáng)性 /(真陽(yáng)性+假陰性)×100%;ROC曲線下的面積(AUC)。
本研究中訓(xùn)練集251例,測(cè)試集99例,觀察結(jié)局患心血管病者分別為80例(占31.9%)、35例(占35.4%),所占比例不代表心血管疾病發(fā)病率。兩組間BMI、apoB、細(xì)胞毒性藥物使用存在差異,其余指標(biāo)均未見(jiàn)明顯差異,見(jiàn)表1。
表1 NS患者訓(xùn)練集與測(cè)試集基線信息對(duì)比
續(xù)表1 NS患者訓(xùn)練集與測(cè)試集基線信息對(duì)比
隨機(jī)森林模型最佳mtry為6、ntree為446,取該參數(shù)時(shí)模型錯(cuò)誤率最低(圖1)。本研究嘗試使用Gini值平均降低量作為隨機(jī)森林模型中變量重要性的衡量標(biāo)準(zhǔn)(圖2),進(jìn)一步確定NS患者發(fā)生心血管疾病結(jié)局的重要預(yù)測(cè)因子。本模型中的相對(duì)重要預(yù)測(cè)因子依此為:eGFR、年齡、HDL-C、apoB、ALB、apoA1、Fib、UA、LDL-C,變量Gini值平均降低量與其在模型中的重要性呈正比。本研究構(gòu)建的預(yù)測(cè)模型的準(zhǔn)確率為0.919、精確率為0.935、召回率為0.829。繪制模型ROC曲線(圖3),AUC及95%CI為0.899(0.832~0.966)。
圖1模型錯(cuò)誤率與決策樹(shù)數(shù)量的關(guān)系圖
圖2變量預(yù)測(cè)重要性示意圖
圖3隨機(jī)森林模型ROC曲線和置信區(qū)間圖
NS有不同程度的甘油三酯、膽固醇和載脂蛋白升高等脂質(zhì)代謝紊亂,導(dǎo)致動(dòng)脈內(nèi)膜脂質(zhì)浸潤(rùn),增加了動(dòng)脈粥樣硬化的風(fēng)險(xiǎn),是NS并發(fā)心血管事件的危險(xiǎn)因素[4]。尤其在頻繁復(fù)發(fā)型或類固醇耐藥型NS患者中,可能因長(zhǎng)期暴露于高脂血癥、高氧化應(yīng)激、頻繁感染、持續(xù)蛋白尿、低清蛋白血癥、血栓栓塞、類固醇、非甾體類藥物和免疫抑制劑的不良反應(yīng)(脂代謝紊亂、血管毒性的和腎毒性)等多種風(fēng)險(xiǎn)因素下,進(jìn)而引發(fā)血管內(nèi)皮功能受損甚至增加心血管不良事件風(fēng)險(xiǎn)[5]。在當(dāng)前醫(yī)療和研究背景下,仍然沒(méi)有系統(tǒng)合理的NS患者心血管風(fēng)險(xiǎn)預(yù)測(cè)模型相關(guān)研究。即便借用慢性腎病心血管風(fēng)險(xiǎn)預(yù)測(cè)模型,但隨著診療技術(shù)的發(fā)展,傳統(tǒng)的心血管危險(xiǎn)因素在預(yù)測(cè)臨床結(jié)果方面的作用減弱,多數(shù)模型在慢性腎病患者中校準(zhǔn)不佳,且直接應(yīng)用于NS患者亦存在不合理性[6]。亟須一種預(yù)測(cè)模型算法,可以處理大量真實(shí)世界中錯(cuò)綜復(fù)雜的預(yù)測(cè)因子,以達(dá)到精準(zhǔn)預(yù)測(cè)且方便獲取臨床信息的目的。當(dāng)前隨機(jī)森林算法正廣泛應(yīng)用于具有大量預(yù)測(cè)因子數(shù)據(jù)集的醫(yī)學(xué)預(yù)測(cè)模型開(kāi)發(fā),其優(yōu)秀的數(shù)據(jù)處理能力和預(yù)測(cè)性能得到越來(lái)越多學(xué)者的認(rèn)可[7]。本研究應(yīng)用機(jī)器學(xué)習(xí)算法中的隨機(jī)森林模型對(duì)350例NS患者進(jìn)行5年的心血管疾病風(fēng)險(xiǎn)預(yù)測(cè),模型納入28個(gè)臨床上易獲取的預(yù)測(cè)變量,驗(yàn)證得ROC為0.899展現(xiàn)出優(yōu)秀的預(yù)測(cè)性能,模型召回率0.829,提示模型對(duì)正例的識(shí)別能力良好。
本模型中的相對(duì)重要預(yù)測(cè)因子與傳統(tǒng)心血管風(fēng)險(xiǎn)因素互有異同。血漿脂質(zhì)一直以來(lái)是心血管風(fēng)險(xiǎn)研究最常用也最易獲得的預(yù)測(cè)因子[8]。NS中的脂質(zhì)異常主要是由于脂質(zhì)清除受損,而不是由于生物合成增加[9]。包括血漿膽固醇、甘油三酯、脂蛋白[乳糜微粒(CM)、極低密度脂蛋白(VLDL)、LDL、中間密度脂蛋白(IDL)和Lp(a)]水平升高。HDL-C水平正常或降低,載脂蛋白apoA1、apoB、apoC和apoE等水平升高[9]。研究表明,在他汀類藥物治療的患者中,apoB是比LDL-C更準(zhǔn)確的心肌梗死風(fēng)險(xiǎn)標(biāo)志物[10]。在本研究中apoB在所有脂質(zhì)中所占重要性也排在首位,提示臨床醫(yī)生在監(jiān)測(cè)患者血脂動(dòng)態(tài)變化時(shí)不應(yīng)忽略這項(xiàng)指標(biāo)。觀察性研究已反復(fù)證明HDL-C水平與心血管預(yù)后之間存在負(fù)相關(guān)[11]。ApoA1是HDL中含量最豐富的蛋白質(zhì),它調(diào)節(jié)影響HDL的心臟保護(hù)功能的相互作用[12]。既往研究支持HDL-C、apoA1在本研究模型中占有較高重要性的發(fā)現(xiàn)。長(zhǎng)期以來(lái),LDL-C都被認(rèn)為心血管風(fēng)險(xiǎn)因素中最重要的脂質(zhì),也是主要的可改變因素。最近歐洲和美國(guó)的多社會(huì)血脂異常指南強(qiáng)調(diào)了降低LDL-C對(duì)降低心血管風(fēng)險(xiǎn)的重要性[13]。雖然在本模型中LDL-C重要性不高,但作為模型預(yù)測(cè)因子,LDL-C是一項(xiàng)不可忽略的變量。
除脂質(zhì)譜外,本研究同樣發(fā)現(xiàn)其他血液監(jiān)測(cè)指標(biāo)在模型預(yù)測(cè)中的重要性。既往研究表明,隨著eGFR降至60.00~75.00 mL·min-1·1.73 m-2以下,發(fā)生冠心病的概率呈線性增加[14],但eGFR并未被正式納入腎臟特異性預(yù)測(cè)變量[14]。本研究中訓(xùn)練集eGFR中位值為86.09 mL·min-1·1.73 m-2,提示即便eGFR未下降至60.00~75.00 mL·min-1·1.73 m-2以下亦可以作為NS患者預(yù)測(cè)心血管風(fēng)險(xiǎn)最重要的指標(biāo)(Gini值平均降低量18.233),進(jìn)一步可能需要基于更大樣本的預(yù)測(cè)模型驗(yàn)證本研究的觀點(diǎn)。ALB是一種有用的心血管疾病風(fēng)險(xiǎn)分層工具,包括急性冠狀動(dòng)脈綜合征或心力衰竭,且與穩(wěn)定性冠心病患者心血管事件發(fā)生率呈正相關(guān)[15]。Fib是一種已知的心血管疾病風(fēng)險(xiǎn)標(biāo)志物,不僅與心血管病狀態(tài)相關(guān),而且還有助于預(yù)測(cè)隨訪時(shí)的全因和心血管死亡率[16]。尿酸升高與傳統(tǒng)心血管風(fēng)險(xiǎn)、代謝綜合征、胰島素抵抗和慢性腎臟疾病有關(guān)[17]。上述觀點(diǎn)均提示,本研究構(gòu)建的隨機(jī)森林模型中重要預(yù)測(cè)因子是合理的。
本研究中他汀類藥物使用在預(yù)測(cè)變量中所占的重要性不高,并不能說(shuō)明他汀類藥物對(duì)心血管風(fēng)險(xiǎn)方面無(wú)顯著影響,可能因大多數(shù)患者脂質(zhì)譜管理不佳,諸多指標(biāo)掩蓋了統(tǒng)計(jì)分析中他汀類對(duì)結(jié)局的影響。同樣,本研究中使用各種藥物(如抗血小板藥、抗凝藥、類固醇、免疫抑制劑、細(xì)胞毒性藥物、ACEI、ARB等)在隨機(jī)森林預(yù)測(cè)模型中所占重要性不高,考慮可能為應(yīng)用藥物者占總樣本比例偏高,鑒于當(dāng)前NS患者臨床診療不斷規(guī)范化,藥物使用情況或許并不影響隨機(jī)森林模型的構(gòu)建。
為不遺漏對(duì)心血管病結(jié)局的預(yù)測(cè),作者認(rèn)為召回率是評(píng)價(jià)該模型預(yù)測(cè)性能更好的指標(biāo)。盡管所提出的模型在臨床實(shí)際使用前需要進(jìn)一步改進(jìn),但隨機(jī)森林分類算法確定的重要預(yù)測(cè)因子可能為預(yù)測(cè)NS患者5年心血管風(fēng)險(xiǎn)提供有用的信息,可根據(jù)本研究篩選出的重要因子進(jìn)一步開(kāi)發(fā)臨床預(yù)測(cè)模型。應(yīng)用模型預(yù)測(cè)患者心血管疾病風(fēng)險(xiǎn)并及時(shí)合理地進(jìn)行干預(yù),為隨訪期間檢測(cè)指標(biāo)的選擇提供依據(jù),對(duì)于合理利用醫(yī)療資源、改善患者預(yù)后具有重要意義。