張曉林,彭晨,殷淑娟,陳積標,王嘉晶,易應(yīng)萍
(南昌大學(xué)第二附屬醫(yī)院信息處,江西 南昌 330006)
腦卒中是一種全球范圍內(nèi)的常見疾病,發(fā)病率和病死率高,且復(fù)發(fā)率和殘疾率也較高[1]。腦卒中居我國死因第一位[2],且發(fā)病率每年以近9%的速度不斷上升[3],其中缺血性腦卒中占70%~80%。近年來,國內(nèi)外關(guān)于腦卒中復(fù)發(fā)的研究較多,但大多數(shù)是針對影響腦卒中復(fù)發(fā)的獨立危險因素研究,缺少多因素聯(lián)合預(yù)測研究。隨機森林[4](random forests)是一種基于分類樹的算法,其因?qū)颖玖恳蟮?、準確而高效、具有良好的穩(wěn)定性以及可以綜合考慮各因素等優(yōu)勢,目前已廣泛應(yīng)用于人工智能、大數(shù)據(jù)分析、臨床醫(yī)療等領(lǐng)域[4]。本研究針對首發(fā)缺血性腦卒中患者構(gòu)建基于隨機森林算法的出院90 d復(fù)發(fā)預(yù)測模型,將所有影響指標按重要度排序,旨在為臨床上預(yù)測及預(yù)防復(fù)發(fā)提供依據(jù),現(xiàn)報道如下。
1.1 臨床資料 回顧性分析2019年1月至2019年7月于南昌大學(xué)第二附屬醫(yī)院就診的580 例首發(fā)缺血性腦卒中患者的臨床資料,根據(jù)出院90 d 是否復(fù)發(fā)分為復(fù)發(fā)組(n=110)和正常組(n=470)。
納入標準:均經(jīng)頭顱CT 或MRI 確診;年齡18~85 歲;出院診斷為缺血性腦卒中(ICD10 編碼為I63-I639)。排除標準:癌癥者;出血性卒中或合并血管畸形等嚴重神經(jīng)系統(tǒng)疾病者;合并嚴重心、肝臟、肺、腎臟系統(tǒng)疾病者;有卒中史者;使用抗凝藥物者;醫(yī)院內(nèi)或出院90 d內(nèi)死亡者;臨床資料不完整以及失訪者。
1.2 方法 通過大數(shù)據(jù)平臺收集患者年齡、性別、高血壓史、糖尿病史、吸煙史、飲酒史等;同時,收集患者血液檢查值包括紅細胞計數(shù)、血紅蛋白、白細胞計數(shù)、淋巴細胞計數(shù)、單核細胞計數(shù)、中性粒細胞計數(shù)、血小板計數(shù)、紅細胞壓積、平均紅細胞體積、總膽固醇、血清載脂蛋白A、血清載脂蛋白B、高密度脂蛋白、低密度脂蛋白等33 個指標。MHR=單核細胞計數(shù)/高密度脂蛋白膽固醇,NLR=中性粒細胞計數(shù)/淋巴細胞計數(shù)。于患者出院90 d后進行電話隨訪,調(diào)查患者復(fù)發(fā)情況(90 d內(nèi)有新發(fā)神經(jīng)系統(tǒng)表現(xiàn)、原有表現(xiàn)突然加重及頭顱MRI或CT確診新發(fā),則視為復(fù)發(fā)[5])。
1.3 觀察指標 采用隨機森林模型與多因素Logistci 回歸模型篩選患者出院后90 d內(nèi)復(fù)發(fā)的影響因素,比較兩種方法的準確度、靈敏度、特意度、約登指數(shù),并評價隨機森林的預(yù)測效果。
1.4 統(tǒng)計學(xué)方法 采用SPSS 25.0 和R 統(tǒng)計軟件進行數(shù)據(jù)分析,計量資料符合正態(tài)分布以“±s”表示,組間比較采用獨立樣本t檢驗,計量資料呈偏態(tài)分布以M(P25,P75)表示,組間比較采用Mann-WhitneyU檢驗,計數(shù)資料組間率(%)的比較采用χ2/Z檢驗,以P<0.05為差異有統(tǒng)計學(xué)意義。
2.1 復(fù)發(fā)組與正常組臨床資料比較 首發(fā)缺血性腦卒中患者出院90 d 內(nèi)復(fù)發(fā)率為18.97%(110/580)。復(fù)發(fā)組與正常組比較,男性、吸煙、飲酒、糖尿病、高脂血癥比例明顯升高,肌酐、MHR水平明顯升高,舒張壓、總蛋白、白蛋白、高密度脂蛋白膽固醇、載脂蛋白A、載脂蛋白B 明顯下降,差異均有統(tǒng)計學(xué)意義(P<0.05)。兩組其他特征指標比較差異均無統(tǒng)計學(xué)意義,見表1。
表1 復(fù)發(fā)組與正常組臨床資料比較Table 1 Comparison of clinical data between recurrence group and normal group
2.2 復(fù)發(fā)影響因素的多因素Logistic 回歸分析 以首發(fā)缺血性腦卒中患者出院90 d內(nèi)是否復(fù)發(fā)作為因變量,將單因素分析篩選的性別、吸煙、飲酒、糖尿病、高脂血癥、舒張壓、總蛋白、白蛋白、肌酐、高密度脂蛋白膽固醇、載脂蛋白A、載脂蛋白B、MHR因素作為自變量,納入多因素Logistic回歸分析模型中,結(jié)果顯示,飲酒、糖尿病、高脂血癥、舒張壓、載脂蛋白A 首發(fā)缺血性腦卒中患者出院90 d 內(nèi)復(fù)發(fā)的獨立危險因素(P<0.05),見表2。
表2 復(fù)發(fā)影響因素的多因素Logistc回歸分析Table 2 Multivariate Logistic regression analysis of influencing factors of recurrence
2.3 基于隨機森林的首發(fā)缺血性腦卒中患者出院90 d復(fù)發(fā)的風(fēng)險預(yù)測模型分析 隨機森林模型中各影響因素按重要程度排序依次為載脂蛋白A、天門冬氨酸氨基轉(zhuǎn)移酶、白蛋白、紅細胞壓積、糖尿病、乳酸脫氫酶、肌酐、尿素、飲酒、總蛋白,重要程度依次為6.091、5.045、4.531、4.492、4.346、4.331、4.251、4.135、4.086、3.976。
2.4 多因素Logictic回歸分析模型與隨機森林模型預(yù)測復(fù)發(fā)效能比較 以患者出院90 d內(nèi)是否復(fù)發(fā)為因變量,隨機森林模型的準確性、靈敏度、約登指數(shù)均高于多因素Logistic回歸分析,見表3。
表3 多因素Logictic回歸分析模型與隨機森林模型預(yù)測復(fù)發(fā)效能比較Table 3 Comparison of recurrence prediction efficiency between Logistic regression analysis model and random forest model
目前,隨機森林算法已廣泛應(yīng)用于人工智能等領(lǐng)域,在醫(yī)學(xué)相關(guān)領(lǐng)域研究較少,如劉文博等[6]利用隨機森林對Pima印第安人是否患有糖尿病進行預(yù)測;張英男等[7]利用隨機森林模型探究老年人生活方式與阿爾茨海默癥之間的相關(guān)性;在國外,隨機森林算法已應(yīng)用于疾病的診斷,如Sundarsingh 等[8]將椎間盤形狀特征與紋理特征結(jié)合利用隨機森林算法進行椎間盤突出診斷與預(yù)測分析。
本研究中首發(fā)缺血性腦卒中的復(fù)發(fā)率為18.96%(110/580),在基于隨進森林算法的首發(fā)缺血性腦卒中患者出院90 d 的復(fù)發(fā)風(fēng)險預(yù)測模型中,在排名前6 的影響因素中,載脂蛋白A、糖尿病、飲酒與多因素Logistic 回歸分析中差異有統(tǒng)計學(xué)意義的變量一致。兩個模型預(yù)測效能比較發(fā)現(xiàn),隨機森林模型的準確性、靈敏度、約登指數(shù)均高于多因素Logistic 回歸分析模型,分析原因為隨機森林算法具有較高的準確率,同時,不易過擬合,對噪聲和異常數(shù)據(jù)有較高的忍耐[9],此外,多因素Logistic 回歸分析中各特征之間相互獨立,且模型只有線性分割性[10],故導(dǎo)致準確率更低。
在隨機森林模型顯各影響因素中,飲酒、糖尿病是目前公認的腦卒中復(fù)發(fā)的危險因素[11-12];載脂蛋白A主要存在于高密度脂蛋白中,可抑制低密度脂蛋白氧化、激活卵磷脂膽固醇脂?;D(zhuǎn)移酶,調(diào)節(jié)炎癥反應(yīng),還可促進膽固醇從動脈符合符合血管壁中流出,對腦卒中的復(fù)發(fā)具有一定的抑制作用[12];天門冬氨酸氨基轉(zhuǎn)移酶屬于細胞酶類,廣泛存在于全身細胞內(nèi),當腦細胞受損時,增加細胞內(nèi)酶釋放活性[13],但目前尚未有對腦卒中復(fù)發(fā)的影響相關(guān)研究;血清總蛋白與白蛋白是臨床上常用的評價營養(yǎng)狀態(tài)的指標,低水平的總蛋白和白蛋白可明顯增加患者的住院時間、感染率及康復(fù)時間,不利于機體神經(jīng)功能恢復(fù),從而可能會導(dǎo)致腦卒中的復(fù)發(fā)[14];紅細胞壓積是影響血黏度的主要因素,動脈血管的血流動力異常影響腦卒中斑塊的形成和發(fā)展進程[15];乳酸脫氫酶是腦組織損傷時最敏感的酶,當腦組織受損時,大量蛋白酶通過血腦屏障進入血液,使乳酸脫氫酶活性增加,細胞破壞加重,進而易導(dǎo)致腦卒中復(fù)發(fā)[16];肌酐、尿素的變化是急性腎功能障礙的主要表現(xiàn)之一,腎功能不全作為腦卒中發(fā)生的獨立危險因素[17-18],其與腦卒中復(fù)發(fā)之間的關(guān)聯(lián)仍需進一步研究。本研究存在以下不足:①本研究所選樣本全部來源于南昌大學(xué)第二附屬醫(yī)院,以江西地區(qū)為主,缺乏一定的代表性;②所選樣本量較少,缺乏一定的準確性;③一些生化指標由于缺失嚴重,而未納入如C反應(yīng)蛋白、同型半胱氨酸等指標,可能會對研究結(jié)果造成一定的影響。
綜上所述,隨機森林算法構(gòu)建的首發(fā)缺血性腦卒中患者出院90 d 的復(fù)發(fā)的預(yù)測模型的預(yù)測效果相對于傳統(tǒng)的多因素Logistic 回歸分析模型有顯著優(yōu)勢,可用于首發(fā)缺血性腦卒中患者出院90 d復(fù)發(fā)的預(yù)測,臨床應(yīng)用價值較高。