劉建模,羅顥文,俞鵬飛,吳一帆,韓夢(mèng)琦,賈偉杰,易應(yīng)萍
(1.南昌大學(xué)第二附屬醫(yī)院科技處,江西 南昌 330000;2.南昌大學(xué)公共衛(wèi)生學(xué)院,江西 南昌 330000)
腦卒中是一種因大腦血液循環(huán)障礙而導(dǎo)致腦功能障礙的疾病,以高發(fā)病率、高致殘率、高病死率、高復(fù)發(fā)率、高經(jīng)濟(jì)負(fù)擔(dān)為共同臨床特征[1]。腦卒中是成人致殘、致死首位原因,年死亡人數(shù)約為150萬,致殘率約為75%[2-5]。目前,急性缺血性腦卒中患者醫(yī)院感染已成為全球關(guān)注的公共衛(wèi)生問題,其不僅會(huì)增加患者致殘率、致死率,影響患者的預(yù)后,還會(huì)增加患者家庭以及社會(huì)的經(jīng)濟(jì)負(fù)擔(dān)[6]。近年來,隨著信息科技化的不斷發(fā)展,國(guó)內(nèi)外學(xué)者致力于利用機(jī)器學(xué)習(xí)算法輔助醫(yī)療診斷與疾病預(yù)測(cè)[7-11]。醫(yī)院感染作為急性缺血性腦卒中常見并發(fā)癥,其嚴(yán)重影響了患者的預(yù)后,早預(yù)測(cè)、早干預(yù)對(duì)改善患者預(yù)后意義重大[12]。本研究采用機(jī)器學(xué)習(xí)算法建立急性缺血性腦卒中患者醫(yī)院感染預(yù)測(cè)模型,有效預(yù)測(cè)缺血性腦卒中患者發(fā)生醫(yī)院感染情況,為臨床決策提供數(shù)據(jù)支持。
1.1 研究對(duì)象 選取2020年10月—2021年12月江西省某三甲醫(yī)院神經(jīng)內(nèi)科收治的2 360例缺血性腦卒中患者。其中男性患者1 494例,女性患者866例,年齡18~100歲,平均(61.7±20.5)歲。納入標(biāo)準(zhǔn):經(jīng)CT、MRI診斷為急性缺血性腦卒中,住院時(shí)長(zhǎng)>48 h;排除標(biāo)準(zhǔn):年齡<18歲,入院48 h內(nèi)存在肺部感染、尿路感染、消化道感染等其他感染,合并肝、腎功能不全或者其他嚴(yán)重的系統(tǒng)性疾病,合并腫瘤,臨床資料缺失者。
1.2 觀測(cè)指標(biāo) 所有資料來自江西省醫(yī)療大數(shù)據(jù)工程技術(shù)研究中心,且檢驗(yàn)、檢查數(shù)據(jù)均為患者入院48 h以內(nèi),具體指標(biāo)如下:(1)人口統(tǒng)計(jì)學(xué)信息,性別、年齡;(2)疾病相關(guān)因素,意識(shí)障礙、吞咽困難、入院NIHSS評(píng)分、侵入性操作;(3)合并癥,高血壓、糖尿病、高脂血癥、冠狀動(dòng)脈疾病、房顫;(4)既往史,糖尿病史、高血壓史、腦血管病史、慢性阻塞性肺疾病(COPD)史;(5)個(gè)人史,吸煙、飲酒;(6)檢驗(yàn)指標(biāo),血小板計(jì)數(shù)、糖化血紅蛋白、血白細(xì)胞、血前白細(xì)胞、血中性粒細(xì)胞、血紅細(xì)胞分布寬度、血清脂蛋白a、血清鈉、血清鉀等指標(biāo)。
1.3 診斷標(biāo)準(zhǔn) 參照中華人民共和國(guó)衛(wèi)生部2001年頒布的《醫(yī)院感染診斷標(biāo)準(zhǔn)(試行)》進(jìn)行診斷[13]。
2.1 急性缺血性腦卒中患者醫(yī)院感染情況 2 360例急性缺血性腦卒中患者發(fā)生醫(yī)院感染574例,醫(yī)院感染發(fā)生率為24.32%。其中肺部感染396例,感染率為16.78%;呼吸道感染64例,感染率為2.71%;泌尿感染77例,感染率為3.26%;胃腸道感染27例,感染率為1.14%;其他感染(口腔、皮膚等)共33例,感染率為1.40%;兩個(gè)部位感染共23例,感染率為0.97%。
2.2 醫(yī)院感染危險(xiǎn)單因素分析 將患者以入院48 h后是否發(fā)生感染分為感染組與未感染組,單因素分析結(jié)果顯示:腦血管病史、慢性阻塞性肺疾病(COPD)史、房顫、高脂血癥、吸煙、飲酒、侵入性操作、意識(shí)障礙、吞咽困難、電解質(zhì)紊亂、血清鈉、血前白蛋白、血清蛋白、血總蛋白、血白細(xì)胞、血中性粒細(xì)胞、血紅細(xì)胞分布寬度、血葡萄糖、入院NIHSS評(píng)分、年齡兩組比較,差異均存在統(tǒng)計(jì)學(xué)意義(均P<0.05)。見表1。
表1 急性缺血性腦卒中患者醫(yī)院感染組與未感染組患者基線資料
2.3 基于logistic多因素醫(yī)院感染危險(xiǎn)因素分析 將上述單因素分析篩選出具有統(tǒng)計(jì)學(xué)意義的變量作為自變量納入到多因素logistic回歸分析模型中,以入院48 h后是否發(fā)生醫(yī)院感染作為因變量,其中年齡(賦值:≤65歲=0,>65=1)、入院NIHSS評(píng)分(賦值:≤5=0,>5=1)、血白細(xì)胞(賦值:≤10=0,>10=1)、血清鈉(賦值:>135=0,≤135=1),logistic回歸分析顯示,年齡>65歲、入院NIHSS評(píng)分>5分、血清鈉≤135 mmol/L、血白細(xì)胞>10×109/L)、侵入性操作、吞咽困難均為急性缺血性腦卒中患者發(fā)生感染的獨(dú)立危險(xiǎn)因素(均P<0.05),見表2。
表2 腦卒中醫(yī)院感染多因素logistics回歸分析
2.4 logistic回歸與機(jī)器學(xué)習(xí)預(yù)測(cè)模型比較分析 將單因素分析篩選出具有統(tǒng)計(jì)學(xué)意義的變量納入至模型中,分別建立基于logistic回歸、RandomForest、XGBoost、LightGBM的醫(yī)院感染預(yù)測(cè)模型。計(jì)算模型的靈敏度、特異度以及AUC。結(jié)果顯示,logistics回歸、RandomForest、XGBoost、LightGBM模型預(yù)測(cè)閾值分別為0.137、0.117、0.114、0.129。在測(cè)試集集中,logistics回歸、RandomForest、XGBoost、LightGBM模型預(yù)測(cè)醫(yī)院感染的AUC值分別是0.854、0.850、0.881、0.870。LightGBM算法特異度最高;XGBoost模型AUC值、準(zhǔn)確性、靈敏度均為最高。XGBoost的整體的預(yù)測(cè)效果優(yōu)于其他三種模型,見表3和圖1。校準(zhǔn)曲線顯示,4種機(jī)器學(xué)習(xí)模型均表現(xiàn)出良好的校準(zhǔn)度,預(yù)測(cè)概率與實(shí)際概率之間沒有明顯的偏差。其中XGBboost與LightGBM模型具有較高的區(qū)分度,見圖2。
表3 4種算法模型在測(cè)試集中預(yù)測(cè)效果比較
圖1 4種算法模型的預(yù)測(cè)性能比較
圖2 4種算法模型的校準(zhǔn)曲線
2.5 基于SHAP解釋模型的醫(yī)院感染影響因子分析 SHAP是由Shapley value啟發(fā)的可加性解釋模型。通過shap.summary_plot方法對(duì)特征進(jìn)行整體的可視化。如圖3所示,模型前8貢獻(xiàn)特征,每一行代表一個(gè)特征,橫坐標(biāo)為SHAP值。一個(gè)點(diǎn)代表一個(gè)樣本,顏色越紅說明特征本身數(shù)值越大,顏色越藍(lán)說明特征本身數(shù)值越小?;赟HAP解釋XGBoost模型的醫(yī)院感染影響因子可以直觀地看到年齡越大、血白細(xì)胞值越高、入院NIHSS評(píng)分越高、侵入性操作、意識(shí)障礙以及吞咽困難與醫(yī)院感染呈正相關(guān)。血總蛋白、血清鈉與醫(yī)院感染呈負(fù)相關(guān)。
圖3 XGBoost模型影響因子
對(duì)每個(gè)預(yù)測(cè)樣本,模型都產(chǎn)生一個(gè)預(yù)測(cè)值,SHAP值就是該樣本中每個(gè)特征所分配到的數(shù)值。如圖4所示:患者A的SHAP值為-2.02,小于模型預(yù)測(cè)基礎(chǔ)值,模型預(yù)測(cè)該患者不會(huì)出現(xiàn)醫(yī)院感染。患者A入院NIHSS評(píng)分<5分、未出現(xiàn)侵入性操作、血總蛋白為68.14 g/L、血白細(xì)胞<10×109/L及意識(shí)障礙為藍(lán)色,象征著這些特征將患者A的SHAP值拉低,對(duì)結(jié)果起負(fù)向作用。此外,年齡>65歲為紅條,象征著其對(duì)醫(yī)院感染起正向作用。如圖5所示:患者B的SHAP值為-0.10,大于模型預(yù)測(cè)基礎(chǔ)值,模型預(yù)測(cè)該患者會(huì)發(fā)生醫(yī)院感染?;颊連未出現(xiàn)侵入性操作以及血白細(xì)胞<10×109/L為藍(lán)色,起保護(hù)作用,年齡>65歲、血總蛋白為71.17 g/L、入院NIHSS評(píng)分>5分及吞咽困難為紅色,這些因素對(duì)患者B發(fā)生醫(yī)院感染起正向作用,且吞咽困難最寬,影響作用最大,應(yīng)注意防范,防止發(fā)生醫(yī)院感染。
圖4 患者A模型評(píng)估
圖5 患者B模型評(píng)估
醫(yī)院感染是急性缺血性腦卒中患者主要的并發(fā)癥,其不僅延長(zhǎng)住院時(shí)間,增加治療費(fèi)用,而且可以導(dǎo)致病情加重和病死率升高[14]。據(jù)統(tǒng)計(jì),急性缺血性腦卒中患者醫(yī)院感染發(fā)生率約為20%,主要有肺部感染、呼吸道感染、泌尿感染、胃腸道感染等[15]。本組2 360例急性缺血性腦卒中患者中574例發(fā)生醫(yī)院感染,感染發(fā)生率為24.3%,與以往的研究[16]結(jié)果基本一致。
本研究采用logistic回歸以及RandomForest、XGBoost、LightGBM三種機(jī)器學(xué)習(xí)算法將單因素篩選的20個(gè)具有統(tǒng)計(jì)學(xué)差異的特征納入模型,構(gòu)建急性缺血性腦卒中患者醫(yī)院感染預(yù)測(cè)模型,結(jié)果顯示,在測(cè)試集中l(wèi)ogistics回歸、RandomForest、XGBoost、LightGBM模型預(yù)測(cè)醫(yī)院感染的AUC值分別是0.854、0.850、0.881、0.870。XGBoost準(zhǔn)確性、靈敏度、AUC值均最高為0.858、0.730、0.881。LightGBM回歸特異度最高為0.905。XGBoost整體的預(yù)測(cè)效果優(yōu)于其他三種模型,可為前瞻性研究提供相應(yīng)支持。在后續(xù)研究中可開發(fā)應(yīng)用于臨床的預(yù)測(cè)軟件,早期預(yù)測(cè)缺血性腦卒中患者醫(yī)院感染。
基于XGBoost算法的急性缺血性腦卒中醫(yī)院感染預(yù)測(cè)模型SHAP特征解釋:年齡越大、血白細(xì)胞值越高、入院NIHSS評(píng)分越高、侵入性操作、意識(shí)障礙、吞咽困難、血總蛋白越低、血清鈉越低是醫(yī)院感染的影響因素,與多因素logistic回歸分析中差異有統(tǒng)計(jì)學(xué)意義的變量具有高度的一致性。分析原因主要為:隨著年齡的增長(zhǎng),高齡患者出現(xiàn)生理機(jī)能下降,抵抗力降低,易發(fā)生醫(yī)院感染,與研究[17]報(bào)道一致?;颊哂捎诖嬖谝庾R(shí)障礙、吞咽困難等原因易出現(xiàn)嗆咳和誤吸,且部分患者需要進(jìn)行侵入性操作,該操作將導(dǎo)致病原體進(jìn)入體內(nèi)發(fā)生感染[18-19]。入院NIHSS評(píng)分越高,患者神經(jīng)功能損傷越嚴(yán)重,神經(jīng)功能的損傷會(huì)使免疫系統(tǒng)出現(xiàn)抑制,而免疫抑制將會(huì)明顯增加患者感染的概率[20]。神經(jīng)功能損傷越嚴(yán)重日?;顒?dòng)能力下降也越嚴(yán)重,吞咽困難以及尿潴留為常見癥狀,需進(jìn)行侵入性操作進(jìn)而導(dǎo)致醫(yī)院感染[21]。卒中時(shí)下丘腦直接或間接受損,一方面引起抗利尿激素分泌異常,導(dǎo)致尿量減少,水潴留,細(xì)胞外液擴(kuò)張,血鈉降低,進(jìn)而引起感染;同時(shí)低血清鈉與步態(tài)障礙、認(rèn)知障礙、骨質(zhì)疏松、跌倒等有關(guān),當(dāng)患者出現(xiàn)步態(tài)障礙、認(rèn)知障礙、骨質(zhì)疏松等癥狀,往往需要對(duì)患者進(jìn)行侵入性操作,該操作將易引起患者出現(xiàn)肺部、尿道等部位的感染[22]。血總蛋白降低,會(huì)導(dǎo)致營(yíng)養(yǎng)不良,免疫狀態(tài)異常,身體器官可能會(huì)有積水,這些都會(huì)增加感染的機(jī)會(huì)[23]。低蛋白血癥會(huì)導(dǎo)致有效血容量減少,血液濃縮高凝,血栓栓塞的風(fēng)險(xiǎn)增高,低蛋白血癥導(dǎo)致嚴(yán)重血容量不足、急性腎靜脈血栓、腎間質(zhì)水腫,這些都可以引起急性腎損傷。相關(guān)研究[24]表明,在缺血性腦卒中損傷中,炎癥反應(yīng)發(fā)揮著重要的作用。周靜等[25]對(duì)3 000例缺血性腦卒中患者隨訪發(fā)現(xiàn),不良預(yù)后的發(fā)生率提升67%~93%。高列花等[26]研究顯示,白細(xì)胞計(jì)數(shù)越高,急性缺血性腦卒中患者住院期間的死亡風(fēng)險(xiǎn)就越高,表明白細(xì)胞計(jì)數(shù)為預(yù)測(cè)急性缺血性腦卒中患者預(yù)后的一個(gè)有效因素。本研究發(fā)現(xiàn)隨著白細(xì)胞計(jì)數(shù)的增加,患者出現(xiàn)醫(yī)院感染的概率也會(huì)隨之增加。
綜上所述,基于機(jī)器學(xué)習(xí)算法的急性缺血性腦卒中醫(yī)院感染預(yù)測(cè)模型能有效地預(yù)測(cè)患者發(fā)生醫(yī)院感染情況,能夠?yàn)槿毖阅X卒中住院患者醫(yī)院感染的預(yù)防和干預(yù)提供一定的參考?;颊甙l(fā)生醫(yī)院感染與其年齡、血白細(xì)胞、侵入性操作、入院NIHSS評(píng)分、血清鈉、血總蛋白、意識(shí)障礙、吞咽困難等多種因素相關(guān),需要患者、醫(yī)護(hù)人員、家屬都盡力避免一切可能引起感染的因素,盡早干預(yù)。但本研究存在一定的局限性:(1)數(shù)據(jù)僅來自江西一家醫(yī)療機(jī)構(gòu),數(shù)據(jù)可能會(huì)存在一定偏倚。(2)數(shù)據(jù)樣本量不夠大,模型的泛化能力還有待驗(yàn)證。
利益沖突:所有作者均聲明不存在利益沖突。