文章編號:2096-1472(2024)03-0015-06
DOI:10.19644/j.cnki.issn2096-1472.2024.003.004
摘"要:為了有效預(yù)測重癥監(jiān)護(hù)室膿毒癥患者的死亡風(fēng)險(xiǎn)并分析影響結(jié)局的因素,建立了膿毒癥患者死亡風(fēng)險(xiǎn)預(yù)測模型,為膿毒癥患者的早期預(yù)防和死亡風(fēng)險(xiǎn)控制提供科學(xué)的參考依據(jù)。本研究以重癥監(jiān)護(hù)醫(yī)學(xué)信息市場數(shù)據(jù)庫作為數(shù)據(jù)來源,從中挑選符合要求的病患,使用貝葉斯網(wǎng)絡(luò)模型訓(xùn)練相關(guān)特征預(yù)測膿毒癥患者的死亡風(fēng)險(xiǎn)。納入2 352例膿毒癥患者,以患者是否死亡作為最終結(jié)局建立模型,模型的風(fēng)險(xiǎn)預(yù)測準(zhǔn)確率為78.7%,優(yōu)于邏輯回歸模型(72.3%)和決策樹模型(71.0%)。貝葉斯網(wǎng)絡(luò)模型相較于其他模型具有更高的信服力,能夠準(zhǔn)確預(yù)測膿毒癥患者的死亡風(fēng)險(xiǎn),模型的可解釋性能夠輔助醫(yī)護(hù)人員進(jìn)行臨床決策,同時(shí)能夠更加合理、科學(xué)地分配醫(yī)療資源。
關(guān)鍵詞:膿毒癥;貝葉斯網(wǎng)絡(luò);重癥監(jiān)護(hù)室;死亡預(yù)測
中圖分類號:TP391"""""文獻(xiàn)標(biāo)志碼:A
Mortality Risk Prediction for Patients with Sepsis in Intensive Care Unit Based on Interpretable Machine Learning
LIU Kun1, LING Chen2, SHI Xiaoqiang1, ZHOU Mengyu1, XU Naiyue1
(1.School of Health Science and Engineering, University of Shanghai for Science and Technology, Shanghai 200093, China;
2. Medical Instrumentation College, Shanghai University of Medicine and Health Sciences, Shanghai 201318, China)
lkun11111@163.com; lingc@sumhs.edu.cn; 19117200027@163.com; zhou_meng_yu_66@163.com; xunaiyue21@163.com
Abstract: To effectively predict the mortality risk of sepsis patients in the Intensive Care Unit (ICU) and analyze the factors affecting outcomes, this paper proposes a mortality risk prediction model for sepsis patients to provide scientific reference for early prevention and mortality risk control of sepsis patients. In this study, the MIMIC-Ⅲ (Medical Information Mart for Intensive Care Ⅲ) database is used as the data source, from which patients who meet the requirements are selected. Bayesian network model is used to train relevant features to predict the mortality risk of sepsis patients. With a sample size of 2 352 sepsis patients, the model, using patient mortality as the ultimate outcome, demonstrates a risk prediction accuracy of 78.7%, surpassing the logistic regression model (72.3%) and the Decision Tree model (71.0%). The Bayesian network model, compared to other models, exhibits higher credibility, accurately predicting the mortality risk of sepsis patients. The interpretability of the model can assist medical staff in clinical decision-making and realize a more rational and scientific allocation of medical resources.
Key words: sepsis; Bayesian network; ICU; mortality prediction
0""引言(Introduction)
膿毒癥(Sepsis)是一種宿主對感染的反應(yīng)失調(diào),從而導(dǎo)致危及生命的器官功能障礙。全球每年有近5 000萬例膿毒癥患者,他們感染的部位和致病菌因地理位置和年齡不同而有所差異,常見的有呼吸系統(tǒng)和胃腸道系統(tǒng)的感染[1]。2017年,因膿毒癥死亡的患者數(shù)量約為1 100萬人,占全球所有死亡人數(shù)的近20%。當(dāng)膿毒癥患者需要進(jìn)入重癥監(jiān)護(hù)室時(shí),1/3的患者的存活時(shí)間不超過30 d,死亡率與患者的年齡、疾病狀態(tài)和器官功能障礙類型密切相關(guān)[2]。國內(nèi)的研究顯示,重癥監(jiān)護(hù)室(Intensive Care Unit, ICU)中膿毒癥患者的死亡率為28.7%,早期診斷發(fā)現(xiàn)并且積極治療可以起到降低死亡率的作用[3]。ICU膿毒癥患者的死亡率由多種因素造成,包括年齡、生理特征、器官狀況等[4]。除死亡風(fēng)險(xiǎn)高之外,治療膿毒癥的費(fèi)用也非常高,因?yàn)槟摱景Y患者平均住院時(shí)間相較于其他疾病患者要長得多。因此,對膿毒癥患者治療期間的死亡風(fēng)險(xiǎn)進(jìn)行預(yù)測是必要的預(yù)防措施和治療輔助手段。
1""相關(guān)研究(Correlational research)
機(jī)器學(xué)習(xí)(Machine Learning, ML)旨在確定患者身體中哪些因素對病情的發(fā)展起到關(guān)鍵作用。采用機(jī)器學(xué)習(xí)算法得出的最終結(jié)果會因數(shù)據(jù)集的數(shù)量、類型、結(jié)構(gòu)而產(chǎn)生差異,其中神經(jīng)網(wǎng)絡(luò)和Logistic回歸以及貝葉斯網(wǎng)絡(luò)的應(yīng)用最為廣泛[5]。將機(jī)器學(xué)習(xí)算法模型與APACHE Ⅱ(Acute Physiology and Chronic Health Evaluation Ⅱ)[6]、SAPS(Simplified Acute Physiology Score)[7]和SOFA(Sequential Organ Failure Assessment)[8]評分進(jìn)行死亡率預(yù)測的比較表明,機(jī)器學(xué)習(xí)算法可以提高重癥監(jiān)護(hù)決策指標(biāo)的效率。ADRIE等[9]根據(jù)患者的臨床資料,建立了嚴(yán)重膿毒癥患者第1次至第4次發(fā)作后14 d內(nèi)的死亡預(yù)測模型;TAYLOR等[10]使用機(jī)器學(xué)習(xí)方法建立模型,用于預(yù)測膿毒癥患者住院期間的死亡率。隨著對膿毒癥定義的更新(膿毒癥3.0),出現(xiàn)了一些新的預(yù)測模型。FANG等[11]利用生物標(biāo)志物建立了免疫功能障礙評分系統(tǒng)模型,預(yù)測膿毒癥患者28 d內(nèi)的死亡率,該模型的AUC(Area Under the Curve)為0.789。YIN等[12]研究的模型發(fā)現(xiàn),缺血修飾白蛋白水平可能是預(yù)測嚴(yán)重膿毒癥患者短期死亡率的有效預(yù)測指標(biāo)(AUC為0.742)。KONG等[13]使用4種機(jī)器學(xué)習(xí)方法預(yù)測ICU膿毒癥患者住院期間的死亡率,其中梯度增強(qiáng)機(jī)器模型的預(yù)測效果最好,AUC為0.845。
膿毒癥的死亡是由多個(gè)相互關(guān)聯(lián)的器官衰竭造成的。使用貝葉斯網(wǎng)絡(luò)(Bayesian Network, BN)方法,結(jié)合所需的特征數(shù)據(jù)和參數(shù)優(yōu)化,預(yù)測ICU患者膿毒癥引發(fā)的死亡率,通過受試者工作特性曲線下面積(Area Under the Receiver Operation Characteristic Curve, AUROC)評估預(yù)測性能。貝葉斯網(wǎng)絡(luò)建模技術(shù)的特點(diǎn)是捕捉變量之間的條件依賴性,可以用于描述生物標(biāo)志物之間的關(guān)系,以便更好地預(yù)測死亡率[14]。貝葉斯網(wǎng)絡(luò)在獲取醫(yī)學(xué)不確定性知識方面非常受歡迎,在疾病診斷中得到了廣泛的應(yīng)用。貝葉斯網(wǎng)絡(luò)是一類專門用于分類問題的機(jī)器學(xué)習(xí)算法,在醫(yī)療保健領(lǐng)域得到了廣泛的應(yīng)用。當(dāng)生物標(biāo)志物相關(guān)時(shí),貝葉斯網(wǎng)絡(luò)比替代分類器表現(xiàn)更好,同時(shí)保持了數(shù)學(xué)的簡單性。
2""數(shù)據(jù)與方法(Data and methods)
2.1""數(shù)據(jù)
數(shù)據(jù)從重癥監(jiān)護(hù)醫(yī)學(xué)信息市場(Medical Information Mart for Intensive Care Ⅲ, MIMIC-Ⅲ)數(shù)據(jù)庫中提取,按照Sepsis-3標(biāo)準(zhǔn)篩選符合條件的膿毒癥患者。MIMIC-Ⅲ數(shù)據(jù)庫包含2001—2012年ICU收治的53 423名成年患者(年齡≥16歲),收錄了人口統(tǒng)計(jì)學(xué)信息、實(shí)驗(yàn)室檢測信息、患者用藥信息、護(hù)理人員以及患者護(hù)理級別、患者檢測成像報(bào)告、患者出入院信息、主治醫(yī)師等大量數(shù)據(jù),醫(yī)療數(shù)據(jù)充足且齊全。
膿毒癥的診斷符合膿毒癥的定義(膿毒癥3.0),即患者有感染且序列性器官衰竭評估(SOFA)評分急性變化≥2分[15]符合以下標(biāo)準(zhǔn)的患者被納入:(1)膿毒癥患者;(2)年齡≥18歲。本文研究的是ICU膿毒癥患者,選取的病人數(shù)據(jù)要求如下:(1)ICU患者;(2)入院24 h內(nèi)的檢測數(shù)據(jù);(3)只選取第一次進(jìn)入ICU患者的數(shù)據(jù)[16]。在數(shù)據(jù)方面排查了異常值、重復(fù)值及缺失值。異常值排查方面遵循Z分?jǐn)?shù)法[17],若一個(gè)數(shù)據(jù)點(diǎn)的Z分?jǐn)?shù)絕對值大于3(因?yàn)槠骄怠?個(gè)標(biāo)準(zhǔn)差覆蓋了99.7%的面積),則表明該數(shù)據(jù)值與其他值有較大差異,視為異常值,公式如下:
通過閱讀相關(guān)文獻(xiàn)、醫(yī)學(xué)資料及進(jìn)行數(shù)據(jù)清洗[19-21],本次實(shí)驗(yàn)最終選取患者進(jìn)入ICU 24 h內(nèi)的人口統(tǒng)計(jì)學(xué)特征、生命體征、實(shí)驗(yàn)室測量值等數(shù)據(jù),結(jié)果為ICU患者離院時(shí)的存活情況,特征數(shù)據(jù)如下。
(1)人口統(tǒng)計(jì)學(xué)特征:年齡(Age)、性別(Gender)。
(2)生命體征:心率(Heart Rate, HR)、呼吸頻率(Respiratory Rate, RR)、體溫(Temperature, Temp)、血壓(Blood Pressure, BP)、疼痛(Pain)、血氧飽和度(SpO2)。
(3)實(shí)驗(yàn)室測量值:白細(xì)胞計(jì)數(shù)(White Blood Cell Count, WBC)、血紅蛋白(Hemoglobin, HB)、肌酸酐(Creatinine, Cre)、血細(xì)胞比容(Hematocrit, HCT)、國際標(biāo)準(zhǔn)化比值(International Normalized Ratio, INR)、部分凝血活酶時(shí)間(Partial Thromboplastin Time, PTT)、葡萄糖(Glucose, GLU)、鉀(K)、鈣(Ca)、鈉(Na)、鎂(Mg)、血尿素氮(Blood Urea Nitrogen, BUN)、氯化物(Chloride,CL)、PH、碳酸氫根(HCO3)、凝血酶原時(shí)間(Prothrombin Time, PT)。
2.2""方法
本文建立了一個(gè)離散的BN用于估計(jì)數(shù)據(jù)的聯(lián)合分布,作為對感興趣的情況進(jìn)行推斷和預(yù)測的基礎(chǔ)。使用決策樹模型、Logistic回歸模型進(jìn)行對比。BN節(jié)點(diǎn)中的變量便是上文介紹的特征數(shù)據(jù)。使用Python當(dāng)中的Pgmpy庫學(xué)習(xí)數(shù)據(jù),并且搭建BN的結(jié)構(gòu)圖。
對于貝葉斯網(wǎng)絡(luò)來說,算法模型都是基于離散型的數(shù)據(jù)展開的,有效的離散方法可以減少算法的時(shí)間,提高對數(shù)據(jù)樣本的分類聚類能力以及抗噪聲水平。本文使用的醫(yī)學(xué)數(shù)據(jù)離散化方法的依據(jù)來源于醫(yī)生的建議以及醫(yī)學(xué)手冊[22-23]。分組標(biāo)準(zhǔn)是BUN:7~20 mg/dL為正常組;CL:98~106 mmol/L為正常組;Ca:8.8~10.4 mg/dL為正常組;GLU:70~110 mg/dL 為正常組;HCO3:22~28 mmol/L為正常組;HR:60~100次/分鐘為正常組;INRlt;2為正常組;Mg:1.6~2.6 mg/dL為正常組;Na:135~145 mmol/L為正常組;PT:11~13.5 s為正常組;PTT:25~35 s為正常組;RR:12~20次/分鐘為正常組;Temp:36.5~37.5°C為正常組;WBC:4 500~11 000 cells/mcL為正常組;BP:90~119 mmHg為正常組(一般指收縮壓);K:2.86~4.09 mEq/L為正常組;PH:7.35~7.45為正常組;SpO2gt;95%為正常組;Age:“少年期”為18歲至30歲,“青年期”為31P歲至50歲,“中年期”為51歲至70歲,“老年期”為71歲以上;Pain:“無痛”對應(yīng)的評分是0分,“輕度疼痛”對應(yīng)的評分為1~3分,“中度疼痛”對應(yīng)的評分為4~6分,“嚴(yán)重疼痛”對應(yīng)的評分為7~10分;Cre:“男”是0.6~1.1 mg/dL為正常組,“女”是0.5~0.9 mg/dL為正常組;HB:“男”是13~18 g/dL為正常組,“女”是12~16 g/dL為正常組;HCT:“男”是40%~54%為正常組,“女”是36%~48%為正常組。
數(shù)據(jù)分析以及變量篩選選用Python、SPSS等軟件。采用SPSS 26.0進(jìn)行分析,以膿毒癥患者最終是否死亡為因變量,采用多元Logistic回歸對模型納入的變量進(jìn)行篩選(表1),然后以篩選的變量為基礎(chǔ)通過Python中貝葉斯網(wǎng)絡(luò)算法搭建結(jié)構(gòu)圖。
貝葉斯網(wǎng)絡(luò)廣泛應(yīng)用于處理和建模不確定性事件,并對其進(jìn)行建模。模型搭建的主要工作是進(jìn)行結(jié)構(gòu)學(xué)習(xí)和參數(shù)學(xué)習(xí),通常結(jié)構(gòu)學(xué)習(xí)方法主要分為兩種:(1)算法學(xué)習(xí)自動建立網(wǎng)絡(luò)結(jié)構(gòu)圖并生成條件概率表;(2)專家經(jīng)驗(yàn)加上算法搭建結(jié)構(gòu)圖并確定條件概率表。本文應(yīng)用Python 3.7軟件中的Pgmpy包進(jìn)行貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)及參數(shù)學(xué)習(xí)。由于最終目標(biāo)是使用搭建的模型結(jié)構(gòu)圖分析和預(yù)測對膿毒癥患者影響較大的影響因素,因此使用Netica軟件進(jìn)行貝葉斯網(wǎng)絡(luò)推理,首先在搭建結(jié)構(gòu)圖方面嘗試了3種算法,分別是爬山搜索算法、樹搜索之Chow-Liu算法、TAN樸素貝葉斯算法,最終通過結(jié)構(gòu)圖、準(zhǔn)確率等因素選擇在爬山搜索算法基礎(chǔ)上,結(jié)合專家知識搭建貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)圖。通過受試者曲線下面積(AUC)評價(jià)模型的預(yù)測效果。
3""結(jié)果(Results)
3.1""患者數(shù)據(jù)
MIMIC-Ⅲ數(shù)據(jù)庫共納入2 352例膿毒癥患者,年齡分布在(65.24-14.89)歲到(65.24+14.89)歲。其中,男性為1 281例(54.5%),死亡患者為690例(29.3%)。膿毒癥患者數(shù)據(jù)流程圖如圖1所示,膿毒癥患者的特征如表1所示。
3.2""影響膿毒癥患者住院期間死亡預(yù)測的因素
以膿毒癥患者是否死亡為因變量,篩選具有統(tǒng)計(jì)學(xué)意義的相關(guān)因素為自變量。通過Logistic回歸結(jié)果顯示,初步選取的變量有Temp、CL、Ca、K、Na、HR、SpO2、Pain、WBC、BUN、HB、PTT、HCO3、Age,均有統(tǒng)計(jì)學(xué)意義(Plt;0.05)。
3.3""模型的搭建
將Logistic回歸篩選的變量因素作為貝葉斯網(wǎng)絡(luò)的節(jié)點(diǎn),依據(jù)爬山算法構(gòu)建的膿毒癥貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2所示。結(jié)構(gòu)學(xué)習(xí)方面結(jié)合爬山算法以及專家知識,其中BUN、HCO3、Na、SpO2、PTT、K、Temp與膿毒癥患者死亡有直接聯(lián)系。本次實(shí)驗(yàn)使用十折交叉驗(yàn)證確保實(shí)驗(yàn)結(jié)果的準(zhǔn)確性,參數(shù)學(xué)習(xí)采用最大似然估計(jì)法,生成各個(gè)節(jié)點(diǎn)的條件概率。
3.4""模型可解釋性
貝葉斯網(wǎng)絡(luò)的可解釋性主要體現(xiàn)在3個(gè)方面[24-25]:(1)直觀的圖形化表示;(2)變量之間的概率關(guān)系;(3)可以進(jìn)行概率推斷。
直觀的圖形化表示:貝葉斯網(wǎng)絡(luò)的圖形化可以使用有向無環(huán)圖(DAG)表示,網(wǎng)絡(luò)結(jié)構(gòu)圖當(dāng)中的節(jié)點(diǎn)表示隨機(jī)變量,有向邊表示變量之間的相互依賴關(guān)系,即父節(jié)點(diǎn)指向子節(jié)點(diǎn),一般情況下,父節(jié)點(diǎn)表示能夠影響子節(jié)點(diǎn)的因素,子節(jié)點(diǎn)表示受影響的結(jié)果。通過圖2可以發(fā)現(xiàn),BUN、HCO3、Na、SpO2、PTT、K、Temp與膿毒癥患者的死亡有直接關(guān)聯(lián),BUN、HCO3、Na、SpO2、PTT、K、Temp是膿毒癥患者死亡的父節(jié)點(diǎn),對患者的死亡有直接影響。膿毒癥是一種全身性感染炎癥反應(yīng)綜合征,在膿毒癥發(fā)作時(shí),機(jī)體的免疫系統(tǒng)會產(chǎn)生強(qiáng)烈的炎癥反應(yīng),其中包括體溫升高。膿毒癥導(dǎo)致患者體溫升高的主要機(jī)制是炎癥反應(yīng)中的熱原性物質(zhì)的釋放。炎癥反應(yīng)會導(dǎo)致白細(xì)胞和其他免疫細(xì)胞釋放細(xì)胞因子,這些細(xì)胞因子可以直接或間接地作用于患者的體溫調(diào)節(jié)中樞,引起體溫升高。血尿素氮(BUN)是評估腎功能血液檢測的重要指標(biāo)之一,BUN水平升高通常表明腎功能異常或者腎臟受損,而膿毒癥患者常常伴有多器官功能衰竭,也包括腎功能受損,有一些早期的研究發(fā)現(xiàn),BUN水平高與膿毒癥患者的預(yù)后不良有關(guān)。例如,一項(xiàng)發(fā)表在《臨床腎臟病學(xué)》雜志上的研究發(fā)現(xiàn),入院時(shí)BUN水平高的膿毒癥患者的死亡率較高。另一項(xiàng)發(fā)表在《感染》雜志上的研究則表明,即使在治療后BUN水平仍然高的患者,其死亡率也相對較高,因此BUN水平的升高可能與膿毒癥患者的病情嚴(yán)重程度和預(yù)后不良有關(guān),這也正好符合結(jié)構(gòu)圖指向關(guān)系。因果關(guān)系的建模使得貝葉斯網(wǎng)絡(luò)能夠提供對觀察到的數(shù)據(jù)背后的因果機(jī)制的解釋,圖形化將復(fù)雜的因果關(guān)系和概率關(guān)系以直觀的方式展示出來,使得模型的結(jié)構(gòu)和變量之間的關(guān)系非常直觀,便于人們理解和解釋。
變量之間的概率關(guān)系:貝葉斯網(wǎng)絡(luò)使用概率分布表示變量之間的關(guān)系。網(wǎng)絡(luò)結(jié)構(gòu)中的邊表示條件概率,即給定父節(jié)點(diǎn)的取值情況下子節(jié)點(diǎn)的概率分布。這樣,貝葉斯網(wǎng)絡(luò)能夠提供對變量之間概率關(guān)系的解釋。從圖2可以看出,BUN、HCO3、Na、SpO2、PTT、K、Temp是與膿毒癥患者死亡風(fēng)險(xiǎn)直接相關(guān)的影響因素,是death的父節(jié)點(diǎn)。通過離散化數(shù)據(jù),將BUN、HCO3、Na、SpO2、PTT、K、Temp分別分為正常和異常兩種情況,不同的排列組合形成膿毒癥患者死亡風(fēng)險(xiǎn)的概率(表2),因?yàn)閿?shù)據(jù)過多,所以只列出部分概率表。通過表2可以看出,當(dāng)相關(guān)影響因素都為異常時(shí),死亡率相較于其他情況高出一些,當(dāng)全部是正常的情況下,存活的概率則大大提高了;當(dāng)BUN、HCO3、Na全部正常時(shí),膿毒癥患者的死亡率大大降低,未來可以將研究重點(diǎn)放在這些指標(biāo)上。通過表2還發(fā)現(xiàn),在只有PTT、K正常的情況下,患者的生存率很高,這應(yīng)該屬于出現(xiàn)誤差的情況。
可以進(jìn)行概率推斷:貝葉斯網(wǎng)絡(luò)可以使用貝葉斯推斷方法進(jìn)行概率推斷,通過給定一些觀測值,可以計(jì)算出其他未知變量的概率分布。這種推理能力可以用于解釋觀測數(shù)據(jù)中的現(xiàn)象,揭示變量之間的關(guān)系,并預(yù)測未來的事件。同時(shí),通過對推理過程的解釋,可以了解模型對觀測數(shù)據(jù)的解釋和預(yù)測是如何得出的,這使得貝葉斯網(wǎng)絡(luò)在決策支持和預(yù)測方面具有很強(qiáng)的可解釋性。使用貝葉斯網(wǎng)絡(luò)進(jìn)行風(fēng)險(xiǎn)預(yù)測,運(yùn)用Netica軟件搭建模型結(jié)構(gòu)圖,點(diǎn)擊節(jié)點(diǎn)修改單個(gè)影響因素的信息,從而對膿毒癥患者的死亡風(fēng)險(xiǎn)進(jìn)行預(yù)測。如圖3所示,已知某研究對象Age在71~90歲,WBC指標(biāo)異常,BUN指標(biāo)異常,Temp指標(biāo)異常,Na指標(biāo)異常,此患者發(fā)生死亡風(fēng)險(xiǎn)的概率為46.7%,即P=0.467(膿毒癥死亡風(fēng)險(xiǎn)Age=3,WBC=0,BUN=0,Temp=0,Na=0)。
3.5""預(yù)測模型的評估
使用AUC值衡量模型的檢驗(yàn)效能,結(jié)果顯示:貝葉斯網(wǎng)絡(luò)模型的AUC為 0.726,準(zhǔn)確率為0.787。BN模型的準(zhǔn)確率以及AUC與決策樹、Logistic回歸模型相比的結(jié)果如圖4所示,其中決策樹模型準(zhǔn)確率為0.710,Logistic回歸模型準(zhǔn)確率為0.723。通過圖4可以發(fā)現(xiàn),構(gòu)建的貝葉斯網(wǎng)絡(luò)模型效果良好,優(yōu)于其他模型。
4""結(jié)論(Conclusion)
為了將人工智能應(yīng)用于醫(yī)學(xué)領(lǐng)域,本文提出使用貝葉斯網(wǎng)絡(luò)方法建立可解釋性預(yù)測模型,對重癥膿毒癥患者進(jìn)行院內(nèi)死亡預(yù)測。使用公共數(shù)據(jù)集MIMIC-Ⅲ中的數(shù)據(jù)對模型進(jìn)行驗(yàn)證。根據(jù)網(wǎng)絡(luò)模型結(jié)果表明,BUN、HCO3、Na、K、Ca、SpO2、PTT、Temp等是影響膿毒癥患者死亡的重要變量。Age是膿毒癥患者死亡風(fēng)險(xiǎn)的常見因素,很少有研究探討K或Ca與膿毒癥患者之間的關(guān)系。本文的研究結(jié)果顯示:K和Ca是膿毒癥患者院內(nèi)死亡的重要變量。預(yù)測模型的AUC為0.726,與其他模型相比效果并不理想。原因可能是建立模型的想法不同,本文側(cè)重于可解釋性方面,在準(zhǔn)確性方面可能不如其他模型。與其他研究相比,本文的研究將人口統(tǒng)計(jì)學(xué)特征、生命體征、實(shí)驗(yàn)室測量值添加到人群的納入標(biāo)準(zhǔn)中。
本研究也有一定的局限性。首先,模型在公共數(shù)據(jù)集中的擬合不是很好,這可能是提取MIMIC-Ⅲ數(shù)據(jù)庫時(shí)提取的數(shù)據(jù)及方法不夠準(zhǔn)確。其次,未來的研究中應(yīng)該考慮一些可能對膿毒癥患者死亡有影響但MIMIC-Ⅲ數(shù)據(jù)庫中缺乏的生物標(biāo)志物。
參考文獻(xiàn)(References)
[1] RHEE C,DANTES R,EPSTEIN L,et al. Incidence and trends of sepsis in US hospitals using clinical vs claims data,2009—2014[J]. JAMA,2017,318(13):1241-1249.
[2] XIE J F,WANG H L,KANG Y,et al. The epidemiology of sepsis in Chinese ICUs: a national cross-sectional survey[J]. Critical care medicine,2020,48(3):209-218.
[3] VINCENT J L,MARSHALL J C,AMENDYS-SILVA S A,et al. Assessment of the worldwide burden of critical illness: the intensive care over nations (ICON) audit[J]. The lancet respiratory medicine,2014,2(5):380-386.
[4] SINGER M,DEUTSCHMAN C S,SEYMOUR C W,et al. The third international consensus definitions for sepsis and septic shock (sepsis-3)[J]. JAMA,2016,315(8):801-810.
[5] 虎磐,劉曉莉,毛智,等. 基于集成機(jī)器學(xué)習(xí)的ICU老年多器官功能不全早期死亡風(fēng)險(xiǎn)預(yù)測模型[J]. 解放軍醫(yī)學(xué)院學(xué)報(bào),2019,40(6):513-518.
[6] KNAUS W A,DRAPER E A,WAGNER D P,et al. APACHE Ⅱ: a severity of disease classification system[J]. Critical care medicine,1985,13(10):818-829.
[7] "LE GALL J R,LEMESHOW S,SAULNIER F. A new Simplified Acute Physiology Score (SAPS Ⅱ) based on a European/North American multicenter study[J]. JAMA,1993,270(24):2957-2963.
[8] AWAD A,BADER-EL-DEN M,MCNICHOLAS J,et al. Predicting hospital mortality for intensive care unit patients: time-series analysis[J]. Health informatics journal,2020,26(2):1043-1059.
[9] ADRIE C,F(xiàn)RANCAIS A,ALVAREZ-GONZALEZ A,et al. Model for predicting short-term mortality of severe sepsis[J]. Critical care,2009,13:1-14.
[10] TAYLOR R A,PARE J R,VENKATESH A K,et al. Prediction of in-hospital mortality in emergency department patients with sepsis:a local big data-driven,machine learning approach[J]. Academic emergency medicine,2016,23(3):269-278.
[11] FANG W F,DOUGLAS I S,CHEN Y M,et al. Development and validation of immune dysfunction score to predict 28-day mortality of sepsis patients[J]. PLOS ONE,2017,12(10):e0187088.
[12] YIN M,LIU X Z,CHEN X M,et al. Ischemia-modified albumin is a predictor of short-term mortality in patients with severe sepsis[J]. Journal of critical care,2017,37:7-12.
[13] KONG G L,LIN K,HU Y H. Using machine learning methods to predict in-hospital mortality of sepsis patients in the ICU[J]. BMC medical informatics and decision making,2020,20:1-10.
[14] 魏珍,張雪雷,饒華祥,等. 禁忌搜索算法的貝葉斯網(wǎng)絡(luò)模型在冠心病影響因素分析中的應(yīng)用[J]. 中華流行病學(xué)雜志,2016,37(6):895-899.
[15] JOHNSON A E W,ABOAB J,RAFFA J D,et al. A comparative analysis of sepsis identification methods in an electronic database[J]. Critical care medicine,2018,46(4):494-499.
[16] SEYMOUR C W,LIU V X,IWASHYNA T J,et al. Assessment of clinical criteria for sepsis: for the third international consensus definitions for sepsis and septic shock (sepsis-3)[J]. JAMA,2016,315(8):762-774.
[17] FILZMOSER P,HRON K. Outlier detection for compositional data using robust methods[J]. Mathematical geosciences,2008,40:233-248.
[18] SHAH A D,BARTLETT J W,CARPENTER J,et al. Comparison of random forest and parametric imputation models for imputing missing data using MICE: a CALIBER study[J]. American journal of epidemiology,2014,179(6):764-774.
[19] ZHI D Y,ZHANG M,LIN J,et al. Establishment and validation of the predictive model for the in-hospital death in patients with sepsis[J]. American journal of infection control,2021,49(12):1515-1521.
[20] JIANG Z Y,BO L L,XU Z H,et al. An explainable machine learning algorithm for risk factor analysis of in-hospital mortality in sepsis survivors with ICU readmission[J]. Computer methods and programs in biomedicine,2021,204:106040.
[21] HERNANDEZ-SUAREZ D F,KIM Y,VILLABLANCA P,et al. Machine learning prediction models for in-hospital mortality after transcatheter aortic valve replacement[J]. JACC: Cardiovascular interventions,2019,12(14):1328-1338.
[22] KAVEY R E W,DANIELS S R,LAUER R M,et al. American Heart Association guidelines for primary prevention of atherosclerotic cardiovascular disease beginning in childhood[J]. Circulation,2003,107(11):1562-1566.
[23] CARLSON R W,LARSEN J K,MCCLURE J,et al. International adaptations of NCCN Clinical Practice Guidelines in Oncology[J]. JNCCN,2014,12(5):643-648.
[25] MOREIRA C,CHOU Y L,VELMURUGAN M,et al. LINDA-BN: an interpretable probabilistic approach for demystifying black-box predictive models[J]. Decision support systems,2021,150:113561.
作者簡介:
劉"坤(1998-),男,碩士生。研究領(lǐng)域:醫(yī)療數(shù)據(jù)分析。
凌"晨(1980-),男,博士,講師。研究領(lǐng)域:新媒體大數(shù)據(jù),電子商務(wù),智慧醫(yī)療。本文通信作者。
史小強(qiáng)(1999-),男,碩士生。研究領(lǐng)域:醫(yī)學(xué)圖像處理。
周夢雨(1999-),女,碩士生。研究領(lǐng)域:醫(yī)學(xué)圖像分割。
徐乃岳(1999-),男,碩士生。研究領(lǐng)域:醫(yī)學(xué)數(shù)據(jù)處理。