文章編號(hào):2096-1472(2024)03-0001-06
DOI:10.19644/j.cnki.issn2096-1472.2024.003.001
摘"要:為了及早發(fā)現(xiàn)重癥監(jiān)護(hù)室中的急性腎損傷高?;颊?,為其提供適當(dāng)?shù)淖o(hù)理,實(shí)現(xiàn)醫(yī)療資源的合理利用,研究建立因果貝葉斯網(wǎng)絡(luò)模型進(jìn)行急性腎損傷高?;颊咚劳鲲L(fēng)險(xiǎn)預(yù)測(cè)。從重癥監(jiān)護(hù)醫(yī)學(xué)信息市場(chǎng)(Medical Information Mart for Intensive Care Ⅲ, MIMIC-Ⅲ)數(shù)據(jù)庫(kù)中篩選了25個(gè)研究變量和3 870條患者數(shù)據(jù),使用因果發(fā)現(xiàn)算法進(jìn)行特征降維。通過(guò)NO TEARS算法構(gòu)建因果圖并建立因果貝葉斯網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn),通過(guò)機(jī)器學(xué)習(xí)算法驗(yàn)證重要特征的合理性,并對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行因果效應(yīng)估計(jì),模型具有最高的受試者工作特征曲線下面積(Area Under the Receiver Operating Characteristic, AUROC)分?jǐn)?shù),為81.7%,優(yōu)于邏輯回歸(Logistic Regression, LR)、隨機(jī)森林(Random Forest, RF)和極端梯度提升樹(shù)(eXtreme Gradient Boosting, XGBoost)。此外,模型的重要特征預(yù)測(cè)能力在各種建模中都很穩(wěn)健,構(gòu)建的因果貝葉斯網(wǎng)絡(luò)具有更好的預(yù)測(cè)效果并具備良好的解釋能力。
關(guān)鍵詞:急性腎損傷;因果貝葉斯網(wǎng)絡(luò);因果發(fā)現(xiàn);死亡風(fēng)險(xiǎn)預(yù)測(cè)
中圖分類(lèi)號(hào):TP391""文獻(xiàn)標(biāo)志碼:A
Predicting Mortality Risk of AKI Patients Based on Causal Bayesian Network
XU Naiyue1, ZHOU Liang2, LIU Kun1, ZHOU Mengyu1
(1.School of Health Science and Engineering, University of Shanghai for Science and Technology, Shanghai 200093, China;
2.Biomedical Engineering Fusion Laboratory, Jiangning Hospital Affiliated to Nanjing Medical University, Nanjing 211100, China)
xunaiyue21@163.com; wenzhou6@sjtu.edu.cn; lkun11111@163.com; zhou_meng_yu_66@163.com
Abstract: In order to promptly identify high-risk patients for Acute Kidney Injury (AKI) in the Intensive Care Unit (ICU), provide appropriate care, and achieve rational utilization of medical resources, this paper proposes to establish a causal Bayesian network model for predicting mortality risk in high-risk AKI patients. 25 study variables and 3 870 patient records are selected from the MIMIC-Ⅲ (Medical Information Mart for Intensive Care Ⅲ) database, and causal discovery algorithm is used for feature dimension reduction. The NO TEARS algorithm is employed to construct a causal graph and establish a causal Bayesian network for experimentation. Machine learning algorithm is utilized to validate the rationality of important features, and causal effect estimation is performed on the network structure. The model achieves the highest Area Under the Receiver Operating Characteristic (AUROC) score of 81.7%, which is superior to Logistic Regression (LR), Random Forest (RF), and eXtreme Gradient Boosting (XGBoost). Additionally, the predictive ability of important features in the model remains robust across various modeling scenarios. The proposed causal Bayesian network has better prediction performance and good interpretability.
Key words: AKI; causal Bayesian network; causal discovery; mortality risk prediction
0""引言(Introduction)
急性腎損傷(Acute Kidney Injury, AKI)是外科患者或危重患者經(jīng)常出現(xiàn)的一種復(fù)雜的全身綜合征,具有高死亡風(fēng)險(xiǎn)[1-2]。流行病學(xué)證據(jù)表明輕度、可逆的AKI也有嚴(yán)重的臨床后果[3]。過(guò)去20年,AKI患者的死亡率高居不下,其中住院患者的死亡率為15%,重癥監(jiān)護(hù)室(Intensive Care Unit, ICU)中的患者死亡率為50%[4],全球每年約有200萬(wàn)人死于AKI[5-6]。
隨著臨床醫(yī)學(xué)信息學(xué)的進(jìn)步和電子健康記錄完整性的提高,機(jī)器學(xué)習(xí)算法已被廣泛地應(yīng)用于構(gòu)建精確的風(fēng)險(xiǎn)預(yù)測(cè)模型。復(fù)雜的機(jī)器學(xué)習(xí)模型具有高復(fù)雜度和不可解釋的特征,無(wú)法在臨床中獲得醫(yī)護(hù)人員的信任。復(fù)雜模型通常依賴完備的高維數(shù)據(jù)進(jìn)行預(yù)測(cè),在病人進(jìn)入ICU的初期,因?yàn)闀r(shí)間較短,所以難以進(jìn)行較多的實(shí)驗(yàn)室檢測(cè),導(dǎo)致模型無(wú)法發(fā)揮出早期預(yù)測(cè)的優(yōu)勢(shì)[7]。構(gòu)建適用于ICU早期的AKI高風(fēng)險(xiǎn)患者的預(yù)測(cè)模型具有一定的挑戰(zhàn)性,但對(duì)于制定AKI治療的新策略至關(guān)重要[8]。
1""相關(guān)工作(Related work)
近年來(lái),隨著機(jī)器學(xué)習(xí)技術(shù)的不斷發(fā)展,醫(yī)護(hù)人員對(duì)ICU中患者死亡風(fēng)險(xiǎn)的預(yù)測(cè)方法有了更多的選擇[9]。醫(yī)護(hù)人員可以使用機(jī)器學(xué)習(xí)技術(shù)和計(jì)算密集型統(tǒng)計(jì)建模方案快速評(píng)估大量復(fù)雜的數(shù)據(jù),用以確定患者的死亡風(fēng)險(xiǎn)[10]。許多研究人員主張使用機(jī)器學(xué)習(xí)開(kāi)發(fā)復(fù)雜臨床場(chǎng)景的預(yù)測(cè)模型,由于臨床特征和患者結(jié)局之間的關(guān)系多是非線性的,相較于傳統(tǒng)的統(tǒng)計(jì)學(xué)方案和最普遍的邏輯回歸(Logistic Regression, LR)算法,機(jī)器學(xué)習(xí)算法可以更好地捕獲高維數(shù)據(jù)中的非線性關(guān)系,更有效地利用電子健康病歷并挑選出高維數(shù)據(jù)中對(duì)預(yù)測(cè)貢獻(xiàn)顯著的數(shù)據(jù)字段,提高算法模型的預(yù)測(cè)性能[11]。
LIN等[12]使用隨機(jī)森林(Random Forest, RF)算法構(gòu)建了一種死亡率預(yù)測(cè)模型,根據(jù)AKI患者的尿量、收縮壓、年齡、血清碳酸氫鹽和心率等變量預(yù)測(cè)其死亡率,避免延誤高?;颊叩腁KI治療。AWAD等[13]使用20個(gè)變量,包括人口統(tǒng)計(jì)學(xué)、生命體征和實(shí)驗(yàn)室測(cè)試變量構(gòu)建RF模型,用于ICU患者的早期死亡率預(yù)測(cè),他們發(fā)現(xiàn)RF模型在死亡率預(yù)測(cè)方面表現(xiàn)出良好的性能。KIM等[14]使用人口統(tǒng)計(jì)學(xué)、慢性健康狀況和生理學(xué)等相關(guān)變量構(gòu)建用于ICU患者死亡率預(yù)測(cè)的支持向量機(jī)(Support Vector Machine, SVM)模型,并將其性能同急性生理與慢性健康評(píng)分(Acute Physiology and Chronic Health Evaluation Ⅲ, APACHE Ⅲ)的性能進(jìn)行比較,發(fā)現(xiàn)SVM模型的性能優(yōu)于APACHE Ⅲ。XU等[15]研究使用ML模型,即LR、RF和極端梯度提升樹(shù)(eXtreme Gradient Boosting, XGBoost)預(yù)測(cè)AKI患者的死亡風(fēng)險(xiǎn),并進(jìn)行分層。藺軻等[16]使用SVM算法構(gòu)建ICU急性腎損傷患者的死亡風(fēng)險(xiǎn)預(yù)測(cè)模型,同時(shí)將該模型與簡(jiǎn)化急性生理評(píng)分(Simplified Acute Physiology Score Ⅱ, SAPS Ⅱ)進(jìn)行對(duì)比,表現(xiàn)出更好的模型性能。但是,上述方法存在以下問(wèn)題:(1)它們大多針對(duì)特定模型,需要較多的預(yù)測(cè)特征,不具有普適性,需要一種精簡(jiǎn)并具有良好魯棒性的方法,以適應(yīng)日益復(fù)雜的醫(yī)學(xué)場(chǎng)景;(2)關(guān)于如何預(yù)測(cè)AKI風(fēng)險(xiǎn)的內(nèi)部流程無(wú)法徹底呈現(xiàn),僅獲得特征重要性評(píng)分無(wú)法解釋特征與結(jié)局之間如何發(fā)揮作用;(3)以上方法只能提供全局解釋?zhuān)荒転槊總€(gè)案例提供個(gè)性化信息。
本研究基于因果層次結(jié)構(gòu)[17]理論,采用因果發(fā)現(xiàn)和貝葉斯網(wǎng)絡(luò)方法構(gòu)建因果貝葉斯網(wǎng)絡(luò)進(jìn)行ICU中AKI患者的死亡風(fēng)險(xiǎn)預(yù)測(cè)研究。
2""數(shù)據(jù)與方法(Data and methods)
2.1""數(shù)據(jù)
本研究使用的患者數(shù)據(jù)來(lái)自重癥監(jiān)護(hù)醫(yī)學(xué)信息市場(chǎng)(Medical Information Mart for Intensive Care Ⅲ, MIMIC-Ⅲ)數(shù)據(jù)庫(kù)[18],該數(shù)據(jù)庫(kù)整合了2001-2012年貝斯以色列女執(zhí)事醫(yī)療中心收治患者的綜合臨床數(shù)據(jù)[19],僅限于MIMIC-Ⅲ數(shù)據(jù)庫(kù)的MetaVision信息系統(tǒng)中成年的患者(年齡為18~89歲)的首次ICU住院記錄。首先從國(guó)際疾病分類(lèi)(International Classification of Diseases, ICD)中查找急性腎損傷疾病定義的疾病代碼;其次從MIMIC-Ⅲ數(shù)據(jù)庫(kù)中找出收集的ICU中的急性腎損傷患者的全部信息;最后使用Python對(duì)信息進(jìn)行篩選,只保留進(jìn)入一次ICU的病人數(shù)據(jù)。本研究所做出的預(yù)測(cè)必須基于病人是第一次入院的前提,挑選出病人入院24 h內(nèi)的生理數(shù)據(jù)并對(duì)搜索過(guò)程中產(chǎn)生的表格進(jìn)行聚合,數(shù)據(jù)獲取流程如圖1所示。
通過(guò)廣泛的文獻(xiàn)綜述和向ICU專(zhuān)業(yè)人員的咨詢,選擇以下25個(gè)特征變量進(jìn)行分析。
人口統(tǒng)計(jì)學(xué)(2個(gè)):年齡(Age)、性別(Gender)。
生命體征(6個(gè)):體溫(Temperature, Temp)、心率(Heart Rate, HR)、呼吸頻率(Respiratory Rate, Resp)、動(dòng)脈血氧飽和度(SpO2)、疼痛(Pain)、格拉斯昏迷量表(Glasgow Coma Scale, GCS)。
實(shí)驗(yàn)室測(cè)量值(17個(gè)):碳酸氫鹽(HCO3)、血尿素氮(Blood Urea Nitrogen, BUN)、氯化物(Chloride, CL)、葡萄糖(Glucose, GLU)、血細(xì)胞比容(Hematocrit, HCT)、血紅蛋白(Hemoglobin, HB)、國(guó)際標(biāo)準(zhǔn)化比值(International Normalized Ratio, INR)、血小板計(jì)數(shù)(Blood Platelet Count, PLT)、鉀(Kalium, K)、凝血酶原時(shí)間(Prothrombin Time, PT)、部分凝血活酶時(shí)間(Partial Thromboplastin Time, PTT)、血清肌酐(Serum Creatinine, SCr)、鈉(Natrium, Na)、白細(xì)胞計(jì)數(shù)(White Blood Cell Count, WBC)、總膽紅素(Total Bilirubin, TBIL)、丙氨酸轉(zhuǎn)氨酶(Alanine Transaminase, ALT)、天門(mén)冬氨酸氨基轉(zhuǎn)移酶(Aspartate Aminotransferase, AST)。
從數(shù)據(jù)庫(kù)中篩選出的實(shí)驗(yàn)數(shù)據(jù)存在部分缺失值,根據(jù)病人信息中的各項(xiàng)生理數(shù)據(jù)進(jìn)行數(shù)據(jù)篩選,去除缺失率在30%以上的病人數(shù)據(jù)和異常值,并使用隨機(jī)森林算法進(jìn)行數(shù)據(jù)插補(bǔ),確定了25個(gè)特征變量和3 870例患者。
根據(jù)《默沙東診療手冊(cè)》,將連續(xù)數(shù)據(jù)進(jìn)行離散化處理,方便模型預(yù)測(cè)與推理,變量離散信息如表1所示。
表1中,BUN、SCr、GLU的單位為mg/dL,HB的單位為g/dL,CL、HCO3的單位為mmol/L,TBIL的單位為μmol/L,ALT、AST的單位為U/L,HCT、SpO2的單位為%,K、Na的單位為mEq/L,WBC的單位為103cells/mcL,PLT的單位為103/μL,PT、PTT的單位為s,Resp、HR的單位為次/分鐘,Temp的單位為℃,INR、Pain、GCS、Age、Gender無(wú)計(jì)量單位。
2.2""方法
許多學(xué)科的基本任務(wù)是發(fā)現(xiàn)、建模和理解自然現(xiàn)象背后的因果關(guān)系,數(shù)據(jù)科學(xué)正在從當(dāng)前以數(shù)據(jù)為中心的范式轉(zhuǎn)向以科學(xué)為中心的范式。通過(guò)分析純粹的觀察數(shù)據(jù)揭示因果信息,稱為因果發(fā)現(xiàn),它在近年來(lái)引起了很多研究人員的關(guān)注。從數(shù)據(jù)中學(xué)到的因果關(guān)系可以從感知和認(rèn)知的角度進(jìn)行測(cè)量、描述和評(píng)估,學(xué)習(xí)因果關(guān)系的一種傳統(tǒng)且可行的方法是將貝葉斯網(wǎng)絡(luò)(Bayesian Network, BN)擴(kuò)展到因果貝葉斯網(wǎng)絡(luò),它可以通過(guò)生成因果定向無(wú)環(huán)圖表示因果關(guān)系[20]。
貝葉斯網(wǎng)絡(luò)可以提供基于統(tǒng)計(jì)學(xué)原理的、可解釋的預(yù)測(cè)結(jié)果,為獲取和表示許多領(lǐng)域的知識(shí)提供了一種有效方法[21]。為了將從數(shù)據(jù)中挖掘的因果知識(shí)更好地應(yīng)用于ICU中AKI患者的死亡風(fēng)險(xiǎn)評(píng)估,本文基于因果層次結(jié)構(gòu)理論在貝葉斯網(wǎng)絡(luò)學(xué)習(xí)的框架內(nèi)評(píng)估因果關(guān)系并構(gòu)建因果貝葉斯網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)。幫助醫(yī)生重點(diǎn)關(guān)注具有高風(fēng)險(xiǎn)的患者,為ICU中醫(yī)療資源的合理分配提供幫助。
因果發(fā)現(xiàn)算法能夠捕捉到變量之間的因果關(guān)系,因果關(guān)系算法有助于精準(zhǔn)地進(jìn)行風(fēng)險(xiǎn)預(yù)測(cè),篩選出的特征可以更好地適用于復(fù)雜多變的醫(yī)學(xué)環(huán)境。貝葉斯網(wǎng)絡(luò)自身固有的有向無(wú)環(huán)圖(Directed Acyclic Graph, DAG)特征和統(tǒng)計(jì)學(xué)優(yōu)勢(shì),使因果發(fā)現(xiàn)算法和貝葉斯網(wǎng)絡(luò)的結(jié)合可以方便地進(jìn)行預(yù)測(cè)推理和模型解釋。
采用PC(Peter-Clark)、GES(Greedy Equivalence Search)、GRASP(Greedy Randomized Adaptive Search Procedure)三種因果發(fā)現(xiàn)算法進(jìn)行投票加權(quán)處理,從所有的特征中發(fā)現(xiàn)有助于預(yù)測(cè)的真正風(fēng)險(xiǎn)因素進(jìn)行特征降維,篩選出特征中投票數(shù)最高的部分特征作為重要特征。本文從25個(gè)特征變量中挑選出PTT、TBIL、SCr、Resp、SpO2,為了評(píng)估所提取特征的預(yù)測(cè)能力,使用機(jī)器學(xué)習(xí)方法進(jìn)行建模和預(yù)測(cè)的準(zhǔn)確性檢查,重要特征獲取流程如圖2所示。
確定有向無(wú)環(huán)圖的結(jié)構(gòu)非常具有挑戰(zhàn)性,這是因?yàn)镈AG的搜索空間是組合的,并且會(huì)隨著節(jié)點(diǎn)數(shù)量的增加而進(jìn)行超指數(shù)擴(kuò)展。NO TEARS算法將結(jié)構(gòu)學(xué)習(xí)問(wèn)題表述為一個(gè)在實(shí)矩陣上的連續(xù)優(yōu)化問(wèn)題,避免了這種組合約束,是通過(guò)對(duì)非循環(huán)的一種新穎的描述實(shí)現(xiàn)的,這種描述平滑且準(zhǔn)確,可以更好地被用來(lái)發(fā)現(xiàn)數(shù)據(jù)中的因果結(jié)構(gòu)[22]?;诎l(fā)現(xiàn)的因果圖結(jié)構(gòu)建立因果貝葉斯網(wǎng)絡(luò)模型并進(jìn)行分析,與建立在模式識(shí)別和相關(guān)性分析基礎(chǔ)上的傳統(tǒng)機(jī)器學(xué)習(xí)方法相比,利用貝葉斯網(wǎng)絡(luò)能更直觀地描述因果關(guān)系,因果貝葉斯網(wǎng)絡(luò)模型結(jié)構(gòu)如圖3所示。
借助CausalNex軟件包為模型引入干預(yù)操作,可以對(duì)數(shù)據(jù)中的任何節(jié)點(diǎn)應(yīng)用干預(yù)更新其分布并分析干預(yù)措施的影響。如圖4所示,當(dāng)SCr和TBIL特征受到人為干預(yù)操作時(shí),就會(huì)切斷一切指向該特征的路徑。此時(shí),這些特征的值不再受到其他父級(jí)特征的影響,但是可以影響子級(jí)特征,同時(shí)對(duì)病人死亡風(fēng)險(xiǎn)的預(yù)測(cè)結(jié)果也會(huì)發(fā)生改變。干預(yù)操作可以幫助醫(yī)護(hù)人員驗(yàn)證治療方案的結(jié)果是否符合預(yù)期,為治療方案的制訂提供參考。
3""結(jié)果(Result)
3.1""模型評(píng)估
本研究使用前人文獻(xiàn)中使用的LR、RF和XGBoost進(jìn)行驗(yàn)證。圖5和圖6分別展示了使用全部特征和重要特征建模時(shí)3種算法的十次交叉驗(yàn)證的準(zhǔn)確率,圖7對(duì)基于全部特征建模和重要特征建模的評(píng)估進(jìn)行對(duì)比,可以明顯地發(fā)現(xiàn)特征篩選前后準(zhǔn)確率的差距都在4%以內(nèi),選定特征的預(yù)測(cè)能力在各種建模技術(shù)中都表現(xiàn)得相當(dāng)穩(wěn)健,表明僅依靠5個(gè)選定特征的模型就可以有效地識(shí)別高危患者。
使用NO TEARS因果發(fā)現(xiàn)算法分別基于全部特征和重要特征進(jìn)行建模預(yù)測(cè)并進(jìn)行準(zhǔn)確率(Accuracy)、精準(zhǔn)率(Precision)、召回率(Recall)和受試者工作特征曲線下面積(AUROC)的對(duì)比,降維前后性能對(duì)比圖如圖8所示。
對(duì)全部特征和重要特征都進(jìn)行因果貝葉斯網(wǎng)絡(luò)的建模,基于Accuracy、Precision、Recall、AUROC等評(píng)價(jià)指標(biāo)進(jìn)行分析?;谥匾卣鹘5念A(yù)測(cè)性能比基于全部特征建模時(shí)的效果更好,重要特征排除了其他貢獻(xiàn)較低的因素成為模型預(yù)測(cè)的主要依據(jù)。通過(guò)對(duì)特征降維前后的多種機(jī)器學(xué)習(xí)算法的建模進(jìn)行對(duì)比發(fā)現(xiàn),使用因果發(fā)現(xiàn)算法降維后的重要特征具有較強(qiáng)的預(yù)測(cè)能力,能夠在多種不同的模型中發(fā)揮出良好的預(yù)測(cè)效果,有著優(yōu)秀的泛化性能。
將因果貝葉斯網(wǎng)絡(luò)模型與LR、RF和XGBoost三種算法篩選后的重要特征數(shù)據(jù)進(jìn)行對(duì)比,基于AUROC、Accuracy和Precision三個(gè)評(píng)價(jià)指標(biāo)展開(kāi)分析,模型性能評(píng)估結(jié)果如表2所示。
模型性能對(duì)比圖如圖9所示,Accuracy反映模型總體的分類(lèi)準(zhǔn)確情況,結(jié)果顯示因果貝葉斯網(wǎng)絡(luò)的準(zhǔn)確率略低于LR和RF的準(zhǔn)確率,依然有著不錯(cuò)的準(zhǔn)確度;AUROC反映的是模型對(duì)于任意一例正負(fù)樣本的區(qū)分能力,性能評(píng)估結(jié)果顯示,因果貝葉斯網(wǎng)絡(luò)模型的AUROC遠(yuǎn)高于LR、RF和XGBoost,證明對(duì)于任意一例正負(fù)樣本因果貝葉斯網(wǎng)絡(luò)模型的正確區(qū)分結(jié)果的能力更好;Precision著重評(píng)估在預(yù)測(cè)為Positive的所有數(shù)據(jù)中,真實(shí)Positive的數(shù)據(jù)占比,結(jié)果顯示因果貝葉斯網(wǎng)絡(luò)模型效果最好,表明模型可以準(zhǔn)確地發(fā)現(xiàn)高?;颊?。
3.2""模型解釋
模型可以從兩個(gè)方面進(jìn)行可解釋分析。
3.2.1""模型的結(jié)構(gòu)
因果貝葉斯網(wǎng)絡(luò)模型的結(jié)構(gòu)主要通過(guò)NO TEARS因果發(fā)現(xiàn)算法構(gòu)建,可以很好地捕捉到變量之間的因果關(guān)系。模型的網(wǎng)絡(luò)結(jié)構(gòu)清楚地展現(xiàn)了模型預(yù)測(cè)過(guò)程中潛在的特征依賴關(guān)系,具有很高的透明度,這種可視化極大地簡(jiǎn)化了對(duì)因果關(guān)系的理解。
如圖10所示,以PTT變量為例,使用微軟DoWhy因果效應(yīng)估計(jì)軟件包對(duì)模型進(jìn)行評(píng)估,a列表示增加一個(gè)混雜因子前后平均效應(yīng)如何變化,測(cè)試該結(jié)構(gòu)的魯棒性,差距越小則模型魯棒性越好;b列表示使用隨機(jī)變量替代干預(yù)變量時(shí)平均效應(yīng)如何變化,在理想狀態(tài)下,新的平均效應(yīng)應(yīng)該為0;c列表示使用隨機(jī)子集查看平均效應(yīng)如何變化,說(shuō)明模型具有很好的泛化能力。模型網(wǎng)絡(luò)結(jié)構(gòu)在a、b、c這3種情況下的因果效應(yīng)估計(jì)都有著很好的表現(xiàn),說(shuō)明具有可信的因果效應(yīng)。
3.2.2""預(yù)測(cè)的依據(jù)
因果貝葉斯網(wǎng)絡(luò)模型的本質(zhì)依然是一種概率圖模型,在具有因果特性的圖結(jié)構(gòu)中支持使用概率推理的方式進(jìn)行預(yù)測(cè),各變量的不同取值概率可以推理出不同的預(yù)測(cè)結(jié)果,解釋預(yù)測(cè)結(jié)果的推理依據(jù)。因果貝葉斯網(wǎng)絡(luò)模型不僅可以基于各變量取值預(yù)測(cè)死亡風(fēng)險(xiǎn)概率,還可以通過(guò)逆向推理當(dāng)死亡風(fēng)險(xiǎn)最大時(shí)各變量取值的概率,用來(lái)進(jìn)行診斷推理,概率推理演示如圖11所示。
4""結(jié)論(Conclusion)
為了實(shí)現(xiàn)ICU中AKI高危患者的及早發(fā)現(xiàn)、及早治療,本研究開(kāi)發(fā)了一個(gè)患者死亡風(fēng)險(xiǎn)預(yù)測(cè)模型,通過(guò)患者進(jìn)入ICU 24 h內(nèi)的生命體征進(jìn)行可解釋的預(yù)測(cè)。使用因果發(fā)現(xiàn)算法尋找到的PTT、TBIL、SCr、Resp、SpO2五個(gè)特征變量在LR、RF和XGBoost三種機(jī)器學(xué)習(xí)模型的驗(yàn)證下都表現(xiàn)出優(yōu)異的預(yù)測(cè)性能,這五個(gè)特征變量可以作為ICU中AKI患者死亡風(fēng)險(xiǎn)預(yù)測(cè)研究的重要特征?;谥匾卣鳂?gòu)建的因果貝葉斯網(wǎng)絡(luò)模型在微軟的DoWhy因果效應(yīng)估計(jì)中也表現(xiàn)出良好的因果效應(yīng)和魯棒性,因果貝葉斯網(wǎng)絡(luò)模型結(jié)構(gòu)透明的天然優(yōu)勢(shì),使因果貝葉斯網(wǎng)絡(luò)模型的預(yù)測(cè)流程易于理解,同時(shí)因果貝葉斯網(wǎng)絡(luò)模型具備初步的干預(yù)能力,對(duì)于醫(yī)學(xué)研究有著重要意義。通過(guò)學(xué)習(xí)因果發(fā)現(xiàn)算法選擇的特征和因果關(guān)系,可以提高分類(lèi)準(zhǔn)確性。在研究中沒(méi)有考慮患者的合并癥和治療措施,基于以上研究結(jié)果,有望進(jìn)一步擴(kuò)展NO TEARS等因果發(fā)現(xiàn)算法,從更廣泛的醫(yī)療數(shù)據(jù)中挖掘影響患者結(jié)局的關(guān)鍵因素。未來(lái)的研究工作將著眼于探究影響ICU急性腎損傷患者的真正風(fēng)險(xiǎn)因素的同時(shí),尋找合適的干預(yù)措施,降低患者最終死亡概率。此外在接下來(lái)的研究中還需要通過(guò)對(duì)因果理論的深入研究賦予模型更為準(zhǔn)確的解釋方法和推理手段,以更有效地助力醫(yī)學(xué)決策。
參考文獻(xiàn)(References)
[1] KELLUM J A,PROWLE J R. Paradigms of acute kidney injury in the intensive care setting[J]. Nature reviews nephrology,2018,14:217-230.
[2] BANG J Y,LEE J B,YOON Y,et al. Acute kidney injury after infrarenal abdominal aortic aneurysm surgery:a comparison of AKIN and RIFLE criteria for risk prediction[J]. British journal of anaesthesia,2014,113(6):993-1000.
[3] KELLUM J A,LAMEIRE N,for the KDIGO AKI Guideline Work Group. Diagnosis,evaluation,and management of acute kidney injury:a KDIGO summary (Part 1)[J]. Critical care,2013,17:1-15.
[4] WALD R,MCARTHUR E,ADHIKARI N K J,et al. Changing incidence and outcomes following dialysis-requiring acute kidney injury among critically ill adults:a population-based cohort study[J]. American journal of kidney diseases,2015,65(6):870-877.
[5] WANG Y,BELLOMO R. Cardiac surgery-associated acute kidney injury:risk factors,pathophysiology and treatment[J]. Nature reviews nephrology,2017,13:697-711.
[6] HOSTE E A J,KELLUM J A,SELBY N M,et al. Global epidemiology and outcomes of acute kidney injury[J]. Nature reviews nephrology,2018,14:607-625.
[7] BHATRAJU P K,ZELNICK L R,KATZ R,et al. A prediction model for severe AKI in critically ill adults that incorporates clinical and biomarker data[J]. Clinical journal of the American society of nephrology,2019,14(4):506-514.
[8] MEERSCH M,SCHMIDT C,HOFFMEIER A,et al. Prevention of cardiac surgery-associated AKI by implementing the KDIGO guidelines in high risk patients identified by biomarkers:the PrevAKI randomized controlled trial[J]. Intensive care medicine,2017,43:1551-1561.
[9] LIU V X,PRESCOTT H C. Precision delivery in critical care:balancing prediction and personalization[C]∥VINCENT J L. Annual U pdate in Intensive Care and Emergency Medicine 2019. Cham:Springer,2019:15-27.
[10] NEMATI S,HOLDER A,RAZMI F,et al. An interpretable machine learning model for accurate prediction of sepsis in the ICU[J]. Critical care medicine,2018,46(4):547-553.
[11] POUCKE S V,ZHANG Z,SCHMITZ M,et al. Scalable predictive analysis in critically ill patients using a visual open data analysis platform[J]. PLOS ONE,2016,11(1):e0145791.
[12] LIN K,HU Y H,KONG G L. Predicting in-hospital mortality of patients with acute kidney injury in the ICU using random forest model[J]. International journal of medical informatics,2019,125:55-61.
[13] AWAD A,BADER-EL-DEN M,MCNICHOLAS J,et al. Early hospital mortality prediction of intensive care unit patients using an ensemble learning approach[J]. International journal of medical informatics,2017,108:185-195.
[14] KIM S,KIM W,PARK R W. A comparison of intensive care unit mortality prediction models through the use of data mining techniques[J]. Healthcare informatics research,2011,17(4):232-243.
[15] XU Z X,LUO Y,ADEKKANATTU P,et al. Stratified mortality prediction of patients with acute kidney injury in critical care[J]. Studies in health technology and informatics,2019,264:462-466.
[16] 藺軻,謝俊卿,胡永華,等. 支持向量機(jī)在ICU急性腎損傷患者住院死亡風(fēng)險(xiǎn)預(yù)測(cè)中的應(yīng)用[J]. 北京大學(xué)學(xué)報(bào)(醫(yī)學(xué)版),2018,50(2):239-244.
[17] SHPITSER I,PEARL J. Complete identification methods for the causal hierarchy[J]. Journal of machine learning research,2008,9:1941-1979.
[18] JOHNSON A E W,POLLARD T J,SHEN L,et al. MIMIC-Ⅲ,a freely accessible critical care database[J]. Scientific data,2016,3(1):1-9.
[19] 徐良辰,郭崇慧. 基于時(shí)間序列特征表示與信息融合的ICU患者死亡風(fēng)險(xiǎn)預(yù)測(cè)[J]. 系統(tǒng)工程理論與實(shí)踐,2022,42(10):2815-2828.
[20] KONG H,SHI X H,WANG L M,et al. Averaged tree-augmented one-dependence estimators[J]. Applied intelligence,2021,51:4270-4286.
[21] JIANG L X,ZHANG L G,YU L J,et al. Class-specific attribute weighted naive Bayes[J]. Pattern recognition,2019,88:321-330.
[22] ZHENG X,ARAGAM B,RAVIKUMAR P,et al. DAGs with NO TEARS:continuous optimization for structure learning[J]. Advances in neural information processing systems,2018,31:9472-9483.
作者簡(jiǎn)介:
徐乃岳(1999-),男,碩士生。研究領(lǐng)域:醫(yī)療數(shù)據(jù)分析。
周"亮(1981-),男,博士,副教授。研究領(lǐng)域:數(shù)據(jù)建模與優(yōu)化計(jì)算,醫(yī)療大數(shù)據(jù)分析與決策支持。本文通信作者。
劉"坤(1998-),男,碩士生。研究領(lǐng)域:醫(yī)療數(shù)據(jù)分析。
周夢(mèng)雨(1999-),女,碩士生。研究領(lǐng)域:醫(yī)學(xué)圖像分割。
收稿日期:2023-06-08
基金項(xiàng)目:南京醫(yī)科大學(xué)附屬江寧醫(yī)院醫(yī)工融合實(shí)驗(yàn)室資助項(xiàng)目(JNYYZXKY202107);國(guó)家自然科學(xué)基金項(xiàng)目:基于貝葉斯網(wǎng)絡(luò)預(yù)測(cè)ICU術(shù)后患者死亡風(fēng)險(xiǎn)的方法研究(82072228);科技部國(guó)家重點(diǎn)研發(fā)計(jì)劃“主動(dòng)健康和老齡化科技應(yīng)對(duì)”重點(diǎn)專(zhuān)項(xiàng)(2020YFC2008700)