邢文惠,李 琪,樸京京,谷巖梅
河北中醫(yī)藥大學護理學院,河北 050000
急性心肌梗死(acute myocardial infarction,AMI)具有高復發(fā)的特點[1],超過25%的病人在AMI 后出現(xiàn)再次入院[2]。在美國,近20%的醫(yī)療保險受益人AMI后30 d 再入院,平均每年AMI 病人再入院的醫(yī)療費用超過10 億美元[3]。有研究顯示,AMI 病人第1 次再入院的住院時間為(26.3±25.5)d[4],30 d 再入院率與病人的住院死亡率存在顯著關聯(lián)[5]。AMI 病人再入院風險預測模型有助于準確評估高風險人群,采取干預措施降低AMI 病人再入院率[6]?,F(xiàn)對國內外AMI 病人再入院風險模型的方法學進行綜述,旨在為我國臨床構建風險預測模型提供理論依據(jù)。
常用的構建風險預測模型的方法有Logistic 回歸、Cox 比例風險回歸分析、機器學習等[7]。隨著機器學習技術不斷提高,電子病歷逐漸應用于臨床風險預測?,F(xiàn)有研究中,美國學者進行的模型構建研究最多,韓國、印度、加拿大等國家也有學者構建了多因素風險預測模型[8-10]。
Logistic 回歸模型可用于篩選危險因素、預測疾病的發(fā)生與預后,該模型不僅能控制混雜因素,還能對危險因素與結局事件做出定量描述[7],實際中二分類Logistic最常用,由于其操作簡便、預測準確性較高,目前已被廣泛應用于AMI 病人再入院風險預測模型中。John等[11]將美國94 家醫(yī)院的3 006 例年齡≥75 歲AMI 病人按2∶1 分為衍生隊列和對照隊列,使用Bayesian 法與多變量Logistic 回歸建立老年AMI 病人30 d 再入院風險模型,最終納入功能活動度、射血分數(shù)、慢性阻塞性肺疾病(COPD)、心律失常、急性腎損傷、首次舒張壓、P2Y12 抑制劑使用、一般健康狀況共8 個預測因子,首次將功能性活動度納入再入院風險模型。數(shù)據(jù)演算模型C 統(tǒng)計值為0.65,具有較好的區(qū)分度。然而,僅依據(jù)納入的病人水平特征不能充分預測再入院風險,還需納入病人層面特征以外的因素。2021 年,John 等[12]在先前的研究基礎上將病人自我報告的健康狀況納入研究,用相同隊列與方法建立了老年AMI 病人180 d 再入院風險模型,該模型包括功能性移動與自我健康狀況兩個有力指標,且模型C 統(tǒng)計值為0.68,可以提供短中期的風險預測,由于模型缺少外部驗證,限制了其推廣應用。
近年來,醫(yī)療信息系統(tǒng)的不斷發(fā)展為臨床研究積累了大量電子病歷,隨著數(shù)據(jù)分析方法愈發(fā)成熟,基于電子健康記錄的研究受到廣泛關注。Nguyen 等[3]對得克薩斯州6 家醫(yī)院的826 例AMI 住院病人的電子健康記錄進行分析,采用多變量Logistic 回歸分別建立“第1 天”和“全住院”AMI 模型進行再入院風險預測,第1天AMI 模型使用了住院前24 h 的數(shù)據(jù),而全住院AMI模型包含整個住院期間的數(shù)據(jù)。第1 天AMI 模型包括腎功能、腦利鈉肽升高、年齡、糖尿病、女性、及時經(jīng)皮冠狀動脈介入治療和低收縮壓7 個預測因素,C 統(tǒng)計值為0.73 且校正良好。全住院AMI 模型在此基礎上增加靜脈利尿劑的使用、出院時貧血狀態(tài)和出院后急性護理3 個額外預測因素,其C 統(tǒng)計值為0.75,模型性能較好。但是該模型尚未在單獨隊列中進行外部驗證,臨床有效性有待驗證。
Dannis 等[10]使用Logistic 回歸模型來估計AMI 病人再入院情況,在國家健康信息數(shù)據(jù)庫中選取153 523例AMI 病人,以30 d 內出現(xiàn)AMI 再入院為結果,納入人口統(tǒng)計學資料、臨床表現(xiàn)、共病及共病評分等13 個變量建立了適用于加拿大人口的30 d 再入院風險模型,模型C 統(tǒng)計值0.679,具有較好的識別能力。Ansari等[9]對印度三級護理機構的2 849 例AMI 病人醫(yī)療健康記錄進行回顧性研究,使用正規(guī)化的彈性網(wǎng)Logistic回歸預測電子病例(EMR)與國際疾病分類(ICD)-10診斷、入院、病理、程序和用藥數(shù)據(jù)對180 d 再入院的影響,分為全特征、未服藥和全特征的糖尿病病人3 個特征組,對不同特征組分別建模進行性能比較,結果顯示各模型性能為0.61~0.69,特征組為糖尿病病人的模型鑒別效果略好,表明添加共病指標可能會提高模型性能。
以上基于電子健康病歷的風險預測模型對數(shù)據(jù)提取與分析能力要求較高,在一定程度上限制了其推廣。根據(jù)上述研究可知,Logistic 回歸簡單高效,對模型的解釋性好,然而在處理詳細臨床數(shù)據(jù)的危險因素之間非線性或多重共線性問題,回歸方法表現(xiàn)并不突出。
Cox 比例風險回歸模型在醫(yī)學研究中常用于調查結局事件或生存時間與1 個或多個預測變量之間的關系,該模型可描述不隨時間變化的多個特征及其相互作用對某一時刻死亡率或發(fā)病率的影響。自變量可以為定量資料也可為分類資料,且不要求估計資料的生存分布類型,已被應用于隨訪隊列研究中[13]。Vinay等[13]通過醫(yī)療保險受益人的信息登記,將86 849 例出院診斷為AMI 病人的年齡、第1 次接觸醫(yī)療時心臟情況、病史和危險因素納入研究,運用Cox 比例風險回歸建立AMI 病人90 d 再入院風險預測模型,結果表明,老年、糖尿病、心力衰竭史是再入院的主要影響因素,該模型C 統(tǒng)計值為0.662,且校準良好,故該模型鑒別能力較好。然而,Vinay 等[13]僅納入65 歲以上的病人,數(shù)據(jù)僅來源于定點醫(yī)院的登記信息且只考慮了第1 次再入院的情況,這些因素均限制了模型的推廣性和準確性。因此,AMI 病人90 d 再入院風險預測模型還需進一步外部驗證。Noringriis 等[14]使用Cox 比例風險回歸模型探究機械不同步對ST 段抬高型的心肌梗死(STEMI)病人心力衰竭病人再入院的作用,研究對象為哥本哈根大學托爾特醫(yī)院接受了前瞻性登記的373 例被診斷為STEMI 且接受了經(jīng)皮冠狀動脈介入術(PCI)治療的病人,結果表明縱向應變峰時間標準差是預測STEMI病人心力衰竭再入院的顯著預測因子。Logistic 回歸模型和Cox 比例風險回歸模型均為多因素分析模型,當結局變量是時間和二分類資料時優(yōu)先考慮Cox 回歸模型,該模型的局限性在于分析過多截尾數(shù)據(jù)容易影響結果的準確性[15]。
機器學習作為人工智能在醫(yī)療領域的關鍵技術,受到廣泛關注。機器學習可以最大限度提高整合數(shù)據(jù)性能,與傳統(tǒng)模型相比,機器學習可以精確識別高風險人群及相關危險因素,及時采取干預措施并優(yōu)化醫(yī)療資源的分配。
目前,在AMI 病人再入院風險預測中應用較多的傳統(tǒng)機器學習算法有邏輯回歸、貝葉斯、支持向量機、隨機森林、梯度增強和深度神經(jīng)網(wǎng)絡等[16]。2019 年,Gupta 等[16]以圖表形式常規(guī)收集AMI 病人30 d 再入院的臨床數(shù)據(jù),對以上6 種機器學習方法進行了評估,使用C 統(tǒng)計值和Brier 評分分別表示模型鑒別能力和性能。結果顯示,所有30 d 再入院機器學習模型表現(xiàn)相似,C 統(tǒng)計值為0.63~0.64,鑒別能力中等。Sung 等[17]通過文獻檢索的形式,對機器學習與傳統(tǒng)統(tǒng)計模型進行比較,納入的機器學習有人工神經(jīng)網(wǎng)絡、隨機森林、決策樹、支持向量機和貝葉斯技術,結果顯示,機器學習算法表現(xiàn)出了更好的鑒別能力。
機器學習根據(jù)有無特定的目標函數(shù)形式可分為參數(shù)模型和非參數(shù)模型,非參數(shù)模型表現(xiàn)較好[18]。2021年,Matheny 等[18]基于電子健康記錄比較機器學習中參數(shù)模型與非參數(shù)模型在風險預測方面的效能,參數(shù)模型選擇彈性網(wǎng)、最小絕對收縮和選擇算子和嶺回歸,非參數(shù)模型選擇隨機森林與梯度提升,指出非參數(shù)模型性能要優(yōu)于參數(shù)模型(C 統(tǒng)計值分別為0.686~0.704和0.686~0.695)并選擇最小絕對收縮和選擇算子作為最佳模型?;谏鲜鲅芯靠芍?,現(xiàn)存的機器學習算法可以基本滿足風險預測的需要,其中非參數(shù)機器學習算法性能最佳。然而,數(shù)據(jù)源對機器學習的影響巨大,未來還需進一步提高對數(shù)據(jù)的提取與分析能力。
深度學習是更為復雜的一種學習算法,在海量數(shù)據(jù)分類情況下比機器學習更為出色。Brett 等[19]使用量化的深度神經(jīng)網(wǎng)絡對Premier Healthcare Database(PHD)數(shù)據(jù)庫中1.15 億例住院病人信息進行推理建模,將數(shù)據(jù)按8∶1∶1 隨機分為訓練集、驗證集和測試集,其再入院預測模型的受試者工作特征曲線下面積(AUC)為0.71。Bat-Erdene 等[20]使用深度學習算法收集韓國52 家醫(yī)院數(shù)據(jù),建立AMI 病人不同隨訪時間的再入院模型,并與傳統(tǒng)機器學習算法進行比較,該模型的AUC 為0.99,表明深度學習優(yōu)于傳統(tǒng)機器學習。深度學習可以在大樣本數(shù)據(jù)中找尋不同變量間的非線性關系,然而深度學習的過程是未知的,且大量的數(shù)據(jù)需要多機構數(shù)據(jù)互通,限制了深度學習的臨床應用[21]。
LACE 指數(shù)通常被用于內科疾病的風險分層,該模型指標包括住院時間(L)、入院的靈敏度(A)、病人的共病(C)和入院前6 個月的急診科就診次數(shù)(E),西方國家常用LACE 指數(shù)作為預測30 d 再入院風險模型[22],其分值區(qū)間為0~19 分,>10 分則被認為30 d 再入院高風險。Vasuki 等[22]對韓國3 607 例病人的電子健康檔案數(shù)據(jù)進行回顧性隊列研究,使用多因素Logistic回歸分析確定指數(shù)相關性及風險預測能力,結果表明,LACE 指數(shù)具有良好鑒別能力,可用于預測30 d 再入院 風 險。隨 后,Vasuk 等[8]對LACE 指 數(shù) 與30 d 再 入 院數(shù)據(jù)進行了Kaplan-Meier 生存分析,結果表明,不同LACE 變量之間的相關性可以作為30 d 內發(fā)生再入院的依據(jù),由于模型缺少外部驗證,尚不能推廣至其他地區(qū)。
我國AMI 病人30 d 再入院率為6.3%[23],及時的風險預測是降低AMI 再入院率的有效途徑。我國關于AMI 再入院風險預測模型的研究較少,學者大多基于傳統(tǒng)的Logistic 回歸與Cox 比例風險回歸統(tǒng)計模型進行研究,電子病歷數(shù)據(jù)與機器學習技術的臨床風險預測較少。
隨著建模方法的不斷進步,我國越來越多的學者致力于構建適合我國人群的AMI 風險預測模型。龐琳琳等[7]將中醫(yī)癥候及要素與病癥相結合,基于Logistic多因素分析構建了STEMI 病癥結合風險預測模型。迪力夏提·吾布力等[24]從吉林大學第一醫(yī)院心血管數(shù)據(jù)庫選取167 例確診為STEMI 后心臟破裂的病人,運用單因素分析和二元Logistic 回歸建立風險模型以預測病人再入院風險,模型AUC 為0.771,具有較好區(qū)分度,該模型將既往腦卒中病史、年齡大、女性、此次入院未行PCI、入院時Killip 分級Ⅲ級或Ⅳ級列為獨立危險因素。張萌等[25]采用多因素Logistic 回歸分析247 例AMI 病人經(jīng)PCI 術后1 年再入院的影響因素,以列線圖形式展示,結果顯示,年齡、糖尿病、總膽固醇、三酰甘油為獨立影響因素,模型AUC 為0.843,接近理想曲線。王欲清等[1]基于電子病歷系統(tǒng)便利抽樣收集了270 例AMI 病人資料,應用Logistic 篩選再入院的影響因素并構建風險預測模型,獨立影響因素包括吸煙史、高血壓、婚姻狀況、住院時間、既往PCI 史和合并心力衰竭史,模型的AUC 為0.840。由于以上研究的樣本量較少,且均未進行外部驗證,其結果可能存在偏倚。
為幫助中國醫(yī)生識別高風險病人,Li 等[23]從中國53 所不同地理位置的醫(yī)院,收集AMI 病人的人口學、臨床特征和社會經(jīng)濟學等數(shù)據(jù),運用Cox 比例風險回歸構建了30 d 再入院風險預測模型,模型內部驗證結果C 統(tǒng)計值為0.72,研究表明住院期間病情嚴重度、急性疾病和血管重建的標志物與30 d 的非計劃再入院相關。由于中國缺乏國家級相關數(shù)據(jù)庫,數(shù)據(jù)來源受限,限制了其預測的準確性。
由于目前尚未有各方面性能表現(xiàn)均穩(wěn)定的模型,Zhang 等[26]提出一種堆疊模型(stacking),并與其他機器學習模型進行比較。stacking 是一種性能強大的集成機器學習方法,它使用了多個機器學習的特征結果訓練出一個新的模型。Zhang 等[26]將四川華西醫(yī)院3 283 例AMI 病人的人口學資料、住院情況、用藥史、既往史、并發(fā)癥、實驗室檢查等作為變量納入模型訓練,結果表明該模型在各評價指標上表現(xiàn)較好,其中AUC 最高為0.720。因此,stacking 模型能夠整合不同模型的優(yōu)勢以提高預測性能。但是,機器學習算法復雜,如何根據(jù)臨床實際情況和人群特征選擇最佳預測模型,仍需進一步研究。
綜上所述,國內AMI 再入院風險預測模型已有一定的研究基礎,但是臨床泛化性略有欠缺,在繼續(xù)開發(fā)不同危險因素與結局事件的再入院風險模型的同時,也要重視模型的外部驗證。其次,新興的機器學習技術在我國應用較少,未來應積極研究基于大數(shù)據(jù)的風險預測技術。
對AMI 后病人再入院風險進行預測和評估,并依據(jù)其風險進行個體化干預對AMI 病人預后改善有重要意義。本研究歸納總結了目前研究中廣泛使用的再入院風險預測模型,不論是線性回歸模型還是機器學習模型,其表現(xiàn)均未達到很高的預測精度,提示以后再入院風險模型構建研究還有廣泛空間。
Logistic 回歸是概率模型,可以對因變量預測分類,在疾病診斷方面廣泛應用。然而很多模型在大樣本訓練時表現(xiàn)并不好,這是由于模型出現(xiàn)了過擬合的現(xiàn)象,因此需要調整參數(shù)以防止模型過度依賴訓練集的數(shù)據(jù),常用正則化避免邏輯回歸過擬合這一趨勢[27]。Cox 比例風險回歸作為一種半?yún)?shù)回歸模型,廣泛用于醫(yī)學研究中,當結局變量是時間和二分類資料時Cox 回歸表現(xiàn)要優(yōu)于Logistic 回歸,然而Cox 回歸對協(xié)變量的納入并不嚴格,且該模型亦分析了過多的截尾數(shù)據(jù),因此難以實現(xiàn)對風險的有效預測。
回歸模型存在諸多局限性,近年來機器學習方法作為一種有前景的技術,從機器學習模型不斷發(fā)展到深度學習模型,提示使用機器學習方法可能會提高預測和評估的準確性和時效性。相比傳統(tǒng)的預測方法,基于結構化電子病歷的機器學習預測方法準確率更高,但目前仍缺乏非結構化數(shù)據(jù)的AMI 病人再入院風險的預測,未來機器學習結合非結構化數(shù)據(jù)可能會進一步提升預測模型準確性。
有研究表明,深度學習模型優(yōu)于機器學習[16],然而國外深度學習模型大多用于AMI 早期診斷,基于深度學習模型的再入院風險預測很少。此外,機器學習中單一分類器的預測性能往往具有局限性,集成模型為心血管疾病風險預測提供了新思路,未來可以嘗試集合方法來建立更多層次的結構,以提升模型分類精確度。
AMI 是全球性的健康問題,AMI 病人再入院風險預測模型對于及早識別危險人群,制定妥善可行的干預措施,促進病人健康具有重要作用。國外Logistic回歸模型、Cox 比例風險回歸模型、機器學習技術的研究日趨成熟,大多數(shù)模型因為缺乏外部驗證或作為單中心研究導致鑒別能力受限,目前尚無能有效預測再入院率的風險預測模型[28]。國內對于機器學習技術構建AMI 病人再入院風險預測模型的探索仍處于初級階段,未來在基于大數(shù)據(jù)分析的模型構建方面仍需努力。