李 龍,劉真義,李浩然,藥永紅
(中國(guó)人民解放軍聯(lián)勤保障部隊(duì)第九四五醫(yī)院急診科,四川雅安 625000)
急性心肌梗死(AMI)是心臟內(nèi)科最為常見(jiàn)的急危重癥疾病類(lèi)型之一,盡管隨著醫(yī)療技術(shù)和水平的不斷提升及治療手段的更新,但AMI的救治率仍不高[1]。急性腎損傷(AKI)是指人體腎臟功能在短時(shí)間內(nèi)出現(xiàn)進(jìn)行性下降的一類(lèi)疾病綜合征,誘發(fā)AKI的因素較多,在發(fā)生AMI后出現(xiàn)腎功能障礙稱(chēng)為心腎綜合征[2]。AMI患者最為常見(jiàn)的并發(fā)癥之一為AKI,其主要原因包括冠狀動(dòng)脈造影劑對(duì)腎臟的損傷和AMI所致的腎臟血流灌注不足。一旦AMI患者出現(xiàn)AKI病情將會(huì)急劇加重,嚴(yán)重影響患者預(yù)后,故而在實(shí)際臨床工作中對(duì)AMI患者是否發(fā)生AKI進(jìn)行一定的預(yù)測(cè)顯得尤為重要[3]。既往諸多研究對(duì)AMI患者并發(fā)AKI預(yù)測(cè)模型多采用logistic回歸模型進(jìn)行分析,隨著人工智能的不斷更新,機(jī)器學(xué)習(xí)得到廣泛應(yīng)用,預(yù)測(cè)模型的建立方法也逐漸增多[4]。本研究探討基于隨機(jī)森林模型法對(duì)AMI患者并發(fā)AKI進(jìn)行預(yù)測(cè)的效果,旨在為臨床診治提供理論依據(jù)。
選取2014年1月至2021年1月本院急診科收治的AMI患者1 362例作為研究對(duì)象。將合并AKI患者設(shè)為觀(guān)察組(270例),未合并AKI設(shè)為對(duì)照組(1 092例)。AMI診斷標(biāo)準(zhǔn)[5]:具有典型臨床表現(xiàn)、特征性的心電圖改變,以及血液學(xué)指標(biāo)變化;AKI診斷標(biāo)準(zhǔn)[6]:48 h內(nèi)血清肌酐水平升高大于或等于0.3 mg/dL或已超過(guò)基礎(chǔ)肌酐值的1.5倍以上或6 h尿量持續(xù)少于0.5 mL·kg-1·h-1。納入標(biāo)準(zhǔn):(1)主要診斷符合AMI診斷標(biāo)準(zhǔn);(2)發(fā)生AMI后24 h內(nèi)入院。排除標(biāo)準(zhǔn):(1)血液學(xué)檢查指標(biāo)中尿素或肌酐檢查缺失;(2)既往已有終末期腎病或透析治療。本研究符合《世界醫(yī)學(xué)協(xié)會(huì)赫爾辛基宣言》相關(guān)要求。
1.2.1自變量的選擇
根據(jù)實(shí)際臨床情況結(jié)合文獻(xiàn)[7-13]初步確定140個(gè)與AMI和AKI具有相關(guān)性的變量,因收集和整理變量數(shù)較大,需進(jìn)行一定的降維處理。(1)剔除缺失程度達(dá)15%以上的變量,而后采用R語(yǔ)言中的CARET程序?qū)λ占臄?shù)據(jù)進(jìn)行相關(guān)預(yù)處理。剔除與其他自變量存在較強(qiáng)相關(guān)性的變量(程序語(yǔ)句:find correlation),因自變量中還存在一定的多重線(xiàn)性問(wèn)題,繼續(xù)采用相關(guān)程序(程序語(yǔ)句:find Liner Combos)進(jìn)行查找及剔除。(2)對(duì)數(shù)據(jù)缺失未達(dá)15%的數(shù)據(jù)進(jìn)行相關(guān)處理和補(bǔ)充,對(duì)符合正態(tài)分布的數(shù)據(jù)采用平均數(shù)給予補(bǔ)充,對(duì)偏態(tài)分布的數(shù)據(jù)采用中位數(shù)給予補(bǔ)充。數(shù)據(jù)經(jīng)過(guò)初步處理后再進(jìn)行相關(guān)篩選,采用rfFuncs建立隨機(jī)森林模型,而后采用相關(guān)命令進(jìn)行自變量的選擇,經(jīng)過(guò)程序的選擇后最終獲得并確定30個(gè)變量,主要包括人口學(xué)資料、疾病危險(xiǎn)因素、生命體征、實(shí)驗(yàn)室檢查等。
1.2.2模型的建立
經(jīng)過(guò)自變量的確定后,在1 362例患者中隨機(jī)選取75%的病例進(jìn)行訓(xùn)練數(shù)據(jù)庫(kù)的建立,25%的病例作為測(cè)試數(shù)據(jù)庫(kù)。隨機(jī)森林算法采用相關(guān)程序包——隨機(jī)森林進(jìn)行,抽樣方式選取Bootstrap。隨機(jī)森林模型當(dāng)中具有2個(gè)重要的數(shù)據(jù)參數(shù),包括決策樹(shù)棵樹(shù)——ntree、分裂節(jié)點(diǎn)預(yù)估變量數(shù)目——mtry。首先進(jìn)行mtry節(jié)點(diǎn)值的選取,此節(jié)點(diǎn)值即為二叉數(shù)的變量數(shù)目,此模型所對(duì)應(yīng)的最小值為24,而后進(jìn)行測(cè)試階段,進(jìn)行最佳ntree的匹配,當(dāng)ntree=900時(shí)此模型表現(xiàn)最佳。模型中變量的重要性采用importance函數(shù)進(jìn)行計(jì)算,數(shù)值越大表示重要性越強(qiáng)。
1.2.3模型的評(píng)估及對(duì)比
建立模型后進(jìn)行一定程度評(píng)估,看其是否適合對(duì)疾病進(jìn)行預(yù)測(cè)。采用R語(yǔ)言對(duì)測(cè)試數(shù)據(jù)庫(kù)中的匹配數(shù)據(jù)進(jìn)行計(jì)算,得出其準(zhǔn)確率、靈敏度和特異度,再采用R語(yǔ)言中的程序包——pROC計(jì)算受試者工作特征曲線(xiàn)下面積(AUC),評(píng)估建立的隨機(jī)森林模型。同時(shí)進(jìn)行樸素貝葉斯、支持向量機(jī)及人工神經(jīng)網(wǎng)絡(luò)等其他較為常用的機(jī)器學(xué)習(xí)方法的計(jì)算,并將所有結(jié)果與隨機(jī)森林模型進(jìn)行相關(guān)對(duì)比。
1 362例患者中合并AKI 270例(19.82%),119例(8.74%)患者給予機(jī)械通氣。兩組患者血小板、球蛋白、入院時(shí)體溫、血鈉、丙氨酸氨基轉(zhuǎn)移酶、天門(mén)冬氨酸氨基轉(zhuǎn)移酶比較,差異無(wú)統(tǒng)計(jì)學(xué)意義(P>0.05);其余各指標(biāo)比較,差異均有統(tǒng)計(jì)學(xué)意義(P<0.05),見(jiàn)表1。
表1 兩組患者一般資料比較
共341例測(cè)試數(shù)據(jù)庫(kù)中患者進(jìn)行預(yù)測(cè),其中290例患者預(yù)測(cè)正確,正確率為85.04%。見(jiàn)表2。
表2 隨機(jī)森林模型測(cè)試結(jié)果
隨機(jī)森林模型AUC為0.894,均高于其余3種模型,靈敏度為0.792,特異度為0.867。見(jiàn)表3。首次肌酐、尿素值、機(jī)械通氣、年齡、D-二聚體為其前五重要變量。
表3 各模型預(yù)測(cè)效能比較
隨著大數(shù)據(jù)時(shí)代的到來(lái),更多的人工智能算法也同樣用于醫(yī)學(xué)各領(lǐng)域中,隨機(jī)森林法就是其中之一,其在醫(yī)學(xué)大數(shù)據(jù)的處理中表現(xiàn)出了極高的效能,特別是在基因、藥物、疾病等領(lǐng)域中展現(xiàn)出了其獨(dú)有的特點(diǎn),既往對(duì)AMI并發(fā)AKI患者多采用多因素logistic回歸模型進(jìn)行預(yù)測(cè),應(yīng)用隨機(jī)森林模型的研究仍較少見(jiàn)[7]。本研究通過(guò)建立隨機(jī)森林模型進(jìn)行疾病的預(yù)測(cè),最終對(duì)測(cè)試數(shù)據(jù)庫(kù)評(píng)估的結(jié)果顯示,該模型預(yù)測(cè)準(zhǔn)確率為85.04%,AUC值為0.894,均高于其余3種模型,靈敏度為0.792,特異度為0.867,提示該預(yù)測(cè)模型預(yù)測(cè)能力較好,且高于其余3種常用的機(jī)器學(xué)習(xí)模型。
本研究對(duì)所選取的自變量進(jìn)行了重要性排序,結(jié)果顯示,首次肌酐、尿素值、機(jī)械通氣、年齡、D-二聚體為其前五重要變量。肌酐及尿素值代表了患者腎功能情況的基線(xiàn)水平,既往研究表明,AMI合并AKI的預(yù)測(cè)中腎功能為其重要的影響因素之一[14]。AMI患者全身各器官均會(huì)在一定程度上出現(xiàn)灌注不足的情況,對(duì)腎功能基線(xiàn)水平較差的患者而言,病情將會(huì)進(jìn)一步加重,故在臨床工作中應(yīng)對(duì)AMI患者進(jìn)行常規(guī)腎功能基線(xiàn)水平測(cè)定,實(shí)時(shí)掌握患者病情的進(jìn)展情況。D-二聚體作為一種血栓標(biāo)志物,常用于如肺栓塞的診斷中,同時(shí)也可用于AMI的早期診斷及預(yù)后預(yù)測(cè)[8]。既往對(duì)糖尿病腎病早期腎損傷的研究表明,D-二聚體同樣與腎臟功能密切相關(guān)[15]。因此推測(cè),D-二聚體在AMI患者合并AKI的預(yù)測(cè)中具有一定的價(jià)值。
本研究模型中年齡因素同樣占據(jù)一定的重要性,合并AKI患者年齡明顯大于未合并AKI者,與既往研究結(jié)果相似[9]。另一方面,本研究中是否給予機(jī)械通氣也為模型中的重要因素之一,分析其原因在于AMI患者一般情況下病情較為危重,發(fā)生心、肺功能障礙或衰竭的風(fēng)險(xiǎn)加大,本研究1 362例患者中8.74%使用了機(jī)械通氣治療。既往研究表明,機(jī)械通氣是發(fā)生AKI的獨(dú)立危險(xiǎn)因素,對(duì)患者血流動(dòng)力學(xué)、炎性反應(yīng)等多方面造成一定程度的影響,同時(shí),發(fā)生AKI后又會(huì)反作用于機(jī)械通氣的治療及預(yù)后,故而對(duì)此類(lèi)患者而言,機(jī)械通氣模式及參數(shù)的設(shè)定顯得尤為重要,將會(huì)直接影響患者預(yù)后[10]。
既往研究將隨機(jī)森林模型用于預(yù)測(cè)造影劑所致的AKI中,同時(shí)還與傳統(tǒng)Logistic回歸模型進(jìn)行了相關(guān)對(duì)比,最終結(jié)果顯示,機(jī)器學(xué)習(xí)模式明顯優(yōu)于傳統(tǒng)模式[11]。本研究將隨機(jī)森林預(yù)測(cè)模型與其他3種機(jī)器學(xué)習(xí)模型進(jìn)行了相關(guān)對(duì)比,結(jié)果顯示,隨機(jī)森林模型預(yù)測(cè)效能均優(yōu)于其余3種,分析其中原因在于,本研究1 362例患者并非全部進(jìn)行了冠狀動(dòng)脈造影,因此,未能對(duì)造影劑所致的AKI進(jìn)行相關(guān)區(qū)分;另一方面本研究人群與國(guó)外研究人群存在一定的差異,納入的自變量也存在一定的不同。與國(guó)外研究對(duì)比發(fā)現(xiàn),腎臟功能基線(xiàn)水平、年齡均被納入模型中,由此可見(jiàn),此兩項(xiàng)對(duì)AMI患者是否發(fā)生AKI的預(yù)測(cè)具有非常重要的參考價(jià)值[12]。但本研究仍存在一些不足和局限:(1)因自變量選取較多,在實(shí)際臨床工作中可能實(shí)用性方面有所制約;(2)僅為單中心研究,樣本來(lái)源受限,特別是對(duì)一些缺失值較多的變量被迫進(jìn)行了剔除,導(dǎo)致結(jié)果可能存在一定的偏倚。
綜上所述,基于隨機(jī)森林模型對(duì)AMI患者是否發(fā)生AKI具有較好的預(yù)測(cè)效能,在實(shí)際臨床工作中具有一定的參考價(jià)值,特別是對(duì)變量數(shù)據(jù)不存在缺失的患者建議積極使用。