徐舒慧,張 欣
中國醫(yī)學(xué)科學(xué)院 北京協(xié)和醫(yī)學(xué)院,北京 100144
《全國護(hù)理事業(yè)發(fā)展規(guī)劃(2016-2020年)》指出,云計算、大數(shù)據(jù)等信息技術(shù)快速發(fā)展,可促進(jìn)科學(xué)護(hù)理管理。機(jī)器學(xué)習(xí)可幫助護(hù)理人員發(fā)現(xiàn)海量數(shù)據(jù)的潛在規(guī)律,將繁雜的數(shù)據(jù)轉(zhuǎn)化為客觀且易懂的知識,對護(hù)理研究和實踐具有重大意義[1]。決策樹算法常用于分類預(yù)測或規(guī)則提取,相比于其他機(jī)器學(xué)習(xí)算法,具有結(jié)果易于解讀、效率高、有較多的分類和較高的預(yù)測精度等優(yōu)點[2],已經(jīng)廣泛應(yīng)用于住院患者風(fēng)險管理[3]、護(hù)理人力資源管理[4]、住院費用分組[5],可以降低患者住院期間的不良結(jié)局發(fā)生率、促進(jìn)資源的合理分配等。本文針對決策樹算法在國內(nèi)外護(hù)理學(xué)領(lǐng)域的應(yīng)用研究進(jìn)行概述,旨在為我國開展護(hù)理研究提供新的方法和思路。
決策樹算法是機(jī)器學(xué)習(xí)中的分類算法,通過創(chuàng)建一系列決策規(guī)則來預(yù)測類別響應(yīng)變量,將可能發(fā)生的結(jié)局(包括偶然事件、資源成本、效益等)的分布以樹的形式呈現(xiàn)[6]。該算法對連續(xù)的、更小的數(shù)據(jù)分區(qū)應(yīng)用分割規(guī)則,每個分區(qū)是樹上的一個節(jié)點,包含所有數(shù)據(jù)的分區(qū)是根節(jié)點;選擇分割是為了在每個產(chǎn)生的分區(qū)中,最小化節(jié)點雜質(zhì)或異構(gòu)的一些度量;拆分過程在樹的每個分支上重復(fù),直到額外的拆分不會導(dǎo)致節(jié)點雜質(zhì)的進(jìn)一步減少,或者達(dá)到某些其他預(yù)先指定的停止條件。從樹的根節(jié)點開始至葉子節(jié)點為一條分類規(guī)則,代表相應(yīng)數(shù)據(jù)的類別預(yù)測,可以通過目標(biāo)變量預(yù)測屬性變量[2]。與傳統(tǒng)的邏輯回歸算法和其他機(jī)器學(xué)習(xí)算法相比,具有以下優(yōu)勢:可處理連續(xù)或離散數(shù)據(jù);樹結(jié)構(gòu)簡單,可解釋性強(qiáng);非參數(shù)算法,可有效處理大型復(fù)雜數(shù)據(jù)集,而不強(qiáng)加復(fù)雜的參數(shù)結(jié)構(gòu);訓(xùn)練樣本量小于其他數(shù)據(jù)挖掘和統(tǒng)計學(xué)方法;沒有多重共線性的影響,能夠挖掘變量之間的相互效應(yīng);不需要使用者了解很多該算法的背景知識,易于護(hù)理人員運用。用于開發(fā)決策樹的常用算法包括分類與回歸樹(classification and regression tree,CART)、卡方自動互相檢驗法(chi-squared automatic interaction detector,CHAID)/窮盡卡方自動互相檢驗法(exhaustive chi-squared automatic interaction detector,E-CHAID)等。
護(hù)理風(fēng)險管理可有效消除或減少臨床護(hù)理工作中的護(hù)理風(fēng)險及其后果[7],是提高護(hù)理活動安全性和有效性的重要內(nèi)容,決策樹算法在護(hù)理風(fēng)險管理領(lǐng)域應(yīng)用最為廣泛。
2.1.1決策樹算法在護(hù)理不良事件風(fēng)險預(yù)測中的應(yīng)用
護(hù)理不良事件的風(fēng)險預(yù)測為患者安全提供保障。在傳統(tǒng)臨床工作中,我國護(hù)理人員多依靠評估量表和主觀經(jīng)驗預(yù)測患者發(fā)生護(hù)理不良事件的風(fēng)險,而護(hù)理不良事件的發(fā)生并非由幾個因素間的簡單線性關(guān)系導(dǎo)致,此外,臨床護(hù)士工作強(qiáng)度大,易導(dǎo)致信息采集不完整。因此,護(hù)理不良事件發(fā)生率并未有效降低[8]。決策樹算法可以對大量沒有規(guī)律的數(shù)據(jù)進(jìn)行分析,得出護(hù)理不良事件的關(guān)鍵風(fēng)險因素,簡便易行,可以用于高危人群的篩選,為早期預(yù)防提供理論支持。宋杰[9]借助大數(shù)據(jù)技術(shù)分析1 673例皮膚損傷護(hù)理不良事件的獨立危險因素,運用支持向量機(jī)、決策樹算法、隨機(jī)森林和人工神經(jīng)網(wǎng)絡(luò)基于獨立危險因素分別構(gòu)建預(yù)測模型;決策樹模型的準(zhǔn)確率、召回率、精確率和F1值均高于人工神經(jīng)網(wǎng)絡(luò),研究者基于此研究結(jié)果建立了皮膚損傷護(hù)理不良事件綜合管理平臺,實現(xiàn)了數(shù)據(jù)的連續(xù)分析和智能化自動預(yù)測。確定危重患者的壓力性損傷風(fēng)險是復(fù)雜且具有挑戰(zhàn)性的。Cox等[10]利用來自重癥監(jiān)護(hù)醫(yī)學(xué)信息庫的大數(shù)據(jù)集,提取1 460例患者的資料進(jìn)行決策樹算法分析,決策樹模型顯示,接受去甲腎上腺素治療、年齡>65歲、住院時間不超過10 d、Braden量表評分≤15分的患者,有63.6%的壓力性損傷風(fēng)險??梢?,在護(hù)理不良事件分析中,通過建立決策樹風(fēng)險預(yù)測模型,可以節(jié)約護(hù)理人員早期識別危險因素及高危人群的時間且精準(zhǔn)度高,及時給予干預(yù),從而降低護(hù)理不良事件發(fā)生率[10-11]。
2.1.2決策樹算法在醫(yī)院獲得性感染(hospital-acquired infection,HAI)風(fēng)險預(yù)測中的應(yīng)用
HAI是醫(yī)療質(zhì)量和醫(yī)療技術(shù)發(fā)展的一大障礙,僅靠醫(yī)務(wù)工作者自主上報或回顧性調(diào)查難以降低HAI發(fā)生率。目前,HAI預(yù)警系統(tǒng)多基于《醫(yī)院感染診斷標(biāo)準(zhǔn)(試行)》中的條例,缺乏基于真實HAI數(shù)據(jù)的分析和研究[12]。利用HAI決策樹預(yù)警模型可以有效降低感染管理人員的篩查時間,繼而進(jìn)行干預(yù),降低HAI發(fā)生率[12]。樊雯婧等[13]應(yīng)用決策樹CHAID和二分類Logistic回歸分析法分別構(gòu)建住院患者醫(yī)院感染風(fēng)險預(yù)測模型,結(jié)果顯示泌尿道插管、住院時間≥31 d、使用呼吸機(jī)是發(fā)生HAI的重要風(fēng)險因素;決策樹模型風(fēng)險預(yù)測的正確率為88.2%,曲線下面積高于Logistic回歸模型。Park等[14]使用決策樹算法、邏輯回歸和支持向量機(jī)三種數(shù)據(jù)挖掘技術(shù)來識別獲得性導(dǎo)尿管相關(guān)尿路感染的影響因素,發(fā)現(xiàn)女性、年齡較大(50歲及以上)、住院時間長、嚴(yán)重的基礎(chǔ)疾病、導(dǎo)管使用時間延長、留置導(dǎo)尿管超過48 h等為風(fēng)險因素。周佩敏等[15]采用決策樹算法分析成人全髖關(guān)節(jié)置換術(shù)后手術(shù)部位感染的風(fēng)險因素,結(jié)果顯示,手術(shù)時間是最主要的影響因素。可見,決策樹算法可以直觀地顯示輸入變量間的關(guān)系及不同變量對結(jié)局的影響,還能細(xì)致描述某一變量在不同亞組中發(fā)揮的作用。
2.1.3決策樹算法在住院患者病情惡化早期預(yù)警中的應(yīng)用
為幫助護(hù)士早期識別病情變化風(fēng)險,國內(nèi)外學(xué)者已經(jīng)建立了多種病情預(yù)警評估工具,但存在納入的生理指標(biāo)有限、單一時點的評分缺乏連續(xù)性、展示患者病情變化趨勢較片面等不足[16]。決策樹算法在病情識別上的應(yīng)用為以上問題的解決提供了新的思路[17]。院內(nèi)心搏驟停是可以預(yù)防的,因為患者在事件發(fā)生前往往表現(xiàn)出病情惡化的跡象,Li等[18]對21 337例成年急性冠脈綜合征患者進(jìn)行病例對照研究,從電子健康記錄中提取生命體征、人口學(xué)和實驗室數(shù)據(jù),采用決策樹分析和10倍交叉驗證來預(yù)測院內(nèi)心搏驟停的風(fēng)險;決策樹分析檢測到7個解釋變量,分別為VitalPAC早期預(yù)警評分、致命性心律失常、心功能分級、心肌肌鈣蛋白I、血尿素氮、年齡、糖尿病,模型的曲線下面積為0.844,10倍交叉驗證的風(fēng)險估計數(shù)為0.198。這一簡單的預(yù)測模型可以為醫(yī)護(hù)人員提供一個實用的床邊工具,并可以對病情惡化患者的決策產(chǎn)生積極影響?;跊Q策樹的早期預(yù)警模型減少了虛假警報,使得預(yù)警信號早期被發(fā)現(xiàn),以便及時干預(yù),對臨床工作人員和患者具有重要意義。這些模型還需要進(jìn)一步的發(fā)展和進(jìn)行必要的前瞻性研究。
住院費用可以反映醫(yī)療衛(wèi)生資源的分配使用情況,護(hù)理費用則顯示護(hù)理資源的使用狀況,慢性病、精神疾病、康復(fù)患者所需的大量護(hù)理活動還未作為單獨項目納入護(hù)理收費標(biāo)準(zhǔn)中,人力資源不能得到合理的分配和應(yīng)用[19]。劉嘉等[19]以護(hù)理費用(資源利用程度)為目標(biāo)變量,通過CHAID法將58%(379例)患者作為訓(xùn)練集建立決策樹模型,確定影響因素的重要程度并建立分組模型;將42%(274例)患者作為預(yù)測集,預(yù)測模型預(yù)測準(zhǔn)確率達(dá)到95.71%,預(yù)測效果理想,可實現(xiàn)新數(shù)據(jù)的預(yù)測;建立的分組方案及護(hù)理費用收費標(biāo)準(zhǔn)可為費用控制和護(hù)理費用支付方式改革提供參考。我國有研究選取某醫(yī)院醫(yī)療機(jī)構(gòu)信息系統(tǒng)中的急性白血病患者數(shù)據(jù),運用疾病診斷相關(guān)分類(diagnosis related groups,DRGs)模式和CHAID算法分析影響住院費用的主要因素并建立住院費用分組模型,設(shè)置60%樣本數(shù)作為訓(xùn)練集、40%作為預(yù)測集,結(jié)果顯示住院時間(0.764)、年齡(0.114)、并發(fā)癥(0.096)是影響患者住院費用的重要因素,住院時間、年齡、并發(fā)癥作為住院費用分組節(jié)點納入決策樹模型生成住院費用分組模型,模型住院費用預(yù)測值與實際值線性程度高[5]。將DRGs模式結(jié)合決策樹算法建立住院費用分組模型,該模型能夠直觀分析出影響住院費用的重要變量,繼而制定相應(yīng)措施,以不斷提升醫(yī)療質(zhì)量、減輕患者經(jīng)濟(jì)負(fù)擔(dān),同時為我國政府部門制定醫(yī)保費用支付標(biāo)準(zhǔn)提供理論依據(jù)[5]。需要注意的是,研究者應(yīng)該根據(jù)因變量類型選擇合適的決策樹算法,對輸出的決策樹模型進(jìn)行比較,以得到更理想的決策樹模型,揭示變量間的真實關(guān)系。
合理配置護(hù)理人力資源,在提高護(hù)士薪酬待遇的基礎(chǔ)上,建立科學(xué)的護(hù)士績效考核和薪酬分配制度,是護(hù)理管理的重要探索內(nèi)容[20]。目前基于客觀指標(biāo)和數(shù)據(jù)的評價方法過于復(fù)雜,存在費時、費力、費工、即時性和準(zhǔn)確性不足等缺點[21]。決策樹算法不需要使用者掌握復(fù)雜的知識,護(hù)理管理者可即時根據(jù)決策樹形成的各預(yù)測因素、分類規(guī)則及因素組合情況對病區(qū)每日工作量進(jìn)行劃分,有利于短期內(nèi)護(hù)理人力資源的彈性調(diào)配[4]。吳疆等[22]對全院護(hù)理單元的工作數(shù)量、質(zhì)量、效率、業(yè)績共90項指標(biāo)數(shù)據(jù)進(jìn)行決策樹分類分析,依據(jù)首優(yōu)差異變量將護(hù)理單元劃分為不同集群,以此為依據(jù)完成護(hù)理單元績效分類,護(hù)理績效的總滿意度由72.41%提升到98.28%?;卺t(yī)院信息數(shù)據(jù)平臺,利用決策樹算法,建立能綜合護(hù)理工作量、專業(yè)技術(shù)風(fēng)險和護(hù)理質(zhì)量的等級分類集群,從而為單元內(nèi)護(hù)理績效評價與績效獎金等級系數(shù)的確定提供科學(xué)、客觀、公平、公正的分類評價方法與依據(jù)[23],不僅能提高護(hù)士對護(hù)理績效評價的滿意度、降低人員流失率,還有利于護(hù)理人力資源的合理配置。
決策樹是改進(jìn)臨床實踐決策過程的一種有效且實用的工具,已經(jīng)在我國的護(hù)理風(fēng)險管理、住院費用管理、護(hù)理人力資源管理領(lǐng)域進(jìn)行了初步應(yīng)用,并得到了較為理想的結(jié)果。因為其可操作性強(qiáng)、結(jié)果易于解讀、具有良好的預(yù)測精度、處理小樣本的能力也較為出色,因此未來可以嘗試將其更多地運用于護(hù)理實踐或教學(xué)活動中。而目前我國研究的形式較單一,聯(lián)合運用決策樹和其他機(jī)器學(xué)習(xí)算法處理數(shù)據(jù)的能力弱;未來研究可借鑒國外研究經(jīng)驗,合理聯(lián)用多種機(jī)器學(xué)習(xí)算法,以得到理想的模型。目前國內(nèi)研究多基于回顧性數(shù)據(jù)集,易出現(xiàn)歷史記錄錯誤、數(shù)據(jù)缺失等問題,導(dǎo)致所建立模型的適用性較差;未來應(yīng)開展多中心、前瞻性研究,對決策樹模型進(jìn)行效能驗證。將通過驗證的預(yù)警模型嵌入電子病歷系統(tǒng),實時地調(diào)取電子健康系統(tǒng)的大數(shù)據(jù)進(jìn)行分析,從而解決預(yù)測護(hù)理風(fēng)險、彈性調(diào)配護(hù)理人力資源、控制護(hù)理質(zhì)量等護(hù)理管理問題。