王健,祖曉玲,王常武,李立平
1秦皇島市第一醫(yī)院;2燕山大學(xué)信息科學(xué)與工程學(xué)院
隨機(jī)森林在醫(yī)院感染預(yù)測(cè)中的探討
王健1,祖曉玲2,王常武2,李立平1
1秦皇島市第一醫(yī)院;2燕山大學(xué)信息科學(xué)與工程學(xué)院
目前,醫(yī)院感染已經(jīng)成為醫(yī)療行業(yè)最突出的焦點(diǎn)問(wèn)題。由于醫(yī)院感染相當(dāng)不容易控制,一旦發(fā)生,將會(huì)對(duì)患者的預(yù)后和轉(zhuǎn)歸造成較大的影響,不僅會(huì)加重患者的經(jīng)濟(jì)負(fù)擔(dān),還會(huì)給社會(huì)帶來(lái)巨大的經(jīng)濟(jì)損失,嚴(yán)重時(shí)甚至?xí)?dǎo)致患者殘疾或死亡。--《某大型綜合醫(yī)院醫(yī)院感染預(yù)警預(yù)測(cè)——以血液病患者為例》針對(duì)醫(yī)院感染的監(jiān)測(cè),國(guó)內(nèi)相關(guān)軟件公司推出了醫(yī)院感染預(yù)警系統(tǒng),通過(guò)對(duì)患者的醫(yī)囑信息、檢查檢驗(yàn)結(jié)果、電子病歷等相關(guān)數(shù)據(jù)的抓取,結(jié)合預(yù)先設(shè)置的規(guī)則,對(duì)存在醫(yī)院感染風(fēng)險(xiǎn)的患者預(yù)警。但是,預(yù)警系統(tǒng)只是對(duì)醫(yī)院目前感染情況的反映,且準(zhǔn)確性與預(yù)先設(shè)置的規(guī)則緊密相關(guān)。本文應(yīng)用隨機(jī)森林算法,通過(guò)對(duì)算法的訓(xùn)練,達(dá)到了對(duì)醫(yī)院感染的預(yù)測(cè)目的,讓醫(yī)院感染科工作人員變治療為預(yù)防性干預(yù),避免或減少潛在感染的發(fā)生,減少患者痛苦,減輕患者費(fèi)用負(fù)擔(dān),具有較大的社會(huì)效益和經(jīng)濟(jì)效益。
醫(yī)院感染;預(yù)測(cè);隨機(jī)森林
注:本文系秦皇島科技支撐課題課題編號(hào)201401A088。
對(duì)于每棵樹(shù)而言,對(duì)其所使用的訓(xùn)練集都需要從總的訓(xùn)練集中放回采樣出來(lái)的。這就表示,總的訓(xùn)練集中的有些樣本會(huì)不至一次地出現(xiàn)在一棵樹(shù)的訓(xùn)練集中,可能多次出現(xiàn),也可能從未出現(xiàn)過(guò)。在訓(xùn)練每棵樹(shù)的節(jié)點(diǎn)時(shí),其所使用的特征將會(huì)從所有特征中按照一定比例隨機(jī)實(shí)行無(wú)規(guī)律、無(wú)放回地抽取的,假設(shè)總的特征數(shù)量為M,這個(gè)比例可以是sqrt(M),1/2sqrt(M),2sqrt(M)。
通過(guò)醫(yī)院醫(yī)療過(guò)程中產(chǎn)生的數(shù)據(jù),對(duì)隨機(jī)森林算法進(jìn)行不斷的訓(xùn)練,找到一個(gè)適用于預(yù)測(cè)醫(yī)院感染的模型,提高了醫(yī)院對(duì)感染的控制能力,減輕患者治療痛苦和經(jīng)濟(jì)壓力。
隨機(jī)森林是一種集成機(jī)器學(xué)習(xí)方法,它首先需要利用節(jié)點(diǎn)隨機(jī)分裂技術(shù)以及隨機(jī)重采樣技術(shù),來(lái)建構(gòu)出多棵決策樹(shù),然后再通過(guò)投票的方式得到最終分類(lèi)結(jié)果。其中RF還具有分析復(fù)雜相互作用分類(lèi)特征的能力,所以其對(duì)于噪聲數(shù)據(jù)和存在缺失值的數(shù)據(jù)都具有相當(dāng)好的魯棒性。同時(shí),其還具有較快的學(xué)習(xí)速度,它的變量重要性度量被視為是高維數(shù)據(jù)的特征選擇工具。隨著科技的不斷發(fā)展,其目前已經(jīng)被廣泛應(yīng)用于各種分類(lèi)、特征選擇、預(yù)測(cè)以及異常點(diǎn)檢測(cè)問(wèn)題之中[2,3,4,5],并取得了一定的成果。
2.1 隨機(jī)森林的數(shù)學(xué)定義
定義1隨機(jī)森林[3]可以看成是由一組決策樹(shù)分類(lèi)器,如:{h( X,θk),k=1,2,…,K}所組成的集成分類(lèi)器。在這組決策樹(shù)分類(lèi)器中,{θk}用來(lái)表示服從獨(dú)立同分布的隨機(jī)向量,K則用來(lái)表示隨機(jī)森林中決策樹(shù)的個(gè)數(shù),X代表給定的自變量,每個(gè)決策樹(shù)分類(lèi)器將通過(guò)投票的方式來(lái)獲得最優(yōu)的分類(lèi)結(jié)果。
隨機(jī)森林的生成過(guò)程:
1)首先,采取bootstrap方法從原始訓(xùn)練數(shù)據(jù)集中有放回地隨機(jī)抽取K個(gè)新的自助樣本集,然后再根據(jù)這些自助樣本集構(gòu)建K棵分類(lèi)回歸樹(shù),同時(shí)還會(huì)將每次未被抽到的樣本組合在一起,形成K個(gè)袋外數(shù)據(jù)(Out-of-bag,OOB);
2)如果設(shè)定其有n個(gè)特征,就需要在每一棵樹(shù)的每個(gè)節(jié)點(diǎn)處隨機(jī)抽取m try個(gè)特征,同時(shí)要滿(mǎn)足m try≤n,然后開(kāi)始計(jì)算每個(gè)特征蘊(yùn)含的信息量,在其中選擇一個(gè)最具有分類(lèi)能力特征的進(jìn)行節(jié)點(diǎn)分裂;
3)要保證每棵樹(shù)最大限度地生長(zhǎng),不做對(duì)其做任何剪裁;
4)需要將所生成的多棵樹(shù)組成隨機(jī)森林,然后再利用隨機(jī)森林對(duì)新的數(shù)據(jù)進(jìn)行分類(lèi),最后按樹(shù)分類(lèi)器的投票多少來(lái)確定分類(lèi)結(jié)果。
定義2邊緣函數(shù)(Margin Function)
其主要用來(lái)表示平均正確分類(lèi)數(shù)所超過(guò)平均錯(cuò)誤分類(lèi)數(shù)的程度,它們之間的余量值越大,則最終的分類(lèi)預(yù)測(cè)越可靠。
2.2 隨機(jī)森林的性能指標(biāo)
隨機(jī)森林分類(lèi)性能受內(nèi)外兩方面因素影響,從外部因素看,主要來(lái)自訓(xùn)練樣本的情況,包括訓(xùn)練樣本的正負(fù)類(lèi)樣本分布,即訓(xùn)練樣本的平衡;訓(xùn)練樣本的規(guī)模,即樣本的大小、樣本的變量個(gè)數(shù)及變量的類(lèi)型。從內(nèi)部因素看,主要包括單棵樹(shù)的分類(lèi)強(qiáng)度和樹(shù)之間的相關(guān)度。衡量隨機(jī)森林性能的主要指標(biāo)有2種,一是分類(lèi)效果指標(biāo),二是泛化誤差。
2.2.1 分類(lèi)效果指標(biāo)
定義5隨機(jī)森林算法的分類(lèi)準(zhǔn)確率
式中∶TP所代表的是正確分類(lèi)的正類(lèi);TN所代表的是負(fù)類(lèi)的樣本數(shù)量;
FN所代表的是錯(cuò)誤分類(lèi)的正類(lèi);FP所代表的是負(fù)類(lèi)的樣本數(shù)量。
2.2.2 泛化誤差
這是一個(gè)反應(yīng)泛化能力的指標(biāo),當(dāng)泛化誤差越小時(shí),代表其學(xué)習(xí)性能越好,反之則代表其學(xué)習(xí)性能性能越差。在隨機(jī)森林算法中,使用OOB估計(jì)泛化誤差[1]。
2.3 算法描述
本文所采用的是由Mahout提供的隨機(jī)森林法,通過(guò)采用隨機(jī)森林算法可以對(duì)未知變量進(jìn)行分類(lèi),同時(shí)還可以計(jì)算分類(lèi)正確率。具體過(guò)程如算法1所示。
算法1隨機(jī)森林算法RF
訓(xùn)練階段:
輸入:訓(xùn)練數(shù)據(jù)集D,決策樹(shù)個(gè)數(shù)N,選擇特征值屬性個(gè)數(shù)M,特征屬性集S。
輸出:N棵決策樹(shù),即隨機(jī)森林R。
步驟∶
1.初始化
1.1 讀入訓(xùn)練數(shù)據(jù)集D,決策樹(shù)個(gè)數(shù)N,選擇特征值屬性個(gè)數(shù)M,特征屬性集S。
輸出結(jié)果,迭代執(zhí)行,直至所有的決策樹(shù)構(gòu)建完畢。
測(cè)試階段:
輸入:未分類(lèi)數(shù)據(jù)集x,隨機(jī)森林R。
輸出:x的標(biāo)簽Y。
步驟∶
1.初始化
1.1 讀入未分類(lèi)數(shù)據(jù)集x,隨機(jī)森林R
2.For each decision tree Ti
2.1 Ti為x進(jìn)行分類(lèi),得到標(biāo)簽Yi
2.2 End For
輸出結(jié)果
計(jì)算頻數(shù)最大的Yi,并輸出
本文搜集數(shù)據(jù)共30500條,其中5000例為院內(nèi)感染,25500例為非感染。本次實(shí)驗(yàn)的硬件配置為Intel Core2.33GHz的CPU,4GB內(nèi)存,500G硬盤(pán)的PC機(jī)。
4結(jié)論
1.本文采用了隨機(jī)森林算法預(yù)測(cè)醫(yī)院院內(nèi)感染現(xiàn)狀,并進(jìn)行了實(shí)驗(yàn),得到了較好的預(yù)測(cè)結(jié)果。
2.該方法具有很好地普適性、擴(kuò)展性,能很好地容忍噪聲、不易過(guò)擬合、需調(diào)節(jié)參數(shù)較少等優(yōu)點(diǎn)。
3.實(shí)驗(yàn)結(jié)果表明,隨機(jī)森林對(duì)醫(yī)院院內(nèi)感染能夠進(jìn)行有效的分類(lèi)識(shí)別,它可以為醫(yī)生輔助決策提供有力的基礎(chǔ)保障。
[1]Breiman L.Random forests[J].Machine Learning,2001,45(1)∶5-32.
[2]Strobl Carolin,Boulesteix Anne-Laure,Kneib Thomas,et al. Conditional variable importance for random forests[J].BMC Bioinfor?matics,2008,9(1)∶1-11.
[3]Reif David M,Motsinger Alison A,McKinney Brett A,et al. Feature selection using a rand om forests classifier for the integrated analysis of multiple data types[C],IEEE Symposium on Computational Intelligence and Bioinformatics and Computational Biology,2006∶171-178.
王健,秦皇島市第一醫(yī)院,信息管理處工程師,碩士研究生學(xué)歷,主要從事醫(yī)院軟件項(xiàng)目管理、質(zhì)量控制,信息標(biāo)準(zhǔn)化研究等。
祖曉玲,燕山大學(xué)信息科學(xué)與工程學(xué)院,碩士研究生;
王常武,燕山大學(xué)信息科學(xué)與工程學(xué)院,教授;
李立平,秦皇島市第一醫(yī)院,信息管理處助理工程師。