亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

隨機(jī)森林在醫(yī)院感染預(yù)測(cè)中的探討

2016-12-23 03:39:46王健祖曉玲王常武李立平

科學(xué)中國(guó)人 2016年18期

關(guān)鍵詞：決策樹(shù)分類(lèi)器森林

王健，祖曉玲，王常武，李立平

1秦皇島市第一醫(yī)院；2燕山大學(xué)信息科學(xué)與工程學(xué)院

隨機(jī)森林在醫(yī)院感染預(yù)測(cè)中的探討

王健1，祖曉玲2，王常武2，李立平1

1秦皇島市第一醫(yī)院；2燕山大學(xué)信息科學(xué)與工程學(xué)院

目前，醫(yī)院感染已經(jīng)成為醫(yī)療行業(yè)最突出的焦點(diǎn)問(wèn)題。由于醫(yī)院感染相當(dāng)不容易控制，一旦發(fā)生，將會(huì)對(duì)患者的預(yù)后和轉(zhuǎn)歸造成較大的影響，不僅會(huì)加重患者的經(jīng)濟(jì)負(fù)擔(dān)，還會(huì)給社會(huì)帶來(lái)巨大的經(jīng)濟(jì)損失，嚴(yán)重時(shí)甚至?xí)?dǎo)致患者殘疾或死亡。--《某大型綜合醫(yī)院醫(yī)院感染預(yù)警預(yù)測(cè)——以血液病患者為例》針對(duì)醫(yī)院感染的監(jiān)測(cè)，國(guó)內(nèi)相關(guān)軟件公司推出了醫(yī)院感染預(yù)警系統(tǒng)，通過(guò)對(duì)患者的醫(yī)囑信息、檢查檢驗(yàn)結(jié)果、電子病歷等相關(guān)數(shù)據(jù)的抓取，結(jié)合預(yù)先設(shè)置的規(guī)則，對(duì)存在醫(yī)院感染風(fēng)險(xiǎn)的患者預(yù)警。但是，預(yù)警系統(tǒng)只是對(duì)醫(yī)院目前感染情況的反映，且準(zhǔn)確性與預(yù)先設(shè)置的規(guī)則緊密相關(guān)。本文應(yīng)用隨機(jī)森林算法，通過(guò)對(duì)算法的訓(xùn)練，達(dá)到了對(duì)醫(yī)院感染的預(yù)測(cè)目的，讓醫(yī)院感染科工作人員變治療為預(yù)防性干預(yù)，避免或減少潛在感染的發(fā)生，減少患者痛苦，減輕患者費(fèi)用負(fù)擔(dān)，具有較大的社會(huì)效益和經(jīng)濟(jì)效益。

醫(yī)院感染；預(yù)測(cè)；隨機(jī)森林

注：本文系秦皇島科技支撐課題課題編號(hào)201401A088。

1 研究目的

對(duì)于每棵樹(shù)而言，對(duì)其所使用的訓(xùn)練集都需要從總的訓(xùn)練集中放回采樣出來(lái)的。這就表示，總的訓(xùn)練集中的有些樣本會(huì)不至一次地出現(xiàn)在一棵樹(shù)的訓(xùn)練集中，可能多次出現(xiàn)，也可能從未出現(xiàn)過(guò)。在訓(xùn)練每棵樹(shù)的節(jié)點(diǎn)時(shí)，其所使用的特征將會(huì)從所有特征中按照一定比例隨機(jī)實(shí)行無(wú)規(guī)律、無(wú)放回地抽取的，假設(shè)總的特征數(shù)量為M，這個(gè)比例可以是sqrt(M)，1/2sqrt(M)，2sqrt(M)。

通過(guò)醫(yī)院醫(yī)療過(guò)程中產(chǎn)生的數(shù)據(jù)，對(duì)隨機(jī)森林算法進(jìn)行不斷的訓(xùn)練，找到一個(gè)適用于預(yù)測(cè)醫(yī)院感染的模型，提高了醫(yī)院對(duì)感染的控制能力，減輕患者治療痛苦和經(jīng)濟(jì)壓力。

2 研究方法

隨機(jī)森林是一種集成機(jī)器學(xué)習(xí)方法，它首先需要利用節(jié)點(diǎn)隨機(jī)分裂技術(shù)以及隨機(jī)重采樣技術(shù)，來(lái)建構(gòu)出多棵決策樹(shù)，然后再通過(guò)投票的方式得到最終分類(lèi)結(jié)果。其中RF還具有分析復(fù)雜相互作用分類(lèi)特征的能力，所以其對(duì)于噪聲數(shù)據(jù)和存在缺失值的數(shù)據(jù)都具有相當(dāng)好的魯棒性。同時(shí)，其還具有較快的學(xué)習(xí)速度，它的變量重要性度量被視為是高維數(shù)據(jù)的特征選擇工具。隨著科技的不斷發(fā)展，其目前已經(jīng)被廣泛應(yīng)用于各種分類(lèi)、特征選擇、預(yù)測(cè)以及異常點(diǎn)檢測(cè)問(wèn)題之中[2,3,4,5]，并取得了一定的成果。

2.1 隨機(jī)森林的數(shù)學(xué)定義

定義1隨機(jī)森林[3]可以看成是由一組決策樹(shù)分類(lèi)器，如：{h( X，θk)，k=1，2，…，K}所組成的集成分類(lèi)器。在這組決策樹(shù)分類(lèi)器中，{θk}用來(lái)表示服從獨(dú)立同分布的隨機(jī)向量，K則用來(lái)表示隨機(jī)森林中決策樹(shù)的個(gè)數(shù)，X代表給定的自變量，每個(gè)決策樹(shù)分類(lèi)器將通過(guò)投票的方式來(lái)獲得最優(yōu)的分類(lèi)結(jié)果。

隨機(jī)森林的生成過(guò)程：

1）首先，采取bootstrap方法從原始訓(xùn)練數(shù)據(jù)集中有放回地隨機(jī)抽取K個(gè)新的自助樣本集，然后再根據(jù)這些自助樣本集構(gòu)建K棵分類(lèi)回歸樹(shù)，同時(shí)還會(huì)將每次未被抽到的樣本組合在一起，形成K個(gè)袋外數(shù)據(jù)(Out-of-bag，OOB)；

2)如果設(shè)定其有n個(gè)特征，就需要在每一棵樹(shù)的每個(gè)節(jié)點(diǎn)處隨機(jī)抽取m try個(gè)特征，同時(shí)要滿(mǎn)足m try≤n，然后開(kāi)始計(jì)算每個(gè)特征蘊(yùn)含的信息量，在其中選擇一個(gè)最具有分類(lèi)能力特征的進(jìn)行節(jié)點(diǎn)分裂；

3)要保證每棵樹(shù)最大限度地生長(zhǎng)，不做對(duì)其做任何剪裁；

4）需要將所生成的多棵樹(shù)組成隨機(jī)森林，然后再利用隨機(jī)森林對(duì)新的數(shù)據(jù)進(jìn)行分類(lèi)，最后按樹(shù)分類(lèi)器的投票多少來(lái)確定分類(lèi)結(jié)果。

定義2邊緣函數(shù)（Margin Function）

其主要用來(lái)表示平均正確分類(lèi)數(shù)所超過(guò)平均錯(cuò)誤分類(lèi)數(shù)的程度，它們之間的余量值越大，則最終的分類(lèi)預(yù)測(cè)越可靠。

2.2 隨機(jī)森林的性能指標(biāo)

隨機(jī)森林分類(lèi)性能受內(nèi)外兩方面因素影響，從外部因素看，主要來(lái)自訓(xùn)練樣本的情況，包括訓(xùn)練樣本的正負(fù)類(lèi)樣本分布，即訓(xùn)練樣本的平衡；訓(xùn)練樣本的規(guī)模，即樣本的大小、樣本的變量個(gè)數(shù)及變量的類(lèi)型。從內(nèi)部因素看，主要包括單棵樹(shù)的分類(lèi)強(qiáng)度和樹(shù)之間的相關(guān)度。衡量隨機(jī)森林性能的主要指標(biāo)有2種，一是分類(lèi)效果指標(biāo)，二是泛化誤差。

2.2.1 分類(lèi)效果指標(biāo)

定義5隨機(jī)森林算法的分類(lèi)準(zhǔn)確率

式中∶TP所代表的是正確分類(lèi)的正類(lèi)；TN所代表的是負(fù)類(lèi)的樣本數(shù)量；

FN所代表的是錯(cuò)誤分類(lèi)的正類(lèi)；FP所代表的是負(fù)類(lèi)的樣本數(shù)量。

2.2.2 泛化誤差

這是一個(gè)反應(yīng)泛化能力的指標(biāo)，當(dāng)泛化誤差越小時(shí)，代表其學(xué)習(xí)性能越好，反之則代表其學(xué)習(xí)性能性能越差。在隨機(jī)森林算法中，使用OOB估計(jì)泛化誤差[1]。

2.3 算法描述

本文所采用的是由Mahout提供的隨機(jī)森林法，通過(guò)采用隨機(jī)森林算法可以對(duì)未知變量進(jìn)行分類(lèi)，同時(shí)還可以計(jì)算分類(lèi)正確率。具體過(guò)程如算法1所示。

算法1隨機(jī)森林算法RF

訓(xùn)練階段：

輸入：訓(xùn)練數(shù)據(jù)集D，決策樹(shù)個(gè)數(shù)N，選擇特征值屬性個(gè)數(shù)M，特征屬性集S。

輸出：N棵決策樹(shù)，即隨機(jī)森林R。

步驟∶

1.初始化

1.1 讀入訓(xùn)練數(shù)據(jù)集D，決策樹(shù)個(gè)數(shù)N，選擇特征值屬性個(gè)數(shù)M，特征屬性集S。

輸出結(jié)果，迭代執(zhí)行，直至所有的決策樹(shù)構(gòu)建完畢。

測(cè)試階段：

輸入：未分類(lèi)數(shù)據(jù)集x，隨機(jī)森林R。

輸出：x的標(biāo)簽Y。

步驟∶

1.初始化

1.1 讀入未分類(lèi)數(shù)據(jù)集x，隨機(jī)森林R

2.For each decision tree Ti

2.1 Ti為x進(jìn)行分類(lèi)，得到標(biāo)簽Yi

2.2 End For

輸出結(jié)果

計(jì)算頻數(shù)最大的Yi，并輸出

3 實(shí)驗(yàn)與分析

本文搜集數(shù)據(jù)共30500條，其中5000例為院內(nèi)感染，25500例為非感染。本次實(shí)驗(yàn)的硬件配置為Intel Core2.33GHz的CPU，4GB內(nèi)存，500G硬盤(pán)的PC機(jī)。

4結(jié)論

1.本文采用了隨機(jī)森林算法預(yù)測(cè)醫(yī)院院內(nèi)感染現(xiàn)狀，并進(jìn)行了實(shí)驗(yàn)，得到了較好的預(yù)測(cè)結(jié)果。

2.該方法具有很好地普適性、擴(kuò)展性，能很好地容忍噪聲、不易過(guò)擬合、需調(diào)節(jié)參數(shù)較少等優(yōu)點(diǎn)。

3.實(shí)驗(yàn)結(jié)果表明，隨機(jī)森林對(duì)醫(yī)院院內(nèi)感染能夠進(jìn)行有效的分類(lèi)識(shí)別，它可以為醫(yī)生輔助決策提供有力的基礎(chǔ)保障。

[1]Breiman L.Random forests[J].Machine Learning,2001,45(1)∶5-32.

[2]Strobl Carolin,Boulesteix Anne-Laure,Kneib Thomas,et al. Conditional variable importance for random forests[J].BMC Bioinfor?matics,2008,9(1)∶1-11.

[3]Reif David M,Motsinger Alison A,McKinney Brett A,et al. Feature selection using a rand om forests classifier for the integrated analysis of multiple data types[C],IEEE Symposium on Computational Intelligence and Bioinformatics and Computational Biology,2006∶171-178.

王健，秦皇島市第一醫(yī)院，信息管理處工程師，碩士研究生學(xué)歷，主要從事醫(yī)院軟件項(xiàng)目管理、質(zhì)量控制，信息標(biāo)準(zhǔn)化研究等。

祖曉玲，燕山大學(xué)信息科學(xué)與工程學(xué)院，碩士研究生；

王常武，燕山大學(xué)信息科學(xué)與工程學(xué)院，教授；

李立平，秦皇島市第一醫(yī)院，信息管理處助理工程師。