亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        隨機(jī)森林在醫(yī)院感染預(yù)測(cè)中的探討

        2016-12-23 03:39:46王健祖曉玲王常武李立平
        科學(xué)中國(guó)人 2016年18期
        關(guān)鍵詞:決策樹(shù)分類(lèi)器森林

        王健,祖曉玲,王常武,李立平

        1秦皇島市第一醫(yī)院;2燕山大學(xué)信息科學(xué)與工程學(xué)院

        隨機(jī)森林在醫(yī)院感染預(yù)測(cè)中的探討

        王健1,祖曉玲2,王常武2,李立平1

        1秦皇島市第一醫(yī)院;2燕山大學(xué)信息科學(xué)與工程學(xué)院

        目前,醫(yī)院感染已經(jīng)成為醫(yī)療行業(yè)最突出的焦點(diǎn)問(wèn)題。由于醫(yī)院感染相當(dāng)不容易控制,一旦發(fā)生,將會(huì)對(duì)患者的預(yù)后和轉(zhuǎn)歸造成較大的影響,不僅會(huì)加重患者的經(jīng)濟(jì)負(fù)擔(dān),還會(huì)給社會(huì)帶來(lái)巨大的經(jīng)濟(jì)損失,嚴(yán)重時(shí)甚至?xí)?dǎo)致患者殘疾或死亡。--《某大型綜合醫(yī)院醫(yī)院感染預(yù)警預(yù)測(cè)——以血液病患者為例》針對(duì)醫(yī)院感染的監(jiān)測(cè),國(guó)內(nèi)相關(guān)軟件公司推出了醫(yī)院感染預(yù)警系統(tǒng),通過(guò)對(duì)患者的醫(yī)囑信息、檢查檢驗(yàn)結(jié)果、電子病歷等相關(guān)數(shù)據(jù)的抓取,結(jié)合預(yù)先設(shè)置的規(guī)則,對(duì)存在醫(yī)院感染風(fēng)險(xiǎn)的患者預(yù)警。但是,預(yù)警系統(tǒng)只是對(duì)醫(yī)院目前感染情況的反映,且準(zhǔn)確性與預(yù)先設(shè)置的規(guī)則緊密相關(guān)。本文應(yīng)用隨機(jī)森林算法,通過(guò)對(duì)算法的訓(xùn)練,達(dá)到了對(duì)醫(yī)院感染的預(yù)測(cè)目的,讓醫(yī)院感染科工作人員變治療為預(yù)防性干預(yù),避免或減少潛在感染的發(fā)生,減少患者痛苦,減輕患者費(fèi)用負(fù)擔(dān),具有較大的社會(huì)效益和經(jīng)濟(jì)效益。

        醫(yī)院感染;預(yù)測(cè);隨機(jī)森林

        注:本文系秦皇島科技支撐課題課題編號(hào)201401A088。

        1 研究目的

        對(duì)于每棵樹(shù)而言,對(duì)其所使用的訓(xùn)練集都需要從總的訓(xùn)練集中放回采樣出來(lái)的。這就表示,總的訓(xùn)練集中的有些樣本會(huì)不至一次地出現(xiàn)在一棵樹(shù)的訓(xùn)練集中,可能多次出現(xiàn),也可能從未出現(xiàn)過(guò)。在訓(xùn)練每棵樹(shù)的節(jié)點(diǎn)時(shí),其所使用的特征將會(huì)從所有特征中按照一定比例隨機(jī)實(shí)行無(wú)規(guī)律、無(wú)放回地抽取的,假設(shè)總的特征數(shù)量為M,這個(gè)比例可以是sqrt(M),1/2sqrt(M),2sqrt(M)。

        通過(guò)醫(yī)院醫(yī)療過(guò)程中產(chǎn)生的數(shù)據(jù),對(duì)隨機(jī)森林算法進(jìn)行不斷的訓(xùn)練,找到一個(gè)適用于預(yù)測(cè)醫(yī)院感染的模型,提高了醫(yī)院對(duì)感染的控制能力,減輕患者治療痛苦和經(jīng)濟(jì)壓力。

        2 研究方法

        隨機(jī)森林是一種集成機(jī)器學(xué)習(xí)方法,它首先需要利用節(jié)點(diǎn)隨機(jī)分裂技術(shù)以及隨機(jī)重采樣技術(shù),來(lái)建構(gòu)出多棵決策樹(shù),然后再通過(guò)投票的方式得到最終分類(lèi)結(jié)果。其中RF還具有分析復(fù)雜相互作用分類(lèi)特征的能力,所以其對(duì)于噪聲數(shù)據(jù)和存在缺失值的數(shù)據(jù)都具有相當(dāng)好的魯棒性。同時(shí),其還具有較快的學(xué)習(xí)速度,它的變量重要性度量被視為是高維數(shù)據(jù)的特征選擇工具。隨著科技的不斷發(fā)展,其目前已經(jīng)被廣泛應(yīng)用于各種分類(lèi)、特征選擇、預(yù)測(cè)以及異常點(diǎn)檢測(cè)問(wèn)題之中[2,3,4,5],并取得了一定的成果。

        2.1 隨機(jī)森林的數(shù)學(xué)定義

        定義1隨機(jī)森林[3]可以看成是由一組決策樹(shù)分類(lèi)器,如:{h( X,θk),k=1,2,…,K}所組成的集成分類(lèi)器。在這組決策樹(shù)分類(lèi)器中,{θk}用來(lái)表示服從獨(dú)立同分布的隨機(jī)向量,K則用來(lái)表示隨機(jī)森林中決策樹(shù)的個(gè)數(shù),X代表給定的自變量,每個(gè)決策樹(shù)分類(lèi)器將通過(guò)投票的方式來(lái)獲得最優(yōu)的分類(lèi)結(jié)果。

        隨機(jī)森林的生成過(guò)程:

        1)首先,采取bootstrap方法從原始訓(xùn)練數(shù)據(jù)集中有放回地隨機(jī)抽取K個(gè)新的自助樣本集,然后再根據(jù)這些自助樣本集構(gòu)建K棵分類(lèi)回歸樹(shù),同時(shí)還會(huì)將每次未被抽到的樣本組合在一起,形成K個(gè)袋外數(shù)據(jù)(Out-of-bag,OOB);

        2)如果設(shè)定其有n個(gè)特征,就需要在每一棵樹(shù)的每個(gè)節(jié)點(diǎn)處隨機(jī)抽取m try個(gè)特征,同時(shí)要滿(mǎn)足m try≤n,然后開(kāi)始計(jì)算每個(gè)特征蘊(yùn)含的信息量,在其中選擇一個(gè)最具有分類(lèi)能力特征的進(jìn)行節(jié)點(diǎn)分裂;

        3)要保證每棵樹(shù)最大限度地生長(zhǎng),不做對(duì)其做任何剪裁;

        4)需要將所生成的多棵樹(shù)組成隨機(jī)森林,然后再利用隨機(jī)森林對(duì)新的數(shù)據(jù)進(jìn)行分類(lèi),最后按樹(shù)分類(lèi)器的投票多少來(lái)確定分類(lèi)結(jié)果。

        定義2邊緣函數(shù)(Margin Function)

        其主要用來(lái)表示平均正確分類(lèi)數(shù)所超過(guò)平均錯(cuò)誤分類(lèi)數(shù)的程度,它們之間的余量值越大,則最終的分類(lèi)預(yù)測(cè)越可靠。

        2.2 隨機(jī)森林的性能指標(biāo)

        隨機(jī)森林分類(lèi)性能受內(nèi)外兩方面因素影響,從外部因素看,主要來(lái)自訓(xùn)練樣本的情況,包括訓(xùn)練樣本的正負(fù)類(lèi)樣本分布,即訓(xùn)練樣本的平衡;訓(xùn)練樣本的規(guī)模,即樣本的大小、樣本的變量個(gè)數(shù)及變量的類(lèi)型。從內(nèi)部因素看,主要包括單棵樹(shù)的分類(lèi)強(qiáng)度和樹(shù)之間的相關(guān)度。衡量隨機(jī)森林性能的主要指標(biāo)有2種,一是分類(lèi)效果指標(biāo),二是泛化誤差。

        2.2.1 分類(lèi)效果指標(biāo)

        定義5隨機(jī)森林算法的分類(lèi)準(zhǔn)確率

        式中∶TP所代表的是正確分類(lèi)的正類(lèi);TN所代表的是負(fù)類(lèi)的樣本數(shù)量;

        FN所代表的是錯(cuò)誤分類(lèi)的正類(lèi);FP所代表的是負(fù)類(lèi)的樣本數(shù)量。

        2.2.2 泛化誤差

        這是一個(gè)反應(yīng)泛化能力的指標(biāo),當(dāng)泛化誤差越小時(shí),代表其學(xué)習(xí)性能越好,反之則代表其學(xué)習(xí)性能性能越差。在隨機(jī)森林算法中,使用OOB估計(jì)泛化誤差[1]。

        2.3 算法描述

        本文所采用的是由Mahout提供的隨機(jī)森林法,通過(guò)采用隨機(jī)森林算法可以對(duì)未知變量進(jìn)行分類(lèi),同時(shí)還可以計(jì)算分類(lèi)正確率。具體過(guò)程如算法1所示。

        算法1隨機(jī)森林算法RF

        訓(xùn)練階段:

        輸入:訓(xùn)練數(shù)據(jù)集D,決策樹(shù)個(gè)數(shù)N,選擇特征值屬性個(gè)數(shù)M,特征屬性集S。

        輸出:N棵決策樹(shù),即隨機(jī)森林R。

        步驟∶

        1.初始化

        1.1 讀入訓(xùn)練數(shù)據(jù)集D,決策樹(shù)個(gè)數(shù)N,選擇特征值屬性個(gè)數(shù)M,特征屬性集S。

        輸出結(jié)果,迭代執(zhí)行,直至所有的決策樹(shù)構(gòu)建完畢。

        測(cè)試階段:

        輸入:未分類(lèi)數(shù)據(jù)集x,隨機(jī)森林R。

        輸出:x的標(biāo)簽Y。

        步驟∶

        1.初始化

        1.1 讀入未分類(lèi)數(shù)據(jù)集x,隨機(jī)森林R

        2.For each decision tree Ti

        2.1 Ti為x進(jìn)行分類(lèi),得到標(biāo)簽Yi

        2.2 End For

        輸出結(jié)果

        計(jì)算頻數(shù)最大的Yi,并輸出

        3 實(shí)驗(yàn)與分析

        本文搜集數(shù)據(jù)共30500條,其中5000例為院內(nèi)感染,25500例為非感染。本次實(shí)驗(yàn)的硬件配置為Intel Core2.33GHz的CPU,4GB內(nèi)存,500G硬盤(pán)的PC機(jī)。

        4結(jié)論

        1.本文采用了隨機(jī)森林算法預(yù)測(cè)醫(yī)院院內(nèi)感染現(xiàn)狀,并進(jìn)行了實(shí)驗(yàn),得到了較好的預(yù)測(cè)結(jié)果。

        2.該方法具有很好地普適性、擴(kuò)展性,能很好地容忍噪聲、不易過(guò)擬合、需調(diào)節(jié)參數(shù)較少等優(yōu)點(diǎn)。

        3.實(shí)驗(yàn)結(jié)果表明,隨機(jī)森林對(duì)醫(yī)院院內(nèi)感染能夠進(jìn)行有效的分類(lèi)識(shí)別,它可以為醫(yī)生輔助決策提供有力的基礎(chǔ)保障。

        [1]Breiman L.Random forests[J].Machine Learning,2001,45(1)∶5-32.

        [2]Strobl Carolin,Boulesteix Anne-Laure,Kneib Thomas,et al. Conditional variable importance for random forests[J].BMC Bioinfor?matics,2008,9(1)∶1-11.

        [3]Reif David M,Motsinger Alison A,McKinney Brett A,et al. Feature selection using a rand om forests classifier for the integrated analysis of multiple data types[C],IEEE Symposium on Computational Intelligence and Bioinformatics and Computational Biology,2006∶171-178.

        王健,秦皇島市第一醫(yī)院,信息管理處工程師,碩士研究生學(xué)歷,主要從事醫(yī)院軟件項(xiàng)目管理、質(zhì)量控制,信息標(biāo)準(zhǔn)化研究等。

        祖曉玲,燕山大學(xué)信息科學(xué)與工程學(xué)院,碩士研究生;

        王常武,燕山大學(xué)信息科學(xué)與工程學(xué)院,教授;

        李立平,秦皇島市第一醫(yī)院,信息管理處助理工程師。

        猜你喜歡
        決策樹(shù)分類(lèi)器森林
        一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
        決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        BP-GA光照分類(lèi)器在車(chē)道線(xiàn)識(shí)別中的應(yīng)用
        哈Q森林
        加權(quán)空-譜與最近鄰分類(lèi)器相結(jié)合的高光譜圖像分類(lèi)
        結(jié)合模糊(C+P)均值聚類(lèi)和SP-V-支持向量機(jī)的TSK分類(lèi)器
        哈Q森林
        哈Q森林
        基于決策樹(shù)的出租車(chē)乘客出行目的識(shí)別
        哈Q森林
        亚洲中文字幕无码不卡电影| 亚洲国产精品va在线播放| 女人夜夜春高潮爽a∨片| 精品国产一区二区三区香蕉| 亚洲精品中文幕一区二区| 五月婷婷六月丁香久久综合| 一本大道av伊人久久综合 | 国产69精品久久久久777| 亚洲成av人在线观看天堂无码| 国产精品片211在线观看| 亚洲av熟女天堂系列| 精品国产a毛片久久久av| 亚洲2022国产成人精品无码区| 国产精品网站在线观看免费传媒| 精品国产一区二区三区19| 激情五月天俺也去综合网| 日本系列中文字幕99| 久久99精品国产麻豆不卡| 国产香蕉尹人在线视频播放| 东京道一本热码加勒比小泽| 午夜免费观看日韩一级片| 亚洲爆乳无码精品aaa片蜜桃| 50岁熟妇的呻吟声对白| 久久精品性无码一区二区爱爱| 国产三级三级三级看三级日本| 日韩精品在线一二三四区| 无码成人一区二区| 精品视频入口| 国产一区二区三区不卡在线播放| 一区二区视频中文字幕| 无人高清电视剧在线观看| 99热这里有免费国产精品| 精品中文字幕久久久人妻| 欧洲美熟女乱又伦av影片| 国产乱子伦视频大全| 久久99国产亚洲高清观看首页| 自由成熟女性性毛茸茸应用特色 | 丰满熟妇人妻av无码区| 国产91精品在线观看| 人妻熟女一区二区三区app下载| 狠狠色噜噜狠狠狠97影音先锋|