亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隨機(jī)森林算法的數(shù)據(jù)分析軟件設(shè)計

        2017-07-12 16:43:21馮兆祥白熙卓賈子一戴洋洋盛鑫宇
        關(guān)鍵詞:分類器數(shù)據(jù)挖掘客戶端

        周 屹,馮兆祥,白熙卓,賈子一,戴洋洋,盛鑫宇

        (1.黑龍江工程學(xué)院 計算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150050;2.哈爾濱鐵路局 信息技術(shù)所,黑龍江 哈爾濱 150006)

        基于隨機(jī)森林算法的數(shù)據(jù)分析軟件設(shè)計

        周 屹1,馮兆祥1,白熙卓2,賈子一1,戴洋洋1,盛鑫宇1

        (1.黑龍江工程學(xué)院 計算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150050;2.哈爾濱鐵路局 信息技術(shù)所,黑龍江 哈爾濱 150006)

        隨機(jī)森林是一種流行的機(jī)器學(xué)習(xí)方法,已經(jīng)被廣泛地應(yīng)用于生物醫(yī)學(xué)和生物信息學(xué)。針對醫(yī)學(xué)數(shù)據(jù)集的特征高維等固有特點,設(shè)計一個基于隨機(jī)森林的醫(yī)學(xué)數(shù)據(jù)分析軟件系統(tǒng)。本系統(tǒng)基于Web技術(shù),在客戶端采用Java語言接收用戶數(shù)據(jù)和參數(shù),并顯示數(shù)據(jù)分析結(jié)果,在服務(wù)器端用R語言執(zhí)行機(jī)器學(xué)習(xí)算法,進(jìn)行數(shù)據(jù)分析。本系統(tǒng)具有友好的用戶界面、操作簡單,實現(xiàn)在Web端調(diào)用隨機(jī)森林算法對醫(yī)學(xué)臨床數(shù)據(jù)進(jìn)行分析,并且能夠很容易地擴(kuò)展到調(diào)用其他機(jī)器學(xué)習(xí)方法。

        機(jī)器學(xué)習(xí);數(shù)據(jù)挖掘;隨機(jī)森林;Java語言;R語言

        隨著國內(nèi)醫(yī)院信息化建設(shè)的發(fā)展,醫(yī)院信息系統(tǒng)中積累了大量的病人資料和醫(yī)療數(shù)據(jù),這些數(shù)據(jù)中包含對醫(yī)生、醫(yī)院管理者和醫(yī)療管理部門都有著重要意義的信息,如何提取出這些信息,成為一個亟待解決的問題。傳統(tǒng)的醫(yī)學(xué)數(shù)據(jù)分析大多采用醫(yī)學(xué)統(tǒng)計學(xué)方法,然而醫(yī)學(xué)數(shù)據(jù)尤其是醫(yī)學(xué)臨床數(shù)據(jù)固有的非線性、不完整、多類型、類別不平衡等特點,給傳統(tǒng)的統(tǒng)計分析方法,如多元回歸、主成分分析等,帶來很大的挑戰(zhàn)。因此,越來越多的研究者開始使用數(shù)據(jù)挖掘或機(jī)器學(xué)習(xí)方法來分析和解釋醫(yī)學(xué)數(shù)據(jù)。

        當(dāng)前,利用機(jī)器學(xué)習(xí)或數(shù)據(jù)挖掘方法分析醫(yī)學(xué)數(shù)據(jù),探索影響疾病發(fā)生、發(fā)展的危險因素及機(jī)制,對疾病進(jìn)行分類或預(yù)測,已經(jīng)成為機(jī)器學(xué)習(xí)在醫(yī)學(xué)領(lǐng)域的重要研究方向。然而,對于醫(yī)學(xué)專業(yè)人員來說,利用計算機(jī)編程進(jìn)行數(shù)據(jù)分析是非常困難的。為了便于醫(yī)學(xué)專業(yè)人員利用機(jī)器學(xué)習(xí)方法進(jìn)行醫(yī)學(xué)數(shù)據(jù)分析和醫(yī)學(xué)研究,本文設(shè)計了一個基于Web的醫(yī)學(xué)數(shù)據(jù)分析軟件,在客戶端以用戶友好的方式接收用戶提交的數(shù)據(jù)和參數(shù),在服務(wù)器端運(yùn)行基于R語言的機(jī)器學(xué)習(xí)算法對數(shù)據(jù)進(jìn)行挖掘分析,并將結(jié)果以用戶友好的方式在客戶端展示給用戶。隨機(jī)森林方法是一種流行的機(jī)器學(xué)習(xí)方法,已經(jīng)被廣泛地應(yīng)用于生物醫(yī)學(xué)與生物信息學(xué)研究。本文以Ⅱ型糖尿病臨床數(shù)據(jù)為對象,以隨機(jī)森林分類和預(yù)測算法為工具,對所設(shè)計的軟件系統(tǒng)原型進(jìn)行模擬實現(xiàn)。實驗結(jié)果顯示,本軟件系統(tǒng)能夠有效地完成醫(yī)學(xué)臨床數(shù)據(jù)的挖掘分析任務(wù),并可以容易地擴(kuò)展到其他醫(yī)學(xué)數(shù)據(jù)和機(jī)器學(xué)習(xí)算法。

        1 方法和原理

        1.1 隨機(jī)森林

        隨機(jī)森林(Random Forest, RF)是由Breiman于2001年提出的一種集成機(jī)器學(xué)習(xí)算法,目前已成為機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域最流行的分類與回歸算法之一。RF算法結(jié)合了隨機(jī)重采樣和隨機(jī)子空間技術(shù),利用bootstrap采樣技術(shù)從原始樣本中抽取多個樣本,對每個bootstrap樣本進(jìn)行決策樹建模,在訓(xùn)練決策樹進(jìn)行節(jié)點分裂時,從一個屬性子集中隨機(jī)選取一個屬性進(jìn)行分割,最后組合多個決策樹預(yù)測,通過多數(shù)投票的方式確定最終的分類或預(yù)測結(jié)果。隨機(jī)森林分類器是由一系列的決策樹分類器h(x,θk)構(gòu)成,其中,θk是服從獨(dú)立同分布的隨機(jī)向量,每個決策樹分類器對于特定的輸入給出獨(dú)立的分類,并對最終分類結(jié)果進(jìn)行投票。隨機(jī)森林生成步驟如下:

        1)從原始訓(xùn)練數(shù)據(jù)中應(yīng)用bootstrap采樣法有放回地隨機(jī)抽取k個新的自助樣本集,并由此構(gòu)建k棵決策回歸樹(Decision and Regression Tree,CART),每次未被抽到的樣本組成k個袋外數(shù)據(jù)(out-of-bag, OOB)。

        2)設(shè)原始數(shù)據(jù)集中共有n個變量,則在訓(xùn)練每一棵CART樹進(jìn)行節(jié)點分裂時,隨機(jī)抽取mtry個變量(mtry≤n)進(jìn)行計算,然后在mtry個變量中選擇一個最具有分類能力的變量用于節(jié)點分割。

        3)每棵CART樹最大限度地生長,不做任何剪裁。

        4)生成的k棵CART樹組成隨機(jī)森林,用森林中的每棵樹為OOB中的樣本進(jìn)行分類。

        5)統(tǒng)計每個類別獲得的投票數(shù),得票數(shù)最多的類別被認(rèn)為是被測樣本的類別。

        相對于其他機(jī)器學(xué)習(xí)算法,隨機(jī)森林方法具有很多優(yōu)點:首先,它能處理多種數(shù)據(jù)類型,包括定性的數(shù)據(jù)和定量的數(shù)據(jù);第二,它能夠生成變量重要性分?jǐn)?shù),可以用于特征選擇,尤其適用于疾病危險因素分析,便于用戶理解疾病各種危險因素的相對重要性;第三,它能生成內(nèi)部無偏估計的分類器,具有非常好的分類性能;第四,它對于噪聲數(shù)據(jù)和存在缺失值的數(shù)據(jù)具有很好的魯棒性;最后,它具有較快的學(xué)習(xí)速度,對于大規(guī)模數(shù)據(jù)集來說,計算時間是合適的。近年來,隨機(jī)森林已經(jīng)成為機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域的研究熱點。

        本系統(tǒng)在服務(wù)器端直接調(diào)用R平臺上的隨機(jī)森林算法的一個具體實現(xiàn)randomForest(version 4.6-7)進(jìn)行數(shù)據(jù)挖掘分析,并將結(jié)果在客戶端使用網(wǎng)頁進(jìn)行展示。

        1.2 變量重要性評分

        隨機(jī)森林的每一棵分類樹為二叉樹,根節(jié)點包含全部訓(xùn)練數(shù)據(jù),按照節(jié)點不純度最小原則分裂。若節(jié)點n上的分類數(shù)據(jù)全部來自于同一類別,則此節(jié)點的不純度I(n)=0。不純度度量方法是Gini準(zhǔn)則,即假設(shè)p(ωj)是節(jié)點n上屬于ωj類樣本個數(shù)占訓(xùn)練樣本總數(shù)的頻率,則Gini準(zhǔn)則表示為[6]

        ).

        (1)

        設(shè)原始樣本含量為N,表示各特征的變量為x1,x2,…,xm。應(yīng)用bootstrap法有放回地隨機(jī)抽取b個新的自助樣本,并由此形成b個分類樹,每次未被抽到的樣本則組成b個袋外數(shù)據(jù)。袋外數(shù)據(jù)作為測試樣本可以用來評估各個變量在分類中的重要性,實現(xiàn)過程如下:

        1)用自助樣本形成每一個樹分類器,同時對相應(yīng)的OOB進(jìn)行分類,得到b個自助樣本OOB中每一個樣品的投票分?jǐn)?shù),記為rate1, rate2, …, rateb。

        2)將變量xi的數(shù)值在b個OOB樣本中的順序隨機(jī)改變,形成新的OOB測試樣本,然后用已建立的隨機(jī)森林對新的OOB進(jìn)行分類,根據(jù)判別正確的樣品數(shù)得到每一個樣本的投票分?jǐn)?shù),所得結(jié)果可以表示為

        (2)

        3)用rate1, rate2, …, rateb與式(2)對應(yīng)的第i行向量相減,求和平均后再除以標(biāo)準(zhǔn)得變量xi的重要性評分,即

        (3)

        2 系統(tǒng)設(shè)計與實現(xiàn)

        rJava是一個R語言和Java語言的通信接口,通過底層JNI實現(xiàn)調(diào)用,允許在R中直接調(diào)用Java的對象和方法。rJava還提供了Java調(diào)用R的功能,是通過JRI(Java/R Interface)實現(xiàn)的。JRI現(xiàn)在已經(jīng)被嵌入到rJava的包中,rJava包已經(jīng)成為基于Java開發(fā)R包的基礎(chǔ)功能組件。

        2.1 系統(tǒng)實現(xiàn)

        由于rJava是底層接口,并使用JNI作為接口調(diào)用,所以效率非常高。在JRI的方案中,JVM直接通過內(nèi)存加載RVM,調(diào)用過程性能幾乎無損耗,因此,是非常高效的連接通道,是R和Java通信的首選開發(fā)包。

        系統(tǒng)實現(xiàn)所涉及到的軟件工具包括:R服務(wù)器為R version 3.0.2,隨機(jī)森林算法為RandomForest version 4.6-7,Web客戶端開發(fā)環(huán)境為MyEclipse 2016 Stable 1.0,Web服務(wù)器為Tomcat 7.0,數(shù)據(jù)庫為MySQL 5.6.24,系統(tǒng)的體系結(jié)構(gòu)如圖1所示。

        圖1 基于R的數(shù)據(jù)分析Web系統(tǒng)結(jié)構(gòu)

        在圖1中,普通用戶可以在Web客戶端提交需要進(jìn)行挖掘分析的原始數(shù)據(jù)集,并選擇合適的機(jī)器學(xué)習(xí)算法(隨機(jī)森林等)以及算法參數(shù),提交任務(wù)后將數(shù)據(jù)打包發(fā)送給Web服務(wù)器,Web服務(wù)器再調(diào)用R服務(wù)器上的機(jī)器學(xué)習(xí)算法進(jìn)行數(shù)據(jù)挖掘分析,并將最終的結(jié)果通過Web服務(wù)器傳遞給Web客戶端進(jìn)行顯示。

        2.2 系統(tǒng)分析實驗

        用戶可以在客戶端上傳數(shù)據(jù)文件、選擇機(jī)器學(xué)習(xí)算法以及設(shè)置參數(shù)等,并可以查看數(shù)據(jù)分析結(jié)果,如生成的隨機(jī)森林分類模型及其分類性能、變量的相對重要性分?jǐn)?shù)等。

        數(shù)據(jù)來自于黑龍江省某醫(yī)院的糖尿病臨床數(shù)據(jù),原始的數(shù)據(jù)集中包括患者的性別、年齡、身高、體重、腰圍、臀圍等自然信息;糖尿病病史、飲酒史、吸煙史等病史信息;血糖、胰島素、膽固醇、甘油三酯、脂蛋白等生化信息。

        系統(tǒng)的效果如圖2所示。

        為了提高數(shù)據(jù)分析的準(zhǔn)確性,對原始的數(shù)據(jù)進(jìn)行預(yù)處理,包括刪除部分信息不完整和重復(fù)的數(shù)據(jù),對數(shù)值數(shù)據(jù)進(jìn)行正則化和離散化處理。最終,測試數(shù)據(jù)中包括1 910個樣本和46個變量,以樣本患者是否患有外周動脈疾病作為目標(biāo)變量,執(zhí)行機(jī)器學(xué)習(xí)算法訓(xùn)練分類器。

        圖2 基于R的數(shù)據(jù)分析Web系統(tǒng)實現(xiàn)效果

        3 比較驗證

        本模型采用5次交叉驗證的方式比較Logistic回歸模型、決策樹(C5.0)算法、支持向量機(jī)(support vector machine,SVM)算法以及隨機(jī)森林算法這四種方法,建立分類模型的工作性能,如表1所示。每次實驗都是隨機(jī)選取數(shù)據(jù)測試集和樣本集,最后取10次實驗平均值分別計算出分類器的準(zhǔn)確性(Accurary)、敏感性(Sensitivity)和特異性(Specificity),準(zhǔn)確性就是預(yù)測正確的比例,敏感性實際上就是真陽性率,特異性衡量的是該模型預(yù)測對個體特異性變化的應(yīng)變能力。從實驗結(jié)果和對分類器的評估可以看出,選用隨機(jī)森林方法更接近于真實情況,真陽性率比較高,達(dá)到了94%,其準(zhǔn)確性、特異性也都高于其他機(jī)器學(xué)習(xí)算法。由此可說明,本文所提出的軟件設(shè)計方案是可行的。

        表1 相同測試集下4種不同算法工作性能的比較

        4 結(jié)束語

        本文設(shè)計并實現(xiàn)一款基于R的醫(yī)學(xué)數(shù)據(jù)分析軟件,采用Web結(jié)構(gòu),在客戶端接收用戶數(shù)據(jù)和參數(shù),顯示數(shù)據(jù)分析結(jié)果;在服務(wù)器端調(diào)用R算法包進(jìn)行數(shù)據(jù)挖掘分析,采用rJava包實現(xiàn)R語言與Java語言的通信。該軟件系統(tǒng)克服了R平臺命令行操作和編程不利于醫(yī)學(xué)專業(yè)人員使用的缺點,以用戶友好、易學(xué)易用的操作界面為非計算機(jī)專業(yè)用戶提供便捷的數(shù)據(jù)分析服務(wù)。通過真實的糖尿病臨床數(shù)據(jù)和隨機(jī)森林算法對系統(tǒng)進(jìn)行測試,表明該設(shè)計方案是可行的。當(dāng)然,本文只是實現(xiàn)了一個系統(tǒng)原型,集成更多的機(jī)器學(xué)習(xí)算法并在更多的醫(yī)學(xué)臨床數(shù)據(jù)上對系統(tǒng)進(jìn)行測試,是下一步的研究方向。

        [1] MAROCO J, SILVA D, RODRIGUES A, et al. Data mining methods in the prediction of Dementia: A real-data comparison of the accuracy, sensitivity and specificity of linear discriminant analysis, logistic regression, neural networks, support vector machines, classification trees and random forests[M]. BMC Research Notes,2011,4:1-14.

        [2] KHALILIA M, CHAKRABORTY S, POPESCU M. Predicting disease risks from highly imbalanced data using random forest[M]. BMC Medical Informatics and Decision Making, 2011,11: 51.

        [3] ZHAN X, YAO D, ZHAN X. Exploring a Novel Method Among Data Mining Methods and Statistical Methods to Analyse Risk Factors of Peripheral Arterial Disease In Type 2 Diabetes Mellitus [J]. International Journal of Digital Content Technology & Its Applications, 2012, 6(23):243-253.

        [4] BREIMAN L. Random forests[J]. Machine Learning, 2001, 45: 5-32.

        [5] 武曉巖, 李康. 隨機(jī)森林方法在基因表達(dá)數(shù)據(jù)分析中的應(yīng)用及研究進(jìn)展[J]. 中國衛(wèi)生統(tǒng)計, 2009, 26(4):437-440.

        [6] VERIKAS A, GELZINIS A, BACAUSKIENE M. Mining data with random forests: A survey and results of new tests[J]. Pattern Recognition, 2011, 44: 330-349.

        [7] YAO D, YANG J, ZHAN X, et al. A novel random forests-based feature selection method for microarray expression data analysis [J]. International Journal of Data Mining & Bioinformatics, 2015, 13(1):84-101.

        [8] 周屹, 辛壯, 方志民,等. 基于自然交互的教學(xué)輔助系統(tǒng)研究與設(shè)計[J]. 黑龍江工程學(xué)院學(xué)報, 2015(6):38-40.

        [責(zé)任編輯:郝麗英]

        Design of data analysis software based on random forest algorithm

        ZHOU Yi1,FENG Zhaoxiang1,BAI Xizhuo2,JIA Zhiyi1,DAI Yangyang1,SHENG Xinyu1

        (College of Computer Science and Technology, Heilongjiang Institute of Technology, Harbin 150050, China)

        Random forest is a popular machine learning method, which has been widely used in biomedicine and bioinformatics. For the inherent characteristics of the high dimension of medical data sets, the paper designs a software system of medical data analysis based on random forest algorithm. Based on Web architecture, for the client, the system adopts Java language programming Web pages for receiving original dataset and arguments submitted by users and showing the results of data analysis. For the server, R language is used for implementing machine learning algorithms and performing data analyzing. Finally, the system has user-friendly interface and is easy to use and implement the random forest algorithm calling in Web client for medicine clinical data analysis easily extended to other machine learning methods calling.

        machine learning; data mining; random forest; Java language; R language

        2017-01-03

        黑龍江省大學(xué)生創(chuàng)新訓(xùn)練項目(201611802087);黑龍江省大學(xué)生創(chuàng)業(yè)訓(xùn)練項目(201611802098);國家自然科學(xué)基金項目(20154424)

        周 屹(1971-),女,教授,研究方向:計算機(jī)應(yīng)用.

        TP391.3

        A

        1671-4679(2017)03-0038-04

        猜你喜歡
        分類器數(shù)據(jù)挖掘客戶端
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        縣級臺在突發(fā)事件報道中如何應(yīng)用手機(jī)客戶端
        傳媒評論(2018年4期)2018-06-27 08:20:24
        孵化垂直頻道:新聞客戶端新策略
        傳媒評論(2018年4期)2018-06-27 08:20:16
        基于Vanconnect的智能家居瘦客戶端的設(shè)計與實現(xiàn)
        電子測試(2018年10期)2018-06-26 05:53:34
        BP-GA光照分類器在車道線識別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
        免费成人福利视频| 亚洲av国产av综合av卡| 一区二区三区中文字幕在线观看| 成人国产一区二区三区av| 午夜精品久久久久久久久| 亚洲中文字幕无码爆乳| 亚洲V在线激情| 人妖与人妖免费黄色片| 草草影院ccyy国产日本欧美| 黑人巨大无码中文字幕无码| 亚洲AⅤ精品一区二区三区| 亚洲在中文字幕乱码熟女| 丁香五月缴情在线| 国产精品成人国产乱| 91热久久免费精品99| av毛片在线播放网址| 青青草手机在线免费观看视频| 亚欧色一区w666天堂| 久久国产自偷自免费一区100| 蜜桃视频中文字幕一区二区三区| 一本之道久久一区二区三区| 久久er99热精品一区二区| 亚洲aⅴ无码国精品中文字慕| 一级a免费高清免在线| 亚洲av无码国产精品色软件| 亚洲精品中文字幕无码蜜桃| 国产成人精品日本亚洲直播| 国产一区二区视频免费| 永久免费人禽av在线观看| 中文无码成人免费视频在线观看| 精品18在线观看免费视频| 蜜桃在线一区二区三区| 人妻免费一区二区三区免费| 亚洲精品国偷拍自产在线麻豆| 久久频精品99香蕉国产| 粉色蜜桃视频完整版免费观看在线 | 久久韩国漫画无删减漫画歪歪漫画| 亚洲国产精品夜男人天堂| 欧美精品无码一区二区三区| 99久久人人爽亚洲精品美女 | 成人综合网亚洲伊人|