亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        隨機森林在阿爾茨海默病患病分析中的應用

        2018-05-11 09:50:28姜博原劉麗
        科技視界 2018年6期
        關鍵詞:隨機森林阿爾茨海默病降維

        姜博原 劉麗

        【摘 要】基于隨機森林算法能夠對阿爾茨海默病患病的情況進行分析。通過去除常量、基于有監(jiān)督學習的特征選擇及相關數據檢測,對人體各項指標的數據進行合理的降維處理。創(chuàng)建基于隨機森林的分類器,將其應用于阿爾茨海默病患病分析,利用降維后有效的特征屬性得到的結果可以反應患病情況和診斷狀況。

        【關鍵詞】隨機森林;決策樹;降維;阿爾茨海默病

        中圖分類號: F273.2 文獻標識碼: A 文章編號:2095-2457(2018)06-0088-002

        【Abstract】Based on the random forest algorithm, we can analyze the prevalence of Alzheimers disease. Through the removal of constants, feature selection based on supervised learning, and related data detection, the data on the human bodys indexes are rationally reduced. A random forest-based classifier was created and applied to the analysis of Alzheimers disease. The results obtained by using the effective characteristic attributes after dimension reduction can reflect the prevalence and diagnosis.

        【Keywords】Random forest; Decision tree; Dimension reduction; Alzheimers disease

        1 理論基礎

        隨機森林是由Leo Breiman(2001)提出的一種比較新的機器學習模型[1]。它是由多個隨機創(chuàng)建的決策樹所構成的分類器,因此,決策樹之間不存在必然聯(lián)系,所以被稱為隨機決策樹。當隨機森林收到數據時,將通過所有決策樹依次對數據進行分類,從而得到與決策樹個數相同的分類結果數,然后把全部分類結果中出現次數最多的類別作結果。因此,它是一個通過投票方式,將票數最多結果作最終結果的分類器。

        1.1 Bootstrap法重采樣

        設樣本集S*中含有n個不同的樣本{X1,X2,…,Xn},假設有放回地從樣本集S中每次抽取一個樣本,總共抽取n次,組成新的樣本集S*,那么樣本集S*中不包含某個樣本Xi(i=1,2,…,n)的概率為

        因此,雖然新集合S*的樣本總量與原集合S的樣本總量相等(都為n),但是在新集合S*中,由于采用有放回的方法抽取,因此存在重復樣本,如果去除重復樣本,那么新集合S*中只包含了原集合S中約1-0.368×100%=63.2%的樣本總量。

        1.2 Bagging算法概述

        Bagging(Bootstrap aggregating的縮寫)算法是最早的集成學習算法[2]。它的基本思想如圖1所示,具體的步驟如下:

        (1)使用Bootstrap方法,在允許重復抽取樣本的前提下,隨機產生T個可用于建立模型的訓練集S1,S2,…,Sn;

        (2)通過隨機產生的訓練集,建立決策樹模型C1,C2,…,Cn;

        (3)利用全部決策樹模型,對測試集X進行測試,并得到所有決策樹的最優(yōu)解C1(X),C2(X),…,Cn(X);

        (4)通過投票的方法,把全部最優(yōu)解中出現次數最多解作為測試集X的最優(yōu)解。

        1.3 隨機森林算法流程

        隨機森林是一種集成樹形分類器,它采用 bootstrap 采樣,從原始訓練集中得到多個訓練子集[3-4]。兩者的區(qū)別是,隨機森林算法采用了隨機抽取分裂特征集的方法構建決策樹。設M,m大于零,樣本特征的個數為M,M大于m,具體的隨機森林算法步驟如下所示:

        (1)利用Bootstrap方法從原始樣本集中隨機抽取T個訓練集S1,S2,…,Sn[5]。

        (2)利用T個訓練集,構建相應的決策樹模型C1,C2,…,CT;設每棵決策樹有M個特征,從這些特征中隨機選取m個特征進行測試,然后獲得這m個特征中的最優(yōu)解,最后對這個最優(yōu)解進行分裂。

        (3)不對決策樹模型進行簡化處理,忽略過度擬合,允許它完整生長。

        (4)利用每個決策樹對測試集X進行處理,得到對應的最優(yōu)解C1(X),C2(X),…,CT(X)。

        (5)用投票的方法處理T個決策樹中出現的最優(yōu)解,把出現次數最多的最優(yōu)解作為測試集X的測試結果。

        2 隨機森林在阿爾茨海默病患病分析中的應用

        2.1 問題描述

        選取來自某醫(yī)學論壇與阿爾茨海默病相關的人體各項指標檢測的數據。數據中包含了大量各項人體指標,這些數據都可能與阿爾茨海默病存在聯(lián)系。由于研究對象為高維矩陣,面臨維數災難問題,因此,需要對該高維矩陣進行降維處理,篩選出與阿爾茨海默病關聯(lián)性較強的數據,并建立一個確定的模型來描述高維矩陣中各個量化特征與阿爾茨海默病之間的關系,從而可以根據降維后各項人體指標的量化特征得出被檢測人員的阿爾茨海默病的患病情況。

        2.2 建模過程

        2.2.1 設計思路

        首先對阿爾茨海默病的數據進行降維,將降維后的數據作為模型的輸入數據,正常和患病作為模型的輸出結果。利用訓練集數據構建隨機森林模型,然后通過仿真測試獲得相應結果并進行整理分析。

        2.2.2 設計步驟

        根據上述設計思路,設計基于隨機森林算法對阿爾茨海默病患病情況的分析步驟主要包括以下幾個部分,如圖2所示。

        2.2.3 數據采集

        數據來源于某醫(yī)學論壇與阿爾茨海默病相關的人體各項指標檢測的的數據集,共包括10000個檢測結果,第238列為目標列。通過常量篩選和有監(jiān)督學習的特征選擇降維后剩3000個檢測結果,第238列仍為目標列,如圖3所示。隨機抽取300組數據作為測試集,其余2700組數據作為訓練集。

        2.2.4 數據降維

        利用SPSS實現常量去除,實現初步降維,利用SPSS Modeler實現有監(jiān)督學習的特征選擇,獲取有效特征屬性,實現特征降維。

        2.2.5 隨機森林分類器

        以訓練數據為依據,在數據獲取和數據降維完成后,構建一個隨機森林分類器,使用randomforest-matlab工具箱中的方法classRF_train()。其調用格式為:

        model=classRF_train(X,Y,ntree,mtry,extra_options)

        上述方法中,X表示輸入的數據;Y表示輸出的數據;ntree表示決策樹個數;mtry表示做分裂處理的特征集中元素的個數;extra_options表示可控參數;model表示當前采用的隨機森林模型。

        2.2.6 仿真測試

        完成對隨機森林的構建后,開始進行仿真測試,通過使用randomforest-matlab工具箱中的方法classRF_predict()。其調用格式為:

        [Y_hat,votes]=classRF_predict(X,model,ext_options)

        上述方法中,Y_hat表示測試集樣本的類別;votes用于記錄每一個類別獲得的票數;X表示待輸入的測試集樣本,它的行表示單個樣本,它的列表示單個變量;model表示當前采用的隨機森林模型;extra_options表示可控參數。

        2.2.7 輸出結果

        利用隨機森林模型進行仿真測試的輸出結果,如圖4所示,可以得到正常者和患病者的人數,并能得到誤診率(包括正常和患病被誤診為另一項),從而可以對該方法的可行性進行評價。同時,也可以與其他仿真方法結果進行比較,探討該方法的有效性。

        3 性能分析

        這里僅在默認的決策樹棵樹(500)情況下進行分析討論。這里用一個布爾型問題進行闡述,因此隨機森林中的決策樹的輸出類別只有兩種(1:患病,-1:正常)。如圖5所示,橫軸表示所有決策樹中,輸出結果為1的決策樹數量;縱軸表示輸出結果為-1的決策樹數量。理想狀態(tài)下,對于某一個樣本而言,其在圖5上的坐標p(x,y)總體上應滿足以下關系:

        x+y=500(3)

        并且,如果隨機森林對該樣本的預測類別與真實的類別一致,則在圖中用“o”標記;反之,則用“*”標記。

        3.1 錯誤分類樣本個數

        一個具有較好泛化性能的隨機森林分類器,其錯誤分類的樣本數應該越少越好;若一個隨機森林分類器對于很多個樣本都不能正確地分類,顯然這個(下轉第40頁)(上接第89頁)隨機森林分類器的泛化性能是有待商討的。

        3.2 錯誤分類樣本的位置

        從理論上分析,如果圖像中被錯誤分類的樣本分散在函數圖像附近,即仿真測試結果中,決策樹輸出為1的類別和-1的類別數量基本相同,那么,這樣的錯誤樣本是可以被允許的,此時的隨機森林泛化性良好。

        相反,如果偏離函數圖像的樣本都為錯誤分類的樣本,說明在當前隨機森林模型中,輸出結果為1和-1的決策樹數量相差較大,并且被錯誤分類。這種結果被認為是不合理的,因為當前隨機森林模型無法對訓練集以外的數據集進行良好分類。

        3.3 隨機森林棵樹

        隨機森林中構建的決策數量,對其泛化性也有一定影響。為了分析隨機森林的性能,需要盡量消除決策樹數量對結果造成的影響,因此,在確定決策樹數量后,依次建立100個隨機森林模型進行仿真測試,最終把當前決策樹數目下正確率的平均值,作為當前分類的正確率。

        對于本次測試數據,經過大量測試和分析,綜合考慮決策樹數量和建模速度對測試的影響,當決策樹數量在50~100時,所得分類結果較為理想。

        4 小結

        隨機森林能夠通過對與阿爾茨海默病相關的各項人體指標數據的仿真測試,分析預測是否患有阿爾茨海默病,但由于分類樣本結果在一定程度上偏離相關函數,因此,這個隨機森林分類器無法很較好的對訓練集之外的數據集進行正確分類,我們后期將會繼續(xù)改進。同時分析預測性能受決策樹棵樹影響,因此,我們也會加強對隨機森林的性能分析的研究,確定隨機森林中最優(yōu)的決策樹棵樹,以便獲得更加準確的結果。此外,不少專家對隨機森林做了不少改進和完善,并且取得了豐碩的研究成果。也有一些學者嘗試將隨機森林思想與其他分類器相結合,也取得了不錯的進展,因此,在以后,我們也將做一些嘗試和深入研究。

        【參考文獻】

        [1]蘇亞麟,呂開云.基于隨機森林算法的特征選擇的水稻分類——以南昌市為例[J].江西科學,2018,01(36):161-167.

        [2]Beriman L.Bagging predictors[J].Machine Learning,1996,24(2):123-140.

        [3]全雪峰.基于隨機森林的乳腺癌計算機輔助診斷[J].軟件,2017,03(38):57-59.

        [4]朱煒,李東,沈飛,湯根云,吳建明,陳繼民,劉政,王志輝.高光譜遙感森林樹種分類研究進展[J].浙江林業(yè)科技,2013,02(33):84-90.

        [5]方匡南,吳建彬,朱建平,謝邦昌.隨機森林研究方法綜述[J].統(tǒng)計與信息論壇,2011,26(3):32-37.

        猜你喜歡
        隨機森林阿爾茨海默病降維
        Three-Body’s epic scale and fiercely guarded fanbase present challenges to adaptations
        降維打擊
        海峽姐妹(2019年12期)2020-01-14 03:24:40
        隨機森林在棉蚜蟲害等級預測中的應用
        基于二次隨機森林的不平衡數據分類算法
        軟件(2016年7期)2017-02-07 15:54:01
        拱壩變形監(jiān)測預報的隨機森林模型及應用
        基于內容分析法對阿爾茨海默病患者居家照護概念的解析
        瑣瑣葡萄多糖對阿爾茨海默病模型大鼠行為學和形態(tài)學的影響
        HSP70敲低對AD轉基因果蠅的神經保護作用
        功能磁共振成像在輕度認知障礙患者中的應用研究進展
        基于隨機森林算法的飛機發(fā)動機故障診斷方法的研究
        日本老年人精品久久中文字幕| 成人区人妻精品一区二区不卡网站| 少妇脱了内裤让我添| 国产伦精品一区二区三区四区| 黄片亚洲精品在线观看| 青青草国产在线视频自拍| 国产女主播精品大秀系列| 草莓视频一区二区精品| 男女男生精精品视频网站| 日韩精品中文一区二区三区在线| 国产精品毛片一区二区| 亚洲视频99| 青青青视频手机在线观看| 久久777国产线看观看精品| 麻豆精品久久久久久久99蜜桃| 免费一本色道久久一区| 亚洲国产综合精品中文| 精品国产三级a∨在线欧美| 18成人片黄网站www| 亚洲性69影视| 新久久国产色av免费看| 精品久久久久香蕉网| 一级免费毛片| 视频福利一区二区三区| 在线免费观看一区二区| 国产成人免费一区二区三区| 国产成人精品三上悠亚久久| 黄色潮片三级三级三级免费| 久久精品中文闷骚内射| 亚洲av无码乱码国产麻豆穿越| 国产综合一区二区三区av| 人妻久久一区二区三区蜜桃| 国产成人一区二区三区影院动漫| 国产亚洲精品日韩综合网| 狠狠综合久久av一区二区三区| 国产三级精品三级| 亚洲视频毛片| 中文字幕被公侵犯的丰满人妻| 国产精品国产亚洲精品看不卡 | 亚洲av天天做在线观看| 精品91亚洲高清在线观看|