亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        隨機森林的變量捕獲方法在高維數(shù)據(jù)變量篩選中的應用*

        2015-03-09 06:52:14宋欠欠李軼群侯艷李
        中國衛(wèi)生統(tǒng)計 2015年1期
        關鍵詞:高維模擬實驗排序

        宋欠欠李軼群侯 艷李 康△

        隨機森林的變量捕獲方法在高維數(shù)據(jù)變量篩選中的應用*

        宋欠欠1李軼群2侯 艷1李 康1△

        目的探討隨機森林(RF)的變量捕獲方法在高維數(shù)據(jù)變量篩選中的應用。方法通過模擬實驗和實際數(shù)據(jù)分析,對兩種變量捕獲(vh.md,vh.vimp)和逐步剔除方法(varSelRF)進行比較,并通過選入變量的數(shù)目、模型預測錯誤率(PE)和受試者工作特征曲線下面積(AUC)對其進行評價。結果模擬實驗表明,在變量具有聯(lián)合作用、交互作用和弱獨立作用情況下,變量捕獲方法均明顯優(yōu)于varSelRF方法和全變量VIMP排序方法;實際數(shù)據(jù)分析結果表明,變量捕獲方法篩選變量結果穩(wěn)定,并能夠保證良好的預測效果。結論變量捕獲方法適用于高維數(shù)據(jù)的變量篩選,具有實用價值。

        隨機森林 變量篩選 變量捕獲

        高通量組學技術的迅速發(fā)展促進了研究者們從分子水平上研究疾病的發(fā)生和發(fā)展過程,成為生物學研究的有力工具。另一方面,高維組學數(shù)據(jù)的特點使得傳統(tǒng)的方法不再可行,對統(tǒng)計學和生物信息學數(shù)據(jù)分析提出了重大挑戰(zhàn)。近年來,隨機森林(random forest,RF)方法在高維組學中得到廣泛應用,它是一個非參數(shù)的基于樹的組合分類器(模型),能夠有效地處理高維變量問題[1]。RF的重要特點是可以對變量的重要性進行排序,識別與疾病有關的基因、蛋白、代謝物等生物標志物,同時能夠對數(shù)據(jù)進行分類。然而,通常情況下組學數(shù)據(jù)變量數(shù)目巨大(如m>2000),且對預測有作用的變量數(shù)目p占總變量數(shù)目m的比例很小(如p/m<0.05),建立的RF模型容易受到對分類不起作用變量的干擾,使變量重要性排序和分類效果下降,甚至完全失效[2-6]。為此,Ishwaran等人給出了變量捕獲(variable hunting)方法[7-9],用來解決這一問題。本文在簡要介紹這一方法的基礎上,通過模擬實驗和實際數(shù)據(jù)探索其適用性,并與直接使用RF方法及目前使用較多的變量逐步剔除方法(backwards variable elimination using random forests,varSelRF)進行比較[10]。

        原理與方法

        1.隨機森林的基本思想

        RF的基本思想是通過自助法(bootstrap)重抽樣技術從原始數(shù)據(jù)中有放回的隨機抽取Ntree個自助樣本,作為訓練樣本,對每個樣本都建立一個二元遞歸分類樹。每個自助樣本平均不包含37%的原始數(shù)據(jù),將這些數(shù)據(jù)稱為袋外數(shù)據(jù)(out of bag data sets,OOB)并作為RF的測試樣本;最后,由訓練樣本生成Ntree個分類樹組成隨機森林,根據(jù)分類樹的投票確定測試樣本的分類結果[1-2]。變量的篩選可以依據(jù)不同的統(tǒng)計量和篩選過程。

        2.衡量變量重要性的統(tǒng)計量

        (1)VIMP統(tǒng)計量 計算置換變量的重要性(permutation variable important,VIMP)。具體地,測量一個變量Xi(i∈1,2,…,m)的重要性,首先建立樣本數(shù)據(jù)的隨機森林(RF),然后對所有OOB樣本中這個變量的值進行隨機打亂,并根據(jù)建立好的RF模型對每一個體所屬類別進行預測,計算該變量擾亂前后OOB的預測錯誤率的改變大小。對于所有的樹,變量擾亂前后OOB預測錯誤率改變的平均值作為置換變量的重要性評分[1,4]。

        (2)最小深度統(tǒng)計量 從樹的根結點到最近的變量Xi的最大子樹的根結點的距離稱為變量Xi的最小深度。變量Xi的最大子樹越接近根節(jié)點,其預測作用越大。最小深度的分布和變量篩選的閾值都可以計算出來[8-9]。在高維數(shù)據(jù)中,假設變量與分類變量無關,D(ζ)是樹ζ的深度,其概率分布為

        其中l(wèi)d等于深度為d時非終節(jié)點的數(shù)目,m為變量的數(shù)目。

        3.變量捕獲方法

        這是一種再抽樣和向前選擇變量的方法,由Ishwaran等人提出[8-9]。首先,從數(shù)據(jù)中隨機抽取一個子集(如五折抽樣,其中四份為訓練樣本,其余一份為預測樣本),同時隨機選擇一部分變量(如m/5);應用選擇的數(shù)據(jù)和變量構建RF,變量排序可以使用VIMP統(tǒng)計量(variable hunting with variable importance,vh.vimp)或最小深度統(tǒng)計量(variable hunting with minimal depth,vh.md)。選擇最小深度閾值作為最初的模型,然后根據(jù)最小深度或VIMP的排序將變量逐步增加到最初的模型中,直到模型的聯(lián)合VIMP統(tǒng)計量穩(wěn)定為止,并作為最終模型。聯(lián)合VIMP統(tǒng)計量的計算原理同前,但需要同時置換多個變量。上述過程重復nrep次,計算平均篩選變量的個數(shù)(取近似整數(shù)值p),再根據(jù)各變量被篩選出來的頻率進行排序,選擇排列在前面的p個變量作為最終篩選出的重要變量。最后,應用篩選出的變量對樣本數(shù)據(jù)給出一個新的RF模型。

        上述過程可以使用R語言程序包randomForestSRC實現(xiàn)。

        模擬實驗

        實驗目的:構建具有不同作用的變量,并加入一定數(shù)目的噪聲變量,考察基于VIMP的變量捕獲方法(vh.vimp)和基于最小深度的變量捕獲方法(vh.md)的篩選效果,同時與目前使用較多的變量逐步剔除方法(varSelRF)和直接使用VIMP統(tǒng)計量排序方法進行比較。

        1.模擬實驗一

        實驗設置:設置3個具有聯(lián)合分類作用的變量X1,X2,X3,且均為二分類編碼(1表示高表達,0表示低表達),3個變量有8種不同的組合方式,不同組合出現(xiàn)的概率不同,并與取值是否為“1”或“0”有極強的關系,如圖1所示。按照這種方式隨機產生2組上述聯(lián)合分類變量,即X1,X2,…,X6,其中X4,X5,X6,產生方式同X1,X2,X3,且各變量對于分類貢獻等同。隨機產生2000個標準正態(tài)分布噪聲變量Z~N(0,1),疾病組(D=1)與對照組(D=0)的樣本含量設置為n1=n2=50,形成模擬數(shù)據(jù)。同時產生兩組樣本量均為200的測試數(shù)據(jù)集。

        圖1 二分類聯(lián)合作用變量的模擬數(shù)據(jù)產生示意圖

        模擬方法:應用vh.vimp、vh.md和varSelRF程序對訓練數(shù)據(jù)進行變量篩選,并使用所有變量應用VIMP對其進行排序,記錄前10(vimp10)、25(vimp25)和50(vimp50)個變量中含有設定的差異變量的情況。根據(jù)篩選出的變量計算變量篩選的假發(fā)現(xiàn)率(false discovery rate,F(xiàn)DR),同時應用篩選后的訓練數(shù)據(jù)建立RF模型,并對預測數(shù)據(jù)進行預測,應用預測誤分錯誤率(predicted error rate,PE)和ROC曲線下面積(area under the receiver operating characteristic curve,AUC)進行評價。模擬重復100次,結果見表1。

        模擬結果:表1給出了varSelRF、vh.vimp和vh.md在模擬實驗中篩選的變量個數(shù)、包含差異變量的個數(shù)、假發(fā)現(xiàn)率和變量篩選前后隨機森林預測效果的評價統(tǒng)計量的平均值,同時給出了根據(jù)隨機森林全部變量VIMP的大小進行排序后選擇前10、25、50個變量時包含真實差異變量的情況。結果表明,在二分類聯(lián)合作用條件下,varSelRF、vh.vimp和vh.md均能篩選出較多的差異變量,而基于全部變量的VIMP排序則不能夠達到較好的變量篩選效果。同時注意到,varSelRF篩選的變量結果極不穩(wěn)定(四分位數(shù)間距為34),而vh.md方法雖然能夠篩選出所有的差異變量,但卻具有較高的FDR值??傊?,三種方法中vh.vimp方法篩選變量的FDR值最小,結果穩(wěn)定,其預測效果最好。

        表1 具有變量聯(lián)合作用時幾種變量篩選方法的模擬實驗結果

        2.模擬實驗二

        實驗設置:設置具有交互作用的變量。兩個差異變量Z1和Z2服從正態(tài)分布,疾病組服從Z1~N(1,1)和Z2~N(5,1),對照組服從Z1~N(0,1)和Z2~N(0,1),兩變量的相關系數(shù)為0.6。做變量變換X1=Z1,X2=Z2/Z1,即X1和X2具有一階交互作用。應用同樣方式,給出{X3,X4},{X5,X6},{X7,X8},{X9,X10},每個單變量AUC≈0.76。另外,隨機產生2000個服從標準正態(tài)分布的變量作為噪聲變量(n1=n2=50),形成模擬數(shù)據(jù),用于變量篩選和建立RF模型,同時產生兩組樣本量均為200的測試數(shù)據(jù)集用于變量篩選后RF模型的預測。模擬重復100次。

        表2給出了varSelRF、vh.vimp、vh.md和基于全部變量顯示VIMP排序方法在存在交互作用時模擬實驗情況。結果顯示,變量捕獲方法明顯優(yōu)于varSelRF方法,雖然varSelRF方法也能較好地篩選出差異變量,但其穩(wěn)定性上明顯不如前者,同時變量捕獲方法有更低的FDR值。由于設定的差異變量作用很強,在包含所有變量的VIMP方法中這些變量也排在了最前面。

        表2 具有變量交互作用時幾種變量篩選方法的模擬實驗結果

        3.模擬實驗三

        實驗設置:設置具有作用較弱且相互獨立的差異變量。病例組每個差異變量服從X~N(0.5,1)的正態(tài)分布,對照組服從標準正態(tài)分布X~N(0,1),每個單變量AUC≈0.62,共10個差異變量。在兩組中,隨機產生4000個正態(tài)分布噪聲變量X~N(0,1)。樣本量設置為n1=n2=50,形成模擬數(shù)據(jù),進行變量篩選并用篩選后數(shù)據(jù)建立RF模型,同時應用上述模擬產生200例測試數(shù)據(jù)用于評價RF模型,模擬重復100次。

        模擬結果:表3給出了varSelRF、vh.md、vh.vimp和基于全部變量的VIMP排序方法在模擬實驗中進行變量篩選的情況。結果顯示,varSelRF、vh.md和vh.vimp在一定程度上能夠達到變量篩選的效果,但漏選的變量較多。相比而言,兩種基于變量捕獲方法篩選的變量個數(shù)均比較穩(wěn)定,并具有較低的FDR值(FDR<0.45),而varSelRF篩選的變量個數(shù)較多且不穩(wěn)定,并有較高的FDR值。

        實例驗證

        選用課題組研究的四個代謝組數(shù)據(jù)進行分析,數(shù)據(jù)的基本情況如表4。利用7折交叉驗證方法,將實際數(shù)據(jù)劃分為訓練數(shù)據(jù)和測試數(shù)據(jù),使用隨機森林的兩種變量捕獲方法(vh.md,vh.vimp)和逐步剔除(varSelRF)方法,對訓練數(shù)據(jù)進行變量篩選,然后應用篩選后的訓練數(shù)據(jù)建立RF模型,對測試數(shù)據(jù)進行預測和評價。隨機重復10次7折交叉驗證,計算平均值。

        表3 具有變量弱獨立作用時幾種變量篩選方法的模擬實驗結果

        表4 實際代謝組數(shù)據(jù)的樣本分布情況

        表5給出了四個代謝組數(shù)據(jù)使用三種不同方法篩選的變量個數(shù)和預測情況。

        表5 隨機森林(RF)篩選變量的三種方法分析結果

        圖2 實際四組代謝組數(shù)據(jù)中應用三種篩選變量方法建立的RF預測結果

        結果顯示,三種方法篩選變量后建模,其預測能力與使用全部變量相近,vh.md和vh.vimp方法優(yōu)于varSelRF(圖2)。從變量篩選上看,varSelRF篩選的變量總數(shù)較少,vh.vimp在三種方法中篩選的變量個數(shù)適中,其四分位數(shù)間距最小,篩選變量的結果最為穩(wěn)定和可靠。

        討 論

        1.RF是一個組合決策樹方法,具有抗噪聲、防止過擬合、不受共線影響和能夠處理非線性數(shù)據(jù)等優(yōu)點,可用于高維組學數(shù)據(jù)的變量篩選和預測。在變量很多的情況下,RF變量篩選容易受大量無作用的噪聲變量的干擾,直接使用VIMP進行排序可能不準確,而且各變量之間的VIMP相互影響,無法用標準化的方法給出篩選變量的閾值。

        2.varSelRF方法是一種向后選擇變量的方法,其基本思想是不斷去除VIMP排在后面的變量,減少噪聲變量的干擾,使前面的變量排序更加準確,再不斷去除可能沒有作用的變量,選擇OOB錯誤率最小的變量集。這種方法的主要問題是,如果有比較多的差異變量,而且一些變量之間具有較強的相關性(信息重疊),遵照“最節(jié)省原則”,可能會使很多變量不能被選入RF模型。另外,如果數(shù)據(jù)中含有作用很大的變量,其他作用相對較弱的變量就不容易選入模型,從實例驗證可以清楚地看到這一點。模擬實驗中沒有顯示相應的結果,原因是設置的差異變量的作用相同。varSelRF方法的最大問題是篩選變量的結果不穩(wěn)定。

        3.相對而言,變量捕獲方法是一種更好的變量篩選方法。其基本思想是利用重抽樣方法不斷抽取一定比例的樣本,同時在所有變量中抽取一定數(shù)量的變量進行建模,核心是利用最小深度統(tǒng)計量的概率分布確定閾值,在此基礎上向前進行變量篩選。理論上,這種方法可以應用于任意高維變量的組學數(shù)據(jù)中,拓寬了RF的應用范圍。本文在模擬實驗中,應用FDR值進行變量篩選效果的評價,同時對基于篩選變量后的訓練數(shù)據(jù)建立RF模型,并使用預測錯誤率以及AUC值兩個指標進行預測效果評價。模擬實驗證實,即使在變量作用較弱的情況下,仍能夠保證篩選的變量具有較低的FDR值,特別是vh.vimp方法在本文中給出的各種情況下,篩選變量的穩(wěn)定性非常好,而且其篩選后變量的預測效果略優(yōu),結果更為可信。在實際數(shù)據(jù)分析中,本文應用篩選變量后的訓練數(shù)據(jù)建立RF模型并應用測試數(shù)據(jù)對篩選效果進行評價,結果表明vh.vimp和vh.md均在一定程度上優(yōu)于varSelRF方法。

        4.變量捕獲方法本質上是一種篩選變量的策略,篩選時可以使用不同的統(tǒng)計量。事實上,改變篩選變量過程的不同參數(shù),可以獲得不同數(shù)量的“差異變量”,如本文確定RF模型變量的數(shù)目是根據(jù)再抽樣樣本選入變量的平均值,實際中也可以設定其他參數(shù)(如P75)進行變量篩選。

        1.Breiman L.Random forests.Machine Learning,2001,45(1):5-32.

        2.武曉巖,李康.隨機森林方法在基因表達數(shù)據(jù)分析中的應用及研究進展.中國衛(wèi)生統(tǒng)計,2009,26(4):437-440.

        3.Wu X,Wu Z,Li K.Classification and identification of differential gene expression for microarray data:improvement of the random forest method.International Conference on Bioinformatics and Biomedical Engineering,2008.

        4.Wu X,Wu Z,Li K.Identification of differential gene expression form icroarray data using recursive random forest.Chinese Medical Journal,2008,121(24):2492-2496.

        5.Strobl C,Boulesteix AL,Zeileis A,et al.Bias in random forest variable importance measures:illustrations,sources and a solution,BMC Bioinformatics,2007,8(25).

        6.Biau G,Devroye L,Lugosi G.Consistency of random forests and other averaging classifiers,Journal of Machine Learning Research,2008,9:2015-2033.

        7.Ishwaran H,Kogalur UB,Blackstone EH,et al.Random survival forests.The Annals of Applied Statistics,2008,2(3):841-860.

        8.Ishwaran H,Kogalur UB,Gorodeski EZ,etal.High-Dimensional Variable Selection for Survival Data.Journal of the American Statistical Association,2010,105(489):205-217.

        9.Ishwaran H,Kogalur UB,Chen X,et al.Random survival forests for high-dimensional data.Statistical Analysis and Data Mining,2011,4(1):115-132.

        10.Díaz-Uriarte R,Alvarez de Andrés S.Gene selection and classification of microarray data using random forest.BMC Bioinformatics,2006,7(3).

        (責任編輯:劉 壯)

        The Application of a Random Forest-based Variable Hunting Method to Variable Selection in High-dimensional Data

        Song Qianqian,Li Yiqun,Hou Yan,et al(Department of Medical Statistics,Harbin Medical University(150081),Harbin)

        ObjectiveThis project explored the application of a random forest-based variable hunting approach to variable selection in high-dimensional data.MethodsTwo variable hunting methods(vh.md,vh.vimp)were compared with backwards variable elimination using random forest(varSelRF)by the analysis of simulation data and real metabonomics data,and then variable numbers,predicted error rate(PE)and the area under the receiver operating characteristic curve(AUC)were used to evaluate these approaches.ResultsSimulation experiments suggested that variable hunting method was more effective than varSelRF and sorted VIMP method,in the case of combined effects,interactions and weak independent effects.Analysis results of metabonomics data confirmed that the results of variable selection were stable and had favorable predictive effects with the variable hunting method.ConclusionThe variable hunting approach was applicable to variable selection in high-dimensional data and possessed practical value.

        Random forest;Variable selection;Variable hunting

        *:國家自然科學基金資助(81172767);高等學校博士學科專項基金(20122307110004)

        1.哈爾濱醫(yī)科大學衛(wèi)生統(tǒng)計學教研室(150081)

        2.哈爾濱醫(yī)科大學生物信息教研室

        △通信作者:李康,E-mail:likang@ems.hrbmu.edu.cn

        猜你喜歡
        高維模擬實驗排序
        排序不等式
        恐怖排序
        斷塊油藏注采耦合物理模擬實驗
        節(jié)日排序
        一種改進的GP-CLIQUE自適應高維子空間聚類算法
        測控技術(2018年4期)2018-11-25 09:46:48
        刻舟求劍
        兒童繪本(2018年5期)2018-04-12 16:45:32
        基于加權自學習散列的高維數(shù)據(jù)最近鄰查詢算法
        電信科學(2017年6期)2017-07-01 15:44:37
        輸氣管道砂沖蝕的模擬實驗
        一般非齊次非線性擴散方程的等價變換和高維不變子空間
        射孔井水力壓裂模擬實驗相似準則推導
        你懂的视频网站亚洲视频| 中文字幕无码专区一VA亚洲V专 | 日韩av无码社区一区二区三区 | 嫩呦国产一区二区三区av| 国产精品国产三级国产专播| 日本久久一区二区三区高清| 无码超乳爆乳中文字幕| 精品亚洲欧美高清不卡高清| 国产av无码专区亚洲av手机麻豆| 午夜无码片在线观看影院| 国产精品无套内射迪丽热巴| 人妻少妇邻居少妇好多水在线| 在线播放无码高潮的视频| 免费看久久妇女高潮a| 秋霞日韩一区二区三区在线观看| 香蕉视频免费在线| 亚洲一区二区三区在线| 女人18毛片aa毛片免费| 一区二区人妻乳中文字幕| 国产在线精品观看一区二区三区| 亚洲日本国产精品久久| 虎白女粉嫩粉嫩的18在线观看| 久久午夜羞羞影院免费观看| 大陆国产乱人伦| 国内精品卡一卡二卡三| 日本做受120秒免费视频| av一区二区三区人妻少妇| 性xxxx视频播放免费| 国产99久久精品一区二区| 色伦专区97中文字幕| 免费黄网站久久成人精品| 日韩免费高清视频网站| 久久综合加勒比东京热| 精品女同一区二区三区免费战| 一区在线视频免费播放| 一区二区三区字幕中文| 人妻少妇乱子伦无码视频专区| 樱桃视频影院在线播放| 大地资源在线播放观看mv| 亚洲第一区无码专区| 亚洲蜜芽在线精品一区|