亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于AUC統(tǒng)計量的隨機森林變量重要性評分的研究*

        2016-12-26 05:38:44哈爾濱醫(yī)科大學衛(wèi)生統(tǒng)計教研室150081張曉鳳
        中國衛(wèi)生統(tǒng)計 2016年3期
        關(guān)鍵詞:錯誤率樣本量分類器

        哈爾濱醫(yī)科大學衛(wèi)生統(tǒng)計教研室(150081) 張曉鳳 侯 艷 李 康

        基于AUC統(tǒng)計量的隨機森林變量重要性評分的研究*

        哈爾濱醫(yī)科大學衛(wèi)生統(tǒng)計教研室(150081) 張曉鳳 侯 艷 李 康△

        隨機森林(random forest,RF)[1]是高維組學數(shù)據(jù)常用的分析方法,在進行判別分析時,同時能夠給出變量重要性評分(variable importance measure,VIM)。RF的變量重要性評分通常有兩種,一種方法是通過變量值的置換計算其重要性,第二種方法是通過基尼(Gini)指數(shù)計算其重要性,由于置換法比Gini指數(shù)法具有更好的非偏倚性能,因此多采用置換法進行變量篩選[2-5]。然而,當數(shù)據(jù)類別(標簽)比例不均衡時,即收集到的數(shù)據(jù)在兩類中的數(shù)目不相同,尤其比例相差較大時,基于錯誤率(error rate,ER)的置換法不能準確反映變量的重要性。為此,Janitza等(2013)提出基于AUC統(tǒng)計量的評價方法,能夠克服類別間比例不平衡的影響[6]。本文在簡要介紹該方法的基礎(chǔ)上,通過模擬實驗和實例數(shù)據(jù)探索其適用性,并與傳統(tǒng)的置換法進行比較。

        原理與方法

        1.RF的基本思想

        RF采用組合方法(ensemble method)的思想,即對樣本數(shù)據(jù)進行多次隨機抽樣產(chǎn)生N(通常為Ntree)個訓練樣本構(gòu)造N棵分類樹(稱基分類器),在每次基分類器構(gòu)建過程中,將訓練樣本以外的數(shù)據(jù)作為測試數(shù)據(jù),稱為袋外數(shù)據(jù)(out of bag data sets,OOB),并通過錯誤率來評價基分類器性能,最后根據(jù)投票(vote)準則將基分類器組合為一個RF分類器。RF在構(gòu)建分類器的過程中,通過對變量重要性排序進行變量重要性評分。

        2.基于錯誤率的置換方法

        基于錯誤率置換方法的變量重要性評分(VIM_ER),其基本原理是用同時隨機置換各變量值,通過計算置換前后的OOB錯誤率間的差異衡量該變量的重要性。具體地,欲獲得變量Xi的重要性評分,首先基于訓練樣本構(gòu)建隨機森林,并估計所有OOB樣本的錯誤率,然后對所有OOB樣本中的變量Xi值進行打亂獲得新的袋外數(shù)據(jù)(OOB′),估算OOB′樣本的ER,最后計算兩次袋外數(shù)據(jù)的ER變化值。最后將所有OOB樣本ER變化均值作為Xi的VIM,Xi的VIM定義如下:

        其中,Ntree為RF中樹的個數(shù),ERit為變量Xi置換之前第t棵樹對應(yīng)的錯誤率,ER′it為變量Xi置換之后第t棵樹對應(yīng)的錯誤率。

        由VIM計算公式我們知道,如果變量Xi與標簽(類別)無關(guān)聯(lián),隨機置換該變量后對應(yīng)的袋外數(shù)據(jù)錯誤率不會發(fā)生變化,理論上=0;相反地,如果>0,則說明變量Xi與分類是有關(guān)聯(lián)的。

        3.基于AUC統(tǒng)計量的置換方法

        基于AUC統(tǒng)計量置換法同樣能夠得到變量的重要性評分(VIM_AUC),與OOB錯誤率得到的VIM_ER原理相似,兩者區(qū)別在于后者基于錯誤率變化衡量變量重要性,前者則是基于AUC(ROC曲線下面積)值的變化評價變量重要性。這里,變量Xi重要性評分定義如下:

        其中,AUCit為變量Xi置換之前第t棵樹對應(yīng)的AUC值,AUC′it為變量 Xi置換之后第 t棵樹對應(yīng)的 AUC值。

        使用OOB錯誤率的變化作為評價變量重要性的指標時,考慮的是整體錯誤率變化情況,但最大的問題是當多數(shù)類樣本較大時,OOB錯誤率未充分考慮少數(shù)類的錯誤率,相當于賦予了多數(shù)類更高的權(quán)重?;贏UC統(tǒng)計量的置換方法同時考慮靈敏度和特異度,相當于對兩類各自的準確率賦予了相同的權(quán)重,直觀上,對于類別間不平衡數(shù)據(jù)而言,基于AUC統(tǒng)計量得到的變量重要性評分更趨于合理。

        模擬實驗

        1.實驗?zāi)康?/h3>

        (1)探索處理不平衡數(shù)據(jù)時基于ER估計VIM的偏倚性,驗證基于AUC統(tǒng)計量獲得VIM的合理性。

        (2)比較VIM_ER和VIM_AUC對變量排序的差別,以及對差異變量和噪音變量的區(qū)分能力。

        2.實驗設(shè)置

        (1)模擬數(shù)據(jù)共設(shè)置65個自變量 X=(X1,…,X65)和一個應(yīng)變量Y∈{0,1},其中按自變量與應(yīng)變量之間的關(guān)聯(lián)程度設(shè)置強、中、弱、無四個等級,共15個變量,稱為差異變量;另外設(shè)置50個無關(guān)聯(lián)變量,稱為噪音變量,具體分布情況見表1?,F(xiàn)設(shè)置,分組1為樣本較少一組,分組2為樣本較多一組;兩組類別樣本量不平衡的比例(n1∶n2)為 1∶1,1∶3,1∶5,1∶10,1∶15,1∶20;第一組的樣本含量分別為10和30,實驗重復(fù)100次。

        (2)隨機森林構(gòu)建參數(shù)設(shè)置,分類樹Ntree=1000,mtry=5,基分類器構(gòu)建時抽取的訓練數(shù)據(jù)為無放回抽樣。

        表1 自變量的分布參數(shù)設(shè)置

        3.模擬實驗結(jié)果

        (1)圖1和圖2分別給出兩組樣本量平衡和不平衡情況下,VIM_ER和VIM_AUC兩種方法的結(jié)果。圖1結(jié)果顯示,在兩組例數(shù)相同時,VIM_ER和VIM_AUC兩種方法均能真實反映變量重要性;圖2結(jié)果顯示,在兩組例數(shù)不相同、并且相差較大時(n1∶ n2=1∶20),VIM_ER方法幾乎看不到差異變量的作用,而VIM_AUC方法能更好地區(qū)分出差異變量,比VIM_ER方法更合理。

        圖1 兩組樣本量平衡(n1=30,兩組樣本量比例為1∶1)

        圖2 兩組樣本量不平衡(n1=30,兩組樣本量比例為1∶20)

        (2)圖3給出了兩組樣本量不相同情況下,VIM_ER和VIM_AUC兩種方法區(qū)分差異變量的能力。結(jié)果顯示,隨著兩組不平衡比例增加,VIM_ER法對差異變量區(qū)分的AUC值呈下降趨勢,表明兩組樣本比例不平衡時,VIM_ER方法獲得的變量VIM得分不能很好地識別差異變量;而VIM_AUC法得到的AUC值隨著總樣本量的增加而增加,最后趨于穩(wěn)定,表明VIM_AUC不受兩組樣本例數(shù)不平衡的影響。

        圖4給出了在不同差異情況下,VIM_ER和VIM_AUC兩種方法得到的結(jié)果。結(jié)果顯示,差異不大和樣本量較小時,兩組不平衡比例對VIM_ER的影響非常明顯,而VIM_AUC則能夠更好地區(qū)分差異變量與噪音變量。

        圖3 VIM_ER和VIM_AUC兩種方法區(qū)分15個差異變量的能力

        圖4 VIM_ER和VIM_AUC兩種方法區(qū)分5個不同差異變量的能力

        實際數(shù)據(jù)驗證

        本文選取RNA編輯數(shù)據(jù)作為實際數(shù)據(jù)對上述兩種方法進行比較。該數(shù)據(jù)共包含2613例樣本,分為兩組,其中1306例進行了 RNA編輯,1307例未進行RNA編輯,分析變量43個[7]。為評估 VIM_ER和VIM_AUC兩種方法在不平衡情況下篩選變量的結(jié)果,對數(shù)據(jù)做以下處理:①隨機打亂43個變量形成噪音變量,加入到實際數(shù)據(jù)中,從而共有43×2=86個變量;②在第一組中隨機抽100例,同時在第二組中抽取一定比例的樣本,設(shè)置兩組例數(shù)比值分別為1∶5和1∶10。以上過程重復(fù)100次,最后計算VIM得分的平均值。

        圖5分別給出了兩組樣本量平衡(1∶1)和不平衡(1∶5,1∶10)時,使用 VIM_ER和 VIM_AUC兩種方法得到的結(jié)果。結(jié)果顯示:兩組樣本量相同時,VIM_ER法與VIM_AUC法進行變量篩選后得到的VIM值排序基本相同;兩組樣本量不同時,隨著兩組不平衡程度的增加,使用VIM_ER方法得到的VIM值中很多逐漸趨于0,而VIM_AUC方法仍能給出相對準確的變量重要性評分,保持“差異變量”的VIM值相對較高,從而不會因不平衡問題改變變量的重要性排序。

        討 論

        1.隨機森林(RF)是由多個決策樹(基分類器)組成的分類器,能夠有效地處理非線性、交互作用、共線性以及高維等問題,同時還能夠避免過擬合,可以進行預(yù)測和變量篩選[8]。在類別間例數(shù)不平衡時,實際經(jīng)常使用的方法是在計算變量重要性時使用錯誤率,相當于對例數(shù)較多的類別賦予了更高的權(quán)重,從而導(dǎo)致這種方法估計VIM時出現(xiàn)明顯的偏倚,這在實際應(yīng)用中應(yīng)予注意。

        圖5 兩種方法的變量重要性評分(A圖1∶1,B圖1∶5,C圖1∶10)

        2.在構(gòu)建RF分類器時,使用AUC統(tǒng)計量計算VIM值,能夠在樣本例數(shù)不平衡時準確地反映變量的作用。模擬實驗和實際數(shù)據(jù)驗證的結(jié)果顯示了這種方法可以有效地解決不平衡的問題。

        3.不平衡的問題主要出現(xiàn)在前瞻性研究中,比如癌癥患者遠遠少于健康人群。這種情況下,雖然可以使用巢式病例-對照的方法,但是如果數(shù)據(jù)完整,直接分析全部數(shù)據(jù)效果會更好,這時可以使用VIM_AUC方法進行變量篩選。

        4.VIM_AUC方法也有一定的局限性,即AUC這一指標有時不夠敏感,因此今后也可以考慮使用部分ROC曲線下面積、信息量等其他統(tǒng)計量構(gòu)建RF分類器。

        [1]Breiman L.Random Forests.Machine Learning,2001.45(1):5-32.

        [2]Calle M L,Urrea V.Letter to the Editor:Stability of Random Forest importance measures.Briefings in bioinformatics,2011,12(1):86-89.

        [3]Strobl C,Boulesteix AL,Zeileis A,et al.Bias in random forest variable importance measures:Illustrations,sources and a solution.BMC bioinformatics,2007,8(1):25.

        [4]Boulesteix AL,Bender A,Bermejo JL,et al.Random forest Gini importance favours SNPs with large minor allele frequency:impact,sources and recommendations.Briefings in Bioinformatics,2012,13(3):292-304.

        [5]Nicodemus KK.Letter to the editor:on the stability and ranking of predictors from random forest variable importance measures.Briafings in Bioinformatrics,2011,12(4):369-373.

        [6]Janitza S,Strobl C,Boulesteix AL.An AUC-based permutation variable importance measure for random forests.BMC bioinformatics,2013,14(1):119.

        [7]Cumm ings MP,Myers DS.Simple statistical models predict C-to-U edited sites in plantmitochondrial RNA.BMC bioinformatics,2004,5(1):132.

        [8]李貞子,張濤,武曉巖,等.隨機森林回歸分析及在代謝調(diào)控關(guān)系研究中的應(yīng)用.中國衛(wèi)生統(tǒng)計,2012(6):158-160,163.

        國家自然科學基金資助(81473072)

        △通信作者:李康,E-mail:likang@ems.hrbmu.edu.cn

        (責任編輯:郭海強)

        猜你喜歡
        錯誤率樣本量分類器
        限制性隨機試驗中選擇偏倚導(dǎo)致的一類錯誤率膨脹*
        醫(yī)學研究中樣本量的選擇
        航空裝備測試性試驗樣本量確定方法
        BP-GA光照分類器在車道線識別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        Sample Size Calculations for Comparing Groups with Binary Outcomes
        正視錯誤,尋求策略
        教師·中(2017年3期)2017-04-20 21:49:49
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
        解析小學高段學生英語單詞抄寫作業(yè)錯誤原因
        降低學生計算錯誤率的有效策略
        97精品超碰一区二区三区 | 国产av夜夜欢一区二区三区| 国产精品va无码一区二区| 欧美日韩中文国产一区| 国产欧美乱夫不卡无乱码| 亚洲AV永久天堂在线观看| 国产一级r片内射视频播放| 国产av一区二区网站| 少妇又色又爽又高潮在线看| 美女露出粉嫩小奶头在视频18禁| 波多野结衣久久精品99e| 99久久免费看少妇高潮a片特黄| 国产日产精品久久久久久| 真人在线射美女视频在线观看| 日韩最新av一区二区| 最新中文字幕日韩精品| 成年女人免费视频播放体验区| 成人做爰视频www| 99热免费精品| 国产成人激情视频在线观看| 蜜桃国产精品视频网站| 草逼短视频免费看m3u8| 琪琪的色原网站| 精品无码AV无码免费专区| 淫妇日韩中文字幕在线| 亚洲av网站在线免费观看| 中文字幕人妻少妇伦伦| 亚洲精品久久久久久久蜜桃| 久久亚洲私人国产精品va| 性xxxx视频播放免费| 日本午夜精品理论片A级APP发布| 亚洲中文字幕高清视频| 亚洲色图偷拍自拍在线| 久久国产色av免费观看| 国产乱视频| 中文字幕一区二区三区在线看一区| 一区二区视频在线国产| 日日碰狠狠添天天爽五月婷| 日本午夜免费福利视频| 国产欧美日韩在线观看一区二区三区| 亚洲色图在线视频免费观看|