亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于AUC統(tǒng)計量的隨機森林變量重要性評分的研究*

2016-12-26 05:38:44哈爾濱醫(yī)科大學衛(wèi)生統(tǒng)計教研室150081張曉鳳

中國衛(wèi)生統(tǒng)計 2016年3期

哈爾濱醫(yī)科大學衛(wèi)生統(tǒng)計教研室（150081）張曉鳳侯艷李康

哈爾濱醫(yī)科大學衛(wèi)生統(tǒng)計教研室（150081）張曉鳳侯艷李康△

隨機森林（random forest，RF）［1］是高維組學數(shù)據(jù)常用的分析方法，在進行判別分析時，同時能夠給出變量重要性評分（variable importance measure，VIM）。RF的變量重要性評分通常有兩種，一種方法是通過變量值的置換計算其重要性，第二種方法是通過基尼（Gini）指數(shù)計算其重要性，由于置換法比Gini指數(shù)法具有更好的非偏倚性能，因此多采用置換法進行變量篩選［2－5］。然而，當數(shù)據(jù)類別（標簽）比例不均衡時，即收集到的數(shù)據(jù)在兩類中的數(shù)目不相同，尤其比例相差較大時，基于錯誤率（error rate，ER）的置換法不能準確反映變量的重要性。為此，Janitza等（2013）提出基于AUC統(tǒng)計量的評價方法，能夠克服類別間比例不平衡的影響［6］。本文在簡要介紹該方法的基礎(chǔ)上，通過模擬實驗和實例數(shù)據(jù)探索其適用性，并與傳統(tǒng)的置換法進行比較。

原理與方法

1.RF的基本思想

RF采用組合方法（ensemble method）的思想，即對樣本數(shù)據(jù)進行多次隨機抽樣產(chǎn)生N（通常為Ntree）個訓練樣本構(gòu)造N棵分類樹（稱基分類器），在每次基分類器構(gòu)建過程中，將訓練樣本以外的數(shù)據(jù)作為測試數(shù)據(jù)，稱為袋外數(shù)據(jù)（out of bag data sets，OOB），并通過錯誤率來評價基分類器性能，最后根據(jù)投票（vote）準則將基分類器組合為一個RF分類器。RF在構(gòu)建分類器的過程中，通過對變量重要性排序進行變量重要性評分。

2.基于錯誤率的置換方法

基于錯誤率置換方法的變量重要性評分（VIM＿ER），其基本原理是用同時隨機置換各變量值，通過計算置換前后的OOB錯誤率間的差異衡量該變量的重要性。具體地，欲獲得變量Xi的重要性評分，首先基于訓練樣本構(gòu)建隨機森林，并估計所有OOB樣本的錯誤率，然后對所有OOB樣本中的變量Xi值進行打亂獲得新的袋外數(shù)據(jù)（OOB′），估算OOB′樣本的ER，最后計算兩次袋外數(shù)據(jù)的ER變化值。最后將所有OOB樣本ER變化均值作為Xi的VIM，Xi的VIM定義如下:

其中，Ntree為RF中樹的個數(shù)，ERit為變量Xi置換之前第t棵樹對應(yīng)的錯誤率，ER′it為變量Xi置換之后第t棵樹對應(yīng)的錯誤率。

由VIM計算公式我們知道，如果變量Xi與標簽（類別）無關(guān)聯(lián)，隨機置換該變量后對應(yīng)的袋外數(shù)據(jù)錯誤率不會發(fā)生變化，理論上＝0；相反地，如果＞0，則說明變量Xi與分類是有關(guān)聯(lián)的。

3.基于AUC統(tǒng)計量的置換方法

基于AUC統(tǒng)計量置換法同樣能夠得到變量的重要性評分（VIM＿AUC），與OOB錯誤率得到的VIM＿ER原理相似，兩者區(qū)別在于后者基于錯誤率變化衡量變量重要性，前者則是基于AUC（ROC曲線下面積）值的變化評價變量重要性。這里，變量Xi重要性評分定義如下:

其中，AUCit為變量Xi置換之前第t棵樹對應(yīng)的AUC值，AUC′it為變量 Xi置換之后第 t棵樹對應(yīng)的 AUC值。

使用OOB錯誤率的變化作為評價變量重要性的指標時，考慮的是整體錯誤率變化情況，但最大的問題是當多數(shù)類樣本較大時，OOB錯誤率未充分考慮少數(shù)類的錯誤率，相當于賦予了多數(shù)類更高的權(quán)重?；贏UC統(tǒng)計量的置換方法同時考慮靈敏度和特異度，相當于對兩類各自的準確率賦予了相同的權(quán)重，直觀上，對于類別間不平衡數(shù)據(jù)而言，基于AUC統(tǒng)計量得到的變量重要性評分更趨于合理。

模擬實驗

1.實驗?zāi)康?/h3>
（1）探索處理不平衡數(shù)據(jù)時基于ER估計VIM的偏倚性，驗證基于AUC統(tǒng)計量獲得VIM的合理性。
（2）比較VIM＿ER和VIM＿AUC對變量排序的差別，以及對差異變量和噪音變量的區(qū)分能力。

2.實驗設(shè)置

（1）模擬數(shù)據(jù)共設(shè)置65個自變量 X＝（X1，…，X65）和一個應(yīng)變量Y∈｛0，1｝，其中按自變量與應(yīng)變量之間的關(guān)聯(lián)程度設(shè)置強、中、弱、無四個等級，共15個變量，稱為差異變量；另外設(shè)置50個無關(guān)聯(lián)變量，稱為噪音變量，具體分布情況見表1?，F(xiàn)設(shè)置，分組1為樣本較少一組，分組2為樣本較多一組；兩組類別樣本量不平衡的比例（n1∶n2）為 1∶1，1∶3，1∶5，1∶10，1∶15，1∶20；第一組的樣本含量分別為10和30，實驗重復(fù)100次。

（2）隨機森林構(gòu)建參數(shù)設(shè)置，分類樹Ntree＝1000，mtry＝5，基分類器構(gòu)建時抽取的訓練數(shù)據(jù)為無放回抽樣。

表1 自變量的分布參數(shù)設(shè)置

3.模擬實驗結(jié)果

（1）圖1和圖2分別給出兩組樣本量平衡和不平衡情況下，VIM＿ER和VIM＿AUC兩種方法的結(jié)果。圖1結(jié)果顯示，在兩組例數(shù)相同時，VIM＿ER和VIM＿AUC兩種方法均能真實反映變量重要性；圖2結(jié)果顯示，在兩組例數(shù)不相同、并且相差較大時（n1∶ n2＝1∶20），VIM＿ER方法幾乎看不到差異變量的作用，而VIM＿AUC方法能更好地區(qū)分出差異變量，比VIM＿ER方法更合理。

圖1 兩組樣本量平衡（n1＝30，兩組樣本量比例為1∶1）

圖2 兩組樣本量不平衡（n1＝30，兩組樣本量比例為1∶20）

（2）圖3給出了兩組樣本量不相同情況下，VIM＿ER和VIM＿AUC兩種方法區(qū)分差異變量的能力。結(jié)果顯示，隨著兩組不平衡比例增加，VIM＿ER法對差異變量區(qū)分的AUC值呈下降趨勢，表明兩組樣本比例不平衡時，VIM＿ER方法獲得的變量VIM得分不能很好地識別差異變量；而VIM＿AUC法得到的AUC值隨著總樣本量的增加而增加，最后趨于穩(wěn)定，表明VIM＿AUC不受兩組樣本例數(shù)不平衡的影響。

圖4給出了在不同差異情況下，VIM＿ER和VIM＿AUC兩種方法得到的結(jié)果。結(jié)果顯示，差異不大和樣本量較小時，兩組不平衡比例對VIM＿ER的影響非常明顯，而VIM＿AUC則能夠更好地區(qū)分差異變量與噪音變量。

圖3 VIM＿ER和VIM＿AUC兩種方法區(qū)分15個差異變量的能力

圖4 VIM＿ER和VIM＿AUC兩種方法區(qū)分5個不同差異變量的能力

實際數(shù)據(jù)驗證

本文選取RNA編輯數(shù)據(jù)作為實際數(shù)據(jù)對上述兩種方法進行比較。該數(shù)據(jù)共包含2613例樣本，分為兩組，其中1306例進行了 RNA編輯，1307例未進行RNA編輯，分析變量43個［7］。為評估 VIM＿ER和VIM＿AUC兩種方法在不平衡情況下篩選變量的結(jié)果，對數(shù)據(jù)做以下處理:①隨機打亂43個變量形成噪音變量，加入到實際數(shù)據(jù)中，從而共有43×2＝86個變量；②在第一組中隨機抽100例，同時在第二組中抽取一定比例的樣本，設(shè)置兩組例數(shù)比值分別為1∶5和1∶10。以上過程重復(fù)100次，最后計算VIM得分的平均值。

圖5分別給出了兩組樣本量平衡（1∶1）和不平衡（1∶5，1∶10）時，使用 VIM＿ER和 VIM＿AUC兩種方法得到的結(jié)果。結(jié)果顯示:兩組樣本量相同時，VIM＿ER法與VIM＿AUC法進行變量篩選后得到的VIM值排序基本相同；兩組樣本量不同時，隨著兩組不平衡程度的增加，使用VIM＿ER方法得到的VIM值中很多逐漸趨于0，而VIM＿AUC方法仍能給出相對準確的變量重要性評分，保持“差異變量”的VIM值相對較高，從而不會因不平衡問題改變變量的重要性排序。

討論

1.隨機森林（RF）是由多個決策樹（基分類器）組成的分類器，能夠有效地處理非線性、交互作用、共線性以及高維等問題，同時還能夠避免過擬合，可以進行預(yù)測和變量篩選［8］。在類別間例數(shù)不平衡時，實際經(jīng)常使用的方法是在計算變量重要性時使用錯誤率，相當于對例數(shù)較多的類別賦予了更高的權(quán)重，從而導(dǎo)致這種方法估計VIM時出現(xiàn)明顯的偏倚，這在實際應(yīng)用中應(yīng)予注意。

圖5 兩種方法的變量重要性評分（A圖1∶1，B圖1∶5，C圖1∶10）

2.在構(gòu)建RF分類器時，使用AUC統(tǒng)計量計算VIM值，能夠在樣本例數(shù)不平衡時準確地反映變量的作用。模擬實驗和實際數(shù)據(jù)驗證的結(jié)果顯示了這種方法可以有效地解決不平衡的問題。

3.不平衡的問題主要出現(xiàn)在前瞻性研究中，比如癌癥患者遠遠少于健康人群。這種情況下，雖然可以使用巢式病例-對照的方法，但是如果數(shù)據(jù)完整，直接分析全部數(shù)據(jù)效果會更好，這時可以使用VIM＿AUC方法進行變量篩選。

4.VIM＿AUC方法也有一定的局限性，即AUC這一指標有時不夠敏感，因此今后也可以考慮使用部分ROC曲線下面積、信息量等其他統(tǒng)計量構(gòu)建RF分類器。

［1］Breiman L.Random Forests.Machine Learning，2001.45（1）:5-32.

［2］Calle M L，Urrea V.Letter to the Editor:Stability of Random Forest importance measures.Briefings in bioinformatics，2011，12（1）:86-89.

［3］Strobl C，Boulesteix AL，Zeileis A，et al.Bias in random forest variable importance measures:Illustrations，sources and a solution.BMC bioinformatics，2007，8（1）:25.

［4］Boulesteix AL，Bender A，Bermejo JL，et al.Random forest Gini importance favours SNPs with large minor allele frequency:impact，sources and recommendations.Briefings in Bioinformatics，2012，13（3）:292-304.

［5］Nicodemus KK.Letter to the editor:on the stability and ranking of predictors from random forest variable importance measures.Briafings in Bioinformatrics，2011，12（4）:369-373.

［6］Janitza S，Strobl C，Boulesteix AL.An AUC-based permutation variable importance measure for random forests.BMC bioinformatics，2013，14（1）:119.

［7］Cumm ings MP，Myers DS.Simple statistical models predict C-to-U edited sites in plantmitochondrial RNA.BMC bioinformatics，2004，5（1）:132.

［8］李貞子，張濤，武曉巖，等.隨機森林回歸分析及在代謝調(diào)控關(guān)系研究中的應(yīng)用.中國衛(wèi)生統(tǒng)計，2012（6）:158-160，163.

國家自然科學基金資助（81473072）

△通信作者:李康，E-mail:likang@ems.hrbmu.edu.cn

（責任編輯:郭海強）

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于AUC統(tǒng)計量的隨機森林變量重要性評分的研究*

原理與方法

1.RF的基本思想

2.基于錯誤率的置換方法

3.基于AUC統(tǒng)計量的置換方法

模擬實驗

1.實驗?zāi)康?/h3>（1）探索處理不平衡數(shù)據(jù)時基于ER估計VIM的偏倚性，驗證基于AUC統(tǒng)計量獲得VIM的合理性。（2）比較VIM＿ER和VIM＿AUC對變量排序的差別，以及對差異變量和噪音變量的區(qū)分能力。

2.實驗設(shè)置

3.模擬實驗結(jié)果

實際數(shù)據(jù)驗證

討 論

1.實驗?zāi)康?/h3>
（1）探索處理不平衡數(shù)據(jù)時基于ER估計VIM的偏倚性，驗證基于AUC統(tǒng)計量獲得VIM的合理性。
（2）比較VIM＿ER和VIM＿AUC對變量排序的差別，以及對差異變量和噪音變量的區(qū)分能力。

討論