亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        比例優(yōu)勢(shì)boosting算法在高維有序多分類(lèi)數(shù)據(jù)分析中的應(yīng)用*

        2018-07-16 10:06:36哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)教研室150081
        關(guān)鍵詞:分類(lèi)效果方法

        哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)教研室(150081) 

        張圓圓 趙薇薇 侯 艷 李 康△

        【提 要】 目的 探討比例優(yōu)勢(shì)boosting算法在高維組學(xué)多分類(lèi)有序數(shù)據(jù)中變量篩選和分類(lèi)預(yù)測(cè)的應(yīng)用。方法 通過(guò)模擬實(shí)驗(yàn)和實(shí)例比較比例優(yōu)勢(shì)boosting算法和其他常用的多分類(lèi)boosting算法在變量篩選和分類(lèi)效果中的差異。結(jié)果 模擬實(shí)驗(yàn)表明,比例優(yōu)勢(shì)boosting算法的變量篩選效果,尤其在小樣本情況下要明顯優(yōu)于其他方式,分類(lèi)效果略?xún)?yōu)于其他方式;實(shí)例數(shù)據(jù)分析結(jié)果表明,比例優(yōu)勢(shì)boosting變量篩選效果要優(yōu)于其他方式,在分類(lèi)效果上略低于隨機(jī)梯度boosting,但優(yōu)于其他boosting方式。結(jié)論 比例優(yōu)勢(shì)boosting算法適用于高維有序多分類(lèi)數(shù)據(jù),具有實(shí)用價(jià)值。

        臨床實(shí)際應(yīng)用中,癌癥的分期對(duì)患者的治療和預(yù)后具有很大的影響,隨著檢測(cè)技術(shù)的不斷發(fā)展,高維組學(xué)數(shù)據(jù)(基因組學(xué),蛋白質(zhì)組學(xué),代謝組學(xué)數(shù)據(jù))大量涌現(xiàn),利用組學(xué)數(shù)據(jù)尋找同癌癥分期相關(guān)的標(biāo)志物,預(yù)測(cè)癌癥分期是臨床上一個(gè)重要研究?jī)?nèi)容。由于癌癥分期一般為多個(gè)類(lèi)別,各類(lèi)別間具有順序性,屬于有序多分類(lèi)問(wèn)題,且高維組學(xué)數(shù)據(jù)變量維數(shù)過(guò)高,常規(guī)方法無(wú)法處理。對(duì)于高維有序多分類(lèi)數(shù)據(jù)的處理常使用隨機(jī)森林(random forest,RF)[1],多分類(lèi)支持向量機(jī)(multi-class support vector machine,Multi-SVM)[2]等方法。近年來(lái),人們開(kāi)始重視boosting算法在多分類(lèi)中的應(yīng)用,這種算法通過(guò)加權(quán)組合多個(gè)基礎(chǔ)分類(lèi)模型來(lái)提高預(yù)測(cè)效果。然而,boosting和RF、Multi-SVM兩種模型一樣,都忽略了數(shù)據(jù)標(biāo)簽的有序信息。為此,針對(duì)高維有序數(shù)據(jù)有學(xué)者提出了比例優(yōu)勢(shì)boosting(P/O Boosting)模型[3],該方法可以充分考慮數(shù)據(jù)標(biāo)簽的有序信息,在預(yù)測(cè)分類(lèi)和變量篩選上更為合理,如錯(cuò)分相鄰兩類(lèi)的損失與錯(cuò)分相隔較遠(yuǎn)兩類(lèi)的結(jié)果顯然是不同的。本文將通過(guò)模擬實(shí)驗(yàn)比較有序和無(wú)序兩種類(lèi)型的boosting算法的分類(lèi)預(yù)測(cè)和變量篩選的效果,并給出了應(yīng)用實(shí)例。

        方法和原理

        1.常見(jiàn)多分類(lèi)boosting

        常見(jiàn)多分類(lèi)boosting算法主要有Adaboost、SAMME、梯度boosting以及隨機(jī)梯度boosting等四種方法[4]。

        (1)Adaboost:基本思想是在迭代過(guò)程中,通過(guò)改變錯(cuò)分樣本的權(quán)重建立一系列弱分類(lèi)器,然后進(jìn)行加權(quán)集成,最終得到一個(gè)強(qiáng)分類(lèi)器。這種方法主要用于二分類(lèi)標(biāo)簽數(shù)據(jù),后將其擴(kuò)展為多分類(lèi)Adaboost.M1算法。

        (2)SAMME算法:SAMME方法基于AdaBoost.M1算法,在損失函數(shù)誤差項(xiàng)的計(jì)算中添加了log(K-1)懲罰項(xiàng),降低了弱分類(lèi)器的精度要求,自提出之后被視為boosting算法在多分類(lèi)問(wèn)題中的主要算法。

        (3)梯度boosting:同Adaboost算法不同,梯度boosting并不關(guān)注錯(cuò)分樣本的權(quán)重,而是在上一模型殘差梯度減少的方向上建立新的模型,最終模型為多次迭代后的基礎(chǔ)模型加權(quán)加和。

        (4)隨機(jī)梯度boosting:隨機(jī)梯度boosting則在梯度boosting基礎(chǔ)上增加了隨機(jī)化參數(shù),即在每次迭代過(guò)程中隨機(jī)抽取一部分樣本擬合分類(lèi)模型。

        2. 比例優(yōu)勢(shì)boosting

        假定Y為K個(gè)有序類(lèi)別的標(biāo)簽變量,預(yù)測(cè)變量表示為X=(X1,…,XP),則比例優(yōu)勢(shì)模型為

        (1)

        其中,f(x)是基于預(yù)測(cè)變量X的可加函數(shù)模型,θk為模型的常數(shù)項(xiàng),與各類(lèi)的比例相關(guān),限制 -∞<θ1<…<θk-1<θk=∞。對(duì)于給定模型,樣本屬于類(lèi)別K的概率則為

        (2)

        比例優(yōu)勢(shì)Boosting模型則利用數(shù)據(jù)的有序信息,在損失函數(shù)的梯度方向上構(gòu)建模型,即通過(guò)不斷迭代時(shí),計(jì)算基分類(lèi)器的負(fù)向梯度,將其作為新的反應(yīng)變量建立新的分類(lèi)器。具體算法如下所示[3]:

        (2)進(jìn)入循環(huán)m=m+1;

        ?計(jì)算模型損失函數(shù)L的負(fù)向梯度向量

        (3)

        ?更新當(dāng)前函數(shù)估計(jì)值(v為預(yù)設(shè)步長(zhǎng))

        (4)

        ?固定函數(shù)模型,通過(guò)最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)估計(jì)

        (5)

        直至M次后,循環(huán)結(jié)束;

        (3)最終集成函數(shù)模型為

        (6)

        評(píng)價(jià)指標(biāo)

        1.分類(lèi)效果評(píng)價(jià)

        預(yù)測(cè)效果評(píng)價(jià)可以使用分類(lèi)正確率和ROC曲線下面積(AUC),泛化的多分類(lèi)AUC計(jì)算如下[5]:

        (7)

        這兩種指標(biāo)主要用于二分類(lèi)預(yù)測(cè)模型評(píng)價(jià),也可用于多分類(lèi)預(yù)測(cè)模型,但對(duì)于有序多分類(lèi)來(lái)說(shuō),樣本被錯(cuò)分至相鄰類(lèi)別所付出的代價(jià)要比錯(cuò)分至較遠(yuǎn)類(lèi)別的代價(jià)小,為此,本文給出一種新的評(píng)價(jià)指標(biāo)—校正評(píng)分。

        校正評(píng)分通過(guò)對(duì)樣本錯(cuò)分至不同的類(lèi)別時(shí),依據(jù)類(lèi)別的遠(yuǎn)近進(jìn)行懲罰,對(duì)分類(lèi)器的分類(lèi)效果做出綜合評(píng)價(jià),懲罰函數(shù)如下

        S=e-λd,d≥0

        (8)

        其中d為預(yù)測(cè)類(lèi)別和真實(shí)類(lèi)別之間的距離,λ為衰減系數(shù),可根據(jù)實(shí)際問(wèn)題進(jìn)行自定義,本文選取λ=1。

        2.變量篩選評(píng)價(jià)

        為考察不同方式篩選變量的效果,通過(guò)重抽樣技術(shù)選擇訓(xùn)練樣本進(jìn)行建模,每次建模過(guò)程中將各變量按照變量的重要性進(jìn)行排序,獲得各變量的秩次,取重復(fù)r次各變量的平均秩次作為變量的最終排序。根據(jù)模擬的差異變量個(gè)數(shù)m選擇對(duì)應(yīng)前m個(gè)變量作為“差異變量”,然后計(jì)算所篩選變量的正確率。

        模擬實(shí)驗(yàn)

        模擬四分類(lèi)有序數(shù)據(jù):設(shè)定6個(gè)差異變量x~N(0,1), 指定中間變量z,且

        (9)

        根據(jù)z的取值范圍,以P25,P50,P75等百分位數(shù)為界限定義有序四分類(lèi),如下所示

        為在不同的情況下分別比較AdaBoost.M1、SAMME、GBM、SGBT以及P/O boosting五種方法在測(cè)試集的變量篩選效果和分類(lèi)效果。分別設(shè)定N={240,120,40}三種不同樣本量的模擬數(shù)據(jù)作為訓(xùn)練集建模,并對(duì)1000例的外部測(cè)試集進(jìn)行預(yù)測(cè),重復(fù)次數(shù)r=50。在此基礎(chǔ)上,通過(guò)調(diào)整各類(lèi)別百分位數(shù)界限,以N=40為例,各類(lèi)別的界限范圍分別為z≤P10,P30≤z≤P40,P60≤z≤P70以及z≥P90,比較類(lèi)別間差異增大時(shí)對(duì)五種方法的影響。評(píng)價(jià)分類(lèi)效果使用正確率(accuracy)、ROC曲線下面積(AUC)和校正得分(score)統(tǒng)計(jì)量。

        模擬結(jié)果顯示,在三種不同樣本量下,使用P/O Boosting方法篩選變量的正確率分別為100%、100%、66.67%,明顯優(yōu)于其他四種方法(表1)。固定樣本量,類(lèi)間差異增大時(shí),各方法變量篩選結(jié)果的差異減少,但P/O Boosting仍能獲得不弱于其他方法的篩選結(jié)果。由圖1可以看出,在分類(lèi)效果上,P/O Boosting均略?xún)?yōu)于其他方法。上述模擬實(shí)驗(yàn)結(jié)果表明,P/O Boosting方法的主要優(yōu)勢(shì)在于篩選變量上有更好的結(jié)果,尤其是小樣本小差異情況下。

        表1 不同情況下變量篩選結(jié)果比較

        #單元格中分別為準(zhǔn)確率(正確個(gè)數(shù)),N*為類(lèi)間差異增大時(shí)的結(jié)果

        圖1 不同情況下五種分類(lèi)方法的比較

        實(shí)例應(yīng)用

        為進(jìn)一步在實(shí)際中驗(yàn)證以上五種boosting算法的對(duì)比結(jié)果,選用TCGA中結(jié)直腸癌(COAD)的mRNA數(shù)據(jù),篩選同結(jié)直腸癌分期相關(guān)的變量,預(yù)測(cè)患者的疾病分期。該數(shù)據(jù)總共包括358例樣本,20530個(gè)預(yù)測(cè)變量,經(jīng)過(guò)單變量分析(非參數(shù)秩和檢驗(yàn),閾值為0.01)初篩獲得1373個(gè)變量,對(duì)初篩后的數(shù)據(jù)進(jìn)行分析。隨機(jī)抽取100例作為訓(xùn)練集,其余作為測(cè)試集進(jìn)行建模預(yù)測(cè),每次對(duì)變量重要性評(píng)分進(jìn)行排秩獲得變量在該次建模過(guò)程中的秩次,重復(fù)以上步驟r(r=50)次后,計(jì)算平均秩次并重新排列,選取前m個(gè)變量作為各方法的差異變量,然后與所有358例樣本建模篩選的前m個(gè)變量相比較,觀察兩者的重合率,最后通過(guò)查閱文獻(xiàn),確定五種方法所篩選變量中當(dāng)前已有文獻(xiàn)報(bào)道同癌癥相關(guān)的基因所占的比例。

        分析結(jié)果顯示,五種方法中,當(dāng)m=20時(shí),P/O Boosting的重合率為50%,文獻(xiàn)報(bào)道率為80%;當(dāng)m=50時(shí),P/O Boosting的重合率為48%,文獻(xiàn)報(bào)道率為76%,均表示該方法可靠性較高(表2)。從生物學(xué)上看,多數(shù)基因能夠得到較好的解釋?zhuān)?,篩選出的SCEL基因通過(guò)激活β-連環(huán)蛋白及其下游的原癌基因增強(qiáng)wnt信號(hào)通路,并通過(guò)SCEL-β-連環(huán)蛋白-E-鈣粘蛋白軸激活間充質(zhì)—上皮細(xì)胞轉(zhuǎn)化(MET)過(guò)程,降低癌細(xì)胞的遷移和入侵[6]。再例如,篩選出的EFNB2可能是功能獲得性突變P53的靶基因,通過(guò)P53/ ephrin-B2軸參與結(jié)直腸癌中的上皮細(xì)胞-間充質(zhì)轉(zhuǎn)化(EMT)過(guò)程,降低患者的化療敏感性[7]。從分類(lèi)效果上看,五種方法在各分類(lèi)指標(biāo)中結(jié)果相差不大,P/O Boosting的AUC值略?xún)?yōu)于其他方法(圖2)。

        表2 COAD數(shù)據(jù)不同樣本下各方式變量篩選效果比較

        *重合率為100個(gè)樣本建模同全部樣本建模篩選出的變量重合比例

        圖2 五種方法COAD數(shù)據(jù)分類(lèi)結(jié)果

        討  論

        P/O Boosting是專(zhuān)門(mén)針對(duì)高維有序分類(lèi)數(shù)據(jù)分析的一種方法,同常規(guī)的無(wú)序多分類(lèi)模型相比,這種模型能夠考慮并利用數(shù)據(jù)的有序信息,其主要特點(diǎn)是在小樣本條件下,依然能夠較好地篩選出差異變量,可以為后續(xù)的機(jī)制研究以及臨床實(shí)際應(yīng)用提供有益的信息。

        P/O Boosting模型有一個(gè)重要的假定,即任意兩個(gè)不同累積有序類(lèi)別的比數(shù)比相同,如果實(shí)際數(shù)據(jù)不滿(mǎn)足這一假定,對(duì)變量篩選影響不大,但可能會(huì)影響分類(lèi)的效果,因此這種方法更適合于變量篩選。

        有序和無(wú)序分類(lèi)的主要差別是可以將相鄰類(lèi)進(jìn)行不斷合并,從而使建立的模型更為穩(wěn)定;另一差別是錯(cuò)分的損失與相隔距離有關(guān),P/O Boosting模型在建模時(shí)并未對(duì)其加權(quán),因此使用校正評(píng)分統(tǒng)計(jì)量進(jìn)行評(píng)價(jià)時(shí)并未達(dá)到預(yù)期的效果,如何將該統(tǒng)計(jì)量應(yīng)用于模型的建立過(guò)程中,需要進(jìn)一步研究。

        本研究給出的P/O Boosting算法的基礎(chǔ)分類(lèi)器選擇的是樹(shù)模型,適合多種復(fù)雜的情況,實(shí)際中也可以選擇其他類(lèi)型的分類(lèi)器,如樣條函數(shù)等,不同基礎(chǔ)分類(lèi)器得到的結(jié)果會(huì)略有差別。

        猜你喜歡
        分類(lèi)效果方法
        按摩效果確有理論依據(jù)
        分類(lèi)算一算
        分類(lèi)討論求坐標(biāo)
        迅速制造慢門(mén)虛化效果
        數(shù)據(jù)分析中的分類(lèi)討論
        抓住“瞬間性”效果
        教你一招:數(shù)的分類(lèi)
        可能是方法不對(duì)
        模擬百種唇妝效果
        Coco薇(2016年8期)2016-10-09 02:11:50
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        亚洲精品1区2区在线观看| 久久精品性无码一区二区爱爱 | a级国产乱理伦片在线播放| 欧美午夜a级精美理论片| 亚洲精品中文字幕无码蜜桃| 真实国产乱视频国语| 91亚洲最新国语中文字幕| 色综合悠悠88久久久亚洲| aa片在线观看视频在线播放| 精品性高朝久久久久久久| 人妻系列无码专区久久五月天| 色婷婷一区二区三区久久亚洲| 亚洲精品久久激情国产片| 成在人线av无码免观看麻豆| 北岛玲中文字幕人妻系列| 午夜一区二区三区福利视频| 日韩精品无码熟人妻视频| 久久精品国产亚洲av大全| 国产无码十八禁| 亚洲一区久久蜜臀av| 亚洲中文字幕无码爆乳app| 黑人玩弄人妻中文在线| 欧洲国产精品无码专区影院| 你懂的视频网站亚洲视频 | 精产国品一二三产品蜜桃| 亚洲情a成黄在线观看动漫尤物| 久久久精品久久久国产| 无码专区一ⅴa亚洲v天堂| 国产成人精品日本亚洲11| 啊v在线视频| 免费看黄视频亚洲网站| 国产精品一卡二卡三卡| 国产手机在线αⅴ片无码| 黑丝国产精品一区二区| 亚洲夫妻性生活免费视频| 欧洲极品少妇| 国产乱人伦AⅤ在线麻豆A| 中文字幕色偷偷人妻久久一区 | 国产一区二区三区免费观看在线| 色婷婷精品| 亚洲一区二区一区二区免费视频|