亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于AHP的SMOTEBagging改進(jìn)模型

        2018-08-16 06:32:16
        關(guān)鍵詞:分類器權(quán)重樣本

        [電子科技大學(xué) 成都 611731]

        Bagging是一種集成學(xué)習(xí)模型,它將多個分類器的預(yù)測結(jié)果進(jìn)行集成,得到相比于單個分類器更穩(wěn)定更準(zhǔn)確的預(yù)測結(jié)果,有著廣泛的應(yīng)用[1~2]。在實(shí)際應(yīng)用過程中,常常會面臨數(shù)據(jù)不平衡的問題,比如信用風(fēng)險(xiǎn)預(yù)測中,違約用戶的數(shù)量是遠(yuǎn)少于正常用戶的數(shù)量的,在病情診斷中,檢查呈陽性的樣本數(shù)量總是少于呈陰性的樣本數(shù)量。在這些應(yīng)用中,少類樣本往往才是最重要的樣本[3~4],傳統(tǒng)分類模型會傾向于將樣本預(yù)測為數(shù)量較多的那一類樣本,導(dǎo)致對少類樣本的預(yù)測準(zhǔn)確率較差[5]。Bagging模型不能直接用于處理不平衡數(shù)據(jù)[6~7],因而各種改進(jìn)算法被提出,如Asymmetric Bagging[8]、RUSBagging[9]、SMOTEBagging[10]等,它們通過抽樣的方法改變基分類器訓(xùn)練集中樣本的分布,來提高Bagging對少類樣本的預(yù)測能力。

        本文將研究的重點(diǎn)放在對SMOTEBagging模型的改進(jìn)上,一是為了在不犧牲模型整體表現(xiàn)的前提下,在SMOTEBagging的基礎(chǔ)上進(jìn)一步提高對少類樣本的預(yù)測準(zhǔn)確率(TPR),二是為了能減小集成規(guī)模,用更少的基分類器達(dá)到和SMOTEBagging一樣甚至更好的表現(xiàn),提高預(yù)測速度,減少模型在實(shí)際應(yīng)用中對計(jì)算資源的占用量。為了實(shí)現(xiàn)這兩個目標(biāo),本文將AHP方法引入SMOTEBagging中,構(gòu)建了一種改進(jìn)的SMOTEBagging模型,稱之為AHPBased Bagging模型,并在27個屬于不同應(yīng)用背景的不平衡數(shù)據(jù)集和三種不同的基分類器設(shè)置下對AHPBased Bagging和SMOTEBagging在TPR、F1-Measure、G-mean和AUC上的表現(xiàn)進(jìn)行了對比。

        一、相關(guān)研究

        在數(shù)據(jù)不平衡問題中,如何提高模型對少類樣本的分類準(zhǔn)確率,同時又不對其他樣本的預(yù)測效果造成較大的負(fù)面影響,是研究者需要解決的主要問題[11]。為了提高Bagging模型在不平衡數(shù)據(jù)集下的表現(xiàn),尤其是對少類樣本的預(yù)測表現(xiàn),研究者使用了不同的方法來調(diào)整基分類器訓(xùn)練集中的樣本分布。Guo-Zheng Li[8]提出的Asymmetric Bagging模型用Bootstrap的方法,從多類樣本中抽取和少類樣本數(shù)目相同的樣本,再和所有少類樣本一起構(gòu)成樣本分布平衡的基分類器訓(xùn)練集。Xiaofeng Shi[9]為了解決腦電圖中P300信號檢測中所存在的樣本不平衡問題,使用隨機(jī)下采樣方法(Random Under-Sampling)從多類樣本和少類樣本中各自抽取S/2個樣本,構(gòu)成大小為S的基分類器訓(xùn)練集。Liu[12]提出了EasyEnsemble方法,使用隨機(jī)下采樣方法從多類樣本中抽取和少類樣本數(shù)目相同的樣本,然后與所有少類樣本進(jìn)行合并,構(gòu)成基分類器的訓(xùn)練集。Shuo Wang[10]為了研究抽樣方法對基分類器多樣性及Bagging最終表現(xiàn)的影響,提出了UnderBagging、OverBagging和SMOTEBagging三種Bagging模型,UnderBagging和OverBagging采用Bootstrap的方式對每一類樣本進(jìn)行上采樣或者下采樣,使基分類器的訓(xùn)練集中的各類樣本數(shù)相同,SMOTEBagging模型中用SMOTE方法來生成新的少類樣本,調(diào)整基分類器訓(xùn)練集的樣本分布。

        在這些研究中,除了SMOTE方法外,其他都是用Bootstrap或者隨機(jī)抽樣的方法對樣本進(jìn)行上采樣或者下采樣,來構(gòu)成樣本平衡的基分類器訓(xùn)練集。但下采樣會丟失大量與多類樣本相關(guān)的信息,上采樣會對少類樣本進(jìn)行多次重復(fù)采樣,容易造成過擬合[13],而由Charles[14]提出的SMOTE方法基于K近鄰算法合成新的少類樣本,則能避免這些問題,同時Shuo Wang[10]的研究發(fā)現(xiàn),通過SMOTE方法來構(gòu)造基分類器訓(xùn)練集能夠提高Bagging中基分類器的多樣性,因此在不平衡數(shù)據(jù)集上,SMOTEBagging在少類樣本的TPR和F-Value上都有著比OverBagging更好的表現(xiàn)。Hanifah等[15]將SMOTEBagging用在個人信用風(fēng)險(xiǎn)的預(yù)測中,發(fā)現(xiàn)其在AUC和少類樣本的準(zhǔn)確率上都有較好的表現(xiàn)。因此本文以SMOTEBagging模型作為改進(jìn)的對象。

        AHP也叫層次分析法,由美國運(yùn)籌學(xué)家Saaty[16]在20世紀(jì)70年代提出,是一種定性與定量相結(jié)合的決策分析方法,能夠幫助決策者將復(fù)雜的多屬性決策問題分解為單個指標(biāo)下的兩兩成對比較問題,從而選出符合決策者需求的方案。有研究者將AHP方法引入了Bagging模型中,László[17]認(rèn)為用AHP方法來計(jì)算基分類器的權(quán)重并進(jìn)行組合能夠得到更穩(wěn)定的分類表現(xiàn),但其準(zhǔn)則層中只有錯誤率這一個指標(biāo)。受到該文章的啟發(fā),本文將AHP方法引入到SMOTEBagging模型中,并在準(zhǔn)則層中考慮了多個評價(jià)指標(biāo)來評判基分類器的重要性。

        二、AHP-Based Bagging模型

        (一)構(gòu)建思想

        在Bagging算法中,訓(xùn)練出多個基分類器會有不同的表現(xiàn),考慮如圖1所示的3種基分類器,它們在6個關(guān)鍵指標(biāo)上的分類表現(xiàn)如表1所示。

        圖1 不同表現(xiàn)的基分類器

        表1 各基分類器的分類表現(xiàn)

        基分類器b和基分類器c相比于基分類器a都有著更高的TPR表現(xiàn),且都在一定程度上犧牲了在Precision和TNR上的表現(xiàn),但基分類器b在Accuracy上沒有變差,所以從F1-Measure和G-mean上來看,整體預(yù)測表現(xiàn)沒有變差;而基分類器c在Precision和TNR上則下降得比較多,Accuracy更差,導(dǎo)致了模型的整體預(yù)測表現(xiàn)不如基分類器a??梢酝茰y,存在類似于b的基分類器,既有著更好TPR表現(xiàn),同時整體表現(xiàn)也不差,如果把它們篩選再集成,就可能在不降低整體預(yù)測表現(xiàn)的情況下得到比集成全部基分類器更好的TPR表現(xiàn)。對基分類器進(jìn)行選擇性集成比將所有基分類器進(jìn)行集成的預(yù)測效果要好,此外還能夠減少集成規(guī)模,達(dá)到提高模型預(yù)測速度,降低存儲需求的目的[18~19]。本文用AHP方法對SMOTEBagging模型的基分類器進(jìn)行評價(jià)和選擇,構(gòu)建了AHP-Based Bagging模型。

        (二)模型介紹

        AHP-Based Bagging模型主要分三個階段。第一階段為基分類器訓(xùn)練集的生成和基分類器的訓(xùn)練階段,如圖2所示,先采用Bootstrap抽樣的方法生成m個大小與原始訓(xùn)練集相同的數(shù)據(jù)集,然后用SMOTE方法生成新的少類樣本,使每個數(shù)據(jù)集中的正負(fù)樣本數(shù)量相同,構(gòu)成m個Bag,然后利用Bag中的數(shù)據(jù)集訓(xùn)練m個基分類器。

        圖2 AHP-Based Bagging第一階段

        第二階段為基分類器的評價(jià)和選擇階段。為了提高SMOTEBagging在TPR上的表現(xiàn),需要選擇在TPR上表現(xiàn)好的基分類器進(jìn)行集成,同時從前一小節(jié)的分析可以知道,只在TPR上表現(xiàn)好的基分類器并不一定有很好的整體表現(xiàn),所以還需要綜合考慮基分類器在其他指標(biāo)上的表現(xiàn),因此在第二階段中使用AHP方法構(gòu)建了一個三層的層次結(jié)構(gòu),來對基分類器進(jìn)行評價(jià)和選擇,如圖3所示。其中,目標(biāo)層為需要解決的決策問題,即對基分類器進(jìn)行選擇,以使選出來的基分類器集成后對少類樣本有更好的預(yù)測表現(xiàn),同時整體預(yù)測表現(xiàn)不比原來差。準(zhǔn)則層為評價(jià)基分類器表現(xiàn)的4個基礎(chǔ)評價(jià)指標(biāo)。

        方案層為候選的基分類器,即第一階段得到的所有基分類器。為了實(shí)現(xiàn)目標(biāo)層的目標(biāo),需要按照1~9的偏好程度設(shè)置各準(zhǔn)則的權(quán)重偏好[20]。因?yàn)槭滓繕?biāo)是選出TPR高的基分類器,所以TPR的權(quán)重偏好設(shè)置為9,同時根據(jù)上一小節(jié)的分析,Accuracy也是一個重要的指標(biāo),否則選出的基分類器的整體表現(xiàn)會比較差,因此Accuracy的權(quán)重偏好和TPR一樣,設(shè)置為9。在樣本不平衡的情況下,少類樣本往往是更重要的樣本,模型在TPR上的表現(xiàn)比在TNR上的表現(xiàn)要更重要,所以將TNR的權(quán)重偏好設(shè)置為1,同時,TPR也比Precision更為有用[10],所以將Precision的權(quán)重偏好也設(shè)置為1。至此,本文確立了所有4個準(zhǔn)則的權(quán)重偏好,得到成對比較矩陣A,如式(1)所示。計(jì)算該矩陣最大特征值對應(yīng)的特征向量能夠得到準(zhǔn)則層相對于目標(biāo)層的權(quán)重向量如式(2)所示。

        圖3 AHP-Based Bagging第二、三階段

        方案層中基分類器關(guān)于準(zhǔn)則層中某個指標(biāo)的成對比較矩陣則通過基分類器在out-of-bag數(shù)據(jù)集上的驗(yàn)證結(jié)果兩兩比較構(gòu)成,計(jì)算每個成對比較矩陣最大特征值所對應(yīng)的特征向量,得到方案層中各基分類器關(guān)于該評價(jià)指標(biāo)的權(quán)重向量如式(3)所示,其中m為基分類器的個數(shù)。最后計(jì)算基分類器關(guān)于決策問題的權(quán)重向量也就是基分類器的AHP評分,如式(4)、式(5)所示。

        第三階段是基分類器的集成階段。選擇在第二階段中AHP評分高于平均值的基分類器來得到最終的預(yù)測結(jié)果。Bagging中的集成方法有很多種,在分類問題中一般是用多數(shù)投票的方法。與多數(shù)投票的集成方法相比,按概率集成能更好地保留基分類器輸出的概率信息[21],因此AHP-Based Bagging模型按式(6)、式(7)對選出的基分類器的預(yù)測結(jié)果進(jìn)行集成。

        三、實(shí)驗(yàn)

        (一)實(shí)驗(yàn)數(shù)據(jù)

        為了驗(yàn)證AHP-Based Bagging模型是否能達(dá)到改進(jìn)目的,本文在27個來自不同領(lǐng)域的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。這些數(shù)據(jù)的基本信息如表2所示,其中軟件缺陷預(yù)測相關(guān)的數(shù)據(jù)集來源于NASA的MDP庫,其他的數(shù)據(jù)集都是來源于UCI的公開數(shù)據(jù)集。且這些數(shù)據(jù)集都存在一定程度的樣本不平衡問題,不平衡率(IR)最小到1.25,最大到31.98。

        表2 AHP-Based Bagging實(shí)驗(yàn)數(shù)據(jù)集

        (二)實(shí)驗(yàn)設(shè)置

        實(shí)驗(yàn)將在BP神經(jīng)網(wǎng)絡(luò)(BPNN)、Logistic回歸模型(LR)和支持向量機(jī)模型(SVM)3種不同的基分類器設(shè)置以及不同的Bag數(shù)設(shè)置下獲取AHPBased Bagging和SMOTEBagging的TPR,并通過F1-Measure、G-mean和AUC這三個指標(biāo)來考察模型的整體預(yù)測表現(xiàn)[6]。其中,Bag數(shù)兩種Bagging模型都通過R語言實(shí)現(xiàn),基分類器通過調(diào)用RWeka包中的相關(guān)函數(shù)實(shí)現(xiàn),BPNN采用3層的神經(jīng)網(wǎng)絡(luò),輸入層節(jié)點(diǎn)數(shù)量與數(shù)據(jù)集屬性數(shù)相同,由于是二分類問題,所以輸出層節(jié)點(diǎn)數(shù)為1,隱藏層的節(jié)點(diǎn)數(shù)量采用RWeka中的默認(rèn)設(shè)置,為屬性數(shù)與類別數(shù)和的一半,SVM模型由RWeka中的SMO函數(shù)實(shí)現(xiàn),采用線性核函數(shù)。

        (三)實(shí)驗(yàn)結(jié)果及分析

        通過對AHP-Based Bagging和SMOTEBagging在27個數(shù)據(jù)集下10折交叉檢驗(yàn)的結(jié)果進(jìn)行平均,本文得到了模型在TPR、F1-Measure、G-mean、AUC四個指標(biāo)上的平均表現(xiàn)以及模型的平均集成規(guī)模,如圖4所示。圖例中AHPB表示AHP-Based Bagging,SMTB表示SMOTEBagging,AHPB.BPNN表示以BPNN為基分類器的AHP-Based Bagging模型,其他模型名稱含義類似。

        從圖中可以看出,無論是以BPNN、LR還是SVM作為基分類器,AHP-Based Bagging在TPR上的表現(xiàn)都要優(yōu)于SMOTEBagging,尤其是在以BPNN作為基分類器時表現(xiàn)出了較大的優(yōu)勢;在F1-Measure和G-mean上,AHP-Based Bagging能有和SMOTEBagging基本一致甚至更好的表現(xiàn);在AUC上,僅在以SVM作為基分類器時,AHP-Based Bagging的值要比SMOTEBagging低,而且隨著Bag數(shù)的增多差距也在減小。

        圖4 AHP-Based Bagging與SMOTEBagging對比實(shí)驗(yàn)結(jié)果

        表3是在0.05的置信度上對AHP-Based Bagging模型和SMOTEBagging模型在各指標(biāo)上的表現(xiàn)差異進(jìn)行成對T檢驗(yàn)的結(jié)果。表中“↑”和“↓”分別表示AHP-Based Bagging的表現(xiàn)相比于SMOTEBagging的表現(xiàn)有顯著的提高和下降,“—”表示二者的表現(xiàn)沒有顯著差異。

        表3 AHP-Based Bagging與SMOTEBagging的成對T檢驗(yàn)結(jié)果

        從表中可以發(fā)現(xiàn),在TPR上,只在Bag數(shù)較少時存在差異不顯著的情況,隨著Bag數(shù)的增多,AHPBased Bagging在TPR上的表現(xiàn)都是顯著優(yōu)于SMOTE Bagging的。在F1-Measure和G-mean上,兩種Bagging模型的表現(xiàn)是無顯著差異的。而在AUC的表現(xiàn)上,兩種Bagging模型的差異會由于基分類器類型的不同而不同,以BPNN作為基分類器時,一開始AHP-Based Bagging的優(yōu)勢并不明顯,隨著Bag數(shù)的增多,從Bag數(shù)為60以后,AHP-Based Bagging的表現(xiàn)開始顯著優(yōu)于SMOTEBagging的表現(xiàn);在以LR作為基分類器時,AHP-Based Bagging的表現(xiàn)從一開始就要顯著優(yōu)于SMOTEBagging;而以SVM作為基分類器時,AHP-Based Bagging的AUC表現(xiàn)都要顯著差于SMOTEBagging,直到Bag數(shù)為70以后,差異才變得不顯著。

        通過以上分析可以知道,AHP-Based Bagging能比SMOTEBagging有更好的TPR表現(xiàn),同時整體表現(xiàn)也不會變差,甚至能有所提高,但提升效果會受兩個因素的影響。一是Bag數(shù),Bag數(shù)越多,訓(xùn)練的基分類器越多,AHP-Based Bagging越容易比SMOTEBagging表現(xiàn)好;二是用于作為基分類器的分類模型的穩(wěn)定性,分類模型越不穩(wěn)定,提升效果越好,在以BPNN和LR作為基分類器時,能在顯著提高TPR表現(xiàn)的同時維持模型在F1-Measure、G-mean和AUC上的表現(xiàn),而在以SVM作為基分類器時,只有訓(xùn)練更多的基分類器,AHP-Based Bagging才能在不顯著降低AUC表現(xiàn)的情況下有比SMOTEBagging更好的TPR表現(xiàn)。這兩個因素能影響提升效果的原因在于它們直接影響著Bagging模型中基分類器的多樣性,Bag數(shù)越多或是作為基分類器的分類模型越不穩(wěn)定,得到的基分類器的表現(xiàn)越多樣化,從中選出符合要求的基分類器的可能性就越大,AHP-Based Bagging相比于SMOTEBagging的提升效果也就越好。

        AHP-Based Bagging不僅有更好的TPR表現(xiàn),還有著更小的集成規(guī)模(Ensemble Size)。集成規(guī)模指的是訓(xùn)練好的Bagging模型中所包含的基分類器的數(shù)量。圖4中最后一行是在不同Bag數(shù)設(shè)置下AHP-Based Bagging和SMOTEBagging模型的集成規(guī)模對比??梢园l(fā)現(xiàn)SMOTEBagging由于是對所有的基分類器進(jìn)行集成,所以最終訓(xùn)練完成的模型中所包含的基分類器的數(shù)量與Bag數(shù)是一致的,而AHP-Based Bagging通過對基分類器進(jìn)行選擇性集成,在同樣的Bag數(shù)下,訓(xùn)練完成后的集成規(guī)模明顯比SMOTEBagging模型的集成規(guī)模要小,經(jīng)過計(jì)算,以BPNN、LR和SVM作為基分類器時,AHP-Based Bagging模型的集成規(guī)模分別只有SMOTEBagging模型的52.4%、51.3%和52.0%。更小的集成規(guī)模使得AHP-Based Bagging模型在實(shí)際應(yīng)用中占用的計(jì)算資源更少,預(yù)測速度也更快。

        四、結(jié)論

        AHP方法在傳統(tǒng)決策領(lǐng)域有著廣泛的應(yīng)用,本文將AHP方法引入到SMOTEBagging模型中,綜合考慮多個評價(jià)指標(biāo),對基分類器進(jìn)行選擇性集成,構(gòu)造了AHP-Based Bagging模型。通過在27個不同數(shù)據(jù)背景、不同樣本不平衡率的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),本文發(fā)現(xiàn)這樣的結(jié)合不僅大幅降低了訓(xùn)練完成后模型的集成規(guī)模,當(dāng)基分類器具有足夠的多樣性時,還能在不犧牲模型整體預(yù)測表現(xiàn)的同時,顯著提高對少類樣本的預(yù)測準(zhǔn)確率(TPR),因此在少類樣本更為重要的數(shù)據(jù)不平衡問題中,如信用風(fēng)險(xiǎn)預(yù)測、疾病診斷等,AHP-Based Bagging模型相比于SMOTEBagging模型具有更強(qiáng)的實(shí)用性和更好的預(yù)測效果。

        對傳統(tǒng)決策方法與集成學(xué)習(xí)相結(jié)合的模型研究,本文只是在前人的基礎(chǔ)上做了有限的推進(jìn),在以后的研究中還有很多可以嘗試的點(diǎn),比如這種結(jié)合在基分類器類型不同的集成學(xué)習(xí)模型中是否會有更好的表現(xiàn),又比如在基分類器評價(jià)的過程中考慮其他決策方法,或者研究是否有其它更合適的評價(jià)指標(biāo)和閾值確定方法,以選出更合適的基分類器來實(shí)現(xiàn)更好的集成效果等,希望能在以后的研究工作中能做更深入的探索。

        猜你喜歡
        分類器權(quán)重樣本
        用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
        權(quán)重常思“浮名輕”
        推動醫(yī)改的“直銷樣本”
        為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
        BP-GA光照分類器在車道線識別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        基于公約式權(quán)重的截短線性分組碼盲識別方法
        隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        村企共贏的樣本
        国产精品黑丝高跟在线粉嫩| 久久这里有精品国产电影网 | 中文字幕一区二区在线| 亚洲av日韩一卡二卡| 无码欧美毛片一区二区三| 妺妺窝人体色www在线图片| 青青青国产免A在线观看| 日本一级片一区二区三区| 人妻 偷拍 无码 中文字幕| 欧美巨大xxxx做受l| 久久久久亚洲AV片无码乐播 | 亚洲av成人片无码网站| 夜夜爽一区二区三区精品| 国产精品久久无码免费看| 国产人妻久久精品二区三区老狼 | 91精品国产综合久久国产| 亚洲精品一区二区三区麻豆| 国产香蕉尹人在线观看视频| 免青青草免费观看视频在线 | 国产一区二区三区在线综合视频| 一本一道波多野结衣av中文| 无码av免费永久免费永久专区| 亚洲精品在线一区二区三区| 成年av动漫网站18禁| 一本一道波多野结衣一区| 亚洲AV日韩AV高潮喷潮无码| 青青草手机在线观看视频在线观看 | 国产乱对白刺激视频| 五月天精品视频在线观看| 日本一区二区三本视频在线观看| 久久精品国产亚洲av四叶草| 国产精品无码午夜福利| 精品熟女少妇免费久久| 水蜜桃网站视频在线观看| 国产超碰女人任你爽| 成人精品一级毛片| 91久久国产露脸国语对白| 免费乱理伦片在线观看| 亚洲国产无线乱码在线观看 | 国产三级av在线播放| 日韩在线免费|