亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向信貸不平衡數(shù)據(jù)的高斯混合欠采樣算法

        2020-02-08 06:54:48旭,賈寧,朱
        關(guān)鍵詞:魯棒性高斯分類器

        韓 旭,賈 寧,朱 寧

        (天津大學(xué) 管理與經(jīng)濟(jì)學(xué)部,天津 300072)

        0 引 言

        數(shù)據(jù)不平衡現(xiàn)象的出現(xiàn)導(dǎo)致傳統(tǒng)的分類器難以在信貸領(lǐng)域獲得良好的性能。目前解決不平衡分類問題的策略可以分為4類:數(shù)據(jù)重采樣、代價(jià)敏感方法、算法級方法、集成策略[1-9]。在文獻(xiàn)中受到廣泛關(guān)注的是數(shù)據(jù)重采樣方法。它可以獨(dú)立地執(zhí)行數(shù)據(jù)預(yù)處理和分類器來訓(xùn)練任務(wù)。根據(jù)Galar等[10]對許多著名的方法進(jìn)行了比較研究,數(shù)據(jù)預(yù)處理方法與分類器的組合的性能比其它方法更好,并且側(cè)重于數(shù)據(jù)角度有利于人們的理解和實(shí)現(xiàn)。在重采樣策略中,欠采樣已被證明是比過采樣更好的選擇[11]。然而欠采樣也存在將重要信息刪除的可能性。為了克服欠采樣的局限性,文獻(xiàn)[12]考慮了利用Kmeans聚類算法來優(yōu)化欠采樣策略。但Kmeans算法有局限性,由于Kmeans算法是根據(jù)各個(gè)樣本距離聚類中心的距離來進(jìn)行聚類,并依據(jù)此進(jìn)行刪減數(shù)據(jù),這樣會(huì)破壞掉兩類數(shù)據(jù)之間的空間結(jié)構(gòu),造成邊界樣本的損失,影響分類的效果。

        基于此,本文提出一種基于高斯混合聚類的欠采樣方法(GMMUSA)。第一,本文利用了高斯混合模型作為聚類算法核心來提高算法精度。在保證多數(shù)類的空間結(jié)構(gòu)不變的情況下,根據(jù)聚類集群的聚集程度適當(dāng)?shù)貏h除冗余樣本,從而減少多數(shù)類的大小。第二,金融領(lǐng)域存在大量的不平衡數(shù)據(jù),將關(guān)注點(diǎn)放置于信貸不平衡問題上的研究相對匱乏。本文將其應(yīng)用在了真實(shí)業(yè)務(wù)的信貸數(shù)據(jù)集中,使研究更加符合實(shí)際情況。實(shí)驗(yàn)結(jié)果表明,該算法有效改善了不平衡數(shù)據(jù)的分類問題,提升了傳統(tǒng)分類器的分類性能,有利于提升信貸風(fēng)險(xiǎn)領(lǐng)域的整體利益。

        1 相關(guān)理論研究

        1.1 不平衡分類問題

        不平衡分類問題是指訓(xùn)練樣本的數(shù)目在不同類別上分布的很不平衡時(shí),傳統(tǒng)的分類算法大多傾向于把樣本數(shù)較少類別的樣本錯(cuò)誤的分到樣本數(shù)較多的類別中。從而導(dǎo)致少數(shù)類樣本的分類正確率很低[13]。不平衡問題存在于許多應(yīng)用中,例如故障診斷[14]、醫(yī)學(xué)診斷[15]、制造業(yè)生產(chǎn)[16]、金融欺詐檢測[17]等。

        目前從已有的4類方法來看,數(shù)據(jù)重采樣方法是從數(shù)據(jù)層面著手,通過改變訓(xùn)練集樣本的分布,降低不平衡程度[18]。主要技術(shù)有兩種:欠采樣(under-sampling)和過采樣(over-sampling)技術(shù);代價(jià)敏感(cost-sensitive)算法主要考慮在分類中,針對不同類型的錯(cuò)誤分配不同的成本,使得分類中的高成本誤差的數(shù)量和誤差分類的成本最小。這種方法尚未被學(xué)者廣泛使用的主要原因是成本矩陣的建立是非常困難的[3-5];集成策略(ensemble strategy)則是通過組合多個(gè)學(xué)習(xí)器來解決相同的機(jī)器學(xué)習(xí)問題。集成策略具有很好的學(xué)習(xí)效果和很強(qiáng)的泛化能力[7]。目前大致可以分為兩類:串行生成的序列化方法(如Boosting)和并行化方法(如Bagging)[8],但是選擇哪種組合方法以及如何選擇基本學(xué)習(xí)器是一個(gè)挑戰(zhàn);另一種是算法級方法。此類方法通過創(chuàng)建新的分類器,或修改現(xiàn)有的分類以解決類失衡問題。這種方法很大程度上依賴于分類器的性質(zhì),并且該方法中的大部分工作都集中于解決特定的問題,此外開發(fā)新的算法或修改現(xiàn)有的算法是困難的[19,20]。

        1.2 高斯混合模型

        通過將基本的概率分布(例如高斯分布)進(jìn)行線性組合,可以被形式化為概率模型,這被稱為混合分布(mixture distributions)。為了使采樣算法產(chǎn)生的樣本與真實(shí)數(shù)據(jù)分布更加一致,所提出的采樣算法是基于高斯混合模型概率分布的。GMM參數(shù)估計(jì)的常用方法是期望最大化EM算法(expectation maximization algorithm)[21]。

        高斯混合模型是指多個(gè)高斯函數(shù)的線性組合。GMM可以看成是L個(gè)高斯分布在一定比例下的混合。每個(gè)高斯分量由平均μ和協(xié)方差矩陣δ確定

        (1)

        1.3 輪廓系數(shù)

        為了提高聚類的效率,引入輪廓系數(shù)(silhouette coefficient)來確定聚類的簇?cái)?shù)。輪廓系數(shù)是聚類的有效性度量。輪廓系數(shù)將數(shù)據(jù)集中的任一對象與本簇中其它對象的相似性以及該對象與其它簇中對象的相似性進(jìn)行量化,且將量化后的兩種相似性以某種形式組合,獲得聚類的優(yōu)劣評價(jià)標(biāo)準(zhǔn)。

        輪廓系數(shù)定義為

        Sil=(b(i)-a(i))/max(b(i),a(i))

        (2)

        Silhouettes=1時(shí),表示對象i與其它簇中的對象相異性較大。

        Silhouettes=0時(shí),表示對象i分類不明顯。

        Silhouettes=-1時(shí),表示對象i被分配到一個(gè)錯(cuò)誤的簇中。

        其中,a(i)是對象i與所屬集群的任何其它對象之間的平均相異性。此外b(i)是從i到任何不屬于其它簇的任何點(diǎn)的最低平均距離。輪廓系數(shù)在(1,1)的范圍內(nèi),較高的值表明對象與其自身的簇匹配良好,但與相鄰的簇不匹配。如果大多數(shù)對象具有高值輪廓系數(shù),則聚類配置是合適的。

        2 基于高斯混合聚類的欠采樣算法

        本文利用了一種基于高斯混合模型聚類的欠采樣方法解決了信貸數(shù)據(jù)集不平衡的問題,隨后進(jìn)行了建模分析。關(guān)于GMMUSA算法具體流程如圖1所示。

        圖1 GMMUSA算法流程

        在圖1中給出了基于高斯混合模型的欠采樣算法的流程圖。具體過程如下。算法的第一步是將基于K-折疊交叉驗(yàn)證方法的不平衡數(shù)據(jù)集劃分為訓(xùn)練集和測試集。第二步是將訓(xùn)練集劃分為一個(gè)多數(shù)類子集和一個(gè)少數(shù)類子集。其次,采用GMMUSA方法來減少多數(shù)類中的數(shù)據(jù)樣本數(shù)。然后將減少的多數(shù)類子集與原有的少數(shù)類子集相結(jié)合,得到均衡的訓(xùn)練集。最后,利用新的訓(xùn)練和測試集分別對分類器進(jìn)行訓(xùn)練和測試。

        GMMUSA算法的詳細(xì)步驟如下:

        步驟1 計(jì)算兩個(gè)類別之間的數(shù)據(jù)數(shù)目差異

        若數(shù)據(jù)集D中兩個(gè)類別的數(shù)據(jù)分別是DMajor和Dminority,則針對多數(shù)類樣本進(jìn)行欠采樣的樣本數(shù)量為Munder=DMajor-Dminority。

        步驟2 對多數(shù)類進(jìn)行欠采樣操作

        首先利用輪廓系數(shù)來決定多數(shù)類數(shù)據(jù)集需要聚成的類別個(gè)數(shù)。

        其次根據(jù)高斯混合聚類后的每個(gè)類別的樣本大小以及需要欠采樣數(shù)據(jù)的總量,按照比例確定每個(gè)子類的欠采樣數(shù)量。

        然后針對每個(gè)多數(shù)類的子類,刪除靠近聚類中心的樣本,這是因?yàn)樵诒WC不破壞子類的空間結(jié)構(gòu)信息的基礎(chǔ)之上,有必要減少冗余樣本的數(shù)量,刪除中心區(qū)域的部分樣本是因?yàn)槊總€(gè)子類的中心區(qū)域相對于其它地方更密集。因此它應(yīng)該具有更高的欠采樣概率,這樣就能保證在多數(shù)類數(shù)據(jù)被壓縮的同時(shí)保留代表性的邊界樣本。

        步驟3 合并數(shù)據(jù)集,形成新的樣本集

        通過圖2可以更好地解釋GMMUSA算法的性能。原始數(shù)據(jù)分布D如圖2(a)所示,其中三角形標(biāo)志位少數(shù)類樣本,圓圈標(biāo)志為多數(shù)類樣本。原始數(shù)據(jù)的分布相對分散,多數(shù)類數(shù)據(jù)遠(yuǎn)多于少數(shù)類數(shù)據(jù)。在圖2(b)中,針對數(shù)據(jù)集利用GMM建模和分解多數(shù)類數(shù)據(jù),將多數(shù)類數(shù)據(jù)分解兩個(gè)群體,分別進(jìn)行欠采樣,從而使多數(shù)類的一些冗余數(shù)據(jù)被刪除,并且空間的相對結(jié)構(gòu)沒有改變,緩解了兩類的不平衡關(guān)系。相對于傳統(tǒng)的利用Kmeans進(jìn)行聚類,GMM能夠更好地考慮數(shù)據(jù)的樣本分布情況,更加合理,效果更佳。

        圖2 采樣后的數(shù)據(jù)分布對比(例二維數(shù)據(jù)集)

        3 實(shí)驗(yàn)分析與驗(yàn)證

        3.1 數(shù)據(jù)集介紹

        本文一共選用了3個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。前兩個(gè)數(shù)據(jù)集是來自公開數(shù)據(jù)集UCI的小規(guī)模數(shù)據(jù)集,分別為澳大利亞(Australian)和德國(German)的信貸數(shù)據(jù)集。第3個(gè)數(shù)據(jù)集來自從某汽車金融公司得到的真實(shí)數(shù)據(jù)集(該公司是中國的消費(fèi)金融服務(wù)提供商,其主要業(yè)務(wù)是為個(gè)人提供汽車貸款服務(wù))。數(shù)據(jù)集基本信息見表1。

        表1 數(shù)據(jù)信息

        此外,為了更好探討數(shù)據(jù)的不平衡比例對算法的影響,本文通過減少原始數(shù)據(jù)集的部分樣本數(shù)來調(diào)整這兩個(gè)數(shù)據(jù)集的比例,并生成了幾個(gè)新的數(shù)據(jù)集來驗(yàn)證算法在不同不平衡比例下的分類性能,不同不平衡比例下的數(shù)據(jù)集信息見表2。

        表2 不同不平衡比例下的數(shù)據(jù)集

        最后,為了探究所提出算法的魯棒性,本文以German數(shù)據(jù)集為例,根據(jù)噪聲數(shù)據(jù)比例將數(shù)據(jù)集劃分成幾個(gè)子例進(jìn)行算法魯棒性分析,魯棒性分析數(shù)據(jù)信息見表3。

        表3 魯棒性分析數(shù)據(jù)信息

        3.2 模型性能評估度量

        分類模型的性能常用正確率來衡量,但是對于類別不平衡的數(shù)據(jù),用正確率度量會(huì)使多數(shù)類樣本占優(yōu)勢。所以在處理不平衡數(shù)據(jù)時(shí),僅僅使用正確率或者錯(cuò)誤率度量將會(huì)導(dǎo)致性能評價(jià)產(chǎn)生偏差。為了更準(zhǔn)確全面地評價(jià)非平衡學(xué)習(xí)性能,本文引入AUC標(biāo)準(zhǔn)來進(jìn)行評價(jià)。二分類問題的混淆矩陣見表4。

        表4 二分類問題的混淆矩陣

        注:TP表示被正確識(shí)別的正類數(shù)量,F(xiàn)N表示被錯(cuò)誤識(shí)別成負(fù)類的正類數(shù)量,F(xiàn)P表示被錯(cuò)誤識(shí)別成正類的負(fù)類數(shù)量,TN表示被正確識(shí)別的負(fù)類數(shù)量

        ROC曲線(receiver operating characteristic curve)是有效的性能評價(jià)指標(biāo)。ROC曲線的縱軸為真正例率(true positive rate,TPR),橫軸為假正例率(false positive rate,F(xiàn)PR)。

        結(jié)合表4,兩者的定義如下

        (3)

        (4)

        如果對多個(gè)分類器進(jìn)行評估,多條ROC曲線有時(shí)會(huì)出現(xiàn)部分區(qū)域相互交叉的現(xiàn)象,不利于優(yōu)劣的判斷,這時(shí)可以使用AUC(area under ROC curve)來評價(jià)。AUC是ROC曲線下的面積。AUC值越大,意味著分類器的預(yù)測性能越好。為此,本文采用AUC值來綜合評價(jià)分類器的整體性能。

        3.3 GMMUSA算法的性能驗(yàn)證

        3.3.1 不同的欠采樣算法的性能對比分析

        為了驗(yàn)證GMMUSA算法的有效性,除了與不進(jìn)行重采樣處理的原始數(shù)據(jù)進(jìn)行對比之外,本文還將其與目前常用的欠采樣算法進(jìn)行對比分析,分別為:NearMiss[22]、OneSided-Selection(OSS)[23]、TomekLinks[24]。此外由于本文采用了高斯混合模型進(jìn)行聚類從而確定刪減數(shù)據(jù)對象,所以在聚類算法中也選出了兩種常用的聚類算法進(jìn)行欠采樣來對比結(jié)果,分別為AffinityPropagation(AP)[25]、Kmeans。

        本實(shí)驗(yàn)采用在信貸風(fēng)險(xiǎn)領(lǐng)域常用的分類模型:邏輯斯特(Logistic)回歸模型和C4.5決策樹模型(DT)進(jìn)行預(yù)測。所有算法按照80/20比例劃分的測試集,并使用5折交叉驗(yàn)證,LR分類器和DT分類器結(jié)果見表5和表6。

        表5 LR分類器結(jié)果信息

        通過實(shí)驗(yàn)對比發(fā)現(xiàn),GMMSUA算法在11個(gè)數(shù)據(jù)集中都有良好的表現(xiàn),并且隨著數(shù)據(jù)的不平衡比例的增大,優(yōu)勢逐漸明顯,特別是不平衡比例最大的Enterprise data數(shù)據(jù)集。這是由于GMMUSA算法是基于數(shù)據(jù)的概率密度函數(shù)進(jìn)行采樣,所以其可以準(zhǔn)確估計(jì)真實(shí)的概率密度函數(shù),使聚類效果更佳,刪除的冗余樣本更精確。此外,GMMUSA算法表現(xiàn)比較穩(wěn)定,能適應(yīng)數(shù)據(jù)集的變化。

        3.3.2 算法對噪聲數(shù)據(jù)的魯棒性分析

        在現(xiàn)實(shí)世界中數(shù)據(jù)集不可避免地會(huì)具有很多噪聲數(shù)據(jù),噪聲數(shù)據(jù)是指樣本中含有錯(cuò)誤的值。為了系統(tǒng)地驗(yàn)證GMMUSA算法對噪聲數(shù)據(jù)的魯棒性,實(shí)驗(yàn)中人為地加入一些噪聲數(shù)據(jù),并調(diào)整噪聲數(shù)據(jù)的級別程度來測試GMMUSA算法對噪聲數(shù)據(jù)的魯棒性。該實(shí)驗(yàn)對原始數(shù)據(jù)集注入不同程度的噪音數(shù)據(jù),觀察算法的魯棒性,LR分類器和DT分類器詳細(xì)結(jié)果見表7和表8。

        通過表7和表8可以發(fā)現(xiàn)GMMUSA算法相對于其它算法具有更強(qiáng)的抗噪性,特別是在噪音級別較高的情況下,這是因?yàn)镚MMUSA考慮了數(shù)據(jù)的真實(shí)分布,可以保證兩類數(shù)據(jù)的空間結(jié)構(gòu)不變化前提下根據(jù)數(shù)據(jù)的聚集程度刪除數(shù)據(jù),從而減少了噪聲數(shù)據(jù)對采樣和分類學(xué)習(xí)的影響。

        表6 DT分類器結(jié)果分析

        表7 LR分類器結(jié)果信息

        表8 DT分類器結(jié)果信息

        4 結(jié)束語

        針對不平衡信貸數(shù)據(jù)集的分類問題,本文提出了一種基于高斯混合模型聚類的欠采樣算法。研究目的是驗(yàn)證在不改變類別空間結(jié)構(gòu)的基礎(chǔ)上刪除多數(shù)類的冗余信息的適應(yīng)性,并驗(yàn)證其在信貸數(shù)據(jù)集上的可行性。

        在實(shí)驗(yàn)中,本文將所提出的算法與其它傳統(tǒng)欠采樣方法進(jìn)行了比較,并研究了它們在某汽車金融機(jī)構(gòu)已放款的真實(shí)業(yè)務(wù)數(shù)據(jù)以及兩個(gè)UCI的公開信貸數(shù)據(jù)集中的表現(xiàn),并應(yīng)用兩種監(jiān)督學(xué)習(xí)方法(C4.5決策樹和Logistic回歸)進(jìn)行交叉驗(yàn)證建模和測試性能。實(shí)驗(yàn)結(jié)果表明,GMMUSA相較于其它方法對大多數(shù)信用數(shù)據(jù)集表現(xiàn)性能更好,對噪聲數(shù)據(jù)具有較強(qiáng)的魯棒性,算法描述更加全面且精度高于以往相關(guān)研究,是對以往相關(guān)研究的補(bǔ)充完善。

        未來可以考慮兩個(gè)問題。第一,由于信貸數(shù)據(jù)還存在維數(shù)過多的現(xiàn)象,可以考慮研究信貸數(shù)據(jù)的特征選擇問題。第二,可以研究多分類的不平衡分類問題。

        猜你喜歡
        魯棒性高斯分類器
        小高斯的大發(fā)現(xiàn)
        荒漠綠洲區(qū)潛在生態(tài)網(wǎng)絡(luò)增邊優(yōu)化魯棒性分析
        基于確定性指標(biāo)的弦支結(jié)構(gòu)魯棒性評價(jià)
        天才數(shù)學(xué)家——高斯
        BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        基于非支配解集的多模式裝備項(xiàng)目群調(diào)度魯棒性優(yōu)化
        西南交通大學(xué)學(xué)報(bào)(2016年6期)2016-05-04 04:13:11
        有限域上高斯正規(guī)基的一個(gè)注記
        丰满少妇a级毛片野外| 人妻少妇中文字幕av| 日日麻批免费高清视频| 欧洲多毛裸体xxxxx| 五月天激情婷婷婷久久| 一本大道久久东京热无码av| 亚洲天堂一二三四区在线| 亚洲一区毛片在线观看| 亚洲国产另类精品| 中文字幕无码人妻丝袜| 国产视频在线播放亚洲| 精品国产午夜肉伦伦影院| 欧美极品少妇无套实战| 国产乱人伦偷精品视频免| 加勒比一区二区三区av| 精品亚洲国产成人蜜臀av| 国产suv精品一区二人妻| 亚洲欧美日韩国产综合专区| 国产精品女同av在线观看| 少妇被粗大的猛进出69影院 | 国产精品久久久久久久久KTV| 日韩美女av二区三区四区| 久久综合久久综合久久| 久久久无码精品亚洲日韩按摩| 亚洲无毛片| av一区二区三区高清在线看| 久久久久人妻精品一区二区三区| 精品一区二区三区免费播放| 日韩偷拍一区二区三区视频| 亚洲精品在线97中文字幕| 国产亚av手机在线观看| 亚洲国产精品一区二区第四页 | 国产精品无码aⅴ嫩草| 亚洲中文字幕每日更新| 日本精品熟妇一区二区三区| 久久综合九色欧美综合狠狠| 亚洲啪啪综合av一区| 无码专区无码专区视频网址| 亚洲国产精品国自拍av| 亚洲精品一区国产欧美| 久久福利青草精品资源|