亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)SMOTE自適應(yīng)集成的信用風(fēng)險(xiǎn)評估模型

        2022-08-16 07:02:08于勤麗于海征
        關(guān)鍵詞:樣本數(shù)分類器準(zhǔn)確率

        于勤麗,于海征

        (新疆大學(xué) 數(shù)學(xué)與系統(tǒng)科學(xué)學(xué)院,烏魯木齊 830000)

        0 引言

        隨著大數(shù)據(jù)相關(guān)技術(shù)在金融行業(yè)的應(yīng)用與普及,各種基于創(chuàng)新模式的互聯(lián)網(wǎng)金融產(chǎn)品得以真正落地和大范圍推廣。作為互聯(lián)網(wǎng)金融的重要技術(shù)應(yīng)用,基于大數(shù)據(jù)的信用評估在消除潛在風(fēng)險(xiǎn)中發(fā)揮著巨大的作用。在此背景下,如何借助數(shù)據(jù)手段對違約用戶進(jìn)行高效、準(zhǔn)確的識別,從而更好地規(guī)避風(fēng)險(xiǎn),是要探討的核心問題。

        在數(shù)據(jù)層面對不平衡數(shù)據(jù)處理主要是通過重采樣方法[1-3]。重采樣按照采樣方式大致可分為三大類,分別為過采樣、欠采樣和混合采樣。Chawla等[4]在2002年提出SMOTE(synthetic minority over-sampling)過采樣方法,該算法合成的少數(shù)類樣本是通過在少數(shù)類樣本和其近鄰樣本之間的隨機(jī)插值得到的。SMOTE采樣有效緩解了隨機(jī)過采樣方法重復(fù)增加相同樣本的缺點(diǎn),但合成的樣本不可避免的在少數(shù)類樣本聚集處合成更多的新樣本。Han等[5]在2005年提出了Borderline-SMOTE算法,該算法是在生成新樣本的過程中只針對危險(xiǎn)樣本進(jìn)行過采樣以增強(qiáng)分類邊界,從而減少噪聲樣本的數(shù)量,Borderline-SMOTE算法相比于SMOTE算法考慮了邊界樣本學(xué)習(xí)困難的特點(diǎn)。He等[6]在2008年提出自適應(yīng)過采樣(adaptive synthetic sampling approach,ADASYN)算法,ADASYN算法與SMOTE算法不同,后者對每個(gè)少數(shù)類樣本生成相同數(shù)量的新樣本,而ADASYN是根據(jù)數(shù)據(jù)集特點(diǎn)自動(dòng)決定每個(gè)少數(shù)類樣本生成的新樣本數(shù)量,該算法考慮了與多數(shù)類距離很近的少數(shù)類樣本,并通過合成更多處于邊界位置的樣本來提高模糊樣本的分類準(zhǔn)確率,以實(shí)現(xiàn)提高分類精度的目的。SMOTE-D過采樣方法是Torres等[7]在2016年提出來的,通過估算少數(shù)類樣本的離散度(基于距離的標(biāo)準(zhǔn)偏差),以確定少數(shù)類中的每個(gè)樣本周圍應(yīng)生成多少個(gè)樣本,以及在每個(gè)樣本和近鄰樣本之間應(yīng)創(chuàng)建多少個(gè)樣本。SMOTE-D是SMOTE的確定性版本,在數(shù)據(jù)集的不平衡率小于0.1時(shí),性能要優(yōu)于SMOTE 算法。王亮等[8]在2020年提出DB-MCSMOTE算法,該算法先對少數(shù)類樣本進(jìn)行DBSCAN聚類,然后在各個(gè)簇中進(jìn)行采樣。張家偉等[9]在2020年提出了一種過采樣方法,通過確定每個(gè)樣本的相對位置,然后根據(jù)樣本權(quán)值決定生成的樣本數(shù)量。該算法緩解了ADASYN算法過于關(guān)注模糊樣本的缺點(diǎn)。

        信用風(fēng)險(xiǎn)評估模型是基于數(shù)據(jù)構(gòu)建模型來提高違約用戶的識別率,從而減少企業(yè)的資金損失。Wiginton[10]在1980年提出建立基于Logistic回歸算法的信用風(fēng)險(xiǎn)評估模型,該模型通過與傳統(tǒng)線性判別作對比發(fā)現(xiàn),Logistic準(zhǔn)確性更高,實(shí)用性更強(qiáng)。丁嵐等[11]在2017年基于Stacking集成模型對網(wǎng)貸違約狀況進(jìn)行了預(yù)測,并利用人人貸數(shù)據(jù)做了實(shí)證分析,發(fā)現(xiàn)所建模型能顯著降低一類和二類錯(cuò)誤概率。Han等[12]在2005年提出了基于Stacking的信用風(fēng)險(xiǎn)評估模型,將XGBoost基分類器的訓(xùn)練結(jié)果作為第二層的輸入特征之一,元分類器是Logistic模型,模型第一層使用了交叉驗(yàn)證防止過擬合現(xiàn)象的出現(xiàn)。He等[13]在2018年提出了基于數(shù)據(jù)集不平衡率的集成模型,選擇的基分類器是隨機(jī)森林和XGBoost模型,并用粒子群算法對基模型進(jìn)行參數(shù)優(yōu)化。Guo等[14]在2019年建立了多階段自適應(yīng)分類器集成模型,所提出的模型可以分為3個(gè)主要階段,并通過粒子群算法進(jìn)行參數(shù)優(yōu)化,提高了模型的調(diào)參效率。與單個(gè)分類器和其他集成分類方法相比,該模型具有更好的性能和更好的數(shù)據(jù)適應(yīng)性,為相關(guān)金融機(jī)構(gòu)提供了有效的決策支持。Abhijeet等[15]在2019年提出了兩級信用風(fēng)險(xiǎn)評估模型,其基本思想是用第一級分類器選擇出異常的信用卡用戶,后將異常值在支持向量機(jī)上進(jìn)行二次訓(xùn)練。兩級數(shù)據(jù)挖掘模型是以最大限度減少誤判為前提,其準(zhǔn)確率較高,但訓(xùn)練過程相對比較復(fù)雜。

        綜上所述,利用過采樣方法在模型訓(xùn)練之前進(jìn)行平衡化處理是改善不平衡數(shù)據(jù)分類性能的重要方法,同時(shí)基于集成模型構(gòu)建的信用風(fēng)險(xiǎn)評估模型可提高少數(shù)違約樣本的識別率。

        主要的研究工作如下:

        1)針對 SMOTE 等過采樣方法對每個(gè)少數(shù)類合成相同數(shù)量新樣本以及合成邊界噪聲樣本的缺點(diǎn),提出改進(jìn)的 SMOTE 過采樣方法。首先根據(jù)每個(gè)少數(shù)類樣本所處的位置來確定樣本的質(zhì)量;然后根據(jù)分類樣本的質(zhì)量計(jì)算其生成的新樣本數(shù);最后對生成新樣本的位置做了調(diào)整,通過在近鄰樣本和類中心之間進(jìn)行插值,實(shí)現(xiàn)新樣本位置向類中心遷移,避免在分類模糊區(qū)域合成新樣本。

        2)根據(jù)數(shù)據(jù)集的特點(diǎn)自適應(yīng)的為信用風(fēng)險(xiǎn)評估模型選擇準(zhǔn)確率高且互補(bǔ)性強(qiáng)的最佳基分類器,并使用最佳基分類器構(gòu)建Stacking集成模型。

        3)在模型驗(yàn)證方面,分別進(jìn)行了兩大類實(shí)驗(yàn)。第一類是SMOTE過采樣和改進(jìn)的SMOTE過采樣方法在Stacking模型下的對比,結(jié)果顯示,改進(jìn)的 SMOTE過采樣方法生成的少數(shù)類樣本質(zhì)量更高。第二類實(shí)驗(yàn)是針對不同基分類器構(gòu)建的Stacking 模型,結(jié)果顯示JC指標(biāo)挑選出的基分類器所構(gòu)成的Stacking集成模型性能更優(yōu)。

        1 理論知識

        1.1 SMOTE算法

        SMOTE是一種合成少數(shù)類樣本的算法,具體思想是根據(jù)不平衡數(shù)據(jù)集的不平衡率確定采樣率,然后根據(jù)插值公式合成新樣本,具體過程如下:

        步驟1根據(jù)數(shù)據(jù)集的不平衡率設(shè)置采樣率;

        步驟2確定少數(shù)類樣本xi的k個(gè)近鄰樣本xij;

        步驟3在樣本xi和其k個(gè)近鄰樣本xij之間進(jìn)行隨機(jī)線性插值,插值公式如下:

        xnew=xi+(xi-xij)*rand(0,1)

        (1)

        1.2 ADASYN算法

        ADASYN算法的基本思想是根據(jù)少數(shù)類樣本周圍多數(shù)類樣本的數(shù)量決定每個(gè)少數(shù)類樣本合成的新樣本數(shù)量。

        步驟2計(jì)算合成的新樣本總數(shù)N:

        N=d×α,α∈[0,1]

        (2)

        步驟3根據(jù)歐氏距離計(jì)算少數(shù)類樣本xi的K個(gè)近鄰樣本xij,并計(jì)算每個(gè)少數(shù)類樣本的γi:

        (3)

        其中:Δi表示K個(gè)近鄰樣本中的多數(shù)類樣本數(shù);

        步驟5計(jì)算每個(gè)少數(shù)類樣本合成的樣本數(shù)量:

        (4)

        步驟6根據(jù)插值公式生成新樣本。

        1.3 Stacking集成模型介紹

        Stacking模型由兩層組成,第一層模型稱為基模型,第二層模型稱為元模型[16]。Stacking集成模型的思想是,組合多個(gè)基分類器的輸出結(jié)果,并將其作為第二層元分類器的輸入,以得到一個(gè)更好的輸出結(jié)果。

        Stacking集成模型的第一層基模型最好是強(qiáng)模型,也就是在選擇基模型的時(shí)候盡量滿足準(zhǔn)確率高且模型差距大,這樣既能保證模型的準(zhǔn)確率,又能通過不同的基模型來提高模型的泛化性能。為了避免過擬合問題,可選用簡單分類器作為第二層的元模型。如果直接使用基模型產(chǎn)生的輸出作為元分類器的訓(xùn)練集,會(huì)加大過擬合風(fēng)險(xiǎn)。因此,一般使用K折交叉驗(yàn)證來產(chǎn)生元分類器的訓(xùn)練集。

        以5折交叉驗(yàn)證為例來說明,首先將初始訓(xùn)練集分成5折,基分類器在前4折數(shù)據(jù)上進(jìn)行訓(xùn)練,并在剩下的一折上進(jìn)行預(yù)測,保證每一折數(shù)據(jù)都做了一次預(yù)測數(shù)據(jù)集,然后將預(yù)測結(jié)果拼在一起,得到元分類器訓(xùn)練集的一個(gè)特征,依此循環(huán)將每個(gè)基分類器的預(yù)測結(jié)果拼接,最終得到的元分類器訓(xùn)練集的維數(shù)跟基分類器的維數(shù)相等。

        2 改進(jìn)的SMOTE過采樣方法

        傳統(tǒng)的SMOTE過采樣方法不考慮數(shù)據(jù)集的分布,每個(gè)少數(shù)類合成相同數(shù)量的新樣本。這會(huì)導(dǎo)致新合成樣本聚集在少數(shù)類樣本聚集的位置。再加上SMOTE過采樣方法未考慮少數(shù)類樣本的質(zhì)量,不可避免地引入過多噪聲樣本,給后期的模型訓(xùn)練帶來麻煩。針對SMOTE過采樣方法的缺點(diǎn),提出了一種改進(jìn)的SMOTE過采樣方法,它根據(jù)數(shù)據(jù)集的分布決定每個(gè)少數(shù)類樣本合成的樣本數(shù),并通過遷移式插值減少噪聲樣本的生成。

        2.1 計(jì)算新生成樣本數(shù)步驟

        設(shè)訓(xùn)練樣本集為T={(x1,y1),…,(xn,yn)},每個(gè)樣本有p個(gè)特征,其中少數(shù)類樣本數(shù)為n1,多數(shù)類樣本數(shù)為n2。

        輸入:訓(xùn)練集T;

        輸出:每個(gè)少數(shù)類樣本生成的新樣本數(shù)量;

        Step 1:計(jì)算需要合成的少數(shù)類樣本數(shù)N:

        N=(n2-n1)*α,α∈[0,1]

        (5)

        Step 2:計(jì)算少數(shù)類樣本的類中心xcenter1和多數(shù)類樣本的類中心xcenter2的公式為:

        (6)

        Step 3:計(jì)算Di:

        (7)

        Step 4:歸一化處理:

        (8)

        2.2 改進(jìn)的SMOTE過采樣算法步驟

        設(shè)訓(xùn)練集為T={(x1,y1),…,(xn,yn)},y=(0,1)。其中,少數(shù)類樣本集為T1={(x1,y1),…,(xn1,yn1)},多數(shù)類樣本集為T2={(x1,y1),…,(xn2,yn2)}。

        輸入:合成的樣本數(shù)量Mi,少數(shù)類樣本集T1;

        輸出:新合成的少數(shù)類樣本集Tnew;

        Step 1:對第i個(gè)少數(shù)類樣本數(shù)量xi,選擇其Mi個(gè)k近鄰樣本xij,j=1,2,…,k;

        Step 2:對Mi個(gè)近鄰樣本按照合成公式生成新樣本xnew:

        xnew=xij+(xij-xcenter1)×rand(0,1)

        (9)

        Step 3:將生成的新樣本xnew加入少數(shù)類樣本集T1中,得到新的少數(shù)類樣本集Tnew。

        合成新樣本的過程如圖1所示,通過在少數(shù)類中心跟xi的近鄰樣本之間進(jìn)行隨機(jī)插值產(chǎn)生。

        圖1 合成少數(shù)類樣本的插值過程示意圖

        2.3 評價(jià)指標(biāo)

        混淆矩陣是機(jī)器學(xué)習(xí)中總結(jié)分類模型預(yù)測結(jié)果的表格,其中行表示預(yù)測值,列表示真實(shí)值,以二分類為例,混淆矩陣元素如表1所示。

        表1 混淆矩陣元素

        基于混淆矩陣還可以產(chǎn)生很多指標(biāo),選用其中的AUC、accuracy和f1-score作為分類器性能的評價(jià)指標(biāo)。AUC值是roc曲線下方的面積,AUC值不會(huì)隨著類別分布的改變而改變,更好地反映不平衡數(shù)據(jù)的分類效果。AUC值越接近于1,分類效果越好。accuracy和f1-score的定義如下:

        (10)

        (11)

        accuracy表示預(yù)測正確的樣本數(shù)占樣本總數(shù)的比例,是分類問題中最簡單直觀的評價(jià)指標(biāo)。f1-score指標(biāo)綜合考慮了precision與recall。只有二者表現(xiàn)都很好時(shí),f1-score值才大,才能對不平衡數(shù)據(jù)做出更合理的評價(jià)。

        2.4 數(shù)據(jù)集

        使用了UCI數(shù)據(jù)庫的9個(gè)數(shù)據(jù)集對算法的有效性做出驗(yàn)證,表2描述了每個(gè)數(shù)據(jù)集的詳細(xì)信息,即數(shù)據(jù)集的特征數(shù)、少數(shù)類樣本數(shù)、多數(shù)類樣本數(shù)和不平衡率。

        表2 實(shí)驗(yàn)中使用的數(shù)據(jù)集

        2.5 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

        為驗(yàn)證本節(jié)改進(jìn)的SMOTE算法的有效性,分別對9個(gè)數(shù)據(jù)集做SMOTE、Borderline-SMOTE和ADASYN平衡化處理,并對處理后的數(shù)據(jù)進(jìn)行隨機(jī)森林(RF)訓(xùn)練。對有多個(gè)類別的數(shù)據(jù)集,選擇其中一類為少數(shù)類,其余剩下的所有樣本作為多數(shù)類,訓(xùn)練集和測試集的樣本數(shù)比例為7∶3。對比采用方法為SMOTE、Borderline-SMOTE和ADASYN采樣方法,用Python現(xiàn)有的工具包,本文算法用Python編程實(shí)現(xiàn)。實(shí)驗(yàn)結(jié)果見表3,表中AUC、accuracy和f1-score的最優(yōu)值用加黑粗體表示。通過實(shí)驗(yàn)結(jié)果可以得出如下結(jié)論:

        表3 隨機(jī)森林分類器實(shí)驗(yàn)結(jié)果

        1)Vehicle和Ionosphere數(shù)據(jù)集維度高,Blood、CMC和Diabetes數(shù)據(jù)集維度相對較小,經(jīng)過采樣后,隨機(jī)森林分類器在不同維度的數(shù)據(jù)集上分類情況并沒有明顯差別,可見維度對本文算法合成新樣本的質(zhì)量影響不大,可以提高少數(shù)類樣本和整體樣本的分類性能。

        2)在Blood、Diabetes、Ionosphere和CMC數(shù)據(jù)集上本文算法性能較好,尤其是在Blood數(shù)據(jù)集上,隨機(jī)森林分類器在AUC、f1-score和accuracy這3個(gè)指標(biāo)上都達(dá)到了最優(yōu)。而以上幾個(gè)數(shù)據(jù)集相比于其他數(shù)據(jù)集,不同類別之間分布更加均衡,合成樣本時(shí)引入噪聲樣本少,進(jìn)而后續(xù)模型的訓(xùn)練準(zhǔn)確率較高。但是在Vowel數(shù)據(jù)集上,本文算法在隨機(jī)森林分類器上的訓(xùn)練結(jié)果沒有明顯提升,推測這與Vowel數(shù)據(jù)集不平衡率過高有關(guān)。

        3 自適應(yīng)集成的信用風(fēng)險(xiǎn)評估模型

        3.1 自適應(yīng)集成的信用風(fēng)險(xiǎn)評估模型

        Stacking模型在實(shí)際應(yīng)用中表現(xiàn)出很高的模型性能,但是仍有不足之處。利用K折交叉驗(yàn)證法在一定程度上能解決Stacking算法直接使用初級學(xué)習(xí)器預(yù)測結(jié)果作為訓(xùn)練集[17-19]所帶來的模型過擬合問題。如果基模型之間差異太小,很難保證模型最終的泛化性能。因此,為最大程度提高模型的準(zhǔn)確率和泛化性能,提出在模型訓(xùn)練之前,根據(jù)數(shù)據(jù)的特點(diǎn)為模型自適應(yīng)的選擇基模型,選擇的基模型既要保證準(zhǔn)確率,又要存在一定的差異性。

        Jaccard系數(shù)用來比較樣本集之間的相似性與差異性,在實(shí)際應(yīng)用中,可用來比較布爾值屬性對象之間的距離,Jaccard系數(shù)越大,兩集合的相似度越高,反之越小。Jaccard系數(shù)定義為:

        (12)

        其中:A表示A集合,B表示B集合。

        Jaccard距離是Jaccard系數(shù)的相反定義,Jaccard 距離越大,集合之間樣本的相似度越低,用公式表示為:

        (13)

        余弦相似度度量可用來衡量2個(gè)對象之間的相似程度,余弦值越小,說明相似度越大,定義如下:

        (14)

        余弦相似度與歐式距離相比,從空間方向上對2個(gè)對象進(jìn)行了區(qū)分,余弦相似度對絕對數(shù)值并不敏感,這正好與集合僅有0和1數(shù)值相契合。

        Jaccard系數(shù)[20]這個(gè)指標(biāo)的計(jì)算效率較高。通過組合Jaccard距離和余弦相似度來得到模型差異性度量指標(biāo),稱其為JC指標(biāo),其中集合表示的是負(fù)類樣本分類結(jié)果的集合。

        JC=J(A,B)*cos(θ)

        (15)

        在模型訓(xùn)練之前,首先根據(jù)給定閾值,把準(zhǔn)確率超過給定閾值的分類器保留下來,然后根據(jù)分類器之間的差異性度量也就是JC指標(biāo)來選擇基分類器。由于不同分類器在不同數(shù)據(jù)集上的表現(xiàn)不同,分類準(zhǔn)確率差距較大,閾值的確定要根據(jù)不同數(shù)據(jù)的實(shí)際情況來考慮,金融背景之下的數(shù)據(jù)經(jīng)過平衡化處理后在不同模型上的訓(xùn)練準(zhǔn)確率較高,在3.3.2節(jié)中的給定閾值確定為0.85。

        為了最大程度保證基分類器的差異性,在第二階段要選擇相似度最小的組合,然后再從其余未被選中的分類器集合中依次挑選分類器計(jì)算其相似度值,直到循環(huán)結(jié)束?;谀P筒町愋赃x擇的Stacking的算法流程見圖2。

        圖2 Stacking算法流程框圖

        基于模型差異性選擇的Stacking模型算法步驟如下:

        設(shè)訓(xùn)練樣本集為T={(x1,y1),…,(xn,yn)},備選分類器為L1,L2,…,Lm。

        輸入:訓(xùn)練集T和備選分類器L1,L2,…,Lm;

        輸出:基于模型差異性選擇的Stacking模型;

        Step 1:在訓(xùn)練集T上訓(xùn)練m個(gè)備選分類器Li;

        Step 2:計(jì)算m個(gè)備選分類器的準(zhǔn)確率,將準(zhǔn)確率高于給定閾值的備選分類器挑選出來;

        Step 3:計(jì)算第一層所挑選分類器的JC指標(biāo),根據(jù)JC指標(biāo)的值將差異度大的分類器作為基分類器,挑選出來的基分類器為為L1,L2,…,Lt;

        Step 4:利用K折交叉驗(yàn)證訓(xùn)練基模型為L1,L2,…,Lt,并得到第二層元分類器的輸入數(shù)據(jù)T′,T′用于下一步元分類器的訓(xùn)練;

        Step 5:在輸入數(shù)據(jù)T′上訓(xùn)練元分類器,得到最終模型。

        3.2 數(shù)據(jù)集

        本節(jié)采用Lending Club官網(wǎng)上的數(shù)據(jù)做實(shí)證分析,數(shù)據(jù)取自2019年第一季度,數(shù)據(jù)集中包含 115 675條樣本,每個(gè)樣本有150維特征,其中 loan-status為目標(biāo)變量,本節(jié)是利用其他變量對目標(biāo)變量情況做出預(yù)測,來決定樣本是否能獲得貸款。2.5節(jié)使用的9個(gè)數(shù)據(jù)集作為不平衡數(shù)據(jù)來驗(yàn)證改進(jìn)的SMOTE算法的有效性,非信用風(fēng)險(xiǎn)方面的數(shù)據(jù),不參與本節(jié)信用風(fēng)險(xiǎn)評估模型的驗(yàn)證。

        在Lending Club原始數(shù)據(jù)集中,loan-status 有7種狀態(tài),其具體含義如表4所示。將其中的fully paid狀態(tài)、current狀態(tài)作為正常用戶,其他狀態(tài)作為違約用戶。

        表4 Loan-status的狀態(tài)及含義

        3.3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

        先對Lending Club原始數(shù)據(jù)做了預(yù)處理,對缺失數(shù)據(jù)根據(jù)缺失情況進(jìn)行了相應(yīng)處理,并進(jìn)行兩次特征選擇,以最大化選擇有效特征。

        根據(jù)缺失數(shù)據(jù)的比例以及變量的重要性分別采用了刪除法與填補(bǔ)法處理缺失值。對無意義特征和觀測值相同的特征直接對其刪除,由于特征缺失過多的數(shù)據(jù)所含信息過少,經(jīng)過缺失值填補(bǔ)也會(huì)帶來誤差等問題,直接刪除了缺失率大于50%的特征。對于缺失值大于等于8個(gè)特征的樣本,也采用刪除法直接剔除樣本,共刪除了85個(gè)樣本。經(jīng)過缺失值刪除和無關(guān)變量剔除之后,數(shù)據(jù)集還包含 115 590個(gè)樣本和83維特征,其中13個(gè)特征包含缺失數(shù)據(jù),對這些數(shù)據(jù)進(jìn)行缺失值填補(bǔ)。

        特征選擇采用了遞歸式特征消除,遞歸消除特征后挑選了40個(gè)特征。由于較多的變量可能會(huì)帶來冗余信息,第二次特征選擇采用主成分分析以實(shí)現(xiàn)最大程度減少信息冗余,提高模型的訓(xùn)練效率。

        預(yù)處理后的數(shù)據(jù)集包含115 590條樣本,特征維數(shù)為30,多數(shù)類樣本數(shù)為106 715,少數(shù)類樣本數(shù)為8 875,數(shù)據(jù)的不平衡率為0.083 2,屬于較為嚴(yán)重的不平衡數(shù)據(jù)。

        3.3.1過采樣技術(shù)在Stacking分類算法下的比較

        為了控制SMOTE過采樣和改進(jìn)的SMOTE過采樣,對比實(shí)驗(yàn)的其他變量,更好地比較2種采樣算法,這里把SMOTE和改進(jìn)的SMOTE算法的采樣倍數(shù)都設(shè)為1,SMOTE過采樣后少數(shù)類和多數(shù)類的樣本數(shù)都是106 715,改進(jìn)的SMOTE過采樣方法生成的少數(shù)類樣本數(shù)為97 854。

        Stacking模型的第一層基模型選用了樸素貝葉斯、決策樹、邏輯回歸,第二層元分類器選擇邏輯回歸。決策樹采用CART算法,max-depth樹最大深度設(shè)為39,max-leaf-nodes最大葉子節(jié)點(diǎn)數(shù)為30,邏輯回歸的penalty正則化項(xiàng)默認(rèn)為L2正則化項(xiàng),正則化系數(shù)的倒數(shù)、迭代終止閾值等設(shè)為默認(rèn)值,在SMOTE過采樣和改進(jìn)的SMOTE過采樣后的數(shù)據(jù)上進(jìn)行模型訓(xùn)練,模型訓(xùn)練過程中保持模型參數(shù)設(shè)置一致,模型訓(xùn)練結(jié)果如表5所示。

        表5 不同過采樣算法模型訓(xùn)練結(jié)果

        改進(jìn)的 SMOTE 過采樣算法處理后的數(shù)據(jù)在 Stacking模型上的訓(xùn)練效果整體要優(yōu)于SMOTE 過采樣處理的數(shù)據(jù),在accuracy、f1-score和AUC值上表現(xiàn)要優(yōu)于SMOTE過采樣算法。

        3.3.2改進(jìn)的SMOTE與基于模型差異性選擇的 Stacking模型

        為了挑選出更適合構(gòu)建Stacking模型的基分類器,在3.3.1節(jié)實(shí)驗(yàn)所用的基分類器基礎(chǔ)之上又加入了3個(gè)模型,這樣基分類器池中就有了6個(gè)基分類器,分別為KNN、隨機(jī)森林、支持向量機(jī)、樸素貝葉斯、決策樹和邏輯回歸模型。為了提高模型的訓(xùn)練效率,在這里隨機(jī)抽取了30%的數(shù)據(jù)。

        下面先單獨(dú)訓(xùn)練6個(gè)基分類器,表6展示了6個(gè)模型的訓(xùn)練結(jié)果,可看出樸素貝葉斯的分類效果不如其他分類器,而隨機(jī)森林模型分類效果明顯優(yōu)于其他模型。這與隨機(jī)森林利用多個(gè)決策樹共同分類決策密不可分。同時(shí),隨機(jī)森林因多棵決策樹對多樣性的保證提高了模型的泛化性能,因而分類效果要好于其他分類器。

        表6 基模型訓(xùn)練結(jié)果

        基于模型差異性選擇的Stacking模型首先剔除在Lending Club數(shù)據(jù)集上分類情況較差的基分類器,根據(jù)實(shí)驗(yàn)結(jié)果是將樸素貝葉斯和決策樹模型從基分類池中移除,根據(jù)JC指標(biāo)挑選出的基分類器模型為KNN、隨機(jī)森林、支持向量機(jī),同時(shí)為了減少過擬合,集成所用的元分類器為邏輯回歸模型,最后模型的訓(xùn)練結(jié)果如表7所示。

        表7 基于模型差異性選擇的Stacking模型訓(xùn)練結(jié)果

        為了更好地展示基于模型差異性選擇基分類器對Stacking整體模型的訓(xùn)練效果,下面將其與其他基分類器構(gòu)建的Stacking進(jìn)行對比實(shí)驗(yàn),參數(shù)保持不變,只改變基分類器。對比實(shí)驗(yàn)所用的兩組基分類器分別為KNN、邏輯回歸和隨機(jī)森林,邏輯回歸、隨機(jī)森林和支持向量機(jī)。以KNN、邏輯回歸和隨機(jī)森林為基分類器構(gòu)造的Stacking模型記為Stacking 1,以邏輯回歸、隨機(jī)森林和支持向量機(jī)為基分類器構(gòu)造的Stacking模型記為Stacking 2,根據(jù)JC指標(biāo)挑選的基分類器構(gòu)造的模型記為Stacking 3。

        實(shí)驗(yàn)結(jié)果如表8所示,圖中用黑色加粗標(biāo)記同一指標(biāo)下性能好的模型,Stacking 2模型在recall指標(biāo)下的性能要優(yōu)于Stacking 3模型,Stacking 3模型在accuracy、f1-score和AUC值上的表現(xiàn)要好于Stacking 1和Stacking 2模型,f1-score綜合了recall與precision這2個(gè)指標(biāo),更具有說服力?;诸惼鞒刂刑蕹诸惽闆r較差的基分類器保證了構(gòu)成集成模型的基模型的準(zhǔn)確率,同時(shí)根據(jù)JC指標(biāo)挑選出的基分類器模型減少了過擬合現(xiàn)象。因此,實(shí)驗(yàn)結(jié)果表明根據(jù)JC指標(biāo)挑選的基分類器對構(gòu)建Stacking模型具有參考價(jià)值。

        表8 3種Stacking模型實(shí)驗(yàn)結(jié)果

        4 結(jié)論

        基于SMOTE過采樣和自適應(yīng)集成模型對不平衡數(shù)據(jù)做出合理的分類預(yù)測將會(huì)給金融行業(yè)帶來商業(yè)價(jià)值。不僅能幫助金融行業(yè)減少違約、欺詐用戶帶來的經(jīng)濟(jì)損失,還有助于留住行業(yè)內(nèi)的正常用戶,能有效提高行業(yè)競爭力。

        在Lending Club數(shù)據(jù)集的實(shí)證分析中,改進(jìn)的 SMOTE過采樣方法處理后的平衡化數(shù)據(jù)在后期模型訓(xùn)練上表現(xiàn)優(yōu)異,同時(shí)基于JC指標(biāo)選擇的基分類器在Stacking模型構(gòu)建方面性能高。但改進(jìn)的SMOTE過采樣算法在不平衡程度過高的數(shù)據(jù)集上合成的新樣本不能很好地遵循數(shù)據(jù)的原始分布,分類準(zhǔn)確率提升效果一般,后期有待改進(jìn)。

        猜你喜歡
        樣本數(shù)分類器準(zhǔn)確率
        勘 誤 聲 明
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        高速公路車牌識別標(biāo)識站準(zhǔn)確率驗(yàn)證法
        BP-GA光照分類器在車道線識別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        三時(shí)間間隔圓錐補(bǔ)償姿態(tài)更新算法性能分析
        田間鑒定雜交棉品種純度的適宜時(shí)期和樣本數(shù)
        天天躁日日躁狠狠躁av麻豆| 精品理论一区二区三区| 亚洲av网站在线免费观看| 中国一级特黄真人片久久| 99精品国产一区二区| 久久久精品3d动漫一区二区三区| 成在线人免费视频播放| 国产一区二区三区在线观看第八页| 免费成人在线电影| 久久天天躁狠狠躁夜夜爽蜜月| 国产一级片内射在线视频| 日本精品免费看99久久| 亚洲人成色7777在线观看不卡| 中国一级免费毛片| 成人精品国产亚洲av久久| 久久综网色亚洲美女亚洲av| 亚洲av麻豆aⅴ无码电影| 国产一级免费黄片无码AV| 日韩中文字幕一区在线| 狠狠躁天天躁无码中文字幕图| 人妻少妇被猛烈进入中文字幕| 国产在线视频h| 中国亚洲av第一精品| 日本19禁啪啪吃奶大尺度| 亚洲综合一区二区三区四区五区| 亚洲免费人成网站在线观看| av素人中文字幕在线观看| 国产情侣久久久久aⅴ免费| 精品无吗国产一区二区三区av| 人妻av在线一区二区三区| 人妻 偷拍 无码 中文字幕| 免费现黄频在线观看国产| 在线观看中文字幕一区二区三区 | 少妇愉情理伦片丰满丰满| 亚洲日韩∨a无码中文字幕| 人妻少妇av中文字幕乱码免费| 国产av久久在线观看| 无套内射无矿码免费看黄| 国产无遮挡又黄又爽免费网站| 四虎永久在线精品免费观看地址| 精品国产夫妻自拍av|