亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于組合特征選擇的隨機(jī)森林信用評估①

        2022-05-10 12:12:44饒姍姍冷小鵬
        關(guān)鍵詞:樣本數(shù)特征選擇森林

        饒姍姍,冷小鵬

        (成都理工大學(xué) 計算機(jī)與網(wǎng)絡(luò)安全學(xué)院(牛津布魯克斯學(xué)院),成都 610051)

        當(dāng)下是金融經(jīng)濟(jì)的飛速發(fā)展時代,個人信用評估數(shù)據(jù)普遍表現(xiàn)為高維度、高復(fù)雜度等特點,無關(guān)、冗余的評價因子會直接影響信用評估模型的準(zhǔn)確性,而評價因子的優(yōu)劣取決于特征選擇方法的選擇是否合理、全面.目前常用的特征選擇方法包括過濾法(filter)、包裹法(wrapper)、嵌入法(embedded)[1].Filter 方法利用統(tǒng)計學(xué)方法評估變量與預(yù)測變量間的關(guān)系,該方法優(yōu)勢在于計算簡單、速度快;wrapper 方法通過對生成的子特征組合與其他組合進(jìn)行比較,依賴于學(xué)習(xí)算法的準(zhǔn)確度;embedded 方法是通過在訓(xùn)練模型的過程中根據(jù)準(zhǔn)確度學(xué)習(xí)并選擇出最優(yōu)的特征組合.本文選用的信息量模型(information value)與XGBoost (extreme gradient boosting)分別是Filter和Embedded 方法的實現(xiàn).結(jié)合兩種不同的特征選擇方法不僅能夠提高輸入變量的有效性同時增強(qiáng)了整個模型的可解釋性.

        近二十年來,信用風(fēng)險評估方法主要分為兩部分:統(tǒng)計學(xué)方法和機(jī)器學(xué)習(xí)方法.Fernandes 等[2]利用邏輯回歸算法建立了信用評估模型,并通過實驗證實了logistic 算法在信貸評估業(yè)務(wù)的可行性,成為了主流的統(tǒng)計學(xué)方法之一.郭暢[3]將IV與Lasso-Logistic 結(jié)合,通過IV 排除風(fēng)險識別能力、穩(wěn)定性較差的變量,整體提升了信用預(yù)測模型的效果.然而隨著信息技術(shù)的迅猛發(fā)展,傳統(tǒng)的統(tǒng)計學(xué)評分模型暴露出3 個主要問題:一是模型單一;二是處理數(shù)據(jù)維度較小;三是主要以專家評價法為主,預(yù)測結(jié)果缺乏客觀性[4];為了解決這些問題,學(xué)者們嘗試將機(jī)器學(xué)習(xí)建模技術(shù)應(yīng)用在個人信用評估業(yè)務(wù)中,其中主要包括決策樹[5]、BP 神經(jīng)網(wǎng)絡(luò)[6]、支持向量機(jī)(SVM)[7]等模型,但單一機(jī)器學(xué)習(xí)模型處理的數(shù)據(jù)維度和預(yù)測精度有限,為決定該問題,集成算法逐漸應(yīng)用在個人信用評估領(lǐng)域中.Twala[8]、Zhu 等[9]使用5 類信用數(shù)據(jù)證實了集成算法在信用評估領(lǐng)域表現(xiàn)出更優(yōu)的預(yù)測效果并且多個分類器組合顯著提高了整個模型的學(xué)習(xí)能力;蕭超武等[10]基于組合分類模型隨機(jī)森林(RF),發(fā)現(xiàn)RF 模型分類準(zhǔn)確率、穩(wěn)定性更高,并且噪聲容忍度高,訓(xùn)練過程中能夠效避免過擬合現(xiàn)象.周永圣等[11]首次將XGBoost和隨機(jī)森林模型兩種不同的集成算法融入到信用評估中,證實了XGBoost 算法基于特征重要性能有效剔除信用數(shù)據(jù)冗余變量,但該實驗缺少對比實驗且變量選取較隨意、可靠性較低.李欣等[12]提出一種基于改進(jìn)網(wǎng)格搜索優(yōu)化的XGBoost模型,實驗結(jié)果顯示F-score和G-mean均優(yōu)于其他機(jī)器學(xué)習(xí)模型,進(jìn)一步表明集成算法的優(yōu)越性.

        鑒于個人信用數(shù)據(jù)維度高、變量冗余度高的特點,本文采用IV-XGBoost 組合特征選擇方法對隨機(jī)森林模型進(jìn)行優(yōu)化,不僅避免了傳統(tǒng)特征選擇方法的單一性同時能夠更好解決數(shù)據(jù)維度過高的問題;IV 值剔除冗余、無預(yù)測能力的變量,XGBoost 利用變量打分機(jī)制篩選變量,采樣逐步排除法輸出最優(yōu)特征集,相比根據(jù)特征重要性排名隨意選取的方法,該組合特征選擇模型更加合理并且可信度高;此外超參數(shù)組合會直接影響RF 模型的預(yù)測效果,利用網(wǎng)格-5 折對RF 中的重要參數(shù)進(jìn)行參數(shù)尋優(yōu).最后實驗結(jié)果表明基于新型的組合特征選擇方法的隨機(jī)森林相比其他單一的機(jī)器學(xué)習(xí)方法以及原始的集成算法有著更高的穩(wěn)定性和預(yù)測準(zhǔn)確率.

        1 特征選擇理論與方法

        1.1 證據(jù)權(quán)重(WOE)與信息價值(IV)

        WOE (weight of evidence)即為證據(jù)權(quán)重,通過編碼的方式將自變量表示成其對目標(biāo)變量的區(qū)分程度的形式.根據(jù)WOE值大小反映某屬性對目標(biāo)的影響,若同一屬性的不同劃分標(biāo)準(zhǔn)計算出的WOE值越大,則表明該屬性對目標(biāo)屬性的區(qū)分度越大,其計算公式:

        其中,WOE(x)是變量進(jìn)行分箱處理后第i組的WOE值,其中pyi是該組未響應(yīng)樣本(‘未違約客戶’)占比;pni是響應(yīng)樣本(‘違約客戶’)占比;yi是某變量第i個屬性對應(yīng)的未響應(yīng)樣本數(shù),yT是所有未響應(yīng)樣本數(shù);ni是某變量第i個屬性對應(yīng)的響應(yīng)樣本數(shù),nT是是所有響應(yīng)樣本數(shù).

        信息量(IV)是基于WOE 算法改進(jìn)的衡量指標(biāo),其計算本質(zhì)是某變量所有屬性的WOE值加權(quán)求和,其值大小反映了變量對目標(biāo)變量的預(yù)測能力.IV 通常應(yīng)用在風(fēng)控模型中評價因子的選擇,其計算公式:

        其中,WOEi是某變量進(jìn)行離散化處理后第i組的WOE 值;其中yi是某變量第i個屬性對應(yīng)的未響應(yīng)樣本數(shù);T是所有未響應(yīng)樣本數(shù);ni是某變量第i個屬性對應(yīng)的響應(yīng)樣本數(shù);nT所有響應(yīng)樣本數(shù).

        1.2 XGBoost 特征選擇

        1.2.1 算法原理

        XGBoost[13]是基于梯度提升算法GBDT 改進(jìn)的新型集成學(xué)習(xí)算法,其主要算法思想是將多個分類精度較低的子樹模型進(jìn)行迭代組合從而構(gòu)建出準(zhǔn)確度、穩(wěn)定性更強(qiáng)的模型.XGBoost 在GBDT的原目標(biāo)函數(shù)上加入了正則項,因此加快了收斂效率的同時降低過擬合風(fēng)險.其變換后的公式如下:

        式(4)計算所有子樹的復(fù)雜度總和,其中Ω (f)是正則化項;N代表子樹中葉子節(jié)點個數(shù);λ代表了葉子節(jié)點權(quán)重O的懲罰系統(tǒng)值;γ是衡量樹的分割難度大小,用于控制樹生長.

        XGBoost與GBDT的不同之處在于前者是以泰勒公式二階導(dǎo)展開,從而加快了函數(shù)收斂速度且提高了模型預(yù)測準(zhǔn)確度,其變換后目標(biāo)函數(shù)為:

        其中,Ij∈{q(Xi)=j},hi為[l(α)]′′,gi為[l(α)]′.

        1.2.2 XGBoost 特征選擇原理

        機(jī)器學(xué)習(xí)中特征選擇是建模工作中至關(guān)重要的環(huán)節(jié),XGBoost 采用梯度提升的原理對樣本進(jìn)行分類,該模型是根據(jù)計算各個變量的重要性來進(jìn)行特征選擇,其主要原理是子樹節(jié)點在分裂的同時計算其信息增益量,并選擇差值最大的指標(biāo)作為下一次的分裂屬性,直到完成全部計算.本文根據(jù)XGBoost 計算后輸出的特征重要性排名,由低到高逐個加入到特征集并計算RF模型準(zhǔn)確度,選取準(zhǔn)確度最高的特征集作為最終特征選擇的結(jié)果.

        2 改進(jìn)的隨機(jī)森林個人信用評估模型

        2.1 隨機(jī)森林算法

        隨機(jī)森林是Breiman[14]提出的基于樹的集成學(xué)習(xí)算法,根據(jù)特征數(shù)對每個樣本選取分裂指標(biāo)進(jìn)而構(gòu)建單棵子樹.隨機(jī)森林旨在集成多個弱分類器來構(gòu)建一個強(qiáng)分類器,各個基分類器之間相互互補(bǔ),降低了方差以及過擬合的風(fēng)險,從而提高模型的性能.

        RF是在Bagging 集成學(xué)習(xí)和隨機(jī)子空間的基礎(chǔ)上進(jìn)一步優(yōu)化的集成學(xué)習(xí)算法,由服從獨立同分步隨機(jī)向量 θi生成的i棵樹{Wi(x,θi),i=1,2,3,···},i棵子樹最終形成集成樹模型.RF 模型的最終結(jié)果采用基分類器中平均票數(shù)最多的結(jié)果作為輸出.隨機(jī)森林模型算法流程如下:

        (1)采用Bootstrap 方法有放回的從總量為W的訓(xùn)練集中隨機(jī)抽取形成N個子訓(xùn)練集 {Ni},i∈{1,2,3,4,5,···,k}每個訓(xùn)練子樣本對應(yīng)一棵CART 樹.

        (2)隨機(jī)森林由i棵分類樹構(gòu)成,每棵分類樹的子節(jié)點在進(jìn)行分裂時隨機(jī)選擇分裂指標(biāo)數(shù)n(n≤M),其中M為總樣本的指標(biāo)個數(shù),根據(jù)衡量指標(biāo)大小選擇最優(yōu)分割指標(biāo)進(jìn)行劃分.

        (3)不斷重復(fù)步驟(2),直至森林中所有的子樹構(gòu)建完成.

        (4)由i棵子樹形成最終隨機(jī)森林,將待測試樣本引入構(gòu)建好的隨機(jī)森林,最終結(jié)果采用投票選舉的方式產(chǎn)生.其最終的決策函數(shù)Prf(X)由式(6)得出:

        其中,w(X,θi)為單個分類決策樹;l(·)為指標(biāo)函數(shù)表示滿足式子的樣本總數(shù);k為待建子樹棵數(shù);Y為目標(biāo)變量,解釋為是否違約;θi是隨機(jī)變量.

        隨機(jī)森林的決策結(jié)果取決于每一棵子樹的訓(xùn)練結(jié)果,分裂指標(biāo)的選取決定了分裂標(biāo)準(zhǔn),隨機(jī)森林一般采用基尼指數(shù)(Gini),其大小衡量了各節(jié)點混亂程度,其計算如下:

        其中,p(y|c)為客戶類別y在子樹c節(jié)點的條件概率;一般來說基尼指數(shù)越大,表明在該節(jié)點處的數(shù)據(jù)越趨向均勻分布,樣本越純;當(dāng)Gini指數(shù)為0 時,表明該節(jié)點所有樣本均為一個類.

        2.2 改進(jìn)的RF 模型流程

        基于IV-XGBoostRF的個人信用評估算法模型流程圖(如圖1),其運行步驟如下:

        圖1 IV-XGBoost-RF 模型

        步驟(1)剔除異常值、重復(fù)值、缺失值,對數(shù)據(jù)中的連續(xù)型變量采用最優(yōu)決策樹分箱進(jìn)行離散化、歸一化.

        步驟(2)采用皮爾遜相關(guān)分析排除變量間的強(qiáng)相關(guān)變量進(jìn)而排除變量間共線性可能;同時進(jìn)行WOE 編碼以及計算分箱后各變量屬性的IV 值,并通過IV 值篩選產(chǎn)生初步的特征集;根據(jù)XGBoost 輸出該特征集的重要性完成組合特征選擇.

        步驟(3) 利用超參數(shù)曲線確定森林大小參數(shù)n_estimators、網(wǎng)格搜索確定其他重要參數(shù);為了減少訓(xùn)練集、測試集劃分的隨機(jī)性,實驗過程采用五折交叉驗證,將數(shù)據(jù)集A隨機(jī)分為5 份訓(xùn)練樣本,A1,A2,…,A5,每一個樣本Ai都逐次作為訓(xùn)練數(shù)據(jù),其余為測試數(shù)據(jù).

        步驟(4)模型評估.

        3 實證分析

        3.1 實驗數(shù)據(jù)

        實驗數(shù)據(jù)集來自UCI 德國某銀行信用數(shù)據(jù),利用該數(shù)據(jù)集驗證改進(jìn)的隨機(jī)森林模型的可行性,數(shù)據(jù)集主要從個人基本信息、賬戶信息、貸款信息3 個方面對客戶進(jìn)行描述,樣本大小為1 000 個樣本,其中正例700 例,反例300,不平衡率為2.3,具體的指標(biāo)信息如表1所示.

        表1 數(shù)據(jù)集信息說明

        3.2 數(shù)據(jù)預(yù)處理與分析

        (1)變量分箱

        選用最優(yōu)決策樹分箱,通過比較Gini系數(shù)大小決定分箱點,對數(shù)據(jù)集中R2 (貸款期限)、R5 (貸款金額)、R13 (年齡) 3 個連續(xù)型變量進(jìn)行決策樹分箱同時計算IV、WOE 值,結(jié)果如表2所示.

        表2 貸款期限R2與貸款金額R5 及年齡R13 證據(jù)權(quán)重

        (2)皮爾遜相關(guān)分析

        根據(jù)計算得到各變量間相關(guān)性系數(shù)范圍為0.01-0.4,各指標(biāo)間關(guān)聯(lián)性均呈弱相關(guān),因此排除變量間共線性可能.同時結(jié)果顯示支票賬戶情況、貸款期限、信用記錄特征與是否違約相關(guān)度較高.

        3.3 特征選擇

        基于IV-XGBoost 進(jìn)行特征篩選,具體步驟如下:

        (1)根據(jù)信息價值計算公式分別計算20 個指標(biāo)對應(yīng)IV 值(如表3),剔除信息量小于0.02的特征,即R17、R19、R11、R18,剩余16 個待篩選特征.

        表3 各指標(biāo)IV 值大小及排名

        (2)根據(jù)圖2中XGBoost 對16 個特征的重要性排名結(jié)果,采用逐步減小變量個數(shù)(如表4),以準(zhǔn)確度作為衡量標(biāo)準(zhǔn)最終選擇XGBoost 重要性排名前14的特征(加粗為準(zhǔn)確度最高).

        圖2 XGBoost 特征重要性排序

        表4 特征數(shù)量選擇及模型準(zhǔn)確度 (%)

        3.4 模型性能評估

        經(jīng)過信息值IV 以及XGBoost 特征選擇后保留了14 個信用評估特征,使用超參數(shù)學(xué)習(xí)曲線結(jié)合網(wǎng)格搜索確定RF 模型重要參數(shù)n_estimators=104、max_features=4、min_samples_split=3,該參數(shù)組合下的RF 評估性能最優(yōu).為了進(jìn)一步驗證改進(jìn)后的隨機(jī)森林模型的性能,實驗分別與其他五種機(jī)器學(xué)習(xí)模型相比較;實驗過程采用五折交叉驗證減小隨機(jī)性對結(jié)果的影響,據(jù)此作以下分析:

        (1)根據(jù)表5實驗結(jié)果,改進(jìn)后的隨機(jī)森林的準(zhǔn)確度分別高于默認(rèn)參數(shù)下的隨機(jī)森林、邏輯回歸、支持向量機(jī)、BP 神經(jīng)網(wǎng)絡(luò)模型0.90%、3.80%、2.70%、1.30%.

        表5 5 種模型實驗結(jié)果

        (2)ROC 曲線用來衡量模型分類性能優(yōu)劣的一種圖像,ROC 曲線越靠近左上方模型分類效果越好;其ROC 曲線下方于X、Y 軸圍成的面積為AUC 值,其范圍在0-1 之間,AUC 值越高表明模型性能越優(yōu).圖3顯示改進(jìn)的隨機(jī)森林模型AUC 值高于其他模型,其AUC 值為到0.971,ROC 曲線更靠近左上方.

        圖3 5 種模型ROC 曲線

        (3)未改進(jìn)的隨機(jī)森林模型F-score為0.874 2,改進(jìn)后隨機(jī)森林F-score為0.895 7,有明顯的提升.

        4 結(jié)論與展望

        本文提出了組合特征選擇的方法,首次將傳統(tǒng)的風(fēng)控指標(biāo)-信息價值(IV)和新型集成學(xué)習(xí)方法XGBoost相結(jié)合,以隨機(jī)森林作為信用評估器.現(xiàn)針對提出的改進(jìn)方法作以下幾點總結(jié):

        (1)根據(jù)組合特征選擇結(jié)果總結(jié)出銀行系統(tǒng)應(yīng)該更關(guān)注貸款與賬戶相關(guān)信息,如支票賬戶狀態(tài)、信用記錄、貸款期限、貸款目的、儲蓄賬戶情況、固定資產(chǎn)等銀行賬戶等因素;個人基本信息中更關(guān)注就業(yè)情況、婚姻狀況因素.符合常理.

        (2)基于IV-XGBoost的組合特征選擇方法相比直接通過分類算法的特征重要性排序剔除特征更加合理且符合業(yè)務(wù)邏輯;同時 IV 計算量小且簡單,當(dāng)數(shù)據(jù)維度較大時,可以有效地減少模型訓(xùn)練時間從而進(jìn)一步提高算法整體性能.

        (3)與未改進(jìn)的隨機(jī)森林模型比較,改進(jìn)的隨機(jī)森林模型Accuracy 平均值提高0.90%,F-score 提高了2.15%,AUC 提高了0.20%,證實本文提出的IVXGBoost 組合特征選擇方法的有效性和可行性.

        不足以及未來展望:1)本文的實驗還有一些不足,由于條件有限實驗數(shù)據(jù)集較小,僅能證實特征選擇方法和集成模型有效性和可行性,在大數(shù)據(jù)集上該組合特征選擇的效率高低并未得到證實;2)面對大數(shù)據(jù)集的個人信用數(shù)據(jù),能否將大數(shù)據(jù)技術(shù)與集成學(xué)習(xí)算法相結(jié)合也是未來研究的主要方向.

        猜你喜歡
        樣本數(shù)特征選擇森林
        勘 誤 聲 明
        哈Q森林
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        哈Q森林
        哈Q森林
        哈Q森林
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        三時間間隔圓錐補(bǔ)償姿態(tài)更新算法性能分析
        田間鑒定雜交棉品種純度的適宜時期和樣本數(shù)
        基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
        波多野结衣不打码视频| 亚洲国产av自拍精选| 国产一区二区亚洲一区| 国产精品婷婷久久爽一下| 麻豆果冻传媒在线观看| 自拍偷拍亚洲一区| 老熟女多次高潮露脸视频| 1234.com麻豆性爰爱影| 亚洲成人av一区免费看| 激情综合色五月丁香六月欧美| 亚洲人成无码www久久久| 白色橄榄树在线免费观看| 亚洲高清在线观看免费视频| 91九色熟女潮喷露脸合集| 国产电影一区二区三区| 中国亚洲女人69内射少妇| 国产一区二区三区杨幂| 久久免费亚洲免费视频| 国产亚洲精品精品精品| 久久ri精品高清一区二区三区| 少妇被粗大猛进进出出| 91三级在线观看免费| 成人欧美一区二区三区| 亚洲一区视频在线| 精品专区一区二区三区| 亚洲中文字幕午夜精品| 福利体验试看120秒| 美女爽好多水快进来视频| 手机av在线播放网站| 男人扒开添女人下部免费视频| 日产精品久久久久久久| av在线网站手机播放| 伊人久久精品亚洲午夜| 午夜成人精品福利网站在线观看| 人妻少妇一区二区三区| 日本一区二区三区爱爱视频| 亚洲色大成网站www永久网站| 久久久久这里只有精品网| 国产内射视频免费观看| 亚洲国产精品无码久久一区二区| 日日av拍夜夜添久久免费|