王 燦
(上海郵電設(shè)計(jì)咨詢研究院有限公司,上海 200093)
個(gè)人信用實(shí)際是借款人與金融機(jī)構(gòu)或出資方的隱形契約,能降低交易行為的成本[1]。但是當(dāng)信貸交易完成后,借款人未按期履約,將給貸款機(jī)構(gòu)造成損失。美國(guó)次貸金融危機(jī)以及國(guó)內(nèi)2018年以來(lái)多起P2P平臺(tái)“暴雷事件”,導(dǎo)致國(guó)內(nèi)外對(duì)個(gè)人信貸業(yè)務(wù)的開(kāi)展越發(fā)慎重。為了降低信用風(fēng)險(xiǎn),一套有效的個(gè)人信用評(píng)價(jià)體系及方法顯得尤為重要[2]。
與西方發(fā)達(dá)國(guó)家相比,我國(guó)個(gè)人信用評(píng)價(jià)體系、技術(shù)起步較晚,傳統(tǒng)人工經(jīng)驗(yàn)打分法已無(wú)法滿足迅猛發(fā)展的信貸業(yè)務(wù)。中辦國(guó)辦印發(fā)《關(guān)于推進(jìn)社會(huì)信用體系建設(shè)高質(zhì)量發(fā)展促進(jìn)形成新發(fā)展格局的意見(jiàn)》(2022)指出:支持金融、征信和評(píng)級(jí)等機(jī)構(gòu)運(yùn)用大數(shù)據(jù)等技術(shù)加強(qiáng)跟蹤監(jiān)測(cè)預(yù)警。同時(shí),在業(yè)界和學(xué)術(shù)界,構(gòu)建既符合信貸業(yè)務(wù)特點(diǎn)又高效可行的機(jī)器學(xué)習(xí)方法逐漸成為熱門研究課題。
該文以個(gè)人貸款業(yè)務(wù)為背景,將信用風(fēng)險(xiǎn)評(píng)估抽象為監(jiān)督學(xué)習(xí)下2類分類問(wèn)題,采用EasyEnsemble方法解決個(gè)人信用數(shù)據(jù)普遍存在的數(shù)據(jù)不平衡問(wèn)題,對(duì)多種單一模型集成進(jìn)行模型融合,采用準(zhǔn)確率、召回率等指標(biāo)對(duì)模型進(jìn)行評(píng)價(jià),以驗(yàn)證集成學(xué)習(xí)方法的有效性。
對(duì)監(jiān)督學(xué)習(xí)下的2類分類問(wèn)題來(lái)說(shuō),當(dāng)2種類別樣本數(shù)量差別較大時(shí),被稱為“數(shù)據(jù)不平衡”,即某一類樣本數(shù)遠(yuǎn)小于另一類樣本數(shù),可能會(huì)導(dǎo)致分類邊界受多數(shù)類樣本的影響[3]。
實(shí)際上,銀行、信貸機(jī)構(gòu)多數(shù)類數(shù)據(jù)樣本是非逾期客戶的信息,而逾期客戶占比大約為10%,存在嚴(yán)重的正負(fù)樣本不平衡問(wèn)題,例如在一個(gè)信用數(shù)據(jù)集中,多數(shù)類(非逾期)樣本有90個(gè),少數(shù)類(逾期)樣本只有10個(gè),將所有樣本都?xì)w為非逾期,識(shí)別準(zhǔn)確度可達(dá)到90%,這時(shí),準(zhǔn)確率雖然高,但是對(duì)貸款業(yè)務(wù)來(lái)說(shuō),其結(jié)果的意義不大。當(dāng)面對(duì)數(shù)據(jù)集不平衡時(shí),以SVM、LR等為代表的機(jī)器學(xué)習(xí)方法僅能得到次優(yōu)結(jié)果。
目前,有2個(gè)主流方法可以處理數(shù)據(jù)集不平衡問(wèn)題,即抽樣技術(shù)和代價(jià)敏感學(xué)習(xí)[4]。其中,抽樣技術(shù)可利用欠采樣方式進(jìn)行數(shù)據(jù)重構(gòu),使數(shù)據(jù)分類能達(dá)到平衡,即選擇少量的多數(shù)類樣本與少數(shù)類樣本構(gòu)成新的訓(xùn)練集,這種方法雖然使樣本整體比例均衡,但是該方法會(huì)使樣本數(shù)減少,導(dǎo)致信息缺失,讓某些特征不能較好地顯現(xiàn),最終使分類模型欠擬合。
為了避免欠擬合技術(shù)的缺陷,該文采用EasyEnsemble方法對(duì)不平衡數(shù)據(jù)進(jìn)行處理,該算法類似于隨機(jī)森林(Random Forest, RF)的Bagging方法。首先,將數(shù)據(jù)集劃分為多數(shù)類和少數(shù)類2個(gè)部分。其次,對(duì)多數(shù)類樣本進(jìn)行不放回抽樣,經(jīng)過(guò)n次操作后,生成n份子集。再次,將n份樣本子集分別與少數(shù)類樣本合并訓(xùn)練一個(gè)模型。最后,可以得到n個(gè)模型,以n個(gè)模型預(yù)測(cè)結(jié)果的平均值作為最終模型。進(jìn)行EasyEnsemble處理后,如果每組多數(shù)類與少數(shù)類樣本比值約為3∶1,根據(jù)文獻(xiàn)[5]可知,該比例適合進(jìn)行數(shù)據(jù)集訓(xùn)練。
集成學(xué)習(xí)方法是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)分支,具有一定的理論體系,主要思想為通過(guò)一定手段,訓(xùn)練得到多種單一學(xué)習(xí)模型(基分類器),要求這些基分類器為弱分類器(誤差率小于0.5),然后,將多種基分類器進(jìn)行排列組合,通過(guò)融合輸出結(jié)果來(lái)形成分類邊界,該分類結(jié)果往往比單一學(xué)習(xí)模型預(yù)測(cè)結(jié)果更好,即融合后的分類邊界將更接近真實(shí)邊界。
常見(jiàn)框架有Bagging模型和Boosting模型,簡(jiǎn)單來(lái)說(shuō),這2種方法就是通過(guò)“并聯(lián)”或“串聯(lián)”的結(jié)構(gòu)將基分類器進(jìn)行組合,并按照一定規(guī)則對(duì)最后的結(jié)果進(jìn)行融合,旨在提高模型的穩(wěn)定性或預(yù)測(cè)精度。其中,Bagging(Bootstrap Aggregating)由Breiman(1996)提出,主要按一定比例對(duì)訓(xùn)練集進(jìn)行重采樣,然后構(gòu)成不同的分類器,最后再按一定規(guī)則對(duì)結(jié)果進(jìn)行融合。
為了充分利用信用數(shù)據(jù),增強(qiáng)模型泛化能力,該文采用無(wú)放回的方式隨機(jī)抽取訓(xùn)練數(shù)據(jù),然后對(duì)不同分類器進(jìn)行集成,包括SVM、LR回歸、DT以及k-NN等,最終的分類(或回歸)結(jié)果是n個(gè)單獨(dú)分類器分類結(jié)果的“多數(shù)投票”。
該文以4種弱分類器為基分類器,分別是非對(duì)稱誤差成本的核支持向量機(jī)(Support Vector Machine,SVM)、邏輯斯蒂回歸(Logistic Regression, LR)、C5.0算法的決策樹(shù)(Decision Tree, DT)以及帶有距離加權(quán)的k-NN算法(k-Nearest Neighbor,k-NN)。
非對(duì)稱誤差成本的核SVM是在普通SVM模型基礎(chǔ)上,通過(guò)某些核函數(shù)轉(zhuǎn)化提高模型處理非線性問(wèn)題的能力,該文采用徑向基核。同時(shí),考慮信用評(píng)價(jià)時(shí)將逾期誤判為非逾期和將非逾期誤判為逾期的2種錯(cuò)誤分類的成本不同,因此在徑向基核SVM的基礎(chǔ)上,再引入非對(duì)稱誤差成本,即增加將高風(fēng)險(xiǎn)樣本誤判為低風(fēng)險(xiǎn)樣本的成本。這樣雖然降低了分類準(zhǔn)確率,但是更符合信貸業(yè)務(wù)的實(shí)際情況。
邏輯斯蒂回歸是一種經(jīng)典的機(jī)器學(xué)習(xí)模型,常用于解決監(jiān)督學(xué)習(xí)下的二分類問(wèn)題,LR模型是在普通線性回歸模型基礎(chǔ)上引入Sigmoid函數(shù),將線性回歸模型產(chǎn)生的數(shù)值帶入Sigmoid函數(shù),最后輸出[0, 1]的結(jié)果,以代表對(duì)應(yīng)樣本二分類概率。對(duì)信貸業(yè)務(wù)來(lái)說(shuō),該結(jié)果能反映樣本的違約概率,因此LR模型及其優(yōu)化被廣泛應(yīng)用于信貸業(yè)務(wù)。
C5.0算法的決策樹(shù)是一種經(jīng)典的分類方法,C5.0是其常見(jiàn)算法,主要是以信息熵的下降速度作為節(jié)點(diǎn)分裂準(zhǔn)則來(lái)構(gòu)建整個(gè)決策樹(shù)。同時(shí),為了降低模型過(guò)擬合風(fēng)險(xiǎn),對(duì)決策樹(shù)進(jìn)行剪枝,該文采用悲觀剪枝法,其使用統(tǒng)計(jì)置信區(qū)間的估計(jì)方法,在估計(jì)得到誤差后,C5.0算法以“減少誤差”為依據(jù)判斷是否剪枝。
帶有距離加權(quán)的k-NN算法是一般k近鄰法算法的改進(jìn),k近鄰法是通過(guò)計(jì)算距離得到的,新樣本與原數(shù)據(jù)集最近距離的k個(gè)樣本,將新樣本歸集到k個(gè)樣本中的多數(shù)類。但在分類時(shí),某一類樣本量遠(yuǎn)大于其他類別,該算法容易出現(xiàn)誤判。為了降低這一類誤判的風(fēng)險(xiǎn),該文在計(jì)算歐式距離時(shí),加入距離權(quán)重,對(duì)離新樣本距離更近的數(shù)據(jù)點(diǎn)賦予更高的權(quán)重,以減少數(shù)據(jù)不平衡對(duì)k-NN算法的影響。
對(duì)數(shù)據(jù)集進(jìn)行基分類器訓(xùn)練,采用不放回Bagging方法,將以上弱分類器以“并聯(lián)”的方式集成(圖1),并在調(diào)試參數(shù)過(guò)程中,給在集成模型中表現(xiàn)較好的分類器賦予更高的權(quán)重。其中,每個(gè)分類器的參數(shù)設(shè)置都不相同,形成異構(gòu)基分類器,保證各單獨(dú)分類器的分類準(zhǔn)確率及召回率的表現(xiàn)不同。因此,該模型將進(jìn)一步提高表現(xiàn)較好的分類器在集成模型中的權(quán)重,使其在投票階段占比更高,對(duì)最終結(jié)果影響更顯著。
圖1 集成分類器示意圖
該文使用某貸款機(jī)構(gòu)提供30 000個(gè)貸款報(bào)告信息,所有數(shù)據(jù)來(lái)源于某貸款機(jī)構(gòu)經(jīng)一定處理的數(shù)據(jù)(非原始數(shù)據(jù)),使用Python 2.7.12進(jìn)行求解和檢驗(yàn)。
該文有30 000樣本,原有19項(xiàng)具體特征指標(biāo)。由傳統(tǒng)“5C”原則[6]劃分指標(biāo)的中間層,再由6項(xiàng)基本原則[7]確定中間層展開(kāi)(圖2),經(jīng)多重共線性及顯著性檢驗(yàn)后,最終選取16個(gè)特征指標(biāo),包括是否本地籍、教育程度、婚姻情況、收入、貸款逾期筆數(shù)、貸款逾期月份數(shù)、貸款單月最高逾期總額、貸款最大貸款時(shí)長(zhǎng)、貸記卡以及準(zhǔn)貸記卡相關(guān)項(xiàng)等指標(biāo),以上16項(xiàng)指標(biāo)能反映個(gè)人自然狀況、經(jīng)濟(jì)狀況和信用情況。
圖2 信用評(píng)價(jià)指標(biāo)體系圖
對(duì)16項(xiàng)指標(biāo)進(jìn)行數(shù)據(jù)轉(zhuǎn)換,以便進(jìn)行后續(xù)處理及模型訓(xùn)練。其中,對(duì)是否本地籍指標(biāo)來(lái)說(shuō),一般本地戶籍樣本違約成本較高,違約概率較低,對(duì)該特征采用布爾值,0表示非本地戶籍,1表示本地戶籍。對(duì)教育程度指標(biāo)來(lái)說(shuō),文化程度高的群體信用意識(shí)強(qiáng),違約風(fēng)險(xiǎn)相對(duì)較低,對(duì)該特性進(jìn)行離散化處理,依次用1~8表示初中至博士研究生。對(duì)婚姻情況指標(biāo)來(lái)說(shuō),婚姻狀況反映樣本所受家庭或社會(huì)關(guān)系約束的程度,已婚人士違約機(jī)會(huì)成本高于未婚人士,其違約概率較低,對(duì)該特性進(jìn)行one hot編碼處理,即對(duì)已婚、未婚以及離異(單身)等狀態(tài)進(jìn)行編碼。其他指標(biāo)(例如收入、貸款逾期筆數(shù)等)無(wú)需轉(zhuǎn)換。
在30 000個(gè)樣本中,非逾期與逾期數(shù)據(jù)比達(dá)到15∶1,見(jiàn)表1。存在數(shù)據(jù)不平衡問(wèn)題,采用EasyEnsemble方法,對(duì)30 000個(gè)樣本進(jìn)行集成欠采樣,將多數(shù)類樣本(非逾期類)隨機(jī)不放回地分為5組,再將這5組與少數(shù)類(逾期類)進(jìn)行合并,經(jīng)過(guò)該處理后,每組多數(shù)類與少數(shù)類樣本比值約3∶1,生成易于后續(xù)模型學(xué)習(xí)訓(xùn)練的數(shù)據(jù)集。
表1 原始數(shù)據(jù)集基本情況
同時(shí),為了避免EasyEnsemble后,單組數(shù)據(jù)集樣本量減少,增加模型泛化能力,該文運(yùn)用交叉驗(yàn)證方法(Cross validation)將數(shù)據(jù)集隨機(jī)劃分為k等份(k-折交叉驗(yàn)證),即將原有訓(xùn)練集隨機(jī)拆分為k個(gè)大小基本相等且互不重疊的區(qū)域,選取其中k-1份作為訓(xùn)練模型,剩下1份作為測(cè)試集。這樣,將進(jìn)行k次模型訓(xùn)練,通過(guò)k個(gè)不同結(jié)果計(jì)算準(zhǔn)確率、召回率以及AUC值等平均值,以調(diào)整模型合適的參數(shù)。根據(jù)經(jīng)驗(yàn)法則,將k值設(shè)置為10,該文采用10-折交叉驗(yàn)證進(jìn)行模型訓(xùn)練與調(diào)參。
將5組欠采樣處理后的數(shù)據(jù)進(jìn)行10-折交叉驗(yàn)證,依次將這50組數(shù)據(jù)集代入SVM分類器、LR分類器、k-NN分類器以及DT分類器進(jìn)行交叉驗(yàn)證。在信用分類器性能評(píng)價(jià)時(shí),求取準(zhǔn)確率和召回率的平均值,將其作為效果評(píng)價(jià)指標(biāo)。各分類器求解及驗(yàn)證結(jié)果見(jiàn)表2~表5。
表2 SVM 分類器參數(shù)設(shè)置及模型驗(yàn)證
表3 LR分類器參數(shù)設(shè)置及模型驗(yàn)證
表4 DT分類器參數(shù)設(shè)置及模型驗(yàn)證
表5 k-NN分類器參數(shù)設(shè)置及模型驗(yàn)證
單個(gè)分類器訓(xùn)練學(xué)習(xí)完畢后,通過(guò)并行Bagging集成的方法完成最終集成模型,集成分類器的模型檢驗(yàn)結(jié)果見(jiàn)表6。由表6可知,集成后的準(zhǔn)確率達(dá)到73.94%,召回率達(dá)到81.21%,其結(jié)果整體優(yōu)于單個(gè)分類器的分類效果。同時(shí),模型檢驗(yàn)結(jié)果較差的是LR分類器。
在對(duì)每個(gè)分類器進(jìn)行參數(shù)優(yōu)化后,通過(guò)集成算法將弱分類器組合在一起,以增加模型的穩(wěn)定性和魯棒性,然而不同的分類器組合帶來(lái)的分類效果也不相同,該文分別對(duì)比了三分類器組合、五分類器組合、七分類器組合及九分類器組合,得出各AUC(Area Under Curve,受試者工作特征曲線下面積)值,見(jiàn)表7。經(jīng)比較,九分類器(表6中9個(gè)單一分類器)的組合效果為最好。
表6 集成分類器模型驗(yàn)證
表7 AUC值
該文根據(jù)個(gè)人信用數(shù)據(jù)的特點(diǎn),引入EasyEnsemble方法進(jìn)行多數(shù)類與少數(shù)類數(shù)據(jù)比例平衡,并基于集成學(xué)習(xí)方法提出了一種可通用于個(gè)人信用評(píng)價(jià)的集成學(xué)習(xí)算法,對(duì)Bagging主要思想進(jìn)行統(tǒng)一和推廣。在一定程度上解決了信用評(píng)價(jià)的2個(gè)問(wèn)題(數(shù)據(jù)不平衡和對(duì)少數(shù)類(逾期類)的識(shí)別),旨在識(shí)別逾期風(fēng)險(xiǎn)較大的借款人,以降低信用風(fēng)險(xiǎn)。
在實(shí)例分析時(shí),以某貸款公司個(gè)人貸款業(yè)務(wù)為背景,依次完成信用指標(biāo)體系構(gòu)建、原始數(shù)據(jù)處理以及模型選取等工作。其中,針對(duì)信用數(shù)據(jù)不平衡的問(wèn)題,在運(yùn)用EasyEnsemble方法后,每組多數(shù)類與少數(shù)類樣本比值由15∶1降為3∶1,再以SVM模型、Logistic回歸、k-NN算法以及DT模型進(jìn)行并行集成,通過(guò)九分類器組合得到最終模型,與單一分類器相比,集成分類器可以提高逾期樣本的識(shí)別效果。