牛曉健,凌 飛
(復(fù)旦大學(xué) 經(jīng)濟(jì)學(xué)院,上海 200433)
我國(guó)的個(gè)人征信行業(yè)已發(fā)展20多年,1997年中國(guó)人民銀行批準(zhǔn)上海市進(jìn)行個(gè)人征信試點(diǎn)標(biāo)志著我國(guó)個(gè)人征信事業(yè)的起步.2006年3月中國(guó)人民銀行設(shè)立個(gè)人征信中心,政府主導(dǎo)的公共征信體系初步建立.最近十年來(lái)個(gè)人消費(fèi)信貸需求日趨旺盛,因此促進(jìn)了消費(fèi)金融公司的迅猛發(fā)展.為更好地適應(yīng)新變化,2015年1月央行要求8家商業(yè)機(jī)構(gòu)做好開(kāi)展個(gè)人征信業(yè)務(wù)的準(zhǔn)備工作,個(gè)人征信體系逐步走向市場(chǎng)化.總體而言,我國(guó)個(gè)人征信市場(chǎng)的格局已呈現(xiàn)多元化的趨勢(shì),傳統(tǒng)的央行征信體系和新興的市場(chǎng)征信體系并存,尤其是各家商業(yè)征信公司都在競(jìng)爭(zhēng)中謀求更好的發(fā)展.無(wú)論哪種模式的征信機(jī)構(gòu),其核心優(yōu)勢(shì)和持久經(jīng)營(yíng)的關(guān)鍵在于個(gè)人信用風(fēng)險(xiǎn)評(píng)估模型的設(shè)計(jì),通過(guò)運(yùn)用合適的評(píng)估方法,精準(zhǔn)高效地識(shí)別可能違約的借款人,以減少銀行和消費(fèi)金融等放貸機(jī)構(gòu)的壞賬損失,從而保障社會(huì)經(jīng)濟(jì)的穩(wěn)定發(fā)展.
個(gè)人信用風(fēng)險(xiǎn)評(píng)估是通過(guò)分析潛在借款人的信息來(lái)判斷其是否會(huì)違約的一種方法[1].機(jī)器學(xué)習(xí)方法被廣泛應(yīng)用于信用評(píng)估、貸款預(yù)測(cè)、反洗錢等金融領(lǐng)域[2],也是目前個(gè)人信用風(fēng)險(xiǎn)評(píng)估中運(yùn)用的主要方法.傳統(tǒng)的機(jī)器學(xué)習(xí)模型主要有以下3種:
(1) Logistic回歸常被用來(lái)預(yù)測(cè)借款人的違約概率,是個(gè)人信用評(píng)級(jí)領(lǐng)域的基準(zhǔn)模型[3].Lasso Logistic回歸[4]、雙層變量選擇懲罰方法(adaptive Sparse Group Lasso, adSGL)Logistic回歸[5]、多源數(shù)據(jù)融合的Logistic回歸模型[6]、基于半監(jiān)督廣義可加(Semi-Supervised Generalized Additive, SSGA)Logistic回歸模型[7]等都是對(duì)Logistic回歸的改進(jìn).(2) 神經(jīng)網(wǎng)絡(luò)自20世紀(jì)90年代以來(lái)在信用風(fēng)險(xiǎn)評(píng)估領(lǐng)域有著廣泛的應(yīng)用,可以幫助改善金融機(jī)構(gòu)的評(píng)估模型和信貸決策[8].神經(jīng)網(wǎng)絡(luò)通常在大數(shù)據(jù)集上表現(xiàn)出色,但是確定其結(jié)構(gòu)是一個(gè)不斷試錯(cuò)的過(guò)程,因此非常耗時(shí)[9].Zhao等[10]在用BP(Back Propagation)算法對(duì)多層感知器(Multi-Layer Perceptron, MLP)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練的基礎(chǔ)上,在數(shù)據(jù)抽樣、樣本分割和模型結(jié)構(gòu)層面提出了3種優(yōu)化方法,研究過(guò)程表明確定合適的神經(jīng)網(wǎng)絡(luò)需要大量的實(shí)驗(yàn).(3) 支持向量機(jī)(Support Vector Machine, SVM)是個(gè)人信用風(fēng)險(xiǎn)評(píng)估中研究最多的模型[11].最小二乘支持向量機(jī)(Least Squares SVM, LSSVM)[12]、正交支持向量機(jī)(Orthogonal SVM)[13]、聚類支持向量機(jī)(Clustered SVM, CSVM)[14]、無(wú)核二次曲面支持向量機(jī)(Quadratic Surface SVM, QSSVM)[15]等模型主要從樣本和特征角度對(duì)支持向量機(jī)進(jìn)行優(yōu)化.
上述傳統(tǒng)的機(jī)器學(xué)習(xí)方法大部分是淺層結(jié)構(gòu)模型,比較適合處理簡(jiǎn)單和有約束條件的問(wèn)題,但是對(duì)于復(fù)雜的金融數(shù)據(jù)的處理往往力不從心[16],無(wú)法在大數(shù)據(jù)環(huán)境下得到較好的擴(kuò)展和應(yīng)用.近年來(lái),深度學(xué)習(xí)(Deep learning)理論蓬勃發(fā)展,不少學(xué)者將深度學(xué)習(xí)運(yùn)用于金融預(yù)測(cè)分析,結(jié)果表明,在預(yù)測(cè)能力上深度神經(jīng)網(wǎng)絡(luò)相比傳統(tǒng)模型表現(xiàn)得更為優(yōu)秀[17].此外,融合多個(gè)單一模型的集成學(xué)習(xí)(Ensemble learning)方法能有效提升模型的能力,這使得集成學(xué)習(xí)在各大數(shù)據(jù)科學(xué)競(jìng)賽上頻頻奪冠.因此,將深度學(xué)習(xí)與集成學(xué)習(xí)運(yùn)用于個(gè)人信用風(fēng)險(xiǎn)評(píng)估是一個(gè)有益的嘗試.本文以美國(guó)最大的P2P平臺(tái)Lending Club 2019年的數(shù)據(jù)為基礎(chǔ),分析了隨機(jī)森林(Random Forest, RF)、XGBoost(Extreme Gradient Boosting)、LightGBM(Light Gradient Boosting Machine)和CatBoost(Categorical Boosting)4種集成學(xué)習(xí)模型,研究表明,隨機(jī)森林的表現(xiàn)相對(duì)更好,LightGBM速度最快;并進(jìn)一步設(shè)計(jì)了深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)、稀疏自編碼器(Sparse Auto-Encoder, SAE)和主成分分析(Principal Component Analysis, PCA)3種不同維度結(jié)構(gòu)的特征提取器,分析后發(fā)現(xiàn)SAE對(duì)Boosting類集成學(xué)習(xí)模型的能力有一定的提升.
本文的創(chuàng)新之處和邊際貢獻(xiàn)如下: 第一,對(duì)比了隨機(jī)森林、XGBoost、LightGBM和CatBoost 4種具有代表性的集成學(xué)習(xí)模型的理論特點(diǎn)和實(shí)證結(jié)果,彌補(bǔ)了現(xiàn)有文獻(xiàn)在個(gè)人信用風(fēng)險(xiǎn)評(píng)估領(lǐng)域只分析單一集成學(xué)習(xí)模型的不足.第二,借鑒了深度學(xué)習(xí)在圖像和語(yǔ)音等領(lǐng)域提取特征的構(gòu)思,在個(gè)人信用風(fēng)險(xiǎn)評(píng)估中引入DNN和SAE兩種深度學(xué)習(xí)模型的隱藏層作為特征提取器,并將提取的特征輸入集成學(xué)習(xí)構(gòu)建組合學(xué)習(xí)模型,論證了SAE提取的稀疏特征有助于提升原有模型的預(yù)測(cè)能力.第三,結(jié)合實(shí)證分析,對(duì)深度學(xué)習(xí)在個(gè)人信用風(fēng)險(xiǎn)評(píng)估的適用性做了探討.
目前深度學(xué)習(xí)在個(gè)人信用風(fēng)險(xiǎn)評(píng)估領(lǐng)域的研究才剛剛起步.一種研究方向是繼續(xù)加深淺層神經(jīng)網(wǎng)絡(luò)的深度: Sun等[18]對(duì)深度神經(jīng)網(wǎng)絡(luò)在大數(shù)據(jù)集上的運(yùn)用進(jìn)行了研究,利用巴西某銀行的個(gè)人信用卡數(shù)據(jù)訓(xùn)練了一個(gè)3層的深度神經(jīng)網(wǎng)絡(luò),表明更深的結(jié)構(gòu)比傳統(tǒng)淺層神經(jīng)網(wǎng)絡(luò)更能學(xué)習(xí)海量的數(shù)據(jù)信息,并在AUC(Area Under Curve,即ROC曲線下與坐標(biāo)軸圍成的面積)等指標(biāo)上表現(xiàn)更好.另一種研究方向是直接借鑒運(yùn)用在圖像和語(yǔ)音等特定類型的深度學(xué)習(xí)模型: Kim等[19]嘗試運(yùn)用深度卷積神經(jīng)網(wǎng)絡(luò)(Deep convolutional neural networks)DenseNet對(duì)個(gè)人信用風(fēng)險(xiǎn)進(jìn)行評(píng)估,利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)的特殊構(gòu)造,即卷積層和池化層密集連接并自動(dòng)提取特征,節(jié)省了數(shù)據(jù)處理和特征工程的步驟,并證明由于融入了Dense Block,因此DenseNet比普通CNN更加優(yōu)越.Wang等[20]對(duì)比了各種類型的長(zhǎng)短期記憶(Long Short-Term Memory, LSTM)網(wǎng)絡(luò),利用我國(guó)某P2P公司的數(shù)據(jù)進(jìn)行分析,實(shí)證結(jié)果表明基于注意力機(jī)制的長(zhǎng)短期記憶網(wǎng)絡(luò)(Attention Model LSTM, AM-LSTM)要比雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bi-directional LSTM, Bi-LSTM)和普通長(zhǎng)短期記憶網(wǎng)絡(luò)預(yù)測(cè)得更加精確.Bastani等[21]在個(gè)人信用風(fēng)險(xiǎn)評(píng)估中借鑒了谷歌商店推薦系統(tǒng)的Wide & Deep模型,先用Wide模型學(xué)習(xí)了借款人的高頻特征兩兩之間的關(guān)聯(lián)性(Memorization),再用Deep模型學(xué)習(xí)了相對(duì)獨(dú)立的低頻類別特征(Generalization),最后用σ函數(shù)將兩種向量融合得到預(yù)測(cè)結(jié)果.
集成學(xué)習(xí)包括同態(tài)集成和異態(tài)集成,以CART(Classification And Regression Tree)等決策樹(shù)為基分類器的同態(tài)集成通常能取得較好的效果[22].Malekipirbazari等[23]選取了美國(guó)P2P平臺(tái)Lending Club的數(shù)據(jù),詳細(xì)分析了年收入、年齡、借款期限等15個(gè)變量的結(jié)構(gòu)特征和分布情況,并用隨機(jī)森林對(duì)違約進(jìn)行了預(yù)測(cè),得出隨機(jī)森林相比Lending Club平臺(tái)的模型和FICO信用分能更好地篩選潛在違約借款人.Xia等[24]以XGBoost模型為基礎(chǔ)完整展示了個(gè)人信用風(fēng)險(xiǎn)評(píng)估的建模流程,首先處理缺失值并將原始數(shù)據(jù)標(biāo)準(zhǔn)化,再用XGBoost進(jìn)行特征重要性的排序,最后用訓(xùn)練和優(yōu)化后的XGBoost模型進(jìn)行預(yù)測(cè).Xia等[25]通過(guò)將代價(jià)敏感學(xué)習(xí)(Cost-sensitive learning)和樹(shù)模型結(jié)合,提出了針對(duì)P2P領(lǐng)域的個(gè)人風(fēng)險(xiǎn)評(píng)估的CSXGBoost模型,更好地解決了錯(cuò)分問(wèn)題.Zhou等[26]將GBDT、XGBoost和LightGBM 3種Boosting類模型的預(yù)測(cè)進(jìn)行線性加權(quán),在中國(guó)的某P2P的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)后,認(rèn)為該模型能有效應(yīng)對(duì)不平衡的高維稀疏樣本.黃志剛等[27]構(gòu)建了9個(gè)基于XGBoost的子模型分別訓(xùn)練數(shù)據(jù),并在此基礎(chǔ)上提出了多源數(shù)據(jù)信用評(píng)級(jí)的普適模型??蚣?,這一方法可將單一子模型的評(píng)估結(jié)果融合后轉(zhuǎn)化為信用評(píng)分卡,具有較好的穩(wěn)定性;同時(shí)作者也指出可以設(shè)計(jì)其他類型的融合方法構(gòu)建信用評(píng)分卡,充分體現(xiàn)了該框架的靈活性.
由于不同分類器產(chǎn)生的偏差并不相同,因此理論上組合學(xué)習(xí)更加適應(yīng)不同種類的數(shù)據(jù),并進(jìn)一步強(qiáng)化基分類器的預(yù)測(cè)能力[28].有關(guān)組合學(xué)習(xí)的文獻(xiàn)很多,但是有關(guān)深度學(xué)習(xí)與集成學(xué)習(xí)相結(jié)合的研究卻很少.一種思路是用集成學(xué)習(xí)優(yōu)化樣本后輸入深度學(xué)習(xí)模型訓(xùn)練: Yu等[29]先用Bagging方法將初始數(shù)據(jù)分割為不同子集,再錄入多隱藏層的深度信念網(wǎng)絡(luò)(Deep Belief Nets, DBN)中提取特征,最后用多個(gè)極限學(xué)習(xí)機(jī)(Extreme Learning Machine, ELM)集成各項(xiàng)分類結(jié)果,二者相結(jié)合組成的DBN-based ELM模型比單一方法更有效.Yu等[30]提出了一種基于DBN的重采樣支持向量機(jī)集合算法,具體是先用Bagging方法得到多個(gè)均衡的樣本子集,再用SVM分別訓(xùn)練后輸入DBN進(jìn)行融合,最終輸出階段還采取了收益矩陣(Revenue matrix)加大違約損失的權(quán)重,使得結(jié)果更加合理.另一種思路是構(gòu)建深度學(xué)習(xí)與集成學(xué)習(xí)融合的復(fù)雜結(jié)構(gòu): Pawiak等[31]提出了深度遺傳級(jí)聯(lián)集合分類算法(Deep Genetic Cascade Ensembles of Classifiers, DGCEC),將遺傳算法的進(jìn)化機(jī)制和兩種不同的支持向量機(jī)集合而成16層的深度結(jié)構(gòu)模型,其中還包括正則化層、特征提取層、核函數(shù)層、參數(shù)優(yōu)化層和交叉驗(yàn)證層,該方法是對(duì)深度學(xué)習(xí)、集成學(xué)習(xí)和參數(shù)自動(dòng)優(yōu)化相結(jié)合的嘗試.
綜上所述,目前在個(gè)人信用風(fēng)險(xiǎn)評(píng)估領(lǐng)域尚沒(méi)有將深度學(xué)習(xí)模型作為提取特征的工具,對(duì)集成學(xué)習(xí)的運(yùn)用往往聚焦于單一模型的拓展,缺乏不同集成學(xué)習(xí)模型之間的橫向?qū)Ρ龋阴r有將深度學(xué)習(xí)與集成學(xué)習(xí)相結(jié)合的研究.本文借鑒深度學(xué)習(xí)的“它山之石”,結(jié)合集成學(xué)習(xí)構(gòu)建組合學(xué)習(xí)模型,以探討深度學(xué)習(xí)對(duì)個(gè)人信用風(fēng)險(xiǎn)評(píng)估模型的影響.
淺層神經(jīng)網(wǎng)絡(luò)主要存在以下3大問(wèn)題[32]: 在測(cè)試集上的表現(xiàn)不如訓(xùn)練集的過(guò)擬合問(wèn)題、無(wú)法有效學(xué)習(xí)的梯度消失或梯度爆炸問(wèn)題以及難以找到全局最優(yōu)解的局部極值問(wèn)題.深度神經(jīng)網(wǎng)絡(luò)(DNN)擁有比傳統(tǒng)淺層神經(jīng)網(wǎng)絡(luò)更多的隱藏層,神經(jīng)網(wǎng)絡(luò)層數(shù)的增加能夠使得模型獲得更加豐富的表達(dá).DNN的成功得益于近年來(lái)一系列深度學(xué)習(xí)優(yōu)化技術(shù)的不斷推出.線性整流函數(shù)(Rectified Linear Unit, ReLU,又稱修正線性單元)在梯度更新中把負(fù)數(shù)轉(zhuǎn)換為0,表現(xiàn)了良好的稀疏性,提高了模型的泛化能力;同時(shí)把正數(shù)轉(zhuǎn)化為1,解決了神經(jīng)網(wǎng)絡(luò)隨著層數(shù)增加產(chǎn)生的梯度消失問(wèn)題,使得深度神經(jīng)網(wǎng)絡(luò)能夠得以訓(xùn)練,因此成為最近十年來(lái)深度學(xué)習(xí)領(lǐng)域最常用的激活函數(shù).Dropout方法由Srivastava等[33]提出,中文稱為丟棄法或隨機(jī)失活.它的構(gòu)思是在訓(xùn)練數(shù)據(jù)時(shí)對(duì)輸入的節(jié)點(diǎn)進(jìn)行隨機(jī)丟棄,通過(guò)將該元素賦值為0,使得隱藏層的神經(jīng)元進(jìn)入休眠,同時(shí)各個(gè)輸入輸出節(jié)點(diǎn)連接也會(huì)被移除,這樣每次訓(xùn)練時(shí)網(wǎng)絡(luò)結(jié)構(gòu)都不同,打破了模型的自適應(yīng)性和網(wǎng)絡(luò)結(jié)構(gòu)本身的限制,減少了對(duì)局部特征的依賴.批量歸一化(Batch Normalization, BN)方法由Ioffe等[34]提出,其核心思想是通過(guò)歸一化使得每層網(wǎng)絡(luò)的輸入都保持標(biāo)準(zhǔn)正態(tài)分布,每個(gè)節(jié)點(diǎn)的輸入都能在激活函數(shù)的敏感區(qū)得到訓(xùn)練,每輪迭代中就不需要重新去適應(yīng)變化后的分布,大大提高了訓(xùn)練速度.
h=σ(W1x+b1),
(1)
(2)
自編碼器的隱藏層通常為壓縮結(jié)構(gòu),即通過(guò)編碼器挖掘數(shù)據(jù)間的相關(guān)性,降維獲得更高層次的特征表達(dá),但是如果隱藏層節(jié)點(diǎn)大于輸入層,則解碼器學(xué)習(xí)到的信息沒(méi)有價(jià)值.高維稀疏的特征被認(rèn)為是優(yōu)秀的,因此一個(gè)較好的解決辦法是可以構(gòu)造稀疏自編碼器(SAE)[35],通過(guò)人為地對(duì)隱藏層過(guò)多的節(jié)點(diǎn)數(shù)進(jìn)行約束來(lái)構(gòu)造特征提取器.稀疏性的含義是使得隱藏層中的節(jié)點(diǎn)大部分變?yōu)?,只有小部分的節(jié)點(diǎn)保持活躍狀態(tài).這種構(gòu)造通常是對(duì)原始數(shù)據(jù)更加簡(jiǎn)潔的表達(dá),類似于信號(hào)在人類大腦中傳遞時(shí),大部分神經(jīng)元處于休眠狀態(tài),只有小部分神經(jīng)元會(huì)對(duì)刺激做出反應(yīng),因此這種構(gòu)造更接近生物神經(jīng)網(wǎng)絡(luò)的本質(zhì).
單一的機(jī)器學(xué)習(xí)模型在進(jìn)行個(gè)人信用風(fēng)險(xiǎn)評(píng)估時(shí)往往有一定的局限性,一種較好的解決思路就是同時(shí)訓(xùn)練多個(gè)模型,再利用不同策略綜合起來(lái)得到預(yù)測(cè)結(jié)果,這就是集成學(xué)習(xí).集成學(xué)習(xí)好比一群人進(jìn)行“頭腦風(fēng)暴”,用若干基分類器組合成強(qiáng)分類器,取長(zhǎng)補(bǔ)短,獲得更高的準(zhǔn)確率,也可以降低單一模型的誤差以提升整體的穩(wěn)健性.
隨機(jī)森林是由Breiman[36]提出的一種集成學(xué)習(xí)方法,該方法通過(guò)Bagging算法和隨機(jī)子空間算法來(lái)“隨機(jī)”地構(gòu)建數(shù)量繁多的差異化決策樹(shù),從而形成一整片“森林”.隨機(jī)森林每棵CART都是從上至下分裂,在第1階段生成單棵決策樹(shù)時(shí),采取Bootstrap抽樣方法創(chuàng)建n個(gè)訓(xùn)練樣本,由于是放回抽樣,因此每顆CART根節(jié)點(diǎn)的數(shù)據(jù)都是原始數(shù)據(jù)的子集,單棵CART能夠隨機(jī)獨(dú)立地在不同的訓(xùn)練集上訓(xùn)練.多棵CART有效地解決了單棵CART精度一般、過(guò)擬合和局部收斂等問(wèn)題,因此隨機(jī)森林具有良好的泛化能力和抗噪音能力.隨機(jī)森林的構(gòu)建過(guò)程見(jiàn)圖1.
圖1 隨機(jī)森林構(gòu)建過(guò)程Fig.1 Construction process of random forest
XGBoost[37],即極端梯度提升算法,其理論基礎(chǔ)是對(duì)梯度提升決策樹(shù)(Gradient Boosting Decision Tree, GBDT)[38]的改進(jìn).XGBoost與GBDT相比主要有以下優(yōu)勢(shì): 第一,XGBoost對(duì)損失函數(shù)進(jìn)行了優(yōu)化,在GBDT只對(duì)損失函數(shù)計(jì)算1階導(dǎo)數(shù)的基礎(chǔ)上增加了2階泰勒展開(kāi)后利用貪心算法求解參數(shù),可以更準(zhǔn)確地找到最優(yōu)解.第二,在損失函數(shù)中還引入包含葉子節(jié)點(diǎn)數(shù)的L1范數(shù)和葉子節(jié)點(diǎn)得分的L2范數(shù),用來(lái)平滑葉子節(jié)點(diǎn)的預(yù)測(cè)值,有效防止模型過(guò)擬合.第三,借鑒了Bagging的思想,采取在同層級(jí)節(jié)點(diǎn)訓(xùn)練一部分特征的列抽樣方法,通過(guò)創(chuàng)造性的并行計(jì)算大幅提高了訓(xùn)練速度.第四,引入了收縮(Shrinkage)的思想,即通過(guò)葉子節(jié)點(diǎn)乘以學(xué)習(xí)率來(lái)削弱新生成CART的影響,使得模型每次迭代后都有學(xué)習(xí)的空間,更有效地逼近真實(shí)值.
LightGBM[39]由微軟亞洲研究院發(fā)布,作為GBDT梯度提升家族的一員,它是一個(gè)開(kāi)源、快速、高效的新算法.顧名思義,該模型的最大優(yōu)點(diǎn)就是“Light”(輕量級(jí)),主要是在對(duì)CART的處理上采用了Leaf-wise算法,即帶深度限制的葉子生長(zhǎng)策略,不同于GBDT的Level-wise(按層分裂)的多線程生長(zhǎng)策略,該算法是通過(guò)只在產(chǎn)生分裂最大增益的葉子分裂節(jié)點(diǎn),而其他葉子則被舍棄,循環(huán)重復(fù)形成CART,同時(shí)為了防止過(guò)擬合而對(duì)樹(shù)的深度加以限制.按葉子分裂能有效避免按層分裂的多余計(jì)算,在保證預(yù)測(cè)精度的同時(shí)提高了計(jì)算速度.Level-wise和Leaf-wise兩種算法的分裂過(guò)程對(duì)比見(jiàn)圖2,其中灰色方塊為分裂節(jié)點(diǎn).LightGBM和XGBoost在最近幾年的大數(shù)據(jù)實(shí)踐中被廣泛應(yīng)用,并稱為當(dāng)今機(jī)器學(xué)習(xí)領(lǐng)域的“倚天屠龍”[40].
圖2 Level-wise和Leaf-wise生長(zhǎng)策略對(duì)比Fig.2 Comparison between Level-wise and Leaf-wise growing strategy
CatBoost[41]是由俄羅斯搜索引擎巨頭Yandex的研究人員新開(kāi)發(fā)的開(kāi)源算法.相較于傳統(tǒng)的GBDT算法,CatBoost的最大特點(diǎn)是能夠直接處理類別特征(離散變量)并將其轉(zhuǎn)換為數(shù)字.具體做法是對(duì)所有樣本隨機(jī)排序并形成多組集合,再計(jì)算每組中排在該樣本之前的樣本類別標(biāo)簽的平均值(這種方法被稱為Greedy Target-based Statistics,簡(jiǎn)稱為Greedy TS),根據(jù)因變量的先驗(yàn)分布情況對(duì)類別特征賦值以減少噪聲和低頻數(shù)據(jù)的影響,并對(duì)特征優(yōu)先級(jí)設(shè)置權(quán)重系數(shù)來(lái)保證特征之間的獨(dú)立性,最后替換原始特征.上述4種集成學(xué)習(xí)模型的特點(diǎn)對(duì)比見(jiàn)表1.
表1 隨機(jī)森林、XGBoost、LightGBM和CatBoost的特點(diǎn)對(duì)比Tab.1 Characteristics comparison of random forest, XGBoost, LightGBM and CatBoost
組合學(xué)習(xí)的目標(biāo)是將多種模型結(jié)合起來(lái)解決同一個(gè)問(wèn)題,利用信息互補(bǔ)最大化每個(gè)模型的優(yōu)點(diǎn),從而完善單一模型的不足.組合學(xué)習(xí)通常有兩種研究思路,分別是串聯(lián)結(jié)構(gòu)(Sequential structure)和并行結(jié)構(gòu)(Parallel structure),兩種模型的結(jié)構(gòu)見(jiàn)圖3.
圖3 組合學(xué)習(xí)的串聯(lián)結(jié)構(gòu)和并行結(jié)構(gòu)Fig.3 Sequential structure and parallel structure of hybrid learning
串聯(lián)結(jié)構(gòu)指的是將前一個(gè)模型的輸出作為后一個(gè)其他類型模型的輸入,以提高單一模型的分類能力.這種構(gòu)造的最大特點(diǎn)是能利用前一個(gè)模型對(duì)數(shù)據(jù)提取特征或者降維,得到更高層次的信息來(lái)訓(xùn)練下一個(gè)模型,即起到了“特征提取器”的作用.串聯(lián)結(jié)構(gòu)理論上可以把數(shù)個(gè)模型逐個(gè)串接起來(lái),雖然準(zhǔn)確率會(huì)得到提升,但是也會(huì)產(chǎn)生預(yù)測(cè)結(jié)果愈加難以解釋等問(wèn)題,因此實(shí)踐中通常只采用兩層結(jié)構(gòu)進(jìn)行串聯(lián).串聯(lián)不同模型還會(huì)造成一個(gè)問(wèn)題,如果前一個(gè)模型提取的特征并不良好,那么輸入后續(xù)模型反而會(huì)造成預(yù)測(cè)效果的下降.
并行結(jié)構(gòu)通過(guò)將單一模型的預(yù)測(cè)用某種方式組合起來(lái)得到最終結(jié)果,和串聯(lián)結(jié)構(gòu)不同的是每個(gè)模型各自獨(dú)立、互不影響,這使得并行結(jié)構(gòu)穩(wěn)定性會(huì)更加好.并行結(jié)構(gòu)本質(zhì)上就是集成學(xué)習(xí),只不過(guò)通常默認(rèn)集成學(xué)習(xí)的基分類器是CART等決策樹(shù),但是并行訓(xùn)練的基分類器其實(shí)可以是任何模型,比如并行構(gòu)造多個(gè)神經(jīng)網(wǎng)絡(luò)建立集成神經(jīng)網(wǎng)絡(luò).并行結(jié)構(gòu)的單個(gè)模型最好容易受不同參數(shù)的影響,而不是選取比較穩(wěn)定的樸素貝葉斯分類等模型,因?yàn)榛诸惼鞯牟町惢遣⑿薪Y(jié)構(gòu)(尤其是Bagging)性能提升的基石.
Lending Club是世界上規(guī)模最大、最有影響的P2P借款平臺(tái),總部位于美國(guó)舊金山,成立于2006年10月,并在2014年12月于紐交所成功上市.Lending Club自2012年開(kāi)始進(jìn)入高速發(fā)展期,截止2019年年底已經(jīng)累積借款超過(guò)530億美元,累積交易量接近490萬(wàn)筆,遠(yuǎn)超其競(jìng)爭(zhēng)對(duì)手Prosper.其各年的具體業(yè)務(wù)情況見(jiàn)圖4.Lending Club經(jīng)過(guò)十幾年的發(fā)展已經(jīng)積累了大量真實(shí)的交易數(shù)據(jù),每筆借款需由美國(guó)三大征信機(jī)構(gòu)之一的Experian(益博睿)提供個(gè)人FICO信用分,保障了數(shù)據(jù)的可靠性.為了提升模型驗(yàn)證和對(duì)比研究的效率,本文在時(shí)間維度上選擇Lending Club 2019年一整年的數(shù)據(jù).
圖4 2007—2019年 Lending Club的交易額與交易數(shù)量Fig.4 Volume and turnover of Lending Club in 2007—2019數(shù)據(jù)由Lending Club官方網(wǎng)站整理得出.
根據(jù)Ma等[42]對(duì)于Lending Club履約和違約狀態(tài)的定義,選取貸款狀態(tài)為按時(shí)還款(Fully paid)的借款人為履約客戶,貸款狀態(tài)為壞賬核銷(Charged off)的借款人為違約客戶,將二者作為目標(biāo)變量,并刪除其他借款狀態(tài)的數(shù)據(jù).
在數(shù)據(jù)清洗方面刪除了貸中和貸后數(shù)據(jù),以及缺失比例達(dá)到50%以上和集中度大于95%的高同值變量;特征工程方面在使用隨機(jī)森林和XGBoost兩種方法進(jìn)行特征重要性排序后選擇排名前30位的共同變量,將Spearman相關(guān)性大于0.7且重要性較低的變量、存在多重共線性的變量以及IV值小于0.01的變量刪除.除目標(biāo)變量loan_status(借款狀態(tài))以外,共保留21個(gè)特征變量,各變量的具體屬性和含義見(jiàn)表2.
表2 特征變量的詳情Tab.2 Details of feature variables
(續(xù)表)
(3)
隨后將數(shù)據(jù)按照8∶2的比例隨機(jī)劃分為訓(xùn)練集和測(cè)試集,用于訓(xùn)練和評(píng)估模型的泛化能力,再對(duì)訓(xùn)練集以8∶2的比例隨機(jī)劃分出20%的驗(yàn)證集用來(lái)調(diào)整模型參數(shù),最終訓(xùn)練集、驗(yàn)證集和測(cè)試集的比例為0.64∶0.16∶0.20.
在劃分完數(shù)據(jù)之后觀察訓(xùn)練集,共有28 727條數(shù)據(jù),發(fā)現(xiàn)所有樣本中借款狀態(tài)為履約的占比89.02%,為違約的占比10.98%,比例較不平衡,屬于典型的不平衡數(shù)據(jù).本文選擇SMOTE(Synthetic Minority Oversampling Technique)算法[43]以1∶1的設(shè)置對(duì)訓(xùn)練集進(jìn)行過(guò)采樣處理,處理后總樣本數(shù)量變?yōu)?1 144個(gè),違約和履約借款人比例各占50%.具體變化情況見(jiàn)表3.
表3 SMOTE算法優(yōu)化后的訓(xùn)練集目標(biāo)變量Tab.3 Target variables of training set optimized by SMOTE algorithm
個(gè)人信用風(fēng)險(xiǎn)評(píng)估是典型的“非此即彼”的二分類問(wèn)題,即根據(jù)現(xiàn)有的借款人資料判斷其違約的可能性.通常用kTP表示實(shí)際違約的借款人被預(yù)測(cè)為違約(True Positive, TP),kFP表示實(shí)際履約的借款人被預(yù)測(cè)為履約(False Positive, FP),kFN表示實(shí)際違約的借款人被預(yù)測(cè)為履約(False Negative, FN),kTN表示實(shí)際履約的借款人被預(yù)測(cè)為違約(True Negative, TN).準(zhǔn)確率λACC表示在全部借款人中所有預(yù)測(cè)都準(zhǔn)確的比例.λTPR表示所有實(shí)際違約借款人中被準(zhǔn)確預(yù)測(cè)出來(lái)的那部分比例,即“抓住壞人”,也等價(jià)于(1-Type Ⅱ error);λFPR即統(tǒng)計(jì)學(xué)中的Type Ⅰ error,表示實(shí)際履約的借款人卻被錯(cuò)誤地預(yù)測(cè)為違約的那部分比例,即“冤枉好人”.上述指標(biāo)的計(jì)算公式見(jiàn)表4.
表4 評(píng)價(jià)指標(biāo)計(jì)算公式Tab.4 Formulas of evaluation criteria
若以λTPR為縱軸,λFPR為橫軸,遍歷不同的概率閾值并計(jì)算兩個(gè)值就可以得到ROC曲線(Receiver Operating Characteristic curve),即受試者工作特征曲線.該指標(biāo)最早用于雷達(dá)信號(hào)分析和臨床醫(yī)療診斷,反映了不同誤差范圍內(nèi)的預(yù)測(cè)準(zhǔn)確率,越靠近左上角表明模型效果越好.為了更直觀地觀察ROC曲線,更常使用AUC指標(biāo)(SAUC),其含義為ROC曲線下方的面積,面積越大說(shuō)明模型更為出色,該指標(biāo)能更好地使得不同的ROC曲線之間相互比較.KS曲線(Kolmogorov-Smirnov curve)是以不同閾值為橫軸,λTPR和λFPR為縱軸繪制而成.兩條曲線之間的最大距離即KS值,該指標(biāo)展現(xiàn)了對(duì)履約借款人和違約借款人之間的區(qū)分程度.在二分類問(wèn)題中,通常認(rèn)為如果一個(gè)模型的AUC大于0.6,KS值大于0.2,表明其有一定的區(qū)分能力.
本文選取準(zhǔn)確率、AUC和KS值3個(gè)指標(biāo)來(lái)衡量模型性能,其中準(zhǔn)確率和AUC是個(gè)人信用風(fēng)險(xiǎn)評(píng)估中最常用的指標(biāo)[44].準(zhǔn)確率反映了模型最基本的預(yù)測(cè)性能,也能據(jù)此推算出錯(cuò)誤率;AUC展示了不同閾值下模型的區(qū)分能力,而且能較好地克服數(shù)據(jù)不平衡的問(wèn)題,在Kaggle等數(shù)據(jù)科學(xué)競(jìng)賽中一般被認(rèn)為是首選的評(píng)價(jià)指標(biāo);KS值還能計(jì)算出最佳閾值的選擇,在建模時(shí)可以通過(guò)計(jì)算違約成本進(jìn)而調(diào)整閾值來(lái)制訂不同的風(fēng)險(xiǎn)策略,因此在個(gè)人信用評(píng)級(jí)業(yè)界有著廣泛的應(yīng)用.
本文采用串聯(lián)結(jié)構(gòu)構(gòu)建組合學(xué)習(xí)模型,分成作為特征提取器的前模型和分類器的后模型兩個(gè)部分.主要選取3個(gè)具有代表性的特征提取器,即DNN、SAE和PCA,其中DNN和SAE都是深度學(xué)習(xí)模型;后模型選取的是隨機(jī)森林、XGBoost、LightGBM和CatBoost這4種集成學(xué)習(xí)模型.
5.1.1 DNN特征提取器
首先引入DNN作為第1個(gè)特征提取器.DNN作為多重網(wǎng)絡(luò)疊加而形成的深度學(xué)習(xí)模型,其中間的隱藏層能夠進(jìn)行一系列復(fù)雜的非線性映射,并對(duì)原始數(shù)據(jù)進(jìn)行逐層抽象變換,因此比淺層神經(jīng)網(wǎng)絡(luò)和SVM等模型更能自動(dòng)學(xué)習(xí)到更富有層次的特征[45-46].
由于個(gè)人信用風(fēng)險(xiǎn)評(píng)估的最終結(jié)果是實(shí)現(xiàn)二分類問(wèn)題,因此DNN的損失函數(shù)選擇為二元交叉熵(Binary cross-entropy)損失函數(shù);參數(shù)初始化方法選擇最常用的均勻分布初始化來(lái)產(chǎn)生隨機(jī)張量.優(yōu)化器方面選擇自適應(yīng)動(dòng)量估計(jì)(Adaptive moment estimation, Adam)進(jìn)行優(yōu)化.該方法結(jié)合了穩(wěn)定學(xué)習(xí)率衰減的RMSProp算法,以及調(diào)整梯度方向的動(dòng)量法(Momentum method),因此被認(rèn)為是目前深度學(xué)習(xí)的首選優(yōu)化算法.添加丟棄概率為0.3的dropout層,并運(yùn)用Batch normalization方法防止過(guò)擬合.
深度學(xué)習(xí)研究中通常認(rèn)為采用遞減型結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)較為合適[47],該方法本質(zhì)上來(lái)說(shuō)是逐層降維,在多重節(jié)點(diǎn)與少數(shù)節(jié)點(diǎn)之間的連接中將模型特征抽象化,提取到更好的特征來(lái)進(jìn)行分類.DNN隱藏層和節(jié)點(diǎn)數(shù)的選擇參考Kim等[48]的研究,實(shí)驗(yàn)中隱藏層最多為4層,節(jié)點(diǎn)數(shù)的選擇范圍為10~300.由于其研究結(jié)果表明模型100以下的節(jié)點(diǎn)數(shù)就能取得較好的實(shí)證效果,同時(shí)考慮到本文使用數(shù)據(jù)量級(jí)的差異性,因此節(jié)點(diǎn)數(shù)最終選擇的范圍為5到100之間.本文模型的輸入層的節(jié)點(diǎn)數(shù)是最終選取的特征數(shù)目21,輸出層的節(jié)點(diǎn)數(shù)是二分類的結(jié)果2,將隱藏層從1到4之間,最高節(jié)點(diǎn)數(shù)為100開(kāi)始,采用折半遞減結(jié)構(gòu)進(jìn)行實(shí)驗(yàn).最終確定DNN結(jié)構(gòu)為21-100-50-25-1,即第一隱藏層到第三隱藏層的節(jié)點(diǎn)數(shù)分別為100、50和25,此時(shí)準(zhǔn)確率最高且損失值最小.
DNN在訓(xùn)練集和驗(yàn)證集上迭代200次的準(zhǔn)確率和損失值的圖像見(jiàn)圖5和圖6,可以發(fā)現(xiàn)DNN的收斂速度在10個(gè)epoch的迭代過(guò)程中,準(zhǔn)確率迅速提升的同時(shí)損失值也迅速下降,同時(shí)添加dropout和BN層本身也能起到防止過(guò)擬合的作用,因此訓(xùn)練集和驗(yàn)證集的損失值始終在較小的幅度內(nèi)波動(dòng).
圖5 DNN訓(xùn)練集和驗(yàn)證集準(zhǔn)確率的變化Fig.5 Changing of accuracy of training set and validation set
圖6 DNN訓(xùn)練集和驗(yàn)證集損失值的變化Fig.6 Changing of loss of training set and validation set
不同激活函數(shù)對(duì)DNN有著不同的影響,linear就是直線型,其他傳統(tǒng)的激活函數(shù)如sigmoid、tanh、hard sigmoid、softmax、softplus以及新型激活函數(shù)ReLU的圖像見(jiàn)圖7.為了探索和驗(yàn)證最佳激活函數(shù),本文對(duì)各項(xiàng)激活函數(shù)在DNN中進(jìn)行實(shí)驗(yàn),主要觀測(cè)訓(xùn)練集和驗(yàn)證集的準(zhǔn)確率的對(duì)比情況,結(jié)果見(jiàn)圖8.可以發(fā)現(xiàn),在迭代相同次數(shù)后,訓(xùn)練集的準(zhǔn)確率始終高于驗(yàn)證集,傳統(tǒng)類型的激活函數(shù)之間準(zhǔn)確率相差并不是很大,其中tanh和sigmoid兩類經(jīng)典的激活函數(shù)表現(xiàn)最好,hard sigmoid表現(xiàn)最差,總之傳統(tǒng)類型的激活函數(shù)在訓(xùn)練中都會(huì)面臨梯度消失的困境,導(dǎo)致準(zhǔn)確率無(wú)法進(jìn)一步提升.ReLU函數(shù)無(wú)論是在訓(xùn)練集還是在驗(yàn)證集上的準(zhǔn)確率都明顯高于其他激活函數(shù),這得益于其分段函數(shù)的特性,同時(shí)公式中不存在冪運(yùn)算,能夠大幅度提升模型的收斂速度.
圖7 各類激活函數(shù)的圖像Fig.7 Pictures of various types of activation functions
圖8 DNN更換不同激活函數(shù)后準(zhǔn)確率的變化Fig.8 Changing of accuracy for different types of activation functions
DNN的第三隱藏層在經(jīng)過(guò)之前隱藏層、dropout層和BN層的逐層變換后包含25個(gè)節(jié)點(diǎn),其維度數(shù)量和輸入的特征數(shù)21比較接近,因此DNN是一種等維特征提取器.本文將選取訓(xùn)練完的DNN的第三隱藏層提取的特征作為第1個(gè)特征提取器,再輸入集成學(xué)習(xí)模型,以驗(yàn)證DNN是否能夠提升集成學(xué)習(xí)的分類能力,過(guò)程見(jiàn)圖9.
圖9 DNN的第三隱藏層的特征提取器Fig.9 Feature extractor of the third hidden layer of DNN
5.1.2 SAE特征提取器
SAE本身構(gòu)造的目的是使得輸入和輸出盡可能相等,但是追求相等的輸出對(duì)于建模沒(méi)有任何意義,SAE的價(jià)值在于編碼器部分.本文將訓(xùn)練完的SAE的解碼器去除,將編碼器作為第2個(gè)選用的特征提取器,利用稀疏輸出作為SAE學(xué)習(xí)到的隱藏層表達(dá)作為后續(xù)模型的輸入,研究無(wú)監(jiān)督方式學(xué)習(xí)到的特征是否能提升后集成學(xué)習(xí)模型的性能,過(guò)程見(jiàn)圖10.
圖10 SAE的稀疏隱藏層的特征提取器Fig.10 Feature extractor of the sparse hidden layer of SAE
接下來(lái)確定SAE的提取特征數(shù),首先需要將稀疏性加入自編碼器中.在自編碼器中節(jié)點(diǎn)稀疏化可以使用的方法有類似Logistic回歸的L1和L2正則化,以及KL散度(Kullback-Leibler divergence).本文選取L1正則化對(duì)中間隱藏層進(jìn)行稀疏化,因?yàn)長(zhǎng)1正則化相比L2正則化更能對(duì)重要特征進(jìn)行提煉,同時(shí)也可以有效防止過(guò)擬合,正則化強(qiáng)度為10-8.
(4)
SAE的實(shí)驗(yàn)結(jié)果見(jiàn)表5,可以發(fā)現(xiàn)不同節(jié)點(diǎn)數(shù)對(duì)SAE的準(zhǔn)確率和MSE的影響較大,但是沒(méi)有明顯規(guī)律,總體來(lái)說(shuō)節(jié)點(diǎn)數(shù)在40到60、80到100之間可以獲得較好的效果,繼續(xù)增加節(jié)點(diǎn)數(shù)反而會(huì)造成準(zhǔn)確率的下降和MSE的上升.在所有實(shí)驗(yàn)的節(jié)點(diǎn)數(shù)中,90個(gè)節(jié)點(diǎn)數(shù)的SAE準(zhǔn)確率最高且MSE最低,因此將隱藏層節(jié)點(diǎn)數(shù)確定為90,這也是稀疏結(jié)構(gòu)的特征提取數(shù).
表5 不同節(jié)點(diǎn)數(shù)對(duì)SAE的影響Tab.5 Influence on SAE under different nodes
5.1.3 主成成分分析
主成分分析(PCA)是最經(jīng)典的降維方法之一,其核心思想是通過(guò)坐標(biāo)轉(zhuǎn)換將數(shù)據(jù)從高維空間映射到低維空間,使得轉(zhuǎn)換后空間的數(shù)據(jù)方差最大化.轉(zhuǎn)換后的數(shù)據(jù)被稱為主成分,是原來(lái)數(shù)據(jù)的線性組合,同時(shí)轉(zhuǎn)換過(guò)程要盡可能包含原來(lái)數(shù)據(jù)的信息,相互之間也不相關(guān),因此獲得的少數(shù)特征更具有代表性.
假設(shè)原始數(shù)據(jù)有n個(gè)樣本和m個(gè)特征,xij是第i個(gè)樣本的第j個(gè)數(shù)據(jù),用矩陣表示為X=(xij)n×m,PCA先將X標(biāo)準(zhǔn)化為X′,以消除量綱不同的影響;再計(jì)算X′的相關(guān)矩陣
(5)
并求解Z的方程
|λI-Z|=0
(6)
得到特征值λ1,λ2,…,λm(λ1≥λ2≥…≥λm≥0)和對(duì)應(yīng)的特征向量p1,p2,…,pm;第i個(gè)主成分的特征值λi也是主成分的方差,選取最大的k個(gè)特征值對(duì)應(yīng)的特征向量,k也是降維后的主成分個(gè)數(shù).此外,還可以通過(guò)重構(gòu)方式得到主成分的累計(jì)方差貢獻(xiàn)率,即先確定一個(gè)閾值α,再計(jì)算提取后的維度k,滿足
(7)
本文選取具有代表性的PCA作為第3個(gè)特征提取器.PCA壓縮結(jié)構(gòu)確定特征提取數(shù)有兩種思路,可以先確定降維后主成分的個(gè)數(shù),也可以確定累計(jì)方差貢獻(xiàn)率倒推出降維個(gè)數(shù),因?yàn)樵撝当砻髁藟嚎s后主成分所蘊(yùn)含的信息量.本文選取后一種方法.在實(shí)踐中,累計(jì)方差貢獻(xiàn)率通常選取為85%,本文也選取該閾值,通過(guò)PCA壓縮原始數(shù)據(jù)后得到主成分的方差貢獻(xiàn)率和累計(jì)方差貢獻(xiàn)率,見(jiàn)表6.
表6 PCA主成分的方差貢獻(xiàn)率和累計(jì)方差貢獻(xiàn)率Tab.6 Variance contribution rate and accumulated variance contribution rate of PCA main components
圖11展現(xiàn)了隨著提取主成分個(gè)數(shù)的增加,單個(gè)主成分方差貢獻(xiàn)率的增加情況,可以發(fā)現(xiàn)由于單個(gè)主成分的方差貢獻(xiàn)率占總方差比例越來(lái)越小,從最初的20.76%降到最后的2.33%.圖12從另一個(gè)角度展現(xiàn)了隨著主成分個(gè)數(shù)的增加引起累計(jì)方差貢獻(xiàn)率的變化情況,由于單個(gè)主成分的方差貢獻(xiàn)率逐漸變小,因此累計(jì)方差貢獻(xiàn)率曲線趨于平緩.上述實(shí)驗(yàn)中PCA在85%的閾值下降維的主成分個(gè)數(shù)為13,因此壓縮結(jié)構(gòu)提取的特征數(shù)為13.
圖11 主成分方差占總方差比例隨主成分個(gè)數(shù)的變化Fig.11 Changing of proportion of principal component variance to total variance with numbers of main components
圖12 累計(jì)方差貢獻(xiàn)率隨主成分個(gè)數(shù)的變化Fig.12 Changing of accumulated variance contribution rate with numbers of main components
綜上所述,本文先構(gòu)造了3個(gè)不同類型的特征提取器作為串聯(lián)結(jié)構(gòu)的前半部分,等維結(jié)構(gòu)的DNN、稀疏結(jié)構(gòu)的SAE和壓縮結(jié)構(gòu)的PCA分別代表了數(shù)據(jù)抽象和提煉的3種解決方案.
串聯(lián)結(jié)構(gòu)的后半部分就是隨機(jī)森林等4個(gè)集成學(xué)習(xí)模型.本文使用網(wǎng)格搜索 (Grid search) 法在驗(yàn)證集上尋找最優(yōu)參數(shù),重點(diǎn)研究的參數(shù)加粗標(biāo)識(shí),其他參數(shù)選取默認(rèn)值,具體見(jiàn)表7~表10.
表7 隨機(jī)森林的最優(yōu)參數(shù)Tab.7 Best parameters of random forest
表8 XGBoost的最優(yōu)參數(shù)Tab.8 Best parameters of XGBoost
表9 LightGBM的最優(yōu)參數(shù)Tab.9 Best parameters of LightGBM
表10 CatBoost的最優(yōu)參數(shù)Tab.10 Best parameters of CatBoost
在提取了等維結(jié)構(gòu)的DNN的25個(gè)特征、稀疏結(jié)構(gòu)的SAE的90個(gè)特征和壓縮結(jié)構(gòu)的PCA的13個(gè)特征之后,將特征輸入4個(gè)集成學(xué)習(xí)模型中進(jìn)行訓(xùn)練,最后將訓(xùn)練好的模型在測(cè)試集上檢驗(yàn)效果,主要評(píng)價(jià)指標(biāo)是準(zhǔn)確率、AUC和KS值.為了便于展示,構(gòu)造的組合模型命名方式為前半部分是特征提取器的名字,后半部分是集成學(xué)習(xí)模型的名字,比如等維結(jié)構(gòu)的DNN和隨機(jī)森林相結(jié)合,組合模型名字為DNN隨機(jī)森林.可以建立的串聯(lián)模型數(shù)量共12個(gè),最終結(jié)果見(jiàn)表11,各個(gè)指標(biāo)中表現(xiàn)最好的數(shù)值通過(guò)加粗標(biāo)注.
表11 12種組合模型在測(cè)試集上的表現(xiàn)Tab.11 Performance of 12 combined models on test set
可以發(fā)現(xiàn)在準(zhǔn)確率這個(gè)指標(biāo)上,隨機(jī)森林等4種集成學(xué)習(xí)模型幾乎不相上下,其中LightGBM以微弱優(yōu)勢(shì)取得最高分.接下來(lái)觀察不受測(cè)試集分布變化影響的AUC和KS值,這兩項(xiàng)指標(biāo)更能反映二分類問(wèn)題下模型的性能.可以發(fā)現(xiàn)其中隨機(jī)森林的AUC值和KS值最高,3種Boosting類集成方法的AUC和KS值總體非常接近,因?yàn)槠浜诵幕A(chǔ)都是GBDT,導(dǎo)致對(duì)相同的數(shù)據(jù)的測(cè)試結(jié)果相差很小.由于為了在同一層面進(jìn)行對(duì)比分析,模型運(yùn)行的數(shù)據(jù)完全相同,類別特征在數(shù)據(jù)處理階段已經(jīng)通過(guò)WOE編碼數(shù)值化,導(dǎo)致CatBoost直接處理離散數(shù)據(jù)的卓越性能無(wú)法發(fā)揮.隨機(jī)森林作為Bagging類集成方法的代表,在這兩項(xiàng)關(guān)鍵指標(biāo)上都獲得了第一,超過(guò)了另外3種Boosting類集成方法,表明對(duì)于個(gè)人信用風(fēng)險(xiǎn)評(píng)估而言,Bagging類的方法比Boosting類方法更有優(yōu)勢(shì),該結(jié)果與Hamori等[50]認(rèn)為的Boosting類方法比Bagging類方法更好的結(jié)論有所不同.集成學(xué)習(xí)在投票組合或重復(fù)迭代了單棵CART之后,其分類能力得到了明顯提升.
在4種集成學(xué)習(xí)模型的訓(xùn)練和測(cè)試過(guò)程中,LightGBM充分體現(xiàn)了其“Light”(輕量級(jí))的優(yōu)勢(shì),訓(xùn)練速度最快,XGBoost和隨機(jī)森林次之,而CatBoost最慢.因此如果是在消費(fèi)金融等講究評(píng)估速度的平臺(tái)進(jìn)行個(gè)人信用分析時(shí),LightGBM不失為一個(gè)較好的選擇.
加上DNN和SAE這兩種特征提取器后,4種集成學(xué)習(xí)模型的準(zhǔn)確率幾乎沒(méi)有變化,說(shuō)明無(wú)論是等維結(jié)構(gòu)還是稀疏結(jié)構(gòu)對(duì)準(zhǔn)確率這個(gè)指標(biāo)基本沒(méi)有影響.但是使用PCA降維后卻導(dǎo)致集成學(xué)習(xí)的準(zhǔn)確率有了明顯的下降,原因可能是已經(jīng)對(duì)初始變量進(jìn)行了仔細(xì)的篩選,所選取的特征已經(jīng)有相當(dāng)?shù)拇硇?,繼續(xù)用PCA反而會(huì)使得13個(gè)新特征喪失業(yè)務(wù)含義,不利于模型的學(xué)習(xí).
12種串聯(lián)結(jié)構(gòu)模型的ROC曲線和相應(yīng)的AUC見(jiàn)圖13~圖16,同時(shí)觀察表明模型區(qū)分度的KS值,可以發(fā)現(xiàn)非常明顯的規(guī)律.對(duì)于Bagging類的隨機(jī)森林模型來(lái)說(shuō),3種特征提取器都沒(méi)有提升AUC和KS值,反而使得模型的這兩項(xiàng)指標(biāo)有所下降,隨機(jī)森林是單棵CART并行投票組合而成,本身就已經(jīng)有較好的效果,因此串聯(lián)結(jié)構(gòu)并無(wú)多少作用.而對(duì)于3種Boosting類模型來(lái)說(shuō),稀疏結(jié)構(gòu)的SAE都使得原來(lái)模型有了一定的提升,說(shuō)明高維稀疏的特征有助于糾正Boosting類模型迭代中的過(guò)擬合問(wèn)題,但是DNN和PCA兩種串聯(lián)結(jié)構(gòu)并沒(méi)有使得Boosting類模型取得更好的效果,其AUC和KS值不如先前.因此,稀疏結(jié)構(gòu)的SAE最適合作為串聯(lián)模型的特征提取器,尤其是能對(duì)Boosting類集成模型在AUC和KS值等關(guān)鍵指標(biāo)上有更好的提升.
圖13 隨機(jī)森林、DNN隨機(jī)森林、SAE隨機(jī)森林和PCA隨機(jī)森林的ROC曲線Fig.13 ROC curve of random forest, DNN random forest, SAE random forest and PCA random forest
圖14 XGBoost、DNN XGBoost、SAE XGBoost和PCA XGBoost的ROC曲線Fig.14 ROC curve of XGBoost, DNN XGBoost, SAE XGBoost and PCA XGBoost
圖15 LightGBM、DNN LightGBM、SAE LightGBM和PCA LightGBM的ROC曲線Fig.15 ROC curve of LightGBM, DNN LightGBM, SAE LightGBM and PCA LightGBM
圖16 CatBoost、DNN CatBoost、SAE CatBoost和PCA CatBoost的ROC曲線Fig.16 ROC curve of CatBoost, DNN CatBoost, SAE CatBoost and PCA CatBoost
從特征提取器本身的角度來(lái)看,SAE表現(xiàn)是最好的,說(shuō)明特殊結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò)自編碼器可以在稀疏化維度中尋求更優(yōu)秀的特征,進(jìn)一步體現(xiàn)了深度模型強(qiáng)大的學(xué)習(xí)能力;PCA作為經(jīng)典降維工具表現(xiàn)一般,其本身更適合對(duì)更高維度的原始特征進(jìn)行壓縮;DNN表現(xiàn)最差,說(shuō)明普通結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò)作為特征提取器并無(wú)優(yōu)勢(shì),而且DNN提取的特征個(gè)數(shù)和輸入特征數(shù)非常接近,對(duì)后續(xù)的集成學(xué)習(xí)模型來(lái)說(shuō)等維結(jié)構(gòu)并沒(méi)有獲得更有價(jià)值的信息.
第一,DNN作為等維結(jié)構(gòu)特征提取器并沒(méi)有取得想象中提升集成學(xué)習(xí)預(yù)測(cè)能力的效果,其本質(zhì)上是多層感知器,相較于傳統(tǒng)單隱藏層的BP神經(jīng)網(wǎng)絡(luò)擁有更多的層數(shù),基于最近十年發(fā)展出的各種優(yōu)化技巧使得深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練成為可能.而更具代表性的深度學(xué)習(xí)模型,比如卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)由于其特殊的構(gòu)造往往能在諸如圖像分類、語(yǔ)音識(shí)別和自然語(yǔ)言處理等非結(jié)構(gòu)化的數(shù)據(jù)上表現(xiàn)出色[51-52],因?yàn)閳D像、語(yǔ)音、文字轉(zhuǎn)換為數(shù)值之后掩蓋了其本來(lái)形態(tài),CNN和RNN相比傳統(tǒng)神經(jīng)網(wǎng)絡(luò)能更有效地提取抽象特征,從而實(shí)現(xiàn)解決端到端(End-to-end)的學(xué)習(xí).但是,對(duì)于個(gè)人信用資料這種2維的結(jié)構(gòu)化數(shù)據(jù)來(lái)說(shuō),每列數(shù)據(jù)都有具體的經(jīng)濟(jì)金融業(yè)務(wù)內(nèi)涵,比如性別、年齡、收入、資產(chǎn)負(fù)債率等,DNN并沒(méi)有發(fā)揮出類似CNN或RNN的優(yōu)勢(shì).
第二,SAE作為稀疏結(jié)構(gòu)特征提取器相比普通的DNN和常用降維工具PCA在實(shí)證結(jié)果中表現(xiàn)更好,雖然沒(méi)有取得“石破天驚”的提升效果,不過(guò)由于個(gè)人征信市場(chǎng)體量很大,只要各項(xiàng)指標(biāo)相比原先模型有一定的進(jìn)步就是有價(jià)值的,能夠幫助銀行和消費(fèi)金融等放貸機(jī)構(gòu)“聚沙成塔”地減少遺漏識(shí)別違約風(fēng)險(xiǎn)造成的經(jīng)濟(jì)損失.因此相比普通的深度學(xué)習(xí)模型DNN,個(gè)人征信實(shí)踐中可以嘗試用SAE先提取特征后再輸入其他分類器訓(xùn)練.SAE的深度學(xué)習(xí)提取到的特征和Boosting類集成學(xué)習(xí)構(gòu)建的組合學(xué)習(xí)模型為個(gè)人信用風(fēng)險(xiǎn)評(píng)估提供了新的方法和思路,可為國(guó)內(nèi)金融相關(guān)企業(yè)防范風(fēng)險(xiǎn)提供借鑒,也可為監(jiān)管部門提供參考.
個(gè)人信用風(fēng)險(xiǎn)評(píng)估作為銀行信貸和消費(fèi)金融的基石,肩負(fù)著篩選合適客戶及識(shí)別潛在風(fēng)險(xiǎn)的核心職能,更先進(jìn)的評(píng)估理論和更高效的評(píng)估方法對(duì)整個(gè)個(gè)人征信行業(yè)的穩(wěn)定具有特殊重要的作用,進(jìn)一步探索個(gè)人信用風(fēng)險(xiǎn)評(píng)估模型有著很高的實(shí)用價(jià)值.本文基于Lending Club 2019年的數(shù)據(jù),對(duì)深度學(xué)習(xí)、集成學(xué)習(xí)與組合學(xué)習(xí)在個(gè)人信用風(fēng)險(xiǎn)評(píng)估領(lǐng)域進(jìn)行實(shí)證檢驗(yàn),主要的結(jié)論與建議如下:
第一,隨機(jī)森林、XGBoost、LightGBM和CatBoost 4種集成學(xué)習(xí)模型的整體表現(xiàn)比較接近,其中隨機(jī)森林表現(xiàn)最好,可以作為個(gè)人信用風(fēng)險(xiǎn)評(píng)估的首選模型;LightGBM訓(xùn)練速度最快,因此更適合講究審批效率的消費(fèi)金融風(fēng)控.
第二,借鑒深度學(xué)習(xí)擅長(zhǎng)提取圖像和語(yǔ)音等特征的優(yōu)勢(shì),將深度學(xué)習(xí)和集成學(xué)習(xí)構(gòu)建成串聯(lián)結(jié)構(gòu)的組合學(xué)習(xí)模型;稀疏結(jié)構(gòu)的SAE提取到的特征相比等維結(jié)構(gòu)的DNN和壓縮結(jié)構(gòu)的PCA更能提升原有的集成學(xué)習(xí)模型的評(píng)價(jià)指標(biāo),尤其是對(duì)XGBoost、LightGBM和CatBoost等Boosting類模型有一定程度的改進(jìn).
第三,深度學(xué)習(xí)最大的問(wèn)題在于無(wú)法給出業(yè)務(wù)上的合理解釋,比如像傳統(tǒng)的計(jì)量方法一樣給出因果關(guān)系分析以及每個(gè)參數(shù)的經(jīng)濟(jì)學(xué)含義[53],這點(diǎn)難以滿足金融監(jiān)管的要求.但是SAE等深度學(xué)習(xí)模型提取到的稀疏特征仍然可以作為個(gè)人征信機(jī)構(gòu)內(nèi)部審批的輔助參考,比如將這些特征融入FICO信用分、阿里的芝麻信用分等評(píng)價(jià)體系,并結(jié)合其他指標(biāo)對(duì)借款人描繪層次更加豐富的“用戶畫像”,從而有效甄別潛在的違約風(fēng)險(xiǎn).