◎倪子鑒
近年來,隨著互聯(lián)網(wǎng)金融的不斷發(fā)展,個(gè)人小微貸款不斷出現(xiàn),對個(gè)人信貸的風(fēng)險(xiǎn)預(yù)測也越來越重要,風(fēng)險(xiǎn)控制已經(jīng)成為當(dāng)下熱點(diǎn)。而隨著互聯(lián)網(wǎng)信息產(chǎn)業(yè)的不斷完善,海量數(shù)據(jù)被沉淀了下來。運(yùn)用大數(shù)據(jù),自動(dòng)化的分析與預(yù)測個(gè)人信貸風(fēng)險(xiǎn)不僅可以有效的提高預(yù)測的準(zhǔn)確性,還能很好的節(jié)約審核成本。本文通過對5萬多用戶的小微貸款信息數(shù)據(jù)進(jìn)行分析,提取其中有價(jià)值的信息,基于Xgboost建立信貸逾期預(yù)測模型,為實(shí)現(xiàn)自動(dòng)化小微貸款審核提供理論支持。
隨著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,許多各行各業(yè)的人士將數(shù)據(jù)挖掘技術(shù)應(yīng)用于自身的領(lǐng)域。金融行業(yè)也不例外,隨著互聯(lián)網(wǎng)金融的發(fā)展,如今人們已經(jīng)很少使用現(xiàn)金進(jìn)行交易。而在貸款領(lǐng)域中,也逐漸開啟線上模式,進(jìn)行互聯(lián)網(wǎng)化。而銀行與一些老牌的金融機(jī)構(gòu)仍然在使用一些傳統(tǒng)的信用審核辦法。主要包括人工審核法與標(biāo)準(zhǔn)評分卡法。這兩種審核方式效率不高,且前期開發(fā)審核體系的時(shí)間過長。顯然在這個(gè)高速發(fā)展的互聯(lián)網(wǎng)時(shí)代,傳統(tǒng)銀行機(jī)構(gòu)的人工審核模式與信用評級(jí)標(biāo)準(zhǔn)已經(jīng)慢慢的無法適應(yīng)新的快速的變化。
而對于新興的互聯(lián)網(wǎng)金融企業(yè)單日申請貸款的人數(shù)十分眾多,所以需要通過數(shù)據(jù)挖掘技術(shù)來快速、精準(zhǔn)的對用戶進(jìn)行風(fēng)險(xiǎn)評估。一方面,這有利于互聯(lián)網(wǎng)金融公司的業(yè)務(wù)開展,把控逾期風(fēng)險(xiǎn),減少平臺(tái)暴雷事件發(fā)生。另一方面,也有助于加快貸款用戶的放款到賬時(shí)效,優(yōu)化用戶體驗(yàn)。
本文采用業(yè)界常用的數(shù)據(jù)挖掘技術(shù)Xgboost模型,結(jié)合用戶的各種行為記錄,為貸款用戶提供全面的信用評估。進(jìn)而可以為互聯(lián)網(wǎng)金融的小微貸款逾期風(fēng)險(xiǎn)預(yù)測模型的建立提供參考,為風(fēng)險(xiǎn)控制自動(dòng)化預(yù)測提供理論支持。
Xgboost(Extreme Gradient Boosting)模型是當(dāng)下比較流行的機(jī)械學(xué)習(xí)算法。這種方法是提升樹的一種。提升樹在數(shù)據(jù)挖掘領(lǐng)域有著相當(dāng)廣泛的應(yīng)用,包括提升樹和梯度提升樹。其中提升樹模型采用加法模型與前向分步算法,同時(shí)基函數(shù)采用決策樹算法,對待分類問題采用二叉分類樹,對于回歸問題采用二叉回歸樹。提升樹模型可以看作是決策樹的加法模型:
其中T()表示決策樹,M為樹的個(gè)數(shù),Θ表示決策樹的參數(shù);
而對于梯度提升樹其學(xué)習(xí)流程與提升樹類似只是不再使用殘差作為新的訓(xùn)練數(shù)據(jù)而是使用損失函數(shù)的梯度作為新的新的訓(xùn)練數(shù)據(jù)的y值。提升樹模型每一次的提升都是靠上次的預(yù)測結(jié)果與訓(xùn)練數(shù)據(jù)的label值差值作為新的訓(xùn)練數(shù)據(jù)進(jìn)行重新訓(xùn)練,GDBT則是將殘差計(jì)算替換成了損失函數(shù)的梯度方向,將上一次的預(yù)測結(jié)果帶入梯度中求出本輪的訓(xùn)練數(shù)據(jù)。
Xgboost則是在GDBT的基礎(chǔ)上,又進(jìn)行了如下改進(jìn):
第一,GBDT將目標(biāo)函數(shù)泰勒展開到一階,而Xgboost將目標(biāo)函數(shù)泰勒展開到了二階。相比于GBDT的一階展開,二階展開保留了更多有關(guān)目標(biāo)函數(shù)的信息,故對于模型能學(xué)習(xí)到更多信息,這就使得模型的整體穩(wěn)定性與泛化能力大大提升。
第二,GBDT是給新的基模型尋找新的擬合標(biāo)簽(前面加法模型的負(fù)梯度),而Xgboost是給新的基模型尋找新的目標(biāo)函數(shù)(目標(biāo)函數(shù)關(guān)于新的基模型的二階泰勒展開)。
第三,Xgboost加入了和葉子權(quán)重的L2正則化項(xiàng),因而有利于模型獲得更低的方差。并且一定程度避免了過擬合現(xiàn)象。
第四,Xgboost增加了自動(dòng)處理缺失值特征的策略。通過把帶缺失值樣本分別劃分到左子樹或者右子樹,比較兩種方案下目標(biāo)函數(shù)的優(yōu)劣,從而自動(dòng)對有缺失值的樣本進(jìn)行劃分,無需對缺失特征進(jìn)行填充預(yù)處理。
本文使用的數(shù)據(jù)維度主要包括小微貸款用戶的基本個(gè)人信息、信用卡信息、用戶瀏覽行為信息與銀行流水信息。獲取的數(shù)據(jù)全部通過脫敏處理后,對數(shù)據(jù)集進(jìn)行進(jìn)一步的缺失值處理、特征預(yù)處理、特征篩選。
對于本數(shù)據(jù)集,原始數(shù)據(jù)共包括367個(gè)特征。我們首先剔除缺失值占比過大的特征,因?yàn)槿绻笔е嫡急冗^大,該特征將無法有效的對結(jié)果進(jìn)行解釋。然后我們將相關(guān)性過大的一組特征剔除一個(gè),保留其中與因變量相關(guān)性更大,這樣有助于模型的準(zhǔn)確。最后我們剔除特征方差過小接近于0的特征。因?yàn)樘卣鞣讲钸^小說明該特征對于樣本的區(qū)分沒有實(shí)質(zhì)性的幫助。最終模型包含278個(gè)特征,模型的建立與驗(yàn)證都是基于這278個(gè)特征。
?
評價(jià)一個(gè)模型的好壞需要一定指標(biāo)來進(jìn)行評估度量。本文使用精確率、召回率、整體準(zhǔn)確率、AUC與KS統(tǒng)計(jì)量來對模型進(jìn)行評價(jià)。
精確率是表示預(yù)測是正例的所有結(jié)果中,預(yù)測正確的實(shí)例的占比。
召回率表示真實(shí)情況是正例,預(yù)測正確的實(shí)例的占比。
在理想的情況下,我們模型的精確率和召回率都應(yīng)越高越好,但在實(shí)際情況中,這兩個(gè)指標(biāo)往往是一對相互矛盾的度量。精確率偏低時(shí),召回率往往偏高,精確率偏高時(shí),召回率往往偏低。
整體準(zhǔn)確率是針對整個(gè)模型,它表示在整個(gè)模型中,預(yù)測結(jié)果正確的情況占總體數(shù)據(jù)的比重。
AUC(Area Under Curve)被定義為ROC曲線下的面積。我們往往使用AUC值作為模型的評價(jià)標(biāo)準(zhǔn)是因?yàn)楹芏鄷r(shí)候ROC曲線并不能清晰的說明哪個(gè)分類器的效果更好,而作為一個(gè)數(shù)值,對應(yīng)AUC更大的分類器效果更好。
KS(Kolmogorov-Smirnov)值衡量的是好壞樣本累計(jì)分部之間的差值。好壞樣本累計(jì)差異越大,KS指標(biāo)越大,那么模型的風(fēng)險(xiǎn)區(qū)分能力越強(qiáng)。但是KS指標(biāo)不能過大,如果KS值太高(一般認(rèn)為大于0.7),則模型可能存在問題。
首先,我們采用對數(shù)據(jù)依然存在的缺失值不做填充處理。因?yàn)閄gboost算法對于缺失值的存在有很好的默認(rèn)處理機(jī)制,該算法會(huì)自動(dòng)幫助我們對缺失值進(jìn)行處理,且比人工處理的效果一般要更優(yōu)。然后我們對數(shù)據(jù)訓(xùn)練集采用2:8的比例進(jìn)行劃分,20%的訓(xùn)練集數(shù)據(jù)做為驗(yàn)證集,采用80%的訓(xùn)練集數(shù)據(jù)對Xgboost模型進(jìn)行訓(xùn)練。用訓(xùn)練好的模型驗(yàn)證,得到驗(yàn)證集的混淆矩陣如下表所示:
?
通過上表數(shù)據(jù),我們可以計(jì)算出此模型的召回率為0.089,精確率為0.565,整體準(zhǔn)確率為87.52%,即存在約12.5%的用戶會(huì)被預(yù)測錯(cuò)誤。該模型的AUC值為0.784,KS值為0.45。通過這兩個(gè)指標(biāo)我們不難看出,訓(xùn)練出的模型預(yù)測效果較好,能較好的評估預(yù)測出用戶的逾期情況。但是召回率和精確率偏低,這種問題經(jīng)分析有可能是正負(fù)樣本分布不均導(dǎo)致的,該數(shù)據(jù)集的正負(fù)樣本數(shù)為8.9:1。訓(xùn)練集的AUC基本是在0.9以上的,而驗(yàn)證集的AUC數(shù)值則在0.78左右,故此我們可以推斷,在訓(xùn)練模型時(shí)模型出現(xiàn)了過擬合現(xiàn)象。于是我們將scale_pos_weight的值下調(diào),從1.1調(diào)為0.9,控制正樣本權(quán)重,調(diào)節(jié)正負(fù)樣本不平衡問題。然后我們將模型的學(xué)習(xí)率由原來的0.03調(diào)為0.08。調(diào)整后驗(yàn)證集的混淆矩陣如下表所見:
?
通過上表數(shù)據(jù),我們可以計(jì)算出此模型的召回率為0.099,精確率為0.783,整體準(zhǔn)確率為88.17%,即存在約12%的用戶會(huì)被預(yù)測錯(cuò)誤。該模型的AUC為0.78,KS值為0.436,從這兩個(gè)指標(biāo)可以看出,訓(xùn)練出的模型效果是比較好的。調(diào)參后,精確率得到了提高,并且召回率也得到了提高,說明模型在一定程度上改善了過擬合與正負(fù)樣本分布不均問題??傊?,我們可以看到Xgboost模型在預(yù)測小微貸款用戶逾期情況上,有較好的效果。
本文通過對5萬多條小微貸款用戶數(shù)據(jù)進(jìn)行研究,對Xgboost模型在預(yù)測小微貸款用戶逾期風(fēng)險(xiǎn)情況的表現(xiàn)進(jìn)行了測試與探討,得出了Xgboost模型能較為有效的用于小微貸款逾期風(fēng)險(xiǎn)預(yù)測的初步結(jié)論。個(gè)人認(rèn)為可以對公司建立小微貸款逾期風(fēng)險(xiǎn)預(yù)測模型提供以下的建議:
從整個(gè)建模過程,我們不難看出,對數(shù)據(jù)的預(yù)處理與特征篩選,是整個(gè)建模過程的關(guān)鍵。哪些特征進(jìn)入模型將極大的影響所建模型的精確程度。即使特征存在缺失值也不能輕易剔除,要盡可能把它作為一種特征來處理。對于模型的后期調(diào)整與優(yōu)化,是提高模型精度的重要手段。這樣在使用Xgboost模型預(yù)測小微貸款用戶時(shí),才能建立出更加精確的模型。