魏千程,吳開超,劉 瑩
1(中國科學院 計算機網(wǎng)絡(luò)信息中心,北京 100190)
2(中國科學院大學,北京 100049)
對客戶進行信用評分是金融機構(gòu)開展業(yè)務(wù)的重要保證,是金融機構(gòu)長期關(guān)注的核心問題.一個好的信用評分模型,能幫助金融機構(gòu)對客戶進行準確識別,繼而規(guī)避可能發(fā)生的風險,獲得更高的利潤.
隨著互聯(lián)網(wǎng)時代的來臨,互聯(lián)網(wǎng)金融信貸業(yè)務(wù)也得到了廣泛的發(fā)展.互聯(lián)網(wǎng)金融機構(gòu)在開展信貸業(yè)務(wù)的同時,也面臨著一些客戶由于主觀惡意欺詐或者其他客觀原因無法及時還款而帶來的風險問題,因此對信貸業(yè)務(wù)進行風控建模是必不可少的.互聯(lián)網(wǎng)金融機構(gòu)通常會開展多項不同的信貸業(yè)務(wù),其中一些新開展的業(yè)務(wù)由于缺少相應(yīng)的客戶數(shù)據(jù)而存在無法利用傳統(tǒng)機器學習方法進行有效建模的 “冷啟動” 問題.如何根據(jù)互聯(lián)網(wǎng)金融機構(gòu)已開展的擁有一定數(shù)量客戶信息的信貸業(yè)務(wù)幫助新開展的業(yè)務(wù)進行建模是一個既有應(yīng)用價值又值得廣泛探究的領(lǐng)域.
本文針對互聯(lián)網(wǎng)金融機構(gòu)實際業(yè)務(wù)中存在的樣本數(shù)量少以及模型 “冷啟動” 問題,并根據(jù)實際數(shù)據(jù)情況(大量已有業(yè)務(wù)數(shù)據(jù)及少量新開展業(yè)務(wù)數(shù)據(jù)),提出了一種基于遷移學習的信用評分模型.首先引入Triplet-Loss表征學習[1]網(wǎng)絡(luò)結(jié)構(gòu)對數(shù)據(jù)進行重新編碼,再加入領(lǐng)域適配模塊[2]以進一步拉近兩類業(yè)務(wù)數(shù)據(jù)在特征空間內(nèi)的距離,而后通過fine-tune 技術(shù)實現(xiàn)了不同業(yè)務(wù)數(shù)據(jù)之間的知識遷移.相較于單獨利用新開展業(yè)務(wù)數(shù)據(jù)進行建模,利用本文模型在信用評分預測效果上得到了一定的提升,在一定程度上解決了該問題.
信用評分模型經(jīng)歷了3 個階段的發(fā)展:分別是定性分析、描述性統(tǒng)計分析以及數(shù)據(jù)挖掘分析[3].定性分析是早期的信用評分方法,而后基于描述性統(tǒng)計分析的方法被引入到信用評分中.隨著計算機性能的提高和人工智能技術(shù)的發(fā)展,利用數(shù)據(jù)挖掘手段進行信用評分逐漸成為主流方法,通過對客戶行為特征、資產(chǎn)能力以及其他屬性信息進行深度挖掘,提煉出大量反應(yīng)客戶還款能力的特征,并將各種特征信息進行綜合,從而對客戶的信用表現(xiàn)進行預測.如賈中明等基于梯度提升決策樹模型進行信用風險評測[4];都紅雯等基于SVM 和Logistic 組合模型建立的風險評估模型[5].
遷移學習作為機器學習的一個研究方向已經(jīng)得到了長足的發(fā)展,其基本思想是將已學習到的知識應(yīng)用于新的任務(wù)當中,使得新任務(wù)在樣本數(shù)量少的情況下能夠獲得更好的建模效果,正適用于本文提出的問題.遷移學習中的數(shù)據(jù)分為源領(lǐng)域數(shù)據(jù)以及目標領(lǐng)域數(shù)據(jù),其中源領(lǐng)域數(shù)據(jù)即為已有大量樣本的數(shù)據(jù),目標領(lǐng)域數(shù)據(jù)為目標任務(wù)所用的數(shù)據(jù).遷移學習的核心目標就是找到源領(lǐng)域數(shù)據(jù)和目標領(lǐng)域數(shù)據(jù)之間共通的知識特性,縮小兩個領(lǐng)域數(shù)據(jù)的差距,利用源領(lǐng)域數(shù)據(jù)的知識提高目標領(lǐng)域數(shù)據(jù)在目標任務(wù)中的表現(xiàn).
遷移學習方法可分為4 類:基于實例的遷移學習、基于特征的遷移學習、基于模型的遷移學習以及基于關(guān)系的遷移學習[6].基于實例的遷移學習通過權(quán)重重用,加大源領(lǐng)域數(shù)據(jù)中與目標領(lǐng)域數(shù)據(jù)相似的樣本并將其填充到目標領(lǐng)域中,實現(xiàn)對目標領(lǐng)域數(shù)據(jù)擴展.基于特征的遷移學習是將源領(lǐng)域數(shù)據(jù)和目標領(lǐng)域數(shù)據(jù)的特征通過變換,映射到同一空間中,使它們更加相似.基于模型的遷移學習主要用于神經(jīng)網(wǎng)絡(luò)中,利用源領(lǐng)域數(shù)據(jù)先訓練好一個模型,再將目標領(lǐng)域數(shù)據(jù)直接輸入該模型.基于關(guān)系的遷移學習是利用不同領(lǐng)域數(shù)據(jù)的關(guān)系類比,不適用于本文提出的問題.
隨著深度學習的方法的興起,利用深度神經(jīng)網(wǎng)絡(luò)進行遷移學習的研究也越來越多的被研究人員所關(guān)注.來自康奈爾大學的Yosinski 等[7]率先進行了深度神經(jīng)網(wǎng)絡(luò)可遷移性的研究并證明了神經(jīng)網(wǎng)絡(luò)的可遷移性.深度遷移學習具有可以自動化提取表現(xiàn)力更好的特征等優(yōu)勢,可以實現(xiàn)基于特征和基于模型的遷移學習.
本文的建模場景是借助樣本數(shù)量多的信貸業(yè)務(wù)數(shù)據(jù)提升樣本數(shù)量少的信貸業(yè)務(wù)的建模效果.Razavian等做過由卷積神經(jīng)網(wǎng)絡(luò)提取特征作為SVM 分類器輸入的研究,顯著提高了圖像分類的效果[8].借鑒Razavian利用神經(jīng)網(wǎng)絡(luò)提取特征再輸入分類器的研究思想,本實驗整體結(jié)構(gòu)也分為兩部分,第1 部分神經(jīng)網(wǎng)絡(luò)實現(xiàn)特征提取,第2 部分為XGBoost 分類器.針對數(shù)據(jù)特性和任務(wù)需求,構(gòu)建如圖1所示信用評分模型.
圖1 信用評分模型
模型整個流程可分為Triplet-loss 表征學習、領(lǐng)域適配、模型fine-tune、分類器預測等步驟.其中表征學習、領(lǐng)域適配以及模型fine-tune 等深度學習方法實現(xiàn)了對樣本的重新編碼,之后將重新編碼后樣本數(shù)據(jù)輸入XGBboost 進行分類.前3 個步驟的深度學習方法詳細過程如下:模型通過Triplet-loss 實現(xiàn)對數(shù)據(jù)的表征學習,使數(shù)據(jù)特征變?yōu)楦子诜诸惖木幋a形式;在領(lǐng)域適配步驟,首先計算源領(lǐng)域數(shù)據(jù)和目標領(lǐng)域數(shù)據(jù)的數(shù)據(jù)分布距離,再以該距離作為優(yōu)化目標,不斷縮小兩類數(shù)據(jù)之間的分布距離;將源領(lǐng)域數(shù)據(jù)經(jīng)過網(wǎng)絡(luò)訓練后得到的模型保存,通過fine-tune 技術(shù)(在此過程中,預訓練模型的自適應(yīng)層會被刪除)實現(xiàn)將源領(lǐng)域數(shù)據(jù)中學習知識遷移到目標領(lǐng)域數(shù)據(jù)中.
Triplet-loss 最早提出是為了解決人臉識別領(lǐng)域的問題,由谷歌公司的Schroff 等提出,是對樣本進行新的編碼表示的過程,目的是讓數(shù)據(jù)中類別相同的樣本在新的編碼空間中距離更近,類別不同的樣本在新的編碼空間中距離更遠.本文實驗本質(zhì)是一個二分類的任務(wù),故選用Triplet-loss 使樣本根據(jù)類別不同而以更易于分類的特征編碼表示出來.
Triplet-loss 基于Triplet Network[9]的網(wǎng)絡(luò)結(jié)構(gòu),并提出了新的損失函數(shù).其網(wǎng)絡(luò)結(jié)構(gòu)是由3 個參數(shù)共享的網(wǎng)絡(luò)模塊組成,如圖2所示.
圖2 Triplet-Loss 網(wǎng)絡(luò)結(jié)構(gòu)
Triplet-loss 原理如下:
(1)輸入一個三元組 ,其中a是目標樣本,p是與a同類的正例樣本,n是與a不同類別的負例樣本.
(2)三元組分別經(jīng)過三個網(wǎng)絡(luò)模塊后得到各自的Embedding 向量表示.
(3)計算Triplet-loss 損失函數(shù)并進行反向傳播.
Triplet-loss 公式為:
其中,loss為損失函數(shù),d(a,p)代表目標樣本a和正例樣本p的之間距離,d(a,n)代表目標樣本a和負例樣本n之間的距離,margin是自定義超參數(shù),代表兩類距離的最小差值.
(4)通過最小化上述損失函數(shù),實現(xiàn)d(a,p)=0以及d(a,n)>d(a,p)+margin.達到縮小同類樣本特征距離的,加大不同類別樣本特征距離的目的.
領(lǐng)域適配即數(shù)據(jù)分布自適應(yīng),是最常用的一類遷移學習方法.其基本思想是,針對源域數(shù)據(jù)與目標域數(shù)據(jù)的數(shù)據(jù)概率分布不同問題,通過一些變換拉近兩類數(shù)據(jù)分布的距離,使它們的數(shù)據(jù)分布趨于相同.在構(gòu)建本文模型時,雖然兩類數(shù)據(jù)存在業(yè)務(wù)上的聯(lián)系,但是他們的數(shù)據(jù)分布并不相同,因此在對源領(lǐng)域數(shù)據(jù)進行訓練時加入領(lǐng)域適配工作,將源領(lǐng)域數(shù)據(jù)的數(shù)據(jù)分布向目標領(lǐng)域數(shù)據(jù)拉近,以期使源領(lǐng)域數(shù)據(jù)面對目標領(lǐng)域數(shù)據(jù)有更好的知識表達,更好的發(fā)揮遷移學習的作用.
在本文的實現(xiàn)中,在Triplet 網(wǎng)絡(luò)中間加入領(lǐng)域自適應(yīng)計算,實現(xiàn)領(lǐng)域適配的目的.在加入自適應(yīng)層之后,網(wǎng)絡(luò)的損失函數(shù)為:
其中,loss為損失函數(shù),Ds指源領(lǐng)域數(shù)據(jù),ys指目標領(lǐng)域標簽,Dt指目標領(lǐng)域數(shù)據(jù),lc(Ds,ys)表示源領(lǐng)域數(shù)據(jù)的常規(guī)損失函數(shù),即式(1)所示損失函數(shù),lA(Ds,Dt)網(wǎng)絡(luò)的自適應(yīng)損失函數(shù),如式(3)所示.后一部分是傳統(tǒng)深度學習中所不具有的部分,表示源領(lǐng)域數(shù)據(jù)與目標領(lǐng)域數(shù)據(jù)的分布距離損失函數(shù).λ是超參數(shù),用來衡量兩部分損失函數(shù)的權(quán)重比值.
深度網(wǎng)絡(luò)自適應(yīng)包括兩個主要方面:一方面是上面提到的自適應(yīng)層選取,決定網(wǎng)絡(luò)的學習程度,加州大學伯克利分校的 Tzeng 實驗[10]得出自適應(yīng)層放在網(wǎng)絡(luò)倒數(shù)第二層取得的效果最優(yōu);另一方面是采用什么樣的自適應(yīng)方法(度量準則),決定網(wǎng)絡(luò)的泛化能力.
最大均值差異MMD 度量是由Borgwardt 等[11]提出的判斷兩類樣本是否屬于同一個總體分布的指標.它是一種核學習方法,度量在再生希爾伯特空間中兩個分布的距離.MMD 是領(lǐng)域適配方法中常用的度量準則,被很多學者應(yīng)用在遷移學習領(lǐng)域.本文也選用MMD方法作為領(lǐng)域適配過程的度量準則.訓練源領(lǐng)域數(shù)據(jù)模型時,在Triplet-Loss 網(wǎng)絡(luò)后面添加領(lǐng)域自適應(yīng)層,計算源領(lǐng)域數(shù)據(jù)和目標領(lǐng)域數(shù)據(jù)之間數(shù)據(jù)分布的距離,并將該距離作為網(wǎng)絡(luò)總損失函數(shù)的一部分,從而實現(xiàn)領(lǐng)域適配.兩個隨機變量的MMD 平方距離為:
其中,MMD2(X,Y)表示兩個隨機變量的MMD 平方距離,n1和n2分 別表示源領(lǐng)域數(shù)據(jù)集和目標領(lǐng)域數(shù)據(jù)集,xi和yj代表源領(lǐng)域數(shù)據(jù)集和目標領(lǐng)域數(shù)據(jù)集中的樣本,φ(·)用于把原變量映射到再生和希爾伯特空間(Reproducing Kernel Hilbert Space,RKHS),希爾伯特空間表示為H.
Fine-tune 也是深度學習在遷移學習應(yīng)用中的重要概念.具體方法是利用已經(jīng)訓練好的網(wǎng)絡(luò)模型,針對自己的任務(wù)進行相應(yīng)調(diào)整,從而實現(xiàn)在目標數(shù)據(jù)較少或者訓練成本較高時,提高模型的效果或訓練效率.本文實驗中,先對源領(lǐng)域數(shù)據(jù)進行特征編碼表示訓練之后刪除領(lǐng)域適配層網(wǎng)絡(luò)并保持其他參數(shù)不變,之后采用fine-tune 技術(shù),將目標領(lǐng)域數(shù)據(jù)輸入到模型中,對模型進行調(diào)整.
圖3所示為fine-tune 示意圖,該網(wǎng)絡(luò)結(jié)構(gòu)分為輸入層、隱藏層和輸出層,其中fine-tune 過程是針對隱藏層網(wǎng)絡(luò)的.具體原理如下:
(1)將已訓練網(wǎng)絡(luò)模型的參數(shù)作為目標任務(wù)的初始化參數(shù).
(2)根據(jù)目標任務(wù)和數(shù)據(jù),對已訓練網(wǎng)絡(luò)模型隱藏層從前往后擇取適當?shù)膶訑?shù)進行參數(shù)凍結(jié)保持不變.
(3)剩余部分隱藏層網(wǎng)絡(luò)作為遷移層,用目標數(shù)據(jù)對遷移層參數(shù)重新訓練.
圖3 Fine-tune 過程圖
XGBoost 是一種梯度提升決策樹算法,它在殘差擬合的過程中會生成多個弱分類器,再通過boosting 將多個弱分類器進行集成得到一個強分類器[12].XGBoost通過對損失函數(shù)二階泰勒展開從而引入二階導數(shù)信息的方法進行優(yōu)化,以使得模型訓練能夠更快的得到收斂.XGBoost 額外引入正則項防止過擬合現(xiàn)象的出現(xiàn).
XGBoost 具有模型可解釋性、輸入數(shù)據(jù)不變性、易于調(diào)參等特點,適用于表格數(shù)據(jù).同時由于良好的內(nèi)存優(yōu)化、緩存機制等因素,XGBoost 的計算速度也非???有良好的性能.
本實驗采用的數(shù)據(jù)集為前海征信 “好信杯” 大數(shù)據(jù)算法大賽公開的脫敏數(shù)據(jù)集.數(shù)據(jù)集分為兩類,分別是4 萬條信用貸A 數(shù)據(jù)和4 千條現(xiàn)金貸業(yè)務(wù)B 數(shù)據(jù).A 數(shù)據(jù)是借款人憑借自己的信譽獲得貸款批準發(fā)放,無需提供抵押物品.B 數(shù)據(jù)是發(fā)薪日貸款有額度小、周期短、無抵押、流程快、利率高等5 個特點.本實驗就是利用業(yè)務(wù)A 和業(yè)務(wù)B 之間的關(guān)聯(lián)性,通過將業(yè)務(wù)A 數(shù)據(jù)學習到相關(guān)知識并遷移到業(yè)務(wù)B 任務(wù)中,提高業(yè)務(wù)B 的信用評分模型水平.數(shù)據(jù)樣本類別分布如表1所示.
表1 數(shù)據(jù)集樣本分布表
兩類數(shù)據(jù)集擁有過相同的字段,主要包括業(yè)務(wù)產(chǎn)品特征、用戶是否具有某些網(wǎng)絡(luò)行為以及用戶自身屬性等三類樣本特征.其中產(chǎn)品特征與網(wǎng)絡(luò)行為特征是類別特征,用戶自身屬性既有類別特征也有數(shù)值特征.
參數(shù)設(shè)置上,我們設(shè)置了具有4 個隱藏層的全連接神經(jīng)網(wǎng)絡(luò),其中每層的維度分別為256、256、128和64,使用tanh 激活函數(shù);為了抑制過擬合,加入了dropout 層,比率為0.5;調(diào)整MMD 損失權(quán)重的λ參數(shù)設(shè)置為0.2;XGBoost 部分,設(shè)置最大深度為5,迭代10 輪,樹的數(shù)目為100.
因?qū)嶒灁?shù)據(jù)集樣本存在數(shù)據(jù)不平衡的問題,故選用F1 值作為模型性能的評價指標.F1 值兼顧精確率和召回率,同時讓兩個指標達到相對的最高值,是一個平衡的評價指標.F1 值的公式如下:
首先進行消融實驗來確定我們提出模型中的每個組件的重要性.
(1) Our:包含本模型所有組件.
(2) Our-t:Triplet-loss 起到對原始數(shù)據(jù)重新編碼,拉近同類數(shù)據(jù)類內(nèi)距離,拉大異類數(shù)據(jù)類間距離的作用.該模型驗證Triplet-loss 表征學習對遷移性能的影響.作為對比實驗,保持模型其他部分不變,將Triplet-loss部分網(wǎng)絡(luò)結(jié)構(gòu)替換為全連接層神經(jīng)網(wǎng)絡(luò).
(3) Our-m:領(lǐng)域適配遷移學習思想的體現(xiàn),起到縮小源領(lǐng)域數(shù)據(jù)與目標領(lǐng)域數(shù)據(jù)整體數(shù)據(jù)分布的作用.本實驗驗證領(lǐng)域適配對遷移性能的影響.作為對比實驗,保持模型其他部分不變,單獨去除適配層網(wǎng)絡(luò).
表2上面部分顯示了該消融實驗的結(jié)果.可以看到Our 方法比Our-t 方法的F1 值高2.2%,證明了Tripletloss 表征學習的有效性.同時Our 方法比Our-m 方法的F1 值高1.2%,證明了領(lǐng)域適配的有效性.
表2 實驗結(jié)果F1 對照表
其次將提出的模型與傳統(tǒng)非遷移學習建?;鶞史椒╗13]進行比較,直接將目標領(lǐng)域數(shù)據(jù)放入XGBoost 模型中做分類預測.
表2最后一行顯示顯示了比較的結(jié)果.我們可以看到Our 方法優(yōu)于已有基準方法.具體來說,該模型比XGBoost 的F1 值提高了2.4%,證明了運用遷移學習的模型比未進行遷移學習的模型效果更好.
本文針對互聯(lián)網(wǎng)信貸中常見的模型 “冷啟動” 問題進行了利用遷移學習去解決的相關(guān)探索,并提出了基于遷移學習的信用評分模型.我們的模型相較傳統(tǒng)非遷移學習方法有一定的提升效果,為解決相關(guān)問題提供了一定幫助.在模型方面,我們應(yīng)用了圖像識別領(lǐng)域的Triplet-loss 表征學習,并驗證了該方法的有效性;在預訓練源領(lǐng)域數(shù)據(jù)時進行了領(lǐng)域適配工作,使源領(lǐng)域數(shù)據(jù)從數(shù)據(jù)分布上更接近目標領(lǐng)域數(shù)據(jù),對該方法的有效性也進行了驗證,實現(xiàn)了基于模型遷移和基于特征遷移兩個方面的探索.