李 飛 馮強中 張雨晴 范文斌
(科大國創(chuàng)云網(wǎng)科技有限公司,安徽 合肥 230000)
近年來,金融行業(yè)普惠政策的推廣迎來了很多新用戶,同時,行業(yè)的特殊性對風險控制提出了很高的要求,新用戶的風控評估成了金融行業(yè)推廣普惠政策的關鍵,普惠政策作為新政策,樣本量不足的問題會給用戶風控水平預測造成困難。隨著人工智能領域的飛速發(fā)展,AI已經(jīng)廣泛應用于醫(yī)療、金融以及通信等領域。但是考慮到金融領域新政策出臺時缺乏用戶數(shù)據(jù),僅使用人工智能中的機器學習算法進行預測必將導致結果不準確的問題。為了豐富數(shù)據(jù)的來源,許多學者將遷移學習作為一個關鍵技術進行研究。遷移學習的思想是當目標領域可用數(shù)據(jù)量較少時,從不同但是相關的領域中尋找類似數(shù)據(jù)進行訓練,將大樣本遷移到小樣本中,以解決小樣本中樣本量稀疏的問題。根據(jù)遷移的過程不同,現(xiàn)在主流的遷移學習方法大致分為4種:基于實例的遷移、基于特征的遷移、基于參數(shù)的遷移以及基于關系的遷移。
該文利用遷移學習的思想,將與原任務樣本類似的數(shù)據(jù)遷移至訓練集中,以樣本量,結合訓練速度快、準確率高的LightGBM模型進行5折交叉驗證,從而有效地提高預測的準確率。
在遷移學習的數(shù)學定義中,源域是已知的、成熟的領域,目標域是數(shù)據(jù)量小的、新的且需要借助其他領域學習的領域,給出源域的數(shù)據(jù)和任務,目標域的數(shù)據(jù)和任務,使用源領域和任務中的知識去改進對于目標領域的預測函數(shù)。其中,源域數(shù)據(jù)不等于目標域數(shù)據(jù)或者源域任務不等于目標域任務。這一技術可以借助其他領域的知識補充樣本少的任務,提升任務準確率。
采用TrAdaBoost算法解決實例遷移學習問題,假設源域和目標域使用相同特征,但是在不同的域中,該特征的值的分布情況不同,部分源域數(shù)據(jù)對目標域的學習有幫助,另一部分源域數(shù)據(jù)對目標域的學習沒有幫助甚至是負遷移,因此通過調整指定源域中數(shù)據(jù)權重的方式來降低負效果數(shù)據(jù)對訓練的影響,增強正效果數(shù)據(jù)對訓練的影響。宋鵬等人提出基于特征遷移學習方法的跨庫語音情感識別方法,為了解決語音情感識別中訓練語音和預測語音語料差異導致預測效果差的問題,通過特征變換降維選擇源域和目標域相似性高的空間維度對數(shù)據(jù)進行分類,從而實現(xiàn)基于特征的遷移,優(yōu)化后的情感識別率比基線方法和傳統(tǒng)識別方法的識別率更高。
谷歌公司AI團隊發(fā)布的Bert模型用于自然語言處理(NLP),Bert模型已經(jīng)在大數(shù)據(jù)集上進行了預訓練,程序員將Bert預訓練模型作為語言表征模型對參數(shù)進行遷移學習,通過微調參數(shù)后應用于NLP模型中,不僅節(jié)省了大量人力和時間,而且還可以提高預測的準確率。
遷移學習思想被廣泛應用于語音、文本以及圖像等非結構化數(shù)據(jù)領域,但是在結構化數(shù)據(jù)領域的應用較少,該文將遷移學習思想應用于風險用戶預測中,源域為網(wǎng)絡貸款用戶數(shù)據(jù),目標域為銀行貸款用戶數(shù)據(jù),把源域的數(shù)據(jù)遷移到目標域,從而提高預測的準確率。
風險用戶評估的整體架構如圖1所示。首先,對銀行用戶貸款數(shù)據(jù)進行分析、探索和清洗,將已有特征通過類別映射、特征分解以及特征組合交叉等方法構建為新特征。其次,基于遷移學習思想使用LightGBM模型,并采用5折交叉驗證方法構建風險用戶識別模型。最后,使用ROC曲線下的面積(Area under Curve,AUC)來評估模型。
圖1 風險用戶評估整體架構
為了更直觀地了解數(shù)據(jù)集的分布、特征間關系以及特征類型等信息,需要對數(shù)據(jù)集的分布、特征間關系以及特征類型進行分析,為后續(xù)數(shù)據(jù)預處理和特征工程做準備。對銀行數(shù)據(jù)集統(tǒng)計存在缺失值的特征列、缺失量以及缺失率降序表(見表1)。該數(shù)據(jù)集一共有39列,7列存在缺失值,其中,f的缺失率最高,f、f、f以及f的缺失在同一條貸款記錄中(f、f、f、f以及f為脫敏后的特征,是一些貸款人行為計數(shù)特征)。
表1 缺失值分析
探索發(fā)現(xiàn)時間特征在借款人最初開立信用額度的時間中存在異常時間,例如2069年10月01日、2065年09月01日為未來時間,借款人不可能在該時間開立信用額度,把這部分數(shù)據(jù)作為臟數(shù)據(jù),根據(jù)其他正常貸款開立時間,將異常時間減100 a變?yōu)檎r間。探究銀行貸款違約記錄數(shù)據(jù)和互聯(lián)網(wǎng)貸款違約記錄數(shù)據(jù)的數(shù)據(jù)集中用戶是否有違約信息,銀行貸款違約記錄數(shù)據(jù)中共有1萬條數(shù)據(jù),其中違約用戶為1 683,占總數(shù)據(jù)的16.8%;互聯(lián)網(wǎng)貸款違約記錄數(shù)據(jù)中共有75萬條數(shù)據(jù),其中違約用戶為149 673,占總數(shù)據(jù)的19.9%。
對特征的離散或是連續(xù)的判定中設置閾值25,一個特征種類數(shù)大于25判定為連續(xù)特征,反之為離散特征。離散特征中每種類型的數(shù)量和對違約的影響表現(xiàn)為網(wǎng)絡貸款等級特征中網(wǎng)絡貸款等級為2級的數(shù)量最多,網(wǎng)絡貸款等級為7級的數(shù)量最少,網(wǎng)絡貸款等級為7級、6級以及5級的用戶更容易違約。最后探究連續(xù)特征網(wǎng)絡貸款利率取值對違約的影響,網(wǎng)絡貸款利率低于12的用戶中違約用戶少于正常用戶,網(wǎng)絡貸款利率高于12的用戶中違約用戶多于正常用戶。
經(jīng)過對數(shù)據(jù)的分析可知,數(shù)據(jù)中含有類別特征,用字典映射和LabelEncoder編碼器將類型特征網(wǎng)絡貸款等級、任職公司類型、工作領域以及工作年限轉換為數(shù)值類,以便后期構建模型。為了進一步提高模型效果,對2個時間特征(貸款開戶時間和貸款發(fā)放時間)來說,首先,需要進行正則化處理使數(shù)據(jù)結構統(tǒng)一。其次,將時間數(shù)據(jù)分解為相應的年、月、星期以及2個日期時間差。同時,對貸款和還款相關特征進行特征交叉,例如用貸款金額除貸款年份得出年均貸款金額等。
為了提高預測的準確率,將部分特征進行交叉組合后生成新特征,新特征及其說明見表2。
表2 銀行貸款用戶數(shù)據(jù)構建新特征
對構建風險用戶識別模型來說,LightGBM算法模型的預測效果雖然優(yōu)于傳統(tǒng)的決策樹、隨機森林算法,但是當數(shù)據(jù)量較少時仍然不能達到理想的預測效果,因此該文采用遷移學習的思想提高風險用戶預測效果。
LightGBM是一個基于決策樹的梯度Boosting算法框架,與其他算法相比,有更快的訓練效率和更低的內存,并且可以自動處理類別特征和自動填充缺失值。對LightGBM參數(shù)設置見表3,表3中前兩行參數(shù)影響準確率,決定模型結構,第六至第八行參數(shù)影響過擬合。
表3 LightGBM參數(shù)設置
折交叉驗證為了減小模型過擬合,從已有數(shù)據(jù)中盡量提取更多的有效信息,將原始數(shù)據(jù)等比例劃分為份,次訓練隨機選取-1份為訓練集,1份為測試集交叉訓練,該文選取5折交叉驗證,基本流程如下:1) 將數(shù)據(jù)集均勻劃分為5份。2) 將前四份作為訓練集,第五份作為測試集。3) 訓練集訓練模型,并使用訓練集和測試集一起進行擬合。4) 預測測試集結果為1的概率,并計算評價指標。5) 重復第二步~第四步,依次選取1份數(shù)據(jù)作為測試集,其他4份為訓練集。6) 將5折交叉的結果和評估指標取均值作為最終結果。
由于用戶在銀行貸款的數(shù)據(jù)較少,考慮將網(wǎng)絡貸款數(shù)據(jù)遷移至訓練集,且網(wǎng)貸數(shù)據(jù)與銀行數(shù)據(jù)存在差異,因此該文用銀行貸款數(shù)據(jù)作為訓練集預測網(wǎng)貸數(shù)據(jù),用畫圖工具畫出預測值的分布,選取預測值小于0.05且真實值為0的用戶數(shù)據(jù)以及預測值大于0.7且真實值為1的用戶數(shù)據(jù),以達到豐富銀行數(shù)據(jù)的效果。
將銀行數(shù)據(jù)與選取的部分網(wǎng)貸數(shù)據(jù)與預測測試集數(shù)據(jù)相結合,通過分析數(shù)據(jù)可知,貸款違約用戶的數(shù)量遠少于正常還款用戶的數(shù)量,選取預測值小于0.05的數(shù)據(jù),將該部分數(shù)據(jù)與上一步銀行數(shù)據(jù)以及部分網(wǎng)貸數(shù)據(jù)結合,并對測試集進行預測。具體樣本遷移的流程如圖2所示。
圖2 樣本遷移流程圖
風險用戶識別的數(shù)據(jù)集選取某銀行用戶貸款記錄,包括貸款號、貸款年份、貸款利率、貸款級別、貸款額、所在公司類型、工作年限、借款人在貸款評分中所屬的下限和上限、債務收入比、18個月內借款人逾期30 d以上違約數(shù)、未結信用額度數(shù)、信貸周轉余額、借款人信用額度開立時間、提前還款次數(shù)、近3個月內提前還款金額以及貸款人行為計數(shù)匿名特征等字段,原始訓練集有1萬條樣本,其中,測試集有5 000條樣本,另有75萬條來自互聯(lián)網(wǎng)貸款的數(shù)據(jù)。
該文采用LightGBM、XGBoost以及多層感知機NN對處理后的數(shù)據(jù)進行模型訓練,使用評估指標AUC(Area Under ROC Curve,即ROC曲線下方的面積)計算對比3種算法預測結果的值,值越接近1說明預測效果越好。
圖3為在僅使用銀行貸款數(shù)據(jù)的情況下,不同模型在不同迭代次數(shù)時值的對比,LightGBM在不同迭代次數(shù)的情況下值均優(yōu)于XGBoost模型;在迭代次數(shù)為4 000次時,2種模型的值均最高,LightGBM模型的值為0.86。
圖3 銀行貸款數(shù)據(jù)不同模型在不同迭代次數(shù)下AUC值對比
表4為不同模型下選取不同數(shù)據(jù)的值評估,首先,對比LightGBM模型和神經(jīng)網(wǎng)絡模型下的效果,LightGBM效果比NN算法的略高。其次,在使用5折交叉驗證LightGBM模型情況下,僅使用銀行貸款數(shù)據(jù)的值為0.867;將所有網(wǎng)貸數(shù)據(jù)與銀行貸款數(shù)據(jù)一起作為訓練集訓練后預測結果的值為0.871;網(wǎng)貸數(shù)據(jù)的特征雖與銀行數(shù)據(jù)的特征大致相同,但是2種數(shù)據(jù)的數(shù)據(jù)分布有差異,該文使用銀行數(shù)據(jù)預測網(wǎng)貸數(shù)據(jù),將預測較為準確的數(shù)據(jù)提取出來,將其遷移至銀行貸款數(shù)據(jù)中進行模型訓練,預測結果的值為0.892,效果明顯好于其他算法。
表4 不同模型下選取不同數(shù)據(jù)的AUC值評估
隨著科學技術的快速發(fā)展,很多領域都有海量的數(shù)據(jù),為了能夠應對部分領域數(shù)據(jù)不足的情況,將其他領域的海量數(shù)據(jù)知識遷移學習到數(shù)據(jù)不足的領域。該文在進行小樣本風險用戶識別中為了更好地捕捉風險用戶特征,引入遷移學習思想,將擁有海量樣本領域的用戶數(shù)據(jù)遷移到樣本稀疏的風險用戶識別領域,通過選擇與該領域類似的數(shù)據(jù)擴充樣本,構建用戶特征工程,解決了金融領域風險用戶識別的冷啟動問題,并對比了LightGBM、XGBoost以及NN等算法模型的值評估模型。結果顯示該文利用數(shù)據(jù)遷移學習使用LightGBM模型5折交叉驗證的方法效果最優(yōu),值最高。