北方工業(yè)大學(xué) 姜晨 劉喜波
P2P網(wǎng)絡(luò)借貸是一種由借款人、網(wǎng)貸平臺、資金出借人三方共同組成的一種互聯(lián)網(wǎng)金融模式,借貸雙方根據(jù)網(wǎng)貸平臺制定的借貸規(guī)則,簽訂包括借款金額、借款利率、借款期限等條款的合約,通過互聯(lián)網(wǎng)完成投資和借款。P2P網(wǎng)貸發(fā)展初期疏于監(jiān)管,從業(yè)者大多缺乏金融操控經(jīng)驗,不善于控制風(fēng)險,單純根據(jù)借款人提供的個人資料主觀地給予授信額度,無法對借款人的信用風(fēng)險進行高質(zhì)量識別,造成大量借款人違約,投資人血本無歸,網(wǎng)貸平臺出現(xiàn)大量壞賬,不斷出現(xiàn)停業(yè)、提現(xiàn)難、跑路、經(jīng)偵介入等問題,正常運營網(wǎng)貸平臺數(shù)量不斷減少,小規(guī)模平臺難以為繼,大規(guī)模平臺不得不進行轉(zhuǎn)型,尋找新的出路。現(xiàn)在P2P網(wǎng)貸公司的轉(zhuǎn)型方向大多為網(wǎng)絡(luò)助貸或網(wǎng)絡(luò)小貸,但網(wǎng)絡(luò)小貸牌照要求高,需要網(wǎng)貸平臺擁有一定的技術(shù)和資金實力,成功轉(zhuǎn)型的難度較大。為此網(wǎng)貸平臺紛紛效仿國外老牌P2P網(wǎng)貸平臺,轉(zhuǎn)為網(wǎng)絡(luò)助貸公司,只是單純的信息中介,不承擔(dān)貸款風(fēng)險,類似于我國現(xiàn)有的無擔(dān)保線上交易模式,這對P2P網(wǎng)貸公司提出了更高的要求,網(wǎng)貸平臺應(yīng)采用更加科學(xué)有效的方式對借款人進行審核,識別出違約風(fēng)險較高的借款人,為此研究如何通過借款人的個人信息對借款人的違約風(fēng)險進行正確識別,對網(wǎng)貸平臺有效篩選優(yōu)質(zhì)借款人、制定借貸規(guī)則、降低投資人風(fēng)險,維護互聯(lián)網(wǎng)金融市場秩序等方面均有重要意義。
國內(nèi)外學(xué)者在對信用風(fēng)險的研究中,發(fā)現(xiàn)運用機器學(xué)習(xí)方法在預(yù)測借款人違約風(fēng)險時,準確率往往高于傳統(tǒng)的統(tǒng)計方法,例如層次分析法、因子分析法等,此類方法以統(tǒng)計學(xué)理論為基礎(chǔ),無法完全擺脫主觀性以及理論假設(shè)對其造成的影響。在對文獻進行研讀時,發(fā)現(xiàn)以往學(xué)者往往采用單一模型進行風(fēng)險識別。本文在考慮利用機器學(xué)習(xí)算法的基礎(chǔ)上,使用遺傳算法對BP神經(jīng)網(wǎng)絡(luò)進行優(yōu)化,得到優(yōu)化后的GA-BP神經(jīng)網(wǎng)絡(luò)模型對我國某P2P網(wǎng)貸平臺數(shù)據(jù)進行分析。
BP神經(jīng)網(wǎng)絡(luò)是一種利用反向傳播回傳誤差對參數(shù)進行修正的多層前饋神經(jīng)網(wǎng)絡(luò),在利用BP神經(jīng)網(wǎng)絡(luò)解決實際問題時,需要對大量的參數(shù)進行調(diào)節(jié)修正,可能會出現(xiàn)陷入局部最小值、影響預(yù)測精度或者收斂速度慢、訓(xùn)練時間過長等問題。遺傳算法是模擬自然界的生物進化過程,通過選擇、交叉與變異等遺傳操作尋找最優(yōu)解的全局搜索方法,具有較高的全局搜索能力跟全局收斂能力,為此利用遺傳算法對BP神經(jīng)網(wǎng)絡(luò)模型進行優(yōu)化,尋找BP神經(jīng)網(wǎng)絡(luò)最優(yōu)的初始權(quán)值與閾值,可以防止其陷入局部最小值,提高預(yù)測精度,增加模型收斂速度,提高模型的精確性。GA-BP神經(jīng)網(wǎng)絡(luò)算法流程如下所示:
(1)確定神經(jīng)網(wǎng)絡(luò)的拓撲結(jié)構(gòu)。給定神經(jīng)網(wǎng)絡(luò)的輸入層、隱藏層與輸出層各層節(jié)點數(shù)、最大訓(xùn)練次數(shù)、學(xué)習(xí)率,激活函數(shù)以及模型訓(xùn)練函數(shù)。
(2)定義遺傳算法的參數(shù)。設(shè)定代溝、交叉概率、變異概率、目標函數(shù)等。
(4)解碼,訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)。將數(shù)據(jù)劃分為訓(xùn)練集與測試集,利用測試集對神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,測試集對神經(jīng)網(wǎng)絡(luò)進行測試。
(5)設(shè)計適應(yīng)度函數(shù)?;谶z傳算法優(yōu)勝劣汰的本質(zhì),我們需要一個指標去評價一個個體的好壞,來決定個體被選擇的概率大小。
(6)得到新種群。對原始種群中的個體進行選擇,交叉、變異得到子代,計算子代的目標函數(shù)值,子代代替父代中適應(yīng)度最小的個體組成新種群。
(7)確定是否達到最大遺傳代數(shù)。當(dāng)達到最大遺傳代數(shù)時,對種群進行解碼,得到最優(yōu)的初始權(quán)值與閾值,帶入模型進行預(yù)測。若沒有達到最大遺傳代數(shù)則返回到解碼得到權(quán)值與閾值,繼續(xù)進行循環(huán),直到達到最大遺傳代數(shù)。
我國網(wǎng)貸平臺的轉(zhuǎn)型方向為網(wǎng)絡(luò)助貸公司,類似于無擔(dān)保線上交易,只擔(dān)任信息中介的角色,對借款人的違約風(fēng)險不進行擔(dān)保,我國某P2P網(wǎng)貸平臺就是類似的無擔(dān)保線上交易平臺,為此利用該平臺在2015—2017年328850條樣本,變量包括成交時借款人的信息與標的特征,其中7個定量變量、11個定性變量。
在利用數(shù)據(jù)進行分析之前,應(yīng)對數(shù)據(jù)進行處理,首先通過相關(guān)性檢驗,檢測各個變量與借款人是否違約、是否存在相關(guān)關(guān)系。利用斯皮爾曼非參數(shù)相關(guān)性進行檢驗,發(fā)現(xiàn)各變量的P值均小于0.05,通過相關(guān)性檢驗,借款人的信用風(fēng)險與自身的各類信息之間存在相關(guān)關(guān)系,不同的借款利率存在不同的信用風(fēng)險,借款人的交易歷史表現(xiàn)同樣會影響其違約概率。接下來利用隨機森林算法對指標的重要性進行評估,找到指標重要性排名前十的指標進行下一步分析,由于是否違約屬于不平衡數(shù)據(jù),沒有違約的樣本數(shù)目遠遠大于違約的樣本數(shù)目,分類器將分類的準確率作為學(xué)習(xí)目標,若一類的樣本數(shù)目遠遠大于另一類,分類器可能為了提高分類精度而將少數(shù)類別預(yù)測錯誤,為此進行不平衡數(shù)據(jù)處理,利用欠采樣的方法,隨機在沒有違約的樣本中抽取樣本,使得兩類樣本的比例接近于1:1,對數(shù)據(jù)進行標準化處理,選擇數(shù)據(jù)的80%為訓(xùn)練集,20%為測試集,且設(shè)定訓(xùn)練集和測試集中各類樣本比例也近似于1:1,得到最終的分析數(shù)據(jù)。利用隨機森林算法得到變量重要性,其中重要程度最高的重要性記為100%。歷史成功借款金額的重要程度最高,其次是總待還本金,借款金額與歷史正常還款期數(shù)、借款次數(shù),各變量之間的重要性差距較大,借款利率的重要性不到歷史成功借款金額的重要性的八分之一,其中學(xué)歷認證、性別、征信認證、借款期限等7個變量的重要性較小,均小于10%,選擇重要性大于10%的10個變量用于最終模型構(gòu)建。
根據(jù)GA-BP神經(jīng)網(wǎng)絡(luò)模型的算法流程,設(shè)定相應(yīng)參數(shù)、各項算子以及各類函數(shù)。首先確定神經(jīng)網(wǎng)絡(luò)的拓撲結(jié)構(gòu),神經(jīng)網(wǎng)絡(luò)包括三層:輸入層、隱藏層和輸出層,輸入層神經(jīng)元數(shù)為變量的個數(shù),也就是10,輸出層神經(jīng)元數(shù)為2,輸出數(shù)據(jù)為標簽為1的概率。若大于0.5,則說明違約;若小于0.5,則沒有違約。隱藏層神經(jīng)元數(shù)設(shè)為15,最大訓(xùn)練次數(shù)為100,學(xué)習(xí)率為0.001,接下來設(shè)置遺傳算法的參數(shù),個體數(shù)目為50、最大遺傳代數(shù)為100、代溝為0.95、交叉概率為0.7、變異概率為0.01、目標函數(shù)為預(yù)測誤差,待優(yōu)化參數(shù)有197個,適應(yīng)度函數(shù)設(shè)為排序的適應(yīng)度分配函數(shù),選擇方法為隨機遍歷抽樣,交叉算子為單點交叉,變異算子為基本位變異。
利用Matlab2017進行模型構(gòu)建,遺傳算法部分使用謝菲爾德遺傳算法工具箱,BP神經(jīng)網(wǎng)絡(luò)利用神經(jīng)網(wǎng)絡(luò)工具箱,首先構(gòu)建BP神經(jīng)網(wǎng)絡(luò),作為對照組,衡量GA—BP神經(jīng)網(wǎng)絡(luò)模型優(yōu)化能力,因為BP神經(jīng)網(wǎng)絡(luò)的初始權(quán)重與閾值是隨機的,但不同的初始權(quán)值與閾值會影響B(tài)P神經(jīng)網(wǎng)絡(luò)的模型效果,為此我們用同一數(shù)據(jù)分別訓(xùn)練5次,得到5個BP神經(jīng)網(wǎng)絡(luò)模型,以預(yù)測誤差平均值評價BP神經(jīng)網(wǎng)絡(luò)的準確率。模型的預(yù)測誤差分別為0.3022、0.2462、0.2202、0.2209、0.2152,五次預(yù)測誤差的平均值為0.2409。
圖1 遺傳算法優(yōu)化過程
利用遺傳算法對BP神經(jīng)網(wǎng)絡(luò)進行優(yōu)化,得到GA-BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型。優(yōu)化過程如圖1所示,預(yù)測誤差由0.2142下降到0.2088,相比BP神經(jīng)網(wǎng)絡(luò)模型的結(jié)果,預(yù)測誤差較小,預(yù)測精度較高。
難以準確識別出借款人的信用風(fēng)險是造成P2P網(wǎng)貸平臺難以繼續(xù)經(jīng)營或成功轉(zhuǎn)型的重要原因之一,研究如何準確識別出借款人的信用風(fēng)險是研究P2P網(wǎng)貸領(lǐng)域的熱點問題。本文利用遺傳算法對BP神經(jīng)網(wǎng)絡(luò)的初始權(quán)值與閾值進行優(yōu)化,得到GA-BP神經(jīng)網(wǎng)絡(luò)借款人信用識別模型,用于對借款人違約風(fēng)險的預(yù)測,實證結(jié)果表明:GA-BP神經(jīng)網(wǎng)絡(luò)借款人信用風(fēng)險識別模型相比BP神經(jīng)網(wǎng)絡(luò)借款人信用風(fēng)險識別模型具有更高的預(yù)測精度。在模型構(gòu)建的過程中,發(fā)現(xiàn)借款人的歷史交易信息會對借款人是否違約產(chǎn)生顯著的影響,在貸款前對借款人的信用進行評估是非常有必要的。但本文僅利用了10個變量對模型進行構(gòu)建,借款人信息較少,在一定程度上限制了模型的預(yù)測精度,后期嘗試加入更多的變量,提高模型預(yù)測精度。另外,GA-BP神經(jīng)網(wǎng)絡(luò)模型是將優(yōu)化算法與機器學(xué)習(xí)方法相結(jié)合用于P2P網(wǎng)貸借款人信用風(fēng)險預(yù)測的一種嘗試,下一步,將考慮改變優(yōu)化算法,增加神經(jīng)網(wǎng)絡(luò)模型的復(fù)雜程度,尋找最優(yōu)的P2P網(wǎng)貸借款人信用風(fēng)險識別模型。