毛子林 劉姜
摘? ?要:基于信用風(fēng)險(xiǎn)評估的文獻(xiàn)隨著時(shí)間的推移以及技術(shù)創(chuàng)新的不斷更新,相關(guān)機(jī)器學(xué)習(xí)方法運(yùn)用近年來也與時(shí)俱進(jìn)?;诖?,主要從傳統(tǒng)的機(jī)器學(xué)習(xí)方法、近現(xiàn)代機(jī)器學(xué)習(xí)方法以及近三年來最新研究三個(gè)方面進(jìn)行信用風(fēng)險(xiǎn)評估領(lǐng)域文獻(xiàn)梳理與評述,歸納現(xiàn)有機(jī)器學(xué)習(xí)方法存在的問題和不足,并對未來機(jī)器學(xué)習(xí)方法在金融風(fēng)控領(lǐng)域研究方向做出展望,提出發(fā)展趨勢。
關(guān)鍵詞:機(jī)器學(xué)習(xí)方法;信用風(fēng)險(xiǎn);評估
中圖分類號:F830;TP181? ? ? ?文獻(xiàn)標(biāo)志碼:A? 文章編號:1673-291X(2021)23-0117-03
隨著人工智能的發(fā)展和大數(shù)據(jù)時(shí)代的到來,眾多學(xué)者利用機(jī)器學(xué)習(xí)方法對信用風(fēng)險(xiǎn)評估展開廣泛研究。信用風(fēng)險(xiǎn)管理在國內(nèi)外金融機(jī)構(gòu)的穩(wěn)健運(yùn)行中扮演重要角色,傳統(tǒng)的判斷用戶是否違約的方法已經(jīng)不能滿足當(dāng)今數(shù)據(jù)類型多、用戶量大、風(fēng)險(xiǎn)預(yù)測準(zhǔn)確率高的要求,大量學(xué)者運(yùn)用機(jī)器學(xué)習(xí)方法深入展開相關(guān)討論并做出一系列研究成果,證明該方法具有較好的預(yù)測和泛化能力。整體來看,我國的個(gè)人信用風(fēng)險(xiǎn)評估較國外起步較晚,起初的文獻(xiàn)大部分都是進(jìn)行傳統(tǒng)單一模型的風(fēng)險(xiǎn)評估,近年來才開始利用集成機(jī)器學(xué)習(xí)方法進(jìn)行風(fēng)險(xiǎn)預(yù)測。信用風(fēng)險(xiǎn)對于我國金融風(fēng)控領(lǐng)域尤為重要,因此,對此進(jìn)行相關(guān)文獻(xiàn)梳理以及發(fā)展趨勢研究具有重要意義。
一、基于統(tǒng)計(jì)學(xué)習(xí)方法的信用風(fēng)險(xiǎn)評估綜述
回歸分析等方法最早用于開展信用風(fēng)險(xiǎn)評估領(lǐng)域。在國外,Durand(1941)利用線性判別分析法應(yīng)用信貸評估系統(tǒng),提出使用基于數(shù)理統(tǒng)計(jì)的模型對信用風(fēng)險(xiǎn)評估問題進(jìn)行了研究,是已知文獻(xiàn)中最早被用來進(jìn)行信用風(fēng)險(xiǎn)評估的方法,自此信用評估由單純的定性分析轉(zhuǎn)向了定量分析。同時(shí),這一方法存在一定的局限性,它對于數(shù)據(jù)分布要求的假設(shè)性太強(qiáng),并且樣本分類依據(jù)不是均值而是方差,因此導(dǎo)致最終的分類效果不是特別強(qiáng)。Orgler(1970)在1970年最早使用線性回歸方法針對貸款者的信用狀況結(jié)合實(shí)際情況進(jìn)行分?jǐn)?shù)評級,預(yù)測銀行客戶信用風(fēng)險(xiǎn)。在國內(nèi),姚路(2017)結(jié)合個(gè)人信用數(shù)據(jù)對用戶進(jìn)行信用評價(jià),運(yùn)用多元線性回歸方法進(jìn)行模型構(gòu)建。線性回歸方法從本質(zhì)上來說是用現(xiàn)有用戶信用數(shù)據(jù)對未知信用狀況的用戶進(jìn)行回歸預(yù)測,最終得出用戶是否違約的概率。
但是線性回歸也有一定的弊端,它所得出的值域介于正負(fù)無窮大之間,而邏輯回歸方法的出現(xiàn)正好解決了這一問題。Wiginton等(1980)最先提出Logistic 回歸模型用于進(jìn)行信用評估。邏輯回歸將線性回歸后得出的值進(jìn)行Sigmoid 函數(shù)轉(zhuǎn)換成概率值,在0—1之間設(shè)定經(jīng)驗(yàn)閾值從而實(shí)現(xiàn)二分類問題。Grablowsky(1981)在Logistic基礎(chǔ)上進(jìn)一步提出Probit 回歸模型進(jìn)行風(fēng)險(xiǎn)評估。該模型主要是將Logistic回歸模型中的似然比對數(shù)函數(shù)調(diào)整為正態(tài)分布函數(shù)的反函數(shù)。Steenackers等(1989)對Logistic 回歸模型進(jìn)行優(yōu)化,將用戶信息的各種變量關(guān)系通過該模型進(jìn)行反映,增強(qiáng)了該模型的可解釋性。Ziari (1997)進(jìn)行信用風(fēng)險(xiǎn)評估時(shí)將線性分析模型與統(tǒng)計(jì)分析模型相結(jié)合,對比單一的線性分析和統(tǒng)計(jì)分析模型發(fā)現(xiàn)效果更好。在國內(nèi),胡濱(2011)利用logistic回歸模型對銀行信貸狀況進(jìn)行分析,以減少信用經(jīng)濟(jì)帶來的損失和風(fēng)險(xiǎn)。李淑錦(2018)運(yùn)用logistic回歸實(shí)證得出傳統(tǒng)金融借貸機(jī)構(gòu)風(fēng)險(xiǎn)低于網(wǎng)貸平臺(tái),同時(shí)考慮閾值的設(shè)定對規(guī)避模型判斷失誤而導(dǎo)致的資金損失有重要意義。
二、基于現(xiàn)代機(jī)器學(xué)習(xí)方法的信用風(fēng)險(xiǎn)評估綜述
基于機(jī)器學(xué)習(xí)的個(gè)人信用風(fēng)險(xiǎn)評估模型在近年來逐漸興起,展現(xiàn)了相比傳統(tǒng)風(fēng)險(xiǎn)評估方法較強(qiáng)的優(yōu)越性。常見的現(xiàn)代機(jī)器學(xué)習(xí)方法有BP神經(jīng)網(wǎng)絡(luò)、K近鄰、SVM支持向量機(jī)等。此外,基于樹模型的機(jī)器學(xué)習(xí)方法也廣泛應(yīng)用于個(gè)人信用風(fēng)險(xiǎn)評估,如基礎(chǔ)的決策樹模型、相關(guān)集成模型如隨機(jī)森林、GBDT、XGBoost、lightGBM等。
在國外,Makowski(1985)是最先開啟現(xiàn)代機(jī)器學(xué)習(xí)方法在個(gè)人信用風(fēng)險(xiǎn)評估領(lǐng)域應(yīng)用的學(xué)者,他利用用戶信用數(shù)據(jù)在分類樹上構(gòu)建模型,對好壞客戶進(jìn)行分類并取得了一定效果。Cover 和Hart(1986)提出K近鄰方法,對于二分類的問題處理比較高效且被廣泛應(yīng)用于信用風(fēng)險(xiǎn)評估中。Odam(1990)最先將人工神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于個(gè)人信用評分模型,根據(jù)用戶信用數(shù)據(jù)構(gòu)建評分體系,指出人工神經(jīng)網(wǎng)絡(luò)在信用評分過程中有較好的解釋性與應(yīng)用性。Li(2000)對XGBoost 進(jìn)行信用風(fēng)險(xiǎn)建模研究。Baesensl 等(2003)針對2003年之前的個(gè)人信用風(fēng)險(xiǎn)評估模型進(jìn)行對比研究驗(yàn)證發(fā)現(xiàn),線性判別分析法和Logistic 回歸模型在進(jìn)行信用風(fēng)險(xiǎn)評估表現(xiàn)出較好的效果。Stefan Lessmann 等(2015)在41種分類器對不同數(shù)據(jù)集進(jìn)行分析,實(shí)驗(yàn)結(jié)果表明,集成模型如隨機(jī)森林在信用風(fēng)險(xiǎn)評估效果上表現(xiàn)最佳。Brown(2012)指出,機(jī)器學(xué)習(xí)方法主要是通過監(jiān)督學(xué)習(xí)對用戶的信用數(shù)據(jù)進(jìn)行模型構(gòu)建,經(jīng)過數(shù)據(jù)處理、特征提取等一系列操作對構(gòu)建的模型進(jìn)行用戶行為和特征的預(yù)測,以此來判斷用戶下一次交易違約的可能性。
在國內(nèi),姜明輝等(2004)利用K近鄰方法研究了信用風(fēng)險(xiǎn)評估,對小數(shù)據(jù)集的分類風(fēng)險(xiǎn)問題進(jìn)行實(shí)驗(yàn)分析。劉昕(2007)將人工神經(jīng)網(wǎng)絡(luò)運(yùn)用于銀行信用風(fēng)險(xiǎn)管理,得出神經(jīng)網(wǎng)絡(luò)比傳統(tǒng)的打分法和統(tǒng)計(jì)模型判別正確率更高,并且在第二類錯(cuò)誤率這一關(guān)鍵指標(biāo)上優(yōu)勢較好。王潤華(2010)改進(jìn)支持向量機(jī)進(jìn)行風(fēng)險(xiǎn)評估,得出多項(xiàng)式核進(jìn)行分類在高斯核和線性核三種方法中表現(xiàn)效果最好。方匡南等(2014)引入Lasso-Logistic 模型,運(yùn)用Lasso方法對重要的變量特征進(jìn)行選擇,這一組合進(jìn)行個(gè)人信用評估可以明顯加快計(jì)算速度。付永貴(2016)改進(jìn)線性回歸模型,并在大數(shù)據(jù)的基礎(chǔ)上對網(wǎng)絡(luò)供應(yīng)商信用數(shù)據(jù)進(jìn)行了研究。羅雅晨(2018)研究了數(shù)據(jù)不平衡問題,基于改進(jìn)的隨機(jī)森林方法提出比例平衡的隨機(jī)森林模型用來建立個(gè)人信用評分模型。