張亮
摘 要:現(xiàn)有的常用風(fēng)險(xiǎn)評估算法主要基于邏輯回歸分析,存在難以處理大量多類特征,非線性能力缺失等問題,基于集成學(xué)習(xí)的多源融合算法能夠在大數(shù)據(jù)驅(qū)動(dòng)下有效解決這些問題,完成個(gè)人貸款的風(fēng)險(xiǎn)評估。
關(guān)鍵詞:大數(shù)據(jù) 多源融合 風(fēng)險(xiǎn)評估
Research on Risk Assessment of Auto Finance Driven by Big Data
Zhang Liang
Abstract:The existing commonly used risk assessment algorithms are mainly based on logistic regression analysis, and there are problems such as difficulty in handling a large number of multi-type features and lack of nonlinear capabilities. Multi-source fusion algorithms based on integrated learning can effectively solve these problems under the drive of big data and fulfill risk assessment of personal loans.
Key words:big data, multi-source fusion, risk assessment
1 研究背景
隨著“互聯(lián)網(wǎng)大數(shù)據(jù)+金融”的不斷發(fā)展,汽車信貸規(guī)模不斷擴(kuò)大,車輛貸款違約風(fēng)險(xiǎn)也隨之增大。因此,對個(gè)人貸款的信用風(fēng)險(xiǎn)評估迫在眉睫。個(gè)人信用風(fēng)險(xiǎn)評估的數(shù)據(jù)核心來源于貸款申請人在申請過程中提供的基本信息,以及汽車貸款機(jī)構(gòu)收集和補(bǔ)充的附加信息,以此對個(gè)人信用分析進(jìn)行全面調(diào)查,并采用邏輯回歸分析等分類方法或技術(shù)將貸款申請人劃分為“低風(fēng)險(xiǎn)客戶”與“高風(fēng)險(xiǎn)客戶”,以便降低貸款機(jī)構(gòu)的壞賬率[1]。由于貸款機(jī)構(gòu)與貸款申請人之間的數(shù)據(jù)鴻溝造成信息不對稱,如何對個(gè)人信用風(fēng)險(xiǎn)進(jìn)行評估已成為學(xué)術(shù)界以及汽車、金融等行業(yè)極具研究價(jià)值的問題。
2 基于集成學(xué)習(xí)的多源融合風(fēng)險(xiǎn)評估算法
算法以多源融合為核心,大數(shù)據(jù)為驅(qū)動(dòng)完成個(gè)人風(fēng)險(xiǎn)評估模型的搭建。包括以下步驟:首先對采集到的數(shù)據(jù)進(jìn)行預(yù)處理;然后通過預(yù)處理之后的樣本數(shù)據(jù)訓(xùn)練集成模型,輸出特征權(quán)重;并進(jìn)一步構(gòu)建出個(gè)人信用風(fēng)險(xiǎn)評分卡(風(fēng)險(xiǎn)評估模型);最后對用戶風(fēng)險(xiǎn)評分進(jìn)行分析,確定高風(fēng)險(xiǎn)與低風(fēng)險(xiǎn)區(qū)間的分?jǐn)?shù)閾值。整體的算法流程見圖1。
3 風(fēng)險(xiǎn)評估算法流程
風(fēng)險(xiǎn)評估算法的具體流程如圖2所示:
步驟一:數(shù)據(jù)預(yù)處理;如圖2中的虛線部分,由貸款申請者和貸款機(jī)構(gòu)收集的數(shù)據(jù)存在數(shù)據(jù)缺失和數(shù)據(jù)異常等情況;在預(yù)處理階段,對原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和核對[2],并經(jīng)過特征向量的相關(guān)性分析篩選出強(qiáng)獨(dú)立性的特征,特征間的相關(guān)系數(shù)[3]如式1所示:
上式中,ri,j表示第i個(gè)特征向量與第j個(gè)特征向量之間的相關(guān)系數(shù),cov(i,j)表示i與j的協(xié)方差,表示標(biāo)準(zhǔn)差,本文采用的數(shù)據(jù)集有34個(gè)原始特征,通過相關(guān)性分析,篩選出16個(gè)獨(dú)立性較強(qiáng)的特征,不僅有效剔除了冗余特征,而且大大減少了計(jì)算量。
步驟二:集成模型的搭建;結(jié)合第三方征信和貸款機(jī)構(gòu)的真實(shí)人工授信數(shù)據(jù)制作訓(xùn)練樣本的標(biāo)簽,子模型的訓(xùn)練分別采用SVM支持向量機(jī)、隨機(jī)森林以及BP神經(jīng)網(wǎng)絡(luò)分類算法,算法的子模型輸出如式2、3、4所示[4][5][6]:
式2、3和4中,、、分別表示支持向量機(jī)、隨機(jī)森林、BP神經(jīng)網(wǎng)絡(luò)的子模型輸出,然后采用AdaBoost集成策略將子模型的輸出融合[7],計(jì)算公式如式5所示:
上式中,H(x)為集成模型輸出,ER表示模型輸出與標(biāo)簽y*之間的誤差,表示子模型的權(quán)重。其中θ的取值隨著ER的變化而不斷更新。
步驟三:輸出個(gè)人信用風(fēng)險(xiǎn)評分卡(風(fēng)險(xiǎn)評估模型);采用缺一法從首個(gè)特征開始,通過集成模型分別計(jì)算出缺失當(dāng)前特征的分類正確率,將正確率歸一化至[0,1]區(qū)間內(nèi),即為每個(gè)特征向量對應(yīng)的權(quán)重,進(jìn)一步歸一化[8][9]至[0,100]區(qū)間,得到總分為100的個(gè)人信用風(fēng)險(xiǎn)評分卡。
步驟四:確定分?jǐn)?shù)閾值;分析用戶的得分與對應(yīng)標(biāo)簽的匹配程度,尋找用戶風(fēng)險(xiǎn)程度(高風(fēng)險(xiǎn)、低風(fēng)險(xiǎn))最佳劃分的分?jǐn)?shù)閾值。
本文使用的數(shù)據(jù)集如表1所示:
子模型與集成模型的訓(xùn)練正確率如表2所示:
由表2中各模型的正確率對比可知,集成模型能夠篩選出訓(xùn)練效果較好的子模型,綜合不同算法模型的優(yōu)點(diǎn),提高算法的正確率和魯棒性。
個(gè)人信用風(fēng)險(xiǎn)評分卡如表3所示:
用戶得分的整體分布如圖3所示:
由圖3可知,用戶的得分主要集中在60-75分段,其中70-75分段人數(shù)最多,因此閾值的初始值選取應(yīng)該在60-75之間,通過分?jǐn)?shù)閾值的不斷迭代更新,得到用戶風(fēng)險(xiǎn)評估的最佳劃分[10]如表4所示:
由表4可知,選定的分?jǐn)?shù)閾值為65和75,即用戶的得分在75分以上是認(rèn)定為低風(fēng)險(xiǎn)的好用戶,得分在65以下認(rèn)定為高風(fēng)險(xiǎn)的壞客戶,得分在65-75之間時(shí)進(jìn)行人工審核。
4 結(jié)論
本文提出的風(fēng)險(xiǎn)評估算法采用多模型融合的方式,通過子模型的集成優(yōu)化克服了傳統(tǒng)方法在處理大量多類特征時(shí)因?yàn)榉蔷€性程度太高而難以擬合的情況,通過大量數(shù)據(jù)的訓(xùn)練提高了風(fēng)險(xiǎn)評估模型的正確性和泛化性,且隨著采集數(shù)據(jù)的增加,模型能夠進(jìn)行實(shí)時(shí)更新;在貸款申請初期,能夠有效判定高風(fēng)險(xiǎn)與低風(fēng)險(xiǎn)用戶,大幅度降低人工審核成本。
基金:基于5G通訊及C-V2G,柳州市科技計(jì)劃項(xiàng)目;項(xiàng)目號:2019AG10202
參考文獻(xiàn):
[1]Louzada F, Ferreira-Silva P H,Diniz C A R.On the impact of disproportional samples in credit scori-ng models:An application to a Brazilian bank data[J],Expert Systems with Applications,2012,39,9:8071-8078.
[2]周壽彬.基于反常擴(kuò)散模型的個(gè)人信用風(fēng)險(xiǎn)評估方法[J].統(tǒng)計(jì)與決策,2016(13):65-68.
[3]姜志旺,張紅霞,鄭艷娟.基于BP神經(jīng)網(wǎng)絡(luò)模型的互聯(lián)網(wǎng)金融信用風(fēng)險(xiǎn)評估研究[J].黑龍江科技信息,2017(16):338.
[4]鄭建國,李新.基于SVM模型的企業(yè)信用風(fēng)險(xiǎn)評估研究[J].企業(yè)科技與發(fā)展,2020(05):220-221+224.
[5]王妍.基于隨機(jī)森林的信用評估特征選擇[J].黑龍江科學(xué),2019,10(14):159-161.
[6]李佳蓉,蔣艷莉,湯禮媛.基于BP神經(jīng)網(wǎng)絡(luò)的P2P網(wǎng)貸個(gè)人信用風(fēng)險(xiǎn)評估[J].時(shí)代金融,2019(24):105-106.
[7]趙興朝. 基于BP-PSO-AdaBoost模型的P2P網(wǎng)貸借款人信用風(fēng)險(xiǎn)評估研究[D].西南財(cái)經(jīng)大學(xué),2018.
[8]胡賢德,曹蓉,李敬明,阮素梅,方賢.小微企業(yè)信用風(fēng)險(xiǎn)評估的IDGSO-BP集成模型構(gòu)建研究[J].運(yùn)籌與管理,2017,26(04):132-139+148.
[9]夏克鋼.商業(yè)銀行融資租賃業(yè)務(wù)分析和風(fēng)險(xiǎn)控制研究[J].財(cái)經(jīng)界(學(xué)術(shù)版),2020(16):84-85.
[10]孫川.車貸風(fēng)險(xiǎn)控制平臺的設(shè)計(jì)與實(shí)現(xiàn)[D].北京交通大學(xué),2019.