郭文博
摘要:目前汽車金融貸款的市場(chǎng)增長(zhǎng)較快,各個(gè)銀行競(jìng)爭(zhēng)激烈,同時(shí)各類汽車貸款公司、互聯(lián)網(wǎng)金融平臺(tái)也加入了市場(chǎng)競(jìng)爭(zhēng)。在為了在市場(chǎng)競(jìng)爭(zhēng)中取得一定的優(yōu)勢(shì),銀行需要提升自身的風(fēng)控水平以及效率。本文在文獻(xiàn)研究以及理論研究的基礎(chǔ)上,構(gòu)建基于Stacking集成學(xué)習(xí)的模型,對(duì)汽車金融貸款違約風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)。
關(guān)鍵詞:金融科技;汽車金融;Stacking集成學(xué)習(xí)
一、研究背景
自2001年人大在十一五綱要中確立汽車進(jìn)入家庭的政策激勵(lì)開(kāi)始,汽車市場(chǎng)在這十五年期間發(fā)展迅速,在中國(guó)加入世貿(mào)組織迎來(lái)全球化沖擊的助推下,中國(guó)汽車市場(chǎng)已經(jīng)成為世界第一的汽車產(chǎn)銷大國(guó)。2018年我國(guó)乘用車市場(chǎng)累計(jì)銷售超過(guò)1871萬(wàn)輛,汽車保有量超過(guò)2.35億輛。隨著汽車行業(yè)的發(fā)展,汽車貸款金融市場(chǎng)也有了較快的增長(zhǎng),汽車金融占汽車產(chǎn)業(yè)鏈利潤(rùn)結(jié)構(gòu)的23%,汽車零部件占22%,汽車維修占18%,整車制造和整車銷售分別只占16%和5%。2018年12月,汽車貸款余額為9900億,預(yù)計(jì)至2020年信貸市場(chǎng)規(guī)模將超過(guò)1.2萬(wàn)億,至2022年將超過(guò)1.4萬(wàn)億元,汽車金融市場(chǎng)具有廣闊的市場(chǎng)。
目前汽車金融貸款的市場(chǎng)增長(zhǎng)較快,各個(gè)銀行競(jìng)爭(zhēng)激烈,同時(shí)各類汽車貸款公司、互聯(lián)網(wǎng)金融平臺(tái)也加入了市場(chǎng)競(jìng)爭(zhēng)。在為了在市場(chǎng)競(jìng)爭(zhēng)中取得一定的優(yōu)勢(shì),銀行需要提升自身的風(fēng)控水平以及效率。目前各個(gè)互聯(lián)網(wǎng)金融公司逐漸開(kāi)始嘗試使用數(shù)據(jù)挖掘模型來(lái)進(jìn)行汽車貸款的風(fēng)險(xiǎn)控制,因此本文研究Stacking集成學(xué)習(xí)等數(shù)據(jù)挖掘模型在汽車貸款信用評(píng)價(jià)中的應(yīng)用,對(duì)于提升銀行在汽車貸款中的風(fēng)險(xiǎn)控制水平具有一定的價(jià)值。
二、模型構(gòu)建
Stacking 就是當(dāng)用初始訓(xùn)練數(shù)據(jù)學(xué)習(xí)出若干個(gè)基學(xué)習(xí)器后,將這幾個(gè)學(xué)習(xí)器的預(yù)測(cè)結(jié)果作為新的訓(xùn)練集,來(lái)學(xué)習(xí)一個(gè)新的學(xué)習(xí)器。Stackking分析的原理是將樣本數(shù)據(jù)中抽取訓(xùn)練數(shù)據(jù),然后由不同的單一學(xué)習(xí)器進(jìn)行學(xué)習(xí),學(xué)習(xí)器可以訓(xùn)責(zé)神經(jīng)網(wǎng)絡(luò)、決策樹(shù)等不同的模型,這些模型的輸出結(jié)果作為單一學(xué)習(xí)器的輸入繼續(xù)進(jìn)行學(xué)習(xí),并最終輸出結(jié)果。本文設(shè)計(jì)了基于stacking的組合模型,如圖1所示。
本文采用BP神經(jīng)網(wǎng)絡(luò)、決策樹(shù)作為第一層初級(jí)學(xué)習(xí)器,將學(xué)習(xí)結(jié)果輸出到邏輯回歸進(jìn)行第二次學(xué)習(xí),并最終輸出結(jié)果。學(xué)習(xí)過(guò)程如下:
(1)把訓(xùn)練樣本集打亂,并分成兩個(gè)沒(méi)有交集的數(shù)據(jù)集;
(2)選擇第一個(gè)數(shù)據(jù)集,在此數(shù)據(jù)集上訓(xùn)練決策樹(shù)以及BP神經(jīng)網(wǎng)絡(luò);
(3)在第二個(gè)集合測(cè)試第一個(gè)集合得出的模型;
(4)把第三步獲得的模型結(jié)果當(dāng)作輸入,把正確的標(biāo)記作為輸出,訓(xùn)練次分類器。
本文采用R語(yǔ)言的caretEnsemble包實(shí)現(xiàn)stacking模型,caretEnsemble中的caretStack函數(shù)能夠基于不同學(xué)習(xí)器進(jìn)行stacking組合,本文模型的實(shí)現(xiàn)代碼如圖5-4所示,其中models創(chuàng)建了第一層的基礎(chǔ)學(xué)習(xí)器,rpart代表決策樹(shù)模型,nnet代表BP神經(jīng)網(wǎng)絡(luò);caretStack表示第二層的學(xué)習(xí),采用邏輯回歸(logit)對(duì)第一層的輸出進(jìn)行學(xué)習(xí)。
3、實(shí)證分析
本文采用以下指標(biāo)進(jìn)行實(shí)證分析。
實(shí)證結(jié)果如下,Stackking模型能夠正確區(qū)分250個(gè)正常樣本中的231個(gè)樣本,有19個(gè)樣本被誤判為存在違約風(fēng)險(xiǎn),模型對(duì)于正常樣本的預(yù)測(cè)正確率為92.4%。模型對(duì)于100個(gè)存在違約風(fēng)險(xiǎn)的樣本能夠正確識(shí)別其中94個(gè)樣本,但是對(duì)于其中6個(gè)存在違約風(fēng)險(xiǎn)的樣本進(jìn)行了漏判,準(zhǔn)確率為94%,模型的綜合準(zhǔn)確率為92.85%。邏輯回歸模型能夠正確區(qū)分250個(gè)正常樣本中的216個(gè)樣本,但是有34個(gè)樣本被誤判為存在違約風(fēng)險(xiǎn),模型對(duì)于正常樣本的預(yù)測(cè)正確率為86.4%。模型對(duì)于100個(gè)存在違約風(fēng)險(xiǎn)的樣本能夠正確識(shí)別其中85個(gè)樣本,但是對(duì)于其中15個(gè)存在違約風(fēng)險(xiǎn)的樣本進(jìn)行了漏判,準(zhǔn)確率為85%,模型的綜合準(zhǔn)確率為86%。Stacking模型提高了對(duì)汽車金融違約風(fēng)險(xiǎn)的預(yù)測(cè)性能。
4、研究總結(jié)
隨著汽車行業(yè)的發(fā)展,汽車金融貸款的規(guī)模不斷增長(zhǎng),對(duì)貸款信用風(fēng)險(xiǎn)的評(píng)價(jià)變得越來(lái)越重要。本文構(gòu)建了基于Stacking集成學(xué)習(xí)模型對(duì)汽車貸款違約風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè),并使用銀行的實(shí)證數(shù)據(jù)進(jìn)行了分析,Stacking集成學(xué)習(xí)模型在測(cè)試樣本集上的表現(xiàn)優(yōu)于邏輯回歸等模型。
參考文獻(xiàn):
[1]楊光飛, 崔雪嬌, 張翔. 基于抽樣和規(guī)則的不平衡數(shù)據(jù)關(guān)聯(lián)分類方法[J]. 系統(tǒng)工程理論與實(shí)踐, 2017, 37(4):1035-1045.
[2]崔晴. 基于PSO-LSSVM的中小企業(yè)信用風(fēng)險(xiǎn)評(píng)價(jià)研究[D]. 河北工程大學(xué), 2017.
[3]吳煜寧. 供應(yīng)鏈金融信用風(fēng)險(xiǎn)評(píng)估方法研究[D]. 西北農(nóng)林科技大學(xué), 2018.