張國(guó)慶 昌寧
摘? 要:隨著全球經(jīng)濟(jì)的變化和我國(guó)金融制度的改革,信用卡借貸業(yè)務(wù)在金融行業(yè)中發(fā)展的十分迅猛,為銀行帶來了巨大的收益。但是,高收益往往伴隨著高風(fēng)險(xiǎn),信用卡借貸隱藏著巨大的風(fēng)險(xiǎn)。如何在已有的信用卡數(shù)據(jù)基礎(chǔ)上,利用科學(xué)的方法來鑒別風(fēng)險(xiǎn),是各個(gè)銀行急需解決的問題。該文主要研究LightGBM在銀行信用卡違約問題中的作用,通過實(shí)驗(yàn),與LR、SVM、隨機(jī)森林等幾個(gè)常用模型的對(duì)比,發(fā)現(xiàn)LightGBM模型的準(zhǔn)確率最高,說明LightGBM模型效果較好,有一定的實(shí)用價(jià)值。
關(guān)鍵詞:信用卡違約? 金融欺詐? LightGBM
中圖分類號(hào):F832? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號(hào):1672-3791(2019)04(c)-0008-02
1? 信用卡違約研究的背景
隨著經(jīng)濟(jì)全球化和我國(guó)金融體制的改革,國(guó)內(nèi)外各大銀行都不斷的擴(kuò)展自己的業(yè)務(wù)規(guī)模,出現(xiàn)了許多新型的線上交易。以金融機(jī)構(gòu)來講,支付寶、微信支付等侵占了大量的市場(chǎng);以個(gè)體來講,不論是穩(wěn)定的余額寶、理財(cái)通,或者是風(fēng)險(xiǎn)較大的股票等,各種理財(cái)方式逐漸被大家所接受。所以說,我國(guó)銀行業(yè)面臨巨大的困難。
依靠傳統(tǒng)的方式難以改變銀行業(yè)目前的狀況,管理者們需要改變銀行的經(jīng)營(yíng)策略。銀行卡業(yè)務(wù)是金融市場(chǎng)中最有前景的產(chǎn)品之一,數(shù)據(jù)顯示,工商銀行的信用卡到2018年6月末為止,共發(fā)卡1.56億張,授信總額為13.98萬億元,環(huán)比增長(zhǎng)9.09%[1]。信用卡業(yè)務(wù)給銀行帶來了巨大的利潤(rùn)。
同時(shí),信用卡也給銀行帶來了巨大的風(fēng)險(xiǎn)。隨著信用卡數(shù)量的增加,銀行在獲利的同時(shí),也會(huì)存在一些“賴賬”用戶,這些不遵守規(guī)定的用戶給管理者帶來了很大的困難。如何利用已存在的借貸數(shù)據(jù)來辨別用戶是否違約便成了一個(gè)關(guān)鍵問題,既要獲得最大的利潤(rùn),同時(shí)又要減小違約所帶來的損失。因此,關(guān)于信用卡違約的研究是一個(gè)值得研究的問題。
2? 國(guó)內(nèi)外研究現(xiàn)狀
人們現(xiàn)在普遍認(rèn)為,信用卡最早在19世紀(jì)末出現(xiàn),但是當(dāng)時(shí)僅僅是一種短期的借貸行為,沒有形成正規(guī)化的授信額度。1952年,F(xiàn)ranklin National Bank第一次公開發(fā)行信用卡,于是關(guān)于信用卡欺詐的研究便有了開端。
在國(guó)外,BrauseR等在1999年通過關(guān)聯(lián)規(guī)則和神經(jīng)網(wǎng)絡(luò)來研究信用卡欺詐問題,得到的結(jié)果有較高的辨識(shí)度,且誤報(bào)率較低[2]。QuahJTS和SriganeshM在2007年通過自組織映射網(wǎng)絡(luò)的方法,來研究用戶的行為,并進(jìn)行了實(shí)時(shí)欺詐檢測(cè)的研究[3]。2016年,F(xiàn)lorentinButaru等比較了邏輯回歸、決策樹和隨機(jī)森林三種方法,結(jié)果表明,不同的銀行適用于不同的模型,沒有一種模型適合所有的銀行[4]。
在國(guó)內(nèi),2008年,楊璽等使用支持向量機(jī)來研究銀行的欺詐問題,可以有效的檢測(cè)高風(fēng)險(xiǎn)的交易行為[5]。2013年,楊屹等使用Adaboost來研究銀行的欺詐問題[6]。2016年,王純杰等使用Kmeans將客戶分為不同的類別,通過多值有序的Logistic回歸模型來研究銀行的欺詐問題[7]。
3? LightGBM介紹
Microsoft在2016年末提出了輕量級(jí)梯度提升機(jī),它是基于決策樹算法的梯度提升框架,可用作分類、排序等許多機(jī)器學(xué)習(xí)的任務(wù)中[8]。
GBDT[9]梯度提升決策樹,和隨機(jī)森林類似,都是多棵決策樹的一種集成。所不同的是,GBDT所生成的樹是有序的,下一棵樹的輸入是上一棵樹所預(yù)測(cè)的結(jié)果,由此不斷迭代。以下舉例說明GBDT的基本思想,假設(shè)小明的真實(shí)年齡為18歲,第一棵樹得到的結(jié)果是10歲,與真實(shí)的年齡相差8歲,那么第二棵樹就會(huì)在殘差8歲的基礎(chǔ)上去學(xué)習(xí),以此類推。每一輪迭代,擬合的誤差都會(huì)減小。
LightGBM是更為優(yōu)化的GBDT算法框架,它采用按葉子生長(zhǎng)的策略來構(gòu)建決策樹,并且會(huì)限制其最大深度,不僅能過保證效率,還能預(yù)防過擬合。
LightGBM具備一下優(yōu)點(diǎn):(1)訓(xùn)練效率高,低內(nèi)存使用;(2)支持并行學(xué)習(xí),可處理大規(guī)模數(shù)據(jù);(3)優(yōu)化了對(duì)類別特征的支持。
4? 實(shí)驗(yàn)
該文所使用的數(shù)據(jù)是來自UCI上的German credit dataset,一共包含1000條數(shù)據(jù),其中違約樣本300條,正常樣本700條。樣本特征包含借貸金額、年齡、個(gè)人資產(chǎn)、婚姻狀況等信息。該數(shù)據(jù)集已經(jīng)做了很好的預(yù)處理,包括特征選擇、異常值的篩選和缺失值的填充等。為了防止量綱的不同導(dǎo)致的差異,該文采用min-max方法對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。
該文選取LR、SVM、隨機(jī)森林三種模型與LightGBM進(jìn)行對(duì)比,四種模型均使用Python實(shí)現(xiàn)。該文將數(shù)據(jù)集隨機(jī)劃分為兩部分,其中訓(xùn)練集占70%,測(cè)試集占30%。
LR模型對(duì)測(cè)試集預(yù)測(cè)結(jié)果的混淆矩陣如表1所示,此時(shí)模型的準(zhǔn)確率為76.67%。
SVM模型對(duì)測(cè)試集預(yù)測(cè)結(jié)果的混淆矩陣如表2所示,此時(shí)模型的準(zhǔn)確率為77.33%。
SVM和LR所預(yù)測(cè)的結(jié)果在各部分的數(shù)值大致相同,準(zhǔn)確率也相近。隨機(jī)森林模型對(duì)測(cè)試集預(yù)測(cè)結(jié)果的混淆矩陣如表3所示,此時(shí)模型的準(zhǔn)確率為77.33%,值得一提的是,使用隨機(jī)森林在訓(xùn)練集上的準(zhǔn)確率高達(dá)99%,這里可能是由于訓(xùn)練數(shù)據(jù)不足,導(dǎo)致了過擬合。
在LightGBM中,學(xué)習(xí)率設(shè)置為0.01,決策樹棵樹設(shè)置為20棵,樹的最大深度設(shè)置為6,樣本采樣比例為0.75。LightGBM模型對(duì)測(cè)試集預(yù)測(cè)結(jié)果的混淆矩陣如表4所示,此時(shí)模型準(zhǔn)確率為82%。
5? 結(jié)語
從實(shí)驗(yàn)中可以得出,LightGBM模型較優(yōu)于其他三個(gè)常用的模型,采用LightGBM可以幫助銀行更好的鑒別違約客戶,從而使銀行獲得更多利潤(rùn)。
參考文獻(xiàn)
[1] http://www.sohu.com/a/253249429_100216228.
[2] Brause R,Langsdorf T,Hepp M.Neural Data Mining for Credit Card Fraud Detection[C]//IEEE International Conference on TOOLS with Artificial Intelligence, 1999:103-106.
[3] Quah J T S, Sriganesh M. Real Time Credit Card Fraud Detection using Computational Intelligence[C]// International Joint Conference on Neural Networks. IEEE,2007:863-868.
[4] Butaru F, Chen Q, Clark B, et al. Risk and Risk Management in the Credit Card Industry[J]. Journal of Banking & Finance,2016(72):218-239.
[5] 楊璽.基于支持向量機(jī)的信用卡欺詐檢測(cè)研究[D].四川師范大學(xué),2008.
[6] 楊屹.基于稀有類分類的信用卡欺詐識(shí)別研究[D].北京工商大學(xué),2013.
[7] 王純杰,李群,董小剛,等.基于K-均值聚類的多值有序Logistic回歸模型在信用卡信用評(píng)級(jí)中的應(yīng)用研究[J].吉林師范大學(xué)學(xué)報(bào):自然科學(xué)版,2016,37(3):72-81.
[8] https://github.com/Microsoft/LightGBM.
[9] Ye J, Chow J H, Chen J, et al. Stochastic gradient boosted distributed decision trees[J].2009:2061-2064.