亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于信用評分和數(shù)據(jù)挖掘?qū)ι虡I(yè)貸款違約情況的預(yù)測方法研究

        2020-04-20 11:24:52聶紀(jì)予
        全國流通經(jīng)濟(jì) 2020年4期
        關(guān)鍵詞:支持向量機(jī)

        摘要:隨著貸款消費的發(fā)展,信貸管理中存在著諸多問題并且也面臨著一些難以掌控的風(fēng)險,如果能利用數(shù)據(jù)挖掘技術(shù),通過對貸款人的各類數(shù)據(jù)進(jìn)行分析,從而得出一個相對準(zhǔn)確的借貸判斷,那么對于金融部門會有很大價值。本文對數(shù)據(jù)挖掘的關(guān)鍵技術(shù)和相關(guān)挖掘分析方法進(jìn)行了分析與解釋,利用現(xiàn)有的數(shù)據(jù)對多個模型進(jìn)行比較得出了相對準(zhǔn)確性較高的建模方法,最后對這一方法對社會的價值進(jìn)行了簡要的評述。

        關(guān)鍵詞:貸款違約;支持向量機(jī);CART;信用評分模型

        中圖分類號:F832.33;F224 文獻(xiàn)識別碼:A文章編號:2096-3157(2020)04-0144-04

        一、研究背景

        隨著國家經(jīng)濟(jì)實力的穩(wěn)步發(fā)展,國民生活條件得到了進(jìn)一步的提高,人們的支出也隨之加大,貸款這種方式也因此越來越受到人們的青睞。而且信息技術(shù)的不斷發(fā)展使貸款脫離了銀行的限制,越來越多的商業(yè)團(tuán)體也開通了貸款業(yè)務(wù),如螞蟻花唄等方式使得貸款消費更加得大眾化,選擇貸款消費的人也越來越多。貸款違約現(xiàn)象給金融部門會帶來嚴(yán)重的經(jīng)濟(jì)損失。因此,建立合適的個人信用評分方法迫在眉睫。

        為保障銀行或者其他金融部門的安全,信用評分應(yīng)運而生。該模型利用客戶的歷史資料和行為特征,對客戶進(jìn)行評分,從而來決定客戶所能持有的金額限度,保證還款等業(yè)務(wù)的安全性。20世紀(jì)40年代以來,信用評分技術(shù)發(fā)展速度驚人。以美國為代表的西方資本主義國家已經(jīng)建立了非常完善的信用評分系統(tǒng)。我國目前也在進(jìn)行這方面的研究,但是還不太成熟,這個領(lǐng)域中仍然還有很多機(jī)會。

        傳統(tǒng)的理念當(dāng)中,采用的變量較少,每個變量均與客戶信用具有較強(qiáng)的關(guān)聯(lián)關(guān)系,對信用評估起著決定性作用。但當(dāng)前的大數(shù)據(jù)背景,使得可用于評分的變量增多,每個變量的比重有所下降,但變量的聯(lián)合可以進(jìn)行更好的預(yù)測。當(dāng)然這需要對大量的數(shù)據(jù)進(jìn)行復(fù)雜的分析處理。而處理許多變量和弱特征時,就需要一種復(fù)雜的技術(shù)算法作為其基礎(chǔ)。

        利用數(shù)據(jù)挖掘的方法來處理貸款問題在國外已有初步研究。Herzog等在對抵押預(yù)期的分析中,發(fā)現(xiàn)收入波動性大的借款人更有可能發(fā)生拖欠行為[1]。我國這方面的研究起步較晚,但在研究的階段也取得了一定的成果。孫大力提出在應(yīng)用信用評分模型時除了借鑒國外的成熟方法,還應(yīng)注意結(jié)合我國國情與特殊情況,特別關(guān)注總體樣本、個人信用動態(tài)變化、特征變量的選取、臨界值判斷等具體問題[2]。王春峰等采用多種方法,主要有Logit回歸、線性判別法、神經(jīng)網(wǎng)絡(luò)模型和遺傳規(guī)劃模型等,研究了信用風(fēng)險控制理論[3]。

        二、數(shù)據(jù)與方法

        1.研究數(shù)據(jù)

        在本研究中,筆者選用了UCI網(wǎng)站的數(shù)據(jù)集(http://archive.ics.uci.edu/ml/datasets/default+of+credit+card+clients)。該數(shù)據(jù)集共包含30000條數(shù)據(jù)。因變量Y是是否違約,0是未違約,1是違約。自變量給出了23個選項。

        2.模型描述

        根據(jù)UCI上的違約信用評分?jǐn)?shù)據(jù),我們采用混合SVM的方法建立分類模型,模型判別的結(jié)果是消費者是否違約。我們的建模思路主要分以下兩步進(jìn)行。第一步,使用CART模型選擇合適的特征;第二步,將第一步選出的特征放入SVM進(jìn)行分類。

        首先,我們對所使用方法的基本原理進(jìn)行簡要介紹。

        (1)CART算法

        CART(Classification And Regression Tree,分類回歸樹)是在給定輸入X條件下輸出隨機(jī)變量Y的條件概率分布的學(xué)習(xí)方法,本身屬于決策樹分類法。決策樹的生成過程就是使用滿足劃分準(zhǔn)則的特征不斷將數(shù)據(jù)集劃分為純度更高,不確定性更小的子集。對于當(dāng)前數(shù)據(jù)集D的每一次劃分,我們都希望根據(jù)某特征劃分之后的各個子集的純度更高,不確定性更小。這里我們選擇CART方法進(jìn)行分類,對特征重要性排序,從而選出有研究價值的特征。

        CART二分每個特征(包括標(biāo)簽特征、連續(xù)特征,即分類型與數(shù)值型數(shù)據(jù)均可),經(jīng)過最優(yōu)二分特征及其最優(yōu)二分特征值的選擇、切分、二叉樹生成、剪枝來實現(xiàn)CART算法。與其他決策樹算法不同的是,CART選擇使得基尼系數(shù)最小的剪枝方法。圖1所示為CART算法與其他決策樹算法的對比,決策樹的ID3算法和C4.5算法利用熵來度量,生成了相對較為復(fù)雜的多叉樹,且只能處理分類問題。CART算法使用基尼系數(shù)來代替信息增益比,基尼指數(shù)Gini(D)表示表示在樣本集合中一個隨機(jī)選中的樣本被分錯的概率。如圖2所示,基尼指數(shù)越大,樣本的不確定性也就越大,可以作為熵模型的一個近似替代,由此避免大量對數(shù)運算,簡化模型同時也不至于完全丟失熵模型的優(yōu)點。

        其中:

        基尼指數(shù)(基尼不純度)= 樣本被選中的概率 ×樣本被分錯的概率(1)

        在分類問題中,假設(shè)有K類,樣本點屬于第k類的概率為pk,則基尼系數(shù)表達(dá)式為:

        Gini(p)=∑Kk=1pk(1-pk)=1-∑Kk=1p2k(2)

        對于分類問題:設(shè)Ck為D中屬于第k類的樣本子集,則基尼指數(shù)為:

        Gini(D)=1-∑Kk=1|Ck||D|2(3)

        對于樣本D,如果根據(jù)特征A的某個值a,把D分成D1和D2兩部分,則在特征A的條件下,D的基尼系數(shù)表達(dá)式為:

        Gini(D,A)=|D1||D|Gini(D1)+|D2||D|Gini(D2)(4)

        (2)支持向量機(jī)模型

        SVM(Support Vector Machine,支持向量機(jī))的分類思想本質(zhì)上和線性回歸LR分類方法類似,即求出一組權(quán)重系數(shù),通過線性表示進(jìn)行分類。先使用一組訓(xùn)練集來訓(xùn)練SVM中的權(quán)重系數(shù),得到分割超平面,該平面即為分類的決策邊界,分在平面兩邊的就是兩類。進(jìn)而找到離分隔超平面最近的點,確保它們離分隔面的距離盡可能遠(yuǎn),最大化支持向量到分隔面的距離。顯然,經(jīng)典的SVM算法(圖3)只適用于兩類分類問題。

        但經(jīng)過改進(jìn)之后,SVM也可以適用于多類分類問題。實際上,低維非線性的分界線在高維是線性可分的。由于從輸入空間到特征空間的這種映射會使得維度發(fā)生爆炸式的增長,因此上述約束問題中的內(nèi)積運算會非常大以至于計算機(jī)無法承受。通常需要構(gòu)造一個kernel函數(shù)。通過kernel核函數(shù),將低維函數(shù)轉(zhuǎn)化為高維函數(shù),只需要在輸入空間內(nèi)就可以進(jìn)行特征空間的內(nèi)積運算。

        常用的核函數(shù)包括線性核函數(shù)、多項式核函數(shù)、高斯(RBF)核函數(shù)、sigmoid核函數(shù)等,每種核函數(shù)均具有自己的特征和使用情形。

        三、計算與結(jié)果分析

        1.模型預(yù)處理

        在模型建立之前,首先要進(jìn)行數(shù)據(jù)的預(yù)處理。數(shù)據(jù)的預(yù)處理主要包含以下幾個方面:

        第一,對數(shù)據(jù)集進(jìn)行了切分處理,在切分過程保持正負(fù)樣本比例。以下是數(shù)據(jù)集切分結(jié)果(表2),切割中訓(xùn)練集和測試集的比例是8∶2。

        第二,通過欠采樣和過采樣處理正負(fù)樣本分布不均的問題。為了解決類別不平衡對模型輸出的影響,通過采用欠采樣和過采樣的方式,來調(diào)整數(shù)據(jù)的不平衡。為了保證結(jié)果的可比性,要始終保持同一測試集對效果進(jìn)行檢驗,通過采樣的方式來調(diào)整數(shù)據(jù)的不平衡。欠采樣是從不違約的人數(shù)中隨機(jī)抽取,進(jìn)而使不違約人數(shù)數(shù)量減小,與為違約人數(shù)相同。過采樣是從違約的數(shù)據(jù)集中有放回抽樣,進(jìn)而使違約人數(shù)數(shù)量增加,與未違約人數(shù)相同。表3是在核函數(shù)為RBF函數(shù)的時候,樣本未處理與欠采樣、過采樣的模型效果對比,可見采樣的方式可以顯著提高模型效果。

        第三,對數(shù)據(jù)進(jìn)行歸一化處理。常見的數(shù)據(jù)歸一化的方法有兩種,第一種方法是利用min-max標(biāo)準(zhǔn)化的離差標(biāo)準(zhǔn)化方法,max為樣本數(shù)據(jù)的最大值,min為最小值。該方法是對原始數(shù)據(jù)的線性變換,使結(jié)果落到[0,1]區(qū)間。第二種方法是z-score的標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化方法。該方法下經(jīng)過處理的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布。將數(shù)據(jù)進(jìn)行歸一化,便于不同單位或量級的指標(biāo)能夠進(jìn)行比較和加權(quán),也能顯著提高模型的訓(xùn)練速度。

        第四,對分類型數(shù)據(jù)進(jìn)行離散化處理。對于數(shù)值型數(shù)據(jù)來說,不同數(shù)據(jù)之間的差值是有意義的,較小的差值可以反映變量的相似情況。但是對于分類型數(shù)據(jù)來說,不同代碼數(shù)字之間的差值是無意義的,因此采用one-hot的編碼方法進(jìn)行二元化處理。表4是利用該編碼處理的一個例子,從中可以更清晰地看到編碼方法。

        第五,利用CART進(jìn)行特征選擇。利用Salford System公司的軟件CATR 4.0和MART 2.0進(jìn)行特征選取。這樣不僅能很好地解決分類與回歸問題,而且可以對變量的重要程度進(jìn)行排名,是很好的特征選取工具。得到的結(jié)果如圖5所示。

        2.模型調(diào)參

        模型調(diào)參主要分為三個部分:利用不同的核函數(shù)進(jìn)行處理,進(jìn)行特征選擇和對原始數(shù)據(jù)進(jìn)行采樣。在核函數(shù)調(diào)參過程中,主要使用了線性核(linear)、多項式核(poly)、徑向基函數(shù)(rbf)函數(shù)進(jìn)行模型調(diào)整;在數(shù)據(jù)的特征選擇中,主要使用CART方法,選擇了重要程度更高的特征;在于原始數(shù)據(jù)采樣中,采用了不處理、欠采樣和過采樣三種方法對數(shù)據(jù)進(jìn)行處理。

        3.模型評估

        對于模型效果的評價,主要選擇以下指標(biāo)來說明模型效果。

        根據(jù)混淆矩陣可以得到TP、FN、FP、TN四個值,TP即為預(yù)測正確的違約用戶的個數(shù),F(xiàn)N為預(yù)測錯誤(預(yù)測為不違約)的違約用戶個數(shù),根據(jù)這四個值即可計算精確率、召回率和F1。

        精確率(Precision)為TP/(TP+FP),即為在預(yù)測為違約的用戶中,預(yù)測正確(實際為違約)的人占比。

        召回率(Recall)為TP/(TP+FN),即為在實際為違約的用戶中,預(yù)測正確(預(yù)測也為違約)的用戶占比。

        F1值是精確率和召回率的調(diào)和均值,即F1=2PR/(P+R),相當(dāng)于精確率和召回率的綜合評價指標(biāo)。在輸出結(jié)果不平衡的模型中,F(xiàn)1值是對模型結(jié)果的綜合考量。

        第一類錯誤,為FN/(TP+FN)。即在預(yù)測違約的用戶中,實際是不違約的用戶。

        第二類錯誤,為FP/(FP+TN)。即在預(yù)測不違約的用戶中,實際是違約的用戶的占比。

        在商業(yè)信貸模型中,用戶違約帶來的損失是更大的,因此,第二類錯誤是重點關(guān)注的指標(biāo)。

        表5為不同模型下的計算結(jié)果,可以看出,CART1+SVM(RBF)能夠產(chǎn)生最好的分類效果。并且在該方法在欠采樣的情況下,第二類錯誤也可以得到很好的控制。

        四、結(jié)論

        準(zhǔn)確的信用評分模型和對用戶是否違約的判斷,對銀行業(yè)務(wù)來說是至關(guān)重要的,因為用戶違約對銀行帶來的損失是非常大的。這也要求模型要做到對違約用戶的有效甄別。

        就建模過程來講,本研究的意義在于建模過程和方法的指導(dǎo)。研究表明,CART1+SVM(RBF)能夠產(chǎn)生最好的分類效果。因此,在利用SVM建模的時候,推薦使用CART1先進(jìn)行變量選擇,利用重要的變量進(jìn)行SVM,能夠取得更好的效果。CART1+SVM(RBF)的方法,不僅具有較好的召回率和精確度,而且犯第二類錯誤的概率也更小。

        參考文獻(xiàn):

        [1]Herzog,I.P.,&Earley,J.S.Home Mortgage Delinquency and Foreclosure[J].New York:National Bureau of Economic Research,1970,34~41.

        [2]孫大利.個人信用評分模型綜述與應(yīng)用分析[J].中國信用卡,2006,(9):27~34.

        [3]王春峰,萬海暉,張維.基于神經(jīng)網(wǎng)絡(luò)技術(shù)的商業(yè)銀行信用風(fēng)險評估[J].系統(tǒng)工程理論與實踐,1999,(9):24~32.

        作者簡介:聶紀(jì)予,唐山市第二中學(xué)學(xué)生。

        猜你喜歡
        支持向量機(jī)
        基于支持向量回歸機(jī)的電能質(zhì)量評估
        基于智能優(yōu)化算法選擇特征的網(wǎng)絡(luò)入侵檢測
        數(shù)據(jù)挖掘技術(shù)在電廠經(jīng)濟(jì)性分析系統(tǒng)中的應(yīng)用Q
        基于改進(jìn)支持向量機(jī)的船舶縱搖預(yù)報模型
        中國水運(2016年11期)2017-01-04 12:26:47
        基于SVM的煙草銷售量預(yù)測
        動態(tài)場景中的視覺目標(biāo)識別方法分析
        論提高裝備故障預(yù)測準(zhǔn)確度的方法途徑
        價值工程(2016年32期)2016-12-20 20:36:43
        基于熵技術(shù)的公共事業(yè)費最優(yōu)組合預(yù)測
        價值工程(2016年29期)2016-11-14 00:13:35
        基于支持向量機(jī)的金融數(shù)據(jù)分析研究
        管理類研究生支持向量機(jī)預(yù)測決策實驗教學(xué)研究
        考試周刊(2016年53期)2016-07-15 09:08:21
        中文字幕乱码亚洲精品一区| 国产精品黄色av网站| 国产精品一区二区熟女不卡| 超碰色偷偷男人的天堂| 国产在线无码一区二区三区| 国产亚洲欧美在线播放网站| 国产亚洲一区二区精品| 亚洲av无码专区国产不卡顿| 少妇人妻200篇白洁| 国产精品入口蜜桃人妻| 麻豆成人久久精品二区三区免费| 久久精品中文字幕| 久久精品亚洲中文字幕无码网站| 成人精品国产亚洲欧洲| 亚洲一区二区蜜桃视频| 国产亚洲美女精品久久久2020 | 国产日韩午夜视频在线观看| 亚洲精品98中文字幕| 99精品人妻无码专区在线视频区 | 一本色综合亚洲精品蜜桃冫| 午夜无码亚| 久久伊人亚洲精品视频 | 亚洲女av中文字幕一区二区| 麻豆tv入口在线看| 色综合自拍| 一个人看的在线播放视频| 久久国产精品亚洲婷婷片| 熟妇人妻无乱码中文字幕| 中文字幕亚洲人妻系列| 在线观看一区二区蜜桃| 国产精品一卡二卡三卡| 在线高清精品第一区二区三区| 日韩一区二区三区天堂| 成人日韩熟女高清视频一区| 成人黄色网址| 久久国产精品超级碰碰热| 国产一区二区三区视频地址| 无码乱人伦一区二区亚洲一| 精品囯产成人国产在线观看| 人妻丰满精品一区二区| 夜夜春亚洲嫩草影院|