代婷婷,單長(zhǎng)吉,韓 艷,胡曉飛
(1.昭通學(xué)院 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,云南 昭通 657000;2.昭通學(xué)院 物理與電子信息工程學(xué)院,云南 昭通 657000)
偏最小二乘回歸分類(lèi)法的個(gè)人信用評(píng)估
代婷婷1,單長(zhǎng)吉2,韓 艷1,胡曉飛1
(1.昭通學(xué)院 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,云南 昭通 657000;2.昭通學(xué)院 物理與電子信息工程學(xué)院,云南 昭通 657000)
針對(duì)目前商業(yè)銀行的信用風(fēng)險(xiǎn)問(wèn)題,提出了偏最小二乘回歸分類(lèi)法的個(gè)人信用評(píng)估算法,首先,將客戶(hù)和相應(yīng)的信用指標(biāo)量化后做成一個(gè)矩陣;其次,建立偏最小二乘回歸分類(lèi)模型;最后,利用德國(guó)信用數(shù)據(jù)在該模型進(jìn)行試驗(yàn),得出結(jié)果。仿真結(jié)果表明,此方法簡(jiǎn)單、可行、有效。
個(gè)人信用評(píng)估 ;偏最小二乘回歸分類(lèi);激活函數(shù)
隨著經(jīng)濟(jì)的飛速發(fā)展,買(mǎi)房子貸款、買(mǎi)車(chē)子貸款、學(xué)生上學(xué)貸款,利用信用卡提前消費(fèi)等等這些現(xiàn)象在生活中屢見(jiàn)不鮮,而且已經(jīng)很普遍,且已經(jīng)成為商業(yè)銀行競(jìng)爭(zhēng)的優(yōu)勢(shì)和獲取利潤(rùn)的來(lái)源。[1]去年的一篇報(bào)道稱(chēng),全國(guó)目前的各項(xiàng)貸款中個(gè)人貸款所占的比重已經(jīng)達(dá)到了47%,而且還有持續(xù)上升的趨勢(shì),而在個(gè)人貸款中占據(jù)比例最多的是住房按揭貸款,已經(jīng)在個(gè)人貸款中的比重達(dá)到了72%[2],這種情況下,個(gè)人信用風(fēng)險(xiǎn)自然會(huì)受到極大的關(guān)注。實(shí)際上,與商業(yè)風(fēng)險(xiǎn)評(píng)估相比較,我們的個(gè)人的信用評(píng)估落后很多,一般情況下,都是依據(jù)信用機(jī)構(gòu)信貸員的經(jīng)驗(yàn)主觀下結(jié)論決定。[3]這種情況只能適用于小規(guī)模的業(yè)務(wù)量。面對(duì)日益上漲的業(yè)務(wù)量,銀行的信貸人員缺乏不足的情況下,這種授信方式需要很長(zhǎng)的審批時(shí)間,在此期間有可能就會(huì)將認(rèn)為的誤差擴(kuò)大化。相應(yīng)的服務(wù)水平也會(huì)不斷下降,這樣會(huì)直接導(dǎo)致資產(chǎn)質(zhì)量下降,潛在客風(fēng)險(xiǎn)的管控能力也提不上去,這就嚴(yán)重影響了銀行及信用機(jī)構(gòu)的競(jìng)爭(zhēng)能力。因此,優(yōu)秀的個(gè)人信用評(píng)估模型勢(shì)建立顯得非常有必要和緊迫,目的是快速的提高信用機(jī)構(gòu)的授信效率,同時(shí)也使它的準(zhǔn)確率盡可能的高。在此過(guò)程中,我們的個(gè)人信貸機(jī)制能夠盡快的完善。風(fēng)險(xiǎn)防控的能力也逐步提高加強(qiáng)。
信用風(fēng)險(xiǎn)問(wèn)題一直伴隨存在于每一個(gè)信貸機(jī)構(gòu)在開(kāi)展信貸業(yè)務(wù)的過(guò)程之中,因此,它已經(jīng)成為各個(gè)信貸機(jī)構(gòu)預(yù)防及嚴(yán)格控制風(fēng)險(xiǎn)時(shí)最先要考慮的。于是,信用機(jī)構(gòu)在貸款之前進(jìn)行個(gè)人信用的評(píng)估顯得異常重要,可是,如何在繁忙的工作中提高信用評(píng)估的效率,就需要一個(gè)科學(xué)合理的評(píng)估方法,打分制與主觀經(jīng)驗(yàn)的結(jié)合肯定是行不通的。目前,關(guān)于如何高效率的進(jìn)行個(gè)人信用評(píng)估,種統(tǒng)計(jì)學(xué)和人工智能方法的改進(jìn)在國(guó)內(nèi)比較流行。到底具體使用哪種方法?關(guān)鍵是看把個(gè)人信用評(píng)價(jià)問(wèn)題歸結(jié)于那類(lèi)問(wèn)題而已,可以將其看作聚類(lèi)問(wèn)題、分類(lèi)問(wèn)題、回歸問(wèn)題,看作不同的問(wèn)題,那么研究其的方法就是不同的,目前主要的個(gè)人信用評(píng)估方法有經(jīng)驗(yàn)式評(píng)判法、線性判別方法、統(tǒng)計(jì)學(xué)方法、運(yùn)籌學(xué)方法、人工智能方法以及一些非參數(shù)統(tǒng)計(jì)方法。[4]依據(jù)這些方法,本文提出了偏最小二乘回歸分類(lèi)個(gè)人信用評(píng)估方法。
1.1 建立個(gè)人信用評(píng)估框架
個(gè)人信用評(píng)估問(wèn)題實(shí)際上相當(dāng)于一個(gè)分類(lèi)問(wèn)題,依據(jù)客戶(hù)提供的材料將客戶(hù)分成不同的類(lèi)別。一般情況下,我們將其分為信用度高的客戶(hù)和信用度低的客戶(hù),依據(jù)貸款申請(qǐng)人所交的材料,方方面面考慮各種能夠影響其信用的因素,嚴(yán)格盡可能準(zhǔn)確地評(píng)估出客戶(hù)失信的幾率,從而評(píng)估出信用機(jī)構(gòu)風(fēng)險(xiǎn)大小。
在信用評(píng)估體系確立好后,那么我們假定每一個(gè)客戶(hù)都會(huì)對(duì)應(yīng)n個(gè)指標(biāo),記為(x1, x2, ..., xn)在這種情況下,就可以將每個(gè)客戶(hù)看成n維空間Rn中的一個(gè)點(diǎn),那么Rn空間中的一類(lèi)點(diǎn)就可以代表某一類(lèi)型的客戶(hù),于是我們就可以把空間中的超曲面當(dāng)做分類(lèi)的界面,依據(jù)超曲面進(jìn)行客戶(hù)分類(lèi),于是信用評(píng)估問(wèn)題轉(zhuǎn)化成了尋找最優(yōu)分類(lèi)超平面的數(shù)學(xué)問(wèn)題。
在有n個(gè)客戶(hù)的已知類(lèi)別情況下,可以將這已知的n個(gè)客戶(hù)看成訓(xùn)練樣本,設(shè)每個(gè)客戶(hù)都會(huì)有m個(gè)標(biāo)準(zhǔn),也就是說(shuō)每一個(gè)訓(xùn)練樣本具有m個(gè)維數(shù),基于以上的假設(shè),我們就可以把有客戶(hù)的信息用下面的矩陣來(lái)表示:
矩陣中的行表示客戶(hù),列表示標(biāo)準(zhǔn),(x1, x2…, xm)這一列反映了評(píng)價(jià)情況,即xij表示第i個(gè)客戶(hù)對(duì)應(yīng)的第j個(gè)標(biāo)準(zhǔn),yi刻畫(huà)了第i個(gè)客戶(hù)的信譽(yù)度,其中i = 1, 2,…, m;j = 1, 2,…, n.
基于以上內(nèi)容,則個(gè)人信用評(píng)價(jià)問(wèn)題就等價(jià)于這樣一個(gè)求最優(yōu)解的數(shù)學(xué)優(yōu)化問(wèn)題:在n維空間中,我們想法設(shè)法獲得一個(gè)H(x)=0的超曲面,其滿(mǎn)足的條件是可以將n維空間中的m個(gè)點(diǎn)區(qū)分成某些類(lèi)別,本文中我們 的是兩類(lèi)問(wèn)題,即將n維空間中的m個(gè)點(diǎn)區(qū)分成2類(lèi)的一個(gè)超平面。假設(shè)(yi=±1,±1代表信譽(yù)度高,-1代表信譽(yù)度低),在這種訓(xùn)練下倘若有一個(gè)未知類(lèi)別的點(diǎn)x(其代表未知信譽(yù)度的客戶(hù))我們就可以利用數(shù)學(xué)分析中的符號(hào)函數(shù)(如下)進(jìn)行判別決策。
1.2 偏最小二乘回歸建模
1.2.1 數(shù)據(jù)標(biāo)準(zhǔn)化處理
數(shù)據(jù)標(biāo)準(zhǔn)化處理的目的就是重合樣本點(diǎn)的集合中心與坐標(biāo)原點(diǎn)。我們文章中所有的標(biāo)準(zhǔn)化都采用z_score標(biāo)準(zhǔn)化[5]處理,它的轉(zhuǎn)化函數(shù)為:
在(4)式中,x—表示樣本的均值,S(x)代表樣本的方差,它的計(jì)算方法如下:
為了方便期間,我們將這y1, y2…, yL個(gè)因變量與y1, y2…, xm個(gè)自變量都處理成標(biāo)準(zhǔn)化的變量。那么因變量組與自變量組的n次標(biāo)準(zhǔn)化觀測(cè)數(shù)據(jù)矩陣[6]就可以表示成下面的形式:
1.2.2 提取因變量與自變量的第一對(duì)成分,以?xún)烧咧g的相關(guān)性最大為原則
設(shè)從自變量中提取出第一成分為t1,從因變量中提取出的一成分記為u1,t1可以表示為自變量集X= (x1, x2…, xm)'的線性組合;即t1=w11x1+…+w1mxm=w1'X,,u1可表示為因變量集Y=(y1…, yp)'的線性組合:u1=v11y1+…+v1pyp=v1'Y為了做出更準(zhǔn)確的回歸分析,t1和u1的提取要求盡可能在變量組中是比較穩(wěn)定的信息,即變異的信息很少。另外要求t1和u1之間要有最高的相關(guān)性。
根據(jù)因變量集的標(biāo)準(zhǔn)化觀測(cè)數(shù)據(jù)陣E0和自變量集的標(biāo)準(zhǔn)化觀測(cè)數(shù)據(jù)陣F0計(jì)算得到第一成分的得分向量,分別用t ̄和表示
因?yàn)閠1和u1的協(xié)方差Cov(t1, u1)可通過(guò)第一對(duì)成分的得分向量—t1和u—1的內(nèi)積計(jì)算,于是,上述問(wèn)題的約束要求可轉(zhuǎn)化為數(shù)學(xué)上的條件極值問(wèn)題:
1.2.3 建立y1…, yp對(duì)t1的回歸和x1…, xm對(duì)t1的回歸
設(shè)回歸模型為:
由(12)式可知E0和F0可以用殘差矩陣E1和F代替,述步驟可以重復(fù)操作。
1.2.4 回歸方程計(jì)算
設(shè)n×m矩陣E0的秩為r≤(n-1, m),存在r個(gè)成分t1, …tr使得:
將tk=wk1x1+…+ωkmxm(k=1, 2…r),和Y=t1β1+…+trβr聯(lián)立,化簡(jiǎn)得到關(guān)于p個(gè)因變量的偏最小二乘回歸式方程:
1.3 激活函數(shù)
分類(lèi)的結(jié)構(gòu)性質(zhì)大部分是由激活函數(shù)[7-8]決定,然而激活函數(shù)是由實(shí)際情況決定的。本文的激活函數(shù)用下面的形式簡(jiǎn)單表示:
在(16)式中,vj表示激活電位,yD表示類(lèi)別指標(biāo),U(yD, ε)是yD的ε鄰域,將其稱(chēng)為激活函數(shù)的閾值。這里ε的大小可以改變,所以隨著ε大小的改變來(lái)實(shí)現(xiàn)控制分類(lèi)個(gè)人信用評(píng)估的正確率的目的。1.4 偏最小二乘回歸分類(lèi)的個(gè)人信用評(píng)估算法
面對(duì)個(gè)人信用評(píng)估這個(gè)分類(lèi)問(wèn)題,本文中的輸入數(shù)據(jù)就是可將客戶(hù)信息矩陣,分類(lèi)標(biāo)簽就是信用度,在上述理論指導(dǎo)下得到了文本的個(gè)人信用評(píng)估方法——偏最小二乘回歸分類(lèi),具體步驟為:
Step 1:搜集原始試驗(yàn)數(shù)據(jù),并且將其標(biāo)準(zhǔn)化;
Step 2:完善確定的評(píng)估標(biāo)準(zhǔn)規(guī)則,將收集到的數(shù)據(jù)進(jìn)行數(shù)值化處理;
Step 3:得出具體的偏最小二乘回歸的模型公式,訓(xùn)練已知的客戶(hù)類(lèi)別得到回歸方程;
Step 4:確定激活函數(shù),對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練得到最小二乘回歸(即得到最小二乘回歸分類(lèi)器);
Step 5:試驗(yàn)檢測(cè)準(zhǔn)確性;
Step 6:對(duì)未知的客戶(hù)信用度的樣本在此分類(lèi)器上評(píng)估。
2.1 試驗(yàn)數(shù)據(jù)
本文中使用的數(shù)據(jù)是UCI數(shù)據(jù)庫(kù)中的德國(guó)信用數(shù)據(jù),該數(shù)據(jù)可以從網(wǎng)址:http//erfhive.ucy. uci.edu/kl/.獲得,其名稱(chēng)為:UCI Bachine Meaning Reperutory.法國(guó)數(shù)據(jù)共有客戶(hù)樣本1100個(gè),“信用度好”與“信用度差”的樣本分為700、400個(gè),按照分類(lèi)中的稱(chēng)呼將其分為正負(fù)客戶(hù)樣本點(diǎn)。其中每個(gè)客戶(hù)樣本點(diǎn)具有23個(gè)屬性,和一個(gè)用于判別是否違約的類(lèi)別標(biāo)簽。
2.2 確定文中的激活函數(shù)
本文中說(shuō)的是客戶(hù)信用度良好與否的二分情況,應(yīng)該選擇類(lèi)似于符號(hào)函數(shù)的函數(shù)作為本實(shí)驗(yàn)中的激活函數(shù):
式(17)中,f1(x)和f2(x)表示信用度,(類(lèi)別標(biāo)號(hào)),T為控制值,依具體情況而設(shè)定。
特別注意的是,我們可以設(shè)定兩個(gè)控制值,超過(guò)一定控制值時(shí)判定為“信用度良好好”;低于一定閾值時(shí)判定為“信用度較差”,介于兩個(gè)閾值之間的可以認(rèn)為是信用度稍微好的,勉強(qiáng)可以,信用機(jī)構(gòu)的風(fēng)險(xiǎn)不會(huì)很大。
2.3 實(shí)驗(yàn)結(jié)果與分析
針對(duì)法國(guó)客戶(hù)信用度信用數(shù)據(jù)的23個(gè)屬性,我們采用交叉驗(yàn)證方法,得到本實(shí)驗(yàn)所需要的成分,經(jīng)過(guò)系列的訓(xùn)練擬合得到了最終的回歸方程為:
f(x)=0.0962x1+0.0030x2-0.0432x3+0.0011x4-0.0368x5-0.0131x6-0.0372x7-0.0014x8+0.0243x9-0.0014x10-0.04 71x11+0.0326x12-0.063x13-0.0243x14-0.0135x15+0.1469x16-0.1728x17+0.0565x18+0.0901x19+0.0476x20-0.0407x21-0.0855x22-0.0150x23+1.9682
圖 1 法國(guó)信用數(shù)據(jù)標(biāo)準(zhǔn)化下的回歸系數(shù)直方圖
通過(guò)畫(huà)其標(biāo)準(zhǔn)的回歸系數(shù)圖,如圖1所示。我們可以從圖上直觀的看出23個(gè)特征屬性各自在信用評(píng)估中對(duì)信用情況的作用,從圖可知第二個(gè)屬性特征對(duì)信用評(píng)估結(jié)果的反映有著較強(qiáng)的作用。且相當(dāng)?shù)拿黠@。但是,第7個(gè)及第12個(gè)屬性特征就是沒(méi)有前面的解釋作用強(qiáng)烈。相對(duì)來(lái)說(shuō)要弱很多。與此同時(shí),我們也將實(shí)驗(yàn)結(jié)果中閾值對(duì)評(píng)判結(jié)果的影響用表1表示了出來(lái)。
表1 在不同判別閾值下德國(guó)信用數(shù)據(jù)評(píng)估結(jié)果
我們?cè)谡J(rèn)真研究了偏最小二乘回歸方法的基礎(chǔ)上,通過(guò)具體的實(shí)例構(gòu)造出了類(lèi)似于符號(hào)函數(shù)的激活函數(shù),將二者整合得到了本文中的核心方法---偏最小二乘回歸分類(lèi)方法,且將此方法用在信用評(píng)估之中。為了證明此方法的有效性,我們利用德國(guó)信用數(shù)據(jù)在其上進(jìn)行試驗(yàn),試驗(yàn)證明了本方法是合理有效的。然而,本文還存在一些不足之處:第一,本文僅使用了一個(gè)德國(guó)信用數(shù)據(jù)做實(shí)驗(yàn),而沒(méi)有使用很多的其他信用數(shù)據(jù),對(duì)本文方法的合理性缺少更強(qiáng)大的支持;第二,沒(méi)有詳細(xì)研究對(duì)多等級(jí)的或者具有二維及以上的信用評(píng)估指標(biāo)此方法是否仍然具有有效性?沒(méi)有通過(guò)具體的試驗(yàn)進(jìn)行說(shuō)明。這些不足都是今后研究需要克服的。
[1]傅鉛生.信息系統(tǒng)分析與設(shè)計(jì)[J].系統(tǒng)設(shè)計(jì)技術(shù),2010(3):46-48.
[2]朱敏,謝榮.構(gòu)建我國(guó)個(gè)人信用評(píng)估體系量大問(wèn)題之思考[J].黑河學(xué)刊,2013(15):42-43.
[3]孫大利.個(gè)人信用評(píng)分模型綜述與應(yīng)用分析[J].中國(guó)信用卡,2011(13):12-13.
[4]Durand D.Risk elements in consumer installment financing[M].New York: The Nationl Bureau of Economic Reseach,1998:145.
[5]Altman E I. Financial Ratios,Discriminant analysis and the prediction of corporate bankruptcy[J].The Joumal of Finance, 2001(4):589-609.
[6]姜明輝,王歡,王雅琳.信用樹(shù)在個(gè)人信用評(píng)估中的應(yīng)用[J].商業(yè)研究,2003(12):15-19.
[7]王雅琳,王歡,黃偉平.K近鄰判別分析法在個(gè)人信用評(píng)估中的應(yīng)用[J].數(shù)量經(jīng)濟(jì)技術(shù),經(jīng)濟(jì)研究,2004(2):143-147.
[8]崔偉.基于遺傳神經(jīng)網(wǎng)絡(luò)的個(gè)人信用評(píng)估模型的研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2009(18):4272-4277.
(責(zé)任編輯 劉常福)
Least-squares regression classif i cation of personal credit evaluation
DAI Tingting, SHAN Changji, HAN Yan, HU Xiaofei
(1. School of Mathematics and Statistics, Zhaotong University, Zhaotong Yunnan 657000, China; 2. School of Physics Electronic Information Engineering, Zhaotong University, Zhaotong Yunnan 657000, China)
In view of the present commercial bank's credit problems, this paper puts forward the classif i cation based on partial least squares method of personal credit assessment, f i rst, the customer and the corresponding credit indices are made after a matrix; Second, the classif i cation ofpartialleast-squares regression model is set up; Finally, with the model experiment on German credit data, the results are obtained. Simulation results show that the method is feasible, simple and effective.
Personal credit assessment; Partial least-squares regression; The activation function
F224
A
1674 - 9200(2017)03 - 0045 - 04
2016 - 12 - 21
云南省應(yīng)用基礎(chǔ)研究項(xiàng)目(青年項(xiàng)目)“錐度量空間的不動(dòng)點(diǎn)理論及應(yīng)用”(2016FD082)。
代婷婷,女,甘肅慶陽(yáng)人,昭通學(xué)院數(shù)學(xué)與統(tǒng)計(jì)學(xué)院助教,碩士,主要從事機(jī)器學(xué)習(xí)與智能計(jì)算研究;單長(zhǎng)吉,男,吉林吉林人,昭通學(xué)院物理與電子信息工程學(xué)院副教授,碩士,主要從事控制理論與建模研究;韓艷,女,湖北黃岡人,昭通學(xué)院數(shù)學(xué)與統(tǒng)計(jì)學(xué)院講師,碩士,主要從事非線性分析研究。