魏秋萍,張景肖
在建立信用評(píng)分模型時(shí),備選的自變量過(guò)多是一個(gè)非常突出的問(wèn)題。盡管已經(jīng)有比較成熟的變量選擇方法如IV值、Gini指數(shù)等,但是使用這些方法做變量選擇時(shí)仍有很多的自變量無(wú)法取舍,并且這些自變量之間往往存在著多重共線性。
當(dāng)自變量之間存在多重共線性時(shí),使用普通最小二乘法(Ordinary Least Squares)或者極大似然法(Maximum Likelihood Estimation)往往會(huì)放大模型的誤差,弱化模型的預(yù)測(cè)精確度,使得模型的穩(wěn)健性欠缺。這時(shí)一般采用偏最小二乘(Partial Least Squares,簡(jiǎn)稱PLS)方法。其思想是通過(guò)對(duì)系統(tǒng)中的數(shù)據(jù)信息進(jìn)行分解和篩選,提取最能解釋因變量的主成分的手段來(lái)克服多元回歸模型中常見(jiàn)的多重共線性問(wèn)題。
偏最小二乘模型出現(xiàn)于上個(gè)世紀(jì)60年代,經(jīng)濟(jì)學(xué)家Wold H.[1]在給一些變量組擬合因果關(guān)系路徑時(shí)首次使用該算法。Wold H.[2]等把偏最小二乘方法用于化學(xué)計(jì)量學(xué)中的變量降維來(lái)克服變量的多重共線性。Frank[3]等把偏最小二乘方法和主成分分析等方法進(jìn)行比較,說(shuō)明了偏最小二乘方法是一種有效的降維技術(shù)。在此后,偏最小二乘方法在各個(gè)涉及多元分析的領(lǐng)域有了廣泛的應(yīng)用。在國(guó)內(nèi),王惠文[4][5]對(duì)偏最小二乘思想展開(kāi)了比較深入的研究,并應(yīng)用該方法來(lái)解決實(shí)際經(jīng)濟(jì)問(wèn)題。
本文將針對(duì)信用評(píng)分中的變量眾多問(wèn)題展開(kāi)研究,并建立基于偏最小二乘方法的信用評(píng)分模型。
線性回歸模型用自變量的線性組合來(lái)解釋因變量的變異,通過(guò)普通最小二乘法來(lái)估計(jì)函數(shù)中的各個(gè)參數(shù)。線性回歸在參數(shù)估計(jì)中唯一的約束條件為:要使得對(duì)樣本中因變量的預(yù)測(cè)誤差最小。偏最小二乘回歸模型是對(duì)線性回歸模型的一個(gè)改進(jìn),該算法兼顧了因變量的變異和自變量的變異兩個(gè)目標(biāo)。
偏最小二乘回歸參數(shù)估計(jì)的核心思想為:先從自變量中提取能夠最佳解釋因變量的主成分,再對(duì)這些主成分應(yīng)用最小二乘法擬合線性回歸模型,通過(guò)不斷迭代得到偏最小二乘回歸模型的參數(shù)估計(jì)值。
其中,T是根據(jù)自變量提取出來(lái)的主成分矩陣,對(duì)因變量具有最強(qiáng)的解釋能力;Q是主成分矩陣T的回歸系數(shù)矩陣;E為誤差矩陣,代表了模型的噪音。上述模型也等價(jià)于:
對(duì)于某一個(gè)觀測(cè)而言,其預(yù)測(cè)值為:
這里,H小于自變量X的維度d。
偏最小二乘算法抽取的潛在主成分不僅可以解釋建模樣本中因變量的變異,還可以解釋自變量的變異。在信用評(píng)分模型中,因變量的取值是好客戶還是壞客戶是表現(xiàn)出來(lái)的特征,是度量客戶風(fēng)險(xiǎn)大小的一個(gè)標(biāo)識(shí);而自變量如學(xué)歷、婚姻、職業(yè)等也都是表現(xiàn)出來(lái)的特征。自變量往往并不是決定因變量的因素,真正決定客戶好壞的本質(zhì)特性是不可觀測(cè)的潛在因素,如客戶的償還意愿、客戶的償還能力等??蛻舻膬斶€意愿是他的婚姻、學(xué)歷教育和職業(yè)等特征綜合出來(lái)的表現(xiàn)其道德修養(yǎng)的主成分,客戶的償還能力是他的收入、年齡和工齡等特征綜合出來(lái)的表現(xiàn)其經(jīng)濟(jì)水平的主成分?;谶@種業(yè)務(wù)特點(diǎn),能夠同時(shí)解釋因變量和自變量變異的偏最小二乘模型在業(yè)務(wù)邏輯上更利于信用評(píng)分模型的創(chuàng)建。
基于偏最小二乘回歸模型擬合模型和估計(jì)參數(shù)的獨(dú)特思路,使得它更加能夠解釋信用評(píng)分模型要解決的業(yè)務(wù)問(wèn)題。但是,該模型也存在著一定的局限性,必須對(duì)其做出一些修正才能應(yīng)用于信用評(píng)分模型的創(chuàng)建。
一般來(lái)說(shuō),偏最小二乘模型適用于因變量為連續(xù)變量的情況,它估計(jì)出的預(yù)測(cè)值會(huì)在(-∞,+∞)這個(gè)范圍內(nèi)變化。在信用評(píng)分模型中,因變量是只有兩種可能取值的屬性變量,可以用0(表示好客戶)和1(表示壞客戶)來(lái)表示其取值。但是創(chuàng)建信用評(píng)分模型是為了得到每個(gè)申請(qǐng)人未來(lái)成為壞客戶的概率,而不是直接預(yù)測(cè)因變量的值到底是1還是0。因此,如信用評(píng)分模型輸出形式是預(yù)測(cè)概率P(yt=1|X),它就可以被看成是一個(gè)連續(xù)變量,只是取值范圍在0到1之間。這樣只要根據(jù)偏最小二乘法的一般原理略加限制修改,就可以讓其適用于信用評(píng)分模型。
這樣通過(guò)對(duì)偏最小二乘回歸模型的預(yù)測(cè)值加以限制,就可以從技術(shù)上保證它可以應(yīng)用于信用評(píng)分模型的創(chuàng)建。
為了使得偏最小二乘回歸的思想能夠適用于信用評(píng)分模型的創(chuàng)建,限制預(yù)測(cè)值的偏最小二乘回歸模型從控制預(yù)測(cè)值的角度對(duì)模型做出了改進(jìn)。除了這種改進(jìn)思路以外,還可以結(jié)合偏最小二乘回歸和Logistic回歸的思想來(lái)解決信用評(píng)分模型的實(shí)際問(wèn)題。這兩種思想的結(jié)合產(chǎn)生了偏最小二乘Logistic回歸模型,該模型是由V.E.Vinzi和M.Tenenhaus提出的[5]。
4.強(qiáng)化人才保障。一是要做好電子商務(wù)人才的引進(jìn)工作,尤其要重視做好高端人才的引進(jìn)工作,引進(jìn)一批處于電子商務(wù)發(fā)展前沿、運(yùn)行和管理經(jīng)驗(yàn)豐富的優(yōu)秀人才和團(tuán)隊(duì)。二是強(qiáng)化對(duì)電子商務(wù)人才的培訓(xùn)培養(yǎng)工作,注重發(fā)揮社會(huì)培訓(xùn)機(jī)構(gòu)的作用,并加強(qiáng)與高校的戰(zhàn)略合作,利用在渝高校的巨大人才資源優(yōu)勢(shì),全方位培訓(xùn)電商從業(yè)人員,運(yùn)用多種途徑培養(yǎng)高級(jí)電子商務(wù)職業(yè)經(jīng)理,打造一支高素質(zhì)的電子商務(wù)專業(yè)人才隊(duì)伍。三是探索完善電商人才“留住”機(jī)制,營(yíng)造市內(nèi)電商人才宜居宜業(yè)良好環(huán)境,為我市電子商務(wù)產(chǎn)業(yè)發(fā)展提供人才保障。
偏最小二乘Logistic回歸模型的主要假設(shè)是:事件發(fā)生的概率的Logit變換可以用主成分來(lái)解釋,而這個(gè)主成分綜合了自變量的信息,也可以解釋自變量的變異。把偏最小二乘Logistic回歸模型應(yīng)用于信用評(píng)分模型,則可以表示為
這里 pt=P(yt=1|xt)表示一個(gè)申請(qǐng)人在未來(lái)成為壞客戶的概率。偏最小二乘Logistic回歸等價(jià)于Logistic回歸加上偏最小二乘回歸模型,它兼顧了兩種模型的優(yōu)點(diǎn)。不管從技術(shù)的角度還是從業(yè)務(wù)的角度分析,源自偏最小二乘思想的偏最小二乘Logistic回歸都非常適用于創(chuàng)建信用評(píng)分模型。偏最小二乘方法用影響因變量和自變量的潛在因子來(lái)解釋模型,不但能解決信用評(píng)分模型中常出現(xiàn)的變量共線性問(wèn)題,也更符合業(yè)務(wù)邏輯,必然在信用評(píng)分領(lǐng)域發(fā)揮獨(dú)特的作用。
針對(duì)某商業(yè)銀行信用卡的實(shí)際數(shù)據(jù),分別利用Logistic回歸、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、決策樹(shù)、限制預(yù)測(cè)值的偏最小二乘回歸和最小二乘Logistic回歸這六種建模方法分別創(chuàng)建信用評(píng)分模型,并比較它們所得的預(yù)測(cè)結(jié)果。評(píng)判各個(gè)模型預(yù)測(cè)結(jié)果的優(yōu)點(diǎn)和不足將依據(jù)模型在訓(xùn)練集、測(cè)試集和樣本外驗(yàn)證集上的性能表現(xiàn)。源自實(shí)際數(shù)據(jù)的建模樣本中共有24583條觀測(cè),25個(gè)自變量和1個(gè)因變量。樣本中好壞客戶所占的比例分別為96.75%和3.25%。可以把建模樣本中60%的觀測(cè)選擇作為訓(xùn)練集,用于模型的創(chuàng)建;選擇剩下的40%的觀測(cè)作為測(cè)試集,用于樣本內(nèi)的測(cè)試和評(píng)價(jià)。在分割訓(xùn)練集和測(cè)試集的時(shí)候采用分層抽樣的方法來(lái)保證訓(xùn)練集和測(cè)試集中好壞客戶的占比和原來(lái)樣本中的占比保持一致。同時(shí),還選擇了一個(gè)從其它時(shí)間段獲得的記錄數(shù)為14750條的樣本外驗(yàn)證集來(lái)評(píng)價(jià)模型的準(zhǔn)確性和可推廣性,該數(shù)據(jù)集中的觀測(cè)和建模樣本中的觀測(cè)完全不重合。樣本外驗(yàn)證集中的好壞客戶的占比也是96.75:3.25。
實(shí)證分析的具體結(jié)果如表1。
表1 各種評(píng)分模型建模方法的實(shí)證分析結(jié)果
由上面的結(jié)果可知:
(1)Logistic回歸模型創(chuàng)建的信用評(píng)分模型在訓(xùn)練集、測(cè)試集和樣本外驗(yàn)證集的AUC統(tǒng)計(jì)量分別為0.871、0.862和0.866,K-S統(tǒng)計(jì)量分別為0.59、0.574和0.601,GINI系數(shù)的值分別為0.743、0.724和0.732,Lift值分別為3.34、3.302和3.35。訓(xùn)練集的評(píng)價(jià)統(tǒng)計(jì)量取值略優(yōu)于測(cè)試集和驗(yàn)證集的取值,并且這些統(tǒng)計(jì)量相對(duì)比較穩(wěn)定。這說(shuō)明了Logistic回歸模型具有穩(wěn)定性的優(yōu)點(diǎn)。
(2)神經(jīng)網(wǎng)絡(luò)模型創(chuàng)建的信用評(píng)分模型在訓(xùn)練集、測(cè)試集和樣本外驗(yàn)證集的AUC統(tǒng)計(jì)量分別為0.865、0.866和0.872,K-S統(tǒng)計(jì)量分別為0.581、0.566和0.587,GINI系數(shù)的值分別為 0.731、0.733 和 0.744,Lift值分別為 4.175、3.364和4.735。這些統(tǒng)計(jì)量的值相對(duì)比較大,表明了模型有較好的預(yù)測(cè)準(zhǔn)確性。一般情況下,都是訓(xùn)練集的評(píng)價(jià)統(tǒng)計(jì)量要優(yōu)于測(cè)試集和樣本外驗(yàn)證集的,但是樣本外驗(yàn)證集的驗(yàn)證統(tǒng)計(jì)量普遍要高于測(cè)試集的,這在一定程度上也表明了神經(jīng)網(wǎng)絡(luò)并不是很穩(wěn)定性的算法。
(3)支持向量機(jī)算法創(chuàng)建的信用評(píng)分模型在訓(xùn)練集、測(cè)試集和樣本外驗(yàn)證集的AUC統(tǒng)計(jì)量分別為0.87、0.864和0.878,K-S統(tǒng)計(jì)量分別為0.585、0.575和0.599,GINI系數(shù)的值分別為0.741、0.728和0.756,Lift值分別為3.507、2.991和1.36。盡管AUC、K-S統(tǒng)計(jì)量和GINI系數(shù)表現(xiàn)出了較好的穩(wěn)定性,但是支持向量機(jī)算法的LIFT值相對(duì)不穩(wěn)定,這也說(shuō)明了該算法有微弱的不穩(wěn)定性。
(4)決策樹(shù)的結(jié)果相對(duì)不理想,它在訓(xùn)練集中有很好的性能表現(xiàn),AUC、K-S統(tǒng)計(jì)量和Gini指數(shù)都是最高的,但是到了測(cè)試集中這三個(gè)指標(biāo)都是最低的,決策樹(shù)模型在樣本外驗(yàn)證集中的表現(xiàn)也是相對(duì)比較差的。這些結(jié)果表明用決策樹(shù)創(chuàng)建信用評(píng)分模型得到的結(jié)果最不穩(wěn)定。
(5)限制預(yù)測(cè)值的偏最小二乘回歸模型創(chuàng)建的信用評(píng)分模型在訓(xùn)練集、測(cè)試集和樣本外驗(yàn)證集的AUC統(tǒng)計(jì)量分別為0.861、0.855和0.87,K-S統(tǒng)計(jì)量分別為0.575、0.562和0.586,GINI系數(shù)的值分別為0.722、0.71和0.74,Lift值分別為4.008、2.383和4.132。只有測(cè)試集的LIFT值相對(duì)偏小,其他統(tǒng)計(jì)量的表現(xiàn)都比較穩(wěn)定。這也說(shuō)明限制預(yù)測(cè)值偏最小二乘回歸模型具有穩(wěn)定性的優(yōu)點(diǎn)。
(6)偏最小二乘Logistic回歸模型創(chuàng)建的信用評(píng)分模型在訓(xùn)練集、測(cè)試集和樣本外驗(yàn)證集的AUC統(tǒng)計(jì)量分別為0.861、0.855和0.866,K-S統(tǒng)計(jì)量分別為0.563、0.570和0.577,GINI系數(shù)的值分別為0.722、0.71和0.733,Lift值分別為5.58、5.537和5.576。各個(gè)驗(yàn)證集上的驗(yàn)證統(tǒng)計(jì)量都保持了穩(wěn)定的特點(diǎn),這說(shuō)明了偏最小二乘Logistic回歸模型具有穩(wěn)定性的優(yōu)點(diǎn)。同時(shí),該模型的Lift值和其他模型相比取值更大更加穩(wěn)定,這表明偏最小二乘Logistic回歸在識(shí)別最壞的壞客戶的能力要優(yōu)于其他算法。
總而言之,以上六種建模方法均可用來(lái)創(chuàng)建信用評(píng)分模型,除了決策樹(shù)以外,其他五種建模方法創(chuàng)建出的模型效果各有優(yōu)劣。實(shí)證研究的結(jié)果也表明,限制預(yù)測(cè)值的偏最小二乘回歸和偏最小二乘Logistic回歸模型這兩種基于偏最小二乘思想的信用評(píng)分模型具有良好的預(yù)測(cè)效果,值得進(jìn)一步推廣。
信用評(píng)分模型的建模方法不拘一格,現(xiàn)代常用的統(tǒng)計(jì)模型和機(jī)器學(xué)習(xí)算法都可以用來(lái)創(chuàng)建信用評(píng)分模型。每一種建模方法各有優(yōu)缺點(diǎn),在使用的過(guò)程中必須根據(jù)實(shí)際需要來(lái)決定選用哪一種算法。同時(shí),采用不同的建模方法來(lái)創(chuàng)建信用評(píng)分模型可以互相驗(yàn)證彼此的準(zhǔn)確性。本文提出的限制預(yù)測(cè)值的偏最小二乘回歸模型和和偏最小二乘Logistic回歸模型用潛在的因子同時(shí)解釋了因變量和自變量的變異,在實(shí)際運(yùn)用中具有很好的可操作性,實(shí)證分析的結(jié)果也表明,用這兩類這兩種基于偏最小二乘思想的信用評(píng)分模型具有比較好的性能表現(xiàn)。
[1] Wold,H.Estimation of Principal Components and Related Models by Iterative Least Squares[A].In P.R.Krishnaiah,ed.Multivariate Analy?sis[C].New York:Academic Press,1966.
[2] Wold,H.Soft Modelling by Latent Variables:the Non-linear Iterative Partial Least Squares(NIPALS)Approach,Papers in Honor of M.S.Bartlett[C].Academic Press,London,1975.
[3] Frank,I.E.,Friedman,J.H.A Statistical View of Chemometrics Re?gression Tools[J].Technometrics,1993,(35).
[4] 王惠文.偏最小二乘回歸方法及其應(yīng)用[M].北京:國(guó)防工業(yè)出版社,1999.
[5] 王惠文等.偏最小二乘回歸的線性與非線性方法[M].北京:國(guó)防工業(yè)出版社,2006.