亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

特征選擇與Logistic回歸相結(jié)合的擔(dān)保圈風(fēng)險識別方法

2019-08-13 12:38:58趙文欣內(nèi)蒙古大學(xué)計算機(jī)學(xué)院呼和浩特0002

小型微型計算機(jī)系統(tǒng) 2019年8期

關(guān)鍵詞：特征方法模型

劉亞，李華，2，鄭冰，3，趙文欣(內(nèi)蒙古大學(xué)計算機(jī)學(xué)院，呼和浩特0002)

2(內(nèi)蒙古大學(xué)圖書與信息技術(shù)部，呼和浩特010021)

3(內(nèi)蒙古建筑職業(yè)技術(shù)學(xué)院，呼和浩特010021)

E-mail:cslihua@imu.edu.cn

1 背景

隨著DT(Data Technology，數(shù)據(jù)技術(shù))時代的到來，大數(shù)據(jù)技術(shù)在金融領(lǐng)域應(yīng)用廣泛.互聯(lián)網(wǎng)金融的出現(xiàn)，使得每年產(chǎn)生過數(shù)十PB的金融數(shù)據(jù)，而數(shù)據(jù)內(nèi)容有著大規(guī)模、異質(zhì)多元、組織結(jié)構(gòu)松散的特點(diǎn)，給金融機(jī)構(gòu)有效獲取信息和知識帶來了挑戰(zhàn).在銀行風(fēng)險管控方面，通過監(jiān)管部門的現(xiàn)場監(jiān)測，各種可疑金融交易(Suspicious Financial Transaction)行為［1］和企業(yè)信貸風(fēng)險層出不窮，如洗錢擔(dān)保圈、資金空轉(zhuǎn)行為、規(guī)避監(jiān)管的套利行為等.針對此類問題，目前行之有效的解決方法是結(jié)合各種數(shù)據(jù)分析技術(shù)，對銀行交易數(shù)據(jù)、客戶數(shù)據(jù)、信用數(shù)據(jù)、資產(chǎn)數(shù)據(jù)等信息挖掘分析，識別欺詐交易、反洗錢以及信貸風(fēng)險等異常行為.面對海量的銀行數(shù)據(jù)，傳統(tǒng)的分析方式需要發(fā)生重大的改變，并建立與之相應(yīng)的新的識別或預(yù)測模型.

擔(dān)保圈是指多家企業(yè)通過相互擔(dān)保或連環(huán)擔(dān)保連接到一起而形成的以擔(dān)保關(guān)系為鏈條的特殊利益體［2］，其形態(tài)是由兩個或兩個以上法人客戶以保證擔(dān)保關(guān)系為紐帶而形成的網(wǎng)絡(luò)結(jié)構(gòu)［2］.其主要類型有互保、聯(lián)保、循環(huán)保、擔(dān)保鏈、集團(tuán)內(nèi)部擔(dān)保圈以及混合擔(dān)保圈［3］.近年來受擔(dān)保圈內(nèi)企業(yè)經(jīng)營不善、資金鏈斷裂的影響，信貸風(fēng)險在我國部分區(qū)域大量暴露，較大程度地沖擊了銀行信貸資產(chǎn)安全，嚴(yán)重地影響了銀行和企業(yè)的正常運(yùn)營，加劇了地方金融的不穩(wěn)定，影響了區(qū)域經(jīng)濟(jì)的健康發(fā)展［4］.由于擔(dān)保圈的存在影響面較廣，究其根本是圈內(nèi)存在“高?！笨蛻?，即破產(chǎn)風(fēng)險較高、償債能力較弱的群體，這些客戶容易發(fā)生違約行為.因此，在已知存在擔(dān)保圈的情況下，如何識別擔(dān)保圈是否存在風(fēng)險，是本文研究的主要問題.

由于銀行業(yè)務(wù)繁雜，包含的特征變量較多，若想通過數(shù)據(jù)分析建立異常識別精度較高的模型，其關(guān)鍵因素是選取具有代表性的特征變量，才能較好的反映出客戶各種行為.利用選擇出的新特征子集采用一定的方法建立風(fēng)險識別模型，實(shí)現(xiàn)擔(dān)保圈風(fēng)險的識別，降低擔(dān)保圈的“多米諾”效應(yīng)給銀行帶來的危害［5］.

本文的主要貢獻(xiàn)如下:

1)提出一種 CSAFS(Clustering and Statistical Analysis Based on Feature Selection)特征選擇算法，該算法采用特征聚類+主成分提取的思想，避免了傳統(tǒng)聚類分析閾值K的問題，既能解決變量間的多重共線性問題［6］，又能選擇出覆蓋全部或者大部分原始數(shù)據(jù)信息的、無冗余的新特征子集.

2)將CSAFS特征選擇算法和Logistic回歸相結(jié)合應(yīng)用到識別擔(dān)保圈風(fēng)險的問題中，利用人工智能算法解決金融問題，避免了傳統(tǒng)人工搭建模型的時間開銷，提高了擔(dān)保圈風(fēng)險識別的準(zhǔn)確率.通過ROC曲線對模型進(jìn)行了效果評估，擔(dān)保圈風(fēng)險識別的準(zhǔn)確率達(dá)到了95.6%，具有一定的實(shí)用性.

2 相關(guān)工作

本文主要是結(jié)合特征選取和Logistic回歸方法建模進(jìn)行擔(dān)保圈的風(fēng)險識別.在相關(guān)工作的研究中，將從特征選擇、Logistic回歸、擔(dān)保圈風(fēng)險識別三個方面進(jìn)行描述.

2.1 特征選擇

特征選擇也稱特征子集選擇或?qū)傩赃x擇.是數(shù)據(jù)挖掘技術(shù)中一種常用的數(shù)據(jù)預(yù)處理技巧［7］.在特征選擇方法的研究中［8-12］，多數(shù)采用先聚類后選擇的思想，但聚類條件和特征選擇的依據(jù)不同.文獻(xiàn)［10］提出一種將稀疏 K-means和分層聚類相結(jié)合的特征選擇算法，該算法分為特征聚類和特征選擇兩個階段，通過聚類將原始特征集劃分成各個簇，利用 Lasso型懲罰因子在簇中進(jìn)行特征選擇.文獻(xiàn)［11］提出了一種無監(jiān)督特征選擇方法，該方法結(jié)合最大信息系數(shù)和仿射傳播進(jìn)行特征聚類，在特征選擇時，以每個簇中選取質(zhì)心作為選擇依據(jù)，該方法對不同分類器的分類問題進(jìn)行了驗(yàn)證.文獻(xiàn)［12］針對無監(jiān)督特征選擇問題，提出了一種密集子圖發(fā)現(xiàn)方法，在獲取非冗余特征集的基礎(chǔ)上，以規(guī)范化的互信息為度量指標(biāo)進(jìn)行特征聚類，以方差為評價指標(biāo)從每個簇中選擇具有代表性的特征.

由此可見，特征選取方法存在兩個問題:一是在樣本聚類時需要預(yù)先設(shè)定閾值 K，而K值得選擇決定特征選取的好壞;二是如何從每個簇群選取代表性特征，這個非常困難.

基于此，本文提出的CSAFS特征選擇算法有效避免了確定K值問題，并采用提取主成分的方法進(jìn)行最優(yōu)特征子集選擇，選擇出的主成分可以覆蓋全部或者大部分(85%以上)原始數(shù)據(jù)的信息，能夠有效的反映出客戶的行為信息.

2.2 Logistic回歸

針對銀行業(yè)務(wù)中出現(xiàn)的異常可疑行為，利用數(shù)據(jù)挖掘方法，從已有的數(shù)據(jù)出發(fā)尋找規(guī)律，建立識別模型，從而達(dá)到對未來的數(shù)據(jù)進(jìn)行預(yù)測的目的.而基于數(shù)據(jù)挖掘方法的識別預(yù)測問題，目前國際上廣泛采用的方法包括神經(jīng)網(wǎng)絡(luò)、決策樹和Logistic回歸.相較于其他兩種方法，神經(jīng)網(wǎng)絡(luò)的“黑盒”性質(zhì)，不太適用于銀行風(fēng)險識別，無法解釋結(jié)論的由來.而Logistic回歸在金融領(lǐng)域、流行病研究［13］和預(yù)測地質(zhì)災(zāi)害［14］等應(yīng)用較廣.

在應(yīng)用Logistic回歸方法上［15-19］，文獻(xiàn)［15］以新浪微博為例，從發(fā)布用戶、接受用戶、微博內(nèi)容三個方面進(jìn)行特征提取，結(jié)合SVM分類器進(jìn)行用戶去重、垃圾用戶濾除，將提取的特征輸入到預(yù)測算法中，建立邏輯回歸模型，實(shí)現(xiàn)對微博轉(zhuǎn)發(fā)預(yù)測，與傳統(tǒng)同類預(yù)測模型進(jìn)行對比試驗(yàn)，驗(yàn)證本文方法的正確性與有效性.文獻(xiàn)［16］通過建立五種數(shù)據(jù)挖掘分類模型(Logistic模型、線性判別分析法、K-means算法、分類樹法和核密度分類方法等)與五種神經(jīng)網(wǎng)絡(luò)模型(包括專家雜合系統(tǒng)、多層感知器、徑向基函數(shù)網(wǎng)絡(luò)、模糊自適應(yīng)共振和學(xué)習(xí)向量化子等)分別對澳大利亞與德國的兩組財務(wù)數(shù)據(jù)樣本進(jìn)行了兩類不同模式的分析，經(jīng)其研究發(fā)現(xiàn)，Logistic模型在這10種分析方法中的判別準(zhǔn)確率最高，分別達(dá)到了87.25%與76.3%.文獻(xiàn)［17］是在國內(nèi)企業(yè)財務(wù)預(yù)警研究中，采用Logistic回歸模型有效預(yù)測出財務(wù)危機(jī).

Logistic回歸模型在一定程度上較好的實(shí)現(xiàn)了風(fēng)險的識別和預(yù)警，但仍然存在一定的局限性:

1)在建立評估模型時需要設(shè)立許多假設(shè)條件，比如變量間相互獨(dú)立、不存在多重共線性問題以及目標(biāo)變量是二分類等等.

2)使用Logistic回歸方法進(jìn)行識別預(yù)警是進(jìn)行研究是合適的，這就要求達(dá)到一定規(guī)模的數(shù)據(jù)量.但在有限的數(shù)據(jù)且數(shù)據(jù)維度較高的情況下，基于Logistic模型的統(tǒng)計分析方法的實(shí)際應(yīng)用效果不好.

基于此，本文在進(jìn)行Logistic回歸前，對數(shù)據(jù)進(jìn)行特征選擇，對于大規(guī)模的數(shù)據(jù)量也可以很好的進(jìn)行模型訓(xùn)練，提高了模型的識別精度.

2.3 擔(dān)保圈風(fēng)險識別

應(yīng)用大數(shù)據(jù)技術(shù)實(shí)現(xiàn)銀行的風(fēng)險控制，主要體現(xiàn)在客戶信用評估［20］以及違約風(fēng)險概率的計算［21，22］等方面，從國內(nèi)學(xué)者對于擔(dān)保圈的研究情況看，由于受到數(shù)據(jù)可得性的限制，郎咸平等［23］、呂江林［24］、杜權(quán)［25］以及吉玉雪［4］等人針對擔(dān)保圈產(chǎn)生的原因、擔(dān)保圈風(fēng)險識別及傳染機(jī)制等方面進(jìn)行理論分析.在應(yīng)用大數(shù)據(jù)分析技術(shù)方面，文獻(xiàn)［3］基于Spark大數(shù)據(jù)計算平臺，開發(fā)出擔(dān)保圈識別與管理系統(tǒng)，，可快捷完成圖構(gòu)建和最大連通圖查找，在大量信貸數(shù)據(jù)中快速識別擔(dān)保圈，具有基本的擔(dān)保圈管理功能.但沒有對擔(dān)保圈進(jìn)行進(jìn)一步的分割，查找擔(dān)保圈中關(guān)鍵客戶.文獻(xiàn)［26］描述了在銀行業(yè)現(xiàn)實(shí)數(shù)據(jù)情況下，基于大數(shù)據(jù)的客戶關(guān)聯(lián)關(guān)系族譜及風(fēng)險預(yù)警模型構(gòu)建方法，主要從知識圖譜算法來進(jìn)行客戶關(guān)聯(lián)關(guān)系的描述.文獻(xiàn)［27］從商業(yè)銀行視角出發(fā)，將矩陣識別與擔(dān)保圈網(wǎng)絡(luò)的脆弱性分析結(jié)合，提出了一種改進(jìn)的脆弱性分析模型，測度了風(fēng)險閾值的合理邊界.并以2016年某省經(jīng)濟(jì)開發(fā)區(qū)內(nèi)所有信貸企業(yè)的擔(dān)保圈關(guān)系圖，進(jìn)行風(fēng)險識別和預(yù)警，提出風(fēng)險化解措施.實(shí)證結(jié)果與該省商業(yè)銀行信貸監(jiān)測結(jié)果一致.

基于此，本文提出一種CSAFS特征選擇算法與Logistic回歸相結(jié)合的擔(dān)保圈風(fēng)險識別方法，實(shí)現(xiàn)了擔(dān)保圈風(fēng)險的識別，這不僅加快了數(shù)據(jù)計算的速度，并利用數(shù)據(jù)說話，科學(xué)有效.避免了傳統(tǒng)的經(jīng)濟(jì)理論分析帶來的不確定性問題.

3 擔(dān)保圈風(fēng)險識別算法描述

本文提出的CSAFS特征選擇算法和Logistic回歸算法相結(jié)合的擔(dān)保圈風(fēng)險識別方法，該方法主要分為三個階段:

1)通過遍歷數(shù)據(jù)集，識別出數(shù)據(jù)中所有的企業(yè)信貸擔(dān)保圈.對擔(dān)保圈中相關(guān)企業(yè)的貸款和資產(chǎn)等數(shù)據(jù)進(jìn)行歸一化處理.

2)采用CSAFS算法，對樣本數(shù)據(jù)進(jìn)行特征選擇.

3)將最優(yōu)特征子集作為輸入項(xiàng)進(jìn)行Logistic回歸，建立風(fēng)險識別模型，定位高風(fēng)險客戶.

下面給出文中用到的相關(guān)符號的表示方法說明及算法具體描述.

3.1 相關(guān)符號說明

本文在算法設(shè)計時涉及到多種公式運(yùn)算，其中使用到的符號說明如表1所示.

表1 符號及其含義Table 1 Smbols and their meanings

3.2 CSAFS 算法描述

由于銀行業(yè)務(wù)繁雜，包含的特征變量較多，如果通過數(shù)據(jù)分析建立異常識別精度較高的模型，其關(guān)鍵因素是選取具有代表性的特征變量，才能較好的反映出客戶各種行為.因此本文提出了一種特征選擇算法CSAFS，該算法主要分為三個階段:

3.2.1 計算特征的相關(guān)系數(shù)rjk

假設(shè)數(shù)據(jù)集D包含n個特征，即特征集Q={x1，x2，…，xn}，每個特征由m條數(shù)據(jù)構(gòu)成，則數(shù)據(jù)集D是個n*m維的矩陣.記特征 xj的取值為 x1j，x2j，…，xmj(j=1，2，…，n)，則可以用兩個變量指標(biāo)xj和 xk的樣本相關(guān)系數(shù)rjk作為它們的相似性度量(j，k=1，2，…，n)，也即:為平均度量(j=1，2，…n)，(1)式中的rjk具有如下性質(zhì):

1)|rjk|≤ 1，對于一切j和k;并且|rjk|越接近 1，xk和 xk相關(guān)性越強(qiáng);|rjk|越接近0，xj和 xk相關(guān)性越弱;

2)rjk=rkj，對于一切j和k，特別的rjj=1，也即相關(guān)系數(shù)矩陣F是n×n維對稱矩陣.

3.2.2 特征聚類

將相關(guān)系數(shù)轉(zhuǎn)換成距離，即特征xj和xk的距離為:

即相似度越高，特征間距離越近.

將每個數(shù)據(jù)點(diǎn)作為一個簇，應(yīng)用公式(3)解出所有的距離構(gòu)成矩陣F.在進(jìn)行聚類時，本文選擇平均距離法D(C1，C2)來度量兩個簇間的距離.平均距離法原理圖如圖1所示.

其中，C表示簇，n1和n2分別表示簇C1、簇C2中變量的個數(shù).

通過公式(4)計算，在進(jìn)行特征聚類時，通過遍歷距離矩陣F，找到距離小于D(C1，C2)的所有的類簇合并成一類.按照此方法可以將源數(shù)據(jù)集分為w個新類簇，分別為C1、C2…Cw，(w ＜n).

3.2.3 最優(yōu)特征子集選擇

假設(shè)簇C1中包含i個特征，對i個樣本中的x進(jìn)行標(biāo)準(zhǔn)化為珓x，構(gòu)成i維矩陣，即X=［珓x1，珓x2，珓x3，…，珓xI］T，然后計算X的協(xié)方差矩陣∑，即計算各維度兩兩之間的協(xié)方差，這樣各協(xié)方差∑ij組成了一個i×i的矩陣，稱為協(xié)方差矩陣.∑是個對稱矩陣.矩陣內(nèi)的元素∑ij為:

其中cov(珓xI，珓xj)是珓xI和珓xj的協(xié)方差，E是期望.協(xié)方差矩陣∑的前i個較大的特征值λ1≥λ2≥…≥λI≥0，就是前i個主成分對應(yīng)的方差，λi對應(yīng)的特征向量ui就是主成分yi的關(guān)于珓xi的系數(shù)，而珓x是經(jīng)過x標(biāo)準(zhǔn)化變換后的值.根據(jù)特征向量值與x值則可以求出Logistic回歸模型的自變量的y值.即主成分y的求解為:

即:

其中y1是第一主成分，y2是第二主成分，…，yn是第n主成分.特征值λ的大小反映了各個主成分的影響力.求解公式:

計算出各個主成分對應(yīng)的方差(信息)貢獻(xiàn)率bj，bj用來反映信息量的大小，即

最終要選擇幾個主成分，即累計方差貢獻(xiàn)率αm，確定主成分個數(shù).即 y1、y2、…、ym，m 的確定是通過方差(信息)累計貢獻(xiàn)率αm來確定的.即:

通常當(dāng)累計貢獻(xiàn)率大于85%，就認(rèn)為能足夠反映原始變量的信息了.

通過公式(5)～公式(9)計算，按照特征值的大小對所有類簇主成分的特征值λ進(jìn)行排序，選取特征值＞1，且累計方差貢獻(xiàn)率達(dá)到85%的主因子構(gòu)成最優(yōu)特征子集Qbest.

CSAFS算法的具體描述如下:

輸入:某銀行信貸擔(dān)保數(shù)據(jù)集D和原始特征集Q

輸出:最優(yōu)特征子集Qbest

步驟1.對數(shù)據(jù)集D進(jìn)行歸一化處理;

步驟2.通過公式(1)-公式(2)，計算 Q={x1，x2，…，xn}中任意兩個特征間的相關(guān)系數(shù) rjk(j、k=1，2，…，n);

步驟3.通過公式(3)，將相關(guān)系數(shù)轉(zhuǎn)換成距離 djk(j、k=1，2，…，n)，存入距離矩陣F;

步驟4.重復(fù)步驟2-3，遍歷特征集 Q={x1，x2，…，xn}，計算出所有的特征間距離構(gòu)成距離矩陣F;

步驟5.通過公式(4)，計算出F的平均距離D;

步驟6.比較 djk與 D，如果 djk＜D，則 Ck(k=1，2，…，w，w ＜n);

步驟7.重復(fù)步驟5-6，遍歷F，將源數(shù)據(jù)集分為w個新類簇，分別為 C1，C2，…，Cw;

步驟8.通過公式(5-9)對簇 Ck(k=1、2、…、w)進(jìn)行主成分提取，求出對應(yīng)的∑、λ、bj、αp和 y，如果 λ ＞1 且αp＞0.85，則 y 為最優(yōu)特征;

步驟9.重復(fù)步驟8，遍歷所有的簇 C1，C2，…，Cw，求解出最優(yōu)子集Qbest.

3.3 Logistic回歸算法描述

通過CSAFS算法選擇出最優(yōu)特征子集Qbest，在訓(xùn)練模型階段，最優(yōu)特征作為自變量進(jìn)行Logistic回歸.

Logistic回歸分析模型可表述為:

其中，xi(i=1，2，3，…，n)代表的是最優(yōu)特征子集 Qbest的特征，α 為常數(shù)項(xiàng).ci(i=1，2，3，…，n)是各影響因素的權(quán)重.P表示違約概率，0≤p≤1.如果Logistic回歸值p越接近1，則表明該行為風(fēng)險性較高;如果Logistic回歸值p越接近0，則表明該行為風(fēng)險性較低.

以銀行信貸風(fēng)險為例，假定Y表示貸款客戶/企業(yè)違約與否事件，取1或0;X1，X2，…，Xn是影響Y的自變量，則Y與X的關(guān)系可表示:

通常設(shè)違約臨界值P定為0.5，若計算所得P＜0.5，則表示違約風(fēng)險較低;若P＞0.5，則說明違約風(fēng)險較高，在銀行信貸方面，通常以0.5為參考值，來判斷企業(yè)是否存在違約風(fēng)險，決定是否向貸款人發(fā)放貸款.

3.4 擔(dān)保圈風(fēng)險識別算法時間復(fù)雜度分析

擔(dān)保圈風(fēng)險識別算法的時間開銷主要兩個部分:特征選擇階段和Logistic回歸階段.

在CSAFS特征選擇算法中，計算特征間相關(guān)系數(shù)的時間復(fù)雜度為O(n);特征聚類的時間復(fù)雜度為O(n2);進(jìn)行特征選取的時間復(fù)雜度為O(w)，則CSAFS算法的時間復(fù)雜度為O(n+n2+w)，由于n＞w，所以該算法的時間復(fù)雜度為O(n2).

在Logistic回歸階段，算法主要進(jìn)行構(gòu)造sigmoid函數(shù)，循環(huán)次數(shù)為I，計算數(shù)據(jù)集梯度，最終sigmoid函數(shù)求解分類.其時間復(fù)雜度O(n*C*I)，n代表樣本數(shù)量，C代表單個樣本計算量(取決于梯度計算公式)，I為迭代次數(shù)，取決于收斂速度.

綜上所述，擔(dān)保圈風(fēng)險識別算法的時間復(fù)雜度O(n2+n*C*I).

4 實(shí)驗(yàn)與分析

其中，P表示違約概率，即Y=1的情形，(1－P)表示沒有違約的概率，即Y=0的情形，進(jìn)一步化簡得:

本次研究使用的數(shù)據(jù)集是某商業(yè)銀行五年內(nèi)的信貸數(shù)據(jù)集.通過采集30家授信企業(yè)的擔(dān)保數(shù)據(jù)，使用深度優(yōu)先算法識別出26個擔(dān)保圈(層級為2)，涉及到273家企業(yè).通過采集26個擔(dān)保圈內(nèi)所有企業(yè)的信貸、資產(chǎn)和交易等數(shù)據(jù)，經(jīng)過數(shù)據(jù)過濾，一共包含21個自變量和一個表示違約標(biāo)識的特征.即特征集Q={x1，x2，…，x22}.通常情況下，企業(yè)的凈資本、負(fù)債、擔(dān)?；虮粨?dān)保的金額、擔(dān)保企業(yè)的數(shù)量等因素關(guān)系著整個擔(dān)保圈是否穩(wěn)定，如果一家影響度較高的企業(yè)發(fā)生違約，那么極有可能會出現(xiàn)“多米諾效應(yīng)”［27］.所以需要計算出圈內(nèi)每個企業(yè)的擔(dān)保金額占總擔(dān)保額的比例A1(%)以及被擔(dān)保數(shù)量占總擔(dān)保數(shù)量的比例A2(%)，將A1和A2作為新的類簇進(jìn)行主成分分析.

由于對于該樣本數(shù)據(jù)來說，存在樣本分布不平衡是關(guān)鍵問題，在劃分?jǐn)?shù)據(jù)時，本文主要充分抽樣法，將原數(shù)據(jù)的70%作為訓(xùn)練集用于訓(xùn)練分類器，30%作為測試集用于評估分類器性能.兩個數(shù)據(jù)集中陰性和陽性數(shù)據(jù)比例接近，約等于為3∶1.

實(shí)驗(yàn)數(shù)據(jù)集以.csv格式保存在本地，實(shí)驗(yàn)軟硬件環(huán)境如下:操作系統(tǒng)為 Windows 10，CPU為 Intel(R)Core(TM)2 Duo CPU E7300@2.93 GHz，內(nèi)存為 8 GB，主要實(shí)驗(yàn)平臺為SPSS和jupyter notebook，語言為python 3.

4.1 建立模型

通過CSAFS算法進(jìn)行特征選取，求出9個主因子構(gòu)成了新特征子集Qbest.

通過分析，將各自變量帶入Logistic回歸模型，通過SPSS進(jìn)行回歸分析得到模型的分析結(jié)果如表2所示.

表2 Logistics回歸估計結(jié)果Table 2 Table of Logistics regression estimation result

4.2 模型檢驗(yàn)

針對上述Logistic回歸模型，本文利用某樣本數(shù)據(jù)進(jìn)行檢驗(yàn)，樣本包含91組數(shù)據(jù)，其中標(biāo)識為0(正常)的數(shù)據(jù)69組，標(biāo)識為1(違約)的22組.檢驗(yàn)結(jié)果如表3所示.

由表2可知，B代表回歸系數(shù)，表示自變量和因變量的相關(guān)，通過 B 和 sig.(sig.＜0.05)的值可以看出，主成分 Y1、Y3、Y5、Y7、Y9對擔(dān)保圈是否存在風(fēng)險具有顯著性影響，表明自變量可以有效預(yù)測因變量的變異.則最終得到的Logistic模型表達(dá)式為:

表3 模型檢驗(yàn)結(jié)果Table 3 Table of Model checking results

從表3可知，該模型對樣本的識別準(zhǔn)確率達(dá)到了95.6%，說明該模型能夠較好地實(shí)現(xiàn)擔(dān)保圈的風(fēng)險識別.

為了進(jìn)一步對模型進(jìn)行評估，本文采用準(zhǔn)確性指標(biāo)ROC曲線下面積(ROC_AUC)對模型進(jìn)行效果評估.相比于其他評價指標(biāo)，ROC曲線不受正負(fù)樣本分布變化的影響，具有一定的穩(wěn)定性.通常情況下ROC曲線在對角線x=y的左上方，才具有一定的預(yù)測價值.ROC_AUC取值范圍為［0，1］，取值越大，代表模型整體準(zhǔn)確性越好.AUC值為ROC曲線所覆蓋的區(qū)域面積，一般而言，若AUC 取值在(0.5，1］之間，AUC越大，分類器分類效果越好［29］.

ROC曲線主要是通過真陽率(True Positive Rate，TPR)和假陽率(False Positive Rate，F(xiàn)PR)兩個指標(biāo)進(jìn)行繪制.ROC空間將FPR定義為X軸，TPR定義為Y軸.這兩個值由前面的AUC四個值計算得到，公式如下:

其中，TP(true positive)為真正類;FP(false positive)為假正類;TN(true negative)為真負(fù)類;FN(false negative)為假負(fù)類.

感受性曲線(ROC)示意如圖2所示.

由圖2可知AUC值為ROC曲線所覆蓋的區(qū)域面積，當(dāng)AUC值大于0.5，具有一定的預(yù)測價值，由此證明該模型識別效果較好.

圖2 感受性曲線(ROC)示意圖Fig.2 Graph of receiver operating characteristic

針對模型的擬合情況進(jìn)行了進(jìn)一步的檢驗(yàn)，檢驗(yàn)結(jié)果如表4所示.

表4 模型擬合檢驗(yàn)Table 4 Table of model fitting test

由表4可知，該模型的－2倍對數(shù)似然值比較理想，CoX＆Snell和 Nagelkerke均接近于l，表明模型總體擬合效果較好.

4.3 方法評估

為了驗(yàn)證本文方法的有效性，本文從兩個角度進(jìn)行驗(yàn)證，驗(yàn)證CSAFS算法的有效性以及擔(dān)保圈風(fēng)險識別方法的有效性.

4.3.1 CSAFS 算法的有效性驗(yàn)證

由于CSAFS算法可以解決特征間的多重共線性問題，所以通過對特征間進(jìn)行多重共線性診斷來驗(yàn)證CSAFS算法的有效性.首先對原始特征集(包含21個特征)進(jìn)行相關(guān)性分析，求出特征間的相關(guān)系數(shù)矩陣，存在3個特征間的相關(guān)系數(shù)超過了0.9，表明原始特征集中存在多重共線性問題.

由上文知，通過CSAFS算法選取出最優(yōu)特征子集作為自變量進(jìn)行 logistics回歸，最終確定主成分 Y1、Y3、Y5、Y7、Y9對擔(dān)保圈是否存在風(fēng)險具有顯著性影響.針對主成分間是否多重共線性問題，本文將通過特征間的容忍度(Tolerance)和方差膨脹系數(shù)(Variance inflation factor，VIF)兩個診斷指標(biāo)來診斷.VIF的取值大于1，是容忍度的倒數(shù)，VIF越大，說明特征間存在多重共線性的可能性越大.一般而言，當(dāng)容忍度＞0.5，VIF＜2時，表明特征間不存在多重共線性問題.特征間的共線性診斷如表5所示.

由表5可知，各個成分特征都滿足不存在多重共線性的要求，這表明CSAFS算法在消除特征間多重共線性問題的有效性.

4.3.2 驗(yàn)證本文擔(dān)保圈風(fēng)險檢測方法的有效性

本實(shí)驗(yàn)選用支持向量機(jī)(SVM)算法、決策樹算法、隨機(jī)森林(RF)算法以及樸素貝葉斯算法的四種應(yīng)用較為廣泛數(shù)據(jù)挖掘算法對同一組數(shù)據(jù)集進(jìn)行建模.對比實(shí)驗(yàn)結(jié)果，驗(yàn)證本文擔(dān)保圈風(fēng)險檢測方法的有效性.通過測試，各個模型的識別準(zhǔn)確率如表6所示.

表5 多重共線性診斷表Table 5 Table of multicollinearity diagnostic

表6 算法的識別準(zhǔn)確率對比Table 6 Comparison of algorithm recognition accuracy

由表6可知，在算法的識別準(zhǔn)確率方面，決策樹、RF、SVM和樸素貝葉斯均小于95.6%，雖然隨機(jī)森林可以通過采樣來減小計算量，并且能夠利用并行方式進(jìn)行模型訓(xùn)練，可以處理大規(guī)模高維數(shù)據(jù)，在擔(dān)保圈風(fēng)險的識別上比其他三種算法(SVM、決策樹、樸素貝葉斯)識別的準(zhǔn)確率高，但仍然低于本文方法的識別準(zhǔn)確率.

由此可見，本文提出的擔(dān)保圈風(fēng)險識別方法的準(zhǔn)確率最高.這五種算法的優(yōu)缺點(diǎn)對比如表7所示.

表7 算法對比Table 7 Comparison of algorithm

5 總結(jié)

擔(dān)保圈的存在影響面較廣，究其根本是圈內(nèi)存在“高?！笨蛻?，即破產(chǎn)風(fēng)險較高、償債能力較弱的群體，這些客戶容易發(fā)生違約行為.本文提出一種CSAFS特征選擇算法和Logistic回歸相結(jié)合的方法，對銀行信貸業(yè)務(wù)中出現(xiàn)的“擔(dān)保圈”進(jìn)行風(fēng)險識別.首先采用CSAFS特征選擇算法對原始數(shù)據(jù)集進(jìn)行最優(yōu)特征子集的選擇，該算法有效避免了確定K值問題，選擇出的新特征子集可以覆蓋全部或者大部分(85%以上)原始數(shù)據(jù)的信息，能夠有效的反映出客戶的行為信息.最后將最優(yōu)特征子集作為自變量進(jìn)行Logistic回歸，建立擔(dān)保圈風(fēng)險識別模型，經(jīng)測試，該模型準(zhǔn)確判別出了87組正確的樣本，誤判了4組樣本，預(yù)測結(jié)果的準(zhǔn)確率達(dá)到了95.6%.為了進(jìn)一步驗(yàn)證本文方法的有效性和精準(zhǔn)度，分別采用SVM算法、決策樹算法、RF算法和樸素貝葉斯算法對同一組數(shù)據(jù)集進(jìn)行建模，實(shí)驗(yàn)表明本文提出的方法識別率最高，具有一定的實(shí)用價值.