亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        特征選擇與Logistic回歸相結(jié)合的擔保圈風險識別方法

        2019-08-13 12:38:58趙文欣內(nèi)蒙古大學計算機學院呼和浩特0002
        小型微型計算機系統(tǒng) 2019年8期
        關(guān)鍵詞:特征選擇子集聚類

        劉 亞 ,李 華,2,鄭 冰,3,趙文欣(內(nèi)蒙古大學計算機學院,呼和浩特0002)

        2(內(nèi)蒙古大學圖書與信息技術(shù)部,呼和浩特010021)

        3(內(nèi)蒙古建筑職業(yè)技術(shù)學院,呼和浩特010021)

        E-mail:cslihua@imu.edu.cn

        1 背景

        隨著DT(Data Technology,數(shù)據(jù)技術(shù))時代的到來,大數(shù)據(jù)技術(shù)在金融領(lǐng)域應(yīng)用廣泛.互聯(lián)網(wǎng)金融的出現(xiàn),使得每年產(chǎn)生過數(shù)十PB的金融數(shù)據(jù),而數(shù)據(jù)內(nèi)容有著大規(guī)模、異質(zhì)多元、組織結(jié)構(gòu)松散的特點,給金融機構(gòu)有效獲取信息和知識帶來了挑戰(zhàn).在銀行風險管控方面,通過監(jiān)管部門的現(xiàn)場監(jiān)測,各種可疑金融交易(Suspicious Financial Transaction)行為[1]和企業(yè)信貸風險層出不窮,如洗錢擔保圈、資金空轉(zhuǎn)行為、規(guī)避監(jiān)管的套利行為等.針對此類問題,目前行之有效的解決方法是結(jié)合各種數(shù)據(jù)分析技術(shù),對銀行交易數(shù)據(jù)、客戶數(shù)據(jù)、信用數(shù)據(jù)、資產(chǎn)數(shù)據(jù)等信息挖掘分析,識別欺詐交易、反洗錢以及信貸風險等異常行為.面對海量的銀行數(shù)據(jù),傳統(tǒng)的分析方式需要發(fā)生重大的改變,并建立與之相應(yīng)的新的識別或預測模型.

        擔保圈是指多家企業(yè)通過相互擔?;蜻B環(huán)擔保連接到一起而形成的以擔保關(guān)系為鏈條的特殊利益體[2],其形態(tài)是由兩個或兩個以上法人客戶以保證擔保關(guān)系為紐帶而形成的網(wǎng)絡(luò)結(jié)構(gòu)[2].其主要類型有互保、聯(lián)保、循環(huán)保、擔保鏈、集團內(nèi)部擔保圈以及混合擔保圈[3].近年來受擔保圈內(nèi)企業(yè)經(jīng)營不善、資金鏈斷裂的影響,信貸風險在我國部分區(qū)域大量暴露,較大程度地沖擊了銀行信貸資產(chǎn)安全,嚴重地影響了銀行和企業(yè)的正常運營,加劇了地方金融的不穩(wěn)定,影響了區(qū)域經(jīng)濟的健康發(fā)展[4].由于擔保圈的存在影響面較廣,究其根本是圈內(nèi)存在“高?!笨蛻?,即破產(chǎn)風險較高、償債能力較弱的群體,這些客戶容易發(fā)生違約行為.因此,在已知存在擔保圈的情況下,如何識別擔保圈是否存在風險,是本文研究的主要問題.

        由于銀行業(yè)務(wù)繁雜,包含的特征變量較多,若想通過數(shù)據(jù)分析建立異常識別精度較高的模型,其關(guān)鍵因素是選取具有代表性的特征變量,才能較好的反映出客戶各種行為.利用選擇出的新特征子集采用一定的方法建立風險識別模型,實現(xiàn)擔保圈風險的識別,降低擔保圈的“多米諾”效應(yīng)給銀行帶來的危害[5].

        本文的主要貢獻如下:

        1)提出一種 CSAFS(Clustering and Statistical Analysis Based on Feature Selection)特征選擇算法,該算法采用特征聚類+主成分提取的思想,避免了傳統(tǒng)聚類分析閾值K的問題,既能解決變量間的多重共線性問題[6],又能選擇出覆蓋全部或者大部分原始數(shù)據(jù)信息的、無冗余的新特征子集.

        2)將CSAFS特征選擇算法和Logistic回歸相結(jié)合應(yīng)用到識別擔保圈風險的問題中,利用人工智能算法解決金融問題,避免了傳統(tǒng)人工搭建模型的時間開銷,提高了擔保圈風險識別的準確率.通過ROC曲線對模型進行了效果評估,擔保圈風險識別的準確率達到了95.6%,具有一定的實用性.

        2 相關(guān)工作

        本文主要是結(jié)合特征選取和Logistic回歸方法建模進行擔保圈的風險識別.在相關(guān)工作的研究中,將從特征選擇、Logistic回歸、擔保圈風險識別三個方面進行描述.

        2.1 特征選擇

        特征選擇也稱特征子集選擇或?qū)傩赃x擇.是數(shù)據(jù)挖掘技術(shù)中一種常用的數(shù)據(jù)預處理技巧[7].在特征選擇方法的研究中[8-12],多數(shù)采用先聚類后選擇的思想,但聚類條件和特征選擇的依據(jù)不同.文獻[10]提出一種將稀疏 K-means和分層聚類相結(jié)合的特征選擇算法,該算法分為特征聚類和特征選擇兩個階段,通過聚類將原始特征集劃分成各個簇,利用 Lasso型懲罰因子在簇中進行特征選擇.文獻[11]提出了一種無監(jiān)督特征選擇方法,該方法結(jié)合最大信息系數(shù)和仿射傳播進行特征聚類,在特征選擇時,以每個簇中選取質(zhì)心作為選擇依據(jù),該方法對不同分類器的分類問題進行了驗證.文獻[12]針對無監(jiān)督特征選擇問題,提出了一種密集子圖發(fā)現(xiàn)方法,在獲取非冗余特征集的基礎(chǔ)上,以規(guī)范化的互信息為度量指標進行特征聚類,以方差為評價指標從每個簇中選擇具有代表性的特征.

        由此可見,特征選取方法存在兩個問題:一是在樣本聚類時需要預先設(shè)定閾值 K,而K值得選擇決定特征選取的好壞;二是如何從每個簇群選取代表性特征,這個非常困難.

        基于此,本文提出的CSAFS特征選擇算法有效避免了確定K值問題,并采用提取主成分的方法進行最優(yōu)特征子集選擇,選擇出的主成分可以覆蓋全部或者大部分(85%以上)原始數(shù)據(jù)的信息,能夠有效的反映出客戶的行為信息.

        2.2 Logistic回歸

        針對銀行業(yè)務(wù)中出現(xiàn)的異常可疑行為,利用數(shù)據(jù)挖掘方法,從已有的數(shù)據(jù)出發(fā)尋找規(guī)律,建立識別模型,從而達到對未來的數(shù)據(jù)進行預測的目的.而基于數(shù)據(jù)挖掘方法的識別預測問題,目前國際上廣泛采用的方法包括神經(jīng)網(wǎng)絡(luò)、決策樹和Logistic回歸.相較于其他兩種方法,神經(jīng)網(wǎng)絡(luò)的“黑盒”性質(zhì),不太適用于銀行風險識別,無法解釋結(jié)論的由來.而Logistic回歸在金融領(lǐng)域、流行病研究[13]和預測地質(zhì)災害[14]等應(yīng)用較廣.

        在應(yīng)用Logistic回歸方法上[15-19],文獻[15]以新浪微博為例,從發(fā)布用戶、接受用戶、微博內(nèi)容三個方面進行特征提取,結(jié)合SVM分類器進行用戶去重、垃圾用戶濾除,將提取的特征輸入到預測算法中,建立邏輯回歸模型,實現(xiàn)對微博轉(zhuǎn)發(fā)預測,與傳統(tǒng)同類預測模型進行對比試驗,驗證本文方法的正確性與有效性.文獻[16]通過建立五種數(shù)據(jù)挖掘分類模型(Logistic模型、線性判別分析法、K-means算法、分類樹法和核密度分類方法等)與五種神經(jīng)網(wǎng)絡(luò)模型(包括專家雜合系統(tǒng)、多層感知器、徑向基函數(shù)網(wǎng)絡(luò)、模糊自適應(yīng)共振和學習向量化子等)分別對澳大利亞與德國的兩組財務(wù)數(shù)據(jù)樣本進行了兩類不同模式的分析,經(jīng)其研究發(fā)現(xiàn),Logistic模型在這10種分析方法中的判別準確率最高,分別達到了87.25%與76.3%.文獻[17]是在國內(nèi)企業(yè)財務(wù)預警研究中,采用Logistic回歸模型有效預測出財務(wù)危機.

        Logistic回歸模型在一定程度上較好的實現(xiàn)了風險的識別和預警,但仍然存在一定的局限性:

        1)在建立評估模型時需要設(shè)立許多假設(shè)條件,比如變量間相互獨立、不存在多重共線性問題以及目標變量是二分類等等.

        2)使用Logistic回歸方法進行識別預警是進行研究是合適的,這就要求達到一定規(guī)模的數(shù)據(jù)量.但在有限的數(shù)據(jù)且數(shù)據(jù)維度較高的情況下,基于Logistic模型的統(tǒng)計分析方法的實際應(yīng)用效果不好.

        基于此,本文在進行Logistic回歸前,對數(shù)據(jù)進行特征選擇,對于大規(guī)模的數(shù)據(jù)量也可以很好的進行模型訓練,提高了模型的識別精度.

        2.3 擔保圈風險識別

        應(yīng)用大數(shù)據(jù)技術(shù)實現(xiàn)銀行的風險控制,主要體現(xiàn)在客戶信用評估[20]以及違約風險概率的計算[21,22]等方面,從國內(nèi)學者對于擔保圈的研究情況看,由于受到數(shù)據(jù)可得性的限制,郎咸平等[23]、呂江林[24]、杜權(quán)[25]以及吉玉雪[4]等人針對擔保圈產(chǎn)生的原因、擔保圈風險識別及傳染機制等方面進行理論分析.在應(yīng)用大數(shù)據(jù)分析技術(shù)方面,文獻[3]基于Spark大數(shù)據(jù)計算平臺,開發(fā)出擔保圈識別與管理系統(tǒng),,可快捷完成圖構(gòu)建和最大連通圖查找,在大量信貸數(shù)據(jù)中快速識別擔保圈,具有基本的擔保圈管理功能.但沒有對擔保圈進行進一步的分割,查找擔保圈中關(guān)鍵客戶.文獻[26]描述了在銀行業(yè)現(xiàn)實數(shù)據(jù)情況下,基于大數(shù)據(jù)的客戶關(guān)聯(lián)關(guān)系族譜及風險預警模型構(gòu)建方法,主要從知識圖譜算法來進行客戶關(guān)聯(lián)關(guān)系的描述.文獻[27]從商業(yè)銀行視角出發(fā),將矩陣識別與擔保圈網(wǎng)絡(luò)的脆弱性分析結(jié)合,提出了一種改進的脆弱性分析模型,測度了風險閾值的合理邊界.并以2016年某省經(jīng)濟開發(fā)區(qū)內(nèi)所有信貸企業(yè)的擔保圈關(guān)系圖,進行風險識別和預警,提出風險化解措施.實證結(jié)果與該省商業(yè)銀行信貸監(jiān)測結(jié)果一致.

        基于此,本文提出一種CSAFS特征選擇算法與Logistic回歸相結(jié)合的擔保圈風險識別方法,實現(xiàn)了擔保圈風險的識別,這不僅加快了數(shù)據(jù)計算的速度,并利用數(shù)據(jù)說話,科學有效.避免了傳統(tǒng)的經(jīng)濟理論分析帶來的不確定性問題.

        3 擔保圈風險識別算法描述

        本文提出的CSAFS特征選擇算法和Logistic回歸算法相結(jié)合的擔保圈風險識別方法,該方法主要分為三個階段:

        1)通過遍歷數(shù)據(jù)集,識別出數(shù)據(jù)中所有的企業(yè)信貸擔保圈.對擔保圈中相關(guān)企業(yè)的貸款和資產(chǎn)等數(shù)據(jù)進行歸一化處理.

        2)采用CSAFS算法,對樣本數(shù)據(jù)進行特征選擇.

        3)將最優(yōu)特征子集作為輸入項進行Logistic回歸,建立風險識別模型,定位高風險客戶.

        下面給出文中用到的相關(guān)符號的表示方法說明及算法具體描述.

        3.1 相關(guān)符號說明

        本文在算法設(shè)計時涉及到多種公式運算,其中使用到的符號說明如表1所示.

        表1 符號及其含義Table 1 Smbols and their meanings

        3.2 CSAFS 算法描述

        由于銀行業(yè)務(wù)繁雜,包含的特征變量較多,如果通過數(shù)據(jù)分析建立異常識別精度較高的模型,其關(guān)鍵因素是選取具有代表性的特征變量,才能較好的反映出客戶各種行為.因此本文提出了一種特征選擇算法CSAFS,該算法主要分為三個階段:

        3.2.1 計算特征的相關(guān)系數(shù)rjk

        假設(shè)數(shù)據(jù)集D包含n個特征,即特征集Q={x1,x2,…,xn},每個特征由m條數(shù)據(jù)構(gòu)成,則數(shù)據(jù)集D是個n*m維的矩陣.記特征 xj的取值為 x1j,x2j,…,xmj(j=1,2,…,n),則可以用兩個變量指標xj和 xk的樣本相關(guān)系數(shù)rjk作為它們的相似性度量(j,k=1,2,…,n),也即:為平均度量(j=1,2,…n),(1)式中的rjk具有如下性質(zhì):

        1)|rjk|≤ 1,對于一切j和k;并且|rjk|越接近 1,xk和 xk相關(guān)性越強;|rjk|越接近0,xj和 xk相關(guān)性越弱;

        2)rjk=rkj,對于一切j和k,特別的rjj=1,也即相關(guān)系數(shù)矩陣F是n×n維對稱矩陣.

        3.2.2 特征聚類

        將相關(guān)系數(shù)轉(zhuǎn)換成距離,即特征xj和xk的距離為:

        即相似度越高,特征間距離越近.

        將每個數(shù)據(jù)點作為一個簇,應(yīng)用公式(3)解出所有的距離構(gòu)成矩陣F.在進行聚類時,本文選擇平均距離法D(C1,C2)來度量兩個簇間的距離.平均距離法原理圖如圖1所示.

        其中,C表示簇,n1和n2分別表示簇C1、簇C2中變量的個數(shù).

        通過公式(4)計算,在進行特征聚類時,通過遍歷距離矩陣F,找到距離小于D(C1,C2)的所有的類簇合并成一類.按照此方法可以將源數(shù)據(jù)集分為w個新類簇,分別為C1、C2…Cw,(w <n).

        3.2.3 最優(yōu)特征子集選擇

        假設(shè)簇C1中包含i個特征,對i個樣本中的x進行標準化為珓x,構(gòu)成i維矩陣,即X=[珓x1,珓x2,珓x3,…,珓xI]T,然后計算X的協(xié)方差矩陣∑,即計算各維度兩兩之間的協(xié)方差,這樣各協(xié)方差∑ij組成了一個i×i的矩陣,稱為協(xié)方差矩陣.∑是個對稱矩陣.矩陣內(nèi)的元素∑ij為:

        其中cov(珓xI,珓xj)是珓xI和珓xj的協(xié)方差,E是期望.協(xié)方差矩陣∑的前i個較大的特征值λ1≥λ2≥…≥λI≥0,就是前i個主成分對應(yīng)的方差,λi對應(yīng)的特征向量ui就是主成分yi的關(guān)于珓xi的系數(shù),而珓x是經(jīng)過x標準化變換后的值.根據(jù)特征向量值與x值則可以求出Logistic回歸模型的自變量的y值.即主成分y的求解為:

        即:

        其中y1是第一主成分,y2是第二主成分,…,yn是第n主成分.特征值λ的大小反映了各個主成分的影響力.求解公式:

        計算出各個主成分對應(yīng)的方差(信息)貢獻率bj,bj用來反映信息量的大小,即

        最終要選擇幾個主成分,即累計方差貢獻率αm,確定主成分個數(shù).即 y1、y2、…、ym,m 的確定是通過方差(信息)累計貢獻率αm來確定的.即:

        通常當累計貢獻率大于85%,就認為能足夠反映原始變量的信息了.

        通過公式(5)~公式(9)計算,按照特征值的大小對所有類簇主成分的特征值λ進行排序,選取特征值>1,且累計方差貢獻率達到85%的主因子構(gòu)成最優(yōu)特征子集Qbest.

        CSAFS算法的具體描述如下:

        輸入:某銀行信貸擔保數(shù)據(jù)集D和原始特征集Q

        輸出:最優(yōu)特征子集Qbest

        步驟1.對數(shù)據(jù)集D進行歸一化處理;

        步驟2.通過公式(1)-公式(2),計算 Q={x1,x2,…,xn}中任意兩個特征間的相關(guān)系數(shù) rjk(j、k=1,2,…,n);

        步驟3.通過公式(3),將相關(guān)系數(shù)轉(zhuǎn)換成距離 djk(j、k=1,2,…,n),存入距離矩陣F;

        步驟4.重復步驟2-3,遍歷特征集 Q={x1,x2,…,xn},計算出所有的特征間距離構(gòu)成距離矩陣F;

        步驟5.通過公式(4),計算出F的平均距離D;

        步驟6.比較 djk與 D,如果 djk<D,則 Ck(k=1,2,…,w,w <n);

        步驟7.重復步驟5-6,遍歷F,將源數(shù)據(jù)集分為w個新類簇,分別為 C1,C2,…,Cw;

        步驟8.通過公式(5-9)對簇 Ck(k=1、2、…、w)進行主成分提取,求出對應(yīng)的∑、λ、bj、αp和 y,如果 λ >1 且αp>0.85,則 y 為最優(yōu)特征;

        步驟9.重復步驟8,遍歷所有的簇 C1,C2,…,Cw,求解出最優(yōu)子集Qbest.

        3.3 Logistic回歸算法描述

        通過CSAFS算法選擇出最優(yōu)特征子集Qbest,在訓練模型階段,最優(yōu)特征作為自變量進行Logistic回歸.

        Logistic回歸分析模型可表述為:

        其中,xi(i=1,2,3,…,n)代表的是最優(yōu)特征子集 Qbest的特征,α 為常數(shù)項.ci(i=1,2,3,…,n)是各影響因素的權(quán)重.P表示違約概率,0≤p≤1.如果Logistic回歸值p越接近1,則表明該行為風險性較高;如果Logistic回歸值p越接近0,則表明該行為風險性較低.

        以銀行信貸風險為例,假定Y表示貸款客戶/企業(yè)違約與否事件,取1或0;X1,X2,…,Xn是影響Y的自變量,則Y與X的關(guān)系可表示:

        通常設(shè)違約臨界值P定為0.5,若計算所得P<0.5,則表示違約風險較低;若P>0.5,則說明違約風險較高,在銀行信貸方面,通常以0.5為參考值,來判斷企業(yè)是否存在違約風險,決定是否向貸款人發(fā)放貸款.

        3.4 擔保圈風險識別算法時間復雜度分析

        擔保圈風險識別算法的時間開銷主要兩個部分:特征選擇階段和Logistic回歸階段.

        在CSAFS特征選擇算法中,計算特征間相關(guān)系數(shù)的時間復雜度為O(n);特征聚類的時間復雜度為O(n2);進行特征選取的時間復雜度為O(w),則CSAFS算法的時間復雜度為O(n+n2+w),由于n>w,所以該算法的時間復雜度為O(n2).

        在Logistic回歸階段,算法主要進行構(gòu)造sigmoid函數(shù),循環(huán)次數(shù)為I,計算數(shù)據(jù)集梯度,最終sigmoid函數(shù)求解分類.其時間復雜度O(n*C*I),n代表樣本數(shù)量,C代表單個樣本計算量(取決于梯度計算公式),I為迭代次數(shù),取決于收斂速度.

        綜上所述,擔保圈風險識別算法的時間復雜度O(n2+n*C*I).

        4 實驗與分析

        其中,P表示違約概率,即Y=1的情形,(1-P)表示沒有違約的概率,即Y=0的情形,進一步化簡得:

        本次研究使用的數(shù)據(jù)集是某商業(yè)銀行五年內(nèi)的信貸數(shù)據(jù)集.通過采集30家授信企業(yè)的擔保數(shù)據(jù),使用深度優(yōu)先算法識別出26個擔保圈(層級為2),涉及到273家企業(yè).通過采集26個擔保圈內(nèi)所有企業(yè)的信貸、資產(chǎn)和交易等數(shù)據(jù),經(jīng)過數(shù)據(jù)過濾,一共包含21個自變量和一個表示違約標識的特征.即特征集Q={x1,x2,…,x22}.通常情況下,企業(yè)的凈資本、負債、擔保或被擔保的金額、擔保企業(yè)的數(shù)量等因素關(guān)系著整個擔保圈是否穩(wěn)定,如果一家影響度較高的企業(yè)發(fā)生違約,那么極有可能會出現(xiàn)“多米諾效應(yīng)”[27].所以需要計算出圈內(nèi)每個企業(yè)的擔保金額占總擔保額的比例A1(%)以及被擔保數(shù)量占總擔保數(shù)量的比例A2(%),將A1和A2作為新的類簇進行主成分分析.

        由于對于該樣本數(shù)據(jù)來說,存在樣本分布不平衡是關(guān)鍵問題,在劃分數(shù)據(jù)時,本文主要充分抽樣法,將原數(shù)據(jù)的70%作為訓練集用于訓練分類器,30%作為測試集用于評估分類器性能.兩個數(shù)據(jù)集中陰性和陽性數(shù)據(jù)比例接近,約等于為3∶1.

        實驗數(shù)據(jù)集以.csv格式保存在本地,實驗軟硬件環(huán)境如下:操作系統(tǒng)為 Windows 10,CPU為 Intel(R)Core(TM)2 Duo CPU E7300@2.93 GHz,內(nèi)存為 8 GB,主要實驗平臺為SPSS和jupyter notebook,語言為python 3.

        4.1 建立模型

        通過CSAFS算法進行特征選取,求出9個主因子構(gòu)成了新特征子集Qbest.

        通過分析,將各自變量帶入Logistic回歸模型,通過SPSS進行回歸分析得到模型的分析結(jié)果如表2所示.

        表2 Logistics回歸估計結(jié)果Table 2 Table of Logistics regression estimation result

        4.2 模型檢驗

        針對上述Logistic回歸模型,本文利用某樣本數(shù)據(jù)進行檢驗,樣本包含91組數(shù)據(jù),其中標識為0(正常)的數(shù)據(jù)69組,標識為1(違約)的22組.檢驗結(jié)果如表3所示.

        由表2可知,B代表回歸系數(shù),表示自變量和因變量的相關(guān),通過 B 和 sig.(sig.<0.05)的值可以看出,主成分 Y1、Y3、Y5、Y7、Y9對擔保圈是否存在風險具有顯著性影響,表明自變量可以有效預測因變量的變異.則最終得到的Logistic模型表達式為:

        表3 模型檢驗結(jié)果Table 3 Table of Model checking results

        從表3可知,該模型對樣本的識別準確率達到了95.6%,說明該模型能夠較好地實現(xiàn)擔保圈的風險識別.

        為了進一步對模型進行評估,本文采用準確性指標ROC曲線下面積(ROC_AUC)對模型進行效果評估.相比于其他評價指標,ROC曲線不受正負樣本分布變化的影響,具有一定的穩(wěn)定性.通常情況下ROC曲線在對角線x=y的左上方,才具有一定的預測價值.ROC_AUC取值范圍為[0,1],取值越大,代表模型整體準確性越好.AUC值為ROC曲線所覆蓋的區(qū)域面積,一般而言,若AUC 取值在(0.5,1]之間,AUC越大,分類器分類效果越好[29].

        ROC曲線主要是通過真陽率(True Positive Rate,TPR)和假陽率(False Positive Rate,F(xiàn)PR)兩個指標進行繪制.ROC空間將FPR定義為X軸,TPR定義為Y軸.這兩個值由前面的AUC四個值計算得到,公式如下:

        其中,TP(true positive)為真正類;FP(false positive)為假正類;TN(true negative)為真負類;FN(false negative)為假負類.

        感受性曲線(ROC)示意如圖2所示.

        由圖2可知AUC值為ROC曲線所覆蓋的區(qū)域面積,當AUC值大于0.5,具有一定的預測價值,由此證明該模型識別效果較好.

        圖2 感受性曲線(ROC)示意圖Fig.2 Graph of receiver operating characteristic

        針對模型的擬合情況進行了進一步的檢驗,檢驗結(jié)果如表4所示.

        表4 模型擬合檢驗Table 4 Table of model fitting test

        由表4可知,該模型的-2倍對數(shù)似然值比較理想,CoX&Snell和 Nagelkerke均接近于l,表明模型總體擬合效果較好.

        4.3 方法評估

        為了驗證本文方法的有效性,本文從兩個角度進行驗證,驗證CSAFS算法的有效性以及擔保圈風險識別方法的有效性.

        4.3.1 CSAFS 算法的有效性驗證

        由于CSAFS算法可以解決特征間的多重共線性問題,所以通過對特征間進行多重共線性診斷來驗證CSAFS算法的有效性.首先對原始特征集(包含21個特征)進行相關(guān)性分析,求出特征間的相關(guān)系數(shù)矩陣,存在3個特征間的相關(guān)系數(shù)超過了0.9,表明原始特征集中存在多重共線性問題.

        由上文知,通過CSAFS算法選取出最優(yōu)特征子集作為自變量進行 logistics回歸,最終確定主成分 Y1、Y3、Y5、Y7、Y9對擔保圈是否存在風險具有顯著性影響.針對主成分間是否多重共線性問題,本文將通過特征間的容忍度(Tolerance)和方差膨脹系數(shù)(Variance inflation factor,VIF)兩個診斷指標來診斷.VIF的取值大于1,是容忍度的倒數(shù),VIF越大,說明特征間存在多重共線性的可能性越大.一般而言,當容忍度>0.5,VIF<2時,表明特征間不存在多重共線性問題.特征間的共線性診斷如表5所示.

        由表5可知,各個成分特征都滿足不存在多重共線性的要求,這表明CSAFS算法在消除特征間多重共線性問題的有效性.

        4.3.2 驗證本文擔保圈風險檢測方法的有效性

        本實驗選用支持向量機(SVM)算法、決策樹算法、隨機森林(RF)算法以及樸素貝葉斯算法的四種應(yīng)用較為廣泛數(shù)據(jù)挖掘算法對同一組數(shù)據(jù)集進行建模.對比實驗結(jié)果,驗證本文擔保圈風險檢測方法的有效性.通過測試,各個模型的識別準確率如表6所示.

        表5 多重共線性診斷表Table 5 Table of multicollinearity diagnostic

        表6 算法的識別準確率對比Table 6 Comparison of algorithm recognition accuracy

        由表6可知,在算法的識別準確率方面,決策樹、RF、SVM和樸素貝葉斯均小于95.6%,雖然隨機森林可以通過采樣來減小計算量,并且能夠利用并行方式進行模型訓練,可以處理大規(guī)模高維數(shù)據(jù),在擔保圈風險的識別上比其他三種算法(SVM、決策樹、樸素貝葉斯)識別的準確率高,但仍然低于本文方法的識別準確率.

        由此可見,本文提出的擔保圈風險識別方法的準確率最高.這五種算法的優(yōu)缺點對比如表7所示.

        表7 算法對比Table 7 Comparison of algorithm

        5 總結(jié)

        擔保圈的存在影響面較廣,究其根本是圈內(nèi)存在“高危”客戶,即破產(chǎn)風險較高、償債能力較弱的群體,這些客戶容易發(fā)生違約行為.本文提出一種CSAFS特征選擇算法和Logistic回歸相結(jié)合的方法,對銀行信貸業(yè)務(wù)中出現(xiàn)的“擔保圈”進行風險識別.首先采用CSAFS特征選擇算法對原始數(shù)據(jù)集進行最優(yōu)特征子集的選擇,該算法有效避免了確定K值問題,選擇出的新特征子集可以覆蓋全部或者大部分(85%以上)原始數(shù)據(jù)的信息,能夠有效的反映出客戶的行為信息.最后將最優(yōu)特征子集作為自變量進行Logistic回歸,建立擔保圈風險識別模型,經(jīng)測試,該模型準確判別出了87組正確的樣本,誤判了4組樣本,預測結(jié)果的準確率達到了95.6%.為了進一步驗證本文方法的有效性和精準度,分別采用SVM算法、決策樹算法、RF算法和樸素貝葉斯算法對同一組數(shù)據(jù)集進行建模,實驗表明本文提出的方法識別率最高,具有一定的實用價值.

        猜你喜歡
        特征選擇子集聚類
        由一道有關(guān)集合的子集個數(shù)題引發(fā)的思考
        拓撲空間中緊致子集的性質(zhì)研究
        關(guān)于奇數(shù)階二元子集的分離序列
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        聯(lián)合互信息水下目標特征選擇算法
        基于改進的遺傳算法的模糊聚類算法
        每一次愛情都只是愛情的子集
        都市麗人(2015年4期)2015-03-20 13:33:22
        一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
        基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
        亚洲乱码中文字幕综合久久| 高清无码一区二区在线观看吞精 | 中文字幕亚洲欧美日韩2019| 99久久免费精品高清特色大片| 狠狠色狠狠色综合网老熟女| 精品国产自拍在线视频| 亚洲一区二区在线视频,| 中文字幕人妻一区二区二区| 在线不卡av一区二区| 欧美奶涨边摸边做爰视频 | 一级老熟女免费黄色片| 亚洲综合一区中文字幕| 亚洲妇女无套内射精| 久久aⅴ无码av免费一区| 亚洲ⅤA中文字幕无码| 国产午夜精品综合久久久| 日韩精品在线一二三四区| 老师露出两个奶球让我吃奶头| 中文字幕日韩精品无码内射| 久久精品波多野结衣中文字幕| 元码人妻精品一区二区三区9| 国产自拍视频在线观看免费 | 亚洲国产日韩在线人成蜜芽| 亚洲无人区一码二码国产内射| 在线视频色系中文字幕| 亚洲人成色7777在线观看不卡| 少妇人妻偷人精品视蜜桃| 国产思思久99久精品| 亚洲成生人免费av毛片| 亚洲国产成人极品综合| 免费毛片a线观看| 精品国产福利在线观看网址2022 | 亚洲色欲久久久综合网| 精品推荐国产精品店| 亚洲中文字幕巨乳人妻| 日本成人在线不卡一区二区三区| 亚洲成人一区二区av| 4455永久免费视频| 欧美性猛交xxxx黑人猛交| 人伦片无码中文字幕| 久久久精品人妻一区二区三区免费|