亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        特征選擇與Logistic回歸相結(jié)合的擔(dān)保圈風(fēng)險識別方法

        2019-08-13 12:38:58趙文欣內(nèi)蒙古大學(xué)計算機(jī)學(xué)院呼和浩特0002
        關(guān)鍵詞:特征方法模型

        劉 亞 ,李 華,2,鄭 冰,3,趙文欣(內(nèi)蒙古大學(xué)計算機(jī)學(xué)院,呼和浩特0002)

        2(內(nèi)蒙古大學(xué)圖書與信息技術(shù)部,呼和浩特010021)

        3(內(nèi)蒙古建筑職業(yè)技術(shù)學(xué)院,呼和浩特010021)

        E-mail:cslihua@imu.edu.cn

        1 背景

        隨著DT(Data Technology,數(shù)據(jù)技術(shù))時代的到來,大數(shù)據(jù)技術(shù)在金融領(lǐng)域應(yīng)用廣泛.互聯(lián)網(wǎng)金融的出現(xiàn),使得每年產(chǎn)生過數(shù)十PB的金融數(shù)據(jù),而數(shù)據(jù)內(nèi)容有著大規(guī)模、異質(zhì)多元、組織結(jié)構(gòu)松散的特點(diǎn),給金融機(jī)構(gòu)有效獲取信息和知識帶來了挑戰(zhàn).在銀行風(fēng)險管控方面,通過監(jiān)管部門的現(xiàn)場監(jiān)測,各種可疑金融交易(Suspicious Financial Transaction)行為[1]和企業(yè)信貸風(fēng)險層出不窮,如洗錢擔(dān)保圈、資金空轉(zhuǎn)行為、規(guī)避監(jiān)管的套利行為等.針對此類問題,目前行之有效的解決方法是結(jié)合各種數(shù)據(jù)分析技術(shù),對銀行交易數(shù)據(jù)、客戶數(shù)據(jù)、信用數(shù)據(jù)、資產(chǎn)數(shù)據(jù)等信息挖掘分析,識別欺詐交易、反洗錢以及信貸風(fēng)險等異常行為.面對海量的銀行數(shù)據(jù),傳統(tǒng)的分析方式需要發(fā)生重大的改變,并建立與之相應(yīng)的新的識別或預(yù)測模型.

        擔(dān)保圈是指多家企業(yè)通過相互擔(dān)保或連環(huán)擔(dān)保連接到一起而形成的以擔(dān)保關(guān)系為鏈條的特殊利益體[2],其形態(tài)是由兩個或兩個以上法人客戶以保證擔(dān)保關(guān)系為紐帶而形成的網(wǎng)絡(luò)結(jié)構(gòu)[2].其主要類型有互保、聯(lián)保、循環(huán)保、擔(dān)保鏈、集團(tuán)內(nèi)部擔(dān)保圈以及混合擔(dān)保圈[3].近年來受擔(dān)保圈內(nèi)企業(yè)經(jīng)營不善、資金鏈斷裂的影響,信貸風(fēng)險在我國部分區(qū)域大量暴露,較大程度地沖擊了銀行信貸資產(chǎn)安全,嚴(yán)重地影響了銀行和企業(yè)的正常運(yùn)營,加劇了地方金融的不穩(wěn)定,影響了區(qū)域經(jīng)濟(jì)的健康發(fā)展[4].由于擔(dān)保圈的存在影響面較廣,究其根本是圈內(nèi)存在“高?!笨蛻?,即破產(chǎn)風(fēng)險較高、償債能力較弱的群體,這些客戶容易發(fā)生違約行為.因此,在已知存在擔(dān)保圈的情況下,如何識別擔(dān)保圈是否存在風(fēng)險,是本文研究的主要問題.

        由于銀行業(yè)務(wù)繁雜,包含的特征變量較多,若想通過數(shù)據(jù)分析建立異常識別精度較高的模型,其關(guān)鍵因素是選取具有代表性的特征變量,才能較好的反映出客戶各種行為.利用選擇出的新特征子集采用一定的方法建立風(fēng)險識別模型,實(shí)現(xiàn)擔(dān)保圈風(fēng)險的識別,降低擔(dān)保圈的“多米諾”效應(yīng)給銀行帶來的危害[5].

        本文的主要貢獻(xiàn)如下:

        1)提出一種 CSAFS(Clustering and Statistical Analysis Based on Feature Selection)特征選擇算法,該算法采用特征聚類+主成分提取的思想,避免了傳統(tǒng)聚類分析閾值K的問題,既能解決變量間的多重共線性問題[6],又能選擇出覆蓋全部或者大部分原始數(shù)據(jù)信息的、無冗余的新特征子集.

        2)將CSAFS特征選擇算法和Logistic回歸相結(jié)合應(yīng)用到識別擔(dān)保圈風(fēng)險的問題中,利用人工智能算法解決金融問題,避免了傳統(tǒng)人工搭建模型的時間開銷,提高了擔(dān)保圈風(fēng)險識別的準(zhǔn)確率.通過ROC曲線對模型進(jìn)行了效果評估,擔(dān)保圈風(fēng)險識別的準(zhǔn)確率達(dá)到了95.6%,具有一定的實(shí)用性.

        2 相關(guān)工作

        本文主要是結(jié)合特征選取和Logistic回歸方法建模進(jìn)行擔(dān)保圈的風(fēng)險識別.在相關(guān)工作的研究中,將從特征選擇、Logistic回歸、擔(dān)保圈風(fēng)險識別三個方面進(jìn)行描述.

        2.1 特征選擇

        特征選擇也稱特征子集選擇或?qū)傩赃x擇.是數(shù)據(jù)挖掘技術(shù)中一種常用的數(shù)據(jù)預(yù)處理技巧[7].在特征選擇方法的研究中[8-12],多數(shù)采用先聚類后選擇的思想,但聚類條件和特征選擇的依據(jù)不同.文獻(xiàn)[10]提出一種將稀疏 K-means和分層聚類相結(jié)合的特征選擇算法,該算法分為特征聚類和特征選擇兩個階段,通過聚類將原始特征集劃分成各個簇,利用 Lasso型懲罰因子在簇中進(jìn)行特征選擇.文獻(xiàn)[11]提出了一種無監(jiān)督特征選擇方法,該方法結(jié)合最大信息系數(shù)和仿射傳播進(jìn)行特征聚類,在特征選擇時,以每個簇中選取質(zhì)心作為選擇依據(jù),該方法對不同分類器的分類問題進(jìn)行了驗(yàn)證.文獻(xiàn)[12]針對無監(jiān)督特征選擇問題,提出了一種密集子圖發(fā)現(xiàn)方法,在獲取非冗余特征集的基礎(chǔ)上,以規(guī)范化的互信息為度量指標(biāo)進(jìn)行特征聚類,以方差為評價指標(biāo)從每個簇中選擇具有代表性的特征.

        由此可見,特征選取方法存在兩個問題:一是在樣本聚類時需要預(yù)先設(shè)定閾值 K,而K值得選擇決定特征選取的好壞;二是如何從每個簇群選取代表性特征,這個非常困難.

        基于此,本文提出的CSAFS特征選擇算法有效避免了確定K值問題,并采用提取主成分的方法進(jìn)行最優(yōu)特征子集選擇,選擇出的主成分可以覆蓋全部或者大部分(85%以上)原始數(shù)據(jù)的信息,能夠有效的反映出客戶的行為信息.

        2.2 Logistic回歸

        針對銀行業(yè)務(wù)中出現(xiàn)的異常可疑行為,利用數(shù)據(jù)挖掘方法,從已有的數(shù)據(jù)出發(fā)尋找規(guī)律,建立識別模型,從而達(dá)到對未來的數(shù)據(jù)進(jìn)行預(yù)測的目的.而基于數(shù)據(jù)挖掘方法的識別預(yù)測問題,目前國際上廣泛采用的方法包括神經(jīng)網(wǎng)絡(luò)、決策樹和Logistic回歸.相較于其他兩種方法,神經(jīng)網(wǎng)絡(luò)的“黑盒”性質(zhì),不太適用于銀行風(fēng)險識別,無法解釋結(jié)論的由來.而Logistic回歸在金融領(lǐng)域、流行病研究[13]和預(yù)測地質(zhì)災(zāi)害[14]等應(yīng)用較廣.

        在應(yīng)用Logistic回歸方法上[15-19],文獻(xiàn)[15]以新浪微博為例,從發(fā)布用戶、接受用戶、微博內(nèi)容三個方面進(jìn)行特征提取,結(jié)合SVM分類器進(jìn)行用戶去重、垃圾用戶濾除,將提取的特征輸入到預(yù)測算法中,建立邏輯回歸模型,實(shí)現(xiàn)對微博轉(zhuǎn)發(fā)預(yù)測,與傳統(tǒng)同類預(yù)測模型進(jìn)行對比試驗(yàn),驗(yàn)證本文方法的正確性與有效性.文獻(xiàn)[16]通過建立五種數(shù)據(jù)挖掘分類模型(Logistic模型、線性判別分析法、K-means算法、分類樹法和核密度分類方法等)與五種神經(jīng)網(wǎng)絡(luò)模型(包括專家雜合系統(tǒng)、多層感知器、徑向基函數(shù)網(wǎng)絡(luò)、模糊自適應(yīng)共振和學(xué)習(xí)向量化子等)分別對澳大利亞與德國的兩組財務(wù)數(shù)據(jù)樣本進(jìn)行了兩類不同模式的分析,經(jīng)其研究發(fā)現(xiàn),Logistic模型在這10種分析方法中的判別準(zhǔn)確率最高,分別達(dá)到了87.25%與76.3%.文獻(xiàn)[17]是在國內(nèi)企業(yè)財務(wù)預(yù)警研究中,采用Logistic回歸模型有效預(yù)測出財務(wù)危機(jī).

        Logistic回歸模型在一定程度上較好的實(shí)現(xiàn)了風(fēng)險的識別和預(yù)警,但仍然存在一定的局限性:

        1)在建立評估模型時需要設(shè)立許多假設(shè)條件,比如變量間相互獨(dú)立、不存在多重共線性問題以及目標(biāo)變量是二分類等等.

        2)使用Logistic回歸方法進(jìn)行識別預(yù)警是進(jìn)行研究是合適的,這就要求達(dá)到一定規(guī)模的數(shù)據(jù)量.但在有限的數(shù)據(jù)且數(shù)據(jù)維度較高的情況下,基于Logistic模型的統(tǒng)計分析方法的實(shí)際應(yīng)用效果不好.

        基于此,本文在進(jìn)行Logistic回歸前,對數(shù)據(jù)進(jìn)行特征選擇,對于大規(guī)模的數(shù)據(jù)量也可以很好的進(jìn)行模型訓(xùn)練,提高了模型的識別精度.

        2.3 擔(dān)保圈風(fēng)險識別

        應(yīng)用大數(shù)據(jù)技術(shù)實(shí)現(xiàn)銀行的風(fēng)險控制,主要體現(xiàn)在客戶信用評估[20]以及違約風(fēng)險概率的計算[21,22]等方面,從國內(nèi)學(xué)者對于擔(dān)保圈的研究情況看,由于受到數(shù)據(jù)可得性的限制,郎咸平等[23]、呂江林[24]、杜權(quán)[25]以及吉玉雪[4]等人針對擔(dān)保圈產(chǎn)生的原因、擔(dān)保圈風(fēng)險識別及傳染機(jī)制等方面進(jìn)行理論分析.在應(yīng)用大數(shù)據(jù)分析技術(shù)方面,文獻(xiàn)[3]基于Spark大數(shù)據(jù)計算平臺,開發(fā)出擔(dān)保圈識別與管理系統(tǒng),,可快捷完成圖構(gòu)建和最大連通圖查找,在大量信貸數(shù)據(jù)中快速識別擔(dān)保圈,具有基本的擔(dān)保圈管理功能.但沒有對擔(dān)保圈進(jìn)行進(jìn)一步的分割,查找擔(dān)保圈中關(guān)鍵客戶.文獻(xiàn)[26]描述了在銀行業(yè)現(xiàn)實(shí)數(shù)據(jù)情況下,基于大數(shù)據(jù)的客戶關(guān)聯(lián)關(guān)系族譜及風(fēng)險預(yù)警模型構(gòu)建方法,主要從知識圖譜算法來進(jìn)行客戶關(guān)聯(lián)關(guān)系的描述.文獻(xiàn)[27]從商業(yè)銀行視角出發(fā),將矩陣識別與擔(dān)保圈網(wǎng)絡(luò)的脆弱性分析結(jié)合,提出了一種改進(jìn)的脆弱性分析模型,測度了風(fēng)險閾值的合理邊界.并以2016年某省經(jīng)濟(jì)開發(fā)區(qū)內(nèi)所有信貸企業(yè)的擔(dān)保圈關(guān)系圖,進(jìn)行風(fēng)險識別和預(yù)警,提出風(fēng)險化解措施.實(shí)證結(jié)果與該省商業(yè)銀行信貸監(jiān)測結(jié)果一致.

        基于此,本文提出一種CSAFS特征選擇算法與Logistic回歸相結(jié)合的擔(dān)保圈風(fēng)險識別方法,實(shí)現(xiàn)了擔(dān)保圈風(fēng)險的識別,這不僅加快了數(shù)據(jù)計算的速度,并利用數(shù)據(jù)說話,科學(xué)有效.避免了傳統(tǒng)的經(jīng)濟(jì)理論分析帶來的不確定性問題.

        3 擔(dān)保圈風(fēng)險識別算法描述

        本文提出的CSAFS特征選擇算法和Logistic回歸算法相結(jié)合的擔(dān)保圈風(fēng)險識別方法,該方法主要分為三個階段:

        1)通過遍歷數(shù)據(jù)集,識別出數(shù)據(jù)中所有的企業(yè)信貸擔(dān)保圈.對擔(dān)保圈中相關(guān)企業(yè)的貸款和資產(chǎn)等數(shù)據(jù)進(jìn)行歸一化處理.

        2)采用CSAFS算法,對樣本數(shù)據(jù)進(jìn)行特征選擇.

        3)將最優(yōu)特征子集作為輸入項(xiàng)進(jìn)行Logistic回歸,建立風(fēng)險識別模型,定位高風(fēng)險客戶.

        下面給出文中用到的相關(guān)符號的表示方法說明及算法具體描述.

        3.1 相關(guān)符號說明

        本文在算法設(shè)計時涉及到多種公式運(yùn)算,其中使用到的符號說明如表1所示.

        表1 符號及其含義Table 1 Smbols and their meanings

        3.2 CSAFS 算法描述

        由于銀行業(yè)務(wù)繁雜,包含的特征變量較多,如果通過數(shù)據(jù)分析建立異常識別精度較高的模型,其關(guān)鍵因素是選取具有代表性的特征變量,才能較好的反映出客戶各種行為.因此本文提出了一種特征選擇算法CSAFS,該算法主要分為三個階段:

        3.2.1 計算特征的相關(guān)系數(shù)rjk

        假設(shè)數(shù)據(jù)集D包含n個特征,即特征集Q={x1,x2,…,xn},每個特征由m條數(shù)據(jù)構(gòu)成,則數(shù)據(jù)集D是個n*m維的矩陣.記特征 xj的取值為 x1j,x2j,…,xmj(j=1,2,…,n),則可以用兩個變量指標(biāo)xj和 xk的樣本相關(guān)系數(shù)rjk作為它們的相似性度量(j,k=1,2,…,n),也即:為平均度量(j=1,2,…n),(1)式中的rjk具有如下性質(zhì):

        1)|rjk|≤ 1,對于一切j和k;并且|rjk|越接近 1,xk和 xk相關(guān)性越強(qiáng);|rjk|越接近0,xj和 xk相關(guān)性越弱;

        2)rjk=rkj,對于一切j和k,特別的rjj=1,也即相關(guān)系數(shù)矩陣F是n×n維對稱矩陣.

        3.2.2 特征聚類

        將相關(guān)系數(shù)轉(zhuǎn)換成距離,即特征xj和xk的距離為:

        即相似度越高,特征間距離越近.

        將每個數(shù)據(jù)點(diǎn)作為一個簇,應(yīng)用公式(3)解出所有的距離構(gòu)成矩陣F.在進(jìn)行聚類時,本文選擇平均距離法D(C1,C2)來度量兩個簇間的距離.平均距離法原理圖如圖1所示.

        其中,C表示簇,n1和n2分別表示簇C1、簇C2中變量的個數(shù).

        通過公式(4)計算,在進(jìn)行特征聚類時,通過遍歷距離矩陣F,找到距離小于D(C1,C2)的所有的類簇合并成一類.按照此方法可以將源數(shù)據(jù)集分為w個新類簇,分別為C1、C2…Cw,(w <n).

        3.2.3 最優(yōu)特征子集選擇

        假設(shè)簇C1中包含i個特征,對i個樣本中的x進(jìn)行標(biāo)準(zhǔn)化為珓x,構(gòu)成i維矩陣,即X=[珓x1,珓x2,珓x3,…,珓xI]T,然后計算X的協(xié)方差矩陣∑,即計算各維度兩兩之間的協(xié)方差,這樣各協(xié)方差∑ij組成了一個i×i的矩陣,稱為協(xié)方差矩陣.∑是個對稱矩陣.矩陣內(nèi)的元素∑ij為:

        其中cov(珓xI,珓xj)是珓xI和珓xj的協(xié)方差,E是期望.協(xié)方差矩陣∑的前i個較大的特征值λ1≥λ2≥…≥λI≥0,就是前i個主成分對應(yīng)的方差,λi對應(yīng)的特征向量ui就是主成分yi的關(guān)于珓xi的系數(shù),而珓x是經(jīng)過x標(biāo)準(zhǔn)化變換后的值.根據(jù)特征向量值與x值則可以求出Logistic回歸模型的自變量的y值.即主成分y的求解為:

        即:

        其中y1是第一主成分,y2是第二主成分,…,yn是第n主成分.特征值λ的大小反映了各個主成分的影響力.求解公式:

        計算出各個主成分對應(yīng)的方差(信息)貢獻(xiàn)率bj,bj用來反映信息量的大小,即

        最終要選擇幾個主成分,即累計方差貢獻(xiàn)率αm,確定主成分個數(shù).即 y1、y2、…、ym,m 的確定是通過方差(信息)累計貢獻(xiàn)率αm來確定的.即:

        通常當(dāng)累計貢獻(xiàn)率大于85%,就認(rèn)為能足夠反映原始變量的信息了.

        通過公式(5)~公式(9)計算,按照特征值的大小對所有類簇主成分的特征值λ進(jìn)行排序,選取特征值>1,且累計方差貢獻(xiàn)率達(dá)到85%的主因子構(gòu)成最優(yōu)特征子集Qbest.

        CSAFS算法的具體描述如下:

        輸入:某銀行信貸擔(dān)保數(shù)據(jù)集D和原始特征集Q

        輸出:最優(yōu)特征子集Qbest

        步驟1.對數(shù)據(jù)集D進(jìn)行歸一化處理;

        步驟2.通過公式(1)-公式(2),計算 Q={x1,x2,…,xn}中任意兩個特征間的相關(guān)系數(shù) rjk(j、k=1,2,…,n);

        步驟3.通過公式(3),將相關(guān)系數(shù)轉(zhuǎn)換成距離 djk(j、k=1,2,…,n),存入距離矩陣F;

        步驟4.重復(fù)步驟2-3,遍歷特征集 Q={x1,x2,…,xn},計算出所有的特征間距離構(gòu)成距離矩陣F;

        步驟5.通過公式(4),計算出F的平均距離D;

        步驟6.比較 djk與 D,如果 djk<D,則 Ck(k=1,2,…,w,w <n);

        步驟7.重復(fù)步驟5-6,遍歷F,將源數(shù)據(jù)集分為w個新類簇,分別為 C1,C2,…,Cw;

        步驟8.通過公式(5-9)對簇 Ck(k=1、2、…、w)進(jìn)行主成分提取,求出對應(yīng)的∑、λ、bj、αp和 y,如果 λ >1 且αp>0.85,則 y 為最優(yōu)特征;

        步驟9.重復(fù)步驟8,遍歷所有的簇 C1,C2,…,Cw,求解出最優(yōu)子集Qbest.

        3.3 Logistic回歸算法描述

        通過CSAFS算法選擇出最優(yōu)特征子集Qbest,在訓(xùn)練模型階段,最優(yōu)特征作為自變量進(jìn)行Logistic回歸.

        Logistic回歸分析模型可表述為:

        其中,xi(i=1,2,3,…,n)代表的是最優(yōu)特征子集 Qbest的特征,α 為常數(shù)項(xiàng).ci(i=1,2,3,…,n)是各影響因素的權(quán)重.P表示違約概率,0≤p≤1.如果Logistic回歸值p越接近1,則表明該行為風(fēng)險性較高;如果Logistic回歸值p越接近0,則表明該行為風(fēng)險性較低.

        以銀行信貸風(fēng)險為例,假定Y表示貸款客戶/企業(yè)違約與否事件,取1或0;X1,X2,…,Xn是影響Y的自變量,則Y與X的關(guān)系可表示:

        通常設(shè)違約臨界值P定為0.5,若計算所得P<0.5,則表示違約風(fēng)險較低;若P>0.5,則說明違約風(fēng)險較高,在銀行信貸方面,通常以0.5為參考值,來判斷企業(yè)是否存在違約風(fēng)險,決定是否向貸款人發(fā)放貸款.

        3.4 擔(dān)保圈風(fēng)險識別算法時間復(fù)雜度分析

        擔(dān)保圈風(fēng)險識別算法的時間開銷主要兩個部分:特征選擇階段和Logistic回歸階段.

        在CSAFS特征選擇算法中,計算特征間相關(guān)系數(shù)的時間復(fù)雜度為O(n);特征聚類的時間復(fù)雜度為O(n2);進(jìn)行特征選取的時間復(fù)雜度為O(w),則CSAFS算法的時間復(fù)雜度為O(n+n2+w),由于n>w,所以該算法的時間復(fù)雜度為O(n2).

        在Logistic回歸階段,算法主要進(jìn)行構(gòu)造sigmoid函數(shù),循環(huán)次數(shù)為I,計算數(shù)據(jù)集梯度,最終sigmoid函數(shù)求解分類.其時間復(fù)雜度O(n*C*I),n代表樣本數(shù)量,C代表單個樣本計算量(取決于梯度計算公式),I為迭代次數(shù),取決于收斂速度.

        綜上所述,擔(dān)保圈風(fēng)險識別算法的時間復(fù)雜度O(n2+n*C*I).

        4 實(shí)驗(yàn)與分析

        其中,P表示違約概率,即Y=1的情形,(1-P)表示沒有違約的概率,即Y=0的情形,進(jìn)一步化簡得:

        本次研究使用的數(shù)據(jù)集是某商業(yè)銀行五年內(nèi)的信貸數(shù)據(jù)集.通過采集30家授信企業(yè)的擔(dān)保數(shù)據(jù),使用深度優(yōu)先算法識別出26個擔(dān)保圈(層級為2),涉及到273家企業(yè).通過采集26個擔(dān)保圈內(nèi)所有企業(yè)的信貸、資產(chǎn)和交易等數(shù)據(jù),經(jīng)過數(shù)據(jù)過濾,一共包含21個自變量和一個表示違約標(biāo)識的特征.即特征集Q={x1,x2,…,x22}.通常情況下,企業(yè)的凈資本、負(fù)債、擔(dān)?;虮粨?dān)保的金額、擔(dān)保企業(yè)的數(shù)量等因素關(guān)系著整個擔(dān)保圈是否穩(wěn)定,如果一家影響度較高的企業(yè)發(fā)生違約,那么極有可能會出現(xiàn)“多米諾效應(yīng)”[27].所以需要計算出圈內(nèi)每個企業(yè)的擔(dān)保金額占總擔(dān)保額的比例A1(%)以及被擔(dān)保數(shù)量占總擔(dān)保數(shù)量的比例A2(%),將A1和A2作為新的類簇進(jìn)行主成分分析.

        由于對于該樣本數(shù)據(jù)來說,存在樣本分布不平衡是關(guān)鍵問題,在劃分?jǐn)?shù)據(jù)時,本文主要充分抽樣法,將原數(shù)據(jù)的70%作為訓(xùn)練集用于訓(xùn)練分類器,30%作為測試集用于評估分類器性能.兩個數(shù)據(jù)集中陰性和陽性數(shù)據(jù)比例接近,約等于為3∶1.

        實(shí)驗(yàn)數(shù)據(jù)集以.csv格式保存在本地,實(shí)驗(yàn)軟硬件環(huán)境如下:操作系統(tǒng)為 Windows 10,CPU為 Intel(R)Core(TM)2 Duo CPU E7300@2.93 GHz,內(nèi)存為 8 GB,主要實(shí)驗(yàn)平臺為SPSS和jupyter notebook,語言為python 3.

        4.1 建立模型

        通過CSAFS算法進(jìn)行特征選取,求出9個主因子構(gòu)成了新特征子集Qbest.

        通過分析,將各自變量帶入Logistic回歸模型,通過SPSS進(jìn)行回歸分析得到模型的分析結(jié)果如表2所示.

        表2 Logistics回歸估計結(jié)果Table 2 Table of Logistics regression estimation result

        4.2 模型檢驗(yàn)

        針對上述Logistic回歸模型,本文利用某樣本數(shù)據(jù)進(jìn)行檢驗(yàn),樣本包含91組數(shù)據(jù),其中標(biāo)識為0(正常)的數(shù)據(jù)69組,標(biāo)識為1(違約)的22組.檢驗(yàn)結(jié)果如表3所示.

        由表2可知,B代表回歸系數(shù),表示自變量和因變量的相關(guān),通過 B 和 sig.(sig.<0.05)的值可以看出,主成分 Y1、Y3、Y5、Y7、Y9對擔(dān)保圈是否存在風(fēng)險具有顯著性影響,表明自變量可以有效預(yù)測因變量的變異.則最終得到的Logistic模型表達(dá)式為:

        表3 模型檢驗(yàn)結(jié)果Table 3 Table of Model checking results

        從表3可知,該模型對樣本的識別準(zhǔn)確率達(dá)到了95.6%,說明該模型能夠較好地實(shí)現(xiàn)擔(dān)保圈的風(fēng)險識別.

        為了進(jìn)一步對模型進(jìn)行評估,本文采用準(zhǔn)確性指標(biāo)ROC曲線下面積(ROC_AUC)對模型進(jìn)行效果評估.相比于其他評價指標(biāo),ROC曲線不受正負(fù)樣本分布變化的影響,具有一定的穩(wěn)定性.通常情況下ROC曲線在對角線x=y的左上方,才具有一定的預(yù)測價值.ROC_AUC取值范圍為[0,1],取值越大,代表模型整體準(zhǔn)確性越好.AUC值為ROC曲線所覆蓋的區(qū)域面積,一般而言,若AUC 取值在(0.5,1]之間,AUC越大,分類器分類效果越好[29].

        ROC曲線主要是通過真陽率(True Positive Rate,TPR)和假陽率(False Positive Rate,F(xiàn)PR)兩個指標(biāo)進(jìn)行繪制.ROC空間將FPR定義為X軸,TPR定義為Y軸.這兩個值由前面的AUC四個值計算得到,公式如下:

        其中,TP(true positive)為真正類;FP(false positive)為假正類;TN(true negative)為真負(fù)類;FN(false negative)為假負(fù)類.

        感受性曲線(ROC)示意如圖2所示.

        由圖2可知AUC值為ROC曲線所覆蓋的區(qū)域面積,當(dāng)AUC值大于0.5,具有一定的預(yù)測價值,由此證明該模型識別效果較好.

        圖2 感受性曲線(ROC)示意圖Fig.2 Graph of receiver operating characteristic

        針對模型的擬合情況進(jìn)行了進(jìn)一步的檢驗(yàn),檢驗(yàn)結(jié)果如表4所示.

        表4 模型擬合檢驗(yàn)Table 4 Table of model fitting test

        由表4可知,該模型的-2倍對數(shù)似然值比較理想,CoX&Snell和 Nagelkerke均接近于l,表明模型總體擬合效果較好.

        4.3 方法評估

        為了驗(yàn)證本文方法的有效性,本文從兩個角度進(jìn)行驗(yàn)證,驗(yàn)證CSAFS算法的有效性以及擔(dān)保圈風(fēng)險識別方法的有效性.

        4.3.1 CSAFS 算法的有效性驗(yàn)證

        由于CSAFS算法可以解決特征間的多重共線性問題,所以通過對特征間進(jìn)行多重共線性診斷來驗(yàn)證CSAFS算法的有效性.首先對原始特征集(包含21個特征)進(jìn)行相關(guān)性分析,求出特征間的相關(guān)系數(shù)矩陣,存在3個特征間的相關(guān)系數(shù)超過了0.9,表明原始特征集中存在多重共線性問題.

        由上文知,通過CSAFS算法選取出最優(yōu)特征子集作為自變量進(jìn)行 logistics回歸,最終確定主成分 Y1、Y3、Y5、Y7、Y9對擔(dān)保圈是否存在風(fēng)險具有顯著性影響.針對主成分間是否多重共線性問題,本文將通過特征間的容忍度(Tolerance)和方差膨脹系數(shù)(Variance inflation factor,VIF)兩個診斷指標(biāo)來診斷.VIF的取值大于1,是容忍度的倒數(shù),VIF越大,說明特征間存在多重共線性的可能性越大.一般而言,當(dāng)容忍度>0.5,VIF<2時,表明特征間不存在多重共線性問題.特征間的共線性診斷如表5所示.

        由表5可知,各個成分特征都滿足不存在多重共線性的要求,這表明CSAFS算法在消除特征間多重共線性問題的有效性.

        4.3.2 驗(yàn)證本文擔(dān)保圈風(fēng)險檢測方法的有效性

        本實(shí)驗(yàn)選用支持向量機(jī)(SVM)算法、決策樹算法、隨機(jī)森林(RF)算法以及樸素貝葉斯算法的四種應(yīng)用較為廣泛數(shù)據(jù)挖掘算法對同一組數(shù)據(jù)集進(jìn)行建模.對比實(shí)驗(yàn)結(jié)果,驗(yàn)證本文擔(dān)保圈風(fēng)險檢測方法的有效性.通過測試,各個模型的識別準(zhǔn)確率如表6所示.

        表5 多重共線性診斷表Table 5 Table of multicollinearity diagnostic

        表6 算法的識別準(zhǔn)確率對比Table 6 Comparison of algorithm recognition accuracy

        由表6可知,在算法的識別準(zhǔn)確率方面,決策樹、RF、SVM和樸素貝葉斯均小于95.6%,雖然隨機(jī)森林可以通過采樣來減小計算量,并且能夠利用并行方式進(jìn)行模型訓(xùn)練,可以處理大規(guī)模高維數(shù)據(jù),在擔(dān)保圈風(fēng)險的識別上比其他三種算法(SVM、決策樹、樸素貝葉斯)識別的準(zhǔn)確率高,但仍然低于本文方法的識別準(zhǔn)確率.

        由此可見,本文提出的擔(dān)保圈風(fēng)險識別方法的準(zhǔn)確率最高.這五種算法的優(yōu)缺點(diǎn)對比如表7所示.

        表7 算法對比Table 7 Comparison of algorithm

        5 總結(jié)

        擔(dān)保圈的存在影響面較廣,究其根本是圈內(nèi)存在“高?!笨蛻?,即破產(chǎn)風(fēng)險較高、償債能力較弱的群體,這些客戶容易發(fā)生違約行為.本文提出一種CSAFS特征選擇算法和Logistic回歸相結(jié)合的方法,對銀行信貸業(yè)務(wù)中出現(xiàn)的“擔(dān)保圈”進(jìn)行風(fēng)險識別.首先采用CSAFS特征選擇算法對原始數(shù)據(jù)集進(jìn)行最優(yōu)特征子集的選擇,該算法有效避免了確定K值問題,選擇出的新特征子集可以覆蓋全部或者大部分(85%以上)原始數(shù)據(jù)的信息,能夠有效的反映出客戶的行為信息.最后將最優(yōu)特征子集作為自變量進(jìn)行Logistic回歸,建立擔(dān)保圈風(fēng)險識別模型,經(jīng)測試,該模型準(zhǔn)確判別出了87組正確的樣本,誤判了4組樣本,預(yù)測結(jié)果的準(zhǔn)確率達(dá)到了95.6%.為了進(jìn)一步驗(yàn)證本文方法的有效性和精準(zhǔn)度,分別采用SVM算法、決策樹算法、RF算法和樸素貝葉斯算法對同一組數(shù)據(jù)集進(jìn)行建模,實(shí)驗(yàn)表明本文提出的方法識別率最高,具有一定的實(shí)用價值.

        猜你喜歡
        特征方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        如何表達(dá)“特征”
        不忠誠的四個特征
        抓住特征巧觀察
        可能是方法不對
        3D打印中的模型分割與打包
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        久亚洲一线产区二线产区三线麻豆| 天天躁人人躁人人躁狂躁| 欧美日韩国产在线观看免费| 亚洲中文字幕有综合久久| 国产三级精品三级在线专区| 成视频年人黄网站免费视频| 99久久国产露脸精品竹菊传媒| 91亚洲人成手机在线观看| 精品在线亚洲一区二区三区| 日韩精品中文一区二区三区在线| 十八18禁国产精品www| 国产在线手机视频| 青青草国内视频在线观看| 97超碰精品成人国产| 99精品人妻无码专区在线视频区 | 国产成人久久精品流白浆| 福利视频偷拍一区二区| 精品国品一二三产品区别在线观看 | 精品久久人妻av中文字幕| 天堂网在线最新版www中文网| 国产午夜激无码AV毛片不卡| 蜜桃在线视频一区二区| 久久久久亚洲av成人片| 色一情一区二| 69堂在线无码视频2020| 精品中文字幕在线不卡| 国产精品久线在线观看| 91av手机在线观看| 性视频毛茸茸女性一区二区| 亚洲精品粉嫩美女一区| 欧美国产精品久久久乱码| av一区二区三区亚洲| 国产91在线播放九色快色| 亚洲精品无码专区| 欧美视频二区欧美影视| 色综合久久五月天久久久| 淫片一区二区三区av| 久久aⅴ人妻少妇嫩草影院| 无码一区二区三区不卡AV| 视频一区精品中文字幕| 亚洲精品蜜夜内射|