亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于鄰域粗糙集和距離判別的信用風(fēng)險評級

        2013-08-01 11:38:30郭春花
        關(guān)鍵詞:分類方法

        郭春花

        (重慶大學(xué)數(shù)學(xué)與統(tǒng)計學(xué)院,重慶 401331)

        信用風(fēng)險評級是金融管理領(lǐng)域的熱門話題。一些傳統(tǒng)和非傳統(tǒng)的方法如多元統(tǒng)計分析、人工神經(jīng)網(wǎng)絡(luò)[1]、支持向量機(jī)[2-6]、數(shù)據(jù)挖掘[7]等已被廣泛應(yīng)用到該領(lǐng)域,并取得了大量的研究成果。隨著技術(shù)的進(jìn)一步發(fā)展,一些綜合的方法[8-9]也被廣泛應(yīng)用于信用風(fēng)險評級中。我國的信用分析和評估技術(shù)仍處于傳統(tǒng)的比率分析階段,信用風(fēng)險的分析仍然是以單一投資項(xiàng)目、貸款和證券為主,對衍生工具、表外資產(chǎn)的信用風(fēng)險以及信用集中風(fēng)險的評估尚屬空白。信用數(shù)據(jù)多具有高維性特點(diǎn),且既有數(shù)值型屬性也有類別型屬性,與單一的數(shù)值型屬性相比,在處理上更為復(fù)雜。鄰域粗糙集方法與其他降維方法相比是一種軟計算方法,無需提供樣本數(shù)據(jù)之外的任何先驗(yàn)知識或附加信息,對不確定性的描述有具體的數(shù)學(xué)公式,減少了算法的隨意性,近年來在數(shù)據(jù)降維[10-11]和分類問題[9,12]中得到了廣泛應(yīng)用。同時信用數(shù)據(jù)的數(shù)值型屬性在量綱上的差異較大,所以在信用評級中考慮量綱的差異具有重要意義。基于上述問題,本文提出了一種基于鄰域粗糙集和距離判別的信用風(fēng)險評級方法。用鄰域粗糙集對訓(xùn)練樣本數(shù)據(jù)作降維處理,去掉冗余的數(shù)據(jù),簡化計算過程。距離判別中采用馬氏距離消除了數(shù)據(jù)在量綱上的差異對分類的影響。最后通過實(shí)驗(yàn)對該方法的有效性進(jìn)行了驗(yàn)證。

        1 基于鄰域粗糙集特征選擇的距離判別

        1.1 特征選擇的鄰域粗糙集方法

        設(shè)分類樣本含有p個變量,它們構(gòu)成p維隨機(jī)向量X=(X1,X2…Xp)T。為了避免遺漏重要信息,往往要考慮盡可能多的與分類有關(guān)的屬性,此時會產(chǎn)生2個問題:①隨著屬性個數(shù)p增大,計算量顯著增加,問題分析的復(fù)雜性明顯提高;②各屬性之間存在著一定的相關(guān)性,使得觀測樣本反映的信息在一定程度上有重疊。

        為了解決上述2個問題,本文采用鄰域粗糙集方法對樣本變量進(jìn)行選擇。

        粗糙集[13-14]理論最早是由Pawlak提出來的,它可以挖掘?qū)傩灾g的相關(guān)性,選擇相關(guān)屬性,去掉無關(guān)屬性,實(shí)現(xiàn)數(shù)據(jù)降維。本文的鄰域粗糙集特征選擇對屬性集中的數(shù)值型屬性和類別型屬性分別作了討論。對類別型屬性考慮的是它們的等價關(guān)系,對數(shù)值型屬性考慮的是它們的鄰域關(guān)系。鄰域定義如下:?xi∈U,xi的鄰域關(guān)系為

        Δ 是 距 離 函 數(shù), 通 常 Δp(xi,xj)=上、下近似分別定義為:

        鄰域粗糙集屬性選擇采取前向貪心搜索策略,通過測試加入新的候選屬性后度量指標(biāo)的變化來生成新的屬性集,以粗糙集屬性依賴度作為度量指標(biāo)。屬性依賴度的具體描述如下:

        設(shè)a∈A -BSIG(a,B,D)=γB∪a(D)- γB(D)=POSR(B∪a)-POSR(B),其中R是U上的等價關(guān)系,POSR(B∪a)和POSR(B)分別表示B∪a,B的正域。SIG(a,B,D)反映了屬性 a的增加對信息量的影響,顯然 SIG(a,B,D)∈[0,1]。如果 SIG(a,B,D)=0,說明屬性a的增加沒有增加任何的信息,因此a是完全多余的,可以將其刪除,從而降低特征的維數(shù),減少計算量。

        鄰域粗糙集特征選擇的具體步驟:

        根據(jù)給定的信用數(shù)據(jù)集合,構(gòu)造并輸入決策表(U,Ac∪An∪D)以及 β、d,其中:Ac、An分別代表類別型屬性集和數(shù)字型屬性集;β是一個計算變量精度近似的閾值;d是鄰域半徑,記輸出結(jié)果為Red。然后按如下步驟進(jìn)行:

        第1步 ?a∈Ac計算等價關(guān)系Ra,?a∈An,計算鄰域關(guān)系Na。

        第2步 令Red=φ,其中Red為已選擇的特征構(gòu)成的集合。?ai∈A - Red,計算 γRed∪a(D)=γRed(D),這里定義

        第3步 選擇滿足 SIG(ak,Red,D)=SIG(ai,Red,D))的特征 ak。

        第4步 如果 SIG(ak,Red,D)>ε(其中 ε 是用來控制收斂性的一個正數(shù)),則令Red=Red∪ak,回到第2步,直到所有的ai∈A-Red都被進(jìn)行上述選擇為止。

        第5步 給出最終被選擇特征的集合Red。

        設(shè)M={x1,x2…xn}是某一個類S的訓(xùn)練集,訓(xùn)練集中的每個樣本包括p個屬性X1,X2…Xp,經(jīng)過鄰域粗糙集方法進(jìn)行特征選擇后p個屬性變?yōu)閙個屬性,分別記為X'1,X'2…X'm。用經(jīng)過鄰域粗糙集特征選擇后的樣本集合代替原始樣本進(jìn)行下面的距離判別。

        1.2 兩分類問題的距離判別

        傳統(tǒng)的距離判別使用的距離多為歐氏距離[15-16],但歐氏距離中每個坐標(biāo)對其的貢獻(xiàn)是同等的,當(dāng)坐標(biāo)軸表示測量值時,往往帶有大小不等的隨機(jī)波動,合理的方法是對坐標(biāo)加權(quán)。同時,歐氏距離的另一個缺點(diǎn)就是當(dāng)個分量為不同性質(zhì)的量時,“距離”的大小往往與指標(biāo)的單位有關(guān)系?;谏鲜鋈秉c(diǎn),本文為了消除各指標(biāo)量綱之間的差別對分類的影響,采用馬氏距離作為分類依據(jù)。

        設(shè)x'1,x'2…x'n的均值向量為μ,協(xié)方差矩陣為∑。給定待判樣本x,記dm(x,S)為x與類S之間的馬氏距離,并以此距離來度量x與類S之間的相似性,為了方便直接計算d2(x,S),

        對于兩分類問題,設(shè)S1、S2是2個類,分別從2類中選擇n個樣本,每個樣本有p個指標(biāo),記為S1={x1,x2…xn}。用鄰域粗糙集進(jìn)行特征選擇后上述訓(xùn)練集變?yōu)?M1={x'1,x'2…x'm},M2={y'1,y'2…y'l}(m,l<n)。設(shè) M1、M2的均值向量分別為μ1、μ2,協(xié)方差矩陣分別為 Σ1、Σ2,待測樣本 x 與 S1、S2之間的馬氏距離分別記為 dm(x,S1)和dm(x,S2)。分以下情況討論:

        1) 當(dāng) Σ1= Σ2= Σ 時,考 察)與(x,S2)的差,則有

        2) 當(dāng) Σ1≠Σ2時,可用

        進(jìn)行判別,判別準(zhǔn)則同式(3)。

        實(shí)際中參數(shù)μ1、μ2和Σ都是未知的,通常通過樣本數(shù)據(jù)取其無偏估計。將上述估計值代入式(2)、(4)計算即可。

        基于鄰域粗糙集的距離判別算法的步驟如下:

        1)對于每類的訓(xùn)練集樣本,用鄰域粗糙集的方法進(jìn)行特征選擇,具體做法如本文1.1節(jié)所述。

        2)將每類的訓(xùn)練集樣本數(shù)據(jù)用選出的特征表示,計算出各類訓(xùn)練集的均值向量和方差。

        3)對于給定的待判樣本x,根據(jù)式(2)或(4)計算x與各類訓(xùn)練集的馬氏距離之差。

        4)根據(jù)式(3)判斷x的歸屬。

        2 實(shí)驗(yàn)分析

        信用風(fēng)險評級是借貸機(jī)構(gòu)根據(jù)客戶提供的信息,構(gòu)造某種分類器對其進(jìn)行分類,以便做出正確的借貸決策,確保損失達(dá)到最小的過程。對一組德國的信用數(shù)據(jù)[15]用本文的方法進(jìn)行分類實(shí)驗(yàn)。該數(shù)據(jù)包括1 000個樣本,其中700個樣本屬于“信用好”型,另外的300個樣本屬于“信用差”型。每個樣本含有包括借貸目的、借貸金額、工作性質(zhì),以及個人信息在內(nèi)的24項(xiàng)衡量指標(biāo)。為了說明該法的分類有效性,同時對此數(shù)據(jù)用 Linear SVM,RBF-kernel SVM等方法進(jìn)行分類,并將結(jié)果進(jìn)行比較。實(shí)驗(yàn)結(jié)果包括2類各自的分類準(zhǔn)確率和總體分類準(zhǔn)確率。為了方便設(shè)定為“信用好”型和“信用差”型,總體的分類準(zhǔn)確率分別記為a1、a2、a,測試集中被正確分為“信用好”“信用差”,被正確分類的樣本書分別記為b1、b2、b,測試集為“信用好”“信用差”,測試集總的樣本數(shù)分別記為c1、c2、c,則:

        將24項(xiàng)衡量指標(biāo)分別記為 x1,x2…x24,經(jīng)過鄰域粗糙集特征選擇后被選出的特征為x1,x2,x3,x4,x6,x7,x8,x9,x11,x12,x13,x14。實(shí)驗(yàn)中每類分別隨機(jī)選取40、60、80、100、120、140、160、180 個樣本作為訓(xùn)練集,剩余樣本作為測試集,每種情況重復(fù)實(shí)驗(yàn)20次,最后取平均值作為該情況下的結(jié)果。實(shí)驗(yàn)結(jié)果如表1~3所示。

        表1 “信用差”型分類準(zhǔn)確率比較

        表2 “信用好”型分類準(zhǔn)確率比較

        表3 總體分類準(zhǔn)確率比較

        從表1可以看出當(dāng)訓(xùn)練集樣本數(shù)為80、100、120、140、180時,本文提出的方法對“信用差”型樣本的分類效果要優(yōu)于其他2種方法。由于將一個本屬于“信用差”的樣本誤判帶來的損失要遠(yuǎn)遠(yuǎn)大于將一個本屬于“信用好”的樣本誤判帶來的損失,所以提高“信用差”型樣本的分類準(zhǔn)確率是信用風(fēng)險評級的一個最為重要的目標(biāo)。從表1看到:當(dāng)訓(xùn)練集樣本數(shù)量大于等于60時該法對“信用差”型樣本的分類準(zhǔn)確率均超過了70%。這也說明了該方法的有效性。

        從表2可以看到當(dāng)訓(xùn)練集樣本為40、60、80、140時本文提出的方法對于“信用好”這類的分類準(zhǔn)確率要高于其他2種方法。同時,本文提出的方法對于“信用好”這類的分類準(zhǔn)確率大都在70%以上。

        從表3可以看到當(dāng)訓(xùn)練集樣本數(shù)量為40、80、100、120、140、180時本文提出的分類方法的總體準(zhǔn)確率超過了其他2種方法,而當(dāng)訓(xùn)練集樣本數(shù)為60、160時RBF SVM方法效果較好。

        根據(jù)上述實(shí)驗(yàn)結(jié)果認(rèn)為,基于鄰域粗糙集和距離判別信用風(fēng)險評級方法是一種更為有效的評級方法。

        3 結(jié)束語

        本文提出了一種基于鄰域粗糙集和距離判別的信用風(fēng)險評級方法。通過鄰域粗糙集特征選擇去掉了樣本中的冗余信息,快速降低了樣本屬性的維數(shù),簡化了計算過程。距離判別中采用馬氏距離,消除了各屬性量綱差異對分類帶來的不良影響。應(yīng)用該法對現(xiàn)實(shí)數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。結(jié)果表明,基于鄰域粗糙集和距離判別的信用風(fēng)險評級方法是一種更為有效的分類方法。

        [1]Angelini E,Tollo G,Roli A.A neural network approach for credit risk evaluation[J].The Quarterly Review of E-conomics and Finance,2008,48(4):733 -755.

        [2]Bellotti T,Crook J.Support Vector machines for credit scoring and significant features.[J].Expert systems with Applications,2009,36(2):3302 -3308.

        [3]Danenas P,Garsva G,Saulius Gudas.Credit Risk Evaluation Model Development Using Support Vector Based Classifiers[J].Procedia Computer Science,2011(4):1699-1707.

        [4]余珺,鄭先斌,張小海.基于多核優(yōu)選的裝備費(fèi)用支持向量機(jī)預(yù)測法[J].四川兵工學(xué)報,2011(6):118-119.

        [5]萬輝.一種基于最小二乘支持向量機(jī)的圖像增強(qiáng)算法[J].重慶理工大學(xué)學(xué)報:自然科學(xué)版,2011(6):53-57.

        [6]鄔嘯,魏延,吳瑕.基于混合核函數(shù)的支持向量機(jī)[J].重慶理工大學(xué)學(xué)報:自然科學(xué)版,2011(10):66-70.

        [7]Bee Wah Yap,Seng Huat.Nor Huselina Mohamed Husain Mohamed Husain.Using data mining to improve assessment of credit worthiness via credit scoring models[J].Expert Systems withApplication,2011,38(10):13274-13283.

        [8]Lean Y,Yao X,Wang S Y.Credit risk evaluation using a weighted least squares SVM classifier with design of experiment for parameter selection[J].Expert systems with Application,2011,38(12):15392 -15399.

        [9]Yao P,Lu Y H.Neighborhood rough set and SVM based hybrid credit scoring classifier[J].Expert systems with Application,2011,38(9):11300 -11304.

        [10]Hu Q H,Daren Yu,Liu J F.Neighborhood rough set based heterogeneous feature subset selection[J].Information Sciences,2008,178:3577 -3594.

        [11]Meng Z Q,Shi Z Z.Extended rough set-based attribute reduction in inconsistent incomplete decision systems.[J].Information Sciences,2012,204:44 -69.

        [12]Zhang S W,Huan D S,Wang S L.A method of tumor classification based on wavelet packet transforms and neighborhood rough set[J].Computers in Biology and Medicine,2010,40:430 -437.

        [13]Pawlak Z.Rough sets[J].International Journal of Computer and Information Science,1982,11:341 -356.

        [14]王磊,王金山,沈浮.一種基于灰色絕對關(guān)聯(lián)度的變精度粗糙集模型[J].重慶理工大學(xué)學(xué)報:自然科學(xué)版,2012(5):123-126.

        [15]Zhou X F,Jiang W H,Shi Y.Credit risk evaluation by using nearest subspace method[J].Procedia Computer Science,2010(1):2449 -2455.

        [16]Zhou X F,Jiang W H,Shi Y.Credit risk evaluation with kernel-based affine subspace nearest points learning method[J].Expert systems with Application,2011,38(4):4272-4279.

        猜你喜歡
        分類方法
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        學(xué)習(xí)方法
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        美女国产毛片a区内射| 久久精品无码一区二区三区不卡| 精品丝袜一区二区三区性色| av在线播放亚洲天堂| 欧美综合天天夜夜久久| 精品久久久久久中文字幕| 成人在线免费视频亚洲| 亚洲国产精品av麻豆一区| 丝袜美腿亚洲一区二区| 三级在线看中文字幕完整版| 国产资源精品一区二区免费| 国产色婷亚洲99精品av网站| 中文字幕 亚洲精品 第1页| 青青草原精品99久久精品66| 99久久超碰中文字幕伊人| 国产女主播在线免费看| 男女18禁啪啪无遮挡激烈网站| 日韩在线一区二区三区免费视频 | 国产美女在线一区二区三区| 免费人成黄页网站在线观看国产| 青青草小视频在线播放| 国产av永久无码天堂影院| 99er视频| 成人全视频在线观看免费播放| 蜜桃成熟时在线观看免费视频| 中国老熟妇自拍hd发布| 亚洲欧美日韩国产精品一区| 女同舌吻互慰一区二区| 朋友的丰满人妻中文字幕| 草草网站影院白丝内射| 日本经典中文字幕人妻| 成人性生交大片免费入口| 国产乱xxⅹxx国语对白| 久久这里有精品国产电影网| 亚洲av色福利天堂久久入口| 巨人精品福利官方导航| 四虎精品影视| 亚洲国产综合精品一区最新| 亚洲国产一二三精品无码| 两个黑人大战嫩白金发美女| 久久九九av久精品日产一区免费 |