亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于C4.5決策樹對SVM的結(jié)合優(yōu)化分析

        2021-04-25 17:24:54楊田毅高煒皓劉宇陽
        科學(xué)家 2021年24期
        關(guān)鍵詞:模型

        楊田毅 高煒皓 劉宇陽

        摘要:本文首先進(jìn)行數(shù)據(jù)預(yù)處理,將20個指標(biāo)的數(shù)據(jù)正向化并標(biāo)準(zhǔn)化,運用SPSS分層抽取80%的訓(xùn)練集和測試集,由于SVM對高維數(shù)據(jù)不能主動進(jìn)行特征提取,我們通過C4.5決策樹算法進(jìn)行降維,在有監(jiān)督的情況下,通過SVM對訓(xùn)練集進(jìn)行訓(xùn)練,并采用GWO灰狼算法對參數(shù)進(jìn)行優(yōu)化,求出預(yù)測模型,通過檢驗此模型擬合效果良好,可以運用此模型對計算結(jié)果進(jìn)行分析測試。

        關(guān)鍵詞:數(shù)據(jù)預(yù)處理 ?分層抽取 ?C4.5決策樹算法

        一、問題的背景

        隨著我國商業(yè)銀行商業(yè)消費信貸業(yè)務(wù)的迅猛發(fā)展,個人信用評估得到的空前的重視,有研究表明,導(dǎo)致銀行破產(chǎn)的最常見原因就是信用風(fēng)險。因此,科學(xué)有效的個人信用評估方法成為了商業(yè)銀行風(fēng)險控制、進(jìn)一步促進(jìn)消費信貸發(fā)展的關(guān)鍵。

        二、問題的提出

        本題要求對已給出風(fēng)險信息的相關(guān)屬性建立分類模型,對銀行客戶個人的信用風(fēng)險進(jìn)行準(zhǔn)確評估。給出的數(shù)據(jù)集來自個人信用評分方面應(yīng)用廣泛的公開數(shù)據(jù)集。該數(shù)據(jù)集一共包含 20個相關(guān)屬性(即 20個指標(biāo)變量),1個類別變量(即個人信用風(fēng)險優(yōu)/劣)。共有 1000個樣本點,其中包括 700個優(yōu)質(zhì)客戶和 300個不良客戶。

        本文根據(jù)以上背景,結(jié)合數(shù)學(xué)知識,設(shè)計方法完成以下問題:

        (四) 對數(shù)據(jù)進(jìn)行適當(dāng)?shù)財?shù)值化處理,并在數(shù)據(jù)集中分別抽取 80%的數(shù)據(jù)(560個優(yōu)質(zhì)客戶和 240個不良客戶)作為訓(xùn)練集,建立銀行客戶的個人信用風(fēng)險評估模型。

        (五) 并用剩余樣本(140個優(yōu)質(zhì)客戶和 60個不良客戶)進(jìn)行模型計算結(jié)果的測試。

        三、問題分析

        根據(jù)收集的1000個樣本點的數(shù)據(jù)集,需要在抽取的訓(xùn)練集基礎(chǔ)上建立個人信用風(fēng)險評估模型,并對剩余樣本進(jìn)行結(jié)果測試。首先,我們對訓(xùn)練集進(jìn)行數(shù)值化處理,由于題目中所給出的20個相關(guān)屬性較多,過多的信息會使模型復(fù)雜度增加,因此選擇C4.5決策樹利用自身屬性篩選的方法對個人信用評價模型進(jìn)行降維。其次,在數(shù)據(jù)預(yù)處理后,對于抽取的訓(xùn)練集,要在已知客戶相關(guān)屬性的情況下對類別進(jìn)行分類,利用支持向量機(jī)SVM評估信用好壞,以結(jié)構(gòu)最小化為優(yōu)化目標(biāo),在有限樣本和模型的復(fù)雜性和學(xué)習(xí)能力中尋求最佳折中。再對數(shù)據(jù)進(jìn)行二分類,假設(shè)本題是線性不可分的問題,通過多項式核函數(shù)來簡化運算,之后對多項式核函數(shù)調(diào)參,在此采取灰狼算法GWO優(yōu)化參數(shù),最終得到基于決策樹和支持向量機(jī)的信用評價模型。帶入剩余樣本進(jìn)行模型計算結(jié)果的測試。

        四、模型建立與求解

        4.1 數(shù)據(jù)預(yù)處理

        由于所給指標(biāo)的方向及量綱均不同,且對于部分指標(biāo)而言,指標(biāo)的數(shù)字大小不能代表該種情況的好壞(即虛擬變量),對指標(biāo)進(jìn)行整理,不同類型的指標(biāo)分別包括:

        極大型指標(biāo):A1,A5,A6,A7,A10,A11,A14,A15,A17;

        區(qū)間型指標(biāo):A13;

        極小型指標(biāo):A2,A3,A8,A12,A16,A18;

        虛擬變量(數(shù)字沒有實際意義):A4,A9,A19,A20。

        為此,我們通過SPSS,首先將不同類型的指標(biāo)處理為正向化指標(biāo)(即數(shù)字越大代表越好),然后再進(jìn)行z標(biāo)準(zhǔn)化處理,虛擬變量則直接進(jìn)行z標(biāo)準(zhǔn)化處理。

        4.2基于C4.5決策樹的特征提取

        由于支持向量機(jī)[1]對高維數(shù)據(jù)不能主動進(jìn)行特征選擇,我們首先基于C4.5決策樹[2]對數(shù)據(jù)進(jìn)行特征的提取,然后再通過支持向量機(jī)對數(shù)據(jù)進(jìn)行訓(xùn)練,具體算法過程如下:

        決策樹學(xué)習(xí)采取自頂向下的遞歸方式,從樹根節(jié)點開始在內(nèi)部進(jìn)行屬性的測試比較,再根據(jù)屬性值確定分支, 最后在決策樹的葉子節(jié)點得到分類的結(jié)論, 整個過程在以新的節(jié)點為根的子樹上重復(fù), 直到訓(xùn)練停止得到最優(yōu)決策樹。

        C4.5決策樹的剪枝策略采用的是后剪枝的方法。后剪枝策略首先需要構(gòu)造完整的決策樹,允許決策樹過度擬合訓(xùn)練數(shù)據(jù),然后對那些置信度不夠的子樹節(jié)點用葉節(jié)點來替代。以SPSS分層隨機(jī)抽取的80%的數(shù)據(jù)作為訓(xùn)練集,剩下的作為測試集,兩組比例為4:1,查閱文獻(xiàn)可知,將損失比例設(shè)為2:1最佳,Boosting[3]迭代次數(shù)設(shè)置為默認(rèn)值10,

        假設(shè)訓(xùn)練數(shù)據(jù)集中包含n類別,分別為T={t1,t2…tn},根據(jù)訓(xùn)練數(shù)據(jù)集中某屬性A可能有(a1,a2…am),共m種取值,根據(jù)屬性A劃分為T={t1′,t2′…tn′},其他屬性皆類似于屬性A。我們注意到?jīng)Q策樹算法中的DI3算法用信息增益選擇屬性的特點,但由于DI3算法信息增益選擇屬性時偏向于選擇取值多的屬性和其只能處理離散型的屬性,我們在此基礎(chǔ)上選擇C4.5決策樹算法,以信息熵增益率方法測試屬性,信息熵增益率計算公式為:

        其中,D為數(shù)據(jù)集,A是數(shù)據(jù)集屬性,Gain(D,A)為屬性A的信息增益,Split_info(D,A)為屬性A的分裂信息量。

        通過計算所有屬性的信息增益率,選出具有最大信息增益率值的屬性作為決策樹的根點。然后,以同樣的方法確定決策樹各層的節(jié)點

        五、結(jié)論

        我們通過C4.5決策樹算法進(jìn)行降維,在有監(jiān)督的情況下,通過SVM對訓(xùn)練集進(jìn)行訓(xùn)練,并采用GWO灰狼算法對參數(shù)進(jìn)行優(yōu)化,求出預(yù)測模型,通過檢驗此模型擬合效果良好,可以運用此模型對計算結(jié)果進(jìn)行分析測試

        參考文獻(xiàn)

        [1]曹平蘋,劉倩,毛舟. 賦能綠色低碳發(fā)展的“常德實踐”[N]. 金融時報,2021-12-28(010).

        [2]唐珂,劉淼,王梅,紀(jì)曉明. 綠色金融讓白城“風(fēng)光”無限[N]. 金融時報,2021-12-28(010).

        [3]何穎,裴文靜.金融驅(qū)動甘肅中藥材產(chǎn)業(yè)融合的發(fā)展模式分析[J].農(nóng)業(yè)開發(fā)與裝備,2021(12):36-39.

        [4]陳衍水. 福建金融業(yè) 探尋綠水青山間的“黃金路”[N]. 農(nóng)村金融時報,2021-12-27(A01).

        [5]鄭長靈,蔣敏. 郵儲銀行景德鎮(zhèn)市分行 消費貸款助力老百姓消費升級[N]. 農(nóng)村金融時報,2021-12-27(A05).

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機(jī)模型
        提煉模型 突破難點
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達(dá)及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        3D打印中的模型分割與打包
        手机在线看片国产人妻| 国产精品一区一区三区| 亚洲另类欧美综合久久图片区| 成人无码无遮挡很H在线播放| 日本一区二区三区在线播放| 亚洲国产精品国自产拍久久蜜av | 极品美女扒开粉嫩小泬图片| 人妻少妇偷人精品无码| 开心五月激情综合婷婷色 | 无码成人片一区二区三区| 国产精品很黄很色很爽的网站| 日本一区二区三区高清视| 精品人无码一区二区三区| 亚洲国产天堂久久综合网| а√天堂资源8在线官网在线| 成人国产精品一区二区网站| 亚洲日产国无码| 国产精品女丝袜白丝袜美腿| 午夜被窝精品国产亚洲av香蕉 | 自拍情爱视频在线观看| 日本区一区二区三视频| 国产精品狼人久久久久影院| 亚洲精品成人片在线观看| 精品久久杨幂国产杨幂| 男人的天堂av你懂得| 欧美黑人巨大videos精品| 东京热人妻无码一区二区av| 国产精品白浆一区二小说| 亚洲 暴爽 AV人人爽日日碰| 日本在线一区二区三区四区| 亚洲av无码国产精品色午夜软件| 夜夜未满十八勿进的爽爽影院| 久久国产精品国产精品日韩区| 蜜桃成人永久免费av大| 日本a级免费大片网站| 亚洲码国产精品高潮在线| 亚洲无码a∨在线视频| 免费啪啪av人妻一区二区| 91偷拍与自偷拍亚洲精品86| 精品人妻伦九区久久aaa片| 久久亚洲国产中v天仙www|