亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于決策樹模型的信用風(fēng)險(xiǎn)等級預(yù)測

2022-08-24 03:39:04游杰蘚重慶理工大學(xué)

品牌研究 2022年23期

文/游杰蘚（重慶理工大學(xué)）

一、引言

現(xiàn)在人們在外面借共享充電寶、騎共享單車、支付寶的花唄等，都是基于一個(gè)人的信用,可以說信用現(xiàn)在已經(jīng)影響到我們生活的方方面面，而且對企業(yè)和個(gè)人的信用預(yù)測是金融領(lǐng)域的主要研究問題。中國的銀行等金融機(jī)構(gòu)也正在面臨著互聯(lián)網(wǎng)金融的挑戰(zhàn)，如某東的白條、一些*唄、一些*粒貸等。因此，對信用等級的預(yù)測也引起了金融機(jī)構(gòu)從業(yè)人員的極大興趣，對信用等級預(yù)測準(zhǔn)確率的提高是當(dāng)前金融領(lǐng)域亟待解決的問題。

以前一些專家對信用的評價(jià)主要是用一些傳統(tǒng)的統(tǒng)計(jì)方法，例如根據(jù)人們以往的收入、工作、家庭等情況來判斷一個(gè)人的信用等級，其最大的優(yōu)點(diǎn)是有清晰的解釋性，但缺點(diǎn)是前提條件非常嚴(yán)格，且其結(jié)果往往帶有主觀性，數(shù)據(jù)也有滯后性和不及時(shí)性。而現(xiàn)在利用機(jī)器學(xué)習(xí)算法模型進(jìn)行建模預(yù)測信用的方法已獲得了廣泛的應(yīng)用。在機(jī)器學(xué)習(xí)算法模型中，決策樹是最常用的算法模型之一。

在互聯(lián)網(wǎng)技術(shù)發(fā)展迅速的時(shí)代，利用人工智能去處理大量的數(shù)據(jù)已經(jīng)成了現(xiàn)在的主流。而機(jī)器學(xué)習(xí)作為人工智能的核心，已經(jīng)受到了廣泛的關(guān)注。本文運(yùn)用機(jī)器學(xué)習(xí)的五種模型分別對四個(gè)國家的人們的以前數(shù)據(jù)進(jìn)行信用預(yù)測，以選出最優(yōu)方法。

二、相關(guān)工作

由于互聯(lián)網(wǎng)的發(fā)展，機(jī)器學(xué)習(xí)的模型算法已被廣泛運(yùn)用到對信用風(fēng)險(xiǎn)、信用等級的預(yù)測上，目前已經(jīng)取得了不錯(cuò)的效果。方匡南等人使用Lassologistic進(jìn)行指標(biāo)的篩選、構(gòu)建個(gè)人信用風(fēng)險(xiǎn)評估模型，提高了信用風(fēng)險(xiǎn)預(yù)警的效果。沈翠華和高萬林（2004）利用SVM對企業(yè)信用等級鏡像分析[5]。Hui-Chung Yeh（2007）運(yùn)用決策樹、神經(jīng)網(wǎng)絡(luò)以及判別分析方法進(jìn)行信用評估時(shí)得出決策樹分類準(zhǔn)確率最高，線性判別分析準(zhǔn)確率最低的結(jié)論。鄭也夫、徐軍等（2012）對60家上市公司與75家非上市公司，通過機(jī)器學(xué)習(xí)的一些模型進(jìn)行比較研究，得出決策樹的算法在上市公司信用風(fēng)險(xiǎn)評估中效果最好的結(jié)論。

在決策樹運(yùn)用的其他研究方面，張凱、丁波等人采用決策樹算法構(gòu)建了預(yù)測成人學(xué)位英語考試成績的分類模型，其預(yù)測準(zhǔn)確率為81%。王聯(lián)英等人將決策樹算法用在人力資源推薦方面，以此提升招聘平臺的人力資源推薦質(zhì)量。

此外，已經(jīng)有越來越多的企業(yè)都建立了自己的信用評分體系，如*巴的“芝麻信用”、*訊的“*信用”等。

綜上，目前已有大量學(xué)者和企業(yè)在研究采用機(jī)器學(xué)習(xí)算法進(jìn)行信用等級預(yù)測，總結(jié)出了一些最優(yōu)算法模型。

三、模型介紹

（一）實(shí)驗(yàn)?zāi)Ｐ徒Y(jié)構(gòu)

大數(shù)據(jù)個(gè)人征信是指將云計(jì)算、大數(shù)據(jù)分析等新技術(shù)運(yùn)用到個(gè)人征信系統(tǒng)的信用評估和數(shù)據(jù)預(yù)測等環(huán)節(jié)，通過對個(gè)人可變的信用數(shù)據(jù)進(jìn)行不斷地采集而實(shí)現(xiàn)動(dòng)態(tài)的信用分析。

本文通過決策樹的構(gòu)造算法及應(yīng)該以怎樣的順序來選取實(shí)例的屬性進(jìn)行擴(kuò)展予以說明，并分析了其他幾種模型算法的優(yōu)缺點(diǎn)，以得出信用等級預(yù)測結(jié)果準(zhǔn)確率相對較好的模型。

（二）DECISION TREE 決策樹

1.概述

DECISION TREE算法是從機(jī)器學(xué)習(xí)領(lǐng)域中逐漸發(fā)展起來的，它采用了從最頂向下的遞歸方式來構(gòu)造決策樹。最早的決策樹算法是概念學(xué)習(xí)系統(tǒng)，之后的許多決策樹算法基本是概念學(xué)習(xí)系統(tǒng)衍生而來的。如今，利用DECISION TREE算法對數(shù)據(jù)進(jìn)行分類得到了深入的研究。由此，在決策樹的基礎(chǔ)上又形成了越來越多的生成算法。

2.決策樹的構(gòu)造算法

假設(shè)如下：給定訓(xùn)練集TR，分類對象的屬性表AttrList為[A1,A2,A3,……，An],全部分類結(jié)果構(gòu)成的集合為Class，表示為{C1,C2,C3,……，Cm}，一般n≥1和m≥2。對每一屬性Ai，其值域?yàn)閂alueType（Ai）,值域可以是離散的，也可以是連續(xù)的。這樣決策樹TR的元素就可表示成的形式，其中X=（a1，a2，a3，……，an），ai對應(yīng)于實(shí)例地i個(gè)屬性的取值，C∈Class為實(shí)例X的分類結(jié)果。

輸入：訓(xùn)練集TR={特征向量Xn，分類結(jié)果Cn}Nn=1,屬性列表AttrList

輸出：以屬性Ai為根節(jié)點(diǎn)的決策樹

（1）從屬性表中選擇某一屬性Ai作為檢測屬性。

（2）根據(jù)Ai取值的不同，將TR劃分為k個(gè)訓(xùn)練集TR1,TR2,TR3,……, TRk，其中，TRj={|∈TR且V(X,Ai）為屬性Ai的第j個(gè)值}。

（3）從屬性表中扣除已做檢測的屬性Ai。

（4）對每一個(gè)j，用TRj和新的屬性表遞歸調(diào)用CLS以生成字分支決策樹DTRi。

（5）返回以屬性Ai為根，DTR1，DTR2，DTR3，……，DTRk為子樹的決策樹。

3.屬性的選取方法-信息熵

屬性的重要性不同，選取方法不同，對樹的構(gòu)造及結(jié)果的準(zhǔn)確率往往是不同的，以下是屬性的選擇方法：

（1）信息熵：

（2）信息增益Gain：Coin（S,A）

（三）SVM(Support Vector Machine)支持向量機(jī)

支持向量機(jī)是在監(jiān)督學(xué)習(xí)中最有影響力的方法之一。SVM輸出的僅僅是樣本的類別，且SVM最重要的創(chuàng)新是核函數(shù)。

（四）KNN（K-Nearest Neighbor）K-最近鄰

K近鄰算法是一種統(tǒng)計(jì)分類器，于1968年提出，是最簡單的有監(jiān)督的機(jī)器算法之一，對包容性數(shù)據(jù)的特征變量篩選特別有效。

（五）NAIVE BAYES樸素貝葉斯

貝葉斯定理是英國數(shù)學(xué)家貝葉斯發(fā)明的，它主要描述了兩個(gè)概率之間關(guān)系的定理。因?yàn)樗膽?yīng)用廣泛性和良好統(tǒng)計(jì)推斷性質(zhì)，被越來越多地應(yīng)用于各個(gè)領(lǐng)域，成為現(xiàn)代統(tǒng)計(jì)學(xué)的重要分支。

（六）CNN(Convolutional Neural Network)卷積神經(jīng)網(wǎng)絡(luò)

卷積的目的在于將某些特征從圖像中提取出來，就像視覺系統(tǒng)去辨識有方向性的物體邊緣。卷積神經(jīng)網(wǎng)絡(luò)是受視覺神經(jīng)機(jī)制的啟發(fā)而設(shè)計(jì)的一種特殊的深層神經(jīng)網(wǎng)絡(luò)模型。

四、實(shí)驗(yàn)結(jié)果

我們用以上五種模型分別預(yù)測了四個(gè)不同國家的人們信用數(shù)據(jù)集。

（一）評價(jià)標(biāo)準(zhǔn)

（1）準(zhǔn)確率（ACC）：指使用測試集對模型進(jìn)行分類時(shí)，分類正確的記錄個(gè)數(shù)占總記錄個(gè)數(shù)的比例：

TP(True positives):被正確地劃分為正例的個(gè)數(shù)；TN(True negatives):被正確地劃分為負(fù)例的個(gè)數(shù)；FP(False positive）：被錯(cuò)誤地劃分為正例的個(gè)數(shù)；FN(False negative):被錯(cuò)誤地劃分為負(fù)例的個(gè)數(shù)。

（2）F1分?jǐn)?shù)（F1 Score），F(xiàn)1分?jǐn)?shù)能看作是模型精確率和召回率的一種加權(quán)平均，它的最大值是1，最小值是0。

Precision，即精度是精確性的度量，表示被分為正例的示例中實(shí)際為正例的比例。

Recall,即召回率是覆蓋面的度量，度量有多個(gè)正例被分為正例。

表2 以F1分?jǐn)?shù)為標(biāo)準(zhǔn)的Chinese Credit Approval Data Set

表3 以準(zhǔn)確率(ACC)為標(biāo)準(zhǔn)的Japanese Credit Screening Data Set

表4 以F1-score為標(biāo)準(zhǔn)的Japanese Credit Screening Data Set

表5 以準(zhǔn)確率(ACC)為標(biāo)準(zhǔn)的Statlog (Australian Credit Approval) Data Set

（二）結(jié)果

表1至表8是用五種模型得出的四個(gè)國家的人們信用等級預(yù)測，分別用了ACC和F1-score評價(jià)標(biāo)準(zhǔn),五種機(jī)器學(xué)習(xí)算法模型的準(zhǔn)確率如表1-8所示。

表1 以準(zhǔn)確率(ACC)為標(biāo)準(zhǔn)的Chinese Credit Approval Data Set

表8 以F1-score為標(biāo)準(zhǔn)的Statlog (German Credit Data) Data Set

五、實(shí)驗(yàn)分析

實(shí)驗(yàn)分別運(yùn)用機(jī)器學(xué)習(xí)的五種模型對四個(gè)不同國家的個(gè)人信用進(jìn)行預(yù)測。首先運(yùn)用支持向量機(jī)、K-最近鄰、樸素貝葉斯、決策樹、卷積神經(jīng)網(wǎng)絡(luò)五種不同的算法對數(shù)據(jù)集進(jìn)行訓(xùn)練，以便記住相關(guān)指標(biāo)和模型對分類準(zhǔn)確度的貢獻(xiàn)率，為測試集中的試驗(yàn)做準(zhǔn)備。

從表中的數(shù)據(jù)總體可以看出，無論是對哪一個(gè)國家的信用等級預(yù)測，用卷積網(wǎng)絡(luò)模型（CNN）對人的信用預(yù)測所得出的結(jié)果的準(zhǔn)確率都是最低的，這是因?yàn)镃NN具有的缺點(diǎn)；另外是卷積神經(jīng)網(wǎng)絡(luò)目前廣泛應(yīng)用于圖像處理領(lǐng)域，對圖像進(jìn)行領(lǐng)域間采樣，在數(shù)據(jù)挖掘方面不如其他幾種算法模型。

而支持向量機(jī)、K-最近鄰、樸素貝葉斯的預(yù)測結(jié)果的準(zhǔn)確率相差不大，但預(yù)測結(jié)果的準(zhǔn)確率都不如決策樹高。相較于CNN，SVM能利用有限的訓(xùn)練數(shù)據(jù)信息，力圖在模型的學(xué)習(xí)能力與其復(fù)雜性之間取得較好的折中；但是SVM對于無法直接輸入又含有一定結(jié)構(gòu)信息的結(jié)構(gòu)化數(shù)據(jù)不能直接解決。

表6 以F1-score為標(biāo)準(zhǔn)的Statlog (Australian Credit Approval) Data Set

表7 以準(zhǔn)確率（ACC）為標(biāo)準(zhǔn)的Statlog (German Credit Data) Data Set

K-最近鄰（KNN）模型與其他算法不同的是，它不僅可以解決二分類場景的問題，并且也可以解決多分類的問題；但當(dāng)樣本量很大時(shí)，很大一部分點(diǎn)附近沒有樣本點(diǎn)，這就使利用空間中的每一附近的樣本點(diǎn)來構(gòu)造預(yù)估的近鄰法就非常難以運(yùn)用。

樸素貝葉斯（Naive Bayes）在預(yù)測結(jié)果的準(zhǔn)確率上雖然比CNN高，但當(dāng)屬性個(gè)數(shù)較多或?qū)傩灾g相關(guān)性較大時(shí)，它的分類效率不如決策樹模型,對樸素貝葉斯分類的準(zhǔn)確性有影響。

從得出的實(shí)驗(yàn)結(jié)果總體看來，DECISION TREE算法模型在這五種模型中，對信用預(yù)測結(jié)果的準(zhǔn)確率是最高的，因?yàn)闆Q策樹能夠提取規(guī)則，構(gòu)建一棵決策樹；除此之外，決策樹僅通過少量比較就能找到樹葉，空間復(fù)雜度非常小，這使得該算法模型中的條件很簡單，易于理解。

六、總結(jié)

本文基于機(jī)器學(xué)習(xí)的幾種模型建模，并用真實(shí)數(shù)據(jù)集進(jìn)行信用等級準(zhǔn)確率的預(yù)測分析，最終選擇出來的決策樹算法模型在預(yù)測數(shù)據(jù)的準(zhǔn)確率上表現(xiàn)良好，在實(shí)際運(yùn)用中具有一定的研究意義。但在現(xiàn)實(shí)生活中，其問題的復(fù)雜程度要大得多，因此，其對信用預(yù)測的建模方法有待進(jìn)一步優(yōu)化。