亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于決策樹模型的信用風(fēng)險(xiǎn)等級預(yù)測

        2022-08-24 03:39:04游杰蘚重慶理工大學(xué)
        品牌研究 2022年23期
        關(guān)鍵詞:信用等級決策樹貝葉斯

        文/游杰蘚(重慶理工大學(xué))

        一、引言

        現(xiàn)在人們在外面借共享充電寶、騎共享單車、支付寶的花唄等,都是基于一個(gè)人的信用,可以說信用現(xiàn)在已經(jīng)影響到我們生活的方方面面,而且對企業(yè)和個(gè)人的信用預(yù)測是金融領(lǐng)域的主要研究問題。中國的銀行等金融機(jī)構(gòu)也正在面臨著互聯(lián)網(wǎng)金融的挑戰(zhàn),如某東的白條、一些*唄、一些*粒貸等。因此,對信用等級的預(yù)測也引起了金融機(jī)構(gòu)從業(yè)人員的極大興趣,對信用等級預(yù)測準(zhǔn)確率的提高是當(dāng)前金融領(lǐng)域亟待解決的問題。

        以前一些專家對信用的評價(jià)主要是用一些傳統(tǒng)的統(tǒng)計(jì)方法,例如根據(jù)人們以往的收入、工作、家庭等情況來判斷一個(gè)人的信用等級,其最大的優(yōu)點(diǎn)是有清晰的解釋性,但缺點(diǎn)是前提條件非常嚴(yán)格,且其結(jié)果往往帶有主觀性,數(shù)據(jù)也有滯后性和不及時(shí)性。而現(xiàn)在利用機(jī)器學(xué)習(xí)算法模型進(jìn)行建模預(yù)測信用的方法已獲得了廣泛的應(yīng)用。在機(jī)器學(xué)習(xí)算法模型中,決策樹是最常用的算法模型之一。

        在互聯(lián)網(wǎng)技術(shù)發(fā)展迅速的時(shí)代,利用人工智能去處理大量的數(shù)據(jù)已經(jīng)成了現(xiàn)在的主流。而機(jī)器學(xué)習(xí)作為人工智能的核心,已經(jīng)受到了廣泛的關(guān)注。本文運(yùn)用機(jī)器學(xué)習(xí)的五種模型分別對四個(gè)國家的人們的以前數(shù)據(jù)進(jìn)行信用預(yù)測,以選出最優(yōu)方法。

        二、相關(guān)工作

        由于互聯(lián)網(wǎng)的發(fā)展,機(jī)器學(xué)習(xí)的模型算法已被廣泛運(yùn)用到對信用風(fēng)險(xiǎn)、信用等級的預(yù)測上,目前已經(jīng)取得了不錯(cuò)的效果。方匡南等人使用Lassologistic進(jìn)行指標(biāo)的篩選、構(gòu)建個(gè)人信用風(fēng)險(xiǎn)評估模型,提高了信用風(fēng)險(xiǎn)預(yù)警的效果。沈翠華和高萬林(2004)利用SVM對企業(yè)信用等級鏡像分析[5]。Hui-Chung Yeh(2007)運(yùn)用決策樹、神經(jīng)網(wǎng)絡(luò)以及判別分析方法進(jìn)行信用評估時(shí)得出決策樹分類準(zhǔn)確率最高,線性判別分析準(zhǔn)確率最低的結(jié)論。鄭也夫、徐軍等(2012)對60家上市公司與75家非上市公司,通過機(jī)器學(xué)習(xí)的一些模型進(jìn)行比較研究,得出決策樹的算法在上市公司信用風(fēng)險(xiǎn)評估中效果最好的結(jié)論。

        在決策樹運(yùn)用的其他研究方面,張凱、丁波等人采用決策樹算法構(gòu)建了預(yù)測成人學(xué)位英語考試成績的分類模型,其預(yù)測準(zhǔn)確率為81%。王聯(lián)英等人將決策樹算法用在人力資源推薦方面,以此提升招聘平臺的人力資源推薦質(zhì)量。

        此外,已經(jīng)有越來越多的企業(yè)都建立了自己的信用評分體系,如*巴的“芝麻信用”、*訊的“*信用”等。

        綜上,目前已有大量學(xué)者和企業(yè)在研究采用機(jī)器學(xué)習(xí)算法進(jìn)行信用等級預(yù)測,總結(jié)出了一些最優(yōu)算法模型。

        三、模型介紹

        (一)實(shí)驗(yàn)?zāi)P徒Y(jié)構(gòu)

        大數(shù)據(jù)個(gè)人征信是指將云計(jì)算、大數(shù)據(jù)分析等新技術(shù)運(yùn)用到個(gè)人征信系統(tǒng)的信用評估和數(shù)據(jù)預(yù)測等環(huán)節(jié),通過對個(gè)人可變的信用數(shù)據(jù)進(jìn)行不斷地采集而實(shí)現(xiàn)動(dòng)態(tài)的信用分析。

        本文通過決策樹的構(gòu)造算法及應(yīng)該以怎樣的順序來選取實(shí)例的屬性進(jìn)行擴(kuò)展予以說明,并分析了其他幾種模型算法的優(yōu)缺點(diǎn),以得出信用等級預(yù)測結(jié)果準(zhǔn)確率相對較好的模型。

        (二)DECISION TREE 決策樹

        1.概述

        DECISION TREE算法是從機(jī)器學(xué)習(xí)領(lǐng)域中逐漸發(fā)展起來的,它采用了從最頂向下的遞歸方式來構(gòu)造決策樹。最早的決策樹算法是概念學(xué)習(xí)系統(tǒng),之后的許多決策樹算法基本是概念學(xué)習(xí)系統(tǒng)衍生而來的。如今,利用DECISION TREE算法對數(shù)據(jù)進(jìn)行分類得到了深入的研究。由此,在決策樹的基礎(chǔ)上又形成了越來越多的生成算法。

        2.決策樹的構(gòu)造算法

        假設(shè)如下:給定訓(xùn)練集TR,分類對象的屬性表AttrList為[A1,A2,A3,……,An],全部分類結(jié)果構(gòu)成的集合為Class,表示為{C1,C2,C3,……,Cm},一般n≥1和m≥2。對每一屬性Ai,其值域?yàn)閂alueType(Ai),值域可以是離散的,也可以是連續(xù)的。這樣決策樹TR的元素就可表示成的形 式,其 中X=(a1,a2,a3,……,an),ai對應(yīng)于實(shí)例地i個(gè)屬性的取值,C∈Class為實(shí)例X的分類結(jié)果。

        輸入:訓(xùn)練集TR={特征向量Xn,分類結(jié)果Cn}Nn=1,屬性列表AttrList

        輸出:以屬性Ai為根節(jié)點(diǎn)的決策樹

        (1)從屬性表中選擇某一屬性Ai作為檢測屬性。

        (2)根據(jù)Ai取值的不同,將TR劃分為k個(gè)訓(xùn)練集TR1,TR2,TR3,……, TRk,其 中,TRj={|∈TR且V(X,Ai)為屬性Ai的第j個(gè)值}。

        (3)從屬性表中扣除已做檢測的屬性Ai。

        (4)對每一個(gè)j,用TRj和新的屬性表遞歸調(diào)用CLS以生成字分支決策樹DTRi。

        (5)返回以屬性Ai為根,DTR1,DTR2,DTR3,……,DTRk為子樹的決策樹。

        3.屬性的選取方法-信息熵

        屬性的重要性不同,選取方法不同,對樹的構(gòu)造及結(jié)果的準(zhǔn)確率往往是不同的,以下是屬性的選擇方法:

        (1)信息熵:

        (2)信息增益Gain:Coin(S,A)

        (三)SVM(Support Vector Machine)支持向量機(jī)

        支持向量機(jī)是在監(jiān)督學(xué)習(xí)中最有影響力的方法之一。SVM輸出的僅僅是樣本的類別,且SVM最重要的創(chuàng)新是核函數(shù)。

        (四)KNN(K-Nearest Neighbor)K-最近鄰

        K近鄰算法是一種統(tǒng)計(jì)分類器,于1968年提出,是最簡單的有監(jiān)督的機(jī)器算法之一,對包容性數(shù)據(jù)的特征變量篩選特別有效。

        (五)NAIVE BAYES樸素貝葉斯

        貝葉斯定理是英國數(shù)學(xué)家貝葉斯發(fā)明的,它主要描述了兩個(gè)概率之間關(guān)系的定理。因?yàn)樗膽?yīng)用廣泛性和良好統(tǒng)計(jì)推斷性質(zhì),被越來越多地應(yīng)用于各個(gè)領(lǐng)域,成為現(xiàn)代統(tǒng)計(jì)學(xué)的重要分支。

        (六)CNN(Convolutional Neural Network)卷積神經(jīng)網(wǎng)絡(luò)

        卷積的目的在于將某些特征從圖像中提取出來,就像視覺系統(tǒng)去辨識有方向性的物體邊緣。卷積神經(jīng)網(wǎng)絡(luò)是受視覺神經(jīng)機(jī)制的啟發(fā)而設(shè)計(jì)的一種特殊的深層神經(jīng)網(wǎng)絡(luò)模型。

        四、實(shí)驗(yàn)結(jié)果

        我們用以上五種模型分別預(yù)測了四個(gè)不同國家的人們信用數(shù)據(jù)集。

        (一)評價(jià)標(biāo)準(zhǔn)

        (1)準(zhǔn)確率(ACC):指使用測試集對模型進(jìn)行分類時(shí),分類正確的記錄個(gè)數(shù)占總記錄個(gè)數(shù)的比例:

        TP(True positives):被正確地劃分為正例的個(gè)數(shù);TN(True negatives):被正確地劃分為負(fù)例的個(gè)數(shù);FP(False positive):被錯(cuò)誤地劃分為正例的個(gè)數(shù);FN(False negative):被錯(cuò)誤地劃分為負(fù)例的個(gè)數(shù)。

        (2)F1分?jǐn)?shù)(F1 Score),F(xiàn)1分?jǐn)?shù)能看作是模型精確率和召回率的一種加權(quán)平均,它的最大值是1,最小值是0。

        Precision,即精度是精確性的度量,表示被分為正例的示例中實(shí)際為正例的比例。

        Recall,即召回率是覆蓋面的度量,度量有多個(gè)正例被分為正例。

        表2 以F1分?jǐn)?shù)為標(biāo)準(zhǔn)的Chinese Credit Approval Data Set

        表3 以準(zhǔn)確率(ACC)為標(biāo)準(zhǔn)的Japanese Credit Screening Data Set

        表4 以F1-score為標(biāo)準(zhǔn)的Japanese Credit Screening Data Set

        表5 以準(zhǔn)確率(ACC)為標(biāo)準(zhǔn)的Statlog (Australian Credit Approval) Data Set

        (二)結(jié)果

        表1至表8是用五種模型得出的四個(gè)國家的人們信用等級預(yù)測,分別用了ACC和F1-score評價(jià)標(biāo)準(zhǔn),五種機(jī)器學(xué)習(xí)算法模型的準(zhǔn)確率如表1-8所示。

        表1 以準(zhǔn)確率(ACC)為標(biāo)準(zhǔn)的Chinese Credit Approval Data Set

        表8 以F1-score為標(biāo)準(zhǔn)的Statlog (German Credit Data) Data Set

        五、實(shí)驗(yàn)分析

        實(shí)驗(yàn)分別運(yùn)用機(jī)器學(xué)習(xí)的五種模型對四個(gè)不同國家的個(gè)人信用進(jìn)行預(yù)測。首先運(yùn)用支持向量機(jī)、K-最近鄰、樸素貝葉斯、決策樹、卷積神經(jīng)網(wǎng)絡(luò)五種不同的算法對數(shù)據(jù)集進(jìn)行訓(xùn)練,以便記住相關(guān)指標(biāo)和模型對分類準(zhǔn)確度的貢獻(xiàn)率,為測試集中的試驗(yàn)做準(zhǔn)備。

        從表中的數(shù)據(jù)總體可以看出,無論是對哪一個(gè)國家的信用等級預(yù)測,用卷積網(wǎng)絡(luò)模型(CNN)對人的信用預(yù)測所得出的結(jié)果的準(zhǔn)確率都是最低的,這是因?yàn)镃NN具有的缺點(diǎn);另外是卷積神經(jīng)網(wǎng)絡(luò)目前廣泛應(yīng)用于圖像處理領(lǐng)域,對圖像進(jìn)行領(lǐng)域間采樣,在數(shù)據(jù)挖掘方面不如其他幾種算法模型。

        而支持向量機(jī)、K-最近鄰、樸素貝葉斯的預(yù)測結(jié)果的準(zhǔn)確率相差不大,但預(yù)測結(jié)果的準(zhǔn)確率都不如決策樹高。相較于CNN,SVM能利用有限的訓(xùn)練數(shù)據(jù)信息,力圖在模型的學(xué)習(xí)能力與其復(fù)雜性之間取得較好的折中;但是SVM對于無法直接輸入又含有一定結(jié)構(gòu)信息的結(jié)構(gòu)化數(shù)據(jù)不能直接解決。

        表6 以F1-score為標(biāo)準(zhǔn)的Statlog (Australian Credit Approval) Data Set

        表7 以準(zhǔn)確率(ACC)為標(biāo)準(zhǔn)的Statlog (German Credit Data) Data Set

        K-最近鄰(KNN)模型與其他算法不同的是,它不僅可以解決二分類場景的問題,并且也可以解決多分類的問題;但當(dāng)樣本量很大時(shí),很大一部分點(diǎn)附近沒有樣本點(diǎn),這就使利用空間中的每一附近的樣本點(diǎn)來構(gòu)造預(yù)估的近鄰法就非常難以運(yùn)用。

        樸素貝葉斯(Naive Bayes)在預(yù)測結(jié)果的準(zhǔn)確率上雖然比CNN高,但當(dāng)屬性個(gè)數(shù)較多或?qū)傩灾g相關(guān)性較大時(shí),它的分類效率不如決策樹模型,對樸素貝葉斯分類的準(zhǔn)確性有影響。

        從得出的實(shí)驗(yàn)結(jié)果總體看來,DECISION TREE算法模型在這五種模型中,對信用預(yù)測結(jié)果的準(zhǔn)確率是最高的,因?yàn)闆Q策樹能夠提取規(guī)則,構(gòu)建一棵決策樹;除此之外,決策樹僅通過少量比較就能找到樹葉,空間復(fù)雜度非常小,這使得該算法模型中的條件很簡單,易于理解。

        六、總結(jié)

        本文基于機(jī)器學(xué)習(xí)的幾種模型建模,并用真實(shí)數(shù)據(jù)集進(jìn)行信用等級準(zhǔn)確率的預(yù)測分析,最終選擇出來的決策樹算法模型在預(yù)測數(shù)據(jù)的準(zhǔn)確率上表現(xiàn)良好,在實(shí)際運(yùn)用中具有一定的研究意義。但在現(xiàn)實(shí)生活中,其問題的復(fù)雜程度要大得多,因此,其對信用預(yù)測的建模方法有待進(jìn)一步優(yōu)化。

        猜你喜歡
        信用等級決策樹貝葉斯
        一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
        決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        協(xié)會(huì)圓滿完成武器裝備科研生產(chǎn)單位信用等級評價(jià)擴(kuò)大試點(diǎn)工作
        貝葉斯公式及其應(yīng)用
        基于決策樹的出租車乘客出行目的識別
        基于貝葉斯估計(jì)的軌道占用識別方法
        住房抵押信貸信用等級的灰色評價(jià)方案研究
        一種基于貝葉斯壓縮感知的說話人識別方法
        電子器件(2015年5期)2015-12-29 08:43:15
        基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
        IIRCT下負(fù)二項(xiàng)分布參數(shù)多變點(diǎn)的貝葉斯估計(jì)
        蜜桃精品国产一区二区三区| 巨大欧美黑人xxxxbbbb| 免费国产99久久久香蕉| 亚洲女同恋中文一区二区| 亚洲女人毛茸茸粉红大阴户传播| 免费久久人人爽人人爽av| 成人爽a毛片一区二区免费| 在线视频一区二区观看| 真实夫妻露脸爱视频九色网| 久久精品国产视频在热| 97久久精品人人妻人人| 色婷婷综合一区二区精品久久| 自拍偷自拍亚洲精品第按摩| 国产裸体xxxx视频在线播放| 人妻少妇不满足中文字幕| 精品国产麻豆免费人成网站| 久久亚洲av成人无码国产最大| 亚洲av国产精品色午夜洪2| 亚洲另类激情专区小说婷婷久| 日韩亚洲一区二区三区在线 | 91亚洲最新国语中文字幕| 亚洲另类丰满熟妇乱xxxx| 性色做爰片在线观看ww| 久久精品国产99精品国偷 | 亚洲综合自拍偷拍一区| 九九热线有精品视频86| 国产精品久久1024| 少妇被躁到高潮和人狍大战| 亚洲视频一区二区蜜桃| 亚洲桃色视频在线观看一区| 中文字幕精品一区二区2021年| 国产一区二区精品久久凹凸| 日本免费看一区二区三区| 性生交片免费无码看人| 亚洲免费观看| av一区二区三区高清在线看| 无套内射在线无码播放| 午夜福利视频合集1000| 国产一区二区三区观看视频| 亚洲黄色精品在线播放| 国产偷国产偷精品高清尤物|