文/游杰蘚(重慶理工大學(xué))
現(xiàn)在人們在外面借共享充電寶、騎共享單車、支付寶的花唄等,都是基于一個(gè)人的信用,可以說信用現(xiàn)在已經(jīng)影響到我們生活的方方面面,而且對企業(yè)和個(gè)人的信用預(yù)測是金融領(lǐng)域的主要研究問題。中國的銀行等金融機(jī)構(gòu)也正在面臨著互聯(lián)網(wǎng)金融的挑戰(zhàn),如某東的白條、一些*唄、一些*粒貸等。因此,對信用等級的預(yù)測也引起了金融機(jī)構(gòu)從業(yè)人員的極大興趣,對信用等級預(yù)測準(zhǔn)確率的提高是當(dāng)前金融領(lǐng)域亟待解決的問題。
以前一些專家對信用的評價(jià)主要是用一些傳統(tǒng)的統(tǒng)計(jì)方法,例如根據(jù)人們以往的收入、工作、家庭等情況來判斷一個(gè)人的信用等級,其最大的優(yōu)點(diǎn)是有清晰的解釋性,但缺點(diǎn)是前提條件非常嚴(yán)格,且其結(jié)果往往帶有主觀性,數(shù)據(jù)也有滯后性和不及時(shí)性。而現(xiàn)在利用機(jī)器學(xué)習(xí)算法模型進(jìn)行建模預(yù)測信用的方法已獲得了廣泛的應(yīng)用。在機(jī)器學(xué)習(xí)算法模型中,決策樹是最常用的算法模型之一。
在互聯(lián)網(wǎng)技術(shù)發(fā)展迅速的時(shí)代,利用人工智能去處理大量的數(shù)據(jù)已經(jīng)成了現(xiàn)在的主流。而機(jī)器學(xué)習(xí)作為人工智能的核心,已經(jīng)受到了廣泛的關(guān)注。本文運(yùn)用機(jī)器學(xué)習(xí)的五種模型分別對四個(gè)國家的人們的以前數(shù)據(jù)進(jìn)行信用預(yù)測,以選出最優(yōu)方法。
由于互聯(lián)網(wǎng)的發(fā)展,機(jī)器學(xué)習(xí)的模型算法已被廣泛運(yùn)用到對信用風(fēng)險(xiǎn)、信用等級的預(yù)測上,目前已經(jīng)取得了不錯(cuò)的效果。方匡南等人使用Lassologistic進(jìn)行指標(biāo)的篩選、構(gòu)建個(gè)人信用風(fēng)險(xiǎn)評估模型,提高了信用風(fēng)險(xiǎn)預(yù)警的效果。沈翠華和高萬林(2004)利用SVM對企業(yè)信用等級鏡像分析[5]。Hui-Chung Yeh(2007)運(yùn)用決策樹、神經(jīng)網(wǎng)絡(luò)以及判別分析方法進(jìn)行信用評估時(shí)得出決策樹分類準(zhǔn)確率最高,線性判別分析準(zhǔn)確率最低的結(jié)論。鄭也夫、徐軍等(2012)對60家上市公司與75家非上市公司,通過機(jī)器學(xué)習(xí)的一些模型進(jìn)行比較研究,得出決策樹的算法在上市公司信用風(fēng)險(xiǎn)評估中效果最好的結(jié)論。
在決策樹運(yùn)用的其他研究方面,張凱、丁波等人采用決策樹算法構(gòu)建了預(yù)測成人學(xué)位英語考試成績的分類模型,其預(yù)測準(zhǔn)確率為81%。王聯(lián)英等人將決策樹算法用在人力資源推薦方面,以此提升招聘平臺的人力資源推薦質(zhì)量。
此外,已經(jīng)有越來越多的企業(yè)都建立了自己的信用評分體系,如*巴的“芝麻信用”、*訊的“*信用”等。
綜上,目前已有大量學(xué)者和企業(yè)在研究采用機(jī)器學(xué)習(xí)算法進(jìn)行信用等級預(yù)測,總結(jié)出了一些最優(yōu)算法模型。
大數(shù)據(jù)個(gè)人征信是指將云計(jì)算、大數(shù)據(jù)分析等新技術(shù)運(yùn)用到個(gè)人征信系統(tǒng)的信用評估和數(shù)據(jù)預(yù)測等環(huán)節(jié),通過對個(gè)人可變的信用數(shù)據(jù)進(jìn)行不斷地采集而實(shí)現(xiàn)動(dòng)態(tài)的信用分析。
本文通過決策樹的構(gòu)造算法及應(yīng)該以怎樣的順序來選取實(shí)例的屬性進(jìn)行擴(kuò)展予以說明,并分析了其他幾種模型算法的優(yōu)缺點(diǎn),以得出信用等級預(yù)測結(jié)果準(zhǔn)確率相對較好的模型。
1.概述
DECISION TREE算法是從機(jī)器學(xué)習(xí)領(lǐng)域中逐漸發(fā)展起來的,它采用了從最頂向下的遞歸方式來構(gòu)造決策樹。最早的決策樹算法是概念學(xué)習(xí)系統(tǒng),之后的許多決策樹算法基本是概念學(xué)習(xí)系統(tǒng)衍生而來的。如今,利用DECISION TREE算法對數(shù)據(jù)進(jìn)行分類得到了深入的研究。由此,在決策樹的基礎(chǔ)上又形成了越來越多的生成算法。
2.決策樹的構(gòu)造算法
假設(shè)如下:給定訓(xùn)練集TR,分類對象的屬性表AttrList為[A1,A2,A3,……,An],全部分類結(jié)果構(gòu)成的集合為Class,表示為{C1,C2,C3,……,Cm},一般n≥1和m≥2。對每一屬性Ai,其值域?yàn)閂alueType(Ai),值域可以是離散的,也可以是連續(xù)的。這樣決策樹TR的元素就可表示成
輸入:訓(xùn)練集TR={特征向量Xn,分類結(jié)果Cn}Nn=1,屬性列表AttrList
輸出:以屬性Ai為根節(jié)點(diǎn)的決策樹
(1)從屬性表中選擇某一屬性Ai作為檢測屬性。
(2)根據(jù)Ai取值的不同,將TR劃分為k個(gè)訓(xùn)練集TR1,TR2,TR3,……, TRk,其 中,TRj={
(3)從屬性表中扣除已做檢測的屬性Ai。
(4)對每一個(gè)j,用TRj和新的屬性表遞歸調(diào)用CLS以生成字分支決策樹DTRi。
(5)返回以屬性Ai為根,DTR1,DTR2,DTR3,……,DTRk為子樹的決策樹。
3.屬性的選取方法-信息熵
屬性的重要性不同,選取方法不同,對樹的構(gòu)造及結(jié)果的準(zhǔn)確率往往是不同的,以下是屬性的選擇方法:
(1)信息熵:
(2)信息增益Gain:Coin(S,A)
支持向量機(jī)是在監(jiān)督學(xué)習(xí)中最有影響力的方法之一。SVM輸出的僅僅是樣本的類別,且SVM最重要的創(chuàng)新是核函數(shù)。
K近鄰算法是一種統(tǒng)計(jì)分類器,于1968年提出,是最簡單的有監(jiān)督的機(jī)器算法之一,對包容性數(shù)據(jù)的特征變量篩選特別有效。
貝葉斯定理是英國數(shù)學(xué)家貝葉斯發(fā)明的,它主要描述了兩個(gè)概率之間關(guān)系的定理。因?yàn)樗膽?yīng)用廣泛性和良好統(tǒng)計(jì)推斷性質(zhì),被越來越多地應(yīng)用于各個(gè)領(lǐng)域,成為現(xiàn)代統(tǒng)計(jì)學(xué)的重要分支。
卷積的目的在于將某些特征從圖像中提取出來,就像視覺系統(tǒng)去辨識有方向性的物體邊緣。卷積神經(jīng)網(wǎng)絡(luò)是受視覺神經(jīng)機(jī)制的啟發(fā)而設(shè)計(jì)的一種特殊的深層神經(jīng)網(wǎng)絡(luò)模型。
我們用以上五種模型分別預(yù)測了四個(gè)不同國家的人們信用數(shù)據(jù)集。
(1)準(zhǔn)確率(ACC):指使用測試集對模型進(jìn)行分類時(shí),分類正確的記錄個(gè)數(shù)占總記錄個(gè)數(shù)的比例:
TP(True positives):被正確地劃分為正例的個(gè)數(shù);TN(True negatives):被正確地劃分為負(fù)例的個(gè)數(shù);FP(False positive):被錯(cuò)誤地劃分為正例的個(gè)數(shù);FN(False negative):被錯(cuò)誤地劃分為負(fù)例的個(gè)數(shù)。
(2)F1分?jǐn)?shù)(F1 Score),F(xiàn)1分?jǐn)?shù)能看作是模型精確率和召回率的一種加權(quán)平均,它的最大值是1,最小值是0。
Precision,即精度是精確性的度量,表示被分為正例的示例中實(shí)際為正例的比例。
Recall,即召回率是覆蓋面的度量,度量有多個(gè)正例被分為正例。
表2 以F1分?jǐn)?shù)為標(biāo)準(zhǔn)的Chinese Credit Approval Data Set
表3 以準(zhǔn)確率(ACC)為標(biāo)準(zhǔn)的Japanese Credit Screening Data Set
表4 以F1-score為標(biāo)準(zhǔn)的Japanese Credit Screening Data Set
表5 以準(zhǔn)確率(ACC)為標(biāo)準(zhǔn)的Statlog (Australian Credit Approval) Data Set
表1至表8是用五種模型得出的四個(gè)國家的人們信用等級預(yù)測,分別用了ACC和F1-score評價(jià)標(biāo)準(zhǔn),五種機(jī)器學(xué)習(xí)算法模型的準(zhǔn)確率如表1-8所示。
表1 以準(zhǔn)確率(ACC)為標(biāo)準(zhǔn)的Chinese Credit Approval Data Set
表8 以F1-score為標(biāo)準(zhǔn)的Statlog (German Credit Data) Data Set
實(shí)驗(yàn)分別運(yùn)用機(jī)器學(xué)習(xí)的五種模型對四個(gè)不同國家的個(gè)人信用進(jìn)行預(yù)測。首先運(yùn)用支持向量機(jī)、K-最近鄰、樸素貝葉斯、決策樹、卷積神經(jīng)網(wǎng)絡(luò)五種不同的算法對數(shù)據(jù)集進(jìn)行訓(xùn)練,以便記住相關(guān)指標(biāo)和模型對分類準(zhǔn)確度的貢獻(xiàn)率,為測試集中的試驗(yàn)做準(zhǔn)備。
從表中的數(shù)據(jù)總體可以看出,無論是對哪一個(gè)國家的信用等級預(yù)測,用卷積網(wǎng)絡(luò)模型(CNN)對人的信用預(yù)測所得出的結(jié)果的準(zhǔn)確率都是最低的,這是因?yàn)镃NN具有的缺點(diǎn);另外是卷積神經(jīng)網(wǎng)絡(luò)目前廣泛應(yīng)用于圖像處理領(lǐng)域,對圖像進(jìn)行領(lǐng)域間采樣,在數(shù)據(jù)挖掘方面不如其他幾種算法模型。
而支持向量機(jī)、K-最近鄰、樸素貝葉斯的預(yù)測結(jié)果的準(zhǔn)確率相差不大,但預(yù)測結(jié)果的準(zhǔn)確率都不如決策樹高。相較于CNN,SVM能利用有限的訓(xùn)練數(shù)據(jù)信息,力圖在模型的學(xué)習(xí)能力與其復(fù)雜性之間取得較好的折中;但是SVM對于無法直接輸入又含有一定結(jié)構(gòu)信息的結(jié)構(gòu)化數(shù)據(jù)不能直接解決。
表6 以F1-score為標(biāo)準(zhǔn)的Statlog (Australian Credit Approval) Data Set
表7 以準(zhǔn)確率(ACC)為標(biāo)準(zhǔn)的Statlog (German Credit Data) Data Set
K-最近鄰(KNN)模型與其他算法不同的是,它不僅可以解決二分類場景的問題,并且也可以解決多分類的問題;但當(dāng)樣本量很大時(shí),很大一部分點(diǎn)附近沒有樣本點(diǎn),這就使利用空間中的每一附近的樣本點(diǎn)來構(gòu)造預(yù)估的近鄰法就非常難以運(yùn)用。
樸素貝葉斯(Naive Bayes)在預(yù)測結(jié)果的準(zhǔn)確率上雖然比CNN高,但當(dāng)屬性個(gè)數(shù)較多或?qū)傩灾g相關(guān)性較大時(shí),它的分類效率不如決策樹模型,對樸素貝葉斯分類的準(zhǔn)確性有影響。
從得出的實(shí)驗(yàn)結(jié)果總體看來,DECISION TREE算法模型在這五種模型中,對信用預(yù)測結(jié)果的準(zhǔn)確率是最高的,因?yàn)闆Q策樹能夠提取規(guī)則,構(gòu)建一棵決策樹;除此之外,決策樹僅通過少量比較就能找到樹葉,空間復(fù)雜度非常小,這使得該算法模型中的條件很簡單,易于理解。
本文基于機(jī)器學(xué)習(xí)的幾種模型建模,并用真實(shí)數(shù)據(jù)集進(jìn)行信用等級準(zhǔn)確率的預(yù)測分析,最終選擇出來的決策樹算法模型在預(yù)測數(shù)據(jù)的準(zhǔn)確率上表現(xiàn)良好,在實(shí)際運(yùn)用中具有一定的研究意義。但在現(xiàn)實(shí)生活中,其問題的復(fù)雜程度要大得多,因此,其對信用預(yù)測的建模方法有待進(jìn)一步優(yōu)化。