亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于Boosting的集成學(xué)習(xí)算法在銀行個(gè)人信用評(píng)級(jí)中的應(yīng)用

        2017-06-06 07:37:06陳力黃艷瑩游德創(chuàng)
        價(jià)值工程 2017年18期
        關(guān)鍵詞:信用評(píng)級(jí)

        陳力+黃艷瑩+游德創(chuàng)

        摘要: 本文針對(duì)銀行個(gè)人信用數(shù)據(jù)的分類預(yù)測(cè)問題,從數(shù)據(jù)集的特征選擇和集成學(xué)習(xí)兩個(gè)角度出發(fā),提出了PCA-Adaboost-Logistic集成學(xué)習(xí)算法。在采用Accuracy和AUC作為分類模型評(píng)價(jià)指標(biāo)的前提下,本文選取了源于澳大利亞某銀行的個(gè)人信貸數(shù)據(jù)集進(jìn)行測(cè)試。測(cè)試結(jié)果表明本算法在有效提取關(guān)鍵特征后提高了Adaboost的穩(wěn)定性,并且在分類準(zhǔn)確度上相比單純使用Logistic分類器有不同程度的提高。

        Abstract: This paper focused on classification prediction problem of the bank personal credit data, proposed a PCA-Adaboost-Logistic ensemble learning algorithm based on feature selection and ensemble learning. Accuracy and AUC were used as the classification model evaluation metric under the premise, this paper used the credit data sets from Australian banks to test the proposed algorithm. The results show that the proposed algorithm improves the stability of the Adaboost after extract the key features, and the classification accuracy is higher than the Logistic classifier.

        關(guān)鍵詞: 信用評(píng)級(jí);主成分分析;Adaboost;邏輯回歸

        Key words: credit score;PCA;Adaboost;Logistic Regression

        中圖分類號(hào):F830.5 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1006-4311(2017)18-0170-03

        0 引言

        1936年,費(fèi)舍爾[1]提出了統(tǒng)計(jì)判別分析的概念,這是信用評(píng)級(jí)領(lǐng)域的基礎(chǔ)。后來(lái),大衛(wèi)·杜蘭德[2]在1941年運(yùn)用了幾種算法來(lái)區(qū)分好的貸款和壞的貸款。1980年,銀行業(yè)專家鼓勵(lì)對(duì)信用卡使用信用評(píng)級(jí),這也是首次將信用評(píng)級(jí)應(yīng)用到其他產(chǎn)品。托馬斯[3]定義信用評(píng)級(jí)為認(rèn)識(shí)銀行客戶的過程,為了根據(jù)一系列預(yù)定的標(biāo)準(zhǔn)給他們發(fā)放貸款。現(xiàn)在,許多關(guān)于信用評(píng)級(jí)的研究集中到人工智能技術(shù)上,比如人工神經(jīng)網(wǎng)絡(luò)、遺傳算法和支持向量機(jī),這些算法比統(tǒng)計(jì)優(yōu)化方法更能區(qū)分客戶的好壞。此外,基于集成學(xué)習(xí)算法的信用評(píng)分模型已經(jīng)被廣大的研究人員所使用,他們的研究成果已經(jīng)證實(shí)這種模型比單純的分類算法模型擁有更好的性能。

        基于以上的研究背景,本文采取了融合特征選擇和集成算法的PCA-Adaboost-Logistic集成學(xué)習(xí)算法來(lái)評(píng)估銀行客戶信用等級(jí)。本算法首先利用PCA對(duì)數(shù)據(jù)集進(jìn)行特征選擇,然后采用Adaboost集成學(xué)習(xí)框架,提出基于Logistic分類器的Adaboost算法,該算法有效提升了分類模型的學(xué)習(xí)能力,在預(yù)測(cè)銀行客戶信用等級(jí)方面具有良好的性能。

        1 PCA-Adaboost-Logistic集成學(xué)習(xí)算法

        1.1 PCA

        PCA,即Principal Components Analysis,也就是主成分分析。PCA是一種常用的數(shù)據(jù)分析方法,它通過線性變換將原始數(shù)據(jù)變換為一組各維度線性無(wú)關(guān)的表示,可用于提取數(shù)據(jù)的主要特征分量,常用于高維數(shù)據(jù)的降維。

        1.2 Adaboost-Logistic分類算法

        1.2.1 Adaboost算法

        Boosting,也稱為增強(qiáng)學(xué)習(xí)或提升法,是一種重要的集成學(xué)習(xí)技術(shù),能夠?qū)㈩A(yù)測(cè)精度僅比隨機(jī)猜測(cè)度略高的弱分類器增強(qiáng)為預(yù)測(cè)精度高的強(qiáng)分類器。Adaboost正是其中最成功的代表,其被評(píng)為數(shù)據(jù)挖掘十大算法之一[4]。該算法是一種迭代算法,是由Schapire和Freund在1995年共同提出的[5][6][7]。

        Adaboost算法的基本思想是:開始時(shí),每個(gè)樣本對(duì)應(yīng)的權(quán)重是相同的,即其中m為樣本個(gè)數(shù),那么每個(gè)訓(xùn)練樣本的初始權(quán)重都是1/m,在此樣本分布下訓(xùn)練出一弱分類器?;疽?guī)則是對(duì)訓(xùn)練失敗的樣本賦予較大的權(quán)重,這樣下次迭代時(shí)分類器將重點(diǎn)學(xué)習(xí)那些失敗的樣本,而對(duì)于分類正確的樣本,降低其權(quán)重,從而得到一個(gè)新的樣本分布。在新的樣本分布下,再次對(duì)樣本進(jìn)行訓(xùn)練,得到弱分類器。依次類推,經(jīng)過T次循環(huán),得到T個(gè)弱分類器,把這T個(gè)弱分類器按一定的權(quán)重疊加起來(lái),得到最終想要的強(qiáng)分類器。

        1.2.2 Logistic 回歸

        Logistic回歸,即Logistic Rregression。Logistic回歸是概率型非線性回歸模型,是研究二分類觀察結(jié)果y與一些影響因素(x1,x2,…,xn)之間關(guān)系的一種多變量分析方法。通常的問題是,研究某些因素條件下某個(gè)結(jié)果是否發(fā)生,比如本文中根據(jù)銀行客戶的數(shù)據(jù)信息來(lái)評(píng)價(jià)該客戶是“Good(好客戶)”或者“Bad(壞客戶)”。

        1.3 PCA-Adaboost-Logistic集成學(xué)習(xí)算法

        PCA-Adaboost-Logistic集成學(xué)習(xí)算法首先采取PCA進(jìn)行特征選擇,之后用經(jīng)特征選擇的數(shù)據(jù)來(lái)訓(xùn)練模型,然后通過模型對(duì)測(cè)試數(shù)據(jù)集進(jìn)行分類,得到分類結(jié)果,并且計(jì)算出模型預(yù)測(cè)的精度和AUC值。PCA-Adaboost-Logistic集成學(xué)習(xí)算法的具體流程如表1所示。

        2 數(shù)據(jù)準(zhǔn)備和模型評(píng)估指標(biāo)

        2.1 數(shù)據(jù)集的描述

        一些來(lái)源于現(xiàn)實(shí)世界的公共數(shù)據(jù)集已經(jīng)非常有名,而且在學(xué)者的文章中都有廣泛采用,這些數(shù)據(jù)集很容易地可以從UCI數(shù)據(jù)庫(kù)中獲得。本文所使用的個(gè)人信貸數(shù)據(jù)集Australian采集于UCI數(shù)據(jù)庫(kù)、源于澳大利亞某銀行。這個(gè)數(shù)據(jù)集的詳細(xì)特征信息如表2所述。

        2.2 數(shù)據(jù)預(yù)處理

        數(shù)據(jù)集Australian共有690條記錄,每一條記錄有15個(gè)字段組成。這其中前面14個(gè)字段是有關(guān)銀行客戶信貸信息的描述,最后一個(gè)字段是銀行對(duì)客戶信用級(jí)別的定義,該字段分為兩類,分別是:“Good(好客戶)”、“Bad(壞客戶)”。

        以上部分對(duì)Australian數(shù)據(jù)集進(jìn)行了簡(jiǎn)單的總結(jié)分析,明顯發(fā)現(xiàn)每個(gè)數(shù)據(jù)集的特征屬性都比較多。然而,這些特征屬性對(duì)目標(biāo)屬性的影響程度大不相同,因此使用PCA對(duì)數(shù)據(jù)集進(jìn)行特征選擇從而達(dá)到降低數(shù)據(jù)維度的步驟不可或缺。另外,數(shù)據(jù)集中的屬性的類型各不相同,有數(shù)值型、字符型等,因此我們將字符型屬性對(duì)應(yīng)轉(zhuǎn)換成數(shù)值型屬性,這樣有利于后文實(shí)驗(yàn)的開展。

        2.3 模型評(píng)價(jià)指標(biāo)

        在傳統(tǒng)的分類方法中,常用準(zhǔn)確度(Accuracy)作為評(píng)價(jià)指標(biāo)。然而,很多情況下,僅僅依靠準(zhǔn)確度不足以區(qū)分分類模型的優(yōu)劣。所以,為了讓所提出的模型的預(yù)測(cè)結(jié)論可靠,本文在模型準(zhǔn)確度的基礎(chǔ)上,新增AUC(area under the curve)作為評(píng)估分類模型性能的指標(biāo)。AUC就是ROC(receiver operating characteristic)曲線下方的面積,取值在0.5到1之間。ROC曲線是一種使用率很高的分類器評(píng)價(jià)指標(biāo),它是基于混淆矩陣得來(lái)的,表3就是一個(gè)分類問題的混淆矩陣。

        根據(jù)上面的混淆矩陣,有以下概念:

        3 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析

        3.1 實(shí)驗(yàn)設(shè)計(jì)

        為了同時(shí)驗(yàn)證本文提出的PCA-Adaboost-Logistic算法中Adaboost的性能和特征選擇的有效性,實(shí)驗(yàn)分別測(cè)試了不經(jīng)過特征提取也不使用Adaboost的單純Logistic算法、不經(jīng)過特征提取使用Adaboost-Logistic算法、采用特征提取的PCA-Logistic算法、采用特征提取的PCA-Adaboost-Logistic算法四種算法所得出的Accuracy和AUC。在實(shí)驗(yàn)中,我們采用十字交叉驗(yàn)證(10-fold cross-validation)的測(cè)試方法。這種方法的基本思想是把原始數(shù)據(jù)分成十份,輪流將其中9份作為訓(xùn)練集,1份作為測(cè)試集。首先用訓(xùn)練集對(duì)分類器進(jìn)行訓(xùn)練,然后利用測(cè)試集來(lái)測(cè)試訓(xùn)練得到的模型,最后評(píng)價(jià)模型的分類性能。在使用十字交叉驗(yàn)證方法時(shí),會(huì)得到10次模型評(píng)價(jià)結(jié)果,將這10次結(jié)果的平均值作為模型最終的評(píng)價(jià)指標(biāo)。另外,試驗(yàn)中集成學(xué)習(xí)算法Adaboost的迭代次數(shù)取值100。表4為以上四種算法的Accuracy和AUC對(duì)比情況。

        3.2 結(jié)果分析

        從表4可以看出,單純使用Logistic回歸的分類模型在Accuracy和AUC值上都比其他三種模型低,這說(shuō)明單純的Logistic算法的預(yù)測(cè)精度和穩(wěn)定性都有很大的改善空間。在使用Logistic回歸的前提下,加入集成學(xué)習(xí)算法Adaboost使得模型的分類精度和穩(wěn)定性有了顯著的提升,同理,對(duì)數(shù)據(jù)集進(jìn)行特征選擇后Logistic回歸算法預(yù)測(cè)的精度也有了極大的提升,同時(shí)也更加穩(wěn)定,這說(shuō)明數(shù)據(jù)集的質(zhì)量對(duì)分類模型的影響十分大,從某種程度上決定了分類模型的性能。而且,可以很容易地看出,PCA-Adaboost-Logistic算法較前三種算法的性能更加優(yōu)秀,這種模型的預(yù)測(cè)精度和穩(wěn)定性都表現(xiàn)地很出色。因此基于數(shù)據(jù)處理的集成學(xué)習(xí)算法較單純的分類算法具有更好的性能。

        4 結(jié)論

        本文提出了PCA-Adaboost-Logistic集成學(xué)習(xí)算法,該算法首先利用PCA對(duì)數(shù)據(jù)進(jìn)行特征選擇,選取最優(yōu)特征子集后采用Adaboost-Logistic分類算法進(jìn)行分類。在使用相同組數(shù)據(jù)集的前提下,實(shí)驗(yàn)使用Logistic、Adaboost-Logistic、PCA-Logistic和PCA-Adaboost-Logistic四種分類算法分別對(duì)銀行客戶進(jìn)行信用評(píng)級(jí),實(shí)驗(yàn)結(jié)果證實(shí)PCA-Adaboost-Logistic集成學(xué)習(xí)算法較其他三種算法的性能更優(yōu)越。因此,集成學(xué)習(xí)算法較單純的分類器具有更優(yōu)良的分類性能。

        參考文獻(xiàn):

        [1]Fisher, R. A. (1936). The use of multiple measurements in taxonomic problems. Annals of Human Genetics, 7(2), 179-188.

        [2]Durand, D. (1941). Risk elements in consumer instalment financing. NY: National Bureau of Economic Research.

        [3]Crook, J. N., Edelman, D. B., & Thomas, L. C. (2007). Recent developments in consumer credit risk assessment. European Journal of Operational Research, 183, 1447-1465.

        [4]Zhou Z H, Yang Y, Wu X D, Kumar V. The Top Ten Algorithms in Data Mining. New York, USA: CRC Press, 2009,127-149.

        [5]Freund Y, Schapire R E. A decision-theoretic generalization of on-line learning and an application to Boosting. Journal of Computer and System Sciences, 1997, 55(1): 119-139.

        [6]Freund Y, Schapire R E. Experiments with a new Boosting algorithm. In: Proceedings of the 13th Conference on Machine Learning. San Francisco, USA: Morgan Kaufmann,1996. 148-156.

        [7]Schapire R E, Singer Y. Improved Boosting algorithms using confidence-rated predictions. Machine Learning, 1999,37(3): 297-336.

        猜你喜歡
        信用評(píng)級(jí)
        對(duì)中小企業(yè)信用評(píng)級(jí)體系建設(shè)問題的思考
        我國(guó)互聯(lián)網(wǎng)金融發(fā)展現(xiàn)狀及對(duì)策分析
        關(guān)于資產(chǎn)證券化中信用評(píng)級(jí)行為的分析
        我國(guó)房地產(chǎn)企業(yè)信用評(píng)級(jí)財(cái)務(wù)指標(biāo)體系研究
        互聯(lián)網(wǎng)金融征信建設(shè)存在的問題及對(duì)策探討
        關(guān)于懷遠(yuǎn)縣農(nóng)戶信用評(píng)級(jí)的調(diào)研報(bào)告
        我國(guó)信用評(píng)級(jí)業(yè)存在的問題及應(yīng)對(duì)策略
        大數(shù)據(jù)時(shí)代中小影視企業(yè)信用評(píng)級(jí)實(shí)操調(diào)研
        商(2016年17期)2016-06-06 08:10:49
        經(jīng)濟(jì)新常態(tài)下P2P網(wǎng)貸平臺(tái)存在的風(fēng)險(xiǎn)問題及信用評(píng)級(jí)應(yīng)對(duì)
        商(2016年7期)2016-04-20 01:29:53
        我國(guó)資產(chǎn)證券化的發(fā)展現(xiàn)狀與前景展望
        商(2016年8期)2016-04-08 10:31:04
        久久精品亚洲成在人线av| 国产精品99久久免费| 国产乱子伦精品免费女| 精品国产一区二区三广区| 国产亚洲自拍日本亚洲| 国产裸体xxxx视频在线播放| 中文字幕免费观看视频| 亚洲视频一区二区久久久| 亚洲婷婷久悠悠色悠在线播放| 久久久久亚洲av成人无码| 亚洲色欲在线播放一区| 一区二区三区国产精品| 免费av日韩一区二区| 欧美私人情侣网站| 欧美日本国产三级在线| 国产成人自拍视频在线观看网站| 女同精品一区二区久久| 乱人伦人妻中文字幕无码| 小12箩利洗澡无码视频网站 | 麻豆成人久久精品二区三区91| 变态调教一区二区三区女同| 亚洲av永久无码天堂网毛片| 精品少妇爆乳无码aⅴ区| 在线观看日本一区二区三区| 无码 人妻 在线 视频| 国产乱人伦精品一区二区| 国产亚洲欧美另类第一页| 性感美女脱内裤无遮挡| 午夜理论片yy44880影院| 一国产区在线观看| 亚洲精品成人久久av| 亚洲av无码国产精品色软件| 天堂一区人妻无码| 精品一区二区三区在线观看l| 亚洲熟女少妇一区二区三区青久久 | 日本一区二区三区在线| 亚洲永久国产中文字幕| 男女爽爽无遮挡午夜视频| 色欧美与xxxxx| 男女激情视频网站免费在线| 亚欧色一区w666天堂|