亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于CS-RF模型的微額信貸風(fēng)險(xiǎn)預(yù)測(cè)

        2019-04-23 01:17:14趙迎何華吳超
        時(shí)代金融 2019年8期
        關(guān)鍵詞:隨機(jī)森林

        趙迎 何華 吳超

        摘要:在金融市場(chǎng)中,互聯(lián)網(wǎng)征信是規(guī)避損失風(fēng)險(xiǎn)的重要參考依據(jù),其中違約用戶(hù)識(shí)別率的準(zhǔn)確性對(duì)征信來(lái)說(shuō)則更為重要。從這一角度出發(fā),本文提出了改進(jìn)的隨機(jī)森林算法(CS-RF)。利用金融公司的實(shí)際數(shù)據(jù),從隨機(jī)森林原模型基礎(chǔ)上加以改進(jìn),在訓(xùn)練樣本生成決策樹(shù)后引入代價(jià)敏感函數(shù),為多類(lèi)樣本和少類(lèi)樣本的錯(cuò)誤分類(lèi)賦予不同的代價(jià),搜索出更優(yōu)的決策樹(shù)集成。通過(guò)實(shí)證分析,將預(yù)測(cè)結(jié)果與Logistic回歸模型,決策樹(shù),傳統(tǒng)隨機(jī)森林,BP神經(jīng)網(wǎng)絡(luò)進(jìn)行對(duì)比,得出CS-RF模型預(yù)測(cè)效果最優(yōu)。

        關(guān)鍵詞:互聯(lián)網(wǎng)征信 隨機(jī)森林 非平衡樣本 代價(jià)敏感函數(shù)

        一、引言

        隨著互聯(lián)網(wǎng)金融快速發(fā)展,各種信貸新模式不斷挑戰(zhàn)傳統(tǒng)金融領(lǐng)域。新型金融業(yè)態(tài)層出不窮,P2P網(wǎng)絡(luò)借貸,微額借貸,眾籌,互聯(lián)網(wǎng)公司上線金融借貸業(yè)務(wù)等,這些新模式推動(dòng)了信貸模式的轉(zhuǎn)型,互聯(lián)網(wǎng)金融新經(jīng)濟(jì)對(duì)信用風(fēng)險(xiǎn)評(píng)價(jià)提出了更高的要求。從廣義上來(lái)說(shuō),互聯(lián)網(wǎng)征信是指采集用戶(hù)在互聯(lián)網(wǎng)金融服務(wù)以及互聯(lián)網(wǎng)其他服務(wù)過(guò)程中留存下來(lái)的信息和數(shù)據(jù),并結(jié)合線下渠道采集的公共信息數(shù)據(jù),利用云計(jì)算,機(jī)器學(xué)習(xí)等技術(shù)手段進(jìn)行信用評(píng)估和評(píng)價(jià)的活動(dòng)。互聯(lián)網(wǎng)征信相對(duì)于傳統(tǒng)征信,數(shù)據(jù)上實(shí)時(shí)動(dòng)態(tài)性更強(qiáng),時(shí)時(shí)產(chǎn)生互聯(lián)網(wǎng)行為數(shù)據(jù)信用評(píng)估,即時(shí)反映用戶(hù)信用水平變化。評(píng)估指標(biāo)上來(lái)源更加豐富,更能反映綜合信用水平,具有較強(qiáng)的社會(huì)性。技術(shù)手段上更加多元化,傳統(tǒng)統(tǒng)計(jì)學(xué)方法與新興機(jī)器學(xué)習(xí)相融合,云計(jì)算與分布式計(jì)算的發(fā)展,更是為互聯(lián)網(wǎng)征信的運(yùn)行提供了技術(shù)保障。

        隨著機(jī)器學(xué)習(xí)方法的普遍應(yīng)用,已經(jīng)有許多文獻(xiàn)把機(jī)器學(xué)習(xí)方法與統(tǒng)計(jì)學(xué)方法用于信用評(píng)估模型的建立,主要的方法包括神經(jīng)網(wǎng)絡(luò),貝葉斯網(wǎng)絡(luò)[1],SVM[2],Logistic回歸[3],隨機(jī)森林等。相關(guān)研究表明,對(duì)不同的算法進(jìn)行有效組合形成一系列互補(bǔ)型的集成算法,預(yù)測(cè)效果優(yōu)于單一算法。Yu et al.[2]研究了基于支持向量機(jī)的多主體集成學(xué)習(xí)方法進(jìn)行風(fēng)險(xiǎn)評(píng)估的預(yù)測(cè),根據(jù)數(shù)據(jù)集多樣性,參數(shù)多樣性,核函數(shù)多樣性建立了支持向量機(jī)不同組合的集成方法,并利用數(shù)據(jù)對(duì)違約情況進(jìn)行了預(yù)測(cè),實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)性能要優(yōu)于單一原始算法模型。Xiao et al.[4]實(shí)證分析了在信用評(píng)估的應(yīng)用中,隨機(jī)森林比KNN,RBF-NET,SVM等單一算法以及GBDT算法更精準(zhǔn)和穩(wěn)定。Zhou et al.[5]提出了選擇性集成的概念,是指在已有分類(lèi)器中依據(jù)某種策略選擇一部分作為集成。相對(duì)于單一學(xué)習(xí)方法的預(yù)測(cè)精度不夠高,泛化性能不夠好的缺點(diǎn),集成學(xué)習(xí)技術(shù)本身在很多方面都具有優(yōu)越性,但并不能做到對(duì)所有樣本的平等對(duì)待。如Wang et al.[6]利用遺傳算法對(duì)隨機(jī)森林中的決策樹(shù)進(jìn)行進(jìn)化搜索,選出決策樹(shù)的滿(mǎn)意組合,這些決策樹(shù)再以某種策略相結(jié)合構(gòu)成新的集成。通過(guò)對(duì)隨機(jī)森林算法的優(yōu)化,即便在最后分類(lèi)結(jié)果的準(zhǔn)確率上有所提升,但是對(duì)于少類(lèi)樣本的精準(zhǔn)識(shí)別率并不是很高,這是很多算法不能解決的。

        在非平衡樣本分類(lèi)問(wèn)題中,通常會(huì)出現(xiàn)兩類(lèi)錯(cuò)誤,第一類(lèi)錯(cuò)誤是將多類(lèi)樣本錯(cuò)誤預(yù)測(cè)為少類(lèi)樣本,第二類(lèi)錯(cuò)誤是將少類(lèi)樣本錯(cuò)誤預(yù)測(cè)為多類(lèi)樣本。在信用數(shù)據(jù)中,少類(lèi)樣本為違約樣本,多類(lèi)樣本為未違約樣本。多數(shù)文獻(xiàn)中,為提高總體準(zhǔn)確率,會(huì)出現(xiàn)忽視第二類(lèi)錯(cuò)誤的問(wèn)題??梢园l(fā)現(xiàn)有些模型經(jīng)過(guò)改進(jìn)后,預(yù)測(cè)準(zhǔn)確率達(dá)到了95.58%,但由于信用數(shù)據(jù)的非平衡性,導(dǎo)致有大量第二類(lèi)錯(cuò)誤發(fā)生。對(duì)于金融服務(wù)公司來(lái)說(shuō),第二類(lèi)錯(cuò)誤帶來(lái)的風(fēng)險(xiǎn)損失要遠(yuǎn)遠(yuǎn)高于第一類(lèi)錯(cuò)誤。本文對(duì)模型進(jìn)行優(yōu)化,提出隨機(jī)森林改進(jìn)模型CS-RF,旨在控制和降低第二類(lèi)錯(cuò)誤的發(fā)生率。CS-RF模型引入代價(jià)敏感函數(shù),以期望代價(jià)最小為原則選擇最優(yōu)分類(lèi)器組合。在保證總體準(zhǔn)確率不下降的情況下,提升違約用戶(hù)的預(yù)測(cè)準(zhǔn)確率。

        二、模型與算法改進(jìn)

        (一)隨機(jī)森林的生成

        隨機(jī)森林由LeoBreiman(2001)[7]提出,是一種集成學(xué)習(xí)技術(shù),由大量決策樹(shù)的聚合組成,與單個(gè)決策樹(shù)相比,這種聚合形式導(dǎo)致方差減小?;驹硎怯肂agging的方式把眾多的決策樹(shù)組合起來(lái),最終得到一個(gè)龐大的決策模型[8]。

        隨機(jī)森林算法訓(xùn)練過(guò)程具體步驟如下:

        步驟1:原始訓(xùn)練集為N,應(yīng)用bootstrap法有放回地隨機(jī)抽取k個(gè)新的自助樣本集,并由此構(gòu)建k棵分類(lèi)樹(shù),每次未被抽到的樣本組成了k個(gè)袋外數(shù)據(jù);

        步驟2:設(shè)有mall個(gè)特征,則在每一棵樹(shù)的每個(gè)節(jié)點(diǎn)處隨機(jī)抽取mtry個(gè)特征,然后在mtry中選擇一個(gè)最具有分類(lèi)能力的特征,特征分類(lèi)的閾值通過(guò)檢查每一個(gè)分類(lèi)點(diǎn)確定;

        步驟3:每棵樹(shù)最大限度地生長(zhǎng),不做任何修剪;

        步驟4:將生成的多棵分類(lèi)樹(shù)組成隨機(jī)森林,用隨機(jī)森林分類(lèi)器對(duì)新的數(shù)據(jù)進(jìn)行判別與分類(lèi),分類(lèi)結(jié)果按樹(shù)分類(lèi)器的投票多少而定。

        (二)改進(jìn)隨機(jī)森林(CS-RF)的構(gòu)建

        如上所述,隨機(jī)森林算法的泛化能力比較強(qiáng),而且可以進(jìn)行并行運(yùn)算,計(jì)算效率有明顯優(yōu)勢(shì),在諸多領(lǐng)域的預(yù)測(cè)精度也都很高。盡管如此,隨機(jī)森林模型應(yīng)用在信貸數(shù)據(jù)上仍然存在著一定的不足。信貸數(shù)據(jù)是典型的非平衡樣本,非平衡樣本是指在數(shù)據(jù)樣本中某些類(lèi)的樣本數(shù)量要遠(yuǎn)遠(yuǎn)少于其他類(lèi),正如信貸樣本中未違約用戶(hù)的數(shù)量是遠(yuǎn)遠(yuǎn)多于違約用戶(hù)的。而Silke在研究中指出隨機(jī)森林對(duì)于非平衡樣本進(jìn)行預(yù)測(cè)時(shí),分類(lèi)結(jié)果會(huì)偏向多類(lèi)樣本[9]。金融公司需要的則是對(duì)少類(lèi)樣本的識(shí)別,因?yàn)檫`約行為預(yù)測(cè)為非違約時(shí)帶來(lái)的損失是遠(yuǎn)遠(yuǎn)超過(guò)對(duì)未違約行為進(jìn)行審查的成本的。因此,針對(duì)隨機(jī)森林模型在信貸樣本這方面的不足,本文引入代價(jià)敏感學(xué)習(xí)從而進(jìn)行改進(jìn)。通過(guò)設(shè)置代價(jià)矩陣,對(duì)兩類(lèi)錯(cuò)誤設(shè)置不同的代價(jià),提高違約樣本預(yù)測(cè)時(shí)出現(xiàn)誤分的代價(jià),采用平均誤分代價(jià)最小的原則搜索出最優(yōu)的分類(lèi)決策樹(shù),以投票策略結(jié)合,生成最終的新隨機(jī)森林。

        代價(jià)敏感學(xué)習(xí)算法是根據(jù)不同錯(cuò)誤分類(lèi)產(chǎn)生的代價(jià)引入不同的懲罰因子,并選擇總體錯(cuò)誤分類(lèi)代價(jià)最小或平均錯(cuò)誤分類(lèi)代價(jià)最小的原理來(lái)設(shè)計(jì)分類(lèi)器[10]。例如二元分類(lèi)問(wèn)題,正類(lèi)樣本預(yù)測(cè)為正類(lèi)稱(chēng)為真正例(True Positive,TP,也稱(chēng)真陽(yáng)),反類(lèi)樣本預(yù)測(cè)為反類(lèi)稱(chēng)為真反例(True Negative,TN,也稱(chēng)真陰),相應(yīng)地,另外兩種情況分別稱(chēng)為偽反例(False Negative,F(xiàn)N,也稱(chēng)假陰)和偽正例(False Positive,F(xiàn)P,也稱(chēng)假陽(yáng))。錯(cuò)誤分類(lèi)代價(jià)所用的代價(jià)矩陣可以設(shè)置為如表1所示。

        三、實(shí)證分析

        (一)數(shù)據(jù)準(zhǔn)備

        本次實(shí)驗(yàn)所用的數(shù)據(jù)來(lái)自某微額金融信息服務(wù)有限公司的微額借款用戶(hù)人的借貸數(shù)據(jù)。目的是通過(guò)對(duì)實(shí)際借款數(shù)據(jù)進(jìn)行建模分析申請(qǐng)用戶(hù)的信用狀況,預(yù)測(cè)其未來(lái)是否會(huì)違約。本次所用到的一共有15000條觀測(cè)數(shù)據(jù),其中包含1138個(gè)特征和一個(gè)結(jié)果標(biāo)簽,標(biāo)簽1的為正樣本,表示不會(huì)違約,標(biāo)簽為0的為負(fù)樣本,表示會(huì)違約。1138個(gè)特征經(jīng)過(guò)脫敏處理,在實(shí)驗(yàn)之前對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,通過(guò)不同的算法對(duì)數(shù)據(jù)集進(jìn)行分析,證明CS-RF模型有更好的效果。

        (二)實(shí)驗(yàn)設(shè)置

        果越好,但同時(shí)計(jì)算復(fù)雜度也會(huì)增加,而且隨著樹(shù)個(gè)數(shù)的增加,效果的提升是遞減的,結(jié)合錯(cuò)誤率與復(fù)雜度決策樹(shù)的個(gè)數(shù)設(shè)置為500。在代價(jià)敏感學(xué)習(xí)中,TP和TN的代價(jià)設(shè)為0,F(xiàn)P的錯(cuò)誤分類(lèi)代價(jià)因子始終為1(也就是),通過(guò)調(diào)節(jié)FN的誤分類(lèi)代價(jià)因子來(lái)改變平均誤差代價(jià),分別計(jì)算值為1,2,4,8,16,32,64時(shí)的結(jié)果。通過(guò)實(shí)驗(yàn)計(jì)算發(fā)現(xiàn)時(shí)效果最好,因此,決策樹(shù)生成時(shí)以平均誤差代價(jià)最小化為原則進(jìn)行搜索。

        預(yù)測(cè)模型的好壞需要適合的衡量指標(biāo)來(lái)評(píng)估。本次實(shí)驗(yàn)采用常用的評(píng)價(jià)指標(biāo):敏感性,特異性,準(zhǔn)確性,AUC值,混淆矩陣來(lái)描述詳細(xì)結(jié)果。

        四、結(jié)論

        互聯(lián)網(wǎng)征信已經(jīng)成為金融市場(chǎng)領(lǐng)域的一個(gè)研究熱點(diǎn)。在信貸風(fēng)險(xiǎn)評(píng)價(jià)分析中信貸數(shù)據(jù)為非平衡樣本,第二類(lèi)錯(cuò)誤的發(fā)生率會(huì)偏高,但對(duì)于金融公司來(lái)說(shuō),第二類(lèi)錯(cuò)誤造成的代價(jià)是遠(yuǎn)遠(yuǎn)超于第一類(lèi)錯(cuò)誤的。傳統(tǒng)隨機(jī)森林無(wú)法區(qū)分兩類(lèi)錯(cuò)誤,針對(duì)這一問(wèn)題,本文將代價(jià)敏感學(xué)習(xí)引入隨機(jī)森林中,為兩類(lèi)錯(cuò)誤賦予不同的代價(jià),得出更優(yōu)的決策樹(shù)集成。改進(jìn)后隨機(jī)森林模型保持原有的預(yù)測(cè)效果,在精度上有所提高,考慮上對(duì)未違約用戶(hù)和違約用戶(hù)錯(cuò)誤分類(lèi)的實(shí)際代價(jià),為金融公司降低損失風(fēng)險(xiǎn)提供決策,具有現(xiàn)實(shí)意義。

        參考文獻(xiàn):

        [1]李旭升,郭春香,陳凱亞.最小總風(fēng)險(xiǎn)準(zhǔn)則的貝葉斯網(wǎng)絡(luò)個(gè)人信用評(píng)估模型[J].計(jì)算機(jī)應(yīng)用研究,2009,26(1):50-58.

        [2]Lean Yu,Wuyi Yue,Shouyang Wang,etal. Support vector machine based multiagent ensemble learning for credit risk evaluation[J]. Expert Systems with Applications,2010,37:1351–1360.

        [3]方匡南,范新妍.基于網(wǎng)絡(luò)結(jié)構(gòu)Logistic模型的企業(yè)風(fēng)險(xiǎn)預(yù)警[J].統(tǒng)計(jì)研究,2016,33(4):50-55.

        [4]蕭超武等.基于隨機(jī)森林的個(gè)人信用評(píng)估模型研究及實(shí)證分析[J].管理現(xiàn)代化,2014,(06),111-113.

        [5]Zhihua Zhou. Ensemble methods:foundations and

        algorithms[M]. Boca Raton:CRC Press,2012.72-73.

        [6]Jin-Hyuk Hong,Sung-Bae Cho. The classification

        of cancer based on DNA microarray data that uses diverse ensemble genetic programming[J]. Artificial Intelligence in Medicine,2006,36(1):43-58.

        [7]Breiman L. Random forest[J]. Machine Learning,2001,45(1):5-32.

        [8]Alam M S,Vuong S T. Random forest classification for detecting android malware[C]. Green Computing and Communications.2013:663-669.

        [9]Silke Janitza,Carolin Strobl,Anne-Laure Boulesteix.

        An AUC-based permutation variable importance measure for

        randomforest[J]. BMC Bioinformatics,2013,14(1):119-130.

        [10]Peter Harrington. Machine learning in action[M]. Beijing:PTPRESS,2013.127-133.

        基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(11471218)。

        (作者單位:趙迎、何華任職于河北工業(yè)大學(xué);吳超任職于中國(guó)人民銀行天津分行)

        猜你喜歡
        隨機(jī)森林
        隨機(jī)森林算法在中藥指紋圖譜中的應(yīng)用:以不同品牌夏桑菊顆粒指紋圖譜分析為例
        基于隨機(jī)森林的登革熱時(shí)空擴(kuò)散影響因子等級(jí)體系挖掘
        基于隨機(jī)森林的HTTP異常檢測(cè)
        個(gè)人信用評(píng)分模型比較數(shù)據(jù)挖掘分析
        隨機(jī)森林在棉蚜蟲(chóng)害等級(jí)預(yù)測(cè)中的應(yīng)用
        基于二次隨機(jī)森林的不平衡數(shù)據(jù)分類(lèi)算法
        軟件(2016年7期)2017-02-07 15:54:01
        拱壩變形監(jiān)測(cè)預(yù)報(bào)的隨機(jī)森林模型及應(yīng)用
        基于隨機(jī)森林算法的飛機(jī)發(fā)動(dòng)機(jī)故障診斷方法的研究
        基于奇異熵和隨機(jī)森林的人臉識(shí)別
        軟件(2016年2期)2016-04-08 02:06:21
        基于隨機(jī)森林算法的B2B客戶(hù)分級(jí)系統(tǒng)的設(shè)計(jì)
        在线无码精品秘 在线观看| 国产在线观看无码免费视频 | 一本一本久久a久久精品综合麻豆| 亚洲Va中文字幕久久无码一区| 丝袜美腿av免费在线观看| 媚药丝袜美女高清一二区| 狼人青草久久网伊人| 日韩在线无| 99久久国产一区二区三区| 国产自拍成人免费视频| 国产在线 | 中文| 国产亚洲欧美成人久久片| 91亚洲最新国语中文字幕| 亚洲国产av一区二区三| 国产精品白浆一区二区免费看 | 日本高清一区在线你懂得| 无遮挡激情视频国产在线观看| a级毛片高清免费视频就| 亚洲一区sm无码| 国产一区二区三区av观看| 无码国产成人午夜电影在线观看| 久久99精品国产麻豆| 欧美日韩a级a| 亚洲熟女av在线观看| 久久亚洲精品成人av无码网站| 真人男女做爰无遮挡免费视频| 蜜臀av中文人妻系列| 91精品国产福利在线观看麻豆| 免费a级毛片无码| 中文亚洲爆乳av无码专区| 亚洲专区一区二区三区四区五区| 亚洲av无码成h在线观看| 日韩精品中文字幕无码一区| 亚洲av永久无码精品水牛影视| 久久精品久99精品免费| 国产女人水真多18毛片18精品| a级国产乱理论片在线观看| a欧美一级爱看视频| 中文字幕一区二区三区日日骚| 亚洲精品乱码8久久久久久日本| 国产成人免费a在线视频|