亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)算法的信用風(fēng)險預(yù)測模型研究

        2021-06-15 17:55:51李麗趙陸亮陳軍
        企業(yè)科技與發(fā)展 2021年3期
        關(guān)鍵詞:機(jī)器學(xué)習(xí)

        李麗 趙陸亮 陳軍

        【摘 要】為了解決西南財經(jīng)大學(xué)“新網(wǎng)銀行杯”競賽數(shù)據(jù)中存在的高維稀疏數(shù)據(jù)、無標(biāo)簽數(shù)據(jù)、多產(chǎn)品客群來源及好壞樣本不平衡等問題,采用機(jī)器學(xué)習(xí)方法,如Logistic回歸、決策樹、Adaboost、GradientBoosting和LGB模型對數(shù)據(jù)進(jìn)行訓(xùn)練,得出LGB模型的性能評價指標(biāo)AUC數(shù)值最大的結(jié)論。

        【關(guān)鍵詞】信用風(fēng)險預(yù)測;機(jī)器學(xué)習(xí);性能評價指標(biāo)

        【中圖分類號】F830.589 【文獻(xiàn)標(biāo)識碼】A 【文章編號】1674-0688(2021)03-0046-03

        1 研究背景

        銀行信用風(fēng)險評估一直是學(xué)術(shù)研究和商業(yè)銀行管理領(lǐng)域重要的研究話題。信貸信用風(fēng)險是銀行所面臨的信用風(fēng)險中最重要的一個部分,又由于銀行是整個金融系統(tǒng)的核心,銀行的主要資產(chǎn)業(yè)務(wù)是銀行對企業(yè)發(fā)放的貸款,若企業(yè)由于破產(chǎn)或資金流動性等原因無法按期償還貸款甚至造成違約會給商業(yè)銀行帶來巨大的損失。此外,商業(yè)銀行不良貸款率的不斷提升也會導(dǎo)致整個金融市場風(fēng)險的提升。因此,商業(yè)銀行能否獲得性能極好又切實(shí)可行的信用風(fēng)險預(yù)測模型,對于銀行金融機(jī)構(gòu)乃至整個金融市場至關(guān)重要。

        早期的預(yù)測模型大多使用傳統(tǒng)計量和統(tǒng)計方法,例如多元判別分析方法、Logistic回歸分析方法等。近年來,隨著人工智能的興起、機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘在世界范圍內(nèi)的推廣,幫助商業(yè)銀行風(fēng)險預(yù)測獲得了新的、更有效的預(yù)測方法,也預(yù)示著在商業(yè)銀行信用風(fēng)險預(yù)測領(lǐng)域,人工智能方法會逐漸取代傳統(tǒng)統(tǒng)計方法,成為預(yù)測商業(yè)銀行信用風(fēng)險的首選方法。

        2 文獻(xiàn)回顧

        Ekinci & Erdal(2011)[1]對土耳其的35家私人商業(yè)銀行進(jìn)行分析,比較了SVM方法和神經(jīng)網(wǎng)絡(luò)方法的預(yù)測精度。余晨曦等人(2008)[2]運(yùn)用支持向量機(jī)技術(shù)(SVM),構(gòu)建了基于支持向量機(jī)的我國商業(yè)銀行信貸信用風(fēng)險度量模型,將支持向量機(jī)的非線性分類器應(yīng)用到貸款違約的判別中,研究發(fā)現(xiàn)SVM可以處理非線性分類問題,但不能很好地估計違約概率。李佳等人(2018)[3]將SVM、BP神經(jīng)網(wǎng)絡(luò)和PCA變量降維處理結(jié)合使用,對2015—2016年我國的144家滬深上市公司開展研究和預(yù)測,最后得出了良好的預(yù)測能力。

        3 數(shù)據(jù)來源及解析

        3.1 數(shù)據(jù)來源

        本文數(shù)據(jù)是來自DC競賽網(wǎng)中的西南財經(jīng)大學(xué)“新網(wǎng)銀行杯”數(shù)據(jù)科學(xué)競賽,四川新網(wǎng)銀行已經(jīng)開發(fā)出了國內(nèi)第一款全在線辦理的銀行大額云授信產(chǎn)品——“好人貸”。比賽提供真實(shí)業(yè)務(wù)場景下的脫敏數(shù)據(jù),在“好人貸”的量化風(fēng)控實(shí)踐中,四川新網(wǎng)銀行面臨多個維度的挑戰(zhàn):高維數(shù)據(jù)、稀疏數(shù)據(jù)、無標(biāo)簽樣本、多產(chǎn)品客群好壞樣本不平衡等。其中,對于包含多產(chǎn)品(客群)的高維特征數(shù)據(jù)和表現(xiàn)數(shù)據(jù)(部分有標(biāo)簽,部分無標(biāo)簽),邀請參賽者對數(shù)據(jù)進(jìn)行探索分析,綜合利用監(jiān)督和半監(jiān)督機(jī)器學(xué)習(xí)算法、遷移學(xué)習(xí)算法等設(shè)計區(qū)分能力高、穩(wěn)定性強(qiáng)的信用風(fēng)險預(yù)測模型,對客戶信用風(fēng)險進(jìn)行預(yù)測。

        通過初步的數(shù)據(jù)分析,我們發(fā)現(xiàn)數(shù)據(jù)的特征缺失嚴(yán)重,可能會對模型的預(yù)測帶來干擾,并且雖然特征維度僅有157維,但是由于是匿名特征,因此很難確定數(shù)據(jù)的具體含義。脫敏數(shù)據(jù)不能使用相關(guān)性分析方法,也不能構(gòu)造新的特征,所以在數(shù)據(jù)清洗中對缺失值的處理與分析和模型的訓(xùn)練與評估都是需要我們解決的關(guān)鍵問題。

        3.2 數(shù)據(jù)解析

        此次競賽提供的數(shù)據(jù)包括用戶id,157項(xiàng)脫敏的屬性/行為特征,以及是否屬高風(fēng)險用戶的標(biāo)簽項(xiàng)。一共有3個文件,數(shù)據(jù)描述如下。

        (1)train_xy.csv,帶標(biāo)簽的訓(xùn)練集數(shù)據(jù),共15 000條。

        (2)train_x.csv,不帶標(biāo)簽的訓(xùn)練集數(shù)據(jù),除無標(biāo)簽字段‘y外,其余字段與train_xy.csv相同,共10 000條。

        (3)test_all.csv,測試集數(shù)據(jù),除無標(biāo)簽字段‘y外,其余字段與train_xy.csv相同,共10 000條。

        train_xy數(shù)據(jù)節(jié)選如圖1所示。

        那么,根據(jù)賽題任務(wù)與數(shù)據(jù),可以將問題轉(zhuǎn)化為“二分類”問題,0代表低風(fēng)險客戶,1代表高風(fēng)險客戶,賦值為0的個數(shù)有14 309,為1的個數(shù)為691,0和1的數(shù)量比值為21∶1,不同cust_group的樣本分布也不平衡(見表1)。

        評估指標(biāo)為AUC=0.3×AUC1+0.3×AUC2+0.4×AUC3,并且提供有/無標(biāo)簽數(shù)據(jù)樣本,可以使用監(jiān)督與半監(jiān)督方法綜合預(yù)測用戶的信用風(fēng)險概率。

        4 數(shù)據(jù)清洗與處理

        4.1 缺失值分析

        根據(jù)數(shù)據(jù)介紹,x變量的缺失值統(tǒng)一以-99表示,我們首先對每個x特征變量,在列方向上進(jìn)行缺失值的個數(shù)統(tǒng)計,從而轉(zhuǎn)化為缺失率。缺失率的大小可以表明某個特征缺失是否嚴(yán)重及嚴(yán)重程度。以train_set為例,從圖2中可以更加直觀地看出,有較多的特征缺失率高達(dá)100%,說明這些特征缺失嚴(yán)重,可能會對模型預(yù)測帶來干擾。

        4.2 缺失值處理

        根據(jù)上面的分析,幾乎所有數(shù)據(jù)都存在缺失值-99。一般處理缺失值的方法有中位數(shù)、平均數(shù)、眾數(shù)填充等操作。在對變量進(jìn)行填充之前,根據(jù)每個樣本的缺失值的個數(shù),對缺失值進(jìn)行離散化并劃分成7個區(qū)間引入虛擬變量。

        在這里我們針對數(shù)值型的數(shù)據(jù)利用均值進(jìn)行填充,對類別型的數(shù)據(jù)引入啞元變量,并對填充完的數(shù)據(jù)進(jìn)行歸一化處理。圖3以x_81為例,可以看到均值填充后進(jìn)行歸一化的結(jié)果。

        5 特征選取

        一般而言,常見的特征選擇方法有如下3種:一是過濾式選擇,即通過相關(guān)系數(shù)、卡方檢驗(yàn)、信息增益等篩選特征;二是包裹式選擇,是通過迭代特征,利用學(xué)習(xí)器的性能評估進(jìn)行選擇;三是嵌入式選擇,特點(diǎn)是利用學(xué)習(xí)器自動選擇特征,包括正則化、基于樹模型選擇。

        通過運(yùn)用隨機(jī)森林的方法對157個特征進(jìn)行了重要性的排序,我們從中選取TOP25作為模型的特征,各個特征的重要性如圖4所示。

        6 模型選擇與評估

        6.1 降維與不降維結(jié)果比較分析

        本文的數(shù)據(jù)建模方法主要有Logistic回歸、決策樹、Adaboost、GradientBoosting 4個模型。這兩種方式的保留信息會有所不同,那么通過模型做出的預(yù)測結(jié)果肯定有區(qū)別。通過對兩者的結(jié)果進(jìn)行比較與分析,如圖5所示,我們發(fā)現(xiàn)不降維的結(jié)果要優(yōu)于降維之后的結(jié)果,所以我們最后決定不刪除任何原始特征,而是使用模型自動選擇。這樣做有兩個考慮,一是特征維度并不高(157維),而且是匿名特征,很難確定具體含義;二是模型自身具有選擇特征的特性,可以更好地表現(xiàn)數(shù)據(jù)。

        6.2 模型存在的問題

        在上述模型中,會存在不同程度的過擬合現(xiàn)象(如圖5所示)。

        6.3 解決方法

        我們將采用5折分層交叉驗(yàn)證及將模型升級為LGB模型的方法減輕過擬合的現(xiàn)象,并且得到的結(jié)果AUC1=0.744 82、AUC2=0.765 77、AUC3=0.842 87、AUC=0.788 7。LGB訓(xùn)練的AUC值明顯高于其他幾個模型。所以,最終我們選取LGB作為我們的最終模型。

        出現(xiàn)過擬合的原因:一是數(shù)據(jù)可能過小,容易產(chǎn)生過擬合;二是模型本身性能可能不理想,那么增加訓(xùn)練數(shù)據(jù)是沒有效果的。但是相較這兩種原因,我們認(rèn)為前者的可能性更大。

        7 結(jié)語

        本文將數(shù)據(jù)集隨機(jī)選取70%作為訓(xùn)練集,剩下的30%的數(shù)據(jù)作為驗(yàn)證集,并對缺失數(shù)據(jù)進(jìn)行均值填充,運(yùn)用多種機(jī)器學(xué)習(xí)方法,以AUC為模型的性能評價指標(biāo),由于決策樹、邏輯斯蒂回歸等模型出現(xiàn)過擬合現(xiàn)象,所以我們采取五折交叉驗(yàn)證,并改進(jìn)模型引入LGB模型,得到的結(jié)果也是最優(yōu)的,選取LGB模型作為我們最終的模型。

        參 考 文 獻(xiàn)

        [1] Ekinci A,Erdal H I.An Application on Prediction of Bank Failure in Turkey[J].Iktisat Isletme ve Fi-nans Dergisi,2011,26(298):21-44.

        [2]余晨曦,梁瀟.基于支持向量機(jī)的商業(yè)銀行信用風(fēng)險度量模型[J].計算機(jī)與數(shù)字工程,2008,36(11):10-14.

        [3] 李佳,黃之豪.銀行信用風(fēng)險預(yù)測——基于SVM和BP神經(jīng)網(wǎng)絡(luò)的比較研究[J].上海立信會計金融學(xué)院學(xué)報,2018(6):40-48.

        猜你喜歡
        機(jī)器學(xué)習(xí)
        基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
        時代金融(2016年27期)2016-11-25 17:51:36
        前綴字母為特征在維吾爾語文本情感分類中的研究
        下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
        活力(2016年8期)2016-11-12 17:30:08
        基于支持向量機(jī)的金融數(shù)據(jù)分析研究
        基于Spark的大數(shù)據(jù)計算模型
        基于樸素貝葉斯算法的垃圾短信智能識別系統(tǒng)
        基于圖的半監(jiān)督學(xué)習(xí)方法綜述
        機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
        極限學(xué)習(xí)機(jī)在圖像分割中的應(yīng)用
        91社区视频在线观看| 天天躁夜夜躁狠狠躁婷婷| 久久亚洲精品成人av无码网站 | 日本一区二区三级在线观看| 成人午夜视频精品一区 | 少妇下面好紧好多水真爽播放| 亚洲国产成人精品女人久久久| 中文字幕高清无码不卡在线| 丝袜美腿亚洲综合第一页| 天堂中文а√在线| 亚洲熟女乱色一区二区三区| 久久久久一| 91久久精品一区二区| 婷婷丁香五月激情综合| 亚洲国产高清在线观看视频| 久久久久国产精品四虎| 一本色道久久亚洲精品| 日本无码欧美一区精品久久 | 甲状腺囊实性结节三级| 91精品国产综合久久国产| 欧洲成人一区二区三区| 少妇白浆高潮无码免费区| 日本韩国三级aⅴ在线观看| 国产乱子伦一区二区三区国色天香| 国产精品久久久久高潮| 国产96在线 | 亚洲| 日韩精品首页在线观看| 与漂亮的女邻居少妇好爽| 性色av无码中文av有码vr| 欧美国产日本精品一区二区三区| 国产三级一区二区三区在线观看| 亚洲乱码无人区卡1卡2卡3| 亚洲乱码日产精品bd| 欧洲AV秘 无码一区二区三 | 丰满的少妇xxxxx青青青| 亚洲精品国产综合久久一线| 顶级高清嫩模一区二区| 亚洲va中文字幕无码毛片| 精品国产18禁久久久久久久| 白白色日韩免费在线观看| 韩国三级大全久久网站|