亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)的信用卡逾期預(yù)測研究

        2024-03-16 10:11:06盧榮偉黃嫦娥謝久暉
        關(guān)鍵詞:分類特征模型

        盧榮偉,黃嫦娥*,謝久暉*

        (桂林電子科技大學(xué) 數(shù)學(xué)與計(jì)算科學(xué)學(xué)院,廣西 桂林)

        引言

        隨著互聯(lián)網(wǎng)和移動(dòng)支付的快速發(fā)展,信用卡已經(jīng)成為了人們?nèi)粘I钪斜夭豢缮俚闹Ц妒侄沃?。?zhǔn)確預(yù)測逾期風(fēng)險(xiǎn)可以幫助銀行更好地管控風(fēng)險(xiǎn),減少損失??蛻舻男庞每ㄐ畔⒑蛡€(gè)人消費(fèi)數(shù)據(jù)往往與其違約行為有著某種聯(lián)系。借助機(jī)器學(xué)習(xí)方法來學(xué)習(xí)這種“聯(lián)系”,從而對大規(guī)??蛻暨M(jìn)行信用評價(jià)是可行的。已有的研究表明,機(jī)器學(xué)習(xí)算法在信用卡逾期預(yù)測問題上具有更高的效率和準(zhǔn)確性。R Singh1.1.1[1]在信用評分問題中,對傳統(tǒng)的統(tǒng)計(jì)和現(xiàn)代數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)工具進(jìn)行了評估,其對比了線性判別分析、支持向量機(jī)核密度估計(jì)、邏輯回歸、遺傳算法、鄰近算法等技術(shù),結(jié)果表明,支持向量機(jī)和遺傳算法在分類信用卡申請人誤判率上較其他技術(shù)優(yōu)越。然而,已有的研究中,很少基于本文針對傳統(tǒng)機(jī)器學(xué)習(xí)模型預(yù)測為“未逾期”客戶的可信度不高問題,對傳統(tǒng)的機(jī)器學(xué)習(xí)模型進(jìn)行改進(jìn),降低將“逾期”客戶預(yù)測成“未逾期”客戶的概率,使得模型預(yù)測結(jié)果有較高的可信度,從而為銀行實(shí)現(xiàn)信用卡精準(zhǔn)銷售,優(yōu)化客戶資源,降低信用違約風(fēng)險(xiǎn)的目的。

        1 預(yù)備知識(shí)

        1.1 ROC 曲線與PR 曲線

        ROC(Receiver Operating Characteristic)曲線是描述二元分類器在不同閾值下的表現(xiàn)的曲線。PR(Precision-Recall)曲線是彌補(bǔ)了ROC 曲線在處理不平衡數(shù)據(jù)時(shí)出現(xiàn)缺陷而誕生的一種評估指標(biāo)。橫軸表示召回率(recall),縱軸表示精確率(precision) 。PR 曲線顯示了在不同閾值下,精確率和召回率之間的折中關(guān)系。曲線上每個(gè)點(diǎn)代表一個(gè)不同的閾值,需要根據(jù)實(shí)際需求來選擇合適的閾值。如果更加關(guān)注查準(zhǔn)率,則應(yīng)該選擇PR 曲線上靠較左側(cè)的點(diǎn)作為最佳閾值;如果更加關(guān)注查全率,則應(yīng)該選擇PR 曲線上靠較右側(cè)的點(diǎn)作為最佳閾值[2]。

        1.2 評價(jià)指標(biāo)

        混淆矩陣[3]是機(jī)器學(xué)習(xí)中用于評估分類模型性能的一種方法。它是一個(gè)二維數(shù)組,橫軸表示實(shí)際的類別,縱軸表示預(yù)測的類別,每個(gè)元素表示將實(shí)際類別預(yù)測為某個(gè)類別的樣本數(shù)目,見表1。

        表1 混淆矩陣

        根據(jù)混淆矩陣可以計(jì)算得到多個(gè)指標(biāo)來評估分類模型性能,如準(zhǔn)確率、召回率、精確率和可信度等。準(zhǔn)確率(Accuracy)是指所有被正確分類的樣本占總樣本數(shù)的比例。召回率(Recall)是指所有真正例被正確識(shí)別出來的比率。精確率(Precision)是指被正確識(shí)別出來的真正例占所有被識(shí)別為真正例的樣本數(shù)目的比率??尚哦龋╟redibility)是指被識(shí)別為負(fù)例的樣本中,實(shí)際的負(fù)例樣本所占比例。

        可信度是基于本文研究的實(shí)際問題——信用卡逾期預(yù)測,提出的一個(gè)模型評價(jià)指標(biāo)??尚哦戎翟酱?,說明該模型識(shí)別出來的“未逾期”客戶更可靠。

        2 數(shù)據(jù)獲取與預(yù)處理

        本文的數(shù)據(jù)來自Default of Credit Card Clients Dataset[4],數(shù)據(jù)集共有30 000 條數(shù)據(jù),包含了持卡人的個(gè)人信息以及從2005 年4 月到2005 年9 月的信用卡信息,其中被解釋變量是客戶違約的狀態(tài),解釋變量是客戶的個(gè)人特征以及行為特征。

        信用卡數(shù)據(jù)集中含有大量的分類數(shù)據(jù),例如歷史逾期信息等。若直接將這些分類數(shù)據(jù)作為模型輸入,會(huì)導(dǎo)致模型無法理解或產(chǎn)生偏好。因此,本文首先對分類數(shù)據(jù)采用獨(dú)熱編碼處理,這樣可以提高模型性能,獨(dú)熱編碼后的特征可以保留原始分類信息,同時(shí)在模型訓(xùn)練中不會(huì)給予不同取值之間的誤導(dǎo),還能夠避免出現(xiàn)負(fù)數(shù)和相對大小等比較難處理的問題。其次,因?yàn)楦鱾€(gè)特征的量綱不一致,本文對所有樣本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。最后,考慮到信用卡數(shù)據(jù)集實(shí)際逾期客戶人群的占比較少,導(dǎo)致了樣本不平衡的問題。樣本不平衡會(huì)導(dǎo)致模型過擬合、準(zhǔn)確率誤導(dǎo)、少數(shù)類別分類效果差等。因此,為了解決樣本不平衡問題,采用了SMOTE 采樣方法平衡處理,改善模型的性能。

        3 模型構(gòu)建與評估

        3.1 基于PR 曲線的隨機(jī)森林模型構(gòu)建

        在實(shí)際應(yīng)用中,銀行不但希望模型整體預(yù)測的準(zhǔn)確率保持在一定的水平,更要盡可能降低實(shí)際逾期的客戶被預(yù)測為未逾期的比例,以使貸款銀行遭受的損失最小。基于這樣的現(xiàn)實(shí)問題,本文致力于構(gòu)建一種機(jī)器學(xué)習(xí)模型,使可信度credibility 和召回率recall 值都較高。首先采用十折交叉驗(yàn)證對邏輯回歸、樸素貝葉斯、隨機(jī)森林、XGBoost、決策樹模型進(jìn)行交叉驗(yàn)證,結(jié)果見圖1。圖1 的橫坐標(biāo)依次為邏輯回歸,樸素貝葉斯,隨機(jī)森林,XGBoost,決策樹模型,縱坐標(biāo)為AUC值。隨機(jī)森林模型的AUC 值最高,說明隨機(jī)森林模型的分類表現(xiàn)最好。

        圖1 各模型交叉驗(yàn)證結(jié)果

        數(shù)據(jù)集中特征的重要性往往是參差不齊的,構(gòu)建一個(gè)好的隨機(jī)森林分類,需要選擇合適數(shù)量且對目標(biāo)變量解釋性強(qiáng)的特征進(jìn)入分類器訓(xùn)練中。通過計(jì)算基尼純度或信息增益的減少量可以對特征進(jìn)行重要性評估,容易得到X6(最近一個(gè)月的逾期狀態(tài))在重要程度上遠(yuǎn)高于其他特征,其次仍然是前幾個(gè)月的信用卡特征,而對于客戶的性別年齡受教育程度和婚姻狀況其實(shí)對下個(gè)月是否逾期并沒有顯著的影響關(guān)系。評估完各個(gè)特征的重要性后,還需確定入選多少個(gè)特征最好,選擇的依據(jù)是以AP 值(PR 曲線下的面積)。選擇重要性排在前十的特征(見表2)進(jìn)入隨機(jī)森林模型中,且利用網(wǎng)格搜索法尋找出最優(yōu)超參數(shù)訓(xùn)練得到分類結(jié)果,模型的最佳得分為0.839。

        表2 特征重要性程度排名

        為了盡可能降低實(shí)際逾期標(biāo)簽被分類為未逾期的比例,在模型評估中使用PR 曲線。并利用F2得分來衡量模型優(yōu)劣。根據(jù)PR 曲線上使得F2得分最大的對應(yīng)點(diǎn),可計(jì)算得最佳閾值為0.182。

        根據(jù)以上分析,得到基于PR 曲線改進(jìn)的隨機(jī)森林模型算法如下。

        基于PR 曲線的隨機(jī)森林分類算法。1:對于每個(gè)隨機(jī)森林分類器i,進(jìn)行如下操作:(a) 從訓(xùn)練數(shù)據(jù)集D 中隨機(jī)有放回地抽取n 個(gè)樣本,構(gòu)成新的訓(xùn)練數(shù)據(jù)集 D ;輸出:預(yù)測結(jié)果P p p p={ , ,..., }(b) 使用 D 訓(xùn)練一棵深度為D 的決策樹 T 。2:對于每個(gè)測試樣本 z ,進(jìn)行如下操作:(a) 對于每個(gè)隨機(jī)森林分類器i,計(jì)算出 T 對于 z 的預(yù)測輸出 y y = +1 ;1 exp( ( ))f x(b) 計(jì)算所有N 棵決策樹的預(yù)測結(jié)果 y 的平均值 y_ avg Σ y=y avg N_.3:根據(jù)所有測試樣本的 y_ avg 值和每一個(gè)給定的概率閾值t,計(jì)算預(yù)測結(jié)果的精確率和召回率TP t TP t precision t recall t TP t FP t TP t FN t( ) ( )( ) , ( ).( ) ( ) ( ) ( )=+4:將每個(gè)概率閾值t 對應(yīng)的精確率和召回率組成一條PR 曲線,在PR 曲線上選擇最佳閾值(best_ threshold ),使得該閾值對應(yīng)的PR 曲線點(diǎn)具有最大的 F 值。+=5? ?= ? +precision recall F precision recall 4.5:對于每個(gè)測試樣本 z ,進(jìn)行如下操作:(a) 對于每個(gè)隨機(jī)森林分類器i,計(jì)算出 T 對于 z 的預(yù)測輸出 y ;(b) 計(jì)算所有N 棵決策樹的預(yù)測結(jié)果 y 的平均值 y_ avg;>,則預(yù)測結(jié)果為正例,否則為負(fù)例。6:輸出預(yù)測結(jié)果P。(c) 如果 _ _y avg best threshold

        3.2 實(shí)驗(yàn)結(jié)果比較

        利用Default of Credit Card Clients Dataset 的數(shù)據(jù),按4:1 的比例劃分為訓(xùn)練集和測試集,其中訓(xùn)練數(shù)據(jù)包含24 000 個(gè)樣本,測試數(shù)據(jù)包含6 000 個(gè)樣本。使用本文提出的基于PR 曲線的隨機(jī)森林模型與邏輯回歸,樸素貝葉斯,決策樹,隨機(jī)森林,XGBoost 模型的預(yù)測效果進(jìn)行比較實(shí)驗(yàn)。結(jié)果見表3。

        表3 各模型預(yù)測效果對比

        其中前五種模型為基于ROC 曲線評價(jià)體系的傳統(tǒng)模型,從模型預(yù)測準(zhǔn)確率(accuracy)和AUC 值來看決策樹、隨機(jī)森林和XGBoost 模型表現(xiàn)都比較好,其次是邏輯回歸,樸素貝葉斯的準(zhǔn)確率相對較低,但注意到樸素貝葉斯分類器可信度(credibility)這一指標(biāo)相較于另外四種模型略微有些優(yōu)勢,而邏輯回歸模型的可信度最低。

        考慮到信貸機(jī)構(gòu)把實(shí)際逾期的客戶錯(cuò)標(biāo)為未逾期,帶來的經(jīng)濟(jì)損失更嚴(yán)重。因此,從獲取商業(yè)利益最大化這一實(shí)際角度出發(fā),信用卡逾期預(yù)測模型的評價(jià)體系中最重要的兩個(gè)指標(biāo)應(yīng)當(dāng)是召回率(recall)和可信度(credibility),而模型的準(zhǔn)確率次之。本文提出的基于PR 曲線的隨機(jī)森林模型可信度(0.918)和召回率(0.854)有顯著的優(yōu)勢,這兩個(gè)主要指標(biāo)較高意味著信貸機(jī)構(gòu)以最大程度減少了錯(cuò)誤分類的損失,因此我們的模型更符合信貸機(jī)構(gòu)的商業(yè)利益,有更高的實(shí)際應(yīng)用價(jià)值。

        4 結(jié)論

        本文研究的基于機(jī)器學(xué)習(xí)的信用卡逾期預(yù)測,實(shí)際上是一個(gè)二分類問題,以客戶的信用卡記錄數(shù)據(jù)為模型的輸入指標(biāo),根據(jù)預(yù)期違約概率確定模型的輸出指標(biāo)0 或1(0 表示未違約,1 表示違約)。將輸入指標(biāo)體系和輸出指標(biāo)的樣本值輸入五種傳統(tǒng)的機(jī)器學(xué)習(xí)方法和本文提出的方法,進(jìn)行綜合比較分析。結(jié)果表明:

        (1) 在五種傳統(tǒng)的機(jī)器學(xué)習(xí)方法中,隨機(jī)森林和XGBoost 模型具有相對較好的逾期預(yù)測性能,可以更好地刻畫輸入指標(biāo)體系的數(shù)據(jù)特征,利用十折交叉驗(yàn)證表明隨機(jī)森林模型具有較好的外推性,所以預(yù)測模型的構(gòu)建選用隨機(jī)森林更合適。

        (2) 利用基尼純度或信息增益的減少量對特征進(jìn)行重要性評估,信用卡客戶逾期行為影響較大的10個(gè)重要因素是前三個(gè)月的逾期狀況和賬單支付金額以及信貸額度,通過實(shí)驗(yàn)比較,選擇這十個(gè)重要特征用于隨機(jī)森林模型訓(xùn)練時(shí)PR 曲線的AP 值最大。

        (3) 從信用卡逾期預(yù)測這一實(shí)際問題的特殊性考慮,銀行希望預(yù)測為未逾期客戶的準(zhǔn)確率要高,本文用可信度來衡量這一指標(biāo)。本文提出的基于PR 曲線的隨機(jī)森林模型的可信度(0.918)和召回率(0.854)相較于傳統(tǒng)機(jī)器學(xué)習(xí)模型具有顯著的優(yōu)勢,更符合信貸機(jī)構(gòu)的商業(yè)利益,相對于五個(gè)傳統(tǒng)的機(jī)器學(xué)習(xí)模型有更高的應(yīng)用價(jià)值。

        猜你喜歡
        分類特征模型
        一半模型
        分類算一算
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        精品蜜桃在线观看一区二区三区| 国产欧美日韩视频一区二区三区 | 精品人妻一区二区蜜臀av| 亚洲欧美国产日产综合不卡| 人妻中出中文字幕在线| 亚洲中文字幕精品乱码2021| 午夜福利理论片高清在线观看 | 青青草视频网站免费观看| 视频一区中文字幕在线观看| 26uuu在线亚洲欧美| 国产强被迫伦姧在线观看无码| 亚洲av伊人久久综合密臀性色| 久久精品熟女不卡av高清| 亚洲最大不卡av网站| 日本av一级片免费看| 又湿又紧又大又爽a视频国产| 久久人人玩人妻潮喷内射人人 | 图图国产亚洲综合网站| 日韩国产有码在线观看视频| 日本高清视频一区二区| 精品国际久久久久999波多野| 亚洲中文无码永久免| 亚洲欧洲日产国产AV无码| 中文字幕久久人妻av| 亚洲国产av一区二区三区| 亚洲国产av玩弄放荡人妇| 欧美理论在线| 激情在线视频一区二区三区| 国产精品久久久久久久久久红粉| 摸进她的内裤里疯狂揉她动视频 | 亚洲av乱码一区二区三区观影| 99久久精品在线视频| 亚洲一线二线三线写真| 国产成人精品精品欧美| 冲田杏梨av天堂一区二区三区| 国产亚洲超级97免费视频| 国产女人高潮视频在线观看| 久久久久国产亚洲AV麻豆| 亚洲av天堂一区二区| 天堂а在线中文在线新版| 欧美末成年videos在线观看|