亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合代價(jià)敏感與集成算法的個(gè)人信用評估模型

        2022-04-24 03:21:22張怡羅康洋謝曉金
        軟件導(dǎo)刊 2022年4期
        關(guān)鍵詞:個(gè)人信用特征選擇代價(jià)

        張怡,羅康洋,謝曉金

        (1.上海工程技術(shù)大學(xué)數(shù)理與統(tǒng)計(jì)學(xué)院,上海 201620;2.華東師范大學(xué)數(shù)據(jù)科學(xué)與工程學(xué)院,上海 200062)

        0 引言

        隨著貸款消費(fèi)的不斷發(fā)展,個(gè)人信用評估已成為銀行等金融機(jī)構(gòu)密切關(guān)注的熱點(diǎn)。截至2019年9月底,國民貸款消費(fèi)達(dá)到13.34萬億元,同比增長17.4%。2019年底突然爆發(fā)的新冠肺炎疫情給全球經(jīng)濟(jì)增長帶來嚴(yán)重沖擊,社會(huì)秩序面臨巨大挑戰(zhàn)。面對較多的不確定性,迫切需要加強(qiáng)金融風(fēng)險(xiǎn)監(jiān)測評估,關(guān)注金融風(fēng)險(xiǎn)邊際變化,積極穩(wěn)妥防范化解金融風(fēng)險(xiǎn)。目前中小微企業(yè)遭受不同程度的沖擊,不少雇員面臨降薪甚至失業(yè)的風(fēng)險(xiǎn),貸款償還能力大大削弱,金融風(fēng)險(xiǎn)壓力凸現(xiàn)。因此,對個(gè)人信用風(fēng)險(xiǎn)進(jìn)行評估以便及時(shí)采取有效的規(guī)避措施,降低信用風(fēng)險(xiǎn)帶來的金融危機(jī)隱患顯得尤為重要。

        個(gè)人信用評估是通過挖掘個(gè)人信用的指標(biāo)數(shù)據(jù)與失信狀態(tài)之間的關(guān)聯(lián)關(guān)系構(gòu)建模型,從而評估個(gè)人的信用風(fēng)險(xiǎn)。文獻(xiàn)[2-6]介紹了目前國內(nèi)外主要的個(gè)人信用評估模型,包括專家評分模型、統(tǒng)計(jì)評分模型和機(jī)器學(xué)習(xí)模型;嚴(yán)鴻和等從知識工程的基本思想出發(fā),分析了專家評分過程中的非線性規(guī)劃模型,用以確定權(quán)系數(shù);文獻(xiàn)[4]針對數(shù)據(jù)集特征變量進(jìn)行主成分分析,使降維后的變量無相關(guān)性,再對其進(jìn)行稀疏貝葉斯分類,得出PCA-SBL具有更高的分類性能的結(jié)論;Ma等針對個(gè)人信用評估問題,在隨機(jī)森林、LightGBM和支持向量機(jī)3個(gè)分類器上進(jìn)行加權(quán)投票組合,獲得了良好的分類精度;Shen等提出一種集成優(yōu)化模型用于個(gè)人信用風(fēng)險(xiǎn)評估。針對個(gè)人信用數(shù)據(jù)類不平衡問題,基于代價(jià)敏感的改進(jìn)算法應(yīng)運(yùn)而生。文獻(xiàn)[7]介紹了基于集成隨機(jī)森林(RF)、GBDT算法和XGBoost三種算法建立的個(gè)人信用評估模型,并依據(jù)相關(guān)多元評價(jià)指標(biāo)對個(gè)人信用評估進(jìn)行對比研究;文獻(xiàn)[8]介紹了基于代價(jià)敏感的改進(jìn)算法。

        以上方法都未研究離散型和連續(xù)型并存使算法運(yùn)行性能降低的問題,以及不平衡數(shù)據(jù)導(dǎo)致模型的整體預(yù)測性能不高問題。為此,本文提出一種結(jié)合代價(jià)敏感和集成算法的分類模型,改進(jìn)了大樣本不平衡數(shù)據(jù)的分類性能,有效解決了離散型和連續(xù)型數(shù)據(jù)并存的問題,提高了個(gè)人信用評估效果。

        1 相關(guān)理論

        1.1 集成型特征選擇算法

        特征選擇指從全部特征出發(fā),選擇符合一定評價(jià)條件的最佳特征子集,從而降低特征維度,減少模型擬合訓(xùn)練的復(fù)雜性。本文利用特征分箱將連續(xù)型數(shù)據(jù)離散化,借助去不平衡思想設(shè)計(jì)集成型特征選擇算法,將每個(gè)特征的信息價(jià)值(Information Value,IV)、互信息、信息增益和基尼指數(shù)累加后進(jìn)行排序,篩選出最優(yōu)子集,從而對類不平衡和屬性雜糅的個(gè)人信用數(shù)據(jù)進(jìn)行有效的特征選擇。

        1.1.1 基于IV的特征選擇

        在監(jiān)督學(xué)習(xí)中WOE(Weight of evidence,WOE)是自變量的一種編碼形式。假設(shè)

        p

        p

        )是第

        i

        箱中少(多)數(shù)類樣本占所有少(多)數(shù)類樣本的比例,則第

        i

        箱的WOE值為:

        其中,

        B

        G

        分別為第

        i

        箱中累積失信用戶和累積信用良好用戶的數(shù)量,

        B

        G

        分別為所有失信用戶和所有信用良好用戶的數(shù)量。

        IV指信息數(shù)據(jù)的價(jià)值,即:

        IV常用于對不同特征的預(yù)測能力進(jìn)行評估,IV越大,則該特征的預(yù)測準(zhǔn)確度越高。但當(dāng)IV大于0.5時(shí),有過擬合的風(fēng)險(xiǎn)。

        基于IV的特征選擇步驟為:1使用Best-KS分箱將連續(xù)型數(shù)據(jù)離散化;2對離散化后的數(shù)據(jù)進(jìn)行WOE編碼;3結(jié)合每個(gè)分箱及其對應(yīng)的WOE計(jì)算IV,并將其作為特征選擇的指標(biāo)之一。文獻(xiàn)[12]介紹了針對連續(xù)型特征的分箱操作,包括等頻、等距和Best-KS最優(yōu)分箱。等頻和等距分箱在不平衡數(shù)據(jù)中存在易偏向多數(shù)類的局限,因此本文采用Best-KS最優(yōu)分箱算法。

        1.1.2 基于互信息的特征選擇

        信息熵是消除不確定性所需信息量的度量,在圖像處理、人工智能、數(shù)據(jù)挖掘等領(lǐng)域應(yīng)用廣泛。對于任意的特征變量

        X

        ,信息熵為:

        其中,

        p

        =

        P

        (

        X

        =

        x

        ),

        i

        =1,2,...,

        N

        ,下同。互信息本質(zhì)是兩個(gè)隨機(jī)變量統(tǒng)計(jì)相關(guān)性的測度,通常用于特征和類別之間的測度。對于任意的特征變量

        X

        和類別

        Y

        ,互信息為:

        其中,

        p

        =

        P

        (

        Y

        =

        y

        ),

        p

        =

        P

        (

        X

        =

        x

        ,

        Y

        =

        y

        ),

        i

        =1,2,...,

        N

        ,

        j

        =1,2,...,

        M

        。

        I

        (

        X

        Y

        )越大,特征

        X

        的分類能力越強(qiáng),反之,其分類能力越弱。在不平衡數(shù)據(jù)問題中,基于互信息的特征選擇容易傾向于多數(shù)類。

        1.1.3 基于信息增益率的特征選擇

        信息增益率是互信息與特征信息熵之比。在分類判別中,其信息增益率為:

        I

        (

        X

        ,

        Y

        )越大,其分類能力越強(qiáng),反之,則分類能力越弱。信息增益率可以克服互信息偏向取值較多一方的弊端,但是其不足之處在于可能存在偏向取值較少一方的隱患。

        1.1.4 基于基尼指數(shù)的特征選擇

        基尼指數(shù)是隨機(jī)檢測樣本被錯(cuò)分的最大概率,旨在刻畫特征的不純度,其定義如下:

        Gini

        (

        X

        )越小,則特征的不純度越低,特征越好?;嶂笖?shù)在一定程度上可以規(guī)避互信息和信息增益率的兩種偏向誤差,從而最小化錯(cuò)誤率。

        1.2 基于代價(jià)敏感的異質(zhì)集成分類模型

        傳統(tǒng)的分類模型在分布均衡的數(shù)據(jù)集上呈現(xiàn)出較好的分類性能,但在不平衡數(shù)據(jù)集中,由于多數(shù)類樣本遠(yuǎn)大于少數(shù)類樣本,故容易傾向于多數(shù)類而忽略少數(shù)類的貢獻(xiàn)。在不平衡數(shù)據(jù)問題中,人們更多地關(guān)注少數(shù)類的影響。因此,從算法層面建立少數(shù)類和多數(shù)類之間的錯(cuò)分矩陣,構(gòu)建基于代價(jià)敏感的分類模型具有實(shí)際意義。

        1.2.1 代價(jià)敏感

        代價(jià)敏感指在二分類問題上將一類樣本誤分為另一類樣本所產(chǎn)生的損失,可有效規(guī)避重采樣技術(shù)中可能造成多數(shù)類中重要信息丟失或少數(shù)類過擬合現(xiàn)象的缺陷。假設(shè)

        n

        n

        分別表示少數(shù)類樣本和多數(shù)類樣本數(shù)量,則少數(shù)類和多數(shù)類的錯(cuò)分代價(jià)分別為:

        例如,在個(gè)人信用評估中,失信用戶是需要重點(diǎn)關(guān)注的對象。針對分類器對失信用戶錯(cuò)分的代價(jià)遠(yuǎn)大于對信用良好用戶錯(cuò)分代價(jià)的問題,本文給予失信用戶更高的錯(cuò)分代價(jià),即式(7)中Cos

        tP

        遠(yuǎn)大于Cos

        tN

        1.2.2 異質(zhì)集成分類模型

        (1)Bagging集成算法。根據(jù)算法屬性是否一致,集成模型劃分為同質(zhì)集成模型和異質(zhì)集成模型。將基學(xué)習(xí)器之間依賴關(guān)系分為強(qiáng)依賴關(guān)系和弱依賴關(guān)系。強(qiáng)依賴關(guān)系的代表算法是Boosting系列算法,而弱依賴關(guān)系的代表算法是Bagging、隨機(jī)森林等算法。對于噪聲較大的數(shù)據(jù)集,隨機(jī)森林容易陷入過擬合。本文基于Bagging思想構(gòu)建集成模型,其算法流程如圖1所示。

        Fig.1 Bagging algorithm flow圖1 Bagging算法流程

        (2)基于L1和彈性網(wǎng)邏輯回歸的基模型。通常借助正則化思想來降低二元邏輯回歸模型的過擬合風(fēng)險(xiǎn),即在基于極大似然估計(jì)得到的損失函數(shù)中加入正則項(xiàng)。常用的正則化包括L1正則化、L2正則化和彈性網(wǎng)正則化,對應(yīng)的損失函數(shù)分別為:

        其中,

        C

        為懲罰項(xiàng)系數(shù),

        ρ

        為常數(shù)系數(shù),

        θ

        為目標(biāo)變量

        y

        和輸入特征

        x

        的關(guān)系矩陣。由式(8)—式(10)可知,L1—邏輯回歸和彈性網(wǎng)-邏輯回歸相比L2—邏輯回歸,既可降低傳統(tǒng)邏輯回歸模型的過擬合風(fēng)險(xiǎn),又能對特征全集進(jìn)行篩選以簡化模型。

        綜上,本文將邏輯回歸模型(包含文獻(xiàn)介紹了:L1—邏輯回歸和彈性網(wǎng)—邏輯回歸)、貝葉斯模型、決策樹模型和神經(jīng)網(wǎng)絡(luò)模型作為基模型構(gòu)建異質(zhì)集成模型,有助于規(guī)避單一基模型分類性能的偶然性,提高模型的泛化能力。

        1.3 動(dòng)態(tài)加權(quán)投票策略

        集成模型的投票策略包括相對多數(shù)投票法、絕對多數(shù)投票法和加權(quán)投票法,本文對加權(quán)投票法進(jìn)行改進(jìn)以實(shí)現(xiàn)動(dòng)態(tài)選取滿足精度條件的弱學(xué)習(xí)器。主要思想為:在正式投票之前,自動(dòng)過濾預(yù)測精度低于隨機(jī)猜想的弱學(xué)習(xí)器,并將剩余的弱學(xué)習(xí)器利用式(11)進(jìn)行加權(quán)投票,以確定最終的分類結(jié)果:

        1.4 模型建立

        本文通過集成IV、互信息、信息增益率和基尼指數(shù)的特征選擇算法生成最優(yōu)特征子集,并以L1—邏輯回歸、彈性網(wǎng)—邏輯回歸、貝葉斯、決策樹和神經(jīng)網(wǎng)絡(luò)作為基模型構(gòu)建個(gè)人信用評估分類模型,如圖2所示。

        Fig.2 Personal credit assessment classification model combining cost sensitive and integrated algorithm圖2 結(jié)合代價(jià)敏感和集成算法的個(gè)人信用評估分類模型

        2 實(shí)證分析

        2.1 數(shù)據(jù)描述與預(yù)處理

        本文數(shù)據(jù)來自Kaggle官網(wǎng)的Give Me Some Credit數(shù)據(jù)集,主要描述個(gè)人消費(fèi)類信用卡貸款數(shù)據(jù)。由表1可知,該數(shù)據(jù)集有離散型和連續(xù)型數(shù)據(jù)并存特點(diǎn)。其中,失信客戶(少數(shù)類)和信用良好客戶(多數(shù)類)分別為10 026個(gè)和139 975個(gè),屬于不平衡數(shù)據(jù)集。

        Table 1 Feature attribute description表1 特征屬性描述

        在預(yù)處理數(shù)據(jù)時(shí),首先計(jì)算各自變量的缺失比,小于5%者刪除對應(yīng)樣本,大于5%者使用均值插補(bǔ)法補(bǔ)全,得到少數(shù)類和多數(shù)類樣本分別為8 357個(gè)和111 912個(gè);其次,為了消除不同量綱對特征的影響,采用極大極小歸一化法對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理;最后,將數(shù)據(jù)集按8:2劃分為訓(xùn)練集和測試集。

        2.2 實(shí)驗(yàn)設(shè)置

        采用原始特征集、基于mRMR特征選擇算法以及集成型特征選擇方法構(gòu)建個(gè)人信用評估分類模型,對比其使用性能來驗(yàn)證本文集成模型的有效性,具體通過python代碼編程實(shí)現(xiàn)。

        2.2.1 異質(zhì)集成分類模型

        mRMR是常見的特征選擇算法之一,它同時(shí)考慮了特征間的冗余性以及特征與目標(biāo)變量的相關(guān)性,即選擇與目標(biāo)類別相關(guān)性最大、特征之間冗余性最小的特征子集。

        假設(shè)特征集

        S

        中的第

        i

        個(gè)特征用

        f

        表示,則

        S

        與類別

        c

        之間最大相關(guān)最小冗余的度量方法如下:

        其中,

        I

        (

        f

        ,

        c

        )和

        I

        (

        f

        ,

        f

        )分別表示特征

        f

        與類別

        c

        和特征

        f

        之間的相關(guān)性度量。

        2.2.2 參數(shù)設(shè)置

        為克服誤分類造成的代價(jià)敏感問題,多次調(diào)參后引入類權(quán)重參數(shù)class_weight。若迭代次數(shù)太少會(huì)導(dǎo)致模型不收斂,故設(shè)置max_iter=10 000。更多參數(shù)設(shè)置見表2。

        Table 2 Integrated classification model parameter settings表2 集成分類模型參數(shù)設(shè)置

        2.2.3 性能評價(jià)指標(biāo)

        在個(gè)人信用評估研究中,金融機(jī)構(gòu)更加關(guān)注的是少數(shù)類樣本的預(yù)測準(zhǔn)確度。在不平衡數(shù)據(jù)問題中,對少數(shù)類和多數(shù)類的整體分類精度是衡量模型優(yōu)劣的重要標(biāo)志。下面基于混淆矩陣構(gòu)建評價(jià)模型性能指標(biāo),如表3所示。

        Table 3 Confusion matrix表3 混淆矩陣

        其中,TP表示少數(shù)類樣本預(yù)測正確的數(shù)量,F(xiàn)N表示少數(shù)類樣本預(yù)測錯(cuò)誤的數(shù)量,F(xiàn)P表示多數(shù)類樣本預(yù)測錯(cuò)誤的數(shù)量,TN表示多數(shù)類樣本預(yù)測正確的數(shù)量。少數(shù)類樣本召回率

        rr

        、多數(shù)類樣本召回率

        rr

        、少數(shù)類樣本查準(zhǔn)率

        pr

        、綜合分類預(yù)測能力G-means和少數(shù)類分類精確度Fvalue的定義分別表示如下:

        考慮到少數(shù)類和多數(shù)類樣本的總體預(yù)測性能,Gmeans值越大說明模型綜合分類的預(yù)測性越強(qiáng),可整體反應(yīng)模型對不平衡數(shù)據(jù)的分類性能。F-value考慮了少數(shù)類樣本的召回率和查準(zhǔn)率,能全面反映少數(shù)類樣本的分類精度,其值越大表明模型對于少數(shù)類樣本的識別能力越強(qiáng)。

        2.3 個(gè)人信用數(shù)據(jù)集實(shí)驗(yàn)結(jié)果與分析

        在原始特征集中基于mRMR特征選擇算法和基于集成型特征選擇算法篩選出的特征子集見表4。從表4可以看出,無論從特征之間相關(guān)性、冗余性還是重要性角度,表4中的7個(gè)特征都與個(gè)人信用評估密切相關(guān)。

        Table4 mRMR feature subset and integrated feature subset表4 mRMR特征子集與集成型特征子集

        續(xù)表

        分別將兩組特征子集的對應(yīng)數(shù)據(jù)作為集成模型的輸入,預(yù)測結(jié)果如表5所示。

        Table 5 Integrated model and prediction results based on mRMR model and existing literatures表5 集成型模型與基于mRMR模型和已有文獻(xiàn)預(yù)測結(jié)果 (%)

        由表5可知,本文模型和基于mRMR特征選擇構(gòu)建的模型評價(jià)指標(biāo)均優(yōu)于基于原始特征全集模型評價(jià)指標(biāo)。事實(shí)上,相比基于原始特征全集構(gòu)建的模型,本文模型的G-means和F-value分別提升8%和18%,而基于mRMR特征選擇算法構(gòu)建模型的性能均提升1%,可見本文模型的分類效果較mRMR特征選擇算法模型有大幅提高。此外,與文獻(xiàn)[23]的實(shí)證結(jié)果相比,

        rr

        降低了11.94%,

        rr

        增加了15.43%,G-Means、F-value和AUC的性能分別提升10.76%、21.07%和0.64%。

        rr

        的增加是以犧牲多數(shù)類樣本的正確預(yù)測為代價(jià),這表明代價(jià)敏感算法和集成特征選擇算法的結(jié)合有效降低了多數(shù)類的影響,增強(qiáng)了少數(shù)類的重要性,從而提升了不平衡數(shù)據(jù)整體的分類效果,但AUC指標(biāo)提升較小。

        3 結(jié)語

        本文提出一種結(jié)合代價(jià)敏感和集成算法的異質(zhì)集成個(gè)人信用評估分類模型。首先借助Best-KS分箱將連續(xù)型數(shù)據(jù)離散化;然后利用IV、互信息、信息增益率和基尼指數(shù)集成特征選擇算法;接著基于代價(jià)敏感構(gòu)建L1邏輯回歸、彈性網(wǎng)邏輯回歸、貝葉斯、決策樹和神經(jīng)網(wǎng)絡(luò)基模型;最后通過G-means賦權(quán),實(shí)現(xiàn)動(dòng)態(tài)加權(quán)投票策略。實(shí)證結(jié)果表明,本文模型的預(yù)測性能優(yōu)于基于原始特征集以及利用mRMR特征選擇后構(gòu)建的個(gè)人信用評估分類模型,具有一定的魯棒性。

        利用本文模型將二分類問題推廣至多分類問題方案以進(jìn)一步提高模型分類性能是未來的研究方向。

        猜你喜歡
        個(gè)人信用特征選擇代價(jià)
        基于HPSO-BP神經(jīng)網(wǎng)絡(luò)的個(gè)人信用評估
        個(gè)人信用信息何以應(yīng)由憲法保護(hù)?——一個(gè)制度論證的進(jìn)路
        法大研究生(2020年2期)2020-01-19 01:43:22
        愛的代價(jià)
        海峽姐妹(2017年12期)2018-01-31 02:12:22
        代價(jià)
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        嚴(yán)重交通違法行為將直接與個(gè)人信用掛鉤
        汽車與安全(2016年5期)2016-12-01 05:22:05
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        成熟的代價(jià)
        基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
        基于二元搭配詞的微博情感特征選擇
        国产呦系列呦交| 66lu国产在线观看| 无码精品一区二区免费AV| 97人妻无码免费专区| 久久精品国产9久久综合| 久久国产人妻一区二区| 国产av人人夜夜澡人人爽麻豆| 日韩高清无码中文字幕综合一二三区| 日本av在线精品视频| 国产亚洲成人精品久久久| 狼狼综合久久久久综合网| 亚洲欧美日韩综合久久久| 欧美精品日韩一区二区三区| 亚洲国产精品成人一区二区在线| 久久aaaa片一区二区| 亚洲精品黑牛一区二区三区| 色系免费一区二区三区| 在线观看一区二区三区视频| 岳丰满多毛的大隂户| 亚洲精品无码mv在线观看| 亚洲av永久青草无码精品| 中文字幕综合一区二区| 强奷乱码中文字幕| 免费无码一区二区三区蜜桃大| 久久亚洲道色宗和久久| 久久狠狠髙潮曰十八女人| 久久99精品久久久久麻豆| 国产成人免费一区二区三区 | 三叶草欧洲码在线| 国产精品多人P群无码| 亚洲女同一区二区久久| 精品亚洲一区二区三区四区五| 亚洲精品午夜无码专区| 乱子伦av无码中文字幕| 人妻丰满精品一区二区| 亚洲人成网线在线播放va蜜芽 | 在线观看的网站| 欧美午夜精品久久久久免费视| 日韩av一区二区三区精品| 久久精品中文字幕女同免费| 风韵饥渴少妇在线观看|