亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)教學(xué)式方法的可解釋信用風(fēng)險(xiǎn)評價(jià)模型構(gòu)建

        2021-01-04 09:55:38董路安
        中國管理科學(xué) 2020年9期
        關(guān)鍵詞:保真度解釋性剪枝

        董路安,葉 鑫

        (大連理工大學(xué)經(jīng)濟(jì)管理學(xué)院,遼寧 大連 116024)

        1 引言

        全球金融危機(jī)爆發(fā)以來,銀行和金融機(jī)構(gòu)的風(fēng)險(xiǎn)控制問題受到了廣泛的關(guān)注。信用風(fēng)險(xiǎn)評價(jià)作為風(fēng)險(xiǎn)防控的主要工具之一,為銀行和金融機(jī)構(gòu)有效衡量貸款風(fēng)險(xiǎn),降低潛在信貸違約風(fēng)險(xiǎn),并制定決策提供了保障[1]。隨著人工智能浪潮的來襲,基于機(jī)器學(xué)習(xí)的信用風(fēng)險(xiǎn)評價(jià)模型以其精確的預(yù)測結(jié)果受到銀行等金融機(jī)構(gòu)的青睞,正逐步取代以信用評分卡和回歸為主的傳統(tǒng)信用風(fēng)險(xiǎn)評價(jià)[2-5]。但與傳統(tǒng)信用風(fēng)險(xiǎn)評價(jià)方法相比,機(jī)器學(xué)習(xí)模型是一個(gè)黑箱模型,對投資者而言缺乏必要的可解釋性[6]。由于投資者缺乏有效的機(jī)制了解機(jī)器學(xué)習(xí)模型內(nèi)部決策過程,導(dǎo)致投資者無法完全信任其預(yù)測結(jié)果[7-8]。同時(shí)為保證申請人具有平等的貸款機(jī)會,歐盟在《一般數(shù)據(jù)保護(hù)條例》(General Data Protection Regulation, GDPR)中要求銀行所使用的信用風(fēng)險(xiǎn)評價(jià)模型能夠?yàn)槠漕A(yù)測結(jié)果提供必要的解釋[9]。這也限制了其在信用風(fēng)險(xiǎn)評價(jià)中的應(yīng)用及推廣[10]。因此,提高基于機(jī)器學(xué)習(xí)的信用風(fēng)險(xiǎn)評價(jià)模型可解釋性,構(gòu)建兼顧準(zhǔn)確性與可解釋性的信用風(fēng)險(xiǎn)評價(jià)模型,成為信用風(fēng)險(xiǎn)評價(jià)的關(guān)鍵。

        為實(shí)現(xiàn)模型的準(zhǔn)確性與可解釋性間的有效權(quán)衡,Craven等[11-12]提出了TREPAN算法,該方法利用神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)集進(jìn)行重新標(biāo)注,新標(biāo)記的數(shù)據(jù)集(偽數(shù)據(jù)集)被用于決策樹的訓(xùn)練,并通過局部和全局約束準(zhǔn)則控制決策樹的可解釋性,實(shí)驗(yàn)表明所生成的決策樹更易于決策者理解。Baesens等[6]將TREPAN算法應(yīng)用于信用風(fēng)險(xiǎn)評價(jià)研究,并通過實(shí)驗(yàn)驗(yàn)證了該方法在信用風(fēng)險(xiǎn)評價(jià)上的可靠性。但TREPAN算法所生成的決策樹是基于M-of-N形式規(guī)則的,單個(gè)規(guī)則不利于決策者理解[13]。針對TREPAN算法的局限性,Schmitz等[14]以CART決策樹為基礎(chǔ)提出了ANN-DT方法,并通過控制決策樹最大深度使生成的決策樹更具有可解釋性。Wu等[15]提出樹正則化概念,通過樹正則化對黑箱模型進(jìn)行約束,使黑箱模型指導(dǎo)生成的決策樹具有更好的可解釋性和準(zhǔn)確性。Huysmans等[16]將上述方法歸納為教學(xué)式方法(Pedagogical method)。該類方法參照人類教學(xué)過程,利用決策樹(學(xué)生)學(xué)習(xí)和模擬機(jī)器學(xué)習(xí)模型(教師)的功能,所生成的決策樹既保留了機(jī)器學(xué)習(xí)模型預(yù)測精準(zhǔn)的優(yōu)點(diǎn),又能發(fā)揮決策樹易于決策者理解的優(yōu)勢。由于教學(xué)式方法在解決模型的準(zhǔn)確性與可解釋性權(quán)衡問題上的良好表現(xiàn),引起了國內(nèi)外學(xué)者的關(guān)注。

        總體來看,教學(xué)式方法在信用風(fēng)險(xiǎn)評價(jià)領(lǐng)域已進(jìn)行了一些探索性的嘗試,但現(xiàn)有的研究并未對機(jī)器學(xué)習(xí)模型功能的正確性和可信度進(jìn)行衡量,模型中錯(cuò)誤的或可信度低的功能會降低決策樹的預(yù)測精度,影響其在信用風(fēng)險(xiǎn)評價(jià)中的效果。同時(shí)在決策樹構(gòu)建過程中,現(xiàn)有的方法對于生成決策樹的準(zhǔn)確性、可解釋性以及其與機(jī)器學(xué)習(xí)模型的一致性三者間缺乏有效地權(quán)衡,影響整體效果?;诖?,本文提出了一種基于改進(jìn)教學(xué)式方法的信用風(fēng)險(xiǎn)評價(jià)模型構(gòu)建方法。(1)為提高所生成決策樹在信用風(fēng)險(xiǎn)評價(jià)中的預(yù)測精度,該方法對機(jī)器學(xué)習(xí)模型功能的正確性和可信度進(jìn)行了有效的衡量,決策樹僅學(xué)習(xí)和模擬機(jī)器學(xué)習(xí)模型中正確且可信度高的功能。(2)為更好的實(shí)現(xiàn)決策樹在各評價(jià)指標(biāo)間的有效權(quán)衡,提出了一種新的決策樹剪枝方法。在實(shí)證分析中,利用3個(gè)真實(shí)信用風(fēng)險(xiǎn)評價(jià)數(shù)據(jù)集對本文方法進(jìn)行了驗(yàn)證,并取得了較好的應(yīng)用效果。

        2 面向信用風(fēng)險(xiǎn)評價(jià)的改進(jìn)教學(xué)式方法

        信用風(fēng)險(xiǎn)評價(jià)本質(zhì)是一種信用分析工具,其核心是預(yù)測貸款結(jié)果,并輔助投資者進(jìn)行決策。本節(jié)將結(jié)合信用風(fēng)險(xiǎn)評價(jià)問題對教學(xué)式方法進(jìn)行簡要的介紹,分析其存在的局限,并提出改進(jìn)的教學(xué)式方法。

        2.1 教學(xué)式方法及局限

        教學(xué)式方法模擬人類教學(xué)過程,將機(jī)器學(xué)習(xí)模型和決策樹分別視為教師和學(xué)生。機(jī)器學(xué)習(xí)模型(教師)被用來指導(dǎo)決策樹(學(xué)生)的構(gòu)建與訓(xùn)練,其目標(biāo)是所生成的決策樹能夠近似模擬機(jī)器學(xué)習(xí)模型功能,在信用風(fēng)險(xiǎn)評價(jià)中做出準(zhǔn)確預(yù)測,且模型及其預(yù)測結(jié)果易于決策者的理解。教學(xué)式方法的流程框架如圖1所示。

        圖1 教學(xué)式方法流程框架

        (1)

        決策樹通過學(xué)習(xí)和模擬機(jī)器學(xué)習(xí)模型的功能,繼承了機(jī)器學(xué)習(xí)模型預(yù)測精準(zhǔn)的優(yōu)勢,且決策樹結(jié)構(gòu)簡單,決策過程和預(yù)測結(jié)果易于決策者理解。但現(xiàn)有的方法仍存在以下局限:

        (1)現(xiàn)有的方法對于機(jī)器學(xué)習(xí)模型功能的正確性和可信度缺乏有效的識別,機(jī)器學(xué)習(xí)模型所包含的錯(cuò)誤的或可信度低的功能,會導(dǎo)致模型在信用風(fēng)險(xiǎn)評價(jià)時(shí)做出錯(cuò)誤預(yù)測,影響投資者的決策。決策樹在學(xué)習(xí)和模擬機(jī)器學(xué)習(xí)模型過程中,應(yīng)避免對于錯(cuò)誤的或可信度低的功能的學(xué)習(xí),而應(yīng)更關(guān)注對于正確且可信度高的功能的學(xué)習(xí)與模擬,以提高其在信用風(fēng)險(xiǎn)評價(jià)中的預(yù)測精度;

        (2)在決策樹生成過程中,決策樹剪枝可以有效地提高模型的可解釋性。但現(xiàn)有方法對于準(zhǔn)確性、可解釋性以及所生成決策樹與機(jī)器學(xué)習(xí)模型的一致性三者間缺乏有效地權(quán)衡,往往只考慮單一方面,而忽略其他方面,影響整體效果。

        2.2 改進(jìn)的教學(xué)式方法

        針對上述問題,本節(jié)提出一種改進(jìn)的教學(xué)式方法,以構(gòu)建準(zhǔn)確且可解釋的信用風(fēng)險(xiǎn)評價(jià)模型。相較于傳統(tǒng)教學(xué)式方法,為提高決策樹的預(yù)測精度,本方法在偽數(shù)據(jù)集生成階段,對機(jī)器學(xué)習(xí)模型功能的正確性和可信度進(jìn)行度量,并提出了基于Weight-SMOTE的偽數(shù)據(jù)集生成方法,來提高正確且可信度高的樣本在偽數(shù)據(jù)集中的比例,以此提高決策樹對于機(jī)器學(xué)習(xí)模型中正確且可信度高的功能的學(xué)習(xí)能力。其次,為實(shí)現(xiàn)決策樹在準(zhǔn)確性、可解釋性及其與機(jī)器學(xué)習(xí)模型一致性間的有效權(quán)衡,在決策樹生成過程中,提出了一種新的決策樹剪枝方法,以提升決策樹的整體效果。此外,針對保真度評價(jià)指標(biāo)的局限性,提出了真保真度評價(jià)方法,以更有效地衡量決策樹與機(jī)器學(xué)習(xí)模型正確功能的近似程度。

        2.2.1 基于Weight-SMOTE的偽數(shù)據(jù)集生成方法

        (2)

        算法1:基于Weight-SMOTE的偽數(shù)據(jù)集抽樣算法

        步驟1偽樣本集中逾期貸款數(shù)據(jù)抽樣

        步驟1.2 根據(jù)偽樣本被選擇的概率,采用輪盤賭方法從集合T0中選擇偽樣本xi;

        步驟1.3 根據(jù)式(3),計(jì)算xi與集合T0中剩余偽樣本的歐幾里得距離,距離T0最近的h個(gè)偽樣本被選擇

        (3)

        其中,n為偽樣本包含的屬性數(shù)量,xiu和xju為偽樣本xi和xj的第u個(gè)屬性的取值;

        步驟1.4 從h個(gè)近鄰中隨機(jī)選擇一個(gè)偽樣本xj,與偽樣本xi構(gòu)建新的偽樣本xnew,并將新生成的偽樣本添加至T0,構(gòu)造公式為:

        xnew=xi+rand(0,1)×(xj-xi)

        (4)

        其中rand(0,1)表示區(qū)間(0,1)內(nèi)的一個(gè)隨機(jī)數(shù);

        2.2.2 決策樹剪枝方法

        決策樹剪枝能夠有效提高決策樹的可解釋性,利于投資者理解決策樹的決策過程。在決策樹生成階段,決策樹剪枝需要綜合考慮以下三個(gè)方面:1)決策樹的準(zhǔn)確性,即決策樹的預(yù)測標(biāo)簽應(yīng)與實(shí)際標(biāo)簽一致;2)決策樹的可解釋性,即決策樹應(yīng)盡可能的簡潔,利于投資者的理解;3)決策樹與機(jī)器學(xué)習(xí)模型的一致性,即決策樹能夠近似模擬機(jī)器學(xué)習(xí)模型。為了實(shí)現(xiàn)決策樹在以上三方面間的有效權(quán)衡,本文在決策樹預(yù)剪枝過程中采用了一種新的決策樹評價(jià)方法,該評價(jià)方法如式(5)所示。

        E=∑(yn-y)2+∑(yn-ym)2+λ1φ1+λ2φ2

        (5)

        式(5)中,∑(yn-y)2反映了決策樹的準(zhǔn)確性,yn和y分別為決策樹對于樣本的預(yù)測標(biāo)簽和樣本的實(shí)際標(biāo)簽。決策樹預(yù)測越準(zhǔn)確則該項(xiàng)值越小;∑(yn-ym)2體現(xiàn)了決策樹與機(jī)器學(xué)習(xí)模型的一致性,其中ym為機(jī)器學(xué)習(xí)模型對于樣本的預(yù)測標(biāo)簽,該項(xiàng)值越小,則說明決策樹與機(jī)器學(xué)習(xí)模型預(yù)測結(jié)果越一致,決策樹與機(jī)器學(xué)習(xí)模型功能的近似程度越高;λ1φ1與λ2φ2為正則化項(xiàng),反映了決策樹的可解釋性,其中φ1和φ2分別為決策樹中葉子節(jié)點(diǎn)數(shù)以及決策樹的平均路徑長度,而λ1與λ2為二者的權(quán)重,λ1φ1與λ2φ2之和越小則表明生成的決策樹可解釋性越高。該評價(jià)方法從準(zhǔn)確性、可解釋性以及決策樹與機(jī)器學(xué)習(xí)模型一致性三個(gè)方面對決策樹進(jìn)行綜合評價(jià),確保三者間的有效權(quán)衡。

        2.2.3 教學(xué)式方法的評價(jià)

        與傳統(tǒng)的監(jiān)督學(xué)習(xí)不同,教學(xué)式方法在訓(xùn)練過程中使用機(jī)器學(xué)習(xí)模型作為“教師”,來指導(dǎo)生成一個(gè)能近似表達(dá)機(jī)器學(xué)習(xí)模型功能且易于解釋的決策樹。因此,教學(xué)式方法的評價(jià)除需考慮所生成決策樹的準(zhǔn)確性外,還需考慮所生成決策樹的可解釋性及其與機(jī)器學(xué)習(xí)模型功能的一致性。

        (1)準(zhǔn)確性

        教學(xué)式方法所生成的決策樹需要具備較高的準(zhǔn)確性,才能更精準(zhǔn)的輔助決策?,F(xiàn)有研究中,決策樹的準(zhǔn)確性多采用決策樹在測試集上的準(zhǔn)確率來衡量。準(zhǔn)確率越高,生成的決策樹越準(zhǔn)確,反之亦然。準(zhǔn)確率的計(jì)算如式(6)所示。

        (6)

        其中,TP、TN、FP、FN分別為真正類、真負(fù)類、假正類和假負(fù)類[17]。

        (2)可解釋性

        教學(xué)式方法所生成的決策樹要易于投資者理解,即需要具備可解釋性,才能夠在信用風(fēng)險(xiǎn)評價(jià)中為投資者提供更好的決策支持。決策樹的可解釋性主要由葉子節(jié)點(diǎn)數(shù)、根節(jié)點(diǎn)至葉子節(jié)點(diǎn)的平均路徑長度兩個(gè)方面所決定。一方面,決策樹所包含的葉子節(jié)點(diǎn)數(shù)越多,決策樹所能夠轉(zhuǎn)化得到的規(guī)則越多,投資者解釋規(guī)則所需的時(shí)間也越多,模型的可解釋性越低。另一方面決策樹的平均路徑越長,決策樹轉(zhuǎn)化得到的規(guī)則所包含的約束也越多,投資者解釋規(guī)則的難度增加,模型的可解釋性越低。

        (3)決策樹與機(jī)器學(xué)習(xí)模型的一致性

        決策樹與機(jī)器學(xué)習(xí)模型的一致性體現(xiàn)了決策樹與機(jī)器學(xué)習(xí)模型功能的近似程度,一致性越高,二者功能越相似?,F(xiàn)有的研究對于決策樹與機(jī)器學(xué)習(xí)模型的一致性的度量多采用保真度評價(jià)指標(biāo),如式(7)所示。

        (7)

        其中TBT為決策樹與機(jī)器學(xué)習(xí)模型預(yù)測結(jié)果一致的樣本數(shù)量,BTP、BTN、BFP、BFN分別代表了機(jī)器學(xué)習(xí)模型預(yù)測正確的非逾期樣本數(shù)量、預(yù)測正確的逾期樣本數(shù)量、預(yù)測錯(cuò)誤的非逾期樣本數(shù)量和預(yù)測錯(cuò)誤的逾期樣本數(shù)量。保真度通過決策樹與機(jī)器學(xué)習(xí)模型預(yù)測結(jié)果的一致性來有效的衡量決策樹與機(jī)器學(xué)習(xí)模型整體功能的近似程度,保真度評價(jià)指標(biāo)既關(guān)注了決策樹對于模型中正確功能的學(xué)習(xí)能力,也考慮了模型錯(cuò)誤功能對于決策樹預(yù)測精度的影響。但在改進(jìn)式教學(xué)方法中,通過基于Weight-SMOTE的偽數(shù)據(jù)集生成方法,保證了決策樹僅能夠?qū)W習(xí)機(jī)器學(xué)習(xí)模型中正確的功能,避免了決策樹學(xué)習(xí)模型中錯(cuò)誤的功能。因此決策樹與機(jī)器學(xué)習(xí)模型的一致性應(yīng)表現(xiàn)為決策樹與機(jī)器學(xué)習(xí)模型中正確功能的近似程度,近似程度越高,決策樹模型的價(jià)值越大。而保真度評價(jià)指標(biāo)難以滿足本文對于決策樹與機(jī)器學(xué)習(xí)模型一致性評價(jià)的實(shí)際需求。

        針對保真度評價(jià)指標(biāo)的局限性,本文提出了真保真度評價(jià)指標(biāo)來更客觀的評價(jià)決策樹與機(jī)器學(xué)習(xí)模型中正確功能的近似程度,真保真度可通過式(8)計(jì)算:

        (8)

        其中TB為決策樹與機(jī)器學(xué)習(xí)模型均預(yù)測正確的樣本數(shù)量,真保真度越大,所生成的決策樹與機(jī)器學(xué)習(xí)模型正確功能的近似程度越高。

        3 實(shí)驗(yàn)與結(jié)果分析

        本研究采用隨機(jī)森林作為底層機(jī)器學(xué)習(xí)模型,隨機(jī)森林作為一種集成學(xué)習(xí)方法,在信用風(fēng)險(xiǎn)評價(jià)領(lǐng)域表現(xiàn)出了良好的效果[2,18]。為了驗(yàn)證本文所提出的改進(jìn)教學(xué)式方法在提高信用風(fēng)險(xiǎn)評價(jià)機(jī)器學(xué)習(xí)模型可解釋問題上的有效性,采用了3個(gè)真實(shí)的信用風(fēng)險(xiǎn)評價(jià)數(shù)據(jù)集進(jìn)行實(shí)例驗(yàn)證研究。

        3.1 樣本與特征選擇

        本文共采用3個(gè)數(shù)據(jù)集:Australian數(shù)據(jù)集、German數(shù)據(jù)集和Lending Club數(shù)據(jù)集。Australian數(shù)據(jù)集和German數(shù)據(jù)集來自機(jī)器學(xué)習(xí)領(lǐng)域權(quán)威的UCI數(shù)據(jù)庫。Lending Club數(shù)據(jù)集則來自美國最大P2P網(wǎng)貸平臺——Lending Club平臺上發(fā)布的2016年全部借款記錄。針對本文的信用風(fēng)險(xiǎn)評價(jià)問題,本文選擇了全量的標(biāo)記借款狀態(tài)為“Charged off”和“Default”的借款作為逾期貸款(其標(biāo)簽為0),而隨機(jī)選擇了等量的借款狀態(tài)為“Fully paid”的借款記錄作為非逾期借款(其標(biāo)簽為1)。本文參考文獻(xiàn)[2]中所使用的Lending Club數(shù)據(jù)特征,共選擇15個(gè)原始特征并進(jìn)行預(yù)處理,所選特征及預(yù)處理方法如表1所示。在使用數(shù)據(jù)進(jìn)行建模之前,對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,以避免不同特征取值范圍對分類結(jié)果的影響[19-20]。

        表1 Lending Club數(shù)據(jù)集特征及預(yù)處理方法

        3.2 模型評價(jià)準(zhǔn)則

        為全面的評價(jià)所提出的方法,本文從準(zhǔn)確性、可解釋性以及決策樹與機(jī)器學(xué)習(xí)模型一致性三個(gè)方面進(jìn)行評價(jià)。準(zhǔn)確性采用準(zhǔn)確率進(jìn)行衡量,計(jì)算方式如式(6)所示??山忉屝灾饕獜纳蓻Q策樹包含的葉子節(jié)點(diǎn)數(shù)、根節(jié)點(diǎn)至葉子節(jié)點(diǎn)的平均路徑長度兩個(gè)方面評價(jià)。而決策樹與機(jī)器學(xué)習(xí)模型一致性則采用真保真度進(jìn)行評價(jià),其計(jì)算方法如式(8)所示。

        為保證實(shí)驗(yàn)結(jié)果的客觀性,所有實(shí)驗(yàn)均采用10折交叉驗(yàn)證。

        3.3 相關(guān)參數(shù)設(shè)置

        本文實(shí)驗(yàn)相關(guān)參數(shù)設(shè)置如下:

        (1)隨機(jī)森林可調(diào)參數(shù)設(shè)置

        隨機(jī)森林規(guī)模及決策樹最大深度是隨機(jī)森林的關(guān)鍵參數(shù),對于隨機(jī)森林的分類結(jié)果準(zhǔn)確性具有較大的影響。為獲得最佳的隨機(jī)森林參數(shù),本文采用網(wǎng)格搜索方法對隨機(jī)森林參數(shù)進(jìn)行調(diào)優(yōu),網(wǎng)格搜索相關(guān)參數(shù)如表2所示。

        表2 網(wǎng)格搜索參數(shù)

        通過網(wǎng)格搜索,隨機(jī)森林在各數(shù)據(jù)集上的最佳參數(shù)組合如表3所示。

        表3 隨機(jī)森林最佳參數(shù)組合

        (2)Weight-SMOTE可調(diào)參數(shù)設(shè)定

        在Weight-SMOTE算法中k%的取值反映了投資者所信任的機(jī)器學(xué)習(xí)模型功能的比例,k%的取值越小,則決策樹學(xué)習(xí)機(jī)器學(xué)習(xí)模型中可信度低的功能的比例越低,其對于生成決策樹的效果具有顯著的影響。對于不同數(shù)據(jù)集和機(jī)器學(xué)習(xí)模型,該參數(shù)不存在通用值,只能依據(jù)實(shí)際情況與投資者的需求進(jìn)行設(shè)定,本文采用試湊法來確定該參數(shù)。Australian數(shù)據(jù)集、German數(shù)據(jù)集、Lending Club數(shù)據(jù)集的k值分別選取95,95和75。此外,h的取值為5。

        (3)決策樹剪枝可調(diào)參數(shù)設(shè)定

        決策樹剪枝的參數(shù)選擇對決策樹的性能具有影響。針對不同的問題與投資者的需求,決策樹剪枝的參數(shù)選擇也有所不同,因此本文選擇了多組備選參數(shù)。為了保證決策樹剪枝算法性能,本文針對所使用的數(shù)據(jù)集,進(jìn)行了探索性實(shí)驗(yàn),以確定各參數(shù)取值區(qū)間,并在區(qū)間內(nèi)均勻選取多個(gè)參數(shù)值,如表4所示。

        表4 決策樹剪枝參數(shù)

        3.4 實(shí)驗(yàn)結(jié)果分析

        3.4.1 信用風(fēng)險(xiǎn)評價(jià)效果分析

        為檢驗(yàn)改進(jìn)的教學(xué)式方法的有效性,本文首先對比了改進(jìn)的教學(xué)式方法與傳統(tǒng)的教學(xué)式方法、決策樹以及隨機(jī)森林(RF)在3個(gè)信用風(fēng)險(xiǎn)評價(jià)數(shù)據(jù)集上的表現(xiàn),由于正則項(xiàng)系數(shù)λ1與λ2對于生成的決策樹的效果具有影響,為了檢驗(yàn)不同參數(shù)取值組合下方法的表現(xiàn),每一數(shù)據(jù)集選取了4組具有代表性的λ1與λ2取值,實(shí)驗(yàn)結(jié)果如表5、表6和表7所示。

        表5 本文所提方法與對照方法在German數(shù)據(jù)集上結(jié)果對比

        表6 本文所提方法與對照方法在Australian數(shù)據(jù)集上結(jié)果對比

        表7 本文所提方法與對照方法在Lending Club數(shù)據(jù)集上結(jié)果對比

        根據(jù)上述實(shí)驗(yàn)結(jié)果可以得出以下結(jié)論:1)在準(zhǔn)確率方面,改進(jìn)教學(xué)式方法整體上優(yōu)于傳統(tǒng)教學(xué)式方法和CART決策樹,在信用風(fēng)險(xiǎn)評價(jià)中表現(xiàn)出了良好的分類性能。雖然隨機(jī)森林的準(zhǔn)確率在三個(gè)數(shù)據(jù)集上均高于改進(jìn)式教學(xué)方法,但其缺乏可解釋性的弊端也使其預(yù)測結(jié)果無法在實(shí)際應(yīng)用中被決策者所信任;2)相比于傳統(tǒng)教學(xué)式方法,改進(jìn)教學(xué)式方法具有更高的真保真度,表明其所生成的決策樹能夠更好的學(xué)習(xí)和模擬隨機(jī)森林中正確的功能;3)從平均路徑長度與葉子節(jié)點(diǎn)數(shù)來看,改進(jìn)教學(xué)式方法所生成的決策樹包含的葉子節(jié)點(diǎn)數(shù)均少于20,平均路徑長度均小于5,在三個(gè)數(shù)據(jù)集上均顯著優(yōu)于傳統(tǒng)教學(xué)式方法、CART決策樹和隨機(jī)森林,表明改進(jìn)式教學(xué)方法所生成的決策樹具有極強(qiáng)的可解釋性,有助于投資者的理解和掌握。4)通過分析不同正則項(xiàng)系數(shù)組合下方法的效果,可以看到λ1與λ2對于所生成的決策樹的性能具有影響。對于不同的投資者而言,可以根據(jù)自身的決策偏好選擇合適的正則項(xiàng)系數(shù)的組合,以生成滿足自身決策需求的信用風(fēng)險(xiǎn)評價(jià)模型。

        此外,許多研究表明準(zhǔn)確率與可解釋性間存在制約關(guān)系,模型可解釋性的提高在一定程度上會造成模型預(yù)測精度的下降[21-23]。在上述實(shí)驗(yàn)中,改進(jìn)教學(xué)式方法通過犧牲一定的準(zhǔn)確率,有效的提升了生成決策樹的可解釋能力,該結(jié)果進(jìn)一步驗(yàn)證了上述研究結(jié)論。

        3.4.2 基于Weight-SMOTE的偽數(shù)據(jù)集生成方法對真保真度的影響分析

        表8 基于Weight-SMOTE偽數(shù)據(jù)生成在German數(shù)據(jù)集上真保真度表現(xiàn)

        表9 基于Weight-SMOTE偽數(shù)據(jù)生成在Australian數(shù)據(jù)集上真保真度表現(xiàn)

        表10 基于Weight-SMOTE偽數(shù)據(jù)生成在Lending Club數(shù)據(jù)集上真保真度表現(xiàn)

        由上述結(jié)果可以得出以下結(jié)論:采用基于Weight-SMOTE的偽樣本生成方法對于提升所生成決策樹的真保真度具有顯著效果,有利于決策樹學(xué)習(xí)和模擬機(jī)器學(xué)習(xí)模型中正確且可信度高的功能。

        3.4.3 決策樹剪枝方法比較

        本文對比采用不同決策樹剪枝方法的效果,以驗(yàn)證本文所提出的決策樹剪枝方法能夠更好的實(shí)現(xiàn)準(zhǔn)確率、可解釋性和真保真度三者間的有效權(quán)衡。對于每一種決策樹剪枝方法,通過改變其參數(shù)可獲得一組具有差異的備選決策樹,投資者可以根據(jù)決策樹的準(zhǔn)確性、可解釋性以及真保真度來選擇符合自身決策偏好的決策樹。因此,備選決策樹集合可以看作是該問題的一組解,備選決策樹集合整體表現(xiàn)越好,越能夠滿足不同投資者的需求。本文采用超體積指標(biāo)(HV值)來評價(jià)備選決策樹集合的整體表現(xiàn),HV值表示解集的Pareto最優(yōu)解與參考點(diǎn)所覆蓋的體積(或面積),HV值越大則表示解集質(zhì)量越高[24]。本文選擇(1,1,1,1)為HV值計(jì)算的參考點(diǎn),并在計(jì)算HV值之前,通過式(9)對各評價(jià)指標(biāo)進(jìn)行轉(zhuǎn)化,使其滿足以最小化為目標(biāo),且取值區(qū)間為[0,1]。

        (9)

        表11分別給出了不同決策樹剪枝方法在三個(gè)數(shù)據(jù)集上的HV值。本文所提出的方法HV值在3個(gè)數(shù)據(jù)集上均顯著優(yōu)于基于決策樹最大深度的剪枝算法和基于決策樹最大子葉節(jié)點(diǎn)樣本數(shù)的剪枝算法,表明該剪枝方法能夠更好的實(shí)現(xiàn)決策樹對于準(zhǔn)確性、可解釋性以及真保真度三者之間的權(quán)衡,其生成的備選決策樹集合能夠更好的滿足實(shí)際信用風(fēng)險(xiǎn)評價(jià)的需求。

        表11 不同決策樹剪枝算法HV值

        綜合上述實(shí)驗(yàn)分析結(jié)果,本文所提出的改進(jìn)教學(xué)式方法能夠利用機(jī)器學(xué)習(xí)模型指導(dǎo)構(gòu)建兼顧準(zhǔn)確性和可解釋性的信用風(fēng)險(xiǎn)評價(jià)模型,所生成的決策樹模型能夠輔助投資者有效識別具有潛在違約風(fēng)險(xiǎn)的貸款申請。同時(shí),與機(jī)器學(xué)習(xí)模型相比,決策樹模型可解釋性更高,其決策過程與預(yù)測結(jié)果更易于投資者理解。

        4 結(jié)語

        準(zhǔn)確的信用風(fēng)險(xiǎn)評價(jià),可為金融機(jī)構(gòu)決策制定提供支持,也有利于保障投資者的收益。機(jī)器學(xué)習(xí)等黑箱模型的廣泛使用,大幅度提高了信用風(fēng)險(xiǎn)評價(jià)模型的準(zhǔn)確性,但是機(jī)器學(xué)習(xí)模型缺乏可解釋性的弊端使其無法完全被決策者所信任。教學(xué)式方法通過模擬人類教學(xué)過程,利用機(jī)器學(xué)習(xí)模型指導(dǎo)決策樹的構(gòu)建與訓(xùn)練,所生成的決策樹能夠近似機(jī)器學(xué)習(xí)模型的功能,滿足信用風(fēng)險(xiǎn)評價(jià)預(yù)測需求,且易于決策者的理解。本文針對教學(xué)式方法的局限性,提出了改進(jìn)的教學(xué)式方法,該方法能夠提高決策樹與機(jī)器學(xué)習(xí)模型中正確且可信度高的功能的近似程度,同時(shí)采用一種新的決策樹剪枝方法,使生成的決策樹能夠?qū)崿F(xiàn)準(zhǔn)確率、可解釋性和真保真度三者間的權(quán)衡。此外,針對保真度評價(jià)指標(biāo)的局限性,本文提出了真保真度評價(jià)指標(biāo),以有效衡量決策樹與機(jī)器學(xué)習(xí)模型正確功能的近似程度。為了驗(yàn)證所提出方法在實(shí)際使用中的效果,本文利用 2個(gè)UCI信用風(fēng)險(xiǎn)評價(jià)數(shù)據(jù)集和Lending Club數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證,實(shí)驗(yàn)結(jié)果表明本文所提出的改進(jìn)的教學(xué)式方法在進(jìn)行信用風(fēng)險(xiǎn)評價(jià)時(shí)是行之有效的,能夠根據(jù)決策者的不同決策偏好與實(shí)際需求提供相對準(zhǔn)確且可解釋的信用風(fēng)險(xiǎn)評價(jià)模型。與基于機(jī)器學(xué)習(xí)的信用風(fēng)險(xiǎn)評價(jià)模型相比,該方法所生成的決策樹能夠更好的為決策者提供決策支持。此外,考慮到?jīng)Q策者從眾多決策樹中選擇符合其決策偏好的決策樹需要花費(fèi)大量的時(shí)間與精力,本研究未來的工作將進(jìn)一步研究滿足決策者決策偏好的最優(yōu)決策樹選擇方法,從而輔助決策者選擇最優(yōu)的決策樹。同時(shí),為了便于決策者在實(shí)際中的應(yīng)用,動(dòng)態(tài)自適應(yīng)的模型參數(shù)選擇方法也將是未來研究的重點(diǎn)之一。

        猜你喜歡
        保真度解釋性剪枝
        著力構(gòu)建可解釋性模型
        人到晚年宜“剪枝”
        論行政自由裁量的“解釋性控權(quán)”
        法律方法(2021年4期)2021-03-16 05:35:16
        基于YOLOv4-Tiny模型剪枝算法
        實(shí)現(xiàn)超冷原子光晶格中大規(guī)模高保真度原子糾纏對制備
        科學(xué)(2020年4期)2020-01-11 08:10:14
        融媒體時(shí)代解釋性報(bào)道的發(fā)展之路
        傳播力研究(2017年5期)2017-03-28 09:08:30
        剪枝
        天津詩人(2017年2期)2017-03-16 03:09:39
        非解釋性憲法適用論
        單模真空場-耦合雙原子系統(tǒng)的量子保真度演化
        一種面向不平衡數(shù)據(jù)分類的組合剪枝方法
        av中文字幕一区人妻| 亚洲熟妇一区无码| 如何看色黄视频中文字幕| 99精品人妻少妇一区二区三区| 亚洲国产亚综合在线区| 国产丝袜视频一区二区三区| 色综合另类小说图片区| 人人狠狠综合久久亚洲婷婷| 亚洲综合综合在线| 少妇被啪出水在线视频| 蜜臀av在线播放一区二区三区 | 蜜桃视频在线免费观看| 亚洲码国产精品高潮在线 | 亚洲熟妇久久精品| 久激情内射婷内射蜜桃人妖| 99福利网| 熟妇人妻丰满少妇一区| 国产精品一区二区三区在线观看 | 亚洲熟妇20| 日本一区二区在线播放观看| 在线久草视频免费播放| 激情内射人妻1区2区3区| av香港经典三级级 在线| 蜜桃在线播放免费一区二区三区 | 久久频这里精品99香蕉| 中文字幕亚洲综合久久久| 精品日韩亚洲av无码| 最新精品国偷自产在线| 伊人色网站| 中文亚洲第一av一区二区| 无码熟妇人妻av在线网站| 国产精品欧美成人| 人妻少妇人人丰满视频网站| 亚洲国产精品悠悠久久琪琪| 48久久国产精品性色aⅴ人妻| 国产成人午夜福利在线观看者| 亚洲av一二三又爽又爽又色| 亚洲成av人片女在线观看| 亚洲精品无码乱码成人| 国产精品无码久久久久下载| 人妻少妇中文字幕,久久精品|