亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        仿EM的多變量缺失數(shù)據(jù)填補(bǔ)算法及其在信用評(píng)估中的應(yīng)用

        2019-04-02 03:43:34馬超群許旭慶蘭秋軍
        中國(guó)管理科學(xué) 2019年3期
        關(guān)鍵詞:實(shí)驗(yàn)方法模型

        蔣 輝,馬超群,許旭慶,蘭秋軍

        (湖南大學(xué)工商管理學(xué)院,湖南 長(zhǎng)沙 410082)

        1 引言

        信用評(píng)估是評(píng)估機(jī)構(gòu)根據(jù)借款者的財(cái)務(wù)狀況、經(jīng)營(yíng)狀況、歷史還款情況等各類(lèi)相關(guān)信息,采取專(zhuān)家判斷或數(shù)學(xué)分析方法和模型,對(duì)借款者如期足額償還債務(wù)本息的能力和意愿進(jìn)行評(píng)價(jià),并按照其違約概率的大小以等級(jí)或分?jǐn)?shù)的形式給出評(píng)估結(jié)論的行為,是降低信息不對(duì)稱(chēng)的重要手段。近年來(lái),中小微企業(yè)在維持經(jīng)濟(jì)增長(zhǎng)、緩解就業(yè)壓力、方便群眾生活、推動(dòng)技術(shù)創(chuàng)新、促進(jìn)國(guó)民經(jīng)濟(jì)發(fā)展和保持社會(huì)穩(wěn)定等方面發(fā)揮著越來(lái)越重要的作用,企業(yè)數(shù)量不斷增加,對(duì)信貸的需求也越來(lái)越強(qiáng)勁。與此同時(shí),各類(lèi)消費(fèi)信貸市場(chǎng)規(guī)模也呈快速增長(zhǎng)態(tài)勢(shì),這都大大激發(fā)了各類(lèi)貸款機(jī)構(gòu)對(duì)信貸評(píng)估模型的開(kāi)發(fā)需求。

        信用評(píng)估方法大體可分為三類(lèi),早期以信貸專(zhuān)家的主觀經(jīng)驗(yàn)判斷為基礎(chǔ)的一些方法,如5C法,5P法、LAPP法等較為普遍[1]。后來(lái)隨著統(tǒng)計(jì)方法的推廣,回歸分析、判別分析、Logistic模型、Probit模型等被引入信用評(píng)估,如Altman提出的Z-score模型,穆迪公司的Risk-Calc模型等就是其典型代表[2-4]。近些年,隨著機(jī)器學(xué)習(xí)的興起,人工神經(jīng)網(wǎng)絡(luò)(ANN)、貝葉斯網(wǎng)絡(luò)、支持向量機(jī)(SVM)、決策樹(shù)等方法被大量引入,成為當(dāng)前構(gòu)建信用評(píng)估模型的熱門(mén)和主流方法[5-11]。

        在對(duì)企業(yè)特別是中小微企業(yè)進(jìn)行信用評(píng)估時(shí),數(shù)據(jù)缺失現(xiàn)象非常普遍,這大大降低了信用評(píng)估模型的有效性和準(zhǔn)確性。信用評(píng)估工作中數(shù)據(jù)缺失的原因很復(fù)雜,既有被調(diào)查者不愿意提供所需信息,也可能是數(shù)據(jù)采集人員或系統(tǒng)沒(méi)有收集到完整的信息,還有可能是某些數(shù)據(jù)項(xiàng)不適用于被調(diào)查者等等??傊?,信用評(píng)估工作中是無(wú)法杜絕數(shù)據(jù)缺失現(xiàn)象的。正因?yàn)榇?,不少學(xué)者提出了一些處理方法。例如,Sustersic等提出了基于ANN的模型來(lái)解決當(dāng)金融機(jī)構(gòu)在缺乏常用信用評(píng)估數(shù)據(jù)的情況下的信用評(píng)估問(wèn)題[12]。肖進(jìn)等針對(duì)銀行客戶(hù)信用評(píng)估數(shù)據(jù)存在大量缺失的問(wèn)題,設(shè)計(jì)了一種面向缺失數(shù)據(jù)的動(dòng)態(tài)分類(lèi)器集成選擇模型[13]。Florez-Lopez從處理后模型的魯棒性,準(zhǔn)確性,復(fù)雜性等角度對(duì)比分析了信用評(píng)估中多種缺失值處理方法的性能[14]。

        事實(shí)上,數(shù)據(jù)缺失是各類(lèi)數(shù)據(jù)統(tǒng)計(jì)分析工作中的常見(jiàn)問(wèn)題,已有不少經(jīng)典的處理方法,大體歸為兩大類(lèi):刪除法和填補(bǔ)法。其中刪除法包括樣本的刪除和變量的刪除。該方法簡(jiǎn)單直接,在數(shù)據(jù)樣本充足,小比例缺失,以及變量間有較強(qiáng)的替代性時(shí),不會(huì)帶來(lái)嚴(yán)重的信息損失,因而不失為一種良好的方法。但當(dāng)數(shù)據(jù)樣本不是那么富裕,缺失比例較大時(shí),該方法會(huì)造成較大的信息損失,此時(shí)填補(bǔ)法是更值得推薦的方法。填補(bǔ)法依據(jù)兩類(lèi)變量特性,一類(lèi)是缺失變量自身的分布特性,另一類(lèi)則是缺失變量與其它變量間的相關(guān)特性。典型的基于變量自身分布特性的方法有均值填補(bǔ)法和眾數(shù)填補(bǔ)法[15]。其中前者適用于連續(xù)變量,而后者適用于離散型變量,兩者均簡(jiǎn)單而常用。目前以變量間的相關(guān)特性為基礎(chǔ)的填補(bǔ)方法更受關(guān)注,典型的有回歸填補(bǔ)、最近鄰填補(bǔ)、期望最大化法(EM)填補(bǔ)等[16]。一般而言,均值或眾數(shù)填補(bǔ)會(huì)帶來(lái)分布函數(shù)的扭曲估計(jì)[17]。而回歸填補(bǔ)相較于均值填補(bǔ)則更有優(yōu)勢(shì),其填補(bǔ)值更接近于真實(shí)數(shù)據(jù)分布,但顯然它是建立在不同變量間數(shù)據(jù)具有線(xiàn)性回歸關(guān)系的假設(shè)基礎(chǔ)之上的。最近鄰填補(bǔ)算法也比較簡(jiǎn)單,它獲取缺失樣本的K個(gè)最相似樣本,然后以其加權(quán)值進(jìn)行填補(bǔ),但如何定義樣本之間的相似性卻是一個(gè)難題[18]。EM算法是一種對(duì)含有隱變量的概率分布參數(shù)進(jìn)行極大似然估計(jì)的方法,其中隱變量是指不可觀測(cè)的隨機(jī)變量。EM算法的最大特點(diǎn)就是通過(guò)假設(shè)這一隱變量的存在,簡(jiǎn)化似然方程,將比較復(fù)雜的極大似然估計(jì)問(wèn)題轉(zhuǎn)化為較簡(jiǎn)單的極大似然估計(jì)問(wèn)題[19]。有許多有關(guān)EM的改進(jìn)與應(yīng)用。如:Meng Xiaoli和 Rubin[20]通過(guò)給M步加上約束條件進(jìn)行簡(jiǎn)化,提出了ECM法,又將Monte Carlo模擬方法與E步結(jié)合,提出了MCEM算法,擴(kuò)大了EM算法的應(yīng)用范圍[21]。翟繼友和張鵬[22]將遺傳算法與EM算法相結(jié)合,對(duì)迭代過(guò)程起到了優(yōu)化作用??傊瓻M算法受到不少學(xué)者的關(guān)注,成為缺失值處理的熱點(diǎn)算法。

        需要指出的是,這些工作絕大多數(shù)討論的是模型構(gòu)建階段的問(wèn)題,即怎樣從有缺失的數(shù)據(jù)集中構(gòu)建模型。而在模型構(gòu)建好之后,也即在模型應(yīng)用階段,待評(píng)估樣本也常有部分輸入變量缺失的現(xiàn)象。一般的處理策略是在將數(shù)據(jù)輸入評(píng)估模型前,對(duì)其進(jìn)行填補(bǔ),而后再通過(guò)模型運(yùn)算獲得其評(píng)估結(jié)果。針對(duì)這種應(yīng)用場(chǎng)景,本文提出一種新的缺失值處理方法,稱(chēng)之為仿EM算法,它仿照了EM算法交替迭代逼近的思想,但不要求事先假定變量的分布函數(shù),從而其適用性更強(qiáng)。另外,該算法不僅適用于單變量的填補(bǔ),同時(shí)也適用于多變量缺失數(shù)據(jù)的填補(bǔ)。下文這樣組織:首先第2節(jié)簡(jiǎn)要概述EM算法的原理,指出其缺陷,并給出了仿EM算法的基本思想與模型框架;然后第3節(jié)重點(diǎn)闡述本文算法兩個(gè)關(guān)鍵階段的具體實(shí)現(xiàn);在第4節(jié),基于3個(gè)信用評(píng)估數(shù)據(jù)集設(shè)計(jì)了相關(guān)實(shí)驗(yàn),從數(shù)據(jù)還原能力以及基于填補(bǔ)后數(shù)據(jù)的模型評(píng)估能力兩個(gè)角度,對(duì)比分析了仿EM算法與其它兩個(gè)經(jīng)典方法之間的性能差異;最后是結(jié)論,總結(jié)了仿EM算法的特點(diǎn)、優(yōu)越性和適用范圍。

        2 問(wèn)題描述與模型框架

        以隱變量為離散型變量為例,EM算法可描述如下:

        已知X是可觀測(cè)變量,且有n個(gè)樣本的集合,{x1,x2,…,xn}現(xiàn)要對(duì)X服從的分布進(jìn)行極大似然參數(shù)估計(jì),θ是待估計(jì)的參數(shù),樣本的似然函數(shù)用L(θ;x)表示。P(x)表示隨機(jī)變量X的概率分布,z為隱變量Z取值范圍的集合,zi為第i個(gè)樣本隱變量的值。根據(jù)貝葉斯條件概率公式、Jesen不等式,樣本的似然函數(shù)可以表示為以下形式:

        (1)

        其中,

        (2)

        表示在已知參數(shù)θ下,樣本i屬于每個(gè)隱藏分布Z的概率。

        EM算法具體步驟如下:

        (1)初始化參數(shù)θ(0)

        (2)反復(fù)迭代以下兩步,直到達(dá)到收斂條件,即|θ(k+1)-θ(k)|充分小:

        E步:計(jì)算Qi(zi)=P(zi|xi;θ(k)),即根據(jù)第k次迭代的θ值,計(jì)算每個(gè)樣本隱變量取各值的概率。

        M步:計(jì)算

        θ(k+1)=

        (3)

        即求解令函數(shù)l(θ)取得極大值時(shí)的θ值,并更新θ值。

        迭代結(jié)束后,即可求得缺失數(shù)據(jù)下概率模型的最佳參數(shù)估計(jì),并根據(jù)Qi(zi)值的大小估計(jì)得到缺失數(shù)據(jù)最可能的填補(bǔ)值。同理,將概率分布P(x)改成密度函數(shù)f(x),累加符號(hào)改為積分符號(hào),即可對(duì)連續(xù)型缺失變量進(jìn)行估計(jì)。EM算法最大的優(yōu)點(diǎn)在于簡(jiǎn)單和穩(wěn)定,每一步迭代都能保證極大似然函數(shù)值遞增,并且收斂到一個(gè)局部最優(yōu)值,當(dāng)樣本分布越接近總體分布,估計(jì)結(jié)果越精確。

        不難看出,EM算法步驟可以通俗地解釋為,先在假定模型參數(shù)值已知的基礎(chǔ)上估計(jì)隱變量的取值,然后利用隱變量的估計(jì)值修正模型參數(shù),這樣不斷交替估計(jì)迭代直到收斂。EM算法有一個(gè)不容忽視的缺點(diǎn),即它要求給定似然函數(shù),也即要求給定變量在不同待估參數(shù)值下的分布函數(shù),這是一個(gè)非常苛刻的條件。本文所提出的仿EM填補(bǔ)方法借鑒了EM算法交替迭代的思想,但它并不對(duì)任何變量的分布函數(shù)進(jìn)行假設(shè)。

        仿EM填補(bǔ)算法分為兩個(gè)階段。其中第一階段為準(zhǔn)備階段,其任務(wù)是基于樸素貝葉斯方法對(duì)各個(gè)變量構(gòu)建相應(yīng)的預(yù)測(cè)估計(jì)模型。即基于給定的原始數(shù)據(jù)集,以每個(gè)可能缺失的變量為輸出變量,然后從其它變量中選擇與其有關(guān)的若干變量作為輸入變量,構(gòu)建該變量對(duì)應(yīng)的預(yù)測(cè)估計(jì)模型。這樣n個(gè)可能有缺失的變量將對(duì)應(yīng)n個(gè)預(yù)測(cè)估計(jì)模型,構(gòu)成本算法的基礎(chǔ)模型庫(kù),以此作為第二階段算法的基礎(chǔ)。此外,各個(gè)可能缺失變量的均值或眾數(shù)值也在此部分計(jì)算給出,并作為模型庫(kù)的其它參數(shù)結(jié)果保存以供第二階段使用。

        第二階段的功能則是具體完成多變量填補(bǔ)任務(wù)。它采用仿EM算法,調(diào)用前一階段生成的相應(yīng)的單變量預(yù)測(cè)估計(jì)模型,通過(guò)反復(fù)迭代逼近的方式,直至結(jié)果收斂,實(shí)現(xiàn)多變量缺失值的填補(bǔ)。該模型的框架結(jié)構(gòu)如圖1所示。

        圖1 填補(bǔ)模型總體框架

        3 算法實(shí)現(xiàn)

        3.1 單變量預(yù)測(cè)估計(jì)模型庫(kù)的構(gòu)建

        設(shè)原始全體輸入變量集為Xall={xl|l=1,2,…,L},可能出現(xiàn)缺失情況的變量子集為X={xi|i=1,2,…,I}?Xall,對(duì)每個(gè)變量xi∈X,(i=1,2,…,I),選取與其相關(guān)的若干重要變量構(gòu)成子集,Xi={xj|xj∈Xall/{xi},且xj與xi相關(guān)}。

        基于相應(yīng)的完整的訓(xùn)練數(shù)據(jù)子集Di(即變量集Xi∪{xi}對(duì)應(yīng)的數(shù)據(jù)子集),構(gòu)建相應(yīng)的單變量估計(jì)模型fi:Xi→xi。樸素貝葉斯方法是有著堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ)的分類(lèi)算法,它以后驗(yàn)概率最大的取值作為預(yù)測(cè)估計(jì)值,本文以其作為單變量估計(jì)模型。其模型可表達(dá)為:

        (4)

        其中V為xi的取值集合。根據(jù)貝葉斯公式:

        (5)

        只需計(jì)算P(Xi|xi)P(xi)即可。P(xi)可從訓(xùn)練數(shù)據(jù)子集Di中估計(jì)得到,即數(shù)據(jù)中取值xi的樣本總數(shù)除以訓(xùn)練集樣本總數(shù)。直接計(jì)算P(Xi|xi)的難度很大,但在各屬性相互獨(dú)立時(shí),有P(Xi|xi)=∏jP(xj|xi),其中P(xj|xi)可由數(shù)據(jù)子集Di估值。

        此外,除了輸出模型之外,算法在執(zhí)行時(shí)也一并將訓(xùn)練子集數(shù)據(jù)中變量xi對(duì)應(yīng)的分布函數(shù)及參數(shù)數(shù)據(jù)一并輸出保存,其中包括各變量的平均數(shù)或眾數(shù)、標(biāo)準(zhǔn)差、分布類(lèi)型等。

        簡(jiǎn)言之,單變量估計(jì)模型庫(kù)的構(gòu)建過(guò)程可表示為如圖2所示。

        圖2 單變量預(yù)測(cè)估計(jì)模型庫(kù)生成算法流程

        3.2 多變量缺失值的填補(bǔ)算法

        不失一般性,對(duì)一給定的含缺失值的待補(bǔ)樣本數(shù)據(jù),不妨設(shè)其實(shí)際缺失變量集為Xm={x1,x2,…,xm}?X,如圖3所示。

        圖3 待補(bǔ)樣本數(shù)據(jù)示意

        圖4 交替迭代填補(bǔ)算法流程

        上述填補(bǔ)更新過(guò)程必是收斂的,可證明如下:

        (6)

        (7)

        由于更新時(shí)調(diào)用模型庫(kù)的算法,返回的是對(duì)應(yīng)最大后驗(yàn)概率估計(jì)值,必有:

        (8)

        因此,

        (9)

        可見(jiàn),填補(bǔ)值的更新過(guò)程是一個(gè)使得填補(bǔ)值取值組合概率單調(diào)遞增的過(guò)程。由于填補(bǔ)值的取值組合數(shù)有限,且概率值最大為1,即有界。因此該過(guò)程必然收斂,命題得證!

        4 實(shí)驗(yàn)及結(jié)果

        為了驗(yàn)證仿EM算法在信用評(píng)估缺失數(shù)據(jù)填補(bǔ)方面的有效性,本文以UCI數(shù)據(jù)庫(kù)中兩個(gè)著名的信用評(píng)估建?;鶞?zhǔn)數(shù)據(jù)集以及人人貸平臺(tái)真實(shí)信貸交易數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)。實(shí)驗(yàn)從填補(bǔ)方法對(duì)原始數(shù)據(jù)的還原能力和信用評(píng)估模型判別能力兩個(gè)角度,比較了仿EM算法、眾數(shù)填補(bǔ)法、EM填補(bǔ)法的填補(bǔ)性能。其中眾數(shù)填補(bǔ)是對(duì)離散型變量進(jìn)行簡(jiǎn)單填補(bǔ)時(shí)最常用的方法,而EM算法則是當(dāng)前比較流行的較為新穎的方法。

        4.1 數(shù)據(jù)集描述

        German數(shù)據(jù)集是來(lái)自于UCI數(shù)據(jù)庫(kù),記錄了德國(guó)某銀行的信用卡業(yè)務(wù)數(shù)據(jù)。該數(shù)據(jù)集包含了20個(gè)屬性變量和1個(gè)類(lèi)別變量,其中,類(lèi)別變量有兩個(gè)取值,{good,bad},分別代表了信用好的客戶(hù)和信用差的客戶(hù)。該數(shù)據(jù)集總共包含1000條樣本,其中信用差的客戶(hù)300個(gè),信用好的客戶(hù)700個(gè)。

        Australia數(shù)據(jù)集也是來(lái)自于UCI數(shù)據(jù)庫(kù)的著名信用評(píng)估數(shù)據(jù)集,描述了澳大利亞某銀行的信用卡業(yè)務(wù)情況。該數(shù)據(jù)集共有690個(gè)客戶(hù)樣本,其中信用好的客戶(hù)有383個(gè),信用差的客戶(hù)有307個(gè)。數(shù)據(jù)集包含14個(gè)屬性變量和1個(gè)類(lèi)別變量。為了保護(hù)客戶(hù)的個(gè)人隱私,公開(kāi)數(shù)據(jù)中的屬性變量名稱(chēng)和分類(lèi)變量取值都使用字母符號(hào)進(jìn)行了替換。

        人人貸數(shù)據(jù)集來(lái)源于人人貸理財(cái)端網(wǎng)站。該網(wǎng)站是P2P行業(yè)內(nèi)最具影響力的品牌之一。本文通過(guò)程序爬取了2014年8月—2015年10月平臺(tái)發(fā)布的借款成功的記錄,并且確保未違約的記錄都是清償完畢的。數(shù)據(jù)集包含了包含12個(gè)屬性變量和1個(gè)類(lèi)別變量,類(lèi)別變量將客戶(hù)分為產(chǎn)生違約行為的壞客戶(hù)和正常還清借款的好客戶(hù)。本文實(shí)際使用樣本數(shù)量30256條,其中違約記錄2510條,占8.3%。

        為了使變量適用于各類(lèi)分類(lèi)算法進(jìn)行計(jì)算,本文對(duì)原始數(shù)據(jù)進(jìn)行了分類(lèi)型變量取值數(shù)字化操作,即基于變量不同取值狀態(tài)的實(shí)際含義,令它們?nèi)?,1,2,3…等數(shù)值;同時(shí),本文采用信息增益方法對(duì)連續(xù)型變量進(jìn)行了離散化操作,若變量按照(a,b],(b,c]…分為若干個(gè)區(qū)間,則依次令各個(gè)區(qū)間的值為序數(shù)型數(shù)據(jù)1,2……。

        4.2 實(shí)驗(yàn)設(shè)置

        4.2.1 比較各個(gè)方法對(duì)原始數(shù)據(jù)的還原能力

        對(duì)原始數(shù)據(jù)的還原能力是指各個(gè)填補(bǔ)方法根據(jù)已知信息對(duì)缺失值填補(bǔ)后的值與真實(shí)值的接近程度。填補(bǔ)值與真實(shí)值之間的偏差越小,說(shuō)明該方法對(duì)原始數(shù)據(jù)的還原能力越好。

        首先從完整的數(shù)據(jù)集中采用隨機(jī)抽樣的方式選取一定比例的樣本作為缺失數(shù)據(jù)集,剩余樣本作為訓(xùn)練數(shù)據(jù)集。對(duì)于缺失數(shù)據(jù)集,隨機(jī)選取三個(gè)變量作為缺失變量,人工設(shè)置缺失。接著,基于訓(xùn)練數(shù)據(jù)集分別采用仿EM算法、眾數(shù)填補(bǔ)法、EM填補(bǔ)法對(duì)缺失數(shù)據(jù)集進(jìn)行缺失值填補(bǔ),然后將各個(gè)方法生成的填補(bǔ)值與真實(shí)值對(duì)比,計(jì)算填補(bǔ)性能。為了避免不同樣本對(duì)實(shí)驗(yàn)結(jié)果的影響,最后的結(jié)果取10次填補(bǔ)實(shí)驗(yàn)的平均值。具體的實(shí)驗(yàn)過(guò)程如圖5所示:

        圖5 還原能力實(shí)驗(yàn)過(guò)程

        為了比較各個(gè)方法對(duì)原始數(shù)據(jù)的還原能力,本文引入均方根誤差(RMSE)和預(yù)測(cè)結(jié)果準(zhǔn)確率(Accuracy)兩個(gè)評(píng)價(jià)準(zhǔn)則。

        (1)均方根誤差(RMSE)描述了填補(bǔ)值與真實(shí)值的偏差,具體計(jì)算公式如下。RMSE越小,說(shuō)明偏差越小,填補(bǔ)效果越好。

        (10)

        其中,n為缺失樣本數(shù),Xpred,i代表第i條缺失樣本中變量X的填補(bǔ)值,Xreal,i代表第i條缺失樣本中變量X的真實(shí)值。

        但是RMSE指標(biāo)只適用于取值存在程度上差別的有序型分類(lèi)變量。例如“學(xué)歷”變量,假設(shè)其有4種取值狀態(tài):1(高中及以下);2(大專(zhuān));3(本科);4(研究生及以上)。當(dāng)真實(shí)值為1時(shí),預(yù)測(cè)其值為2相比于預(yù)測(cè)其值為3更接近于真實(shí)值,偏差更小。對(duì)于無(wú)序性分類(lèi)變量,該指標(biāo)沒(méi)有意義。

        (2)預(yù)測(cè)結(jié)果正確率(Accuracy)。缺失數(shù)據(jù)集中,正確填補(bǔ)的樣本數(shù)與缺失樣本數(shù)的比值。正確率越高,說(shuō)明填補(bǔ)效果越好。

        4.2.2 比較信用評(píng)估模型預(yù)測(cè)能力

        在數(shù)據(jù)挖掘過(guò)程中,進(jìn)行缺失值處理的目的在于提高后續(xù)模型預(yù)測(cè)結(jié)果的準(zhǔn)確率。在實(shí)際應(yīng)用信用評(píng)估模型時(shí),新增客戶(hù)常常存在部分字段缺失,必須進(jìn)行缺失值填補(bǔ)才能完成風(fēng)險(xiǎn)預(yù)測(cè)。缺失值處理得越合適,模型的預(yù)測(cè)能力越好。因此,在其他條件相同的情況下,信用評(píng)估模型預(yù)測(cè)的準(zhǔn)確率在一定程度上反映了缺失數(shù)據(jù)填補(bǔ)方法的優(yōu)劣。

        實(shí)驗(yàn)隨機(jī)選取一定比例的樣本作為缺失數(shù)據(jù)集,同時(shí)也作為測(cè)試集,剩余樣本作為訓(xùn)練數(shù)據(jù)集,用來(lái)訓(xùn)練信用評(píng)估模型和缺失值填補(bǔ)模型。對(duì)于缺失數(shù)據(jù)集,隨機(jī)選取三個(gè)變量,人工設(shè)置缺失,分別采用仿EM算法、眾數(shù)填補(bǔ)法、EM填補(bǔ)法進(jìn)行缺失值填補(bǔ),得到完整測(cè)試集。對(duì)于訓(xùn)練數(shù)據(jù)集,采用隨機(jī)森林算法訓(xùn)練模型,對(duì)填補(bǔ)后的完整測(cè)試集進(jìn)行分類(lèi)預(yù)測(cè)。為了避免不同樣本對(duì)實(shí)驗(yàn)結(jié)果的影響,實(shí)驗(yàn)采用10折交叉驗(yàn)證技術(shù),該方法將整個(gè)數(shù)據(jù)集隨機(jī)分成10 等份,依次取其中1 份作為測(cè)試集,而余下的9 份作為模型訓(xùn)練集,如此循環(huán)10 次,稱(chēng)之為10 折交叉驗(yàn)證。最后結(jié)果取每份測(cè)試集結(jié)果的平均值。具體實(shí)驗(yàn)流程如下圖6所示。

        圖6 評(píng)估判別能力實(shí)驗(yàn)過(guò)程

        本文實(shí)驗(yàn)中EM填補(bǔ)算法采用R軟件中Amelia包實(shí)現(xiàn),其余算法均由Python3編寫(xiě)實(shí)現(xiàn),隨機(jī)森林算法采用Python中sklearn機(jī)器學(xué)習(xí)庫(kù)實(shí)現(xiàn)。

        4.3 結(jié)果分析

        本文從German、Australia、人人貸數(shù)據(jù)集中,分別隨機(jī)選取三個(gè)變量進(jìn)行實(shí)驗(yàn)。變量的具體信息如表1所示。

        表1 各數(shù)據(jù)集的缺失變量取值情況

        表2給出了三個(gè)數(shù)據(jù)集的缺失變量采用仿EM法進(jìn)行一次填補(bǔ)實(shí)驗(yàn)后的真實(shí)值與填補(bǔ)值,由于篇幅限制,這里只列出了前20條缺失樣本的填補(bǔ)結(jié)果。表3給出了填補(bǔ)實(shí)驗(yàn)后,分別采用仿EM法、眾數(shù)填補(bǔ)、EM法填補(bǔ)后各缺失變量的RMSE與Accuracy平均值。由于Australia數(shù)據(jù)集的變量含義未被公開(kāi),無(wú)法得知其是否有序,因此沒(méi)有計(jì)算其RMSE值。從表3中可以看出,在German和人人貸數(shù)據(jù)集中,采用仿EM法填補(bǔ)后的RMSE比眾數(shù)填補(bǔ)、EM法填補(bǔ)都要?。煌瑫r(shí),在三個(gè)數(shù)據(jù)集中,采用仿EM法填補(bǔ)后的Accuracy相比較于其它兩種方法都高。因此,仿EM填補(bǔ)法對(duì)原始數(shù)據(jù)的還原能力要優(yōu)于眾數(shù)填補(bǔ)法與EM填補(bǔ)法。

        表2 真實(shí)值與填補(bǔ)值對(duì)比示例(前20個(gè)樣本)

        續(xù)表2 真實(shí)值與填補(bǔ)值對(duì)比示例(前20個(gè)樣本)

        表3 三種方法填補(bǔ)后的效果比較

        表4給出了10折交叉驗(yàn)證下,采用三種方法填補(bǔ)后信用評(píng)估模型的平均判別準(zhǔn)確率。從表中可以看出,對(duì)三個(gè)數(shù)據(jù)集,采用仿EM法填補(bǔ)后的判別準(zhǔn)確率也都是最高的。

        表4 三種方法填補(bǔ)后信用評(píng)估模型準(zhǔn)確率比較

        5 結(jié)語(yǔ)

        解決信用模型應(yīng)用階段的數(shù)據(jù)缺失問(wèn)題,能夠?yàn)橘J款機(jī)構(gòu)提供更為科學(xué)、準(zhǔn)確的決策支持,幫助其盡可能地減少信用風(fēng)險(xiǎn)帶來(lái)的損失,意義重大。EM填補(bǔ)法作為一種經(jīng)典的缺失值填補(bǔ)方法,需要事先假定變量分布函數(shù),當(dāng)變量的真實(shí)分布與假定分布相差較大時(shí),往往無(wú)法獲得較好的填補(bǔ)效果,本文提出的缺失值處理方法借鑒了EM算法交替迭代逼近的思想,同時(shí)又?jǐn)P棄了其對(duì)分布函數(shù)的依賴(lài),不僅適用于單變量的填補(bǔ),同時(shí)也適用多變量缺失數(shù)據(jù)的填補(bǔ)。實(shí)驗(yàn)結(jié)果表明,無(wú)論是填補(bǔ)效果還是填補(bǔ)之后信用評(píng)估模型的判別準(zhǔn)確性,所提出的仿EM算法都明顯好于經(jīng)典的眾數(shù)填補(bǔ)法和EM算法。因此,在處理信用評(píng)估模型的多變量缺失問(wèn)題時(shí),仿EM算法是一種有效的處理方法。必須指出,本文仿EM算法建立在單變量預(yù)測(cè)樸素貝葉斯模型基礎(chǔ)上,而該模型的一個(gè)重要假設(shè)是條件獨(dú)立性。如何放松該假設(shè)仍是值得研究的一個(gè)問(wèn)題。另外,本文實(shí)驗(yàn)假設(shè)了數(shù)據(jù)為分類(lèi)變量,事實(shí)上,缺失變量也可以是連續(xù)型的,但前提是變量的條件分布函數(shù)已知,這樣才能在第一階段以此計(jì)算單變量樸素貝葉斯模型。若缺失變量條件分布函數(shù)未知,建議還是類(lèi)似本文實(shí)驗(yàn)方法,對(duì)變量事先離散化處理,基于頻數(shù)計(jì)算條件概率值,獲得單變量預(yù)測(cè)模型庫(kù)。

        猜你喜歡
        實(shí)驗(yàn)方法模型
        一半模型
        記一次有趣的實(shí)驗(yàn)
        重要模型『一線(xiàn)三等角』
        重尾非線(xiàn)性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
        可能是方法不對(duì)
        3D打印中的模型分割與打包
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        欧美牲交a欧美牲交aⅴ免费真| 亚洲一区二区三区在线观看播放| 亚洲色成人WWW永久在线观看| 亚洲欧美日本人成在线观看| 色偷偷亚洲女人的天堂| 久久精品国产亚洲av四区| 国产三级视频不卡在线观看| 99国产精品99久久久久久| 无码骚夜夜精品| 精品国产自产久久久| 婷婷成人亚洲综合国产| 亚洲最新精品一区二区| 亚洲午夜av久久久精品影院色戒 | 中文字幕无码av激情不卡| 日本a在线免费观看| 亚洲乱码中文字幕综合| 国产极品大秀在线性色| 人成午夜大片免费视频77777| 曰本大码熟中文字幕| 俺来也俺去啦久久综合网| 四虎精品国产一区二区三区| 亚洲精品国产二区在线观看| 久久亚洲精品中文字幕| 三年片大全在线观看免费观看大全| 国产乱人伦精品一区二区| 亚洲精品一二区| 国产高潮精品一区二区三区av | 久久开心婷婷综合中文| 淫片一区二区三区av| 欧美69久成人做爰视频| 99蜜桃在线观看免费视频网站| 亚洲欧美日韩精品久久亚洲区色播| 国语对白三级在线观看| 国产高清在线一区二区不卡| 色婷婷亚洲精品综合影院| 伊人色综合久久天天人手人停| 漂亮的小少妇诱惑内射系列| 成人国产av精品麻豆网址| 亚洲国产精品久久久av| 欧美成人片一区二区三区| 91精品国产综合久久青草|