亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        兩類有偏logistic分布在信用評分模型中的應(yīng)用

        2015-02-18 05:00:14史小康常志勇
        統(tǒng)計與決策 2015年14期
        關(guān)鍵詞:偏態(tài)頻數(shù)區(qū)間

        史小康,常志勇,2

        (1.中國人民大學 統(tǒng)計學院,北京 100872;2.河南科技大學 數(shù)學與統(tǒng)計學院,河南 洛陽 471023)

        0 引言

        logistic回歸是信用評分領(lǐng)域使用最為廣泛的統(tǒng)計模型,這個模型主要適用于二元目標變量,即因變量的取值只能是“0”或者“1”,“1”代表某種結(jié)果的發(fā)生,而“0”代表不發(fā)生,比如說,信用卡賬戶未來的付款表現(xiàn)是“好”或者“壞”、信用卡數(shù)據(jù)庫營銷中目標客戶對信用卡推銷是“接受”還是“拒絕”以及信用卡客戶關(guān)系管理中的客戶是“流失”還是“不流失”等,都是適用于logistic回歸的二元性目標變量。從廣義線性模型的角度來看,logistic回歸是屬于二值回歸的一種,另外常用的二值回歸模型還包括probit、Clog-log等,二值回歸模型利用函數(shù)將因變量的期望值與線性部分連接起來,這個函數(shù)被稱為稱為連接函數(shù),連接函數(shù)一般是隨機變量分布函數(shù)的反函數(shù)。logistic回歸模型的連接函數(shù)是標準logistic分布函數(shù)的反函數(shù),對于取值在(0,1)區(qū)間內(nèi)的任意x滿足關(guān)系式:F(0.5-x)+F(0.5+x)=0,所以該函數(shù)還是一個關(guān)于(0.5,0)對稱的函數(shù)。

        國外不少學者認為在二值回歸模型中,不考慮數(shù)據(jù)的實際情況而強行使用對稱連接函數(shù)會帶來一些不良后果。Czado等(1992)對誤用連接函數(shù)的情況進行了數(shù)值模擬,結(jié)果證實誤用logistic回歸會導(dǎo)致參數(shù)估計偏差和均方誤差的顯著上升,并且還發(fā)現(xiàn)峰度的誤用效果要大于偏度[1];Nagler(1994)證明了,在二值回歸模型中,回歸系數(shù)對發(fā)生概率的影響作用要受到連接函數(shù)的影響,連接函數(shù)的誤用會扭曲估計參數(shù)的對事件發(fā)生概率的作用[2]?;诖耍簧賹W者提出根據(jù)數(shù)據(jù)本身的情況來靈活地決定連接函數(shù),Chen等(1999)基于不對稱分布和對稱分布的混合分布提出了多種有偏logistic回歸和有偏probit回歸,分別利用模擬數(shù)據(jù)和實際數(shù)據(jù)來驗證了模型的優(yōu)越性[3];Wang等(2010)、Calabrese等(2013)利用廣義極值分布構(gòu)造了有偏連接函數(shù),并基于AIC、BIC以及邊際似然等準則與logistic回歸、probit回歸以及Clog-log回歸模型進行了比較[4~5]。

        本文將兩類基于標準logistic分布而構(gòu)造的有偏logistic分布函數(shù)引入二值回歸模型,并將該模型應(yīng)用于個人信用評分,最后利用MCMC方法中的Gibbs抽樣估計出回歸系數(shù)和偏態(tài)參數(shù),相比一般的二值回歸模型,這類模型的連接函數(shù)中多了一個偏態(tài)參數(shù),模型也更加靈活。

        1 兩類有偏logistic分布

        顯然,上述兩個分布函數(shù)中當偏態(tài)參數(shù)λ取1時,兩個分布均為標準logistic分布,為了便于表述,這里將表達式(4)所代表的分布稱為第Ⅰ類有偏logistic分布,將表達式(5)所代表的分布稱為第Ⅱ類有偏logistic分布,圖1即為偏態(tài)參數(shù)取不同值時上述兩個分布函數(shù)圖,其中左邊對應(yīng)第Ⅰ類有偏logistic分布,從左至右偏態(tài)參數(shù)λ的取值為3,1,0.5;右邊對應(yīng)第Ⅱ類有偏logistic分布,從左至右偏態(tài)參數(shù)λ的取值為0.5,1,3,圖中的粗線條表示的就是標準logistic分布:

        圖1 不同偏態(tài)參數(shù)值下有偏logistic分布的分布函數(shù)圖

        從圖1可以看出,標準logistic的分布函數(shù)接近0和1的速度是一樣的,而對于第Ⅰ類有偏logistic分布,偏態(tài)參數(shù)值取值越大,分布函數(shù)接近于1的速度也越快,第Ⅱ類有偏logistic分布的情況正好相反。對表達式(4)和(5)分別微分,可以得個密度函數(shù)表達式(6)和(7):

        圖2是對應(yīng)于圖1的密度函數(shù)圖:

        圖2 不同偏態(tài)參數(shù)值下有偏logistic分布的密度函數(shù)圖

        從上圖可以看出對于第Ⅰ類有偏logistic分布,當λ取值在(0,1)時,偏logistic分布為左偏;而λ取值大于1時,偏logistic分布為右偏,而第Ⅱ類有偏logistic分布的情況剛好相反。

        2 基于有偏logistic分布的二值回歸模型

        2.1 有偏logistic回歸模型

        這里F是某個隨機變量的分布函數(shù),F(xiàn)-1表示連接函數(shù),將F取為標準logistic的分布函數(shù),即為logistic回歸模型。將(8)式中的分布函數(shù)換成(4)和(5)所表示的有偏logistic分布函數(shù):

        2.2 參數(shù)的貝葉斯估計

        設(shè)上述有偏logistic中待估參數(shù)β與λ的聯(lián)合先驗分布為 π(β,λ),后驗分布 π(β,λ|y)與聯(lián)合先驗密度和模型的似然函數(shù)成正比,即:

        本文使用Gibbs抽樣來獲取參數(shù)的后驗樣本,Gibbs抽樣實際上是從各個參數(shù)的條件分布 π(λ|β,y)以及 π(β|λ,y)中進行抽取,有關(guān)MCMC算法以及Gibbs抽樣的原理見參考文獻[7]。另外,在進行抽樣之前,必須確定各個參數(shù)的先驗分布,這里將參數(shù)的先驗分布設(shè)為:β~N(0,A);λ~Γ(α1,α2),即 β 和 λ分別服從正態(tài)分布和伽瑪分布,并且假定各個參數(shù)之間彼此獨立,其中A表示一個對角矩陣,這樣設(shè)置先驗分布還有一個好處,就是上述兩個有偏logistic回歸模型可以方便地在Winbugs或Openbugs軟件中實現(xiàn)。

        3 實證分析

        3.1 數(shù)據(jù)及變量

        這里利用SAS9.3的EM 模塊自帶的國外某金融機構(gòu)的個人信貸數(shù)據(jù)來進行實證分析,原始數(shù)據(jù)共有5960個記錄,自變量共有12個變量,其中2個離散變量。因變量Y 為0-1變量,“1”表示違約,“0”表示沒有違約,有1189條記錄違約,占總客戶的比例為19.95%。自變量的基本情況如下表所示:

        表1 自變量的屬性及含義

        3.2 變量選擇

        由于數(shù)據(jù)中的的無關(guān)變量和冗余變量對模型的簡潔性、訓練時間和預(yù)測精度都會產(chǎn)生不利影響,而現(xiàn)有個人信用評級中的變量選擇方法如IV統(tǒng)計量原則、Gini指數(shù)原則和卡方檢驗等方法側(cè)重于離散變量的篩選,而對連續(xù)變量的篩選則缺乏有效的手段[8],這里基于數(shù)據(jù)離散化的思想設(shè)計了一種針對連續(xù)變量的選擇方法。數(shù)據(jù)離散化是指將連續(xù)性的變量通過某種算法,分割成若干區(qū)間,每一個區(qū)間的數(shù)據(jù)被賦予同一個值,最終將連續(xù)變量轉(zhuǎn)化成為有序離散變量?!暗阮l數(shù)”和“等長度”是最早的數(shù)據(jù)離散化方法,前者使離散化后每一個區(qū)間里面觀測值數(shù)量相等,后者是將連續(xù)變量分成若干“長度”相等的區(qū)間。Kerber(1992)提出了基于卡方檢驗的數(shù)據(jù)離散化方法,首次采用推斷統(tǒng)計技術(shù)對數(shù)據(jù)進行離散化處理[9]。本節(jié)采用Fisher精確檢驗對數(shù)據(jù)進行離散化處理,如果某一個連續(xù)變量最終被合并為一個區(qū)間,說明這個連續(xù)變量與因變量(本文即表示是否違約的0-1變量)獨立,那么這個變量就不應(yīng)該納入模型中,應(yīng)該被剔除。這里先簡要介紹2×2列聯(lián)表的Fisher精確檢驗。

        假定2×2列聯(lián)表邊際頻數(shù)(行和列的頻數(shù)總和)n1.,n2.,n.1,n.2都是固定的,在兩個屬性獨立或者沒有齊性的零假設(shè)下,在給定邊際頻率時,這個具體的列聯(lián)表的條件概率只依賴于四個頻數(shù)中的任意一個(因為由給定的邊際頻數(shù)可以得到另外三個)。在零假設(shè)下,該概率滿足超幾何分布,對任意的i=1,2和j=1,2,可以寫成:

        其中的n..表示總的頻數(shù)。如果零假設(shè)正確,任何一個與nij的實現(xiàn)值有關(guān)的尾概率不應(yīng)該太小,否則應(yīng)該拒絕零假設(shè),這就是2×2列聯(lián)表Fisher精確檢驗的基本思想。

        連續(xù)變量離散化的主要目的是簡化數(shù)據(jù)結(jié)構(gòu),產(chǎn)生一個對原變量有良好概括能力的新特征,假定某個變量被離散化為若干區(qū)間,每個區(qū)間都對應(yīng)了若干違約或者沒有違約的個體,這樣就可以得到每個區(qū)間的相對頻數(shù)(比如,某個區(qū)間包括了36個違約的客戶,24個沒有違約的客戶,該區(qū)間可以用60%的相對違約頻數(shù)和40%的相對未違約頻數(shù)來描述)。一個合理的離散算法,區(qū)間內(nèi)的相對頻數(shù)應(yīng)該大致相當(否則該區(qū)間應(yīng)該被分裂為兩個區(qū)間),而兩個相鄰區(qū)間之間的相對頻數(shù)應(yīng)該有顯著差異(否則這兩個區(qū)間應(yīng)該合并使數(shù)據(jù)結(jié)構(gòu)更加簡潔)。因此,數(shù)據(jù)離散應(yīng)該使區(qū)間內(nèi)具有一致性,而區(qū)間之間具有差異性。

        這里的數(shù)據(jù)離散化方法利用Fisher精確檢驗來確定兩個相鄰區(qū)間的相對頻數(shù)差異是否顯著,這實際上是列聯(lián)表的齊性檢驗問題,如果不顯著,將這兩個區(qū)間進行合并。該算法包括初始化和自下向上的區(qū)間合并兩個步驟,初始化是將所有個體按照需要離散化的連續(xù)變量的取值從小到大進行排序,然后每個值自成一個區(qū)間,所對應(yīng)的樣本也落入?yún)^(qū)間之內(nèi)。區(qū)間的合并過程包括兩個步驟:

        (1)對相鄰區(qū)間進行Fisher精確檢驗,得到所有雙邊檢驗的p值;

        (2)然后對計算出最小p值的相鄰區(qū)間進行合并,這兩個步驟反復(fù)進行,直到所有相鄰區(qū)間Fisher精確檢驗的p值大于預(yù)先設(shè)定的水平為止,這時所有相鄰區(qū)間都是非齊性的,如果最終所有的區(qū)間合并為一個區(qū)間,表示該變量與目標變量獨立,將其剔除。預(yù)先設(shè)定的顯著性水平越大,合并后的數(shù)據(jù)結(jié)構(gòu)更簡潔,每個區(qū)間包含的個體也就越多,被剔除的變量也就越多。但是,在樣本量一定的情況下,統(tǒng)計學顯著性檢驗的第I類錯誤與第II類錯誤,存在此消彼長的關(guān)系,這里將顯著性水平設(shè)定為0.05。

        數(shù)據(jù)離散化結(jié)果顯示,連續(xù)變量中“最長貸款時間”、“償債比率”、“抵押資產(chǎn)”、“資產(chǎn)價值”四個變量最終被合并為一個區(qū)間,應(yīng)該被剔除;由于“職業(yè)類別”和“貸款原因”是離散變量,數(shù)據(jù)離散化的變量選擇方法對它們并不適用,用卡方檢驗來分別檢驗這兩個變量與目標變量Y是否獨立,最終結(jié)果表明,應(yīng)該將“貸款原因”剔除。最終保留下來的自變量包括:“產(chǎn)品個數(shù)”、“不良記錄次數(shù)”、“不良報告次數(shù)”、“貸款金額”、“信用查詢次數(shù)”、“工作年限”和“職業(yè)類別”七個自變量。

        3.3 模型的比較準則

        為了能夠?qū)Ω鞣N信用評分模型的建模效果進行客觀評價,信用評分領(lǐng)域積累了比較完善的模型評價體系,而比較常用的有AUC、GINI、K-S指數(shù)等,其中AUC與GINI這兩個指標等價,這里主要介紹AUC與K-S指數(shù)的構(gòu)造原理[10],另外,在貝葉斯分析中,常用DIC指標來比較模型的優(yōu)劣,為了便于將構(gòu)造的有偏logistic模型與普通的logistic模型進行比較,也將DIC指標一并介紹。

        3.3.1 AUC指標

        一般情況下,利用模型對信用申請人進行違約識別,最終可以得到每個個體的違約概率,如果某個個體的違約概率大于預(yù)先設(shè)定的閾值,則將其判別為違約個體,否則判別為守信的客戶,而閾值是要根據(jù)實際情況來設(shè)定,取值在0~1之間。由于我們關(guān)注的是申請人的違約情況,相應(yīng)也就產(chǎn)生了兩個指標:True Positive Rate(TPR)和False Positive Rate(FPR),前者表示將實際的違約客戶進行正確預(yù)測的概率,實際計算時只需將正確預(yù)測為違約的客戶數(shù)目比上建模樣本中的總的違約客戶數(shù)目;后者表示將守信的客戶錯誤地預(yù)測為違約客戶的概率,實際計算時只需將錯誤預(yù)測為違約的客戶數(shù)目比上建模樣本中的總的守信客戶數(shù)目。下面用混淆矩陣來解釋這兩個指標的計算,假設(shè)分類的最終結(jié)果表示為:

        表2 個人信用評級混淆矩陣

        上述兩個指標的計算公式可以為:TPR=d/(c+d);FPR=b/(a+b)。TPR與FPR相互影響,而我們希望能夠使TPR盡量地大,而FPR盡量地小。影響TPR與FPR的重要因素就是預(yù)先設(shè)定的閾值。當閾值為0時,所有的客戶都被預(yù)測為違約客戶,因此TPR=1,而FPR=1。此時的FPR過大,無法實現(xiàn)分類的效果。隨著閾值逐漸增大,被預(yù)測為違約的客戶數(shù)目逐漸減少,TPR和FPR都會減小,當閾值增大至1時,沒有客戶被預(yù)測為違約,此時TPR=0,F(xiàn)PR=0。

        由上述變化過程可以看出,TPR與FPR存在同方向變化的關(guān)系(這種關(guān)系一般是非線性的),即為了提升TPR(通過降低閾值),意味著FPR也將得到提升,兩者之間存在類似相互制約的關(guān)系。我們希望能夠在犧牲較少FPR的基礎(chǔ)上盡可能地提高TPR,由此畫出了所謂的ROC曲線:

        圖3 ROC曲線圖

        模型效果越好,則ROC曲線越遠離對角線,極端的情形是ROC曲線經(jīng)過(0,1)點,即將違約客戶和守信客戶都進行了正確的預(yù)測。ROC曲線與橫軸之間的面積可以定量地評價模型的效果,記作AUC,AUC值越大則模型效果越好。

        3.3.2 K-S指標

        K-S指標來源于非參數(shù)統(tǒng)計中的Kolmogorov-Smirnov檢驗,該統(tǒng)計量檢驗兩個連續(xù)分布是否相同,衡量的是兩個分布之間的最大垂直距離:

        3.4 建模結(jié)果分析

        為了研究有偏logistic回歸模型在信用評級中的有效性,在此對數(shù)據(jù)進行一些處理,先后從從原始數(shù)據(jù)中抽取2378個樣本,其中中違約客戶的比例為10%,在保持違約客戶比例不變的情況下,分別將這個樣本剖分為訓練集和驗證集,訓練集占總樣本量的80%,驗證集占總樣本量的20%。個人信用評級建模中常用的模型除了logistic回歸之外,還包括神經(jīng)網(wǎng)絡(luò)、支持向量機以及決策樹,為了進行比較,這里先利用logistic回歸、神經(jīng)網(wǎng)絡(luò)、支持向量機、決策樹以及有偏logistic回歸對訓練樣本進行建模,再利用訓練好的模型對訓練集和驗證集進行預(yù)測,其中的神經(jīng)網(wǎng)絡(luò)以及決策樹是利用SAS9.3軟件的EM模塊完成,支持向量機是利用R軟件來完成,而logistic回歸和兩類有偏logistic回歸模型則利用Openbugs完成,其中的收斂性檢驗是利用R軟件包CODA完成,運行的結(jié)果表3所示:

        表3 各種信用評級模型的實證結(jié)果

        從上表可以看出:

        (1)決策樹的建模結(jié)果是最不理想的,訓練集和驗證集的AUC值和K-S值都是最低的;神經(jīng)網(wǎng)絡(luò)模型與支持向量機屬于人工智能和機器學習領(lǐng)域的方法,建模時對數(shù)據(jù)沒有嚴格的假設(shè)條件,能模擬數(shù)據(jù)間復(fù)雜的線性關(guān)系,但模型缺乏可解釋性,從實證結(jié)果來看,這兩個模型的效果大致相當。

        (2)無論是訓練集還是驗證集,在AUC指標和K-S指標上兩類有偏logistic模型的效果都要優(yōu)于普通logistic模型,DIC值也要低于普通logistic模型,這說明有偏logistic模型對普通logistic模型的改造是成功的。除此之外,兩類有偏logistic模型在訓練集和驗證集的AUC指標以及訓練集的K-S指標上的表現(xiàn)都是最好;在驗證集的K-S指標上,第Ⅰ類有偏logistic模型的表現(xiàn)依然是最好的,第Ⅱ類有偏logistic模型的表現(xiàn)僅次于支持向量機。從本文的實證結(jié)果來看,幾乎可以說明偏logistic回歸模型表現(xiàn)是最好的。兩類偏logistic回歸模型估計出的偏態(tài)參數(shù)分別是0.3012與1.2410,根據(jù)前文得知,兩類偏logistic回歸分布均是左偏分布,兩個模型相互得到了印證;另外,與普通logistic回歸模型類似,偏logistic回歸模型同樣具有較好的可解釋性。

        4 結(jié)束語

        logistic回歸模型在社會科學上有著廣泛的應(yīng)用,同時也是近幾十年來最受信用分析師們親睞的信用評級模型,但是該模型的連接函數(shù)是一個固定的對稱函數(shù),在實際應(yīng)用中不考慮數(shù)據(jù)的實際情況而強行使用對稱連接函數(shù)會導(dǎo)致參數(shù)估計偏差和均方誤差顯著上升,預(yù)測效果也會下降。本文在廣義線性模型的基本框架下引入有偏連接函數(shù),對logistic回歸模型的連接函數(shù)進行了替換,根據(jù)數(shù)據(jù)的實際特點來靈活地確定連接函數(shù),提升模型的預(yù)測效果,從最后的實證分析來看,兩類有偏logistic回歸模型的效果要優(yōu)于普通logistic回歸模型。不僅如此,相比于其他信用評分模型,偏logistic回歸模型的表現(xiàn)也是最好的,該模型在實際應(yīng)用中有較強的可操作性和可解釋性,為信用評級建模提供了一個新的選擇。但是,信用評級的建模方法較為靈活,就拿神經(jīng)網(wǎng)絡(luò)模型與決策樹來講,它們也都還存在不同的算法,不存在在任何情況下都是最優(yōu)的信用評級模型,必須根據(jù)數(shù)據(jù)的實際情況來謹慎地選擇模型,在允許的情況下,可以采用不同的模型來驗證彼此的準確性。

        [1]Czado C,Santner T J.The Effect of Link Misspecification on Binary Regression Inference[J].Journal of Statistical Planning and Inference,1992,33(2).

        [2]Nagler J.Scobit:An Alternative Estimator to Logit and Probit[J].American Journal of Political Science,1994.

        [3]Chen M H,Dey D K,Shao Q M.A New Skewed Link Model for Dichotomous Quantal Response Data[J].Journal of The American Statistical Association,1999,94(448).

        [4]Wang X,Dey D K.Generalized Extreme Value Tegression for Binary Response Data:An Application to B2B Electronic Payments System Adoption[J].The Annals of Applied Statistics,2010,4(4).

        [5]Calabrese R,Osmetti S A.Modelling Small and Medium Enterprise Loan Defaults As Rare Events:The Generalized Extreme Value Regression Model[J].Journal of Applied Statistics,2013,40(6).

        [6]Burr I W.Cumulative Frequency Functions[J].The Annals of Mathematical Statistics,1942,(13).

        [7]Bolstad W M.Understanding Computational Bayesian Statistics[M].Wiley.com,2011.

        [8]魏秋萍.消費信貸風險管理中的的信用評分模型研究[D].中國人民大學,2010.

        [9]Kerber R.Chimerge:Discretization of Numeric Attributes[A].Proceedings of Tenth National Conference on Artificial Intelligence[C],California:AAAI Press,1992.

        [10]Thomas L C,Edelman D B,Crook J N.Credit Scoring and Its Applications[M].Siam,2002.

        [11]Spiegelhalter D J,Best N G,Carlin B P,et al.Bayesian Measures of Model Complexity and Fit[J].Journal of The Royal Statistical Society:Series B(Statistical Methodology),2002,64(4).

        猜你喜歡
        偏態(tài)頻數(shù)區(qū)間
        解兩類含參數(shù)的復(fù)合不等式有解與恒成立問題
        你學會“區(qū)間測速”了嗎
        考試成績轉(zhuǎn)換成偏態(tài)分布量化成績的算法
        隧穿量子點分子的Wigner-Yanase偏態(tài)信息
        中考頻數(shù)分布直方圖題型展示
        學習制作頻數(shù)分布直方圖三部曲
        區(qū)間對象族的可鎮(zhèn)定性分析
        頻數(shù)和頻率
        雙模壓縮真空態(tài)光場作用下耦合雙原子的Wigner-Yanase偏態(tài)信息
        盜汗病治療藥物性味歸經(jīng)頻數(shù)分析
        日韩精品自拍一区二区| 拍摄av现场失控高潮数次| 亚洲综合伊人制服丝袜美腿| 亚洲最新中文字幕一区| 羞羞色院99精品全部免| 国产乱子伦| 7878成人国产在线观看| 国产精品爽爽VA吃奶在线观看| 男女做那个视频网站国产| 放荡的少妇2欧美版| 少妇高潮惨叫喷水在线观看| 99在线无码精品秘 人口| 亚洲国产国语对白在线观看| 男人的天堂av网站| 亚洲av成人综合网| 亚洲在战AV极品无码| 久久精品久99精品免费| 少妇愉情理伦片高潮日本| yeyecao亚洲性夜夜综合久久| 台湾佬中文偷拍亚洲综合| 蜜桃臀av一区二区三区| 三叶草欧洲码在线| 四虎成人在线| 美女被搞在线观看一区二区三区| 国产在线无码一区二区三区视频| 欧美操逼视频| 日韩精品视频在线观看免费| 亚洲国产日韩一区二区三区四区 | 一区二区三区日本高清| 又色又爽又高潮免费视频国产 | 亚洲综合色无码| 国产无遮挡a片又黄又爽| 日韩人妻无码精品系列专区无遮| 国产精品一区二区三区播放| 国产网红主播无码精品| 欧美精品中文| 久久精品国产亚洲av成人网| 成人无码av免费网站| 亚洲色偷拍区另类无码专区| 国产精品国产三级国产三不| 国产av一级黄一区二区三区|