亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Logistic回歸與分類樹(shù)模型的比較

        2014-04-04 01:46:22楊君慧
        關(guān)鍵詞:分類方法模型

        孫 穎,楊君慧

        (西安工業(yè)大學(xué) 理學(xué)院,西安710021)

        由于信用卡能給銀行帶來(lái)很高的利潤(rùn),國(guó)內(nèi)外各大商業(yè)銀行受信用卡業(yè)務(wù)的高額利潤(rùn)和市場(chǎng)空間吸引,都開(kāi)始增加了該部分的投入,但是高利潤(rùn)也伴隨著高風(fēng)險(xiǎn)[1].如何更好地對(duì)信用卡申請(qǐng)人進(jìn)行識(shí)別和判斷,提高銀行預(yù)防和抵抗信用卡風(fēng)險(xiǎn)的能力,是所有發(fā)卡機(jī)構(gòu)迫切需要解決的問(wèn)題.信用度,是指從社會(huì)信譽(yù)、經(jīng)濟(jì)狀況、商品交易的履約情況等方面反映出來(lái)的發(fā)卡對(duì)象的遵約守信程度.信用度評(píng)估對(duì)發(fā)卡機(jī)構(gòu)來(lái)講,是一項(xiàng)非常重要的任務(wù).一個(gè)人的社會(huì)信用度直接關(guān)系到他申請(qǐng)和使用信用卡的狀況[1].如何對(duì)信用卡申請(qǐng)的資產(chǎn)信用評(píng)估,統(tǒng)計(jì)學(xué)方法主要包括非參數(shù)模型分類樹(shù)方法、判別分析和參數(shù)模型Logistic回歸[2].隨著電子商務(wù)的發(fā)展,信用卡的使用者和交易量迅速增加,導(dǎo)致信息量急劇擴(kuò)大僅憑個(gè)人經(jīng)驗(yàn)已經(jīng)很難有效的做出正確的判斷,而判別分析所做的假設(shè)條件又常常無(wú)法滿足.Logistic回歸模型在這一點(diǎn)上,具有簡(jiǎn)單易懂,模型的解釋強(qiáng)的優(yōu)點(diǎn)(模型的結(jié)果可以產(chǎn)生一個(gè)評(píng)分卡,易于被實(shí)際部門工作人員理解和實(shí)施).因此在信用度評(píng)估上得到了廣泛的應(yīng)用.而分類樹(shù)模型具有較好的穩(wěn)健性和邏輯性[3].本文將通過(guò)統(tǒng)計(jì)學(xué)中參數(shù)方法Logistic回歸和非參數(shù)方法分類樹(shù)建立模型.

        1 Logistic回歸和分類樹(shù)綜述

        1.1 Logistic回歸模型

        Logistic回歸又稱Logistic回歸分析,主要在流行病學(xué)中應(yīng)用較多,Logistic回歸的主要用途:①尋找某一疾病的危險(xiǎn)因素;②根據(jù)模型,預(yù)測(cè)在不同的自變量情況下,發(fā)生某病或某種情況的概率有多大.如果已經(jīng)建立了Logistic回歸模型,則可以利用計(jì)算機(jī)教學(xué)軟件,通過(guò)迭代計(jì)算最大似然估計(jì)的方法,得到相關(guān)的系數(shù).

        Logistic回歸與多重線性回歸實(shí)際上有很多相同之處.最大的區(qū)別就在他們的因變量不同,其他的基本都差不多.正是因?yàn)槿绱?,這兩種回歸可以歸于同一個(gè)家族,即廣義線性模型 (generalized Linear Model).Logistic回歸的因變量可以是二分類的,也可以是多分類的,但是二分類的更為常用,也更加容易解釋.所以實(shí)際中最為常用的就是二分類的logistic回歸,也是文中要使用的回歸模型.在很多實(shí)際應(yīng)用中,由于模型不能適用多元線性回歸模型 (比如獨(dú)立變量不符合正態(tài)分布等),那么Logistic回歸分析就很好的彌補(bǔ)了這一方面.在二項(xiàng)Logistic回歸分析中,如果我們讓y=1代表一個(gè)結(jié)果,y=0代表另一個(gè)結(jié)果,y是滿足二項(xiàng)分布的,那么Logistic回歸模型規(guī)定為

        其中:β0,β1,…βk是未知的多元Logistic回歸系數(shù).對(duì)系數(shù)有一個(gè)解釋為

        Logistic模型在以上的意義是幾率的乘法

        即[基本事件的幾率]*[由于 X1的因素]*…*[由于Xk的因素]

        1.2 分類樹(shù)模型

        決策樹(shù)是用二叉樹(shù)圖來(lái)表示處理邏輯的一種工具.可以直觀、清晰地表達(dá)加工的邏輯要求.特別適合于判斷因素比較少、邏輯組合關(guān)系不復(fù)雜的情況.決策樹(shù)提供了一種展示類似在什么條件下會(huì)得到什么值這類規(guī)則的方法.決策樹(shù)中最上面的節(jié)點(diǎn)稱為根節(jié)點(diǎn),是整個(gè)決策樹(shù)的開(kāi)始.每個(gè)分支要么是一個(gè)新的決策節(jié)點(diǎn),要么是樹(shù)的結(jié)尾,稱為葉子.在沿著決策樹(shù)從上到下的過(guò)程中,在每個(gè)節(jié)點(diǎn)都會(huì)遇到一個(gè)問(wèn)題,每個(gè)節(jié)點(diǎn)上問(wèn)題的不同回答導(dǎo)致不同的分支,最后會(huì)到達(dá)一個(gè)葉子節(jié)點(diǎn).這個(gè)過(guò)程就是利用決策樹(shù)進(jìn)行分類的過(guò)程,利用幾個(gè)變量 (每個(gè)變量對(duì)應(yīng)一個(gè)問(wèn)題)來(lái)判斷所屬的類別(最后每個(gè)葉子會(huì)對(duì)應(yīng)一個(gè)類別).建立決策樹(shù)的過(guò)程,即樹(shù)的生長(zhǎng)過(guò)程是不斷的把數(shù)據(jù)進(jìn)行切分的過(guò)程,每次切分對(duì)應(yīng)一個(gè)問(wèn)題,也對(duì)應(yīng)著一個(gè)節(jié)點(diǎn).對(duì)每個(gè)切分都要求分成的組之間的“差異”最大.決策樹(shù)的這種易于理解性對(duì)數(shù)據(jù)挖掘的使用者來(lái)說(shuō)是一個(gè)顯著的優(yōu)點(diǎn).然而決策樹(shù)的這種明確性可能帶來(lái)誤導(dǎo).比如,決策樹(shù)每個(gè)節(jié)點(diǎn)對(duì)應(yīng)分割的定義都是非常明確毫不含糊的,但在實(shí)際生活中這種明確可能帶來(lái)麻煩.

        建立一顆決策樹(shù)可能只要對(duì)數(shù)據(jù)庫(kù)進(jìn)行幾遍掃描之后就能完成,這也意味著需要的計(jì)算資源較少,而且可以很容易的處理包含很多預(yù)測(cè)變量的情況,因此決策樹(shù)模型可以建立得很快,并適合應(yīng)用到大量的數(shù)據(jù)上.

        對(duì)最終要拿給人看的決策樹(shù)來(lái)說(shuō),在建立過(guò)程中讓其生長(zhǎng)的太枝繁葉茂是沒(méi)有必要的,這樣既降低了樹(shù)的可理解性和可用性,同時(shí)也使決策樹(shù)本身對(duì)歷史數(shù)據(jù)的依賴性增大,也就是說(shuō)這棵決策樹(shù)對(duì)歷史數(shù)據(jù)可能非常準(zhǔn)確,一旦應(yīng)用到新的數(shù)據(jù)時(shí)準(zhǔn)確性卻急劇下降,我們稱這種情況為訓(xùn)練過(guò)度.為了使得到的決策樹(shù)所蘊(yùn)含的規(guī)則具有普遍意義,必須防止訓(xùn)練過(guò)度,同時(shí)也減少了訓(xùn)練的時(shí)間.因此需要有一種方法能在適當(dāng)?shù)臅r(shí)候停止樹(shù)的生長(zhǎng).常用的方法是設(shè)定決策樹(shù)的最大高度(層數(shù))來(lái)限制樹(shù)的生長(zhǎng).還有一種方法是設(shè)定每個(gè)節(jié)點(diǎn)必須包含的最少記錄數(shù),當(dāng)節(jié)點(diǎn)中記錄的個(gè)數(shù)小于這個(gè)數(shù)值時(shí)就停止分割.決策樹(shù)中最重要的就是對(duì)最大區(qū)分度屬性的選擇方法,通常認(rèn)為,有最高信息增益的屬性是給定數(shù)據(jù)集合中最高區(qū)分度的屬性,通過(guò)計(jì)算信息增益,可以得到屬性的排序.

        信息增益的定義為

        1.3 ROC曲線

        接受者操作特性曲線(Receiver Operating Characteristic,ROC),又稱為感受性曲線.得此名的原因在于曲線上各點(diǎn)反映著相同的感受性,他們都是對(duì)同一信號(hào)刺激的反應(yīng),只不過(guò)是在幾種不同的判定標(biāo)準(zhǔn)下所得的結(jié)果而已.接受者操作特性曲線就是以虛驚概率為橫軸,擊中概率為縱軸所組成的坐標(biāo)圖,和被試在特定刺激條件下由于采用不同的判斷標(biāo)準(zhǔn)得出的不同結(jié)果畫(huà)出的曲線.

        ROC曲線具有以下屬性:①β的改變獨(dú)立于d′的變化,考察β值變化對(duì)p(y/SN)和p(y/N)的影響時(shí)發(fā)現(xiàn),當(dāng)β接近無(wú)窮大時(shí),虛驚概率幾乎為0,即噪音全當(dāng)成信號(hào)接受.而當(dāng)β從接近0到無(wú)窮大漸變的過(guò)程中,將形成一條完整的ROC曲線,曲線在某一處達(dá)到最佳的標(biāo)準(zhǔn)βOPT.②ROC曲線的曲率反應(yīng)敏感性指標(biāo) d′,對(duì)角線代表p(y/SN)=P(y/N),即被試者的辨別力d′為0,ROC曲線離這條線愈遠(yuǎn),表示被試者辨別力愈強(qiáng),d′的值就愈大.由上可知,d′的變化使ROC曲線形成一個(gè)曲線簇,而β的變化體現(xiàn)在這一曲線簇中的某一條曲線上不同點(diǎn)的變化.此外,如果將ROC曲線的坐標(biāo)軸變?yōu)閆分?jǐn)?shù)坐標(biāo),將看到ROC曲線從曲線形態(tài)變?yōu)橹本€形態(tài).這種坐標(biāo)變換可以用來(lái)驗(yàn)證信號(hào)檢測(cè)論一個(gè)重要假設(shè),即方差齊性假設(shè).本文中將通過(guò)ROC曲線的性質(zhì)來(lái)對(duì)模型的性能作出評(píng)價(jià).

        2 模型的建立和預(yù)測(cè)

        2.1 數(shù)據(jù)的收集和處理

        文中使用一個(gè)在信用評(píng)分領(lǐng)域非常有名的免費(fèi)數(shù)據(jù)集 German Credit Data Set,可以在 UCI Machine Learning Repository找到.

        對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,將評(píng)估結(jié)果轉(zhuǎn)化為二項(xiàng)分布,定義(0,1)中GOOD=0.即在數(shù)據(jù)中確定的好用戶用0來(lái)表示,而危險(xiǎn)用戶則為1.之后將這組數(shù)據(jù)隨機(jī)抽取了550個(gè)事件,組成實(shí)驗(yàn)組,并選取Account,Duration,History,Amount,Saving,Employment,Income,Personal,Property,Age,Installment和Job作為探索變量.

        2.2 Logistic回歸模型的建立

        通過(guò)統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案(Statistical Product and Service Solutions,SPSS)軟件中 Binary Logistic Regression方法求解:將數(shù)據(jù)中的信用度評(píng)估結(jié)果作為Dependent 12個(gè)屬性作為Covariates;由于數(shù)據(jù)有112個(gè)變量,為了得到簡(jiǎn)單并有代表性的回歸方程,選擇向后變量加入,向前變量剔出的方法,在 Method中選擇Forward Conditional.要求軟件輸出預(yù)測(cè)概率和分組結(jié)果Probabilities&Group Membership;標(biāo)準(zhǔn)檢驗(yàn)值為0.05,置信區(qū)間為95% ,并輸出 HOSM ERLEMESHOW 檢驗(yàn)[4].

        在逐步將每個(gè)變量放入模型之前,采用得分檢驗(yàn)方法,檢驗(yàn)?zāi)骋粋€(gè)自變量與因變量之間有無(wú)關(guān)系.有結(jié)果可見(jiàn),Checking,Account,Duration,History,Credit,Amount,Savings,Property 在0.05檢驗(yàn)水平下與評(píng)估客戶的分類有著顯著的統(tǒng)計(jì)學(xué)意義.這也說(shuō)明對(duì)客戶 的信用度評(píng)價(jià)中,用戶的還款能力以及還款意向占有很重要的因素.而個(gè)人的婚姻居住職業(yè)等情況對(duì)最后結(jié)果影響的統(tǒng)計(jì)學(xué)意義較小.

        同時(shí)可以得到檢驗(yàn)值P,優(yōu)勢(shì)比OR(分析疾病與暴露因素聯(lián)系程度的指標(biāo))以及95%的置信區(qū)間.可以通過(guò)回歸方程對(duì)試驗(yàn)組中的數(shù)據(jù)進(jìn)行計(jì)算,從而得到他們的預(yù)測(cè)概率,并通過(guò)預(yù)測(cè)概率來(lái)分組,實(shí)現(xiàn)Logistic回歸模型對(duì)信用度的評(píng)估.這一步驟可以在SPSS的Save選項(xiàng)中要求輸出.由每個(gè)自變量可獲得對(duì)應(yīng)的優(yōu)勢(shì)比OR值.例如Duration的OR值為1.065,在其他變量取值固定的情況下,Duration每增加一個(gè)月,相應(yīng)的客戶信用度評(píng)估優(yōu)勢(shì)比增加自然對(duì)數(shù)值為1.065,也就是說(shuō)隨著Duration的時(shí)間增加,客戶的信用度將增高,這也符合實(shí)際意義.

        由此可得到最后預(yù)測(cè)結(jié)果.正確率84.5%,靈敏度為90.9% ,特異率為69.7% .由此可以看出建立的Logistic回歸模型對(duì)信用度的預(yù)測(cè)準(zhǔn)確率還是很高的,550個(gè)事件中,有465的用戶都能被準(zhǔn)確的判斷.對(duì)本來(lái)是資格客戶,但是被評(píng)為危險(xiǎn)客戶的有35人,誤判率為9.1% .本來(lái)是危險(xiǎn)客戶,被分類為資格客戶的有50人,漏判率為30.3%.此模型可以基本滿足實(shí)際操作的需要,通過(guò)得到的預(yù)測(cè)違約概率Probabilities(OUTCOME=1)來(lái)對(duì)客戶進(jìn)行分組,實(shí)現(xiàn)信用度的評(píng)估[5].

        2.3 分類樹(shù)模型的建立

        通過(guò)SPSS中Classify Tree來(lái)得到?jīng)Q策樹(shù)模型:使用信用等級(jí)做因變量Dependent,所有屬性作為協(xié)變量,由于在2.2中Logistic回歸模型計(jì)算的是客戶違約的預(yù)測(cè)概率,為了保持一致,在分類中同樣把目標(biāo)定為BAD;為了得到簡(jiǎn)單的模型以便于解釋,我們減少父節(jié)點(diǎn)和子節(jié)點(diǎn)的個(gè)數(shù)為20和10;同時(shí)要求SPSS輸出預(yù)測(cè)概率,預(yù)測(cè)分組和樹(shù)形圖.在使用CHAID算法時(shí),活期帳戶Checking Account是模型的最佳預(yù)測(cè)因子.在低存款(Account=1)的節(jié)點(diǎn)上,存款Property成為另一個(gè)預(yù)測(cè)因子,在存款 (Account=2)的節(jié)點(diǎn)上,Duration成為了他的預(yù)測(cè)分子,并且在Duration>42的時(shí)候終止.通過(guò)這種邏輯,分類樹(shù)在CHAID算法下產(chǎn)生了6個(gè)預(yù)測(cè)因素[6].

        實(shí)際上為得到更準(zhǔn)確地分類,可減少每個(gè)節(jié)點(diǎn)含有的信息數(shù)量得到更精確的分類.比如當(dāng)設(shè)置節(jié)點(diǎn)數(shù)量為10和5時(shí),會(huì)輸出分類更加準(zhǔn)確的決策樹(shù).但是降低了樹(shù)的可理解性和可用性,同時(shí)也使決策樹(shù)本身對(duì)歷史數(shù)據(jù)的依賴性增大.

        3 結(jié) 論

        通過(guò)Logistic回歸模型和分類樹(shù)模型,分別對(duì)同一組實(shí)驗(yàn)數(shù)據(jù)進(jìn)行了信用度評(píng)估,得到結(jié)論為

        1)Logistic回歸模型和決策樹(shù)模型對(duì)信用度評(píng)估都有較好預(yù)測(cè)性,準(zhǔn)確率都很高.然而特異率對(duì)危險(xiǎn)用戶判斷的準(zhǔn)確率對(duì)銀行來(lái)說(shuō)有更大的意義(將危險(xiǎn)客戶預(yù)測(cè)為資格用戶會(huì)給銀行帶來(lái)更大的損失 ),盡管分類樹(shù)模型的總體預(yù)測(cè)正確率要低于Logistic回歸模型,但是在特異率的表現(xiàn)上卻更加突出,更值得信賴.

        2)作為參數(shù)方法的Logistic回歸模型可以得到一個(gè)回歸方程,用于預(yù)測(cè)新加入的數(shù)據(jù)的違約概率,相比于分類樹(shù)模型,更容易操作.但是分類樹(shù)方法在加入型的事件后預(yù)測(cè)準(zhǔn)確率將降低,這表明分類樹(shù)模型對(duì)現(xiàn)有數(shù)據(jù)的依賴性很大.

        3)分類樹(shù)模型的ROC曲線更加平滑,這說(shuō)明決策樹(shù)模型在穩(wěn)健性上更有優(yōu)勢(shì).

        4)作為非參數(shù)方法的分類樹(shù)模型有很強(qiáng)的邏輯性,不需要概率分布,輸出結(jié)果明確,清晰.且假設(shè)條件少,易于建立,在很多情況下都能使用.

        通過(guò)統(tǒng)計(jì)學(xué)對(duì)數(shù)據(jù)分析并預(yù)測(cè)是一門在實(shí)際中應(yīng)用廣泛的學(xué)科,在很多領(lǐng)域中也取得了成功.隨著市場(chǎng)經(jīng)濟(jì)在全球的推廣,競(jìng)爭(zhēng)日益激烈.信貸結(jié)構(gòu)都面臨著更大的風(fēng)險(xiǎn),有效地評(píng)估客戶的可信度必然成為趨勢(shì)和提高信貸機(jī)構(gòu)經(jīng)濟(jì)效益的有效途徑.對(duì)客戶的信用評(píng)估是一項(xiàng)具有發(fā)展前景的領(lǐng)域.本文針對(duì)統(tǒng)計(jì)學(xué)中Logistic回歸和分類樹(shù)這兩種參數(shù)和非參數(shù)方法,對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè),根據(jù)輸出的結(jié)果比較,這兩種模型都是可行有效的并都有著各自的優(yōu)點(diǎn),在實(shí)際操作中應(yīng)因地制宜,善于把握兩種方法的優(yōu)勢(shì),得到更有價(jià)值的結(jié)果.

        [1] 吳喜之.統(tǒng)計(jì)學(xué):從數(shù)據(jù)到結(jié)論 [M].北京:中國(guó)統(tǒng)計(jì)出版社,2009.WU Xi-zhi.Statistics:From Data to Conclusion[M].Beijing:China Statistics Press,2009.(in Chinese)

        [2] 何曉群.多元統(tǒng)計(jì)分析 [M].北京:中國(guó)人民出版社,2004.HE Xiao-qun.Multivariate Statistical Analysis[M].Beijing:People’s Publishing of China,2004.(in Chinese)

        [3] 方兆本等.消費(fèi)者信用評(píng)估分析綜述[J].系統(tǒng)工程,2001,19(6):9;FANG Zhao-ben.Analysis of Consumer Credit Evaluation[J].Systems Engineering,2001,19(6):9.(in Chinese)

        [4] 王濟(jì)川.Logistic回歸模型方法與應(yīng)用[M].北京:高等教育出版社,2001.WANG Ji-chuan.Logistic Regression Model Method and Application[M].Beijing:Higher Education Press,2001.(in Chinese)

        [5] 任康,李剛.Logistic回歸模型在判別分析中的應(yīng)用[J].統(tǒng)計(jì)與信息論壇,2007,22(6):71.REN Kang,LI Gang.Application of Logistic Regression Model in Distinguishing[J].Statistics and Information Forum,2007,22(6):71.(in Chinese)

        [6] 謝遠(yuǎn)濤,楊娟.Logistic與分類樹(shù)模型變量篩選的比較——基于信用卡郵寄業(yè)務(wù)響應(yīng)率分析[J].統(tǒng)計(jì)與信息論壇,2011,26(6):96.XIE Yuan-tao,YANG Juan.Comparative Analysis of Logistic Regression and Tree Models—Based on Response Ration of Credit Mail Statistics &Information Forum,2011,26(6):96.(in Chinese)

        猜你喜歡
        分類方法模型
        一半模型
        分類算一算
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        可能是方法不對(duì)
        3D打印中的模型分割與打包
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        96精品在线| 亚洲av无码乱码在线观看牲色| 久久精品人妻嫩草av蜜桃| 亚洲一区二区综合精品| 国产三级a三级三级| 中文字幕一区二区三区人妻少妇| 亚洲国产福利精品一区二区| 一本久道久久综合狠狠操| 精品国产精品三级在线专区| 欧美精品videosex极品| 最新四色米奇影视777在线看| 亚洲va成无码人在线观看| 日本综合视频一区二区| 先锋五月婷婷丁香草草| 人人澡人人澡人人看添av| 国产精品九九热| 日韩女优一区二区视频| 天堂网日韩av在线播放一区| 亚洲日韩av一区二区三区中文 | 嗯啊哦快使劲呻吟高潮视频| 91福利国产在线观看网站| 日本av不卡一区二区三区| 国产专区一线二线三线码| 欧美极品美女| 久久精品国产亚洲av热九九热| 19款日产奇骏车怎么样| 琪琪色原网站在线观看| 越南女子杂交内射bbwbbw| 国产日韩欧美网站| 中文字幕人妻少妇精品| 新婚少妇无套内谢国语播放| 洗澡被公强奷30分钟视频| 日韩av中出在线免费播放网站| 国产乱淫h侵犯在线观看| 欧美日韩午夜群交多人轮换| 末发育娇小性色xxxxx视频| 九九久久精品大片| 日韩亚洲一区二区三区在线| 国产一区二区三区在线观看完整版| 中文字幕在线亚洲日韩6页| 乱人伦人妻中文字幕无码|