亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

Logistic模型與決策樹在定性數(shù)據(jù)分析中的效果分析

2015-04-29 00:00:00李英娟

企業(yè)文化·下旬刊 2015年11期

摘要：在對(duì)因變量為定性變量的的回歸分析中，傳統(tǒng)的方法包括Logistic回歸模型、Probit模型等廣義線性模型，同時(shí)，在機(jī)器學(xué)習(xí)法中也產(chǎn)生了諸如決策樹回歸、支持向量機(jī)等方法，此類方法的優(yōu)點(diǎn)在于可以處理任意類型的數(shù)據(jù)以及在短時(shí)間類處理大型數(shù)據(jù)源。本文的目的在于面對(duì)定性變量的回歸分析中，比較傳統(tǒng)模型（以Logistic模型為例）與機(jī)器學(xué)習(xí)法（以決策樹為例）兩者的優(yōu)劣。

關(guān)鍵詞：Logistic回歸模型；機(jī)器學(xué)習(xí)法；決策樹回歸；R軟件

一、Logistic模型

Logistic回歸（logistic regression）是研究因變量為二分類觀測(cè)結(jié)果與影響因素（自變量）之間關(guān)系的一種多變量分析方法，屬概率型非線性回歸。一般Logistic模型為：

其中p為事件發(fā)生的概率。

Logistic回歸參數(shù)的估計(jì)通常采用最大似然法。最大似然法的基本思想是先建立似然函數(shù)與對(duì)數(shù)似然函數(shù)，再通過使對(duì)數(shù)似然函數(shù)最大求解相應(yīng)的參數(shù)值，所得到的估計(jì)值為參數(shù)的最大似然估計(jì)值。最大似然估計(jì)具有的一致性、有效性和正態(tài)性都是一些很好的統(tǒng)計(jì)性質(zhì)，樣本數(shù)據(jù)越大時(shí)其估計(jì)值就越準(zhǔn)確。

由于Logistic回歸模型就是基于二項(xiàng)分布族的廣義線性模型，因此在R軟件中，Logistic回歸分析可以通過調(diào)用廣義線性回歸模型函數(shù)glm（）來實(shí)現(xiàn)。

二、決策樹回歸模型

機(jī)器學(xué)習(xí)中，決策樹是一個(gè)預(yù)測(cè)模型；它代表的是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系。樹中每個(gè)節(jié)點(diǎn)表示某個(gè)對(duì)象，而每個(gè)分叉路徑則代表的某個(gè)可能的屬性值，而每個(gè)葉結(jié)點(diǎn)則對(duì)應(yīng)從根節(jié)點(diǎn)到該葉節(jié)點(diǎn)所經(jīng)歷的路徑所表示的對(duì)象的值。決策樹僅有單一輸出，若欲有復(fù)數(shù)輸出，可以建立獨(dú)立的決策樹以處理不同輸出。數(shù)據(jù)挖掘中決策樹是一種經(jīng)常要用到的技術(shù)，可以用于分析數(shù)據(jù)，同樣也可以用來作預(yù)測(cè)。

決策樹分析主要有兩種，一種為分類樹分析，它是當(dāng)預(yù)計(jì)結(jié)果可能為離散類型（例如三個(gè)種類的花，輸贏等）使用的概念；另一種為回歸樹分析，它是是當(dāng)預(yù)計(jì)結(jié)果可能為實(shí)數(shù)（例如房?jī)r(jià)，患者住院時(shí)間等）使用的概念。

三、兩種模型效果比較的實(shí)證分析

下面采用愛爾蘭教育水平數(shù)據(jù)來檢測(cè)logistic模型與決策樹模型在對(duì)含有名義變量的回歸中的效果，本數(shù)據(jù)來自http：//lib.stat.cmu.edu/datasets/irish.ed

（一）數(shù)據(jù)說明

該數(shù)據(jù)包括500個(gè)樣本，六個(gè)變量，變量分別為：

變量1為性別，以V1表示；變量2為一項(xiàng)測(cè)試的得分，以V2表示；變量3為獲得的教育水平，以V3表示；變量4表示是否獲得畢業(yè)證書，其中1表示否，2表示是，以V4表示；變量5表示被調(diào)查者的職業(yè)社會(huì)地位得分，以V5表示；變量6表示學(xué)校類型，以V6表示。

其中變量2、變量5為定量變量，而變量1、變量3、變量4、變量6為定性變量，這里對(duì)變量4作回歸分析，即建立是否獲得畢業(yè)證書的回歸模型，顯然，這里的變量4即V4為二元變量，回歸模型適合用logistic模型以及決策樹來建立。下面分別用R軟件建立logistic模型與決策樹模型。

（二）數(shù)據(jù)預(yù)處理

這里的預(yù)處理包括對(duì)數(shù)據(jù)缺失值的處理以及對(duì)某些變量的合并。

可以看到在V3及V5中出現(xiàn)了最小值0，顯然V3與V5數(shù)據(jù)中出現(xiàn)了缺失值。對(duì)數(shù)據(jù)缺失采用R軟件中的missForest進(jìn)行處理。

對(duì)missForest處理后的數(shù)據(jù)作缺失值檢測(cè)，顯示缺失值為0，缺失值處理成功。

下面對(duì)處理后的新數(shù)據(jù)檢測(cè)是否有做合并處理的必要，數(shù)據(jù)合并是對(duì)某些對(duì)因變量相關(guān)性很強(qiáng)的變量?jī)?nèi)部值作合并處理，這一點(diǎn)在作logistic回歸中影響不大，但在作決策樹回歸時(shí)會(huì)由于變量相關(guān)性太強(qiáng)容易導(dǎo)致數(shù)據(jù)不能充分利用。下面嘗試對(duì)V4作決策樹：

顯然，以V3作決策變量時(shí)，對(duì)V4的判定相當(dāng)完美，可以說V3與V4是等同的，意味著在作決策樹回歸時(shí)產(chǎn)生了“過擬合”現(xiàn)象，即在樣本內(nèi)擬合相當(dāng)完美，但在樣本外擬合效果會(huì)很差。在盡量不刪除變量的原則下，對(duì)V3中的11個(gè)水平數(shù)作一些合并，具體合并原則為：將未完成當(dāng)前學(xué)制的（原類2、類3、類6、類7、類10）歸為類2，完成當(dāng)前學(xué)制的（原類4、類5、類8、類9、類11）歸為類3，原類1任為類1，這樣合并以后的V3只有3個(gè)水平。

（三）建立Logistic回歸模型

R軟件中通過glm函數(shù)直接建立logistic回歸模型，另外這里采用逐步回歸，回歸結(jié)果如下

其中，V1在逐步回歸中被淘汰，由于V4的水平數(shù)分別為1和2，在進(jìn)行回歸時(shí)，使之變?yōu)?-1變量，最后納入回歸模型的因變量為V4-1，得到的回歸模型為

這里對(duì)的擬合結(jié)果給每一個(gè)觀測(cè)值一個(gè)概率值，這里以0.5為分類界限，并檢驗(yàn)錯(cuò)判概率。

一共有83個(gè)觀測(cè)值被錯(cuò)分，誤判率為0.166。

（四）決策樹回歸

同樣的，R軟件中可以用rpart函數(shù)直接給出決策樹回歸結(jié)果，運(yùn)行結(jié)果及決策樹如下

同時(shí)，也可以得到?jīng)Q策樹效果圖

下面檢測(cè)決策分類法的錯(cuò)分概率

一共有74個(gè)觀測(cè)值錯(cuò)分，錯(cuò)分概率為0.148。

四、結(jié)論

由以上分析可看出，在對(duì)含有定性變量的回歸分析中，同時(shí)因變量為二元變量時(shí)，logistic回歸模型仍然是一個(gè)好的選擇，錯(cuò)判概率在一個(gè)很低的水平。而決策樹作為分類模型是個(gè)更好的選擇，錯(cuò)判率比logistic回歸模型的效果更好，即上圖所示logistic回歸模型的錯(cuò)判率為0.166而決策樹分類模型的錯(cuò)判率為0.148。

參考文獻(xiàn)：

[1]王濟(jì)川，郭志剛.Logistic回歸模型——方法與應(yīng)用[M].高等教育出版社，2001.

[2]湯銀才.R語言與統(tǒng)計(jì)分析[M].高等教育出版社，2008.

[3]呂曉玲，謝邦昌.數(shù)據(jù)挖掘：方法與應(yīng)用[M].中國人民大學(xué)出版社，2009.

[4]吳喜之，復(fù)雜數(shù)據(jù)統(tǒng)計(jì)方法——基于R的應(yīng)用[M].中國人民大學(xué)出版社，2012.

企業(yè)文化·下旬刊2015年11期

企業(yè)文化·下旬刊的其它文章: 沈陽航空航天大學(xué)空乘專業(yè)開設(shè)瑜伽選修課的可行性研究; 我國環(huán)境影響評(píng)價(jià)制度分析; 高職院校機(jī)械加工實(shí)踐教學(xué)探討; 樂清市農(nóng)村文化禮堂建設(shè)捆綁責(zé)任制探析; 曹妃甸散雜貨碼頭職業(yè)病防治措施研究; 高水平大學(xué)圖書館員繼續(xù)教育問題探討