摘 要:在對(duì)因變量為定性變量的的回歸分析中,傳統(tǒng)的方法包括Logistic回歸模型、Probit模型等廣義線性模型,同時(shí),在機(jī)器學(xué)習(xí)法中也產(chǎn)生了諸如決策樹回歸、支持向量機(jī)等方法,此類方法的優(yōu)點(diǎn)在于可以處理任意類型的數(shù)據(jù)以及在短時(shí)間類處理大型數(shù)據(jù)源。本文的目的在于面對(duì)定性變量的回歸分析中,比較傳統(tǒng)模型(以Logistic模型為例)與機(jī)器學(xué)習(xí)法(以決策樹為例)兩者的優(yōu)劣。
關(guān)鍵詞:Logistic回歸模型;機(jī)器學(xué)習(xí)法;決策樹回歸;R軟件
一、Logistic模型
Logistic回歸(logistic regression)是研究因變量為二分類觀測(cè)結(jié)果與影響因素(自變量)之間關(guān)系的一種多變量分析方法,屬概率型非線性回歸。一般Logistic模型為:
其中p為事件發(fā)生的概率。
Logistic回歸參數(shù)的估計(jì)通常采用最大似然法。最大似然法的基本思想是先建立似然函數(shù)與對(duì)數(shù)似然函數(shù),再通過使對(duì)數(shù)似然函數(shù)最大求解相應(yīng)的參數(shù)值,所得到的估計(jì)值為參數(shù)的最大似然估計(jì)值。最大似然估計(jì)具有的一致性、有效性和正態(tài)性都是一些很好的統(tǒng)計(jì)性質(zhì),樣本數(shù)據(jù)越大時(shí)其估計(jì)值就越準(zhǔn)確。
由于Logistic回歸模型就是基于二項(xiàng)分布族的廣義線性模型,因此在R軟件中,Logistic回歸分析可以通過調(diào)用廣義線性回歸模型函數(shù)glm()來實(shí)現(xiàn)。
二、決策樹回歸模型
機(jī)器學(xué)習(xí)中,決策樹是一個(gè)預(yù)測(cè)模型;它代表的是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系。樹中每個(gè)節(jié)點(diǎn)表示某個(gè)對(duì)象,而每個(gè)分叉路徑則代表的某個(gè)可能的屬性值,而每個(gè)葉結(jié)點(diǎn)則對(duì)應(yīng)從根節(jié)點(diǎn)到該葉節(jié)點(diǎn)所經(jīng)歷的路徑所表示的對(duì)象的值。決策樹僅有單一輸出,若欲有復(fù)數(shù)輸出,可以建立獨(dú)立的決策樹以處理不同輸出。 數(shù)據(jù)挖掘中決策樹是一種經(jīng)常要用到的技術(shù),可以用于分析數(shù)據(jù),同樣也可以用來作預(yù)測(cè)。
決策樹分析主要有兩種,一種為分類樹分析,它是當(dāng)預(yù)計(jì)結(jié)果可能為離散類型(例如三個(gè)種類的花,輸贏等)使用的概念;另一種為回歸樹分析,它是是當(dāng)預(yù)計(jì)結(jié)果可能為實(shí)數(shù)(例如房?jī)r(jià),患者住院時(shí)間等)使用的概念。
三、兩種模型效果比較的實(shí)證分析
下面采用愛爾蘭教育水平數(shù)據(jù)來檢測(cè)logistic模型與決策樹模型在對(duì)含有名義變量的回歸中的效果,本數(shù)據(jù)來自http://lib.stat.cmu.edu/datasets/irish.ed
(一)數(shù)據(jù)說明
該數(shù)據(jù)包括500個(gè)樣本,六個(gè)變量,變量分別為:
變量1為性別,以V1表示;變量2為一項(xiàng)測(cè)試的得分,以V2表示;變量3為獲得的教育水平,以V3表示;變量4表示是否獲得畢業(yè)證書,其中1表示否,2表示是,以V4表示;變量5表示被調(diào)查者的職業(yè)社會(huì)地位得分,以V5表示;變量6表示學(xué)校類型,以V6表示。
其中變量2、變量5為定量變量,而變量1、變量3、變量4、變量6為定性變量,這里對(duì)變量4作回歸分析,即建立是否獲得畢業(yè)證書的回歸模型,顯然,這里的變量4即V4為二元變量,回歸模型適合用logistic模型以及決策樹來建立。下面分別用R軟件建立logistic模型與決策樹模型。
(二)數(shù)據(jù)預(yù)處理
這里的預(yù)處理包括對(duì)數(shù)據(jù)缺失值的處理以及對(duì)某些變量的合并。
可以看到在V3及V5中出現(xiàn)了最小值0,顯然V3與V5數(shù)據(jù)中出現(xiàn)了缺失值。對(duì)數(shù)據(jù)缺失采用R軟件中的missForest進(jìn)行處理。
對(duì)missForest處理后的數(shù)據(jù)作缺失值檢測(cè),顯示缺失值為0,缺失值處理成功。
下面對(duì)處理后的新數(shù)據(jù)檢測(cè)是否有做合并處理的必要,數(shù)據(jù)合并是對(duì)某些對(duì)因變量相關(guān)性很強(qiáng)的變量?jī)?nèi)部值作合并處理,這一點(diǎn)在作logistic回歸中影響不大,但在作決策樹回歸時(shí)會(huì)由于變量相關(guān)性太強(qiáng)容易導(dǎo)致數(shù)據(jù)不能充分利用。下面嘗試對(duì)V4作決策樹:
顯然,以V3作決策變量時(shí),對(duì)V4的判定相當(dāng)完美,可以說V3與V4是等同的,意味著在作決策樹回歸時(shí)產(chǎn)生了“過擬合”現(xiàn)象,即在樣本內(nèi)擬合相當(dāng)完美,但在樣本外擬合效果會(huì)很差。在盡量不刪除變量的原則下,對(duì)V3中的11個(gè)水平數(shù)作一些合并,具體合并原則為:將未完成當(dāng)前學(xué)制的(原類2、類3、類6、類7、類10)歸為類2,完成當(dāng)前學(xué)制的(原類4、類5、類8、類9、類11)歸為類3,原類1任為類1,這樣合并以后的V3只有3個(gè)水平。
(三)建立Logistic回歸模型
R軟件中通過glm函數(shù)直接建立logistic回歸模型,另外這里采用逐步回歸,回歸結(jié)果如下
其中,V1在逐步回歸中被淘汰,由于V4的水平數(shù)分別為1和2,在進(jìn)行回歸時(shí),使之變?yōu)?-1變量,最后納入回歸模型的因變量為V4-1,得到的回歸模型為
這里對(duì)的擬合結(jié)果給每一個(gè)觀測(cè)值一個(gè)概率值,這里以0.5為分類界限,并檢驗(yàn)錯(cuò)判概率。
一共有83個(gè)觀測(cè)值被錯(cuò)分,誤判率為0.166。
(四)決策樹回歸
同樣的,R軟件中可以用rpart函數(shù)直接給出決策樹回歸結(jié)果,運(yùn)行結(jié)果及決策樹如下
同時(shí),也可以得到?jīng)Q策樹效果圖
下面檢測(cè)決策分類法的錯(cuò)分概率
一共有74個(gè)觀測(cè)值錯(cuò)分,錯(cuò)分概率為0.148。
四、結(jié)論
由以上分析可看出,在對(duì)含有定性變量的回歸分析中,同時(shí)因變量為二元變量時(shí),logistic回歸模型仍然是一個(gè)好的選擇,錯(cuò)判概率在一個(gè)很低的水平。而決策樹作為分類模型是個(gè)更好的選擇,錯(cuò)判率比logistic回歸模型的效果更好,即上圖所示logistic回歸模型的錯(cuò)判率為0.166而決策樹分類模型的錯(cuò)判率為0.148。
參考文獻(xiàn):
[1]王濟(jì)川,郭志剛.Logistic回歸模型——方法與應(yīng)用[M].高等教育出版社,2001.
[2]湯銀才.R語言與統(tǒng)計(jì)分析[M].高等教育出版社,2008.
[3]呂曉玲,謝邦昌.數(shù)據(jù)挖掘:方法與應(yīng)用[M].中國人民大學(xué)出版社,2009.
[4]吳喜之,復(fù)雜數(shù)據(jù)統(tǒng)計(jì)方法——基于R的應(yīng)用[M].中國人民大學(xué)出版社,2012.