張 哲,梁馮珍
(天津大學(xué) 理學(xué)院數(shù)學(xué)系,天津300072)
回歸分析是數(shù)理統(tǒng)計(jì)中的一類重要研究課題.近幾十年來(lái),回歸分析技術(shù)已被廣泛應(yīng)用于工農(nóng)業(yè)、水文氣象、經(jīng)濟(jì)管理、醫(yī)藥衛(wèi)生等領(lǐng)域.然而,隨著現(xiàn)代科學(xué)技術(shù)的不斷進(jìn)步,數(shù)據(jù)收集技術(shù)也得到了很大程度的提高.所以,對(duì)于某些特定類型的數(shù)據(jù),原始的線性回歸方法已不再適用,這就需要學(xué)者們研究更多其他可行的方法.
在傳統(tǒng)的線性回歸模型中,最小二乘估計(jì)(LS)應(yīng)用最為廣泛,這是因?yàn)樵谒芯€性無(wú)偏估計(jì)類中,LS估計(jì)的方差最小.然而,由于近年數(shù)據(jù)收集技術(shù)的提高,使得數(shù)據(jù)擁有大量的預(yù)測(cè)變量,而預(yù)測(cè)變量之間常常存在某些線性關(guān)系,導(dǎo)致設(shè)計(jì)矩陣呈病態(tài).若仍采用LS估計(jì),盡管它在線性無(wú)偏估計(jì)類中方差最小,但其估計(jì)不穩(wěn)定且精度較差.近年來(lái),基于最小二乘估計(jì),許多學(xué)者提出了多種改進(jìn)方法,其中很重要的一部分就是有偏估計(jì),即以很小的偏倚為代價(jià),降低估計(jì)值的方差,使得總體的期望預(yù)測(cè)誤差大幅度減少,從而提高估計(jì)的精度與穩(wěn)定性.
早期對(duì)LS估計(jì)的改進(jìn)方法有嶺回歸估計(jì)、子集選擇等.其中,嶺回歸估計(jì)是指通過(guò)對(duì)LS估計(jì)中的殘差平方和加二次罰,達(dá)到收縮估計(jì)系數(shù)的目的.嶺回歸的估計(jì)結(jié)果包含了所有的變量,且變量的系數(shù)均小于LS的估計(jì)值.1996年,Tibshirani提出了一種新的回歸方法——Lasso(Least absolute shrinkage and selection operator)[1].這種方法看似簡(jiǎn)單的將嶺回歸的二次罰修改為一次罰,但在用二次規(guī)劃求解Lasso的過(guò)程中,一些變量的系數(shù)會(huì)自動(dòng)收縮到0,從而達(dá)到變量選擇的目的,且估計(jì)具有一定的穩(wěn)定性.近年來(lái),在Lasso的基礎(chǔ)上,很多統(tǒng)計(jì)學(xué)家提出了更多的改進(jìn)方法,如文獻(xiàn)[2-6],Elastic Net方法[7]同時(shí)具有嶺回歸和Lasso回歸的性質(zhì),特別對(duì)具有群組性的預(yù)測(cè)變量,估計(jì)效果更好.
居民消費(fèi)價(jià)格指數(shù)是國(guó)民經(jīng)濟(jì)中的重要指標(biāo),其變動(dòng)率在一定程度上反映了國(guó)家通貨膨脹(或緊縮)的程度以及對(duì)職工實(shí)際工資的影響,即職工工資保持不變的情況下,居民價(jià)格消費(fèi)指數(shù)提高意味著實(shí)際工資減少.因此,本文對(duì)居民價(jià)格消費(fèi)指數(shù)與行業(yè)物價(jià)指數(shù)建模并分析,有很強(qiáng)的實(shí)際意義.
本文首先介紹并討論了嶺回歸、Lasso回歸、E-lastic Net回歸三種方法,然后分別用這三種方法對(duì)中國(guó)統(tǒng)計(jì)年鑒中2001~2010年的居民消費(fèi)指數(shù)和行業(yè)物價(jià)指數(shù)數(shù)據(jù)進(jìn)行分析、建模,結(jié)果表明,E-lastic Net回歸的效果最好.
線性回歸是回歸分析中最基本的一類回歸問(wèn)題.對(duì)于一般的線性模型來(lái)說(shuō),假設(shè)預(yù)測(cè)變量的個(gè)數(shù)為p,樣本容量為N,則
若記 Y=(y1,y2,…,yN)T,β =(β0,β1,…,βp)T,Xi=(x1i,x2i,…,xNi)T,i=1,2,…,N,X=(1,X1,X2,…,Xp),ε =(ε1,ε2,…,εN)T,T 代表轉(zhuǎn)置,則模型(1)用矩陣表示為
故回歸系數(shù)的最小二乘估計(jì)為βLS=(XTX)-1XTY.對(duì)任意給定 x0=(x01,x02,…,x0p)T其擬合值
對(duì)于給定的x=x0,擬合值^Y=^f(x0)的期望誤差分解如下:
其中:E(y)=f(x0),σ2為目標(biāo)值圍繞真實(shí)值的一個(gè)擾動(dòng),無(wú)論模型估計(jì)的有多好,這一項(xiàng)都不可避免的出現(xiàn),Bias2(^f(x0))為偏倚,即為估計(jì)值偏離真實(shí)值的一個(gè)度量,Var(^f(x0))為估計(jì)值的方差.
對(duì)于模型(1),嶺回歸估計(jì)的定義為:
其中:λ≥0為罰參數(shù),λ取值越大,回歸系數(shù)收縮越大.特別地,當(dāng)λ=0時(shí),嶺回歸退化為L(zhǎng)S回歸.值得注意的是,在懲罰項(xiàng)中,并沒(méi)有對(duì)常數(shù)項(xiàng)β0進(jìn)行懲罰.事實(shí)上,對(duì)每一個(gè)響應(yīng)加上一個(gè)常數(shù),不會(huì)對(duì)回歸系數(shù)造成影響.從而,嶺回歸的解式(3),可以分為兩部分,一部分是對(duì)響應(yīng)變量Y中心化,得到常數(shù)項(xiàng)β0的估計(jì)值為,另一部分是用嶺回歸定義估計(jì)其他預(yù)測(cè)變量的系數(shù).
將響應(yīng)變量中心化后,式(3)等價(jià)為
解優(yōu)化問(wèn)題minRSS(λ)得嶺回歸的解為
由式(5)可以看出,嶺回歸的解是在LS回歸解的基礎(chǔ)上,加了一個(gè)正的懲罰參數(shù)λ.故當(dāng)矩陣X的某些列向量近似線性相關(guān)時(shí),矩陣XTX+λΙ的奇異性要比XTX低,從而降低了估計(jì)值的方差,提高了估計(jì)精度.然而,嶺回歸也有一定的局限性,它的回歸結(jié)果中包含所有的預(yù)測(cè)變量,沒(méi)有進(jìn)行變量選擇,因此會(huì)影響模型的準(zhǔn)確性.
針對(duì)嶺回歸中沒(méi)有變量選擇的問(wèn)題,Tibshirani在1996年提出了Lasso回歸,對(duì)其進(jìn)行了改進(jìn).Lasso估計(jì)的定義為
下面分別采用嶺回歸和Lasso回歸對(duì)R軟件包ElemStatLearn中的prostate數(shù)據(jù)進(jìn)行分析,該數(shù)據(jù)樣本數(shù)量為97,包含一個(gè)響應(yīng)變量(lpsa)和8個(gè)預(yù)測(cè)變量(lcavol,lweight,age,lbph,svi,lcp,gleason,pgg45).嶺回歸和Lasso回歸的求解途徑如圖1所示.
圖1 嶺回歸與Lasso回歸的求解路
其中圖1左為嶺回歸的求解路徑,橫坐標(biāo)為自由度(即回歸變量個(gè)數(shù)),縱坐標(biāo)為預(yù)測(cè)變量系數(shù).圖1右為L(zhǎng)asso回歸的求解路徑,橫坐標(biāo)為變換后的收縮因子|,其中 s∈[0,1],t為式(6)中回歸系數(shù)之和的限制值.顯然,嶺回歸沒(méi)有達(dá)到變量選擇的目的,Lasso回歸隨著收縮因子s的不斷增大,逐漸有預(yù)測(cè)變量系數(shù)變?yōu)?,故具有變量選擇的功能.
Lasso回歸與LS回歸相比雖然大大降低了預(yù)測(cè)方差,達(dá)到了系數(shù)收縮和變量選擇的目的,但是也有一定的局限性 I[9-12],譬如
1)在Lasso回歸求解路徑中,對(duì)于N×p的設(shè)計(jì)矩陣來(lái)說(shuō),最多只能選出 min(N,p)個(gè)變量[2].當(dāng)p>N的時(shí)候,最多只能選出N個(gè)預(yù)測(cè)變量.因此,對(duì)于p~N的情況,Lasso方法不能夠很好的選出真實(shí)的模型.
2)如果預(yù)測(cè)變量具有群組效應(yīng),則用Lasso回歸時(shí),只能選出其中的一個(gè)預(yù)測(cè)變量.
3)對(duì)于通常的N>p的情形,如果預(yù)測(cè)變量中存在很強(qiáng)的共線性,Lasso的預(yù)測(cè)表現(xiàn)受控于嶺回歸.
基于以上幾點(diǎn)Lasso回歸的局限性,Zou和Hastie在2005年提出了彈性網(wǎng)回歸方法,回歸系數(shù)表達(dá)式為
下面將分別采用嶺回歸、Lasso回歸和彈性網(wǎng)回歸三種方法對(duì)中國(guó)統(tǒng)計(jì)年鑒中從2001年到2010年近10年來(lái)中國(guó)的居民價(jià)格消費(fèi)指數(shù)(CPI指數(shù))[10]和46種行業(yè)物價(jià)指數(shù)進(jìn)行分析,并通過(guò)建立模型,來(lái)研究各種物價(jià)指數(shù)對(duì)居民價(jià)格消費(fèi)指數(shù)的影響.變量?jī)?nèi)容詳見(jiàn)參考文獻(xiàn)[13].所有的計(jì)算均采用R和Matlab軟件計(jì)算.
首先,給出嶺回歸、Lasso回歸和彈性網(wǎng)回歸3種方法的求解路徑,如圖2所示.
由圖2知,嶺回歸的預(yù)測(cè)變量回歸系數(shù)隨著罰系數(shù)λ的增大逐漸減小,且所有回歸系數(shù)均不為0,甚至許多預(yù)測(cè)變量系數(shù)為負(fù)數(shù),這不符合經(jīng)濟(jì)學(xué)規(guī)律;對(duì)于某一特定罰系數(shù)λ,Lasso回歸把某些預(yù)測(cè)變量回歸系數(shù)收縮為0,從而達(dá)到了變量選擇的目的.因此Lasso回歸比嶺回歸更優(yōu)越.
其次,給出λ取不同值時(shí),預(yù)測(cè)變量的回歸系數(shù)如表1、2所示(因?yàn)閹X回歸的回歸系數(shù)都不等于零,所以略去預(yù)測(cè)變量的回歸系數(shù)表示,從圖2中可大致看出估計(jì)結(jié)果).
圖2 三種回歸方法的求解路徑圖
表1 罰系數(shù)不斷增大時(shí)Lasso方法的回歸系數(shù),其他變量系數(shù)為0
表2 罰系數(shù)不斷增大時(shí)Elastic net方法預(yù)測(cè)變量回歸系數(shù)
罰值行業(yè) 煙草 酒 衣著材料 鞋襪帽 衣著加工服務(wù)費(fèi) 床上用品 家庭日用雜品0.05 0.380 445 0.035 408 0.063 03 -0.027 73 0.033 033 437 -0.012 66 0.083 926 419 1 0.277 951 0.033 073 0.072 323 -0.031 58 0.038 181 244 -0.023 05 0.054 202 845 2 0.247 318 0.029 706 0.060 728 -0.032 72 0.036 373 75 -0.031 88 0.042 130 396 3 0.223 49 0.027 145 0.050 822 -0.032 94 0.034 065 691 -0.035 29 0.033 060 926 4 0.202 251 0.024 756 0.042 033 -0.031 82 0.031 483 967 -0.034 96 0.025 631 649 5 0.183 43 0.022 461 0.034 037 -0.029 87 0.029 876 903 -0.032 57 0.019 239 875 6 0.166 594 0.02 031 0.026 738 -0.027 53 0.026 131 43 -0.029 08 0.013 559 273 7 0.150 744 0.018 232 0.019 928 -0.024 87 0.023 496 748 -0.024 82 0.008 410 18 8 0.135 638 0.016 222 0.013 536 -0.021 9 0.020 872 292 -0.019 77 0.003 671 798罰值行業(yè) 城市間交通費(fèi) 通信服務(wù) 建房及裝修材料 租房 自有住房 水電燃料0.05 0.024 573 509 -0.380 71 0.046 295 685 0.011624 0.063 642 0.014 66 1 0.028 794 056 -0.166 42 0.037 564 709 0.019 916 0.024 478 0.014 22 2 0.027 392 28 -0.138 17 0.033 160 038 0.019 733 0.005 623 0.013 09 3 0.025 124 917 -0.126 09 0.023 859 125 0.018 848 0 0.011 873 4 0.022 908 276 -0.115 92 0.026 456 018 0.017 722 0 0.010 716 5 0.020 902 54 -0.103 84 0.023 859 125 0.016 481 0 0.009 671 6 0.018 991 367 -0.090 01 0.021 531 139 0.015 187 0 0.008 699 7 0.017 206 347 -0.075 73 0.019 411 45 0.013 875 0 0.007 771 8 0.015 461 082 -0.060 76 0.017 447 73 0.012 559 00.006 878
從表2中可以看出,彈性網(wǎng)選出的變量個(gè)數(shù)介于Lasso回歸和嶺回歸之間,既達(dá)到了很好的變量選擇效果,又保留了原有數(shù)據(jù)的群組效應(yīng).即某些相關(guān)性很強(qiáng)且很有價(jià)值的變量(如糧食、肉禽、水產(chǎn)品、蛋類等)的系數(shù)均不為0,而某些相關(guān)性很強(qiáng)但不是很有價(jià)值的變量(化妝美容用品、清潔化妝用品以及保健器具及用品、醫(yī)療保健服務(wù)等)的系數(shù)均為0.Lasso回歸至多選出7個(gè)預(yù)測(cè)變量,小于樣本量個(gè)數(shù),而彈性網(wǎng)回歸選出了更多的變量,不僅具有群組性,而且保證了模型的真實(shí)性.
最后,彈性網(wǎng)回歸對(duì)于不同的取值所表現(xiàn)出的不同性質(zhì),見(jiàn)圖3.
圖3 L 1罰和L2罰不同比例Elastic Net路徑圖
從圖3可以看出α的取值影響彈性網(wǎng)回歸的求解路徑,當(dāng)α的取值偏小時(shí),彈性網(wǎng)回歸表現(xiàn)出類似嶺回歸的性質(zhì),當(dāng)α的取值偏大時(shí),表現(xiàn)出類似Lasso回歸的性質(zhì).
嶺回歸結(jié)果表明,2001~2010年國(guó)內(nèi)影響CPI指數(shù)的主要行業(yè)物價(jià)指數(shù)有食用類(糧食、肉脂、肉禽及其制品、蛋、水產(chǎn)品)和住房類(建房及裝修材料、租房、自有住房、水電燃料),其他行業(yè)物價(jià)指數(shù)均有影響,但所占比重不大.嶺回歸雖然一定程度上刻畫(huà)了國(guó)內(nèi)近十年來(lái)的真實(shí)情況,即居民消費(fèi)主要集中在吃住,但并沒(méi)有刪除其他影響不大的行業(yè)價(jià)格指數(shù),回歸結(jié)果失真;根據(jù)表1,Lasso回歸結(jié)果表明,影響居民消費(fèi)價(jià)格指數(shù)的主要物價(jià)指數(shù)是建房及裝修材料、肉禽及其制品、水產(chǎn)品,其中建房及裝修材料最為突出.這反映了影響CPI指數(shù)的主要行業(yè)物價(jià)指數(shù),符合實(shí)際情況,但是去掉了大部分其他的行業(yè)物價(jià)指數(shù),使模型過(guò)于簡(jiǎn)潔,顯然不符合實(shí)際情況.根據(jù)表2,彈性網(wǎng)回歸結(jié)果表明,該方法一方面達(dá)到了嶺回歸對(duì)重要種類(衣、食、住、行、用)中幾種具有代表性的行業(yè)價(jià)格指數(shù)選擇的目的,另一方面又像Lasso回歸一樣,刪除了其他影響很小的行業(yè)物價(jià)指數(shù),取得了最好的效果.由此可知,衣食住行用這幾大產(chǎn)業(yè),支撐著中國(guó)國(guó)民經(jīng)濟(jì),與人們的生活息息相關(guān),在各行各業(yè)當(dāng)中占有重要地位.
[1]TIBSHIRANIR.Regression shrinkage and selection via the lasso[J].Journal of the Royal Statistical Society,Series B,1996,58(1):267-288.
[2]FAN J,LIR Z.Variable selection via penalized likelihood[J].Journal of American Statistical Association,2001,96(4):1348-1360.
[3]SAUNDERS M.Sparsity and smoothness via the fused lasso[J].Journal of the Royal Statistical Society,Series B,2005,67(l):91-108.
[4]HUANG J,MA S,ZHANGCH.Adaptive Lasso for sparse high-dimensional regression models[R].Iowa:University of Iowa Department of Statistics and Actuarial Science,2006,Technical Report No.374.
[5]YUAN M,LIN Y.Model selection and estimation in regression with Grouped variables[J].Journal of the Royal Statistical Society,Series B,2006,68(l):49-67.
[6]MEINSHAUSEN N.Relaxed Lasso[J].Computational Statistics and Data Analysis,2007,52(1):374 -393.
[7]ZOU H,HASTIE T.Regularization and variable selection viathe elastic net[J].Journal of the Royal Statistical Society,2005,Series B,67(l):301- 320.
[8]HASTIE T,TIBSHIRANI R,F(xiàn)RIEDMAN J.The Elements of Statistical Learning:Data Mining,Inference and Prediction[M].NEW YORK:Springer,2008.
[9]HESTERBERG T,NAM H C,LUKAS M,etal.Least angle and penalized regression:A review [J].Statistics Surveys,2008,2(2008):61–93.
[10]ZOU H.Adaptive Lasso and its Oracle Properties[J].Journal of American Statistical Association,2006,101(3):1418 -1429.
[11]熊 英.基于Lasso的人臉識(shí)別算法[D].北京:清華大學(xué),2010.
[12]龔建朝.Lasso及其相關(guān)方法在廣義線性模型選擇中的應(yīng)用[D].長(zhǎng)沙:中南大學(xué),2008.
[13]中華人民共和國(guó)國(guó)家統(tǒng)計(jì)局.中國(guó)統(tǒng)計(jì)年鑒-2011[M].北京:中國(guó)統(tǒng)計(jì)出版社,2011.