鄭俊卿
(山東科技大學(xué)數(shù)學(xué)與系統(tǒng)科學(xué)學(xué)院統(tǒng)計系 山東 青島 266590)
基于Lasso方法的山東經(jīng)濟(jì)增長影響因素實證研究
鄭俊卿
(山東科技大學(xué)數(shù)學(xué)與系統(tǒng)科學(xué)學(xué)院統(tǒng)計系 山東 青島 266590)
通過從國際、國內(nèi)宏觀經(jīng)濟(jì)環(huán)境和山東省局部環(huán)境中共計選取12個主要影響因素作為自變量,并利用Lasso變量選取方法對影響山東省經(jīng)濟(jì)增長的這些主要影響因素進(jìn)行了實證分析,結(jié)果發(fā)現(xiàn)Lasso變量選取方法在對經(jīng)濟(jì)領(lǐng)域的研究有極大的積極作用,并通過實證分析影響山東省現(xiàn)階段經(jīng)濟(jì)發(fā)展的各個因素。
Lasso方法;變量選擇;經(jīng)濟(jì)增長;影響因素
在構(gòu)建模型進(jìn)行統(tǒng)計分析時,變量選擇是我們不容忽視的問題。變量選擇不當(dāng)會使得模型出現(xiàn)多重共線性、過擬合等問題。早期的變量選擇方法一般是采用逐步回歸法同AIC、BIC準(zhǔn)則結(jié)合,這種方法雖然具有一定的實用性,但也有很多不足,并且在模型選擇時也會不穩(wěn)定。此后Tibshirani(1996)提出了Lasso方法,Lasso方法會在模型進(jìn)行參數(shù)估計的同時實現(xiàn)變量選擇。在此之后,在進(jìn)一步的研究中,大量學(xué)者對Lasso變量選取方法的算法及理論進(jìn)行了研究。
對于Lasso變量選取方法,正是在模型中添加懲罰項來實現(xiàn)變量的壓縮,系數(shù)估計較小的剔除,由此可以較好地解決模型的多重共線性問題以及過擬合問題等,這使得Lasso變量選取方法的應(yīng)用領(lǐng)域十分廣泛。
對于一般的線性回歸模型:
Y=α+Xβ+ε
其中,Y=(y1,y2,…yn)T,X=(x1,x2,…,xp),xi=(x1i,x2i,…,xni),i=1,2,…,p,α為常數(shù)項,β=(β1,β2,…,βp)T,n為觀測數(shù)目。ε=(ε1,ε2,…,εn)T為誤差項,且滿足E(ε)=0,Var(ε)=σ2I。
(1)
上式也可以用懲罰性的形式給出:
(2)
其中,調(diào)和參數(shù)λ≥0。顯然,當(dāng)λ越大時,模型中懲罰項所占的比重就越大,這意味著變量壓縮的越多;反之,λ越小,模型的懲罰項所占比重越小,模型的擬合越好。
本文采用lasso方法對影響山東省經(jīng)濟(jì)發(fā)展的主要因素進(jìn)行分析,并應(yīng)用R語言編程求解Lasso。
(一)變量選取及數(shù)據(jù)來源
本文從國內(nèi)環(huán)境影響、山東省區(qū)域影響及國際環(huán)境影響因素三個方面選取主要影響變量。國內(nèi)環(huán)境將由人均GDP、年平均利率來衡量;山東省區(qū)域影響因素主要由山東省人均地區(qū)生產(chǎn)總值、山東省地方財政支出、山東省消費(fèi)品零售總額、山東省老年撫養(yǎng)比、山東省重要科技成果數(shù)量、山東省第三產(chǎn)業(yè)生產(chǎn)總值、山東省能源生產(chǎn)總量、山東省城鎮(zhèn)居民可支配收入來衡量;國際環(huán)境影響因素主要由山東省進(jìn)出口總額及美元兌人民幣匯率兩方面來衡量。
本文中所需數(shù)據(jù)均來自于國家統(tǒng)計年鑒及山東省統(tǒng)計年鑒。
(二)數(shù)據(jù)預(yù)處理
為消除數(shù)據(jù)量綱對模型的影響,在利用lasso方法前,本文先對數(shù)據(jù)及逆行標(biāo)準(zhǔn)化處理以消除量綱等帶來的負(fù)面影響,即:
(三)lasso變量選擇
本文利用RStudio軟件進(jìn)行Lasso變量選取,其中常用的軟件包主要包括msgps、glmnet及l(fā)ars等,在本文中利用msgps軟件包對影響因素進(jìn)行變量選擇,根據(jù)此算法得到的部分結(jié)果如下表:
表1 山東省經(jīng)濟(jì)增長影響因素的Lasso參數(shù)估計部分結(jié)果
通過表1我們可以發(fā)現(xiàn):
1.利用Lasso變量選取的方法可以有效的發(fā)現(xiàn)對模型因變量具有強(qiáng)影響力的因素,Lasso方法可以將對山東省經(jīng)濟(jì)增長作用不大的影響因素的系數(shù)壓縮為0,并且同時還可以消除選取變量間的多重共線性、過擬合性等問題,因此,Lasso方法在經(jīng)濟(jì)方面的應(yīng)用具有十分積極的作用。
2.人均GDP、山東省消費(fèi)品零售總額、第三產(chǎn)業(yè)生產(chǎn)總值和能源生產(chǎn)總量對山東省經(jīng)濟(jì)增長具有一定的積極作用,說明國內(nèi)宏觀經(jīng)濟(jì)環(huán)境和山東省局部環(huán)境因素對山東省經(jīng)濟(jì)增長的影響是有利的。
3.相比于國內(nèi)宏觀經(jīng)濟(jì)環(huán)境和山東省局部環(huán)境因素對山東省經(jīng)濟(jì)增長的影響,國際環(huán)境對山東省經(jīng)濟(jì)增長的影響略弱,因此,有必要加強(qiáng)同國際經(jīng)濟(jì)環(huán)境的交流。
本文對Lasso變量選取方法進(jìn)行了介紹,并將此方法應(yīng)用到山東省經(jīng)濟(jì)增長的影響因素分析中,結(jié)果表明:Lasso方法對經(jīng)濟(jì)領(lǐng)域的研究具有很好的促進(jìn)作用,其可以有效的處理各個影響因素之間的多重共線性問題,并能對影響作用較弱的變量將其系數(shù)進(jìn)行壓縮為0;目前山東省經(jīng)濟(jì)增長同國內(nèi)宏觀經(jīng)濟(jì)環(huán)境和山東省局部環(huán)境因素的影響較大,其中消費(fèi)、能源等作用突出,科研等方面則需進(jìn)一步加強(qiáng),而國際環(huán)境對山東省經(jīng)濟(jì)增長的影響則偏弱。
[1]Tibshirani,R.Regression shrinkage and selection via Journal of the Royal Statistical Society Series B,the lasso.1996,58(1):267-288.
[2]閆麗娜,覃婷,王彤.LASSO方法在Cox回歸模型中的應(yīng)用[J].中國衛(wèi)生統(tǒng)計,2012,29(1):58-60.
[3]曹芳,朱永忠.基于多重共線性的Lasso方法[J].江南大學(xué)學(xué)報(自然科學(xué)版),2012,11(1).
[4]鐘金花,基于Lasso方法的上海經(jīng)濟(jì)增長影響因素實證研究[J].統(tǒng)計與決策,2013,373(1).
[5]徐慶娟,楊彬彬.基于R軟件的Lasso回歸在腫瘤信息基因選擇中的應(yīng)用[J].廣西師范學(xué)院學(xué)報(自然科學(xué)版),2016,33(12).
鄭俊卿,男,漢族,山東臨沂,碩士研究生,山東科技大學(xué),精算學(xué)與風(fēng)險管理。