□文/鄭婉迪
(安徽建筑大學(xué)數(shù)理學(xué)院 安徽·合肥)
[提要]在全球經(jīng)濟(jì)快速發(fā)展進(jìn)程中,我國作為東方大國為全球經(jīng)濟(jì)增長貢獻(xiàn)巨大的力量,努力發(fā)展自身的同時(shí)也帶動(dòng)著周邊國家的經(jīng)濟(jì)增長。經(jīng)濟(jì)活躍的直接體現(xiàn)是人均生產(chǎn)總值的不斷增加,探究我國人均生產(chǎn)總值的主要影響因素對穩(wěn)步提高居民生產(chǎn)消費(fèi)水平具有重要意義。本文選取我國2020年31個(gè)省市地區(qū)人均生產(chǎn)總值進(jìn)行建模預(yù)測。先對數(shù)據(jù)進(jìn)行預(yù)處理,參考?xì)v史相關(guān)文獻(xiàn)篩選出8個(gè)指標(biāo)建立多元線性模型,得出粗略的預(yù)測結(jié)果。為改進(jìn)預(yù)測效果,再使用Lasso變量選擇方法篩選出主要影響變量,根據(jù)變量間線性相關(guān)顯著性挑選出線性和非線性影響因素,繼而建立半?yún)?shù)部分線性可加模型進(jìn)行預(yù)測,該模型提高預(yù)測精度與穩(wěn)健性,使回歸結(jié)果在很大程度上得到優(yōu)化。
從經(jīng)濟(jì)角度看,一個(gè)國家GDP的波動(dòng)直接反映了該國家的經(jīng)濟(jì)發(fā)展?fàn)顩r變化。GDP大幅增長,說明該國經(jīng)濟(jì)發(fā)展蓬勃、國民收入增加,消費(fèi)能力自然也隨之增強(qiáng);若GDP下降,則代表經(jīng)濟(jì)發(fā)展受損,應(yīng)引起相關(guān)人員的高度關(guān)注以便及時(shí)調(diào)控。2020年爆發(fā)的新冠肺炎疫情,各國感染病例爆發(fā)式增長。為了人民的健康,黨中央及時(shí)部署,采取大范圍封閉管理政策,疫情得到控制的間接影響就是經(jīng)濟(jì)活力下降,人均收入和支出下滑。此時(shí),研究GDP問題更有助于了解人民的收入、國家的收入和經(jīng)濟(jì)的健康發(fā)展情況,同時(shí)有助于維持社會(huì)的穩(wěn)定等。針對這一話題的研究國內(nèi)學(xué)者們多數(shù)集中在定性分析或使用傳統(tǒng)的統(tǒng)計(jì)回歸模型進(jìn)行定量分析。王小魯?shù)热藦恼咧贫确矫娣治隽巳司a(chǎn)總值的影響因素和調(diào)控措施。曹海波使用因子分析的方法對影響經(jīng)濟(jì)增長的因素進(jìn)行研究。傳統(tǒng)的統(tǒng)計(jì)模型需要提前設(shè)定回歸模型的形式,對數(shù)據(jù)的限制較大。影響GDP的因素多且復(fù)雜,采用OLS方法建立傳統(tǒng)的回歸模型必然導(dǎo)致多重共線性的出現(xiàn),因此本文采用Lasso方法篩選主要的影響變量,針對此問題建立半?yún)?shù)部分可加模型。Lasso方法是當(dāng)下比較流行的數(shù)據(jù)降維方法,雖然相比于最小二乘估計(jì)(OLS)方法對參數(shù)的估計(jì)是有偏的,但能夠在保證數(shù)據(jù)相關(guān)性的同時(shí)精簡變量,對處理高維數(shù)據(jù)十分有效。半?yún)?shù)部分線性可加模型是一種參數(shù)和非參數(shù)的組合模型,集兩種模型的優(yōu)點(diǎn)于一身,現(xiàn)已具有非常廣泛的應(yīng)用范圍。
變量間的非函數(shù)關(guān)系我們常稱為相關(guān)關(guān)系,若它們之間存在因果關(guān)系,則可以進(jìn)行回歸分析。在具有因果關(guān)系的變量間建立模型進(jìn)行預(yù)測也即多元回歸。變量之間的線性關(guān)系在數(shù)學(xué)上是指二者存在一次函數(shù)的關(guān)系。一般的多元線性回歸模型如下:
其中,Y為因變量,X1,X2,…,Xp為自變量,(Yi;Xi1,…,Xip)(i=1,2,…,n)是Y與X1,X2,…,Xp的n組觀測數(shù)據(jù),β0,β1,…,βp為未知的常值參數(shù),εi為不可觀測的隨機(jī)誤差項(xiàng),滿足E(εi)=0,Var(εi)=σ2>0,cov(εi,εj)=0,i≠j。這種模型在以往的定量分析中是最基礎(chǔ)的模型,也是采用最多的模型。接下來本文就建立該模型作為對比的基礎(chǔ)。
(一)模型構(gòu)建。考慮到數(shù)據(jù)的可得性和完整性,本文研究的樣本空間單元為全國31個(gè)省市地區(qū),數(shù)據(jù)來源于2021年《中國統(tǒng)計(jì)年鑒》。由于影響人均GDP的變量較多,為了盡可能地包含這些因素,參考國內(nèi)現(xiàn)有的文獻(xiàn)并結(jié)合目前的經(jīng)濟(jì)市場,本文選取了就業(yè)率(%)、人均第一產(chǎn)業(yè)生產(chǎn)額(元)、人均第三產(chǎn)業(yè)生產(chǎn)額(元)、城鎮(zhèn)人口比重(%)、人均消費(fèi)支出(元)、工業(yè)化程度(%)、人均進(jìn)出口總額(元/人)和人均電力消費(fèi)量(千瓦/時(shí))為自變量,按序記為x1,x2,…,x8,人均生產(chǎn)總值(元)為因變量,建立如下多元線性回歸模型并進(jìn)行預(yù)測:
利用R語言中OLS對上式進(jìn)行求解,擬合結(jié)果顯示,雖然模型的R2a高達(dá)0.9354,R2a為自由度調(diào)整的復(fù)決定系數(shù),但是多個(gè)變量的P值大于0.05,并不能通過檢驗(yàn)。這粗略地說明自變量與因變量之間可能不是線性關(guān)系,也有可能是各自變量之間存在高度的相關(guān)關(guān)系,這將導(dǎo)致模型的穩(wěn)定性非常低。
(二)模型預(yù)測。用上述模型對數(shù)據(jù)進(jìn)行預(yù)測,結(jié)果如表2中模型1對應(yīng)數(shù)值。根據(jù)表中數(shù)據(jù)分析,整個(gè)模型的預(yù)測精度較高,但是由于文中僅使用了一年數(shù)據(jù)進(jìn)行建模,模型的穩(wěn)定性并不能保證。結(jié)合多元線性的擬合結(jié)果,各自變量中僅有人均第三生產(chǎn)總額的p值比較顯著,可以達(dá)到建模要求,而模型中選擇的其他變量或多或少會(huì)對因變量產(chǎn)生影響,卻不能通過檢驗(yàn),而且對于經(jīng)濟(jì)問題的多重共線性也不能很好地解決。因此,直接用OLS方法估計(jì)的結(jié)果是不可靠的。
表2 模型預(yù)測結(jié)果對比一覽表
選擇與研究對象相適應(yīng)的統(tǒng)計(jì)模型是建立模型的第一步。當(dāng)下常見的統(tǒng)計(jì)模型主要包括參數(shù)、非參數(shù)和半?yún)?shù)這三大類。參數(shù)模型具有結(jié)構(gòu)簡單便于理解、估計(jì)結(jié)果容易解釋等優(yōu)點(diǎn),但同時(shí)也存在許多缺點(diǎn),比如模型設(shè)定嚴(yán)格且不靈活。非參數(shù)模型僅含未知函數(shù),具有靈活性強(qiáng)的優(yōu)點(diǎn)。但非參數(shù)模型也有著致命的不足:一是容易出現(xiàn)高維災(zāi)難的現(xiàn)象,即當(dāng)解釋變量X維度過高時(shí),為使得估計(jì)精度在相對準(zhǔn)確的范圍內(nèi),在數(shù)據(jù)收集和計(jì)算時(shí),所需數(shù)據(jù)量都不切實(shí)際地大;二是不能用于預(yù)測;三是當(dāng)X的維數(shù)大于2時(shí),估計(jì)的結(jié)果無法很好解釋。第三種模型是依據(jù)前兩種模型的優(yōu)點(diǎn)組合出的模型,是含有已知的函數(shù)部分和未知參數(shù)形式的模型。此模型通過未知函數(shù)來減少模型預(yù)測偏差,加大適應(yīng)性,通過未知參數(shù)來降低維度。部分線性、部分線性變系數(shù)、部分函數(shù)線性、部分函數(shù)部分線性以及部分線性可加性等五種模型均是比較常見的半?yún)?shù)回歸模型。在這些模型中比較有代表性的是部分線性可加模型,它在減少模型偏差的同時(shí),還能有效避免“維數(shù)禍根”。本文所采用的正是這種模型。一般的部分線性可加模型,模型形式如下:
其中,Y是因變量,X=(U,T)是d維解釋變量。滿足E(ε|U,T)=0,Var(Y|U,T)=Var(ε|U,T)=σ2(U,T)。
(一)Lasso變量篩選。進(jìn)行統(tǒng)計(jì)建模的第一步便是選擇合適的自變量,這一步做好了,建立的模型才能準(zhǔn)確反映自變量與因變量之間的關(guān)系。尤其是在經(jīng)濟(jì)問題中自變量個(gè)數(shù)很多時(shí),彼此之間很容易存在多重共線性,不對變量進(jìn)行篩選,回歸系數(shù)的估計(jì)值就會(huì)產(chǎn)生較大偏差,直接影響就是預(yù)測不夠準(zhǔn)確。此外,變量選擇還可以剔除掉與因變量關(guān)系不大的變量,減少自變量的個(gè)數(shù)即降低模型的維度,達(dá)到精簡模型的目的。本文采用Lasso這種基于懲罰函數(shù)的方法對人均GDP影響因素的變量進(jìn)行篩選。Lasso變量篩選理論于1996年被Robert Tibshirani提出。但由于技術(shù)限制,在2005年才被接受應(yīng)用。它和嶺回歸類似,都是通過構(gòu)造一個(gè)懲罰函數(shù)來壓縮一些回歸系數(shù),是將L2范數(shù)改為L1范數(shù)。雖然這種方法是有偏估計(jì),但在處理具有共線性的數(shù)據(jù)時(shí)優(yōu)點(diǎn)頗多。
設(shè)樣本是(xij;yi),i=1,2,…,N,j=1,2,…,p,其中xij(xi1,…,xip)T是解釋變量,yi是被解釋變量。
相對于普通最小二乘估計(jì)(OLS),Lasso回歸不僅簡化了模型的變量,還降低了估計(jì)的方差。當(dāng)樣本量不足而變量卻是高維時(shí),采用最小二乘法就不合適。而Lasso對于參數(shù)的估計(jì)具有連續(xù)性,因此有必要采用Lasso做變量篩選,它可以篩選出對被解釋變量影響較大的變量從而降低維度。本文采用LARS算法和CV選擇參數(shù),用R語言中的lar函數(shù)進(jìn)行篩選,得到Lasso篩選結(jié)果。Lasso從所有變量中篩選出x3(人均第三產(chǎn)業(yè)生產(chǎn)額)、x5(人均消費(fèi)支出)、x7(人均進(jìn)出口總額)三個(gè)變量,其他的變量則被壓縮至0。這就說明人均第三產(chǎn)業(yè)生產(chǎn)額、人均消費(fèi)支出和人均進(jìn)出口總額主要影響著人均生產(chǎn)總值的變化。變量篩選完畢,接下來建立部分線性可加模型。
(二)模型構(gòu)建。在均方誤差最小時(shí),Lasso篩選出人均第三產(chǎn)業(yè)生產(chǎn)額、人均消費(fèi)支出、人均進(jìn)出口總額三個(gè)變量,基于上文建立線性模型時(shí),人均第三產(chǎn)業(yè)生產(chǎn)額是唯一顯著的線性變量,所以把這一變量作為部分線性可加模型中的線性部分,而人均消費(fèi)支出和人均進(jìn)出口總額則作為模型中的非線性部分,最終建立如下部分線性可加模型:
用R語言對上式進(jìn)行求解,參數(shù)擬合結(jié)果如表1所示。(表1)
由表1可以看出,人均第三產(chǎn)業(yè)生產(chǎn)額的回歸系數(shù)β1=1.861,經(jīng)濟(jì)解釋就是人均第三產(chǎn)業(yè)生產(chǎn)額每增加一個(gè)單位,人均國內(nèi)生產(chǎn)總值平均增加1.861個(gè)單位,且人均第三產(chǎn)業(yè)生產(chǎn)額的系數(shù)p-值遠(yuǎn)小于0.05,說明人均第三產(chǎn)業(yè)生產(chǎn)額通過了檢驗(yàn),是非常顯著的。非線性部分的擬合不易解釋,但從擬合過程可以大略地看出,人均消費(fèi)支出在10,000~20,000元之間時(shí),對人均生產(chǎn)總值的影響基本是不變的,這也比較符合我國當(dāng)前的消費(fèi)水平;當(dāng)人均消費(fèi)支出繼續(xù)增加時(shí),對人均生產(chǎn)總值的影響開始變小。而人均進(jìn)出口總額的增加則會(huì)導(dǎo)致其對人均生產(chǎn)總值的影響變大,這也間接反映出閉關(guān)鎖國只會(huì)落后的歷史經(jīng)驗(yàn),即使在疫情之下,我們也要盡量保持在安全的情況下刺激進(jìn)出口交易。綜上,可以將半?yún)?shù)回歸模型確立為:
表1 部分線性可加模型線性參數(shù)估計(jì)及模型擬合效果一覽表
下面通過計(jì)算模型的擬合優(yōu)度來判斷該模型擬合的好壞。通過計(jì)算可得模型的擬合優(yōu)度R2=0.9996,R2a也達(dá)到了0.9975??梢钥闯觯糠志€性可加模型較上文多元線性模型的擬合效果有很大提升,而且所涉及的變量只包含人均第三產(chǎn)業(yè)生產(chǎn)額、人均消費(fèi)支出、人均進(jìn)出口總額三個(gè)變量,整體也更加精簡,這將會(huì)為我們的預(yù)測省下很多不必要數(shù)據(jù)收集的時(shí)間。
(一)模型預(yù)測結(jié)果。將真實(shí)數(shù)據(jù)代入預(yù)測模型,經(jīng)計(jì)算,預(yù)測結(jié)果如表2模型2中對應(yīng)數(shù)值。(表2)
和多元線性回歸模型的預(yù)測結(jié)果進(jìn)行對比發(fā)現(xiàn),用部分線性可加模型建立的預(yù)測更加貼合實(shí)際數(shù)據(jù),而且模型涉及的變量更少。
(二)討論分析。由表2可以非常直觀地看出,多元線性回歸模型在云南、西藏、甘肅、四川等藏區(qū)的估計(jì)偏差過大。改革開放后,藏區(qū)人民的生活已經(jīng)發(fā)生了翻天覆地的變化,網(wǎng)絡(luò)和物流的發(fā)展讓當(dāng)?shù)厝嗣竦霓r(nóng)產(chǎn)品和特色食品傳入全國甚至全球,旅游業(yè)更是在很大程度上對當(dāng)?shù)氐慕?jīng)濟(jì)進(jìn)行刺激,人均進(jìn)出口總額和人均第三產(chǎn)業(yè)總額對這些地區(qū)的影響更大,因此這些變量對人均生產(chǎn)總值的影響程度并不是固定的。相對來說,半?yún)?shù)部分線性可加模型在這些地區(qū)的估計(jì)值更貼合實(shí)際。半?yún)?shù)部分線性可加模型型對人均GDP的擬合值很明顯比多元線性模更加貼近真實(shí)值,說明半?yún)?shù)部分線性可加模型對人均GDP擬合的效果更好,而且涉及的變量也比多元線性回歸模型少得多,解釋起來更加具有針對性和合理性,涉及變量少,投入此項(xiàng)工作的時(shí)間精力消耗都會(huì)大大減少。如果政府相關(guān)部門想要對當(dāng)下的經(jīng)濟(jì)進(jìn)行調(diào)控,可以主要從第三產(chǎn)業(yè)和進(jìn)出口方面著手。當(dāng)下人民生活水平日漸提高,第三產(chǎn)業(yè)已經(jīng)占據(jù)產(chǎn)業(yè)結(jié)構(gòu)中的主導(dǎo)地位。同時(shí),加強(qiáng)進(jìn)出口消費(fèi),倡導(dǎo)全球經(jīng)濟(jì)一體化已經(jīng)多年,我們也享受到全球化的紅利,接下來更要踐行這一偉大倡議,迎合全球發(fā)展趨勢,帶動(dòng)自身的發(fā)展。