張淑嫻
(安徽建筑大學(xué)數(shù)理學(xué)院, 合肥 230601)
隨著國(guó)民經(jīng)濟(jì)的持續(xù)快速發(fā)展,全國(guó)私人汽車的擁有量急劇攀升。汽車的廣泛普及便捷了人們的生活,但又在一定程度上對(duì)環(huán)境造成了危害。因此,研究全國(guó)私人汽車擁有量對(duì)于改善環(huán)境具有重要意義。
目前,一些學(xué)者對(duì)汽車擁有量的影響因素及預(yù)測(cè)進(jìn)行了研究。張琪[1]綜合考慮了私人汽車擁有量與經(jīng)濟(jì)、城市和交通這3種屬性之間的關(guān)系,分別建立了隨機(jī)效應(yīng)模型、固定效應(yīng)模型與混合回歸模型,通過(guò)分析發(fā)現(xiàn)城鎮(zhèn)居民家庭人均可支配收入為私人汽車擁有量的主導(dǎo)因素。周亞林等[2]首先借助機(jī)器學(xué)習(xí)中的極度梯度提升樹法識(shí)別得到了影響新疆私人汽車保有量的因素,然后比較了極端梯度提升樹(extreme gradient boosting,XGBoost)、隨機(jī)森林和神經(jīng)網(wǎng)絡(luò)這3種方法的預(yù)測(cè)結(jié)果,結(jié)果表明神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)效果最好。楊昆等[3]采用M-K(Mann-Kendall)檢驗(yàn)、Theil指數(shù)、線性傾向率和面板數(shù)據(jù)模型,從全國(guó)、8大經(jīng)濟(jì)區(qū)域、各省3個(gè)尺度研究了中國(guó)民用汽車擁有量的時(shí)空變化特征及其與地區(qū)生產(chǎn)總值、公路里程和居民消費(fèi)水平這3個(gè)影響因素的關(guān)系,結(jié)果表明在不同的時(shí)間階段和空間尺度,各因素對(duì)民用汽車擁有量的作用方向以及強(qiáng)度上表現(xiàn)出了差異。Kai等[4]在經(jīng)典指數(shù)曲線模型和修正指數(shù)曲線模型的基礎(chǔ)上,提出了一種具有一階多項(xiàng)式項(xiàng)的新型指數(shù)曲線模型,將這3種模型的預(yù)測(cè)結(jié)果進(jìn)行比較,結(jié)果顯示運(yùn)用新型指數(shù)曲線模型預(yù)測(cè)中國(guó)私家車擁有量具有更高的精度。郭艷莉[5]采用灰色-廣義回歸神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型分析私人汽車擁有量,預(yù)測(cè)結(jié)果表明該模型優(yōu)于回歸預(yù)測(cè)模型、灰色預(yù)測(cè)模型和反向傳播(back propagation,BP)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型。李炳炎等[6]利用多元線性回歸模型和向量自回歸(vector autoregression,VAR)模型預(yù)測(cè)江蘇省私人汽車擁有量,結(jié)果顯示年末總?cè)丝跀?shù)為私人汽車擁有量的主導(dǎo)因素。上述研究大多局限于單變量的時(shí)間序列分析。
本文選取2005—2020年全國(guó)私人汽車擁有量的相關(guān)數(shù)據(jù)進(jìn)行實(shí)證分析,分別構(gòu)建基于Lasso和灰色關(guān)聯(lián)分析方法下的差分自回歸移動(dòng)平均模型(autoregressive integrated moving average,ARIMA)模型與動(dòng)態(tài)回歸(ARIMAX)模型,分析影響私人汽車擁有量的關(guān)鍵因素,借此進(jìn)一步預(yù)測(cè)私人汽車擁有量的變化趨勢(shì),以期為汽車數(shù)量的有效控制提供依據(jù)。值得一提的是,在本文的研究中考慮了多因素影響的ARIMAX模型,其預(yù)測(cè)效果優(yōu)于ARIMA模型,能更好地反映各變量之間在時(shí)間上的動(dòng)態(tài)關(guān)系。
考慮一個(gè)具有標(biāo)準(zhǔn)化自變量和因變量的線性回歸Y=βX+ε,其中Y=(y1,y2,…,yn)Τ;X=(x1,x2,…,xp),xp=(x1i,x2i,…,xni)Τ,i=1,2,…,p,n為樣本的個(gè)數(shù);β=(β1,β2,…,βp)Τ,p為解釋變量的個(gè)數(shù);ε=(ε1,ε2,…,εn)Τ,ε為誤差向量且滿足E(ε)=0,Cov(ε)=σ2I,I為單位矩陣。
在線性模型的基礎(chǔ)上產(chǎn)生的Lasso篩選變量公式為
(1)
(2)
自回歸移動(dòng)平均(ARMA)模型[7]是通過(guò)自回歸模型與移動(dòng)平均模型相結(jié)合產(chǎn)生的,其定義為
(3)
式中:yt為當(dāng)前序列值;φ0為常數(shù)項(xiàng);p為AR(p)模型的偏自相關(guān)系數(shù)p階截尾;φi為自相關(guān)系數(shù);q為MA(q)模型的自相關(guān)系數(shù)q階截尾;θi為偏自相關(guān)系數(shù);εt為隨機(jī)干擾項(xiàng);yt-i為t-i時(shí)刻的序列值;εt-i為t-i時(shí)刻的殘差值;φp為p時(shí)刻的自相關(guān)系數(shù);θq為q時(shí)刻的偏自相關(guān)系數(shù);εs為s時(shí)刻的殘差;xs為s時(shí)刻(過(guò)去)的序列值;s為s時(shí)刻(過(guò)去時(shí)刻);t為t時(shí)刻(當(dāng)期)。
差分自回歸移動(dòng)平均(ARIMA)模型與ARMA模型的區(qū)別是ARIMA模型需要對(duì)時(shí)間序列進(jìn)行d階差分,從而得到平穩(wěn)的時(shí)間序列。
ARIMAX模型構(gòu)造之前必須滿足響應(yīng)序列{yt}和輸入變量序列{x1t,x2t,…,xkt}均為平穩(wěn)序列;若不是平穩(wěn)序列則需要采用差分或?qū)?shù)化的方法使其變平穩(wěn),隨后便能夠構(gòu)造響應(yīng)變量與輸入變量之間的模型。
ARIMAX模型構(gòu)造的基本思想[7]為:考慮響應(yīng)序列{yt}(即因變量序列)與輸入變量序列(即自變量序列){x1t,x2t,…,xkt}均平穩(wěn),構(gòu)建因變量序列與自變量序列的回歸模型為
(4)
式中:μ為模型常數(shù)項(xiàng)均值;B為移位算子;Φi(B)為第i個(gè)輸入變量的自回歸系數(shù)多項(xiàng)式;Θi(B)為第i個(gè)輸入變量的移動(dòng)平均系數(shù)多項(xiàng)式;li為第i個(gè)輸入變量的延遲階數(shù);{εt}為回歸殘差序列。
由于{yt},{x1t},{x2t},…,{xkt}均平穩(wěn),那么平穩(wěn)序列的線性組合仍然是平穩(wěn)的,也就是說(shuō)殘差序列{εt}是平穩(wěn)序列,{εt}的表達(dá)式為
(5)
接著借助ARMA模型繼續(xù)提取殘差序列{εt}中的相關(guān)信息,最終得到的模型稱為動(dòng)態(tài)回歸模型,簡(jiǎn)記為ARIMAX。該模型表達(dá)式為
(6)
式中:Φ(B)為殘差序列的自回歸系數(shù)多項(xiàng)式;Θ(B)為殘差序列的移動(dòng)平均系數(shù)多項(xiàng)式;at為零均值白噪聲序列。
選取國(guó)家統(tǒng)計(jì)局提供的數(shù)據(jù)進(jìn)行歸納整理,將全國(guó)私人汽車擁有量看作被解釋變量,居民消費(fèi)價(jià)格指數(shù)、公路里程等8個(gè)因素看作解釋變量進(jìn)行分析,見表1,并基于Lasso和灰色關(guān)聯(lián)分析方法篩選影響私人汽車擁有量的關(guān)鍵因素。
表1 影響私人汽車擁有量的變量選取及其含義
通過(guò)R語(yǔ)言中的glmnet函數(shù)對(duì)私人汽車擁有量和8個(gè)影響因素的數(shù)據(jù)構(gòu)建Lasso回歸模型。壓縮系數(shù)λ的取值不同,模型的系數(shù)變化不同,圖1中每一條曲線的變化代表每個(gè)變量的回歸系數(shù)隨λ變化的趨勢(shì)。
圖1 模型的回歸系數(shù)值隨著壓縮系數(shù)的變化趨勢(shì)
在圖1中,橫坐標(biāo)表示壓縮系數(shù)λ的對(duì)數(shù)值lgλ,縱坐標(biāo)表示模型的回歸系數(shù)值。圖形頂部的數(shù)字表示在對(duì)應(yīng)的λ下得到的非零系數(shù)的個(gè)數(shù)。結(jié)果顯示模型系數(shù)隨著壓縮系數(shù)λ值而變化,變化越來(lái)越平穩(wěn),最終模型系數(shù)趨近于一個(gè)相同的值。說(shuō)明只要找到相對(duì)合理的λ值,就能夠篩選出有效準(zhǔn)確的變量。因此運(yùn)用交叉驗(yàn)證方法選取最優(yōu)參數(shù)λ值,結(jié)果如圖2所示。
圖2 模型的壓縮系數(shù)與均方誤差MSE的變化
在圖2中,橫軸表示壓縮系數(shù)λ的對(duì)數(shù)值lgλ,縱軸表示模型均方誤差(MSE),結(jié)果顯示壓縮系數(shù)lgλ越小,均方誤差越穩(wěn)定,左側(cè)虛線表示在均方誤差最小時(shí)所對(duì)應(yīng)的模型包含了5個(gè)變量,右側(cè)虛線表示在一倍標(biāo)準(zhǔn)誤(SE)內(nèi)更簡(jiǎn)潔的模型,包含了3個(gè)變量。
最終,Lasso從所有變量中篩選出x3(城鎮(zhèn)居民人均可支配收入)、x5(公路營(yíng)運(yùn)汽車擁有量)、x8(就業(yè)人數(shù))3個(gè)變量,其他的變量則被壓縮至0。這就說(shuō)明城鎮(zhèn)居民人均可支配收入、公路營(yíng)運(yùn)汽車擁有量、就業(yè)人數(shù)主要影響著私人汽車擁有量的變化。
借助R軟件作參數(shù)估計(jì),由表2可知,得到變量x8的檢驗(yàn)P值為0.298,大于顯著性水平α=0.05,故沒(méi)有通過(guò)檢驗(yàn),所以在后續(xù)研究中剔除變量x8,只保留變量x3、x5。
表2 Lasso回歸模型參數(shù)估計(jì)
灰色關(guān)聯(lián)分析法可以用來(lái)衡量變量之間發(fā)展趨勢(shì)的相近或相異程度,故用此分析方法有利于篩選出影響私人汽車擁有量的因素。此外,灰色關(guān)聯(lián)度的大小代表著各個(gè)序列影響主序列的程度大小,有利于分析變量的動(dòng)態(tài)歷程。
(1)將私人汽車擁有量作為主序列X0={x0(1), … ,x0(k)},k=1,2,…,16,將居民消費(fèi)價(jià)格指數(shù)等8個(gè)因素作為影響序列Xi={xi(1),xi(2),…,xi(k)},i=1,2,…,8;k=16。
k=1,2,…,16;i=1,…,8
(7)
式中:ρ為分辨系數(shù),ρ∈(0,1),一般取0.5。
(4)計(jì)算全國(guó)私人汽車擁有量與各影響因素之間的灰色關(guān)聯(lián)度γoi。
(8)
根據(jù)計(jì)算步驟,借助MATLAB軟件編程求解,得到各相關(guān)因子與私人汽車擁有量的灰色關(guān)聯(lián)度,并從大到小排序,結(jié)果見表3。
表3 灰色關(guān)聯(lián)度排序
根據(jù)灰色關(guān)聯(lián)度排序結(jié)果可知,在0.5的分辨系數(shù)下,這8個(gè)因素對(duì)私人汽車擁有量的影響程度為:國(guó)內(nèi)生產(chǎn)總值>城鎮(zhèn)居民人均可支配收入>居民人均消費(fèi)價(jià)格指數(shù)>鋼材產(chǎn)量>公路里程>公路營(yíng)運(yùn)汽車擁有量>年末總?cè)丝跀?shù)>就業(yè)人員。
對(duì)比以上兩種方法,篩選出更加完善的影響汽車擁有量的關(guān)鍵因素,其中包括國(guó)內(nèi)生產(chǎn)總值、城鎮(zhèn)居民可支配收入和公路營(yíng)運(yùn)汽車擁有量。
借助Eviews軟件進(jìn)行ADF檢驗(yàn)(augmented Dickey-Fuller test)可知{yt}是非平穩(wěn)序列,但對(duì)數(shù)化后的序列能夠通過(guò)ADF檢驗(yàn),說(shuō)明{lnyt}是平穩(wěn)序列。考察對(duì)數(shù)化后序列的自相關(guān)圖與偏自相關(guān)圖的性質(zhì)并結(jié)合AIC(Akaike information criterion)準(zhǔn)則進(jìn)行定階,構(gòu)建模型ARIMA(1,0,2),該模型的AIC值為-26.45,表達(dá)式為
lnyt=8.757 5+0.987 2lnyt-1+εt+1.638 2εt-1+εt-2
(9)
下面利用LB(Ljung-Box)檢驗(yàn)對(duì)殘差序列進(jìn)行檢驗(yàn),當(dāng)顯著性水平α=0.05時(shí),由圖3的結(jié)果分析發(fā)現(xiàn),有95%以上的標(biāo)準(zhǔn)化殘差都是在區(qū)間[-2,2]以內(nèi)的,此外,ARIMA(1,0,2)模型的殘差的自相關(guān)函數(shù)在0階后迅速下降至上下兩條虛線之中,總體上Ljung-Box統(tǒng)計(jì)量的P值都大于顯著性水平,表明該模型已充分提取信息。參數(shù)檢驗(yàn)的結(jié)果亦顯示模型的參數(shù)具有統(tǒng)計(jì)學(xué)意義。因此,可以判定建立的ARIMA(1,0,2)模型是合理的。
圖3 ARIMA(1,0,2)模型殘差診斷檢驗(yàn)
可以利用該模型對(duì)原始時(shí)間序列作預(yù)測(cè),預(yù)測(cè)2021年、2022年的私人汽車擁有量數(shù)據(jù)。
由于序列{yt}、{x3t}、{x4t}、{x5t}均未通過(guò)ADF檢驗(yàn),所以它們是非平穩(wěn)序列,考慮將這4個(gè)序列對(duì)數(shù)化可以使它們變平穩(wěn),然后借助Eviews檢驗(yàn)對(duì)數(shù)化之后的序列是否平穩(wěn)。
將城鎮(zhèn)居民人均可支配收入、國(guó)內(nèi)生產(chǎn)總值和私人汽車擁有量這3個(gè)因素對(duì)數(shù)化后可表示為{lnx3t}、{lnx4t}、{lnyt}。采用Eviews中的ADF檢驗(yàn)可以得到檢驗(yàn)P值分別為0.014 5,0.021 8,0.045 7,它們均小于顯著性水平α=0.05。由此可知{lnx3t}、{lnx4t}、{lnyt}這3個(gè)序列具有穩(wěn)定性。然而{lnx5t}與{lnyt}非同階單整,所以剔除序列{lnx5t}。
由于涉及的自變量個(gè)數(shù)比較多,變量之間也可能會(huì)產(chǎn)生多重共線性,如果僅僅使用線性回歸來(lái)分析輸入變量與響應(yīng)變量之間的關(guān)系,就會(huì)影響到參數(shù)估計(jì)的精確度。因此,利用轉(zhuǎn)移函數(shù)的結(jié)構(gòu)形式來(lái)構(gòu)建模型能夠避免發(fā)生以上問(wèn)題。下面借助R軟件的forecast程序包中的arima函數(shù)來(lái)對(duì)輸入變量定階:得到{lnx3t}的擬合模型是AR(1),AIC值為-18.4;{lnx4t}的擬合模型是AR(1),AIC值為-12.07;對(duì)殘差序列進(jìn)行LB檢驗(yàn)的結(jié)果為P值均顯著大于顯著性水平α=0.05,這表明模型擬合效果好。
對(duì)城鎮(zhèn)居民人均可支配收入對(duì)數(shù)化后建立如下擬合模型:
lnx3t=9.981 5+0.989 2lnx3t-1+εt
(10)
對(duì)國(guó)內(nèi)生產(chǎn)總值對(duì)數(shù)化后建立如下擬合模型:
lnx4t=12.999 2+0.988 46lnx4t-1+εt
(11)
根據(jù)圖4繪制的{lnyt}與{lnx3t}、{lnx4t}的互相關(guān)圖可知,序列在滯后階數(shù)為0時(shí)相關(guān)系數(shù)最大,說(shuō)明延遲0階時(shí)最相關(guān),可以同期建模。
圖4 互相關(guān)圖
將上述關(guān)于城鎮(zhèn)居民人均可支配收入與國(guó)內(nèi)生產(chǎn)總值的兩個(gè)模型作為輸入變量模型運(yùn)用到ARIMAX模型中,借助R軟件中的TSA程序包里的arimax函數(shù)便于擬合ARIMAX模型。結(jié)果顯示擬合后模型的AIC值為-54.59,那么ARIMAX模型的擬合精度高于沒(méi)有考慮到影響因素的ARIMA模型。通過(guò)LB檢驗(yàn)得到的殘差序列的P值大于顯著性水平α=0.05。說(shuō)明模型信息已提取充分。此外,利用條件最小二乘法估計(jì)模型參數(shù),檢驗(yàn)結(jié)果顯示各參數(shù)亦均有統(tǒng)計(jì)學(xué)意義,即模型顯著有效。該模型表達(dá)式為
(12)
利用上述建立的ARIMAX模型對(duì)測(cè)試集(2021年、2022年)的全國(guó)私人汽車擁有量進(jìn)行預(yù)測(cè),并與ARIMA模型進(jìn)行對(duì)比分析,結(jié)果見表4。
表4 2021年、2022年全國(guó)私人汽車擁有量預(yù)測(cè)結(jié)果
表5 2021年、2022年不同方法的相對(duì)誤差
由表4可知,ARIMAX模型的預(yù)測(cè)值更接近于真實(shí)值。ARIMAX模型的AIC值為-54.59,ARIMA模型的AIC值為-26.45,通過(guò)相對(duì)誤差對(duì)預(yù)測(cè)效果進(jìn)行定量評(píng)估可知,ARIMAX模型的相對(duì)誤差更小,因此,ARIMAX模型的預(yù)測(cè)精度要高于ARIMA模型。
以2015—2020年全國(guó)的私人汽車擁有量數(shù)據(jù)為基礎(chǔ),利用Lasso回歸和灰色關(guān)聯(lián)分析方法綜合篩選了變量,結(jié)果表明公路營(yíng)運(yùn)汽車擁有量、城鎮(zhèn)居民人均可支配收入和國(guó)內(nèi)生產(chǎn)總值是影響全國(guó)私人汽車擁有量的3個(gè)關(guān)鍵因素;隨后將它們作為輸入變量引入到模型中,分別構(gòu)建了ARIMA模型與多因素影響的ARIMAX模型來(lái)對(duì)私人汽車擁有量進(jìn)行預(yù)測(cè)。借助R軟件對(duì)ARIMA模型進(jìn)行參數(shù)估計(jì)與殘差檢驗(yàn),結(jié)果顯示建立的ARIMA(1,0,2)模型是合理的。由于私人汽車擁有量與城鎮(zhèn)居民人均可支配收入、國(guó)內(nèi)生產(chǎn)總值均在滯后階數(shù)為0時(shí)相關(guān)系數(shù)最大,可以同期建立ARIMAX模型,利用LB檢驗(yàn)對(duì)模型的殘差序列檢驗(yàn)通過(guò),說(shuō)明建立的ARIMAX模型有效。
從實(shí)證分析結(jié)果來(lái)看,ARIMAX模型具有更小的AIC值,預(yù)測(cè)結(jié)果的相對(duì)誤差也更小,即ARIMAX模型的預(yù)測(cè)精度優(yōu)于ARIMA模型,更適用于私人汽車擁有量的預(yù)測(cè)。通過(guò)該模型對(duì)未來(lái)私人汽車擁有量進(jìn)行預(yù)測(cè),能夠?yàn)槠嚠a(chǎn)業(yè)的未來(lái)經(jīng)營(yíng)和發(fā)展提供依據(jù)。在未來(lái)的研究中,還可以進(jìn)一步考慮將基于定量分析與政策定性分析相結(jié)合,從而實(shí)現(xiàn)更科學(xué)的預(yù)測(cè)。