(中央民族大學(xué) 北京 100000)
首先以12個變量為自變量,財政收入為因變量做最小二乘回歸模型:
y=0.48x1+0.182x2+0.51x3+1.48x4+0.18x5-0.09x6+0.02x7+0.07x8-1.19x9-0.03x10+0.03x11-0.29x12
由回歸方程可知:年末勞動者,年末常住人口,職工工資總額和城鎮(zhèn)居民人均可支配收入的系數(shù)接近于0,說明這幾個因素對深圳財政收入影響微乎其微;而固定資產(chǎn)投資,第二產(chǎn)業(yè)產(chǎn)值和第三產(chǎn)業(yè)產(chǎn)值有著較大的系數(shù),特別是第三產(chǎn)業(yè)產(chǎn)值對財政收入影響極大,側(cè)面反映了深圳市金融,互聯(lián)網(wǎng)等第三產(chǎn)業(yè)的主導(dǎo)地位。
因為發(fā)現(xiàn)最小二乘相關(guān)矩陣的條件數(shù)大于1000存在著極大的復(fù)共線性,所以用逐步回歸方法降低復(fù)共線性。
最后篩選出x1,x2,x3,x4,x5,x9,x11,x12變量,其回歸系數(shù)分別為0.468,0.184,0.313,1.854,0.158,-1.286,0.033,-0.343。
其中第三產(chǎn)業(yè)產(chǎn)值對深圳財政收入有著較大的正相關(guān)性,而社會消費品零售總額對財政收入有較大的負相關(guān)性,說明第三產(chǎn)業(yè)對深圳財政收入的提高極為重要,而社會消費品零售總額通過會導(dǎo)致財政收入的減少,其極可能是因為居民資產(chǎn)向外流出,從而間接導(dǎo)致財政支出的減少。但是年末勞動人口,年末常住人口,職工工資總和城鎮(zhèn)居民人均可支配收入變量被剔除,其可能與深圳產(chǎn)業(yè)升級不需更多勞動力有關(guān)。而MSE(均方誤差)僅為0.0007041403。
再嘗試用嶺回歸法降低復(fù)共線性:
可得到x1到x12的12個系數(shù)分別為2.73e-1,4.47e-2,1.10e-1,1.80e-01,1.45e-1,-3.05e-2,3.27e-2,2.64e-1,7.74e-2,-6.35e-2,3.10e-2,5.86e-2,截距為5.92e-17。
發(fā)現(xiàn)其系數(shù)較大的有固定資產(chǎn)投資額,第二產(chǎn)業(yè)產(chǎn)值和第三產(chǎn)業(yè)產(chǎn)值,第三產(chǎn)業(yè)與第二產(chǎn)業(yè)產(chǎn)值比和職工工資總額,而其余的變量系數(shù)較小。固定資產(chǎn)投資額有著最大系數(shù),說明了其可能促進深圳市的經(jīng)濟發(fā)展的活躍度,也就可創(chuàng)造出許多稅收收入;與之同時,第二產(chǎn)業(yè)產(chǎn)值,第三產(chǎn)業(yè)產(chǎn)值和第三產(chǎn)業(yè)產(chǎn)值與第二產(chǎn)業(yè)產(chǎn)值比也與財政收入關(guān)系有正相關(guān)性。而MSE(均方誤差)為0.008661725。
綜上所述,可發(fā)現(xiàn)逐步回歸挑選出的變量或嶺回歸系數(shù)較大的變量主要有第三產(chǎn)業(yè)產(chǎn)值和社會消費品零售總額等。
梯度下降法可以降低回歸計算過程中的計算代價,所以可用在前面可得到通過逐步回歸篩選出來的x1,x2,x3,x4,x5,x9,x11,x12的八個變量進行梯度下降法線性回歸,終止條件設(shè)為1e-13,固定步長取為0.001,最大迭代數(shù)設(shè)為1000,梯度下降法的參數(shù)設(shè)為alpha=0.20,beta=0.85。
而x1,x2,x3,x4,x5,x9,x11,x12的系數(shù)分別為0.460,0.184,0.310,1.850,0.158,-1.281,0.033,-0.343。
由上述結(jié)果可看出,經(jīng)過454917次迭代,可得到這8個變量的回歸系數(shù),從回歸系數(shù)可以看出x4第三產(chǎn)業(yè)產(chǎn)值的系數(shù)依舊是正的最大的,且是正相關(guān)的關(guān)系;而對于x9社會消費品零售總額而言,其系數(shù)有極大的負相關(guān)性。這個結(jié)果與逐步回歸的結(jié)果是相似的,不同的是系數(shù)相對大小存在些許差異。MSE為0.0006941709,相對于逐步回歸法,梯度下降法的MSE有了降低。
用Adaptive-Lasso法解決最小二乘或者逐步回歸中局限于局部最優(yōu)解以及變量過多而導(dǎo)致的子集選擇極度多變問題。
對于Adaptive-Lasso參數(shù)估計公式可用LARS算法估計,對于每一個=1,LARS算法均會找到一個最優(yōu)的。用R語言可得到如下結(jié)果:
除去x3,x6,x7,x8,x10系數(shù)為0外,剩下的變量x1,x2,x4,x5,x9,x11,x12系數(shù)分別為0.42673,0.13523,1.9786,0.09778,-1.11198,0.02404,-0.2865。
從上可看出,第二產(chǎn)業(yè)產(chǎn)值,年末勞動人口,年末常住人口,職工工資總和城鎮(zhèn)居民人均可支配收入的因素的系數(shù)為0,說明其在Adaptive-Lasso模型中被剔除了。原因可能有如下幾點:對于第二產(chǎn)業(yè)產(chǎn)值被剔除,是因為第二產(chǎn)業(yè)產(chǎn)值,第三產(chǎn)業(yè)產(chǎn)值和第三產(chǎn)業(yè)產(chǎn)值與第二產(chǎn)業(yè)產(chǎn)值比存在一定的復(fù)共線性;對于年末常住人口被剔除,是因為深圳的人口流動性強,所以有大量外省務(wù)工人員補充,因而對市政財政收入影響也較?。粚τ谀昴﹦趧尤丝诒惶蕹?,是因為深圳在向轉(zhuǎn)型服務(wù)業(yè)轉(zhuǎn)型即金融業(yè)和互聯(lián)網(wǎng)業(yè),這類行業(yè)并不需要過多的勞動者,所以年末勞動人口數(shù)量對財政收入影響很?。粚τ诔擎?zhèn)居民人均可支配收入被剔除,是因為其與居民消費指數(shù)有明顯的復(fù)共線性。由此看來,Adaptive-Lasso方法在構(gòu)建模型是能夠剔除所存在的復(fù)共線性關(guān)系的變量,同時也體現(xiàn)了Adaptive-Lasso方法對多指標進行建模的優(yōu)勢,而MSE(均方誤差)僅為0.0009293436。
而可得到固定資產(chǎn)投資額,第一產(chǎn)業(yè),第三產(chǎn)業(yè)產(chǎn)值,第三產(chǎn)業(yè)與第二產(chǎn)業(yè)產(chǎn)值比,社會消費品零售總額,居民消費指數(shù)和平均每人每月消費性支出是對深圳市財政收入影響的關(guān)鍵因素。其中,第三產(chǎn)業(yè)產(chǎn)值依舊有最大的正回歸系數(shù),社會消費品零售總額依舊有最小的負回歸系數(shù)。
為了減少由于線性回歸模型過少的信息而帶來的危險,可做非參數(shù)Epanechnikov函數(shù)核回歸和Gaussian函數(shù)核回歸。
而Gussian核回歸和Epanechinikov核回歸的估計值是比較接近的。而除去后兩年外,其回歸估計值是與真實值是比較接近的,有著很好的擬合效果,但后兩年其估計值與真實值差異有些大??傮w看來這兩種核回歸的擬合效果不是特別好的,Gussian和Epanechinikov核估計的MSE為0.05182504和0.05861696。同時也可以發(fā)現(xiàn)Gussian核回歸和Epanechinikov核回歸的估計值均是逐漸增大的,在2006年到2013年,其增速較快;而2013年2015年增速較慢。
對上述幾種模型比較其MSE并且結(jié)合其他因素進行評估,可得到Adaptive-Lasso法是最佳的回歸模型。其回歸模型中第三產(chǎn)業(yè)產(chǎn)值有著最大正回歸系數(shù),社會消費品零售總額有著最小的負回歸系數(shù),而與人口相關(guān)的變量系數(shù)為0。說明了第三產(chǎn)業(yè)產(chǎn)值對財政收入的提高是重要的,政府應(yīng)當加快產(chǎn)業(yè)機構(gòu)轉(zhuǎn)型,把傳統(tǒng)制造業(yè)升級為高新技術(shù)產(chǎn)業(yè)和金融服務(wù)業(yè);同時也應(yīng)當控制消費資金的流出,促進投資資金的流入。
【參考文獻】
[1]張學(xué)均,云偉標等編著.R語言數(shù)據(jù)分析與數(shù)據(jù)挖掘.北京;機械工業(yè)出版社,2017.
[2]李新娜編著.核回歸方法研究及其在圖像去噪中的應(yīng)用