[摘要]本文以北京市郊區(qū)縣的50個鄉(xiāng)鎮(zhèn)為樣本點,較為全面地考慮了影響北京郊區(qū)縣農(nóng)民收入的各種因素。首先通過擬合多元回歸方程并且重點研究觀測數(shù)據(jù)中間不滿足基本假定的情況,進而針對變量間存在多重共線性的問題引入嶺回歸模型(ridge regression)加以解決,得到了較為準確的嶺回歸模型,最后則對回歸模型的經(jīng)濟意義給出了解釋,提出了建議,使得影響京郊農(nóng)民收入的諸多因素具有了現(xiàn)實的意義,以便于政府部門決策參考。
[關鍵詞]嶺回歸 多元統(tǒng)計分析 農(nóng)民收入 決策參考
一、引言
現(xiàn)時,國家高度重視農(nóng)民的收入問題。溫家寶總理曾多次在不同場合提到要把農(nóng)民增收作為國務院重點項目,2010年中央出臺的第一號文件仍然強調(diào)“三農(nóng)”問題。正所謂“國無糧不穩(wěn)”,對于我們國家來說,如果由于收入的原因,很多農(nóng)民外出打工,而不安心于作物生產(chǎn)上,那么一定不能保證國家若干年以后的基本糧食供應。我們同意國內(nèi)學者的觀點,即“三農(nóng)”問題的研究重點在于農(nóng)民的收入問題,只要農(nóng)民的收入上來了,很多問題也就自然迎刃而解。
近年來,對于中國農(nóng)民收入的問題,國內(nèi)外已經(jīng)有不少學者曾做過深入的研究。西南財經(jīng)大學的覃巍教授從增加農(nóng)民收入、減輕農(nóng)民負擔、縮小收入差距及農(nóng)村分配制度等若干方面進行過研究綜述,并做簡要的評論。中央財經(jīng)大學的王國華同志從農(nóng)村公共產(chǎn)品供給的角度研究過農(nóng)民收入的問題。浙江大學的白菊紅,袁飛則從農(nóng)村人力資本關系方面來專題研究過農(nóng)民收入的問題。而農(nóng)業(yè)部農(nóng)村經(jīng)濟研究中心的郭建軍老師對于現(xiàn)階段我國農(nóng)民收入增長特征、面臨的矛盾和對策做出了深入的分析。
然而,國內(nèi)學術界對于農(nóng)民收入問題的研究還較少使用計量的方法來定量分析問題,大多數(shù)傾向于描述農(nóng)民收入低這一現(xiàn)象的本身,并且研究的范圍通常是全國。然而,各個地方的農(nóng)民收入的問題有其自身的特點,常常需要單獨拿出來討論,泛泛的全國范圍內(nèi)的描述可能難以擊中不同地區(qū)農(nóng)民收入問題的要害。農(nóng)村問題的復雜性在于各地的差異和矛盾來源不同,往往不能夠一刀切,必須具體問題具體分析,實事求是地解決問題。但是我們也知道,很多時候農(nóng)村問題往往具有代表性,對一個地區(qū)進行具體而深入的研究能夠給我們對其他地區(qū)的分析提供一定的參考。正基于此,我們選取北京市一地作為總體并且采用多元定量統(tǒng)計分析的方法來深入探討影響京郊農(nóng)民收入的因素,看看到底影響北京市10個郊區(qū)縣農(nóng)民收入的關鍵因素是什么。研究數(shù)據(jù)來自于《北京市統(tǒng)計局2008年全年農(nóng)普信息系統(tǒng)數(shù)據(jù)》。該數(shù)據(jù)采用分層四階段不等概率抽樣方法, 以京郊全部10個郊區(qū)共157個鄉(xiāng)鎮(zhèn)為樣本單位進行調(diào)查,我們對于每一個郊區(qū)隨機抽取5個鄉(xiāng)鎮(zhèn),組成50個樣本。
二、描述統(tǒng)計
首先對于這50個數(shù)據(jù)的農(nóng)民人均收入樣本分別計算均值,標準差,偏度,峰度,并做單樣本K-S正態(tài)性檢驗(1-sample K-S test),得到表1。
表1:
我們發(fā)現(xiàn),由于農(nóng)民收入的極差(range)只有751元,也就是說北京郊區(qū)10個區(qū)縣之間的收入差別并不是特別的大。通過偏度與峰度的計算數(shù)據(jù),整個收入樣本的分布呈現(xiàn)右偏,高峰的特點。由于單樣本K-S檢驗的P值是0.19,令顯著性水平為0.05,在此顯著性水平下我們不能說樣本的分布與正態(tài)分布有顯著性區(qū)別。
從Q-Q圖上,我們可以發(fā)現(xiàn)樣本大致在預期理論線上分布,這也從另一方面說明樣本服從正態(tài)分布。
三、多元回歸建模
下面利用Gauss提出的多元回歸模型通過最小二乘法(least square)來對影響鄉(xiāng)鎮(zhèn)農(nóng)民人均收入的因素做多元線性回歸分析。我們將鄉(xiāng)鎮(zhèn)人均收入作為被解釋變量,將影響鄉(xiāng)鎮(zhèn)人均收入的因素作為解釋變量, 建立以下多元線性回歸模型:
式1:
Y= β0+β1*X1+β2*X2+β3*X3+β4*X4+β5*X5+ε
其中Y表示鄉(xiāng)鎮(zhèn)農(nóng)民的人均收入,X表示在現(xiàn)有水平與數(shù)據(jù)上影響Y的各種因素,X1表示本鄉(xiāng)鎮(zhèn)中常住戶籍男性占鄉(xiāng)鎮(zhèn)常住戶籍人口的比例,X2表示鄉(xiāng)鎮(zhèn)勞動力人數(shù)(年齡處于20-55歲的常住戶籍人口數(shù))占總常住戶籍人口數(shù)的比例,X3表示鄉(xiāng)鎮(zhèn)中男性勞動力占總常住人口數(shù)的比例,X4表示鄉(xiāng)鎮(zhèn)常住戶籍人口平均受教育年數(shù),X5為是否為中心鎮(zhèn)。
解釋如下:
1.對于X4,按照數(shù)據(jù)勞動力的受教育程度共分為文盲、小學、初中、高中、技校、中專、大專、本科、研究生、私塾十大類。按照中國的教育體制,我們假設對應的教育年限為 0年、6 年、9 年、12 年、12 年、12 年、15 年、16 年、19 年和 10年。
2、X5是一個定性變量,是中心鎮(zhèn)記為1,不是中心鎮(zhèn)記為0。
3.ε為隨機誤差,我們假定ε服從正態(tài)分布N(0,σ^2)。
4.β為未知參數(shù),我們稱之為回歸系數(shù),通過數(shù)據(jù)擬合來確定他們的估計值。
我們選用SPSS 13.0軟件包完成建模過程,節(jié)錄部分結果如下:
表2:
模型R方調(diào)整的R方估計的標準誤差D-W檢驗值
10.9660.96244.647851.83
表3:
整體模型F值P值
251.1910.00000
表4:
非標準化系數(shù)t值P值VIF
常數(shù)7074.271 72.0730
男性比2016.898 2.0770.044298.148
勞動力比-964.294 -1.9670.03686.776
教育年限-35.698 -3.3810.0029.161
中心鎮(zhèn)13.372 0.8540.3981.538
男性勞動力1541.524 1.5430.13297.166
分析如下:
1.多元線性回歸模型擬合的結果效果比較理想,調(diào)整的R方達到0.962。并且整體回歸模型通過顯著性檢驗。說明線性關系明顯,農(nóng)民收入與這五個影響因素總體上相關。
2.然而,深入分析這五個X對于Y的影響,我們發(fā)現(xiàn)雖然模型整體通過顯著性檢驗,但是中心鎮(zhèn)因素(X5)的P值達到0.398,說明X5是對于Y的影響比較弱,在建模的過程中可以剔除。
3.由表2輸出Durbin-Watson檢驗的值為1.83,本問題的因素共有6個(包括常數(shù)項),樣本大小為50,查閱D-W檢驗上下臨界值表得dL=1.34,dU=1.77.而du<1.83<4-du, 依據(jù)D-W檢驗可知此截面數(shù)據(jù)并無自相關的問題。
4.我們輸出非標準化殘差,并取絕對值,并且分別求其與X之間的spearman相關系數(shù)的單尾P值,所得結果如下:
表5:
男性比勞動力比教育年限男性勞
動力比中心鎮(zhèn)非標準化殘差絕對值
男性比10.090.130.070.350.56
勞動力比0.0910.150.280.370.24
教育年限0.130.1510.060.390.44
男性勞動力比0.070.280.0610.540.39
中心鎮(zhèn)0.350.370.390.5410.38
非標準化殘差絕對值0.560.240.440.390.381
由表5我們可知,P值均大于0.05,變量之間并不存在異方差的問題。
5.由表4輸出的VIF值(方差擴大因子),其中男性比例,勞動力比例與男性勞動力比例這三個因素的VIF值均遠遠大于10。這說明回歸方程變量間存在著多重共線性的問題,多重共線性的存在對于多元回歸模型會產(chǎn)生非常大的負面影響。
6.勞動力比例與教育年限的回歸系數(shù)為負數(shù),與我們的常識有著違背的地方。一般來說,教育以及勞動力在總人口的比例應該大致與人均收入呈正相關趨勢。其實,這一反常現(xiàn)象也恰恰說明正是由于多重共線性問題的存在,我們僅僅用多元線性回歸來建模就不太適合了,多重共線性的存在使得某些變量的回歸系數(shù)的經(jīng)濟意義與實際是有出入的。
四、嶺回歸建模
針對出現(xiàn)多重共線性時,普通最小二乘法明顯變壞的問題,我們采用嶺回歸來建立京郊農(nóng)民收入與其影響因素的模型。
嶺回歸是由A.E Hoerl于1962年首先提出的,用于改進最小二乘法。1970年Hoerl和Kennard對此方法給予了詳細的闡述。
我們知道由Gauss提出的普通最小二乘的估計的β為
式2:
其中X為設計矩陣,X’為X的轉(zhuǎn)置矩陣,y為被解釋變量矩陣。
嶺回歸提出的思想很自然,由于多重共線性的影響,式2中的
|X*X’|約等于0時,我們設想給X*X’加上一個正常數(shù)矩陣k*I(k>0),那么X*X’ + k*I接近奇異的程度就會小很多。如式3所示。
式3:
關于嶺回歸的詳細描述請參見參考文獻[2]和參考文獻。
由于我們通過多元回歸模型已經(jīng)知道X5(是否為中心鎮(zhèn))這一個因素并不是顯著的影響農(nóng)民收入,在嶺回歸中我們予以剔除,對于剩下的4個影響因素與農(nóng)民收入樣本用嶺回歸建模如下:
首先我們令k從0到1,步長為0.05,做出嶺跡圖如下:
通過圖2,我們發(fā)現(xiàn)k在0.40左右時候,嶺跡相對穩(wěn)定,而且由于此時k相對比較小,對于β的估計影響不會太大。我們令k=0.4,做嶺回歸,節(jié)錄部分結果如下:
表6:
R方調(diào)整的R方整體方程的F值整體方程顯著性P值
0.927842750.92142877144.65948800.0000000
表7:
系數(shù)BETA值
常數(shù)項7074.4941.58
男性比(X1)526.0024.58
勞動力比(X2)449.6626.24
男性勞動力比(X3)544.9926.06
教育年限(X4)15.562.92
至此,通過嶺回歸我們得到最終的嶺回歸模型如下:
Y=7074.49+526.00*X1+446.67*X2+544.99*X3+15.56*X4
分析如下:
1.嶺回歸擬合效果明顯,成功消除了多重共線性的影響,并且X的4個因素的系數(shù)均大于0,與常識相符。
2.不過嶺回歸的負面效果也存在,對比多元線性回歸模型,嶺回歸的調(diào)整的R方,以及整體方程的F值均有不同程度的下降。參見表8
表8:
多元回歸(最小二乘)嶺回歸
調(diào)整的R方0.9620.921
F值251.191144.659
3.雖然調(diào)整的R方下降了一些,但是0.921我們認為還是可以接受的。至此,通過嶺回歸我們已經(jīng)完全消除了多重共線性的影響,所得因素的系數(shù)的估計值可靠性比較高,接下來我們可以通過對嶺回歸方程的分析來得到影響京郊農(nóng)民收入的重要因素。
五、相關分析與對策建議
對于京郊10個郊區(qū)縣的農(nóng)民收入的影響因素的分析以及對于相關政府的建議如下:
第一,京郊農(nóng)民所在的鄉(xiāng)鎮(zhèn)是否是中心鎮(zhèn)對于收入的影響并不顯著。一般來說,中心鎮(zhèn)會比其他的鄉(xiāng)鎮(zhèn)更多的受到政府的政策性補貼,但是從我們的研究來看,政策性的補貼對于京郊的農(nóng)民收入影響并不大,這可能與北京市是直轄市的位置有關,結論可能并不能擴展到全國范圍。
第二,鄉(xiāng)鎮(zhèn)的男性比例是影響鄉(xiāng)鎮(zhèn)農(nóng)民收入的顯著因素。這個結果很自然,從我們國家目前的情況來看,農(nóng)村中絕大多數(shù)的生產(chǎn)活動都是由男性來完成的,所以政府部門應該重視男性在農(nóng)村生產(chǎn)活動中的作用,適當出臺相應的政策鼓勵男性多參與生產(chǎn)活動。
第三,鄉(xiāng)鎮(zhèn)勞動人口數(shù)與鄉(xiāng)鎮(zhèn)總人口數(shù)的比例也是影響農(nóng)民收入的顯著因素。此結論明顯,農(nóng)村的生產(chǎn)活動主要依靠20-55歲的勞動人群來完成的。因此在一定范圍內(nèi),當一個村子的勞動力越多,農(nóng)民的收入也就越高。各級相關政府或可制定優(yōu)惠政策以鼓勵適齡人群多參與生產(chǎn)活動,提高農(nóng)民的收入。
第四,同樣的,人均受教育年限是影響農(nóng)民收入的顯著性因素。由此結論,我們建議政府能夠下大力氣依據(jù)國家法律在農(nóng)村地區(qū)切實普及9年制義務教育,鼓勵農(nóng)村青年多讀書學習,讓廣大的農(nóng)民科學種田。21世紀是知識經(jīng)濟的時代,如果沒有科學文化知識,即使政府有在多的好政策,也很難有效提高農(nóng)民的收入水平。
參考文獻:
[1]賈俊平. 統(tǒng)計學 (第二版)[M] 北京:清華大學出版社,2007
[2]何曉群. 劉文卿 應用回歸分析(第二版)[M] 北京:中國人民大學出版社,2007
[3]薛薇. 基于SPSS的數(shù)據(jù)分析 [M] 北京:中國人民大學出版社2006
[4]王星. 非參數(shù)統(tǒng)計 [M] 北京:清華出版社 2006
[5]王國華、李克強. 農(nóng)村公共產(chǎn)品供給與農(nóng)民收入問題研究[J]財政研究,2004,(1)
[6]白菊紅、袁飛. 農(nóng)民收入水平與農(nóng)村人力資本關系分析[J]農(nóng)業(yè)技術經(jīng)濟,2003(1)
[7]郭建軍. 現(xiàn)階段我國農(nóng)民收入增長特征、面臨的矛盾和對策[J]中國農(nóng)村經(jīng)濟,2001(6)
[8]覃巍. 農(nóng)民收入問題研究述評[J]經(jīng)濟學動態(tài),2001(5)
[9]Hoerl and Kennard, R.W Ridge Regression: Biased Estimation for Non-orthogonal Problems [J]Technimetrics , 1970(12)
[10]Seber and Wiley. Lineal Regression Analysis[M]New York : Springer,1955