謝佳春,李興緒(云南財經(jīng)大學 統(tǒng)計與數(shù)學學院,昆明 650221)
明瑟收入函數(shù)模型變量選擇方法比較研究
——來自云南農(nóng)村住戶數(shù)據(jù)的實例
謝佳春,李興緒
(云南財經(jīng)大學 統(tǒng)計與數(shù)學學院,昆明 650221)
本文基于2010年云南紅河哈尼族彝族自治州農(nóng)村3000戶數(shù)據(jù)庫,比較研究了壓縮系數(shù)法(嶺回歸、LASSO、SCAD和適應性LASSO)在農(nóng)戶明瑟收入函數(shù)模型中的變量選擇問題。結(jié)果發(fā)現(xiàn):SCAD方法優(yōu)于其他壓縮系數(shù)法,對相關應用研究具有借鑒意義。
嶺回歸;LASSO SCAD;適應性LASSO;變量選擇
農(nóng)戶收入一直是農(nóng)村經(jīng)濟研究的熱點問題,學者從不同視角開展了豐富的理論和實證研究。如農(nóng)村貧困問題、農(nóng)戶生產(chǎn)行為及消費行為、某些政策效應評價等。然而,查閱近十年的中文文獻不難發(fā)現(xiàn):(1)從研究內(nèi)容上看這些文獻大多是僅側(cè)重于某一個因素對農(nóng)戶收入的影響。馮繼紅基于河南省農(nóng)村住戶問卷調(diào)查資料,分析了農(nóng)村勞動力進城務工選擇與農(nóng)戶家庭收入的關系[1];李旻等利用遼寧省2001- 2004 年農(nóng)村面板調(diào)查數(shù)據(jù),實證分析了農(nóng)村女性勞動力外出打工對農(nóng)戶家庭收入的影響[2];肖富群利用廣西農(nóng)戶問卷調(diào)查資料,探討人力資本對農(nóng)戶收入的影響問題[3];周波等以江西省 5 年面板數(shù)據(jù)為例,研究農(nóng)業(yè)技術應用對農(nóng)戶家庭收入的影響[4]。(2)從估計方法上看各學者根據(jù)各自數(shù)據(jù)的特征建立不同模型。例高夢滔采用固定效應模型對中國8個省份 1354 個農(nóng)戶、跨度 15 年的微觀面板數(shù)據(jù)進行估計,以測算勞動力性別比例失調(diào)對于農(nóng)戶長期收入的影響[5];顏景辰等采用普通最小二乘(OLS)估計的多元線性回歸估計了陜西省志丹縣90戶農(nóng)戶畜牧業(yè)行為對其收入的影響[6];朱建軍等以2006 年中國社會綜合調(diào)查數(shù)據(jù)為對象,分別采用分位回歸和OLS回歸實證分析了農(nóng)地經(jīng)營權的集中程度對農(nóng)戶收入的影響[7]。(3)從確定收入影響因素的過程上看幾乎是靠經(jīng)驗來確定的[8]-[10]。雖然OLS估計有很好的統(tǒng)計性質(zhì)(線性性、無偏性和有效性),但其卻有著嚴格的模型假定,一般實際數(shù)據(jù)很難嚴格滿足那些模型假定,這樣基于變量顯著性來確定農(nóng)戶收入函數(shù)可能會使估計結(jié)果有偏;另外,在建立農(nóng)戶收入函數(shù)模型的過程中,靠經(jīng)驗來確定不能保證會遺漏一些重要變量或添加了某些多余變量,所以有必要采用更有效的方法來克服上述收入函數(shù)中變量的選擇問題。本文即在這樣的一個研究背景下,采用統(tǒng)計建模中更有效的變量選擇方法對農(nóng)戶收入函數(shù)變量進行選擇。
經(jīng)典的收入函數(shù)模型是明瑟收入模型[11],該模型以人力資本理論為基礎,在建模時認為人力資本是決定個人收入的關鍵因素,模型中僅包含個體受教育年限和工作年限兩個解釋變量。早期國內(nèi)外學者基于該模型進行了大量關于教育回報率的研究,后來該模型逐漸被擴展修改以用于不同對象收入的確定。本文中討論的農(nóng)戶收入也將建立在明瑟收入函數(shù)框架下并采用目前能較有效解決變量選擇問題的壓縮系數(shù)(Shrinkage methods)類方法對農(nóng)戶收入函數(shù)的變量進行選擇,并以云南省少數(shù)民族自治州紅河哈尼族彝族自治州2010年3000戶農(nóng)戶為例進行分析。
為了克服這些弊端,壓縮系數(shù)法孕育而生。這類方法通過一個罰函數(shù)(penalty function)對模型中的變量進行懲罰,它給予那些相對重要或有較大回歸系數(shù)的變量較小的懲罰,對那些相對不太重要或較小回歸系數(shù)的變量較大的懲罰。通常記罰函數(shù)為,其中是實數(shù)范圍內(nèi)的調(diào)整參數(shù)(tuning parameter),以決定變量被懲罰的程度。Fan和Li給出了一個好的罰函數(shù)應具備以下性質(zhì)[14]:
(1)無偏性:估計的參數(shù)是無偏的,尤其對于系數(shù)較大的變量;
(2)稀疏性:對一些不太重要的變量其系數(shù)可以被壓縮為0;
(3)連續(xù)性:參數(shù)估計對數(shù)據(jù)是連續(xù)的,以避免模型的不穩(wěn)定性;并對滿足這三條性質(zhì)的函數(shù)形式及條件提出了一定的要求。根據(jù)罰函數(shù)的具體形式,壓縮系數(shù)法可以細分為嶺回歸、LASSO、SCAD和適應性LASSO等。
2.1嶺回歸(Ridge regression)
由于嶺回歸的罰函數(shù)會導致非稀疏性僅把系數(shù)縮小和對較大回歸系數(shù)估計有偏,因此嶺回歸的罰函數(shù)算不上是很好的罰函數(shù)。
2.2LASSO(Least Absolute Shrinkage and Selection Operator)回歸
LASSO回歸在原理上與嶺回歸類似,只是罰函數(shù)中的系數(shù)不是平方項而是絕對值的形式,即在約束條件下,系數(shù)滿足:
2.3SCAD(Smoothly Clipped Absolute Deviation)回歸嶺回歸和LASSO回歸都沒有完全滿足無偏性、稀疏性和連續(xù)性,為進一步完善變量選擇方法Fan 和 Li于2001年提出了SCAD回歸[14]。該方法克服了LASSO和嶺回歸的缺陷,能同時滿足無偏性、稀疏性和連續(xù)性。SCAD的罰函數(shù)形式如下:
2.4適應性LASSO(Adaptive LASSO)
Zou在LASSO的基礎上發(fā)展了適應性LASSO,該方法也能同時滿足無偏性、稀疏性和連續(xù)性[16]。LASSO是對模型中的每個變量應用了同一個罰函數(shù),適應性LASSO將其改進為根據(jù)不同變量的參數(shù)估計值賦予不同的權重wi,其系數(shù)滿足:
本文將采用上述四種方法分別對農(nóng)戶收入函數(shù)模型變量選擇進行比較分析,并估計其回歸系數(shù)。
本文使用的數(shù)據(jù)來自“云南省紅河州農(nóng)村住戶調(diào)查”2010年數(shù)據(jù)庫。調(diào)查樣本抽樣采用兩階段隨機抽樣方法確定,調(diào)查數(shù)據(jù)覆蓋了紅河州的13個縣市、136個鄉(xiāng)鎮(zhèn)的298個行政村,農(nóng)戶3000戶。樣本數(shù)據(jù)主要涵蓋了農(nóng)村居民收入支出情況以及所在村的發(fā)展情況、家庭基本情況、居住情況、住戶成員與勞動力從業(yè)情況、農(nóng)業(yè)生產(chǎn)結(jié)構調(diào)整與技術應用情況等信息。
本文中的因變量是人均純收入取對數(shù),這樣處理的原因是就純收入數(shù)據(jù)本身而言,其分布呈非對稱的右偏態(tài),而取對數(shù)的人均收入其分布近似于正態(tài)分布,明瑟收入函數(shù)半對數(shù)模型框架下我們采用人均純收入的對數(shù)形式。圖1對比了人均純收入與對數(shù)人均純收入分布情況。
圖1 人均純收入與對數(shù)人均純收入分布對比圖
對于可能的自變量,筆者歸納總結(jié)了近十年來在關于農(nóng)戶收入文獻中出現(xiàn)頻次較高的一些變量,這些變量大體來說可以分為五類:農(nóng)戶家庭特征、人力資本、生產(chǎn)資本、政策因素和村莊環(huán)境因素,變量的分類整理及定義見表1。為便于比較,在建模前我們對變量進行標準化處理。
表1 變量分類及定義
首先我們把嶺回歸、LASSO、SCAD和適應性LASSO幾種方法下回歸系數(shù)隨相應調(diào)整參數(shù)變化的軌跡圖進行對比,見圖2至圖5。對比發(fā)現(xiàn),圖2的嶺回歸中所有回歸系數(shù)隨值的增大被一定程度的統(tǒng)一壓縮,但沒有出現(xiàn)零系數(shù)。正如理論分析的一樣,嶺回歸會導致非稀疏性僅把系數(shù)縮小,而不能剔除相對不太重要的變量,而其余方法則能把某些個別系數(shù)壓縮為零。
圖2 嶺回歸系數(shù)隨值變化
圖3 LASSO回歸系數(shù)隨值變化
圖4 SCAD回歸系數(shù)隨值變化
圖5 適應性LASSO回歸系數(shù)隨值變化
然后我們把幾種方法下對變量的選擇結(jié)果匯總在表2中,表中的被選擇變量在壓縮系數(shù)法下指系數(shù)不為零的變量,在OLS估計方法下指顯著性水平小于10%的顯著變量。為簡化分析過程,我們用變量的序號代表變量,例如用變量1來代替常住人口。
表2 變量選擇結(jié)果匯總表
表3 模型評價指標匯總表
從表2中可以看出,OLS方法下共有17個變量顯著不為零,壓縮系數(shù)法中的嶺回歸保留了全部變量,正如圖2顯示的那樣,沒有出現(xiàn)零系數(shù),而其余方法均對變量進行了一定程度的篩選。由于各罰函數(shù)具體形式不同,對系數(shù)的懲罰程度不盡相同,所以不同方法下選擇的變量會有所差異。其中變量1,6,7,8,9,10,11,12,13,14,15和20這12個變量是所有方法都選擇的變量,即家庭特征中的常住人口、農(nóng)戶從業(yè)類型、是否干部戶和是否黨員、團員戶;代表人力資本的教育程度變量;生產(chǎn)資本因素中的人均耕地面積、是否有土地轉(zhuǎn)包行為、固定資產(chǎn)投資額、糧食播種面積比重和經(jīng)濟作物播種面積比重;政策因素中只有是否參加專業(yè)性合作經(jīng)濟組織一個變量被選;而村莊環(huán)境因素中只有地勢這一變量被選擇。為了衡量被所有方法保留的這12個變量對農(nóng)戶收入的解釋程度,我們采用OLS僅對這12個變量進行回歸,結(jié)果調(diào)整可決系數(shù)為0.266,而在21個全變量的模型下,OLS回歸的調(diào)整可決系數(shù)僅只增加到0.2756。可見,本文采用的壓縮系數(shù)法能一定程度上有效選擇解釋變量。另外,2,18和19這三個變量無一被任何模型選中,分別是勞動力人數(shù)、是否是民族村和距離最近縣城距離。
表3中模型評價結(jié)果顯示,在MSE、AIC和BIC三個指標下,均是SCAD方法的值最小,所以我們有理由更傾向于SCAD方法下變量選擇的結(jié)果。該方法在12個共同被所有方法選擇的變量的基礎上多選擇了變量17,即人均退耕還林還草補貼收入,而這個變量僅在適應性LASSO方法下沒有被選擇,其余的OLS和LASSO也選擇了這個變量。
最后,我們把所有方法對變量估計的結(jié)果匯總在表4中。對比發(fā)現(xiàn),各方法對不同變量估計的系數(shù)大小不同,但方向基本一致。
表4 變量估計結(jié)果匯總表
本文通過采用壓縮系數(shù)法,在明瑟收入函數(shù)模型下對農(nóng)戶收入函數(shù)變量進行選擇,并以云南省紅河哈尼族彝族自治州2010年3000戶農(nóng)戶為對象進行實證分析。壓縮系數(shù)法下嶺回歸、LASSO、SCAD和適應性LASSO方法的罰函數(shù)不同,各方法對系數(shù)的懲罰程度也各不相同。嶺回歸不具備無偏性和稀疏性,該方法對變量進行選擇時,其對系數(shù)進行整體壓縮約束,無法有效剔除相對不重要的變量。如表2匯總的結(jié)果所示,嶺回歸保留了所有初次放入模型的21個變量。LASSO、SCAD和適應性LASSO對變量進行了不同程度的選擇,21個全變量中有12個被所有方法同時選擇。此外,SCAD和適應性LASSO從理論上說同時具備無偏性、稀疏性和連續(xù)性,本例中SCAD的MSE、AIC和BIC均最小,我們有理由更傾向于SCAD方法選擇的變量。該方法在12個共同變量的基礎上多選擇了變量17人均退耕還林還草補貼收入,而這個變量在除適應性LASSO方法外的其余方法中也被選擇了。綜上,我們有理由認為通過壓縮系數(shù)法的變量選擇,最終家庭特征中的常住人口、男性勞動力人數(shù)、勞動力負擔系數(shù)、農(nóng)戶從業(yè)類型、轉(zhuǎn)移勞動力人數(shù)、是否干部戶和是否黨員、團員戶;代表人力資本的教育程度變量;生產(chǎn)資本因素中的人均耕地面積、是否有土地轉(zhuǎn)包行為和固定資產(chǎn)投資額變量;政策因素中的是否參加專業(yè)性合作經(jīng)濟組織和人均退耕還林還草補貼收入以及村莊環(huán)境因素中的地勢這些變量綜合決定了農(nóng)戶收入。
[1] 馮繼紅.農(nóng)村勞動力進城務工對農(nóng)戶家庭收入影響的實證分析—基于河南省的農(nóng)戶家庭模型分析[J].農(nóng)業(yè)技術經(jīng)濟,2007(6).
[2] 李旻,趙連閣.農(nóng)村女性勞動力外出打工對農(nóng)戶收入的影響--基于遼寧省的實證分析[J].農(nóng)業(yè)經(jīng)濟問題,2008(5).
[3] 肖富群.人力資本要素對農(nóng)戶收入影響的次序性[J].軟科學,2010(6).
[4] 周波,于冷.農(nóng)業(yè)技術應用對農(nóng)戶收入的影響--以江西跟蹤觀察農(nóng)戶為例[J].中國農(nóng)村經(jīng)濟[J],2011(1).
[5] 高夢滔.勞動力性別比例與農(nóng)戶長期收入:中國的經(jīng)驗證據(jù)[J].中國農(nóng)村經(jīng)濟,2005(9).
[6] 顏景辰,雷海章.“一退兩還”背景下黃土高原地區(qū)農(nóng)戶畜牧業(yè)行為與收入關系的實證分析—以山西省志丹縣為例[J].農(nóng)業(yè)技術經(jīng)濟,2007(2).
[7] 朱建軍,舒幫榮.農(nóng)地經(jīng)營權配置對農(nóng)戶收人影響的實證分[J]. 南京農(nóng)業(yè)大學學報(社會科學版) ,2012,12(2).
[8] 盧啟程, 李怡佳. 農(nóng)戶收入增長影響因素及其關系研究--來自云南省的調(diào)查數(shù)據(jù)[J].經(jīng)濟問題探索,2007(12).
[9] 徐翠萍,史清華,Holly Wang.稅費改革對農(nóng)戶收入增長的影響:實證與解釋--以長三角15村跟蹤觀察農(nóng)戶為例[J].中國農(nóng)村經(jīng)濟,2009(2).
[10] 周波,于冷,史清華.農(nóng)業(yè)技術應用與農(nóng)戶收入增長:以江西農(nóng)戶為例[J].商業(yè)研究, 2011(2).
[11] Mincer, Jacob. Schooling, Experience and Earnings [M]. New York, National Bureau of Economic Research, 1974.
[12] Mantel N.. Why Stepdown Procedures in Variable Selection [J]. Technometrics, 1970(12) :621-625.
[13] Hocking R. R..A Biometrics Invited Paper. The Analysis and Selection of Variables in Linear Regression [J].Biometrics,1976(32) :1-49.
[14] Fan J. & Li R..Variable Selection via Nonconcave Penalized Likelihood and its Oracle Properties[J]. Journal of the American Statistical Association,2001,96 (456) :1348-1360.
[15] 吳喜之.復雜數(shù)據(jù)統(tǒng)計方法—基于R的應用[M].中國人民大學出版社,2012.
[16] Zou H. The Adaptive LASSO and its Oracle Properties [J]. Journal of the American Statistical Association, 2006,101 (476):1418-1429.
(責任編輯:龍 蓉)
A Comparative Study of Variable Selection under Mincer Income Function Model:Evidence from Data of Rural Households of Yunnan Province
XIE Jiachun,LI Xingxu
(School of Statistics and Mathematics,Yunnan University of Finance and Economics,Kunming 650221)
This study compared the Shrinkage methods (Ridge regression, Lasso, SCAD and Adaptive Lasso) and applied them into variables selection under Mincer income function model, which is based on the data of 3000 rural households of Yunnan Honghe Hani and Yi Autonomous Prefecture in 2010. The results showed, the SCAD method is much more effective than the other Shrinkage methods; the results have reference to the relevant application studies.
Ridge regression; LASSO; SCAD; Adaptive LASSO; Variable selection
F320.2;O212
A
10.3969/j.issn.1003-8256.2016.01.010
云南省哲學社會科學項目(XKJS201411)、國家自然科學基金項目(71263055)
謝佳春(1983-),女,云南昭通人,云南財經(jīng)大學統(tǒng)計與數(shù)學學院講師,經(jīng)濟學博士,研究方向為經(jīng)濟統(tǒng)計、計量經(jīng)濟。李興緒(1967-),男,云南昭通人,云南財經(jīng)大學統(tǒng)計與數(shù)學學院副院長,教授,統(tǒng)計學博士,研究方向為經(jīng)濟統(tǒng)計、計量經(jīng)濟。