亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        明瑟收入函數(shù)模型變量選擇方法比較研究
        ——來自云南農(nóng)村住戶數(shù)據(jù)的實(shí)例

        2016-09-12 08:33:41謝佳春李興緒云南財(cái)經(jīng)大學(xué)統(tǒng)計(jì)與數(shù)學(xué)學(xué)院昆明650221
        科學(xué)與管理 2016年1期
        關(guān)鍵詞:壓縮系數(shù)回歸系數(shù)適應(yīng)性

        謝佳春,李興緒(云南財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)與數(shù)學(xué)學(xué)院,昆明 650221)

        明瑟收入函數(shù)模型變量選擇方法比較研究
        ——來自云南農(nóng)村住戶數(shù)據(jù)的實(shí)例

        謝佳春,李興緒
        (云南財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)與數(shù)學(xué)學(xué)院,昆明 650221)

        本文基于2010年云南紅河哈尼族彝族自治州農(nóng)村3000戶數(shù)據(jù)庫,比較研究了壓縮系數(shù)法(嶺回歸、LASSO、SCAD和適應(yīng)性LASSO)在農(nóng)戶明瑟收入函數(shù)模型中的變量選擇問題。結(jié)果發(fā)現(xiàn):SCAD方法優(yōu)于其他壓縮系數(shù)法,對相關(guān)應(yīng)用研究具有借鑒意義。

        嶺回歸;LASSO SCAD;適應(yīng)性LASSO;變量選擇

        1 引言

        農(nóng)戶收入一直是農(nóng)村經(jīng)濟(jì)研究的熱點(diǎn)問題,學(xué)者從不同視角開展了豐富的理論和實(shí)證研究。如農(nóng)村貧困問題、農(nóng)戶生產(chǎn)行為及消費(fèi)行為、某些政策效應(yīng)評(píng)價(jià)等。然而,查閱近十年的中文文獻(xiàn)不難發(fā)現(xiàn):(1)從研究內(nèi)容上看這些文獻(xiàn)大多是僅側(cè)重于某一個(gè)因素對農(nóng)戶收入的影響。馮繼紅基于河南省農(nóng)村住戶問卷調(diào)查資料,分析了農(nóng)村勞動(dòng)力進(jìn)城務(wù)工選擇與農(nóng)戶家庭收入的關(guān)系[1];李旻等利用遼寧省2001- 2004 年農(nóng)村面板調(diào)查數(shù)據(jù),實(shí)證分析了農(nóng)村女性勞動(dòng)力外出打工對農(nóng)戶家庭收入的影響[2];肖富群利用廣西農(nóng)戶問卷調(diào)查資料,探討人力資本對農(nóng)戶收入的影響問題[3];周波等以江西省 5 年面板數(shù)據(jù)為例,研究農(nóng)業(yè)技術(shù)應(yīng)用對農(nóng)戶家庭收入的影響[4]。(2)從估計(jì)方法上看各學(xué)者根據(jù)各自數(shù)據(jù)的特征建立不同模型。例高夢滔采用固定效應(yīng)模型對中國8個(gè)省份 1354 個(gè)農(nóng)戶、跨度 15 年的微觀面板數(shù)據(jù)進(jìn)行估計(jì),以測算勞動(dòng)力性別比例失調(diào)對于農(nóng)戶長期收入的影響[5];顏景辰等采用普通最小二乘(OLS)估計(jì)的多元線性回歸估計(jì)了陜西省志丹縣90戶農(nóng)戶畜牧業(yè)行為對其收入的影響[6];朱建軍等以2006 年中國社會(huì)綜合調(diào)查數(shù)據(jù)為對象,分別采用分位回歸和OLS回歸實(shí)證分析了農(nóng)地經(jīng)營權(quán)的集中程度對農(nóng)戶收入的影響[7]。(3)從確定收入影響因素的過程上看幾乎是靠經(jīng)驗(yàn)來確定的[8]-[10]。雖然OLS估計(jì)有很好的統(tǒng)計(jì)性質(zhì)(線性性、無偏性和有效性),但其卻有著嚴(yán)格的模型假定,一般實(shí)際數(shù)據(jù)很難嚴(yán)格滿足那些模型假定,這樣基于變量顯著性來確定農(nóng)戶收入函數(shù)可能會(huì)使估計(jì)結(jié)果有偏;另外,在建立農(nóng)戶收入函數(shù)模型的過程中,靠經(jīng)驗(yàn)來確定不能保證會(huì)遺漏一些重要變量或添加了某些多余變量,所以有必要采用更有效的方法來克服上述收入函數(shù)中變量的選擇問題。本文即在這樣的一個(gè)研究背景下,采用統(tǒng)計(jì)建模中更有效的變量選擇方法對農(nóng)戶收入函數(shù)變量進(jìn)行選擇。

        經(jīng)典的收入函數(shù)模型是明瑟收入模型[11],該模型以人力資本理論為基礎(chǔ),在建模時(shí)認(rèn)為人力資本是決定個(gè)人收入的關(guān)鍵因素,模型中僅包含個(gè)體受教育年限和工作年限兩個(gè)解釋變量。早期國內(nèi)外學(xué)者基于該模型進(jìn)行了大量關(guān)于教育回報(bào)率的研究,后來該模型逐漸被擴(kuò)展修改以用于不同對象收入的確定。本文中討論的農(nóng)戶收入也將建立在明瑟收入函數(shù)框架下并采用目前能較有效解決變量選擇問題的壓縮系數(shù)(Shrinkage methods)類方法對農(nóng)戶收入函數(shù)的變量進(jìn)行選擇,并以云南省少數(shù)民族自治州紅河哈尼族彝族自治州2010年3000戶農(nóng)戶為例進(jìn)行分析。

        2 模型變量選擇方法

        為了克服這些弊端,壓縮系數(shù)法孕育而生。這類方法通過一個(gè)罰函數(shù)(penalty function)對模型中的變量進(jìn)行懲罰,它給予那些相對重要或有較大回歸系數(shù)的變量較小的懲罰,對那些相對不太重要或較小回歸系數(shù)的變量較大的懲罰。通常記罰函數(shù)為,其中是實(shí)數(shù)范圍內(nèi)的調(diào)整參數(shù)(tuning parameter),以決定變量被懲罰的程度。Fan和Li給出了一個(gè)好的罰函數(shù)應(yīng)具備以下性質(zhì)[14]:

        (1)無偏性:估計(jì)的參數(shù)是無偏的,尤其對于系數(shù)較大的變量;

        (2)稀疏性:對一些不太重要的變量其系數(shù)可以被壓縮為0;

        (3)連續(xù)性:參數(shù)估計(jì)對數(shù)據(jù)是連續(xù)的,以避免模型的不穩(wěn)定性;并對滿足這三條性質(zhì)的函數(shù)形式及條件提出了一定的要求。根據(jù)罰函數(shù)的具體形式,壓縮系數(shù)法可以細(xì)分為嶺回歸、LASSO、SCAD和適應(yīng)性LASSO等。

        2.1嶺回歸(Ridge regression)

        由于嶺回歸的罰函數(shù)會(huì)導(dǎo)致非稀疏性僅把系數(shù)縮小和對較大回歸系數(shù)估計(jì)有偏,因此嶺回歸的罰函數(shù)算不上是很好的罰函數(shù)。

        2.2LASSO(Least Absolute Shrinkage and Selection Operator)回歸

        LASSO回歸在原理上與嶺回歸類似,只是罰函數(shù)中的系數(shù)不是平方項(xiàng)而是絕對值的形式,即在約束條件下,系數(shù)滿足:

        2.3SCAD(Smoothly Clipped Absolute Deviation)回歸嶺回歸和LASSO回歸都沒有完全滿足無偏性、稀疏性和連續(xù)性,為進(jìn)一步完善變量選擇方法Fan 和 Li于2001年提出了SCAD回歸[14]。該方法克服了LASSO和嶺回歸的缺陷,能同時(shí)滿足無偏性、稀疏性和連續(xù)性。SCAD的罰函數(shù)形式如下:

        2.4適應(yīng)性LASSO(Adaptive LASSO)

        Zou在LASSO的基礎(chǔ)上發(fā)展了適應(yīng)性LASSO,該方法也能同時(shí)滿足無偏性、稀疏性和連續(xù)性[16]。LASSO是對模型中的每個(gè)變量應(yīng)用了同一個(gè)罰函數(shù),適應(yīng)性LASSO將其改進(jìn)為根據(jù)不同變量的參數(shù)估計(jì)值賦予不同的權(quán)重wi,其系數(shù)滿足:

        本文將采用上述四種方法分別對農(nóng)戶收入函數(shù)模型變量選擇進(jìn)行比較分析,并估計(jì)其回歸系數(shù)。

        3 數(shù)據(jù)來源及變量描述

        本文使用的數(shù)據(jù)來自“云南省紅河州農(nóng)村住戶調(diào)查”2010年數(shù)據(jù)庫。調(diào)查樣本抽樣采用兩階段隨機(jī)抽樣方法確定,調(diào)查數(shù)據(jù)覆蓋了紅河州的13個(gè)縣市、136個(gè)鄉(xiāng)鎮(zhèn)的298個(gè)行政村,農(nóng)戶3000戶。樣本數(shù)據(jù)主要涵蓋了農(nóng)村居民收入支出情況以及所在村的發(fā)展情況、家庭基本情況、居住情況、住戶成員與勞動(dòng)力從業(yè)情況、農(nóng)業(yè)生產(chǎn)結(jié)構(gòu)調(diào)整與技術(shù)應(yīng)用情況等信息。

        本文中的因變量是人均純收入取對數(shù),這樣處理的原因是就純收入數(shù)據(jù)本身而言,其分布呈非對稱的右偏態(tài),而取對數(shù)的人均收入其分布近似于正態(tài)分布,明瑟收入函數(shù)半對數(shù)模型框架下我們采用人均純收入的對數(shù)形式。圖1對比了人均純收入與對數(shù)人均純收入分布情況。

        圖1 人均純收入與對數(shù)人均純收入分布對比圖

        對于可能的自變量,筆者歸納總結(jié)了近十年來在關(guān)于農(nóng)戶收入文獻(xiàn)中出現(xiàn)頻次較高的一些變量,這些變量大體來說可以分為五類:農(nóng)戶家庭特征、人力資本、生產(chǎn)資本、政策因素和村莊環(huán)境因素,變量的分類整理及定義見表1。為便于比較,在建模前我們對變量進(jìn)行標(biāo)準(zhǔn)化處理。

        表1 變量分類及定義

        4 實(shí)證分析

        首先我們把嶺回歸、LASSO、SCAD和適應(yīng)性LASSO幾種方法下回歸系數(shù)隨相應(yīng)調(diào)整參數(shù)變化的軌跡圖進(jìn)行對比,見圖2至圖5。對比發(fā)現(xiàn),圖2的嶺回歸中所有回歸系數(shù)隨值的增大被一定程度的統(tǒng)一壓縮,但沒有出現(xiàn)零系數(shù)。正如理論分析的一樣,嶺回歸會(huì)導(dǎo)致非稀疏性僅把系數(shù)縮小,而不能剔除相對不太重要的變量,而其余方法則能把某些個(gè)別系數(shù)壓縮為零。

        圖2 嶺回歸系數(shù)隨值變化

        圖3 LASSO回歸系數(shù)隨值變化

        圖4 SCAD回歸系數(shù)隨值變化

        圖5 適應(yīng)性LASSO回歸系數(shù)隨值變化

        然后我們把幾種方法下對變量的選擇結(jié)果匯總在表2中,表中的被選擇變量在壓縮系數(shù)法下指系數(shù)不為零的變量,在OLS估計(jì)方法下指顯著性水平小于10%的顯著變量。為簡化分析過程,我們用變量的序號(hào)代表變量,例如用變量1來代替常住人口。

        表2 變量選擇結(jié)果匯總表

        表3 模型評(píng)價(jià)指標(biāo)匯總表

        從表2中可以看出,OLS方法下共有17個(gè)變量顯著不為零,壓縮系數(shù)法中的嶺回歸保留了全部變量,正如圖2顯示的那樣,沒有出現(xiàn)零系數(shù),而其余方法均對變量進(jìn)行了一定程度的篩選。由于各罰函數(shù)具體形式不同,對系數(shù)的懲罰程度不盡相同,所以不同方法下選擇的變量會(huì)有所差異。其中變量1,6,7,8,9,10,11,12,13,14,15和20這12個(gè)變量是所有方法都選擇的變量,即家庭特征中的常住人口、農(nóng)戶從業(yè)類型、是否干部戶和是否黨員、團(tuán)員戶;代表人力資本的教育程度變量;生產(chǎn)資本因素中的人均耕地面積、是否有土地轉(zhuǎn)包行為、固定資產(chǎn)投資額、糧食播種面積比重和經(jīng)濟(jì)作物播種面積比重;政策因素中只有是否參加專業(yè)性合作經(jīng)濟(jì)組織一個(gè)變量被選;而村莊環(huán)境因素中只有地勢這一變量被選擇。為了衡量被所有方法保留的這12個(gè)變量對農(nóng)戶收入的解釋程度,我們采用OLS僅對這12個(gè)變量進(jìn)行回歸,結(jié)果調(diào)整可決系數(shù)為0.266,而在21個(gè)全變量的模型下,OLS回歸的調(diào)整可決系數(shù)僅只增加到0.2756??梢姡疚牟捎玫膲嚎s系數(shù)法能一定程度上有效選擇解釋變量。另外,2,18和19這三個(gè)變量無一被任何模型選中,分別是勞動(dòng)力人數(shù)、是否是民族村和距離最近縣城距離。

        表3中模型評(píng)價(jià)結(jié)果顯示,在MSE、AIC和BIC三個(gè)指標(biāo)下,均是SCAD方法的值最小,所以我們有理由更傾向于SCAD方法下變量選擇的結(jié)果。該方法在12個(gè)共同被所有方法選擇的變量的基礎(chǔ)上多選擇了變量17,即人均退耕還林還草補(bǔ)貼收入,而這個(gè)變量僅在適應(yīng)性LASSO方法下沒有被選擇,其余的OLS和LASSO也選擇了這個(gè)變量。

        最后,我們把所有方法對變量估計(jì)的結(jié)果匯總在表4中。對比發(fā)現(xiàn),各方法對不同變量估計(jì)的系數(shù)大小不同,但方向基本一致。

        表4 變量估計(jì)結(jié)果匯總表

        5 主要結(jié)論

        本文通過采用壓縮系數(shù)法,在明瑟收入函數(shù)模型下對農(nóng)戶收入函數(shù)變量進(jìn)行選擇,并以云南省紅河哈尼族彝族自治州2010年3000戶農(nóng)戶為對象進(jìn)行實(shí)證分析。壓縮系數(shù)法下嶺回歸、LASSO、SCAD和適應(yīng)性LASSO方法的罰函數(shù)不同,各方法對系數(shù)的懲罰程度也各不相同。嶺回歸不具備無偏性和稀疏性,該方法對變量進(jìn)行選擇時(shí),其對系數(shù)進(jìn)行整體壓縮約束,無法有效剔除相對不重要的變量。如表2匯總的結(jié)果所示,嶺回歸保留了所有初次放入模型的21個(gè)變量。LASSO、SCAD和適應(yīng)性LASSO對變量進(jìn)行了不同程度的選擇,21個(gè)全變量中有12個(gè)被所有方法同時(shí)選擇。此外,SCAD和適應(yīng)性LASSO從理論上說同時(shí)具備無偏性、稀疏性和連續(xù)性,本例中SCAD的MSE、AIC和BIC均最小,我們有理由更傾向于SCAD方法選擇的變量。該方法在12個(gè)共同變量的基礎(chǔ)上多選擇了變量17人均退耕還林還草補(bǔ)貼收入,而這個(gè)變量在除適應(yīng)性LASSO方法外的其余方法中也被選擇了。綜上,我們有理由認(rèn)為通過壓縮系數(shù)法的變量選擇,最終家庭特征中的常住人口、男性勞動(dòng)力人數(shù)、勞動(dòng)力負(fù)擔(dān)系數(shù)、農(nóng)戶從業(yè)類型、轉(zhuǎn)移勞動(dòng)力人數(shù)、是否干部戶和是否黨員、團(tuán)員戶;代表人力資本的教育程度變量;生產(chǎn)資本因素中的人均耕地面積、是否有土地轉(zhuǎn)包行為和固定資產(chǎn)投資額變量;政策因素中的是否參加專業(yè)性合作經(jīng)濟(jì)組織和人均退耕還林還草補(bǔ)貼收入以及村莊環(huán)境因素中的地勢這些變量綜合決定了農(nóng)戶收入。

        [1] 馮繼紅.農(nóng)村勞動(dòng)力進(jìn)城務(wù)工對農(nóng)戶家庭收入影響的實(shí)證分析—基于河南省的農(nóng)戶家庭模型分析[J].農(nóng)業(yè)技術(shù)經(jīng)濟(jì),2007(6).

        [2] 李旻,趙連閣.農(nóng)村女性勞動(dòng)力外出打工對農(nóng)戶收入的影響--基于遼寧省的實(shí)證分析[J].農(nóng)業(yè)經(jīng)濟(jì)問題,2008(5).

        [3] 肖富群.人力資本要素對農(nóng)戶收入影響的次序性[J].軟科學(xué),2010(6).

        [4] 周波,于冷.農(nóng)業(yè)技術(shù)應(yīng)用對農(nóng)戶收入的影響--以江西跟蹤觀察農(nóng)戶為例[J].中國農(nóng)村經(jīng)濟(jì)[J],2011(1).

        [5] 高夢滔.勞動(dòng)力性別比例與農(nóng)戶長期收入:中國的經(jīng)驗(yàn)證據(jù)[J].中國農(nóng)村經(jīng)濟(jì),2005(9).

        [6] 顏景辰,雷海章.“一退兩還”背景下黃土高原地區(qū)農(nóng)戶畜牧業(yè)行為與收入關(guān)系的實(shí)證分析—以山西省志丹縣為例[J].農(nóng)業(yè)技術(shù)經(jīng)濟(jì),2007(2).

        [7] 朱建軍,舒幫榮.農(nóng)地經(jīng)營權(quán)配置對農(nóng)戶收人影響的實(shí)證分[J]. 南京農(nóng)業(yè)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版) ,2012,12(2).

        [8] 盧啟程, 李怡佳. 農(nóng)戶收入增長影響因素及其關(guān)系研究--來自云南省的調(diào)查數(shù)據(jù)[J].經(jīng)濟(jì)問題探索,2007(12).

        [9] 徐翠萍,史清華,Holly Wang.稅費(fèi)改革對農(nóng)戶收入增長的影響:實(shí)證與解釋--以長三角15村跟蹤觀察農(nóng)戶為例[J].中國農(nóng)村經(jīng)濟(jì),2009(2).

        [10] 周波,于冷,史清華.農(nóng)業(yè)技術(shù)應(yīng)用與農(nóng)戶收入增長:以江西農(nóng)戶為例[J].商業(yè)研究, 2011(2).

        [11] Mincer, Jacob. Schooling, Experience and Earnings [M]. New York, National Bureau of Economic Research, 1974.

        [12] Mantel N.. Why Stepdown Procedures in Variable Selection [J]. Technometrics, 1970(12) :621-625.

        [13] Hocking R. R..A Biometrics Invited Paper. The Analysis and Selection of Variables in Linear Regression [J].Biometrics,1976(32) :1-49.

        [14] Fan J. & Li R..Variable Selection via Nonconcave Penalized Likelihood and its Oracle Properties[J]. Journal of the American Statistical Association,2001,96 (456) :1348-1360.

        [15] 吳喜之.復(fù)雜數(shù)據(jù)統(tǒng)計(jì)方法—基于R的應(yīng)用[M].中國人民大學(xué)出版社,2012.

        [16] Zou H. The Adaptive LASSO and its Oracle Properties [J]. Journal of the American Statistical Association, 2006,101 (476):1418-1429.

        (責(zé)任編輯:龍 蓉)

        A Comparative Study of Variable Selection under Mincer Income Function Model:Evidence from Data of Rural Households of Yunnan Province

        XIE Jiachun,LI Xingxu
        (School of Statistics and Mathematics,Yunnan University of Finance and Economics,Kunming 650221)

        This study compared the Shrinkage methods (Ridge regression, Lasso, SCAD and Adaptive Lasso) and applied them into variables selection under Mincer income function model, which is based on the data of 3000 rural households of Yunnan Honghe Hani and Yi Autonomous Prefecture in 2010. The results showed, the SCAD method is much more effective than the other Shrinkage methods; the results have reference to the relevant application studies.

        Ridge regression; LASSO; SCAD; Adaptive LASSO; Variable selection

        F320.2;O212

        A

        10.3969/j.issn.1003-8256.2016.01.010

        云南省哲學(xué)社會(huì)科學(xué)項(xiàng)目(XKJS201411)、國家自然科學(xué)基金項(xiàng)目(71263055)

        謝佳春(1983-),女,云南昭通人,云南財(cái)經(jīng)大學(xué)統(tǒng)計(jì)與數(shù)學(xué)學(xué)院講師,經(jīng)濟(jì)學(xué)博士,研究方向?yàn)榻?jīng)濟(jì)統(tǒng)計(jì)、計(jì)量經(jīng)濟(jì)。李興緒(1967-),男,云南昭通人,云南財(cái)經(jīng)大學(xué)統(tǒng)計(jì)與數(shù)學(xué)學(xué)院副院長,教授,統(tǒng)計(jì)學(xué)博士,研究方向?yàn)榻?jīng)濟(jì)統(tǒng)計(jì)、計(jì)量經(jīng)濟(jì)。

        猜你喜歡
        壓縮系數(shù)回歸系數(shù)適應(yīng)性
        谷子引種適應(yīng)性鑒定與篩選初報(bào)
        健全現(xiàn)代金融體系的適應(yīng)性之“點(diǎn)論”
        中國外匯(2019年23期)2019-05-25 07:06:20
        多元線性回歸的估值漂移及其判定方法
        基于Skempton有效應(yīng)力原理的巖石壓縮系數(shù)研究
        電導(dǎo)法協(xié)同Logistic方程進(jìn)行6種蘋果砧木抗寒性的比較
        多元線性模型中回歸系數(shù)矩陣的可估函數(shù)和協(xié)方差陣的同時(shí)Bayes估計(jì)及優(yōu)良性
        大型飛機(jī)A380-800在既有跑道起降的適應(yīng)性研究
        巖石的外觀體積和流固兩相壓縮系數(shù)
        巖性油氣藏(2015年2期)2015-10-11 01:24:10
        固有免疫和適應(yīng)性免疫與慢性丙肝的研究進(jìn)展
        馬赫波反射中過度壓縮系數(shù)的計(jì)算
        日本a在线播放| 91中文在线九色视频| 麻婆视频在线免费观看| 欧美xxxxx在线观看| 疯狂撞击丝袜人妻| 99热这里只有精品3| 亚洲国产精品成人久久av| 国产精品自拍盗摄自拍| 免费大片黄国产在线观看| 一区二区三区国产亚洲网站| 久久久亚洲经典视频| 一区二区三区精品偷拍| av男人的天堂亚洲综合网| 亚洲愉拍99热成人精品热久久| 国产精品区一区第一页| 亚洲综合网站精品一区二区| 日韩亚洲精选一区二区三区 | 国产精品麻豆A啊在线观看| 青青草在线免费观看在线| 亚洲av成人无码一二三在线观看| 天美传媒精品1区2区3区| 国产亚洲精品hd网站| 久久夜色精品国产噜噜噜亚洲av| 麻豆蜜桃av蜜臀av色欲av| 波多野结衣免费一区视频| 少妇高潮无码自拍| 久久精品亚洲熟女av麻豆| 人妻少妇不满足中文字幕| 日日摸夜夜添夜夜添一区二区 | 精品无码久久久久久久久粉色| 日本高清一区在线你懂得 | 精品国产亚洲一区二区三区四区| 亚洲欧美日韩中文字幕一区二区三区 | a级毛片免费观看网站| 日韩av一区二区毛片| 少妇被粗大猛进进出出男女片| 国产综合久久久久久鬼色| 国产精品开放小视频| 少妇高潮太爽了免费网站| 久久不见久久见免费视频6| 丰满人妻无奈张开双腿av|