馬云倩,王秀麗,孫君茂,郭燕枝
(農(nóng)業(yè)部食物與營養(yǎng)發(fā)展研究所,北京 100081)
隨著社會經(jīng)濟(jì)快速發(fā)展,我國居民食物消費(fèi)結(jié)構(gòu)發(fā)生了很大變化,從20世紀(jì)60~70年代以吃飽為目的的生存性消費(fèi)到80~90年代以補(bǔ)償為目的量的擴(kuò)張消費(fèi),再到21世紀(jì)以健康、便捷為目的質(zhì)的提高階段。在這個(gè)變化過程中,居民的膳食結(jié)構(gòu)得到明顯改善,營養(yǎng)水平不斷提高。但同時(shí)也存在一些問題,如居民營養(yǎng)不足與營養(yǎng)過剩問題并存,食物消費(fèi)浪費(fèi)現(xiàn)象,不健康的生活方式普遍存在等。根據(jù)2010—2012年全國居民營養(yǎng)健康調(diào)查結(jié)果顯示,由于營養(yǎng)過剩造成的超重肥胖率、高血壓患病率、糖尿病患病率以及血脂異常顯著升高,我國城市成年居民超重率由2002年的8.5%上升至2012的11.0%,高血壓患病率由2002年的19.3%上升到24.5%,糖尿病患病由2002年的4.45%上升至2012年的7.5%[1-2]。這表明我國居民的膳食結(jié)構(gòu)仍然不合理,營養(yǎng)失衡依然是我國居民面臨的嚴(yán)峻挑戰(zhàn),因此,亟需我們對居民的食物消費(fèi)結(jié)構(gòu)及其影響因素開展研究,以改善居民的膳食結(jié)構(gòu)和營養(yǎng)狀況。
目前國內(nèi)外學(xué)者對我國居民的食物消費(fèi)結(jié)構(gòu)研究較多,主要采用AIDS、ELES以及面板回歸、Logistic回歸等方法對我國城鄉(xiāng)居民的食物消費(fèi)結(jié)構(gòu)開展研究[3-5]等。然而對于食物消費(fèi)結(jié)構(gòu)的影響因素研究,特別是對影響因素的定量分析明顯不足?,F(xiàn)存的影響因素研究主要有:郭娟[6]利用典型相關(guān)分析研究了食品工業(yè)發(fā)展水平、人均可支配收入、價(jià)格指數(shù)、城市化率、人口增長率等5個(gè)方面與食物消費(fèi)支出之間的相關(guān)性;李朋華等[7]運(yùn)用典型相關(guān)分析研究了河北農(nóng)村居民食物消費(fèi)影響因素,人均收入載荷最大,是影響農(nóng)村居民食物消費(fèi)結(jié)構(gòu)的主要因數(shù);張佩琪[8]利用線性回歸方法以及路徑分析研究了人均GDP、人口變化、糧食生產(chǎn)等因素對食物消費(fèi)結(jié)構(gòu)的影響,研究表明,人均GDP與人均口糧消費(fèi)之間存在負(fù)向相關(guān)系;劉莉[9]利用AIDS模型研究了海峽兩岸居民食物消費(fèi)結(jié)構(gòu)變化的影響因素,研究表明收入和價(jià)格是影響居民食物消費(fèi)結(jié)構(gòu)變化的主要因素。
綜上所述,現(xiàn)有的食物消費(fèi)結(jié)構(gòu)影響因素研究主要是人為選取一些影響因素,采用典型相關(guān)分析、路徑分析以及AIDS等方法研究影響因素與食物消費(fèi)之間的相關(guān)性及各類支出彈性與需求彈性等,影響因素的選取過于主觀。為此,我們利用現(xiàn)代變量篩選方法LASSO,從眾多影響因素中客觀地篩選出影響居民食物消費(fèi)結(jié)構(gòu)的因素,并建立LASSO回歸,定量分析各因素對我國城鄉(xiāng)居民食物消費(fèi)的影響。
影響居民食物消費(fèi)結(jié)構(gòu)的因素很多,如何從海量數(shù)據(jù)中有效地挖掘出真正的影響因素是值得研究的問題。通常在建立模型之初,會設(shè)定盡可能多的自變量,但在建立模型時(shí)需要有效的自變量集合,自變量的選取是一個(gè)復(fù)雜而重要的問題,而LASSO方法是一個(gè)能夠?qū)崿F(xiàn)有效變量選擇消除多重共線性等問題的估計(jì)方法[10-12]。
LASSO(Least Absolute Shrinkage and Selection Operator)即最小絕對值壓縮選擇算子,是由統(tǒng)計(jì)學(xué)家Tibshirani于1996年提出的,該算法的思想是通過構(gòu)造懲罰函數(shù),使得估計(jì)后一些指標(biāo)的系數(shù)為零,從而實(shí)現(xiàn)指標(biāo)集合精簡的目的。
假設(shè)有線性回歸模型,Y=Xβ+ε,Y為因變量向量,X為自變量矩陣,β= (β1,β2,…βP)為系數(shù)向量,ε為誤差向量。xij為標(biāo)準(zhǔn)化后的自變量數(shù)據(jù),yi為中心化的因變量數(shù)據(jù),其中i= 1,2,…n,j= 1,2,…p。傳統(tǒng)最小二乘估計(jì)為:
而LASSO就是一種L1正則化,加上一個(gè)L1范數(shù)懲罰,即
L1范數(shù)懲罰等價(jià)于
其思想是系數(shù)絕對值總和不能太大,在此前提下運(yùn)用最小二乘的方法,殘差平方和最小。L1正則化的公式?jīng)]有解析解,可通過凸二次規(guī)劃求解,Efron等提出的最小角回歸(Least Angel Regression)可以有效解決這個(gè)問題。L1正則化最顯著的優(yōu)點(diǎn)是在實(shí)現(xiàn)壓縮(shrinkage)的同時(shí)實(shí)現(xiàn)變量選擇,在優(yōu)化求解過程一些系數(shù)βj會達(dá)到零[13-14]。
影響我國城鄉(xiāng)居民食物消費(fèi)結(jié)構(gòu)變化的因素很多,學(xué)者關(guān)注的影響因素也不盡相同。本研究在現(xiàn)有研究文獻(xiàn)的基礎(chǔ)上,選取盡可能全面的影響因素,采用現(xiàn)代變量選擇的方法LASSO,客觀地篩選出食物消費(fèi)結(jié)構(gòu)的真正影響因素,并進(jìn)行定量分析。
在現(xiàn)有研究文獻(xiàn)以及相關(guān)農(nóng)業(yè)經(jīng)濟(jì)學(xué)理論的基礎(chǔ)上[6-9,15],選取 11個(gè)可能影響城鄉(xiāng)居民食物消費(fèi)結(jié)構(gòu)變化的因素,包括人均GDP(X1)、城鎮(zhèn)/農(nóng)村居民消費(fèi)價(jià)格指數(shù)(X2)、人口自然增長率(X3)、城鎮(zhèn)/農(nóng)村居民家庭人均可支配收入(X4)、城鎮(zhèn)/農(nóng)村居民家庭恩格爾系數(shù)(X5)、食品類工業(yè)生產(chǎn)者出廠價(jià)格指數(shù)(X6)、城鎮(zhèn)/農(nóng)村居民家庭人均食品消費(fèi)支出(X7)、城鎮(zhèn)/農(nóng)村居民家庭平均每戶家庭人口(X8)、老齡化率(X9)、人均糧食產(chǎn)量(X10)、食品類商品零售價(jià)格指數(shù)(X11)。其中,城鎮(zhèn)/農(nóng)村居民消費(fèi)價(jià)格指數(shù)、食品類工業(yè)生產(chǎn)者出廠價(jià)格指數(shù)以及食品類商品零售價(jià)格指數(shù)采用的均是前一年數(shù)據(jù)為100。食品類工業(yè)生產(chǎn)者出廠價(jià)格指數(shù)在一定程度上反映了食品工業(yè)的發(fā)展?fàn)顩r,而食品類商品零售價(jià)格指數(shù)則反映的是食品的價(jià)格。平均每戶家庭人口代表的是微觀的人口結(jié)構(gòu),而老齡化率則代表宏觀的社會人口結(jié)構(gòu)狀況。食物消費(fèi)各變量依次以糧食(Y1)、蔬菜(Y2)、食用油(Y3)、肉類(Y4)、蛋類及其制品(Y5)、奶及其制品(Y6)、水產(chǎn)品(Y7)、鮮瓜果(Y8)表示,單位均為公斤。其中農(nóng)村居民食物消費(fèi)中鮮瓜果的數(shù)據(jù)是從2003年開始記錄的,由于數(shù)據(jù)量太少,因此,農(nóng)村居民鮮瓜果(Y8)未進(jìn)行研究。
本研究數(shù)據(jù)來源于各期《中國統(tǒng)計(jì)年鑒》及國家統(tǒng)計(jì)局?jǐn)?shù)據(jù)中心網(wǎng)站,選取的數(shù)據(jù)區(qū)間是1990—2012年。為消除數(shù)據(jù)的量綱影響以及部分消除異方差性,在建模之前首先對存在量綱的數(shù)據(jù)如人均GDP(X1)、城鎮(zhèn)/農(nóng)村居民家庭人均可支配收入(X4)、城鎮(zhèn)/農(nóng)村居民家庭人均食品消費(fèi)支出(X7)、城鎮(zhèn)/農(nóng)村居民家庭平均每戶家庭人口(X8)、人均糧食產(chǎn)量(X10)以及食物消費(fèi)各因變量進(jìn)行對數(shù)化處理,并利用R軟件中的Scale()函數(shù)對數(shù)據(jù)進(jìn)行中心化標(biāo)準(zhǔn)處理。
由于城鄉(xiāng)居民食物消費(fèi)之間存在差異,因此本研究分別對城鎮(zhèn)和農(nóng)村居民食物消費(fèi)結(jié)構(gòu)影響因素進(jìn)行分析。主要通過R軟件利用LARS包進(jìn)行LASSO變量篩選及定量分析。
表1 殘差平方和與Cp統(tǒng)計(jì)量值
以農(nóng)村居民人均糧食消費(fèi)量(Y1)為例詳細(xì)介紹LASSO變量篩選及回歸建模過程。運(yùn)行結(jié)果顯示,只需要13步就可以得到LASSO的全部解,且RSS殘差平方和隨著步驟0到13數(shù)值逐步減小,調(diào)整的R2= 0.994,說明擬合方程比較好。根據(jù)最小角回歸原理,選擇Cp統(tǒng)計(jì)量值最小時(shí)對應(yīng)的擬合方程。表1和圖1顯示,第12步Cp值最小為11.3339,模型最優(yōu),根據(jù)表2結(jié)果,選取 X1、X2、X3、X4、X5、X6、X7、X8、X9、X11等10個(gè)變量。
圖1 LASSO回歸結(jié)果
表2 LASSO回歸的參數(shù)估計(jì)
其他食物消費(fèi)各變量蔬菜(Y2)、食用油(Y3)、肉類(Y4)、蛋類及其制品(Y5)、奶及其制品(Y6)、水產(chǎn)品(Y7)、鮮瓜果(Y8)等LASSO變量篩選及回歸建模過程相同,因此不再詳細(xì)介紹。具體變量篩選及建模結(jié)果見表3和表4,其中表4顯示的是城鎮(zhèn)居民食物消費(fèi)的LASSO變量篩選及回歸結(jié)果。
表3顯示,影響農(nóng)村居民糧食消費(fèi)量的因素很多,除人均糧食產(chǎn)量(X10)外,其他10個(gè)因素均對糧食消費(fèi)量有影響,其中,農(nóng)村居民家庭人均可支配收入的系數(shù)最大、為0.1066,其他影響因素前面的系數(shù)均很小。這表明雖然影響農(nóng)村居民糧食消費(fèi)量的因素有很多,但主要的影響因素是人均可支配收入。且人均可支配收入與糧食消費(fèi)量之間存在正相關(guān),收入增加,糧食的消費(fèi)量也隨之增加。但是,從表4可以看出,人均可支配收入并不是城鎮(zhèn)居民糧食消費(fèi)量的影響因素。農(nóng)村居民可支配收入低于城鎮(zhèn)居民可支配收入,由此推斷,人均可支配收入只是在收入水平較低的時(shí)候?qū)Z食消費(fèi)有影響,當(dāng)收入水平達(dá)到一定程度時(shí),人們對糧食的消費(fèi)會趨于穩(wěn)定,人均可支配收入便不再對居民糧食消費(fèi)產(chǎn)生影響。
表3 農(nóng)村居民食物消費(fèi)LASSO回歸結(jié)果
表4 城鎮(zhèn)居民食物消費(fèi)LASSO回歸結(jié)果
影響城鎮(zhèn)和農(nóng)村居民蔬菜消費(fèi)量的主要因素是農(nóng)村居民消費(fèi)價(jià)格指數(shù),兩者之間存在負(fù)相關(guān)性。居民消費(fèi)價(jià)格指數(shù)一定程度上代表了通貨膨脹率,表明在通貨膨脹時(shí)期,蔬菜價(jià)格上漲,農(nóng)村居民會適當(dāng)減少對蔬菜的消費(fèi)量。影響農(nóng)村居民食用油消費(fèi)的主要因素是人均可支配收入,但該因素卻不是城鎮(zhèn)居民食用油消費(fèi)量的影響,這與居民糧食消費(fèi)的主要影響因素相同,可以解釋為居民收入水平較低時(shí),收入增加居民改善生活,會增加食用油的消費(fèi),當(dāng)收入提高到一定程度,生活水平步入小康之后,人均可支配收入便不再對居民的食用油消費(fèi)量產(chǎn)生影響。影響農(nóng)村居民肉類消費(fèi)量的主要因素是恩格爾系數(shù),兩者呈負(fù)相關(guān),恩格爾系數(shù)越小,代表人民生活越富裕,生活水平越高,自然消費(fèi)肉類等高蛋白高品質(zhì)食物的數(shù)量就增加,這與預(yù)期結(jié)果相符。但是影響城鎮(zhèn)居民肉類消費(fèi)量的主要因素卻是老齡化率,兩者存在正相關(guān),老年人口越多,肉類的消費(fèi)量增加。對于老年人而言,容易存在“三高”問題,因此適宜清淡飲食。但結(jié)果顯示,隨著老年率的提高,肉類消費(fèi)量卻在增加,表明目前國內(nèi)老年人的飲食結(jié)構(gòu)尚不合理,存在熱量攝入過高的問題。
對于農(nóng)村居民蛋類消費(fèi)量的主要影響因素是人均可支配收入,農(nóng)村居民收入增加改善生活的方式是增加蛋類的消費(fèi)量。但是該因素對城鎮(zhèn)居民蛋類消費(fèi)并沒有影響,再次說明人均可支配收入只是在收入水平較低時(shí)對居民蛋類消費(fèi)量有影響,當(dāng)收入提高到一定程度時(shí),該影響便消失了。影響農(nóng)村居民奶類消費(fèi)量的影響因素較多,除人均GDP外,均對奶類消費(fèi)產(chǎn)生影響,其中人均可支配收入、恩格爾系數(shù)、家庭人口、老齡化率等均對奶類的消費(fèi)產(chǎn)生影響。其中人均可支配收入是最主要的影響因素,其前面的系數(shù)為-0.929,兩者之間存在負(fù)的相關(guān)性,居民收入提高奶的消費(fèi)量反而減少,與預(yù)期不符。側(cè)面說明農(nóng)村居民奶類消費(fèi)是受多個(gè)因素共同影響的,不能單一而論。農(nóng)村居民水產(chǎn)品消費(fèi)的主要影響因素是家庭人口,家庭人口越多,水產(chǎn)品的消費(fèi)就越多。城鎮(zhèn)居民水產(chǎn)品消費(fèi)的主要影響因素是恩格爾系數(shù),恩格爾系數(shù)越低,家庭越富有,水產(chǎn)品的消費(fèi)越多。對城鎮(zhèn)居民水果消費(fèi)量產(chǎn)生影響的主要因素是人口增長率、家庭人口、老齡化率等,表明人口結(jié)構(gòu)變化對于鮮瓜果的消費(fèi)具有一定影響。
綜上所述,農(nóng)村居民和城鎮(zhèn)居民的食物消費(fèi)影響因素各不相同,不同食物之間的影響因素也不盡相同。人均可支配收入只對農(nóng)村居民的糧食、油、蛋以及奶產(chǎn)生影響,對城鎮(zhèn)居民的食物消費(fèi)均未產(chǎn)生影響。人均GDP只對農(nóng)村居民的糧食消費(fèi)產(chǎn)生影響,且不是主要影響因素,對城鎮(zhèn)居民的各食物消費(fèi)均未產(chǎn)生影響。
在現(xiàn)有文獻(xiàn)研究的基礎(chǔ)上,本研究綜合選取可能對農(nóng)村和城鎮(zhèn)居民食物消費(fèi)結(jié)構(gòu)產(chǎn)生影響的11個(gè)因素,利用現(xiàn)代變量篩選LASSO方法分別選擇出城鄉(xiāng)居民不同食物消費(fèi)的影響因素。得到如下結(jié)論:(1)城鄉(xiāng)居民間食物消費(fèi)的影響因素各不相同,不同類別食物之間的影響因素也不盡相同;(2)人均GDP這一宏觀變量對城鄉(xiāng)居民的食物消費(fèi)結(jié)構(gòu)影響較小,只對農(nóng)村居民的糧食消費(fèi)產(chǎn)生微弱的影響;(3)人均可支配收入對農(nóng)村居民的糧食、油、蛋以及奶等的消費(fèi)產(chǎn)生影響,但對城鎮(zhèn)居民的所有食物消費(fèi)均未產(chǎn)生影響,表明人均可支配收入只是在收入水平較低時(shí)對居民的食物消費(fèi)產(chǎn)生影響,收入增加居民改善生活,會增加部分食物的消費(fèi),當(dāng)收入提高到一定程度,生活水平步入小康之后,人均可支配收入便不再對居民的食物消費(fèi)產(chǎn)生影響;(4)影響城鄉(xiāng)居民蔬菜消費(fèi)的主要因素是居民消費(fèi)價(jià)格指數(shù),兩者之間存在負(fù)相關(guān)性。消費(fèi)價(jià)格指數(shù)代表通貨膨脹率,通脹率提高,居民蔬菜消費(fèi)減少;(5)影響城鎮(zhèn)居民肉類消費(fèi)的主要因素為人口老齡化率,老年人口增加,肉類消費(fèi)量增加,這表明國內(nèi)老年人的飲食并不健康,存在熱量攝入過高的問題。
[1] 孫君茂,郭燕枝,苗水清. 馬鈴薯饅頭對中國居民主食營養(yǎng)結(jié)構(gòu)改善分析[J]. 中國農(nóng)業(yè)科技導(dǎo)報(bào),2015,17(6):64-69.
[2] 衛(wèi)生計(jì)生委等介紹《中國居民營養(yǎng)與慢性病狀況報(bào)告(2015)》有關(guān)情況[EB /OL].http://www. Gov. cn/xinwen /2015-06-30/content_2887030. htm,2015-06-30.
[3] 喻聞,許世衛(wèi). 2012年中國農(nóng)村居民食物消費(fèi)分析[J]. 農(nóng)業(yè)展望,2012,10:52-55.
[4] 張玉梅,王東杰,吳建寨,等. 收人和價(jià)格對農(nóng)戶消費(fèi)需求的影響—— 基于全國農(nóng)村住戶調(diào)查的實(shí)證分析[J]. 系統(tǒng)科學(xué)與數(shù)學(xué),2013(1):118-125.
[5] 王東杰. 我國城鎮(zhèn)不同收入階層居民食物消費(fèi)結(jié)構(gòu)升級研究[D]. 北京:中國農(nóng)業(yè)科學(xué)院,2012.
[6] 郭娟. 我國居民食品消費(fèi)結(jié)構(gòu)的變化及影響因素研究[D]. 無錫:江南大學(xué),2009.
[7] 李朋華,張潤清. 河北省農(nóng)村居民食物消費(fèi)結(jié)構(gòu)影響因素的實(shí)證分析[J]. 廣東農(nóng)業(yè)科學(xué),2011(10):196-198.
[8] 張沛琪. 江蘇省糧食消費(fèi)影響因素分析與中長期糧食生產(chǎn)—消費(fèi)平衡預(yù)測—— 以近10年為例[D]. 南京:南京農(nóng)業(yè)大學(xué),2013.
[9] 劉莉. 海峽兩岸居民食物消費(fèi)結(jié)構(gòu)比較研究[D]. 北京:中國農(nóng)業(yè)科學(xué)院,2015.
[10] 海豹,李仕明,劉洛如,等. 現(xiàn)代變量選擇方法在青少年近視研究中的應(yīng)用[J]. 中國科學(xué)院大學(xué)學(xué)報(bào),2015,2(6):728-734.
[11] 楊麗娟,馬云艷. 基于Lasso類方法在時(shí)間序列變量選擇中的應(yīng)用[J]. 魯東大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,32(1):14-18.
[12] 喻勝華,張靜. 基于Lasso和BP神經(jīng)網(wǎng)絡(luò)的組合預(yù)測及其應(yīng)用—— 以居民消費(fèi)支出預(yù)測為例[J]. 財(cái)經(jīng)理論與實(shí)踐(雙月刊),2016,37(199):123-128.
[13] Efron B,Hastie T,Johnstone I,et al. Least Angle Regression[J]. Ann. Statist. ,2004(32):407-499.
[14] Tibshirani R.Regression shrinkage and selection via the Lasso[J]. Journal of the Royal Statistical Society:Series B(Methodological),1996,58(1):267-288.
[15] 朱高林. 中國城鎮(zhèn)居民食品消費(fèi)結(jié)構(gòu)的基本趨勢探析[J]. 現(xiàn)代經(jīng)濟(jì)探討,2006(11):87-91.