孫 燕,胡美娣
(上海財(cái)經(jīng)大學(xué)a.經(jīng)濟(jì)學(xué)院;b.數(shù)理經(jīng)濟(jì)學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,上海 200434)
許多個(gè)體和企業(yè)的決策需要基于相關(guān)經(jīng)濟(jì)理論揭示其經(jīng)濟(jì)關(guān)系與經(jīng)濟(jì)活動(dòng)的數(shù)量規(guī)律,而經(jīng)濟(jì)理論涉及的很多變量往往是無(wú)法直接觀測(cè)到的,如永久收入、效用、能力和預(yù)期等。在永久收入假說(shuō)中,可假定記錄的某個(gè)個(gè)體收入是從某個(gè)潛在的、期望為“永久性收入”的收入總體中取出的一個(gè)樣本,因此用記錄的收入來(lái)測(cè)度永久性收入存在著測(cè)量誤差。微觀調(diào)查數(shù)據(jù)也往往存在著上面提到的“誤差”[1],故隨著基于微觀調(diào)查數(shù)據(jù)的研究的急劇增加,能處理測(cè)量誤差的計(jì)量方法變得越來(lái)越重要。這是因?yàn)楹雎詼y(cè)量誤差很可能會(huì)產(chǎn)生內(nèi)生性問(wèn)題,導(dǎo)致模型參數(shù)估計(jì)的非一致性[2],從而很可能會(huì)掩蓋變量之間的真實(shí)關(guān)系,由此得到的推斷也是不正確的。如在多數(shù)商品消費(fèi)研究中發(fā)現(xiàn)的“increasing dispersion”現(xiàn)象[3],即隨著總消費(fèi)X的增加,某商品消費(fèi)Y的波動(dòng)幅度增大(Var(Y|X)隨X的增大而增大),并基于這樣的行為特征導(dǎo)出了商品需求規(guī)律。但Nadai和Lewbel[4]的最新研究發(fā)現(xiàn)“increasing dispersion”現(xiàn)象事實(shí)上部分是由測(cè)量誤差引起的,并不能完全用個(gè)人消費(fèi)行為特征進(jìn)行解釋,這對(duì)政策制定有重要的含義。又如陳琳[5]在我國(guó)城鎮(zhèn)代際收入彈性的估計(jì)中糾正了測(cè)量誤差,由此識(shí)別出了純粹由收入因素導(dǎo)致的變動(dòng)關(guān)系。
另一方面,實(shí)際應(yīng)用中許多經(jīng)濟(jì)變量之間很可能存在著非線性的關(guān)系,有很多學(xué)者研究了解釋變量帶測(cè)量誤差的非線性模型的估計(jì)[6,7],但實(shí)際問(wèn)題研究中非線性模型設(shè)定的依據(jù)往往并不充分,因此很可能存在模型設(shè)定偏誤問(wèn)題。于是很多學(xué)者開(kāi)始考慮非參數(shù)測(cè)量誤差模型的估計(jì)問(wèn)題,如Fan和Truong[8]在測(cè)量誤差分布已知的條件下,利用核卷積方法建立了非參數(shù)函數(shù)的估計(jì);Schennach[9]及Hu和Sasaki[10]則在能夠得到解釋變量的另一個(gè)不精確觀測(cè)條件下,驗(yàn)證了非參數(shù)函數(shù)的可識(shí)別性,并基于此建立了非參數(shù)估計(jì);Nadai和Lewbe[4]基于工具變量驗(yàn)證了非參數(shù)函數(shù)的可識(shí)別性,并基于廣義矩(GMM)方法建立了非參數(shù)部分的估計(jì)。雖然非參數(shù)函數(shù)的設(shè)定具有很好的靈活性,但當(dāng)解釋變量個(gè)數(shù)較多時(shí)會(huì)遭遇“維數(shù)詛咒”問(wèn)題,因此難以在實(shí)際應(yīng)用中得到廣泛應(yīng)用。
半?yún)?shù)模型既能充分利用現(xiàn)有信息,把與被解釋變量有明確關(guān)系的這部分解釋變量或控制變量設(shè)為參數(shù)形式,又能把與被解釋變量關(guān)系不夠明確的或者是研究感興趣的這部分解釋變量設(shè)為非參數(shù)形式,這種非參數(shù)的設(shè)定也為實(shí)際應(yīng)用中參數(shù)設(shè)定是否合理提供了數(shù)據(jù)證據(jù)和檢驗(yàn)的框架。關(guān)于半?yún)?shù)測(cè)量誤差模型的研究,Liang[11]在測(cè)量誤差分布已知的條件下,給出了非參部分帶測(cè)量誤差的部分線性模型的估計(jì);李小莉[12]則基于帶測(cè)量誤差的解釋變量的輔助信息,研究了幾種半?yún)?shù)模型的估計(jì)問(wèn)題,但她們僅考慮了線性解釋變量部分帶測(cè)量誤差但非參數(shù)部分不帶測(cè)量誤差的情形的估計(jì),且其提出的輔助信息在經(jīng)濟(jì)學(xué)問(wèn)題中難以獲得。
綜上,為了得到解釋變量存在測(cè)量誤差時(shí)模型未知部分的一致估計(jì),需要新增假定條件,該條件往往被稱為識(shí)別條件,如測(cè)量誤差分布已知、存在解釋變量的另一個(gè)不精確度量或者工具變量等。統(tǒng)計(jì)學(xué)和計(jì)量中關(guān)于測(cè)量誤差模型的研究,較大的差異是模型的識(shí)別條件,由此建立了不同的估計(jì)?,F(xiàn)有統(tǒng)計(jì)學(xué)中的識(shí)別條件概括而言有誤差分布已知、誤差方差已知或存在大量重復(fù)不精確觀測(cè),這些條件在經(jīng)濟(jì)學(xué)問(wèn)題的研究中往往不成立。不同于現(xiàn)有文獻(xiàn),本文將探討基于微觀經(jīng)濟(jì)數(shù)據(jù)的非參數(shù)部分帶測(cè)量誤差的部分線性模型,借鑒Schennach[9]的識(shí)別方法,基于核估計(jì)、Fourier變換和特征函數(shù)建立了模型中未知部分的估計(jì),并將其運(yùn)用于我國(guó)城鎮(zhèn)居民食品消費(fèi)與收入關(guān)系的研究中,試圖識(shí)別出純粹由于永久收入變動(dòng)導(dǎo)致的商品消費(fèi)變動(dòng)的影響效應(yīng)。
本文考慮如下非參部分帶測(cè)量誤差的部分線性模型:
其中y為解釋變量;z∈R是本文感興趣的解釋變量,但z的觀測(cè)帶有測(cè)量誤差,即觀測(cè)到的是w1,u1為不可觀測(cè)的測(cè)量誤差;g(·)為未知光滑函數(shù);x∈Rp為其他p個(gè)解釋變量或控制變量(不含常數(shù)項(xiàng)),β∈Rp為未知回歸系數(shù);ε為隨機(jī)誤差項(xiàng)。模型(1)既充分利用了先驗(yàn)信息,又具有一定的靈活性,也為實(shí)證應(yīng)用中常見(jiàn)的g(·)的線性設(shè)定是否準(zhǔn)確提供了一個(gè)檢驗(yàn)的框架,本文感興趣的正是g(·)的估計(jì)。
雖然本文假定x不存在測(cè)量誤差,但事實(shí)上若x中也存在測(cè)量誤差,只要x中的測(cè)量誤差與z獨(dú)立,則x中的測(cè)量誤差并不會(huì)影響g(·)的估計(jì)。同樣地,若解釋變量y中的測(cè)量誤差與x,z獨(dú)立,則y中的測(cè)量誤差也不會(huì)影響g(·)的估計(jì)。為簡(jiǎn)單計(jì),本文假定y中也不存在測(cè)量誤差。
由于模型(1)中的解釋變量z存在測(cè)量誤差,故僅基于(y,w1,x)的觀測(cè)樣本和現(xiàn)有條件是無(wú)法唯一確定未知函數(shù)g(·)的。同文獻(xiàn)[9],本文假定可以得到z的另一個(gè)不精確測(cè)量w2:w2=z+u2,其中u2的期望可以為非零,如微觀調(diào)查中上一年度的收入數(shù)據(jù)。若進(jìn)一步假定E(ε|x,z,u2)=0,E(u1|z,u2)=0,z與u2相互獨(dú)立,則由文獻(xiàn)[9]定理 1及文獻(xiàn)[10]定理1可得,基于樣本 (y,w1,w2,x),模型(1)中的未知函數(shù)g(z)是唯一確定的(即是可識(shí)別的)。
為了得到非參部分g(z)的估計(jì),本文采用二步估計(jì)方法,即先假定回歸系數(shù)β已知,利用非參數(shù)測(cè)量誤差模型的估計(jì)方法得到g(·)的初始估計(jì),然后將其代入模型(1)并利用非線性最小二乘法得到β的估計(jì),最后將代入得到g(·)的最終估計(jì)。具體地:
步驟1:假定參數(shù)β已知,(w,w,xj)為樣本數(shù)據(jù),則可得g(·)的初始估計(jì)為(其估計(jì)過(guò)程見(jiàn)下文):
κ(·)表示核函數(shù)K(·)的Fourier變換。
步驟2:將估計(jì)式(2)代入模型(1),并利用非線性最小二乘法可得β的估計(jì)為:
求解該最小化問(wèn)題可得:
其中:
步驟3:將式(3)代入式(2)即可得g(·)的最終估計(jì)。
回歸系數(shù)β已知時(shí),上文給出的非參數(shù)函數(shù)估計(jì)式(2)并不是顯而易見(jiàn)的,本文將給出式(2)的估計(jì)過(guò)程。若模型(1)中的z可觀測(cè),則在回歸系數(shù)β已知時(shí),模型(1)中非參數(shù)函數(shù)g(·)在點(diǎn)τ處的常見(jiàn)核估計(jì)為式(4)的矩估計(jì):
其中Y=y-xTβ,Kh(·)=K(·/h)/h,K(·)為核函數(shù),h為窗寬。
這里的問(wèn)題是z是無(wú)法觀測(cè)的,能觀測(cè)到的是存在測(cè)量誤差的w1和另一個(gè)不精確度量w2。綜合借鑒文獻(xiàn)[8]、文獻(xiàn)[9]定理1的方法,本文將基于式(4)給出式(2)中g(shù)(·)的初始估計(jì)。具體地:
其中fz(·)為z的密度函數(shù)。記i=,則K(·)的Fourier變換為
故
將其代入式(5),通過(guò)變量代換及積分順序交換可得:
同理可得式(6)可化為:
其中?z(t)=E(eitz)為隨機(jī)變量z的特征函數(shù)。
下面結(jié)合文獻(xiàn)[9]定理1和文獻(xiàn)[10]定理1的方法給出式(7)、式(8)中 未 知 部 分E(Yeiωz)和?z(t)的 基 于(y,w1,w2,x)的表達(dá)式。
因?yàn)閣2=z+u2,z與u2相互獨(dú)立,故基于特征函數(shù)性質(zhì)可得:
又經(jīng)計(jì)算可得二維隨機(jī)變量(w1,w2)的特征函數(shù)為?w1w2(t2)=E(eit1w1+it2w2),于是由E(u1|z,u2)=0 ,z與u2相互獨(dú)立可得:
同理由 (Y,w2)的特征函數(shù)?Yw2(t,t2)=E(eitY+it2w2),式(9)及條件E(ε|z,u2)=0,z與u2相互獨(dú)立,可導(dǎo)出:
將式(11)、(12)分別代入式(7)、(8),并用樣本矩替換總體矩即可得估計(jì)式(2)。
下面將采用Monte Carlo模擬研究驗(yàn)證估計(jì)量在實(shí)際運(yùn)行中的表現(xiàn)。數(shù)據(jù)真實(shí)生成過(guò)程為:y=xTβ+g(z)+ε,β=0.75,w1=z+u1,w2=z+u2,本文能觀測(cè)到的就是(y,w1,w2,x)的數(shù)據(jù)??紤]如下三個(gè)不同非參數(shù)函數(shù)設(shè)定的數(shù)值模擬例子:
例1:
例2:
例3:
在這三個(gè)例子中,考察了不同的非參數(shù)函數(shù)設(shè)定形式,且在第二個(gè)例子中,允許第二個(gè)觀測(cè)的測(cè)量誤差u2均值不為0。另外,在上述三個(gè)模擬例子中,帶測(cè)量誤差部分的解釋變量其信號(hào)噪音比為4:1,觀測(cè)到的數(shù)據(jù)中測(cè)量誤差占比20%,應(yīng)該不算太大。分別從相應(yīng)的模型中獨(dú)立抽取樣本容量n=200,500的樣本,重復(fù)抽取500次,生成樣本容量相同的500個(gè)仿真數(shù)據(jù)集。基于文中的估計(jì)方法,使用Silverman[13]提出的經(jīng)驗(yàn)準(zhǔn)則選擇帶寬h,即h=1.06*σ^*n-1/5,其中σ^是w1的樣本標(biāo)準(zhǔn)差。
為了比較本文估計(jì)的效果,在模擬計(jì)算中本文還分別給出了無(wú)測(cè)量誤差的核估計(jì)(即將z的數(shù)據(jù)代入)作為基準(zhǔn),并與帶測(cè)量誤差的核估計(jì)(即將z替換為w1)進(jìn)行對(duì)比。這里同樣使用兩步法給出這兩個(gè)核估計(jì),即:
步驟1:假定參數(shù)β已知,利用NW核估計(jì)方法,得到g(·)的初始估計(jì):
步驟2:將非參數(shù)初始估計(jì)式(13)代入模型(1),并利用非線性最小二乘法可得β的估計(jì)為:
步驟3:將式(3)代入式(2)即可得g(·)的最終估計(jì)。
無(wú)測(cè)量誤差下g(·)的核估計(jì)為用各zj替換上述步驟中相應(yīng)的vj(記為NW noerror);而帶測(cè)量誤差的g(·)核估計(jì)為用各w替換上述步驟中相應(yīng)的vj(記為NW error)。本文NW估計(jì)均采用標(biāo)準(zhǔn)正態(tài)核,估計(jì)結(jié)果如圖1至圖6所示,其中從左至右分別是本文的估計(jì)、NW error的估計(jì)和NW noerror估計(jì)。圖中實(shí)線表示函數(shù)真實(shí)值,五條虛線從上至下分別表示非參數(shù)估計(jì)的90th、70th、50th、30th、10th分位數(shù)。由圖可見(jiàn),本文非參估計(jì)的中位線幾乎與真值重合,且比不考慮測(cè)量誤差的NW error估計(jì)偏差小,尤其在曲線的曲率比較大的地方表現(xiàn)得更為明顯。而且在本文的例子中,可觀測(cè)數(shù)據(jù)中的測(cè)量誤差占比較小為20%,可見(jiàn)測(cè)量誤差的存在導(dǎo)致NW error的核估計(jì)偏差較大,尤其在非線性部分偏差更大。顯然,隨著樣本容量的增大,本文提出的非參數(shù)部分估計(jì)越來(lái)越靠近真實(shí)曲線。
圖1 g(z)=sin(z)時(shí)非線性部分估計(jì)結(jié)果(N=200)
圖2 g(z)=sin(z)時(shí)非線性部分估計(jì)結(jié)果(N=500)
圖3 g(z)=exp(z)/(1+exp(z))時(shí)非線性部分估計(jì)結(jié)果(N=200)
圖4 g(z)=exp(z)/(1+exp(z))時(shí)非線性部分估計(jì)結(jié)果(N=500)
圖5 g(z)=-z2/4時(shí)非線性部分估計(jì)結(jié)果(N=200)
圖6 g(z)=-z2/4時(shí)非線性部分估計(jì)結(jié)果(N=500)
根據(jù)Friedman[14]的永久收入假說(shuō),消費(fèi)僅依賴于家庭的永久收入。然而,由于永久收入是不可觀測(cè)的,研究者們往往使用家庭的歷史或者當(dāng)前收入作為其觀測(cè)值,顯然數(shù)據(jù)中存在著測(cè)量誤差。本文將基于中國(guó)居民收入調(diào)查數(shù)據(jù)庫(kù)(縮寫CHIP)2002年城鎮(zhèn)居民的數(shù)據(jù),利用模型(1)研究食品消費(fèi)與收入的關(guān)系。本文假定收入消費(fèi)的函數(shù)形式g(·)未知,這種非參數(shù)的設(shè)定方法能給實(shí)證應(yīng)用中參數(shù)形式的設(shè)定是否準(zhǔn)確提供數(shù)據(jù)證據(jù)。除了收入之外,還有其他因素會(huì)影響消費(fèi),如袁志剛和宋錚[15]認(rèn)為人口年齡結(jié)構(gòu)的變化改變了城鎮(zhèn)居民的消費(fèi)行為。因此本文在模型中加入了人口結(jié)構(gòu)的控制變量。由于我國(guó)國(guó)土遼闊,各地區(qū)經(jīng)濟(jì)發(fā)展水平、消費(fèi)習(xí)慣和客觀環(huán)境不同,因此,將分東、中、西三組分別探討城鎮(zhèn)居民家庭食品消費(fèi)與收入的關(guān)系。
家庭人口結(jié)構(gòu)變量包含家庭人口年齡結(jié)構(gòu)變化和人口總數(shù)變化兩個(gè)概念,根據(jù)邵鋼[16]對(duì)不同的年齡組食品消費(fèi)水平的系數(shù)假設(shè),本文將家庭成員按年齡分成兒童組:0~14歲、成人組:15~60歲以及老人組:60+歲,并將兒童組和老年組都按0.8折算成標(biāo)準(zhǔn)人,對(duì)家庭內(nèi)所有成員按標(biāo)準(zhǔn)人進(jìn)行加總得到家庭總標(biāo)準(zhǔn)人量,并取對(duì)數(shù)作為本文家庭人口結(jié)構(gòu)變量。收入是家庭總年收入(元/年),消費(fèi)是家庭總年消費(fèi)(元/年)。本文刪掉了其中有缺失數(shù)據(jù)的樣本。數(shù)據(jù)描述性統(tǒng)計(jì)見(jiàn)表1。
表1 數(shù)據(jù)的描述性統(tǒng)計(jì)
基于模型(1),其中g(shù)(·)表示控制人口結(jié)構(gòu)后,東中西三地區(qū)的永久收入與食品消費(fèi)的關(guān)系,其斜率表示食品消費(fèi)的收入彈性;利用上文的估計(jì)方法得東中西三地區(qū)的永久收入對(duì)數(shù)與食品支出對(duì)數(shù)關(guān)系g(·)估計(jì)如圖7所示。由此可見(jiàn),各個(gè)地區(qū)食品支出對(duì)數(shù)與家庭收入對(duì)數(shù)關(guān)系大體呈線性關(guān)系,這也驗(yàn)證了在食品消費(fèi)與收入關(guān)系研究中的對(duì)數(shù)線性模型設(shè)定是合理的。且在相同收入水平下,中部地區(qū)食品支出最少;而在低收入和高收入水平下,東部地區(qū)食品支出最多。程蘭芳[17]將東部地區(qū)2002年食品支出比重大的原因歸于東部地區(qū)在肉禽品、奶制品以及外用餐等項(xiàng)上消費(fèi)支出遠(yuǎn)遠(yuǎn)高于中西部地區(qū)。而中部地區(qū)收入水平較低,因而物價(jià)水平更低,從而導(dǎo)致相同收入水平下,中部地區(qū)家庭食品支出最小。
圖7 家庭食品支出對(duì)數(shù)與家庭收入對(duì)數(shù)關(guān)系
測(cè)量誤差的存在往往導(dǎo)致模型存在內(nèi)生性問(wèn)題,忽略它將使得線性和非線性模型的估計(jì)非一致,因此,本文研究了非參部分帶測(cè)量誤差的部分線性模型的估計(jì),該模型的設(shè)定具有很大的靈活性,能防止模型設(shè)定偏誤導(dǎo)致感興趣變量估計(jì)的非一致性,也為實(shí)證應(yīng)用中參數(shù)形式的設(shè)定是否合理提供了數(shù)據(jù)檢驗(yàn)的方法。本文在帶測(cè)量誤差的解釋變量存在另一不精確度量的前提下,結(jié)合核估計(jì)、Fourier變換和特征函數(shù)方法建立了非參數(shù)部分的兩步估計(jì)。蒙特卡洛模擬結(jié)果表明本文的估計(jì)量在估計(jì)非線性部分時(shí)更好,偏差較小。最后本文將該模型及方法運(yùn)用于我國(guó)城鎮(zhèn)家庭食品消費(fèi)與收入關(guān)系的估計(jì)上,結(jié)果發(fā)現(xiàn)樣本數(shù)據(jù)支持對(duì)數(shù)線性模型的設(shè)定,更嚴(yán)格的統(tǒng)計(jì)檢驗(yàn)有待進(jìn)一步的研究。
參考文獻(xiàn):
[1] Griliches Z.Economic Data Issues,in:Z.Griliches and M.D.Intriliga?tor,eds.[M].Amsterdam:North-Holland,1986.
[2] Fuller W.Measurement Error Model[M].New York:Wiley,1987.
[3] Hildenbrand W.Market Demand:Theory and Empirical Evidence[M].New Jersey:Princeton University Press,1994.
[4] Nadai M,Lewbel A.Nonparametric Errors in Variables Models With Measurement Errors on Both Sides of the Equation[J].Journal of Econometrics,2016,(191).
[5] 陳琳.中國(guó)城鎮(zhèn)代際收入彈性研究:測(cè)量誤差的糾正和收入影響的識(shí)別[J].經(jīng)濟(jì)學(xué)(季刊),2015,(1).
[6] Carroll R J,Ruppert D,Stefanski L A.Nonlinear Measurement Error Models[M].New York:Chapman and Hall,1995.
[7] Schennach S M.Instrument Variable Estimation of Nonparametric models[J].Econometrica,2007,(75).
[8] Fan J,Truong Y K.Nonparametric Regression With Errors in Vari?ables[J].Annals of Statistics,1993,(3).
[9] Schennach S M.Nonparametric Regression in the Presence of Mea?surement Error[J].Econometric Theory,2004,(20).
[10] Hu Y Y,Sasaki Y.Closed-form Estimation of Nonparametric Mod?els With Non-classical Measurement Errors[J].Journal of Economet?rics,2015,(185).
[11] Liang H.Asymptotic Normality of Parametric Part in Partially Linear Models With Measurement Error in the Nonparametric Part[J].Jour?nal of Statistical Planning and Inference,2000,(86).
[12] 李小莉.帶測(cè)量誤差的半?yún)?shù)以及結(jié)構(gòu)非參數(shù)模型的統(tǒng)計(jì)推斷[D].上海:上海財(cái)經(jīng)大學(xué)博士學(xué)位論文,2012.
[13] Silverman B W.Density Estimation for Statistics and Data Analysis[M].London:Chapman and Hall,1986.
[14] Friedman M.A Theory of the Consumption Function[M].Princeton:Princeton University Press,1957.
[15] 袁志剛,宋錚.人口年齡結(jié)構(gòu)、養(yǎng)老金保險(xiǎn)制度與最優(yōu)儲(chǔ)蓄率[J].經(jīng)濟(jì)研究,2000,(11).
[16] 韶鋼.家庭構(gòu)成對(duì)恩格爾曲線的影響[J].數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究,1985,(10).
[17] 程蘭芳.中國(guó)城鎮(zhèn)居民家庭經(jīng)濟(jì)結(jié)構(gòu)研究[D].北京:首都經(jīng)濟(jì)貿(mào)易大學(xué)博士學(xué)位論文,2004.