楊夕冉
(西南交通大學(xué)數(shù)學(xué)學(xué)院,四川 成都 610031)
低收入比例是世界各國公認(rèn)的用于描述收入分配不平等的一個(gè)重要指標(biāo),它常被用來評(píng)價(jià)人類社會(huì)的經(jīng)濟(jì)和貧困狀況,這一指標(biāo)的準(zhǔn)確估計(jì)對(duì)政府制定經(jīng)濟(jì)政策有著重要作用。設(shè)X為非負(fù)的連續(xù)收入隨機(jī)變量,其分布函數(shù)為F(x),密度函數(shù)為f(x),隨機(jī)變量X的分位數(shù)是ξβ,即ξβ=F-1(β)。低收入比例是指ξβ的關(guān)于給定α部分的人口收入的比例,其中0<α,β<1,低收入比例的表達(dá)式為θαβ=P(X≤αξβ)=F(αξβ),其中αξβ定義為低收入線[1]。
低收入比例的準(zhǔn)確估計(jì)對(duì)政府制定經(jīng)濟(jì)政策有著重要作用,因此許多學(xué)者對(duì)低收入比例進(jìn)行了研究,如Preston[1]和Zheng[2]根據(jù)經(jīng)驗(yàn)分布函數(shù)得到了低收入比例的估計(jì),并且證明了低收入比例在大樣本情況下其估計(jì)具有漸近正態(tài)性。然而在實(shí)際數(shù)據(jù)分析中效果往往并不理想,因?yàn)槭杖氤3J怯衅珨?shù)據(jù),在此基礎(chǔ)上產(chǎn)生了經(jīng)驗(yàn)似然方法。有關(guān)經(jīng)驗(yàn)似然更詳細(xì)的介紹推薦Owen[3]所撰寫的專著,Lei等[4]在此基礎(chǔ)上使用了Bootstrap方法對(duì)低收入比例進(jìn)行估計(jì)。Yang等[5]在Lei的基礎(chǔ)上考慮使用經(jīng)驗(yàn)似然方法來對(duì)低收入比例進(jìn)行估計(jì),并證明了經(jīng)驗(yàn)似然比的極限分布是服從帶未知參數(shù)的卡方分布。Yin[6]對(duì)有刪失數(shù)據(jù)的低收入比例使用刀切經(jīng)驗(yàn)似然法來構(gòu)造置信區(qū)間。Luo等[7]提出了使用刀切法來處理低收入比例,并且證明了在光滑的刀切經(jīng)驗(yàn)似然情況下低收入比例的經(jīng)驗(yàn)似然比的極限分布是服從標(biāo)準(zhǔn)的卡方分布。文獻(xiàn)[7]中提出的刀切經(jīng)驗(yàn)似然方法需要使用交叉驗(yàn)證進(jìn)行核函數(shù)窗寬的估計(jì),為了避免對(duì)窗寬進(jìn)行選取,通過查閱文獻(xiàn)發(fā)現(xiàn)Molanes等[8]證明了當(dāng)目標(biāo)函數(shù)在估計(jì)值附近為非光滑,其期望在估計(jì)值附近為光滑時(shí),目標(biāo)函數(shù)估計(jì)值的經(jīng)驗(yàn)似然比函數(shù)是服從標(biāo)準(zhǔn)的卡方分布。
文獻(xiàn)[8]中提出的方法避免了核函數(shù)以及窗寬的選擇,借鑒文獻(xiàn)[8]中的方法,我們證明了低收入比例的經(jīng)驗(yàn)似然比是服從標(biāo)準(zhǔn)的卡方分布。
設(shè)X1,X2,…,Xn為來自總體X的簡單隨機(jī)抽樣,由低收入比例的定義知
θαβ=P(X≤αξβ)=F(αξβ)=E[I(X≤αξβ)],
即有E[I(X≤αξβ)]-θαβ=0,同理由F(ξβ)=β有E[I(X≤ξβ)]-β=0。為了書寫方便,將感興趣的參數(shù)θαβ當(dāng)成目標(biāo)參數(shù)并記為θ,將不感興趣的參數(shù)ξβ當(dāng)做多余參數(shù)并記為ξ,根據(jù)經(jīng)驗(yàn)似然方法,關(guān)于未知參數(shù)θ、ξ,經(jīng)驗(yàn)似然函數(shù)可表示為
(1)
其中:g1=I(X≤αξβ)-θαβ,g2=I(X≤ξβ)-β。
利用標(biāo)準(zhǔn)的Lagrange乘數(shù)法,可以得到
i=1,…,n
(2)
其中:λj(θ,ξ)是Lagrange乘子,滿足
(3)
關(guān)于未知參數(shù)θ、ξ,經(jīng)驗(yàn)對(duì)數(shù)似然比函數(shù)形式為
l(θ,ξ)=-2log R(θ,ξ)=
(4)
(5)
構(gòu)造矩陣
其中:
記
g(X,θ0,ξ)=(g1(X,θ0,ξ)g2(X,θ0,ξ))。
給出以下正則條件:
(C0) 存在ξ0的一個(gè)鄰域N,有P(L(θ0,ξ)>0)→1對(duì)?ξ∈N成立;
(C1) 函數(shù)gj(x,θ0,ξ),j=1,2在×上一致有界,對(duì)所有ξ在ξ0的鄰域N附近是連續(xù)的,E{g(X,θ0,ξ)/[1+ηtg(X,θ0,ξ)]}對(duì)ξ屬于ξ0的鄰域N附近是可導(dǎo)的,E{g(X,θ0,ξ)gt(X,θ0,ξ)/[1+ηtg(X,θ0,ξ)]2}在ξ屬于0到ξ0的部分之間是一致連續(xù)的;
(C2) 矩陣V11是嚴(yán)格的正定矩陣;
在ξ屬于ξ0的o(1)階鄰域部分是一致成立的;
為了證明下面定理,需要證明低收入比例模型滿足上面的正則條件:
設(shè)X為有分布函數(shù)F(x),密度函數(shù)f(x)的非負(fù)隨機(jī)變量,由前述知
g1=I(X≤αξβ)-θαβ,g2=I(X≤ξβ)-β,
(0<α<1),(0<β<1)
由低收入比例定義知存在δ>0,使得
N={ξ:δ 成立,對(duì)?ξ∈N,由(g(X1,θ0,ξ),…,g(Xn,θ0,ξ))所構(gòu)成的凸形殼依概率1收斂到2上(1-θαβ,1-β),(-θαβ,1-β)及(-θαβ,-β)構(gòu)成的三角形內(nèi)部,再由θαβ<β知(0,0)在三角形內(nèi)部,因此(C0)成立。 由文獻(xiàn)[3]可知,當(dāng)n→∞時(shí)有E{g(X,θ0,ξ)}光滑,且F(x)在x=ξ0的鄰域附近是二次連續(xù)可導(dǎo)的,因此可知(C1)成立。 矩陣V11為正定矩陣: |V11|=E{[I(X≤αξβ)-θαβ]2}· E{[I(X≤ξβ)-β]2}- {E[I(X≤αξβ)-θαβ]· [I(X≤ξβ)-β]}2=D(I(X≤αξβ)- θαβ)·D(I(X≤ξβ)-β)-Cov(I(X≤ αξβ)-θαβ,I(X≤ξβ)-β)。 由柯西施瓦茨不等式知上式大于0,因此可知(C2)成立。 (C4)~(C6)成立則是由經(jīng)驗(yàn)分布函數(shù)的收斂及連續(xù)性性質(zhì)所得的。 下證(C3),對(duì)一固定樣本X1,…,Xn及ξ使得L(θ0,ξ)>0成立,有 且有 為證明(C3),定義 (6) Γ(ξ)=-E{log[1+γ(ξ)tg(X,θ0,ξ)]}, (7) 其中:γ(ξ)=(γ1(ξ),γ2(ξ))滿足 且有l(wèi)(θ0,ξ)=-2nΓn(ξ),而由隱函數(shù)定理及條件(C1)知γ(ξ)存在且在ξ屬于ξ0的鄰域附近是唯一且連續(xù)可微的。 可知上式成立。 上式第二部分由文獻(xiàn)[9]中的Z估計(jì)量的性質(zhì)推斷其為op(1)。 下證第一部分是一致趨于0,引入類Λ, Λ={x→log(1+ηtg(x,θ0,ξ)):η∈R,ξ∈}, 由L(θ0,ξ)>0且1+λ(θ0,ξ)tg(Xi,θ0,ξ)為嚴(yán)格的正數(shù),因此λ(θ0,ξ)t=(λ1(θ0,ξ),λ2(θ0,ξ))t需要滿足以下條件: 這3個(gè)半平面相交所構(gòu)成的圖形為一個(gè)三角形,因此可知類Λ為Glivenko-Cantelli類,由文獻(xiàn)[10]中的定理2.7.5以及函數(shù)gj(x,θ0,ξ)(j=1,2)對(duì)x的單調(diào)性知條件(C3)成立。 證明與式(6)和式(7)的定義類似,定義 (8) M(θ,ξ)=E{log[1+γ(θ,ξ)tg(X,θ,ξ)]}, (9) 其中:γ(θ,ξ)=(γ1(θ,ξ),γ2(θ,ξ))滿足 γ(θ,ξ)在ξ屬于ξ0,θ屬于θ0的鄰域附近,且有 l(θ)=2nMn(θ,ξ)。 由函數(shù)g(X,θ,ξ)的期望在θ0、ξ0附近為連續(xù)函數(shù),可知M(θ,ξ)在θ0、ξ0附近連續(xù),因此可知對(duì)?δ>0,存在ε(δ)>0,有 λ(θ,ξ)tg(Xi,θ,ξ))-E{log(1+ λ(θ,ξ)tg(X,θ,ξ))}]+[E{log(1+ λ(θ,ξ)tg(X,θ,ξ))}-E{log(1+ γ(θ,ξ)tg(X,θ,ξ))}]‖。 類似條件(C3)證明可知 定理2當(dāng)條件(C0)~(C6)成立時(shí),有 為證明定理2,需引入下述引理。 由于引理1的證明類似于文獻(xiàn)[8]中引理5的證明過程,故省略其證明過程。 引理1在滿足(C0)~(C6)條件時(shí),有 令 有 其中: 再注意 綜上可知定理2成立。 構(gòu)造非光滑經(jīng)驗(yàn)似然(NSEL,non-smooth empirical likelihood)低收入比例的置信區(qū)間,并將所得到的置信區(qū)間與文獻(xiàn)[5]中提出的低收入比例的經(jīng)驗(yàn)似然(EL,empirical likelihood)置信區(qū)間、文獻(xiàn)[7]中針對(duì)低收入比例函數(shù)提出的θ的刀切漸進(jìn)正態(tài)置信區(qū)間(NA,normal approximation)和光滑刀切經(jīng)驗(yàn)似然(SJEL,smoothed jackknife empirical likelihood)構(gòu)造的置信區(qū)間進(jìn)行了對(duì)比。 根據(jù)定理2可構(gòu)造低收入比例的θ的置信水平為1-α的NSEL置信區(qū)間為 (10) 在進(jìn)行模擬時(shí)某些pi(θ0,ξ)可能取值為0,則式(10)不成立,根據(jù)文獻(xiàn)[3]中第三章的內(nèi)容將上述約束條件變?yōu)?/p> gj(Xi,θ0,ξ)=0,j=1,2 其中: log′*(z)=(?/?z)(log*(z)),進(jìn)行變換后解決了式(10)不成立的問題。 為了比較上述置信區(qū)間的有效性,對(duì)其進(jìn)行了模擬設(shè)計(jì)。假設(shè)總體分布函數(shù)F(x)為標(biāo)準(zhǔn)的對(duì)數(shù)正態(tài)分布(logN(0,1)),α、β分別取值為0.4和0.5,樣本容量n分別取為500、800、1 000,基于400次模擬循環(huán),得出了θ的90%和95%置信區(qū)間覆蓋率以及平均覆蓋長度,其詳細(xì)結(jié)果見表1。表1中每組數(shù)據(jù)第一行為置信區(qū)間覆蓋率,第二行為平均覆蓋長度。 表1 4種算法模擬結(jié)果比較 表1展示了4種算法的90%和95%覆蓋度以及平均覆蓋長度,可知非光滑經(jīng)驗(yàn)似然方法明顯優(yōu)于文獻(xiàn)[5]中的模擬方法,與文獻(xiàn)[7]中的方法進(jìn)行比較發(fā)現(xiàn),其結(jié)果大致相同。但文獻(xiàn)[7]中的方法需要使用核函數(shù)以及交叉驗(yàn)證程序選擇窗寬,核函數(shù)窗寬的選取需要花費(fèi)大量的時(shí)間模擬與驗(yàn)證,而非光滑經(jīng)驗(yàn)似然方法不依賴于窗寬的選取,因此考慮非光滑經(jīng)驗(yàn)似然方法更具有適用性。 選取數(shù)據(jù)為中國收入分配研究院在2013年調(diào)查所得的中國居民收入,文獻(xiàn)[12]中對(duì)此數(shù)據(jù)進(jìn)行了詳細(xì)的分析,數(shù)據(jù)包括7 175戶城鎮(zhèn)住戶樣本、11 013戶農(nóng)村住戶樣本和760戶外來務(wù)工住戶樣本共18 948個(gè)住戶樣本,3組數(shù)據(jù)樣本的直方圖如圖1所示。 圖1 3組數(shù)據(jù)的收入分布直方圖Fig.1 Income distribution of three groups of data 表2 各收入層次低收入比例的估計(jì)值和低收入線 隨著樣本容量的增加,所有置信區(qū)間的覆蓋率都越來越接近90%和95%,平均覆蓋長度也隨容量的增加而減少。非光滑經(jīng)驗(yàn)似然方法平均覆蓋長度比其他方法短且覆蓋率更好。 農(nóng)村住戶收入在低收入線下的比例較大,很多農(nóng)村住戶收入還未滿足農(nóng)村住戶收入層次的低收入水平線。農(nóng)村住戶低收入線也遠(yuǎn)低于城鎮(zhèn)住戶和外來務(wù)工住戶低收入線,說明城鎮(zhèn)與農(nóng)村之間還存在著較大的收入差距,低收入人群在農(nóng)村人口中占比很大。2 低收入比例的置信區(qū)間構(gòu)造及模擬
3 實(shí)例運(yùn)用
4 結(jié)論