趙玉霞
(河南城建學(xué)院,河南 平頂山 467044)
分組數(shù)據(jù)下幾種不同基尼系數(shù)的算法
趙玉霞
(河南城建學(xué)院,河南 平頂山 467044)
基尼系數(shù),作為衡量居民內(nèi)部收入分配差異狀況的一個重要指標(biāo),廣大學(xué)者從不同角度對它進(jìn)行了研究。文章將以分組數(shù)據(jù)為例,采用參數(shù)法,介紹了曲線擬合法——廣義二次函數(shù)法、分布函數(shù)法——對數(shù)正態(tài)分布等幾種求解基尼系數(shù)的方法。
分組數(shù)據(jù);參數(shù)法;基尼系數(shù)
對于“分組數(shù)據(jù)”則應(yīng)當(dāng)采用參數(shù)法,估計其總體洛倫茲曲線或者總體收入分布,進(jìn)而求得基尼系數(shù)。應(yīng)用參數(shù)法確定“分組數(shù)據(jù)”的總體洛倫茲曲線的方法主要有兩種:一種是為洛倫茲曲線選擇適當(dāng)?shù)膮?shù)方程直接擬合,確定其參數(shù),并在此基礎(chǔ)上求得基尼系數(shù),另外一種為分布函數(shù)法,是基于對指標(biāo)的概率密度函數(shù)或概率分布函數(shù)的假設(shè),來估計其分布參數(shù),然后對洛倫茲曲線和基尼系數(shù)進(jìn)行估計的。
采用參數(shù)法確定總體洛倫茲曲線,首先便應(yīng)確定基于組數(shù)據(jù)下的樣本洛倫茲曲線。樣本洛倫茲曲線是由k+1個點(P0,L0),(P1,L1),…,(Pk,Lk)由直線連接而得到的,其中(P0,L0)=(0,0),(PK,LK)=(1,1),Pi表示收入到i組人數(shù)的累積比例,Li表示收入小于或等于i組的居民的收入占整體居民的收入比例。若令L(x/α1,…,αp)表示給定參數(shù) α1,α2…αp的一條洛倫茲曲線,那么其必須滿足洛倫茲曲線的必要條件Kakwani(1980):
其中(1)式表示的是邊界條件,0%的人擁有0%的收入,100%的人擁有 100%的收入。 (2)式表示 L(x/α1,…,αp)是單調(diào)且凸的。α=(α1,…αp)∈Θ,Θ為參數(shù)空間。對于給定的樣本洛倫茲曲線,采用不同的方法將會得到不同的參數(shù)向量α,從而得出不同的總體洛倫茲曲線。采用曲線擬合的方法,則不用考慮收入的分布情況,只需要確定滿足條件(1)、(2)的曲線,采用最小二乘法或者極大似然估計的方法確定參數(shù),擬合已有的樣本洛倫茲曲線。到目前為止運用的擬合曲線主要有多項式函數(shù),logit函數(shù),冪函數(shù)形式,廣義二次函數(shù)形式以及一些其他形式的曲線方程。我們主要介紹以下幾種主要的分布方法。
Villassnor,Arnold(1989)提出的廣義二次法,該模型為:
在f=0及a+b+c+d+e=0的情況下,該曲線滿足洛倫茲曲線的必要條件,令x為P,y為L,結(jié)合上述條件,再規(guī)范化設(shè)d=1,得到:
(4)(5)式必然通過(0,0)兩點。 根據(jù)這些系數(shù)的值,該曲線可以是拋物線,雙曲線,直線,圓,或者橢圓。給定洛倫茲曲線條件,式(5)可以寫成
方程(6)的解是
其中 α=bP-1-a-b-c=bP+e,e=1+a+b+c,且 β=aP2+cP
正根不滿足所有的一致性條件,替換α和β后得到:
這便是通過廣義二次函數(shù)法得到的基尼系數(shù)。
采用分布函數(shù)法來估計總體洛倫茲曲線時,首先應(yīng)當(dāng)假定收入指標(biāo)ξ為一隨機變量,且其滿足某一分布函數(shù),即假設(shè)收入分布函數(shù)是連續(xù)的,此時設(shè)L代表累積的收入分布,P累積的人口分布,將人均收入按由低到高的順序排列,L(P)代表占比例為P的人口所擁有的占總收入比例為L的收入。表示不均等狀況的基尼系數(shù)定義如下:
即基尼系數(shù)為1減去洛倫茲曲線以下面積的兩倍。且應(yīng)滿足上述的洛倫茲曲線條件(1)(2)。
設(shè)F(x),f(x)分別是企業(yè)員工收入指標(biāo)ξ的分布函數(shù)與密度函數(shù),根據(jù)定義,收入到x的累積密度函數(shù)即洛倫茲曲線上任意點的橫坐標(biāo)P可以表示為:
收入小于或等于x的居民的總收入占整體居民的收入份額,即縱坐標(biāo)L可以表示為
式中x>0,x<ξ的最大值,Eξ是ξ的數(shù)學(xué)期望。因為確定洛倫茲曲線的參數(shù)形式,進(jìn)而測定基尼系數(shù)都是由樣本數(shù)據(jù)計算出來的,所以其統(tǒng)計推斷就變得十分重要。關(guān)于洛倫茲曲線的的確定,其首先要解決的就是收入的分布情況。目前為止假定的收入分布主要有對數(shù)正態(tài)分布,Beta分布以及5參數(shù)的廣義Beta分布(GB)和冪函數(shù)形式的廣義貝塔分布函數(shù)(EGB)等。
在這里,我們假定企業(yè)員工收入分布符合對數(shù)正態(tài)分布。這樣做主要有以下三個原因:(1)反應(yīng)系統(tǒng)規(guī)模收入服從對數(shù)正態(tài)分布的假設(shè)是經(jīng)濟(jì)學(xué)常用的方法(Dollar&Kraay,2001);且成邦文(2000,2005)給出的一個利用我國數(shù)據(jù)的實證分析也表明反映系統(tǒng)規(guī)模大小的社會經(jīng)濟(jì)指標(biāo),其分布的不均勻性可以用對數(shù)正態(tài)分布來描述。
(2)根據(jù)企業(yè)員工收入的“微觀數(shù)據(jù)”做出收入密度函數(shù)圖,經(jīng)驗的說明企業(yè)員工收入服從對數(shù)正態(tài)分布。
(3)若檢驗企業(yè)員工收入這個隨機變量是否符合對數(shù)正態(tài)分布,可以采用非參數(shù)的K-S實證方法進(jìn)行檢驗。計算其顯著水平α,當(dāng)α大于規(guī)定的臨界值的時候,可以認(rèn)為該分布符合對數(shù)正態(tài)分布,否則就不符合。一般情況下,α可以取0.05,當(dāng)研究對象的個體數(shù)目很大時可以取0.01。
設(shè) μ=Elnξ,σ2=Dlnξ分別是 lnξ的均值與方差,在對數(shù)正態(tài)分布下,有
上述就是運用對數(shù)正態(tài)分布下基尼系數(shù)的求解。
而如何確定那種參數(shù)洛倫茲曲線得出的基尼系數(shù)是合理的呢?在這里我們采用Kakwani(1986)的Beta分布方法,其原因如下:
檢驗基尼系數(shù)是否合理可以根據(jù)樣本基尼系數(shù)的上下界來判定。 這一思想是由 Gastwirth (1972)、Mehran(1975)、Murray(1978)以及 Fuller(1979)年提出的。 樣本基尼系數(shù)的上下界限定了樣本基尼系數(shù)的范圍,不依賴于任何總體收入分布或洛倫茲曲線的假定,僅從“分組數(shù)據(jù)”樣本就可以計算出來。而利用“分組數(shù)據(jù)”樣本采用參數(shù)法估計總體基尼系數(shù)依賴于對總體收入分布或洛倫茲曲線的假定。因此,對于給定的“分組數(shù)據(jù)”樣本,若根據(jù)某一假定估計的基尼系數(shù)是顯著地處于樣本基尼系數(shù)上界和下界構(gòu)成的區(qū)間之外,我們就有理由懷疑其假定的正確性。若按照Gastwirth(1972)給出的一個非參數(shù)的檢驗方法:
式中GL為基于組數(shù)據(jù)的樣本洛倫茲曲線確定的基尼系數(shù),△被稱為組效應(yīng)(grouping effect)Gastwirth指出合理的總體基尼系數(shù)應(yīng)介于GL和GU之間。Schader M,Schmid F(1994)應(yīng)用美國1950~1988部分年間的收入數(shù)據(jù),采用Gastwirth邊界方法,檢驗了12種參數(shù)洛倫茲曲線及其確定的基尼系數(shù),在這里我們采用Kakwani(1986)的Beta分布方法,其原因主要是基于Schader M,Schmid F(1994)應(yīng)用美國1950~1988部分年間的收入數(shù)據(jù),采用 Gastwirth(1972)提供的上下界檢驗方法,檢驗了12種參數(shù)洛倫茲曲線及其確定的基尼系數(shù),并指出Kakwani(1986)的Beta分布方法,在16次檢驗中完全滿足Gastwirth邊界。
Kakwani(1986)年提出的洛倫茲曲線具有如下形式:
式中,a,α,β為參數(shù),我們可以看到,這一曲線為擬合方程。而其確定的基尼系數(shù)為Beta分布,如下所示:
具體推導(dǎo)過程較為繁瑣,在此略去。
對于(17)式中參數(shù)a,α,β的估計問題,一種常用的方法是選擇適當(dāng)?shù)淖儞Q將非線性方程轉(zhuǎn)換為線性方程,進(jìn)而利用最小二乘估計來確定其參數(shù)。在這里我們做如下的變換:
(17)式可以變?yōu)?/p>
兩邊取對數(shù)后(19)式可以變?yōu)?/p>
給定向量P,L,1,即可通過最小二乘法估計參數(shù)lna,α,β,從而確定參數(shù)a,α,β。參數(shù)確定之后即可通過公式(18)確定基尼系數(shù)。
[1]王春雷,黃素心.基尼系數(shù)與樣本信息含量[J].數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究,2007,(2).
[2]成邦文.基于對數(shù)正態(tài)分布的洛倫茲曲線與基尼系數(shù)[J].數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究,2005,(2).
[3]歐陽植,于維生.分組數(shù)據(jù)的收入分布擬合以及洛倫茲曲線與基尼系數(shù)[J].數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究,1994,(6).
[4]王祖祥.分組數(shù)據(jù)條件下基尼系數(shù)的有效估算方法[J].數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究,2001,(8).
[5]陳奇志,陳家鼎.關(guān)于洛倫茲曲線和基尼系數(shù)的一點注記[J].北京大學(xué)學(xué)報(自然科學(xué)版),2006,(9).
[6]莊健,張永光.基尼系數(shù)和中等收入群體比重的關(guān)聯(lián)性分析[J].數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究,2007,(4).
(責(zé)任編輯/浩 天)
F224.9
A
1002-6487(2011)03-0162-02