王立志,宋紅麗,郁萬妮,安娟,吳希媛,吳元芝
基于ArcGis平臺利用洛倫茲曲線對基尼系數(shù)的簡化計算方法
王立志1,2*,宋紅麗1,2,郁萬妮1,2,安娟1,2,吳希媛1,2,吳元芝1,2
(臨沂大學(xué) 1. 山東省水土保持與環(huán)境保育重點實驗室,2. 資源環(huán)境學(xué)院,山東 臨沂 276005)
基尼系數(shù)是以洛倫茲曲線為基礎(chǔ)推導(dǎo)出來的.在實際應(yīng)用中,一般用直接計算法、擬合曲線法、分組計算法和分解法等計算基尼系數(shù).這幾種方法可行,但缺點很明顯,其計算方法有的比較粗糙,并且計算結(jié)果不夠精確.基尼系數(shù)的值取決于洛倫茲曲線與絕對平均線之間面積的大小,可能有相同的基尼系數(shù).為避免一般方法帶來的誤差,基于ArcGis平臺,利用洛倫茲曲線對基尼系數(shù)簡化計算.步驟為:(1)繪制洛倫茲曲線;(2)將洛倫茲曲線圖標(biāo)坐標(biāo)進行統(tǒng)計,主要統(tǒng)計圖標(biāo)4個端點坐標(biāo),對角線坐標(biāo),以及洛倫茲曲線坐標(biāo),坐標(biāo)值按照散點圖的軸值進行定義,值為無量綱;(3)將軸坐標(biāo)數(shù)據(jù)導(dǎo)入ArcGis平臺里的ArcMap;(4)將導(dǎo)入文件轉(zhuǎn)為shape格式線文件;(5)將shape格式線文件轉(zhuǎn)為面文件;(6)計算面文件面積,計算基尼系數(shù).該方法避免了復(fù)雜的積分過程,同時也避免了洛倫茲曲線解析式的描述,可以將誤差降低到最小,同時簡化的計算步驟,在計算效率方面具有較大的提高.
基尼系數(shù);洛倫茲曲線;ArcGis平臺;計算方法;計量地理學(xué)
基尼系數(shù)和洛倫茲曲線是度量離散性分布的有效的統(tǒng)計工具,也是展現(xiàn)差異程度的重要指標(biāo),其不僅廣泛應(yīng)用在經(jīng)濟領(lǐng)域研究國民收入分配問題,還可用于分析各個地區(qū)生產(chǎn)力布局和產(chǎn)業(yè)結(jié)構(gòu)分布問題,描述資本等分配的均衡程度[1].
基尼系數(shù)雖然是一個極為簡明的數(shù)學(xué)表達式,由于對洛倫茲曲線表達式解的困難,因此它并不具有實際的可操作性.為了尋求具有可操作性的估算方法,自基尼提出基尼比率以來,許多經(jīng)濟學(xué)家和統(tǒng)計學(xué)家都進行了這方面的探索[2].在已有的研究成果中,主要有4種具有代表性的估算方法,可以分為直接計算法、擬合曲線法、分組計算法和分解法[3].
直接計算法并不依賴于洛倫茲曲線,它直接度量收入不平等的程度.直接計算法依然采用了以直代曲法計算面積,只不過這個過程在樣本數(shù)據(jù)范圍內(nèi)達到了最小近似,其精確度直接取決于樣本數(shù)據(jù)本身[4].因此,認為它不帶任何誤差地計算了樣本數(shù)據(jù)的基尼系數(shù)值.
擬合曲線法計算基尼系數(shù)的思路是采用數(shù)學(xué)方法擬合出洛倫茲曲線,得出曲線的函數(shù)表達式,然后用積分法求出面積,計算基尼系數(shù)[5].通常是通過設(shè)定洛倫茲曲線方程,用回歸的方法求出參數(shù),再計算積分.?dāng)M合曲線法擬合洛倫茲曲線具有2個重要的缺點,一是得出函數(shù)表達式的過程中,可能產(chǎn)生誤差;二是擬合出來的函數(shù)必須是可積分的,否則就無法計算[6].
分組計算法,在軸上尋找個分點,將洛倫茲曲線下方的區(qū)域分成部分,每部分用以直代曲的方法計算面積,然后加總求出面積[7].分組計算法不依賴于洛倫茲曲線的函數(shù)形式,但在以直代曲的環(huán)節(jié)會出現(xiàn)誤差,增加分點的個數(shù)可以減少這種誤差[8].
分解法則是在求出上述值的基礎(chǔ)上,力圖研究基尼系數(shù)的構(gòu)成因素,除了得出總的基尼系數(shù)的信息之外,在計算過程中還能夠獲得分解部分內(nèi)部的基尼系數(shù)值[9].
以上方法的計算均需要很大的計算量,同時由于采用的方法不同,計算的結(jié)果均存在不同程度的誤差.本方法基于ArcGis平臺,利用洛倫茲曲線對基尼系數(shù)進行簡化計算,可以將誤差降低到最小,同時簡化的計算步驟,可以提高計算效率.
基尼系數(shù)是意大利經(jīng)濟學(xué)家基尼(Gini)在1912年提出來的,是用來反映收入分配差異程度的重要指標(biāo).基尼系數(shù)以洛倫茲曲線(Lorenz curve)為基礎(chǔ)進行計算.洛倫茲曲線是指在一個總體(國家、地區(qū))內(nèi),以“最貧窮的人口計算起一直到最富有人口”的人口百分比對應(yīng)各個人口百分比的收入百分比的點組成的曲線.為了研究國民收入在國民之間的分配問題,美國統(tǒng)計學(xué)家洛倫茲1907年提出了著名的洛倫茲曲線.由于該曲線可以研究國民收入在國民之間的分配問題,因此,洛倫茲曲線可直觀地反映財富分配的性質(zhì)[10-11].
圖1 洛倫茲曲線與基尼系數(shù)
赫希曼根據(jù)洛倫茲曲線提出的判斷分配平等程度的指標(biāo),設(shè)實際收入分配曲線和收入分配絕對平等曲線之間的面積為,實際收入分配曲線右下方的面積為,以除以(+)的商表示不平等程度[12].這個數(shù)值被稱為基尼系數(shù)或稱洛倫茲系數(shù)(見圖1).
假若上述洛倫茲曲線的解析表達式為
則該曲線下方區(qū)域的面積為
顯然,對應(yīng)于絕對均衡分布,其洛倫茲曲線就是正方形的對角線,其下方區(qū)域的面積為=1/2.基尼系數(shù)()的計算公式
在實際應(yīng)用中,由于同樣存在求洛倫茲曲線解析式的困難,所以常采用各種近似方法計算基尼系數(shù),如曲線擬合法.
式中:可以通過最小二乘法擬合,即
采用python語言可進行實現(xiàn):
#-*- coding:utf-8 -*-
#!/usr/bin/python
import numpy as np
from matplotlib import pyplot as pl
fig,ax = pl.subplots()
def Drawing(xarray,yarray):
ax.plot(xarray,yarray)
ax.plot(xarray,xarray)
ax.set_xlabel(u'橫坐標(biāo)')
ax.set_ylabel(u'縱坐標(biāo)')
pl.show()
def Gini():
numlist = [1.5,2,3.5,10,4.2,2.1,1.1,2.2,3.1,5.1,9.5,9.7,1.7,2.3,3.8,1.7,2.3,5,4.7,2.3,4.3,12]
xarray = np.array(range(0,len(numlist)+1))/ np.float(len(numlist))
#print "xarray",xarray
numsort = sorted(np.append(numlist,0))
#print "numsort",numsort
csum_numlist = np.cumsum(numsort)
#print "csum_numlist",csum_numlist
sum_num = csum_numlist[-1]
yarray = csum_numlist / sum_num
#print "yarray",yarray
B = np.trapz(yarray,x=xarray)
A = 0.5 - B
G = A /(A + B)
Drawing(xarray,yarray)
return G
a = Gini()
print 'Gini:',a
以上計算無論是直接計算還是編程均需要較為復(fù)雜的過程,且存在不同程度的誤差.
(1)繪制洛倫茲曲線;
(2)將洛倫茲曲線圖標(biāo)坐標(biāo)進行統(tǒng)計,主要統(tǒng)計圖標(biāo)4個端點坐標(biāo)、對角線坐標(biāo)、洛倫茲曲線坐標(biāo),坐標(biāo)值按照散點圖的軸值進行定義,值為無量綱;
(3)將坐標(biāo)數(shù)據(jù)導(dǎo)入ArcGis平臺里的ArcMap;
(4)將導(dǎo)入文件轉(zhuǎn)為shape格式線文件;
(5)將shape格式線文件轉(zhuǎn)為面文件;
(6)計算面文件面積,計算基尼系數(shù).
以《計量地理學(xué)基礎(chǔ)》[13](2版)第三章離散區(qū)域分布的測度為例.某地區(qū)職工部門分配見表1.
表1 某地區(qū)職工部門分配 (%)
根據(jù)表1,以紡織業(yè)為例,繪制紡織業(yè)洛倫茲曲線(見圖2).水平軸和垂直軸比例都是累積百分比,對角線表示沿2種分布之間是完全相等的,有相同的百分比和累積百分比.對角線表示均勻分布,曲線到對角線的離差就是2種分布的差異性測度.
根據(jù)圖2,確定各點的坐標(biāo).圖框各坐標(biāo)依次為:原點坐標(biāo)為(0,0).順時針方向依次為(0,100),(100,100),(100,0).洛倫茲曲線和對角線的坐標(biāo)即為散點圖的值,如此便可建立圖框所有點的坐標(biāo)系統(tǒng).將坐標(biāo)值導(dǎo)入到Excel表格中(見表2).
圖2 紡織業(yè)洛倫茲曲線分布
表2 圖框及洛倫茲曲線坐標(biāo)
啟動ArcMap,點擊“開始”——“ArcGIS”——“ArcMap”,打開ArcMap,打開空白地圖.點擊“文件”——“添加數(shù)據(jù)”——“添加數(shù)據(jù)”菜單,點擊“添加數(shù)據(jù)”菜單.在“添加數(shù)據(jù)”功能界面,點擊瀏覽,選擇準備好的坐標(biāo)文件,設(shè)置地圖上坐標(biāo)和坐標(biāo)對應(yīng)文本文件中的坐標(biāo)和坐標(biāo)列,點擊“確定”,坐標(biāo)數(shù)據(jù)就添加到了地圖上(見圖3).
坐標(biāo)點數(shù)據(jù)雖然可以添加到地圖上,但是不能進行任何的編輯或者分析等應(yīng)用操作,如果需要對數(shù)據(jù)進行編輯和分析,需要將坐標(biāo)點轉(zhuǎn)成ArcGIS支持的數(shù)據(jù)格式(如shapefile).右鍵點擊剛剛加載的坐標(biāo)數(shù)據(jù),點擊“數(shù)據(jù)”——“導(dǎo)出數(shù)據(jù)”功能,將數(shù)據(jù)輸出轉(zhuǎn)為shapefile文件,這樣就可以對shapefile文件進行下一步計算操作.
添加“編輯器”工具條,點擊“開始編輯”,使處于編輯狀態(tài),打開“ArcToolbox”,“數(shù)據(jù)管理工具”——“要素”——“點集轉(zhuǎn)線”.雙擊,彈出“點集轉(zhuǎn)線”設(shè)置界面.需要輸入要素為點要素,路徑默認.然后需要點擊“確定”,即可開始轉(zhuǎn)換.此處操作注意不要選擇閉合線,否則會導(dǎo)致輸出錯誤.
鼠標(biāo)左鍵單擊“Arctoolbox”工具箱,打開工具箱,找到“數(shù)據(jù)管理工具”——“要素”——“要素轉(zhuǎn)面”.雙擊“要素轉(zhuǎn)面”工具,彈出“要素轉(zhuǎn)面”窗口,輸入要素選擇內(nèi)容列表中的“線段”,會自動生成輸出要素,也可以自己修改存放路徑等,然后單擊“確定”按鈕,這樣就把剛才的線轉(zhuǎn)成了面圖層(見圖4).
圖3 點轉(zhuǎn)為shapefile格式的線圖層
圖4 線轉(zhuǎn)為面格式的圖層
在矢量數(shù)據(jù)右鍵點擊,或者按Ctrl+雙擊矢量數(shù)據(jù),打開矢量“屬性表”.在“屬性表”中,點擊左側(cè)“菜單”選擇“添加字段”,對新添加的“字段”進行“命名”——“計算面積”,然后選擇此字段右鍵點擊,打開“計算幾何”.在“計算幾何”面板中,忽略“面積”——“坐標(biāo)系統(tǒng)”——“面積單位”等信息,點擊“確定”,即可顯示每個面矢量的面積.
通過查詢工具可得洛倫茲曲線和對角線圍成的區(qū)域,即區(qū)域A的面積為2 643,而圖形1/2的面積也就是+的面積,為5 000,因此基尼系數(shù)=2 643/5 000=0.528 6.
采用模擬曲線法求解:
首先洛倫茲曲線的方程為
區(qū)域B的面積為對方程進行積分
因此,基尼系數(shù)=0.717 6
由于采用模擬曲線法不能很好地將所有的點都歸納到內(nèi),模擬曲線的邊界是采用最小二乘法進行模擬,因此曲線偏離了實際的邊界,導(dǎo)致了計算結(jié)果產(chǎn)生較大的誤差.
在基尼系數(shù)的計算過程中洛倫茲曲線對應(yīng)的解析式很難準確地獲得,因此研究者只能利用現(xiàn)有的統(tǒng)計數(shù)據(jù)去估計洛倫茲曲線解析式,從而推算基尼系數(shù).然而,由于收集的數(shù)據(jù)類型的差別,采用的計算公式也有所不同,各公式均存在不同程度的優(yōu)缺點,但均不可避免產(chǎn)生或多或少的誤差.該方法利用了ArcGis的面積計算功能,避免了復(fù)雜的積分過程,同時也避免了洛倫茲曲線解析式的描述.因此,簡便易學(xué),能計算各種洛倫茲曲線而不受解析式的限制[14].
本研究采用ArcGis平臺自帶工具,利用洛倫茲曲線對基尼系數(shù)進行簡化計算,避免了復(fù)雜的積分過程,也避免了洛倫茲曲線解析式的描述,可以將誤差降低到最?。瑫r,簡化的計算步驟,使計算效率具有較大的提高.
[1] 艾小青.城鄉(xiāng)混合基尼系數(shù)分解方法研究[J].統(tǒng)計研究,2015,32(9):91-96.
[2] 吳文俊,蔣洪強,段揚,等.基于環(huán)境基尼系數(shù)的控制單元水污染負荷分配優(yōu)化研究[J].中國人口·資源與環(huán)境,2017,27(5):8-16.
[3] 何幫強,洪興建.基尼系數(shù)計算與分解方法研究綜述[J].統(tǒng)計與決策,2016(14):13-17.
[4] 程楊楊,徐凌忠,許敏蘭,等.基于洛倫茨曲線和基尼系數(shù)的我國衛(wèi)生監(jiān)督人力資源公平性分析[J].中國衛(wèi)生統(tǒng)計,2015,32(3):473-476.
[5] 孫才志,白天驕,韓琴.基于基尼系數(shù)的中國灰水足跡區(qū)域與結(jié)構(gòu)均衡性分析[J].自然資源學(xué)報,2016,31(12):2047-2059.
[6] 戴平生.基于回歸方程的基尼系數(shù)分解[J].?dāng)?shù)量經(jīng)濟技術(shù)經(jīng)濟研究,2013,30(1):150-160.
[7] 劉歡,左其亭.基于洛倫茨曲線和基尼系數(shù)的鄭州市用水結(jié)構(gòu)分析[J].資源科學(xué),2014,36(10):2012-2019.
[8] 戴平生.基尼系數(shù)的區(qū)間估計及其應(yīng)用[J].統(tǒng)計研究,2013,30(5):83-89.
[9] 侯華麗,吳尚昆,王傳君,等.基于基尼系數(shù)的中國重要礦產(chǎn)資源分布不均衡性分析[J].資源科學(xué),2015,37(5):915-920.
[10] 胡志軍,劉宗明,龔志民.中國總體收入基尼系數(shù)的估計:1985—2008[J].經(jīng)濟學(xué),2011,10(4):1423-1436.
[11] 蔣艷,曾肇京,張建永.基于基尼系數(shù)的中國水生態(tài)分區(qū)研究[J].生態(tài)學(xué)報,2015,35(7):2177-2183.
[12] 李剛,程硯秋,董霖哲,等.基尼系數(shù)客觀賦權(quán)方法研究[J].管理評論,2014,26(1):12-22.
[13] 張超,楊秉賡.計量地理學(xué)基礎(chǔ)[M].2版.北京:高等教育出版社,2007.
[14] 李海峰,李蘇.大數(shù)據(jù)與智能時代的地理信息科學(xué)教育變革之思考[J].高教學(xué)刊,2017(21):145-146,149.
The simplified calculation method of Gini coefficient using Lorentz curve based on ArcGIS platform
WANG Lizhi1,2,SONG Hongli1,2,YU Wanni1,2,AN Juan1,2,WU Xiyuan1,2,WU Yuanzhi1,2
(1. Shandong Provincial Key Laboratory of Water and Soil Conservation and Environmental Protection,2. School of Resources and Environment,Linyi University,Linyi 276005,China)
Gini coefficient is derived from Lorentz curve.In practical application,direct calculation method is generally used.The Gini coefficient is calculated by fitting curve,grouping and factorization method.These methods are feasible,but the disadvantages are obvious.Some of the methods are rough and the results are not accurate.The Gini coefficient is determined by the area between Lorentz curve and absolute average line,and it may have the same Gini coefficient.In order to avoid the error caused by the general method,based on ArcGIS platform and the simplified calculation of Gini coefficient by using Lorentz curve.The steps are as follows:(1)draw Lorentz curve.(2)The coordinates of Lorentz curve icons are counted,mainly including four end point coordinates,diagonal coordinates,and Lorentz curve coordinates.The coordinate values are defined according to theaxis value of the scatter graph,and the value is dimensionless.(3)Thecoordinate data is imported into ArcMap in ArcGIS platform.(4)Converts the import file to shape format file,line file.(5)Converts the shape format line file to a polygon file.(6)Calculate the area of the file on the surface and calculate the Gini coefficient.This method avoids the complicated integration process,and avoids the description of Lorentz curve analytic formula.It can reduce the error to the minimum,and simplify the calculation steps,and improve the calculation efficiency greatly.
Gini coefficient;Lorentz curve;ArcGis platform;calculation method;econometric geography
1007-9831(2022)05-0071-06
K90
A
10.3969/j.issn.1007-9831.2022.05.013
2022-01-26
山東省本科教學(xué)改革研究項目(M2020296)
王立志(1980-),男,山東臨沂人,副教授,博士,從事計量地理學(xué)研究.E-mail:wanglizhi@lyu.edu.cn