摘 要:分層抽樣是隨機(jī)抽樣的常用抽樣方法之一。在抽樣中常可伴隨獲得輔助變量的樣本信息,這些信息對(duì)提高估計(jì)精度有積極作用。常用的估計(jì)方法有簡(jiǎn)單估計(jì),比估計(jì),回歸估計(jì)。本文將在分層抽樣的基礎(chǔ)上,利用比估計(jì)量的構(gòu)造提高分層抽樣的精度。并根據(jù)分層抽樣和估計(jì)構(gòu)造的技術(shù)路線,對(duì)世界五百?gòu)?qiáng)企業(yè)營(yíng)業(yè)收入研究過(guò)程進(jìn)行實(shí)證分析,采用尼曼分配和比例分配分別估計(jì)樣本量,最后采取比估計(jì)的構(gòu)造方法提高樣本精度。
關(guān)鍵詞:分層抽樣 比例分配 尼曼分配 比估計(jì)
一、研究概述
現(xiàn)在社會(huì)上普遍常用的分配方法有比例分配,尼曼分配,最優(yōu)分配三種。比例分配是在總體中的任一個(gè)單位,不管在那一層,都以同樣的概率入樣,估計(jì)量簡(jiǎn)單,也稱為自加權(quán)樣本。尼曼分配是最優(yōu)分配的特例,假設(shè)每層抽樣費(fèi)用相同。最優(yōu)分配是在總費(fèi)用給定的情況下,使估計(jì)量方差達(dá)到最小或者在給定方差下使總費(fèi)用最小。在不考慮費(fèi)用的情況下,采用比例分配和尼曼分配分別確定樣本量,再利用不同的分層方式進(jìn)行簡(jiǎn)單隨機(jī)抽樣,抽出樣本y后,先使用簡(jiǎn)單估計(jì)估計(jì)均值及方差,估計(jì)精度較差。一般采用比估計(jì)來(lái)估計(jì)總體均值,提高估計(jì)精度,比估計(jì)是基于基本信息和輔助信息,利用已知的輔助變量信息構(gòu)造比率估計(jì)量可以改進(jìn)估計(jì)精度。比估計(jì)分為聯(lián)合比估計(jì)、分別比估計(jì),一般情況下總有分別比估計(jì)的精度優(yōu)于聯(lián)合比估計(jì)量。
二、估計(jì)量的性質(zhì)
1、總體均值簡(jiǎn)單估計(jì)量的無(wú)偏性。在以500強(qiáng)營(yíng)業(yè)收入為總體的分層抽樣中,對(duì)總體均值估計(jì)通過(guò)各層的均值,通過(guò)各層層權(quán)加權(quán)平均得到:
Y(_^)st=∑WhY(_^)h=(1/N)∑NhY(_^)h
當(dāng)利用樣本對(duì)總體進(jìn)行估計(jì)時(shí),總體均值Y的簡(jiǎn)單估計(jì)量為:
y(_^)st=∑why(_^)h=(1/N)∑Nhy(_^)h
證明得到:
E(y(_)st)=E(∑Why(_)h)=∑WhE(y(_)h)=∑WhYh=Y(_)
2、總體均值方差簡(jiǎn)單估計(jì)量的無(wú)偏性
V(y(_)st)= (1/n)∑(Wh2/wh)Sh2-(1/N)∑(Wh2/Wh)Sh2
3、總體均值比率估計(jì)量的近似無(wú)偏性
R(^)=y(_)/x(_), R(^)=1/n∑yi/xi,
y(_)r=∑Why(_)r=∑Why(_)h/x(_)h*X(_)h=1/N∑y(_)h/x(_)h*Xh
4、總體均值方差比率估計(jì)量的近似無(wú)偏性
V(y(_)R)=(1-f)/n*[∑(Yi-RXi)2]/(N-1)
三、分層抽樣的操作路徑
1、確定分層標(biāo)志
分層是按一定標(biāo)志進(jìn)行,為使各層間的差異盡量大,從理論上講,選擇調(diào)查標(biāo)志本身作分層標(biāo)志時(shí),分層的效果最好,但這在現(xiàn)實(shí)較難實(shí)現(xiàn)。常常采用調(diào)查標(biāo)志關(guān)系密切的其它標(biāo)志來(lái)分層的方法代替。分層標(biāo)志的確定一般分為單項(xiàng)目分層和多項(xiàng)目分層,二者的復(fù)雜程度不同。本文基于單項(xiàng)目抽樣,一般采用利用調(diào)查標(biāo)志的全面的過(guò)去資料的方法。
2、選取分層方法
選取的分層的方法一般有歷史數(shù)據(jù)法,散點(diǎn)圖法,累積平方根法。在這里采用散點(diǎn)圖與累積平方根法結(jié)合的方式,通過(guò)對(duì)散點(diǎn)圖進(jìn)行觀察,確定大致分層的層數(shù)為N層。之后對(duì)數(shù)據(jù)進(jìn)行累計(jì)平方根法的分層。實(shí)驗(yàn)方法是對(duì)不同的數(shù)據(jù)的散點(diǎn)圖的平滑陡峭程度確定數(shù)據(jù)應(yīng)采取等距還是不等距分組,數(shù)據(jù)集中時(shí)采取等距分組,數(shù)據(jù)分散部分采取不等距分組。再通過(guò)累計(jì)平方根法,確定公司數(shù)為頻數(shù)。然后確定累計(jì)頻率及平方根。最后確定每組的分層數(shù)N1,N2,….Ni.將層數(shù)計(jì)算得到Ni/N相應(yīng)的層權(quán)W1,W2,….,Wi.,然后計(jì)算出每層的均值分別是x1,x2,….,xi以及每層的標(biāo)準(zhǔn)差Sh1,Sh2,….,Shi。
3、樣本容量N的確定
在方差給定,歷史資料已知,抽樣費(fèi)用不確定的前提下,我們一般采用比例分配和尼曼分配的方式確定樣本容量。比例分配主要是按照各層單位數(shù)占總體單位數(shù)的比例計(jì)算層權(quán),尼曼分配主要是假定各層費(fèi)用相等時(shí),計(jì)算層權(quán)。
(1)比例分配
n=∑WhSh2/(V+∑WhSh2/N)
根據(jù)分層操作后計(jì)算出的層權(quán),方差,以及要求估計(jì)精度V算出在比例分配下的抽樣樣本量。
wh=Ni/N
根據(jù)計(jì)算出的樣本量n乘以各層的層權(quán)wh算出n1,n2,n3,n4。
(2)尼曼分配
n=(∑WhSh)2/(V+∑WhSh2/N)
根據(jù)已知資料,可以算出在相同的精度下,使用尼曼分配的抽樣得到的樣本量n*
wh*=WhSh/∑WhSh
根據(jù)樣本量n*和層權(quán)wh*算出n*1,n*2,n*3,n*4。
在實(shí)際情況中,如果各層均值差異大,往往采用比例分配。各層標(biāo)準(zhǔn)差相差很大時(shí),往往采用尼曼分配。
四、估計(jì)量精度的改進(jìn)
確定樣本量和各層應(yīng)抽取的樣本數(shù)后,各層抽樣相互獨(dú)立,利用簡(jiǎn)單隨機(jī)抽樣的方式對(duì)樣本進(jìn)行抽取。在利用樣本對(duì)總體進(jìn)行估計(jì)時(shí),通常采用的方法是簡(jiǎn)單估計(jì)量法,簡(jiǎn)單估計(jì)量的估計(jì)較為方便簡(jiǎn)單。
E(y(—))=(1/n)*E(∑yi)=(1/n)*(n/N)∑Yi=Y(—)
但簡(jiǎn)單估計(jì)量法通常估計(jì)精度較差。在能夠獲得輔助信息的條件下,通常采用比估計(jì)或者回歸估計(jì)用以改善估計(jì)的精度。比估計(jì)是利用獲得與Y高度相關(guān)的輔助變量X(—)在X的總體均值或者總體總值的已知情況下利用輔助變量構(gòu)造調(diào)查變量的總體均值或總值的比率估計(jì)量。
R(^)=y/x=y(_)/x(_)
Y(_^)=y(_)R=R(^)X(_)=(y/x)*R(^)
Y(^)R=R(^)X=(y/x)*X=Ny(_)R
值得注意的是比估計(jì)量是有偏的,但是偏差不大,當(dāng)樣本無(wú)窮大時(shí)將會(huì)近似無(wú)偏。
在分層抽樣抽樣中分層的比率估計(jì)量分為分別比估計(jì)和聯(lián)合比估計(jì)。分別比估計(jì)的估計(jì)精度優(yōu)于聯(lián)合比估計(jì)。
Y(_^)st=∑WhY(_^)h=∑Why(_)Rh=∑WhR(^)hX(_)h
V(y(_)Rc)=∑Wh2[(1-fh)/nh]*(Syh2-2RSxyh+R2Sxh2)
五、實(shí)證分析
相關(guān)調(diào)查機(jī)構(gòu)為了解2011年在金融危機(jī)3年后,世界500強(qiáng)企業(yè)的一個(gè)營(yíng)運(yùn)情況,對(duì)2011年世界500強(qiáng)企業(yè)進(jìn)行分層隨機(jī)抽樣,組成一個(gè)樣本容量為N的樣本。本例中費(fèi)用尚未給定,因此本例中同時(shí)采用比例分配和假設(shè)每層抽樣費(fèi)用一致的尼曼分配進(jìn)行樣本量的確定,然后進(jìn)行對(duì)比,選取其中精度較優(yōu)的分配確定樣本量。最后采用簡(jiǎn)單估計(jì)和比率估計(jì)兩種方式來(lái)估計(jì)2011年的世界500強(qiáng)企業(yè)的營(yíng)業(yè)收入,選取精度更高的估計(jì)作為最終的估計(jì)結(jié)果。
1、總體分層
利用2010年世界500強(qiáng)營(yíng)業(yè)收入作為一個(gè)歷史數(shù)據(jù)作為先驗(yàn)信息.進(jìn)行觀察確定大致的分層范圍。根據(jù)散點(diǎn)圖的分布形態(tài)確定數(shù)據(jù)特征以及分層點(diǎn),確認(rèn)分層點(diǎn)后,采取累計(jì)平方根法對(duì)數(shù)據(jù)進(jìn)行分組分層。由于數(shù)據(jù)存在極端值,將剔除干擾數(shù)據(jù)的三個(gè)極端值后,將世界500強(qiáng)企業(yè)分為四層,包括歷年不存在與500強(qiáng),今年存在于500強(qiáng)的企業(yè)數(shù)據(jù)。各層的營(yíng)業(yè)收入分別是 19538~29000,29000~47500,47500~91500,91500~308928.(單位:百萬(wàn)美元)
2、樣本量n的計(jì)算
對(duì)數(shù)據(jù)進(jìn)行分層后,計(jì)算出各層的層權(quán)Wh和方差Sh2。分別利用比例分配和尼曼分配進(jìn)行樣本量的計(jì)算,要求估計(jì)精度在95%的置信區(qū)間下,相對(duì)誤差不超過(guò)10%,按照比例分配計(jì)算得到樣本量n為49,尼曼分配得到的樣本量為20。
3、各層樣本量的nh的計(jì)算
確定樣本量后,本例采取尼曼分配得到的樣本量按照不同的分配形式在進(jìn)行各個(gè)層樣本數(shù)確定。分層后,計(jì)算各層的層權(quán)Wh, 比例分配情況下,將樣本總量N及各層層權(quán)Wh 代入ni=Wh*n,計(jì)算得到每層分配得到的樣本量
n1=7,n2=6,n3=4,n4=3,
尼曼分配情況下ni*=wh* n,計(jì)算得到每層的樣本分配量
n1=2,n2=3,n3=5,n4=10,
4、樣本的抽取
本例中采取簡(jiǎn)單隨機(jī)抽樣的方法抽取各層樣本,對(duì)分層樣本隨機(jī)抽取的樣本進(jìn)行估計(jì),利用樣本各層均值對(duì)總體各層均值在估計(jì)精度為95%的置信水平,相對(duì)誤差小于10%的采用簡(jiǎn)單估計(jì)結(jié)果.
(1)采用比例分配yst=Whyh=1/N Nhyh=51037.31
(2) 采用尼曼分配yst=Wh*yh=1/N Nhyh=80124.150
由于數(shù)據(jù)中各層的均值差異很大,則此時(shí)采用比例分配的效果較好由于尼曼分配
在簡(jiǎn)單估計(jì)下的方差:
(1)采用比例分配的V(YSt)= 7447220.51
(2)采用尼曼分配的V(YSt)= 167689489.4
根據(jù)2011年世界500強(qiáng)的營(yíng)業(yè)收入的總體數(shù)據(jù)可以計(jì)算得到當(dāng)年世界500強(qiáng)平均營(yíng)業(yè)收入在不踢除三個(gè)異常點(diǎn)情況下為52086,剔除異常值3個(gè)點(diǎn)后得到平均營(yíng)業(yè)收入為50077.16278,在比例分配下估計(jì)值為51037.31與總體值接近。
5、樣本的估計(jì)精度改進(jìn)
得到樣本后,利用2010年世界5001強(qiáng)的營(yíng)業(yè)收入作為輔助變量,利用分層抽樣中的聯(lián)合比估計(jì)R(^)c=yst/xst, y(_)R(^)c=R(^)cX=y(_)st/x(_)st*X(_)
在比例分配下E(YSt)=50938.7
在尼曼分配下E(YSt)=52880
這比簡(jiǎn)單估計(jì)下的平均收入離總體均值更加接近,并且估計(jì)精度方差在
在比例分配下V(YSt)= 7202954.128,
在尼曼分配下V(YSt)=27316800
估計(jì)量的方差比簡(jiǎn)單估計(jì)的方差不管是在比例分配還是在尼曼分配下都有所減少,可以得出結(jié)論在比估計(jì)下精度得到了提高。
六、結(jié)論
分層抽樣中,通常采用比例分配,尼曼分配,最優(yōu)分配三種方法,數(shù)據(jù)的實(shí)際情況和費(fèi)用的要求決定了采用哪種方法,通常不考慮費(fèi)用情況下,在各層均值差異大時(shí),采用比例分配更優(yōu),在各層標(biāo)準(zhǔn)差差異很大時(shí),則尼曼分配更優(yōu)。當(dāng)利用分層抽樣的優(yōu)越性得到樣本后,需要對(duì)總體的參數(shù)進(jìn)行估計(jì),比估計(jì)能夠有效地改善簡(jiǎn)單估計(jì)的精度較差問(wèn)題,在大樣本的條件下近似無(wú)偏,但是對(duì)其輔助變量的相關(guān)性有較高要求,通常要求正比例相關(guān)。在實(shí)際情況中,通常能夠獲得歷史資料或者與要研究問(wèn)題高度相關(guān)的輔助量的資料。利用輔助資料進(jìn)行比估計(jì)量對(duì)總體參數(shù)進(jìn)行估計(jì)將極大地提高估計(jì)精度,有效的做出更科學(xué)的估計(jì)。
參考文獻(xiàn):
[1]李金昌.應(yīng)用抽樣技術(shù)[M].北京科學(xué)出版社.2007
[2]徐慧楓.分層抽樣中樣本容量分配的思考[J].企業(yè)導(dǎo)報(bào). 2011(6)
(作者單位:中國(guó)地質(zhì)大學(xué)(武漢)經(jīng)濟(jì)管理學(xué)院
湖北武漢市 430074)