張林泉
(廣東女子職業(yè)技術(shù)學(xué)院,廣東廣州511450)
區(qū)間估計(jì)(interval estimation)是包括估計(jì)量在內(nèi)(有時(shí)是以估計(jì)量為中心)的一個(gè)區(qū)間;該區(qū)間被認(rèn)為很可能包含總體參數(shù).重復(fù)抽取大量(樣本量相同的)樣本時(shí),產(chǎn)生的大量類似區(qū)間中有些會(huì)覆蓋真正的p,而有些不會(huì);但其中大約有95%會(huì)覆蓋真正的總體比例.這樣得到的區(qū)間被稱為總體比例 p的置信度(confidence level)為95%的置信區(qū)間(confidence interval).在實(shí)際問(wèn)題中,不僅需要求出參數(shù)的近似值,還要大致估計(jì)這個(gè)近似值的精確度和可靠性[1].兩個(gè)總體均值的置信區(qū)間是由兩個(gè)樣本均值之差加減估計(jì)誤差.得到的估計(jì)誤差由兩部分組成:一是點(diǎn)估計(jì)量的標(biāo)準(zhǔn)誤差,它取決于樣本統(tǒng)計(jì)量的抽樣分布.二是估計(jì)時(shí)所要求的置信水平為1-α?xí)r,統(tǒng)計(jì)量分布兩側(cè)面積為α的分位數(shù)值,取決于事先所要求的可靠程度兩個(gè)總體均值之差在置信水平下的置信區(qū)間可一般性地表達(dá)為分位數(shù)值的標(biāo)準(zhǔn)誤差.本文就如何利用樣本函數(shù),討論未知參數(shù)的置信區(qū)間,結(jié)合實(shí)例進(jìn)行分析,并給出在MATLAB平臺(tái)實(shí)現(xiàn)的程序.
設(shè)兩個(gè)正態(tài)總體 X 與 Y,且 X ~ N(μ1,σ),Y ~ N(μ2,σ),(X1,X2,…,Xn1)為來(lái)自總體 X 的樣本,(Y1,Y2,…,Yn2)為來(lái)自總體Y的樣本,并且兩組樣本相互獨(dú)立,σ、σ未知,但σ=σ.求總體均值之差μ1-μ2的1-α置信區(qū)間.
(x1,x2,…,xn1)為總體 X 的一組樣本觀測(cè)數(shù)據(jù);(y1,y2,…,yn2)為總體Y的一組樣本觀測(cè)數(shù)據(jù).
則由兩個(gè)總體的抽樣分布中的結(jié)論可知
對(duì)于給定的置信度1-α,由t分布密度曲線關(guān)于y軸對(duì)稱,尋找臨界值tα/2(n1+n2-2)使得
當(dāng)給定α?xí)r,查自由度為n1+n2-2的t分布臨界值表,可得到臨界值 tα/2(n1+n2-2).
得到臨界值tα/2(n1+n2-2)后,由不等式
可以推得:
即有(1-α)的可能性判定μ1-μ2落在上述區(qū)間內(nèi)[2].
例1 為了比較甲、乙兩類保險(xiǎn)公司中具有高等教育水平的員工比例,從甲類公司中隨機(jī)抽取8個(gè),測(cè)得平均比例,樣本標(biāo)準(zhǔn)差分別為,從乙類公司中隨機(jī)抽取10個(gè),測(cè)得平均比例,樣本標(biāo)準(zhǔn)差分別為S2=.13178,并且根據(jù)長(zhǎng)期經(jīng)驗(yàn)可知,兩總體都是正態(tài)分布,方差相等,求兩總體均值差μ1-μ2的95%的置信區(qū)間[3].
解:由于兩類公司各自隨機(jī)抽取,所以可以認(rèn)為兩組樣本獨(dú)立.又知兩總體方差未知但它們相等,選取統(tǒng)計(jì)量
根據(jù)樣本觀測(cè)數(shù)據(jù)(x1,x2,…,xn1)、(y1,y2,…,yn2),計(jì)算樣本均值的觀測(cè)值與,樣本方差的觀測(cè)值S1與S2,就可以得到一個(gè)具體的關(guān)于μ1-μ2的1-α置信區(qū)間為:
由題意 α =0.05,n1+n2-2=8+10 -2=16.
查自由度為16的t分布臨界值表,可得臨界值
結(jié)果表明:有95%的把握斷定,乙類公司具有高等教育水平員工比例的均值高,平均比例最多比甲類公司多31.033%,最少多9.68%.
設(shè)兩個(gè)正態(tài)總體 X 與 Y,且 X ~ N(μ1,),Y ~ N(μ2,),(X1,X2,…,Xn1)為來(lái)自總體 X 的樣本,(Y1,Y2,…,Yn2)為來(lái)自總體Y的樣本,并且兩組樣本相互獨(dú)立,、未知,求總體均值之差μ1-μ2的1-α置信區(qū)間.
分別是總體X與總體Y的樣本均值和樣本方差.
設(shè)(x1,x2,…,xn1)為總體X的一組樣本觀測(cè)數(shù)據(jù);(y1,y2,…,yn2)為總體Y的一組樣本觀測(cè)數(shù)據(jù).
當(dāng) n1、n2都充分大時(shí)(n1≥50,n2≥50),t分布近似于標(biāo)準(zhǔn)正態(tài)分布,即
則由數(shù)學(xué)期望和方差的性質(zhì),有
其中Uα/2為臨界值,其值可通過(guò)查標(biāo)準(zhǔn)正態(tài)分布函數(shù)數(shù)值表得到[2].
例2 2825本市戶口和168外市戶口家庭人均住房面積,本市戶口的平均面積為21.7258平方米,樣本標(biāo)準(zhǔn)差為12.17539;外市戶口平均面積為26.7165平方米,樣本標(biāo)準(zhǔn)差為18.96748.假設(shè)本市戶口和外市戶口家庭人均住房面積均服從正態(tài)分布,μ1表示所有本市戶口的平均面積,μ2為所有外市戶口的平均面積,求μ1-μ2的95%的置信區(qū)間[3].
解:由于兩個(gè)總體的方差未知,且n1=2825,n2=168,有統(tǒng)計(jì)量
近似服從N(0,1).已知α =0.05,∴ Φ(Uα/2)=1 - α/2
反查標(biāo)準(zhǔn)正態(tài)分布函數(shù)數(shù)值表,得臨界值U0.025=1.96.
∴μ1-μ2的95% 的置信區(qū)間為:
由兩總體均值差的95%的置信區(qū)間,區(qū)間不跨零,可以認(rèn)為兩總體均值存在顯著差異,本市戶口和外市戶口的家庭人均住房面積的平均值存在顯著差異.
在例1中,在命令窗口輸入:t=tinv(0.975,16);s=sqrt((7*0.16957^2+9*0.13178^2)/16);
得到結(jié)果:{-0.310324,-0.00967568}
在例2中,在命令窗口輸入:z=norminv(0.975);
得到結(jié)果:{-7.89379,-2.08761}[4].
求置信區(qū)間的一般步驟如下:第一,確定樣本統(tǒng)計(jì)量.用來(lái)估計(jì)總體參數(shù);第二,選擇一個(gè)置信水平1-α;第三,找到誤差邊際,誤差邊際=臨界值*統(tǒng)計(jì)量的標(biāo)準(zhǔn)誤;第四,指定置信區(qū)間,置信區(qū)間=樣本統(tǒng)計(jì)量±誤差邊際[5].綜上,確定區(qū)間估計(jì)關(guān)鍵是要尋找一個(gè)待估參數(shù)θ和估計(jì)量T的函數(shù)U(T,θ),且U(T,θ)的分布為已知,不依賴于任何未知參數(shù).而這與總體分布有關(guān),所以,總體分布的形式是否已知,是怎樣的類型,至關(guān)重要.給定樣本,給定置信水平,置信區(qū)間也不是唯一的.
[1]吳喜之.統(tǒng)計(jì)學(xué):從數(shù)據(jù)到結(jié)論(第三版)[M].北京:中國(guó)統(tǒng)計(jì)出版社,2006.
[2]曾五一.統(tǒng)計(jì)學(xué)簡(jiǎn)明教程[M].北京:中國(guó)人民大學(xué)出版社,2012.
[3]薛微.統(tǒng)計(jì)分析與SPSS的應(yīng)用(第三版)[M].北京:中國(guó)人民大學(xué)出版社,2011.
[4]Marchand P,Holland O T.Graphics and GUIs with MATLAB[M].Florida:CRC Press,2003.
[5]拉森,法伯.基礎(chǔ)統(tǒng)計(jì)學(xué)(第四版)[M].北京:中國(guó)人民大學(xué)出版社,2010.