呂書龍,劉文麗,梁飛豹,薛美玉
(福州大學(xué) 數(shù)學(xué)與計算機(jī)科學(xué)學(xué)院,福州 350108)
參數(shù)估計和假設(shè)檢驗(yàn)是統(tǒng)計中最常見的兩類統(tǒng)計推斷問題,在點(diǎn)估計方面,矩估計法和極大似然估計法是基本方法,而區(qū)間估計和假設(shè)檢驗(yàn)則通常是通過構(gòu)造樞軸量[1-2]得以實(shí)現(xiàn)。隨著非參數(shù)理論和方法的深入研究,各種基于非參數(shù)理論的統(tǒng)計推斷方法也相繼出現(xiàn),如秩方法[2-3]、Bootstrap法[4-6]、隨機(jī)加權(quán)法[7]等。關(guān)于分布參數(shù)的參數(shù)型和非參數(shù)型的統(tǒng)計推斷方法的研究很多,成果也很豐碩,文獻(xiàn)[8-16]中列舉了近幾年的一些研究。大量的研究成果極大地促進(jìn)了經(jīng)典的統(tǒng)計推斷理論和方法的發(fā)展。
經(jīng)典的參數(shù)統(tǒng)計推斷問題的背景可描述為:假設(shè)總體X~F(x,θ)(或f(x,θ)),且F(x,θ)(或f(x,θ))的函數(shù)形式已知,但θ未知,θ∈Θ,其中Θ為θ的參數(shù)空間。已知該總體的一個樣本X1,X2,…,Xn及其觀測值x1,x2,…,xn,對于未知參數(shù)θ,經(jīng)典的參數(shù)推斷問題為:① 關(guān)于θ的點(diǎn)估計和置信度為1-α的區(qū)間估計;② 關(guān)于θ的假設(shè)檢驗(yàn)問題。
現(xiàn)有的參數(shù)型或非參數(shù)型的很多方法都可以解決上述問題,其中有些方法都已成為教學(xué)和實(shí)際應(yīng)用中的經(jīng)典。在講授“應(yīng)用概率統(tǒng)計”和“統(tǒng)計計算”課程[1,17]的參數(shù)估計和假設(shè)檢驗(yàn)內(nèi)容時,為了激發(fā)學(xué)生對統(tǒng)計方法的探索和對R統(tǒng)計軟件的應(yīng)用水平,以密度函數(shù)、核估計、Bootstrap法3個關(guān)鍵詞,要求構(gòu)造一套基于直觀統(tǒng)計理論和隨機(jī)模擬的,有一定新意的統(tǒng)計推斷方法。這個問題來自是教學(xué)過程中的一個突發(fā)的想法,本意是希望通過問題式、探究式教學(xué)來促進(jìn)學(xué)生的統(tǒng)計計算思維。遺憾的是,這個綜合了統(tǒng)計建模、實(shí)驗(yàn)設(shè)計、程序設(shè)計和隨機(jī)模擬的問題沒有在學(xué)生群體中得到突破,反而成了本文研究的一個起點(diǎn)。希望通過此文對類似課程的問題式、探究式、實(shí)驗(yàn)式教學(xué)提供一種參考,以便提升教學(xué)效果。
核密度是對總體密度函數(shù)f(x,θ)的一種估計實(shí)現(xiàn),經(jīng)驗(yàn)分布函數(shù)是對總體分布函數(shù)F(x,θ)的一種估計實(shí)現(xiàn),不妨將這兩個估計統(tǒng)一稱為擬合分布,而F(x,θ)(或f(x,θ))統(tǒng)一稱為理論分布。即
(1)
(2)
式中:h稱為窗寬;K(x)稱為核函數(shù);I(x)為示性函數(shù),當(dāng)條件x為真時,其值為1,否則為0?,F(xiàn)有的很多理論和實(shí)踐都說明了上述估計的合理性和優(yōu)良性[3-6,18-19]。
既然式(1)和(2)的非參數(shù)型擬合分布是理論分布的良好估計,那么在式(1)和(2)的基礎(chǔ)上,不妨逆向思考:擬合分布Fn(x)(或fn,h(x))中形式上已經(jīng)不含未知參數(shù)θ了,不妨轉(zhuǎn)換其角色,將其當(dāng)作最終的“理論分布”,而把含未知參數(shù)的理論分布F(x,θ)(或f(x,θ))當(dāng)作“擬合分布”,然后通過合適的手段尋找最佳的θ,使得“擬合分布”逼近“理論分布”,這就誕生了求解未知參數(shù)點(diǎn)估計的一個方法,不妨稱之為“非參數(shù)逆向思維法”。
此處合適的手段指構(gòu)建度量“擬合分布”和“理論分布”偏差的損失函數(shù),通過最優(yōu)化手段確定某個θ的值使得損失函數(shù)值達(dá)到最小,得到未知參數(shù)θ的最優(yōu)估計,即,
(3)
(4)
上述約束優(yōu)化模型的求解若需要一個合理的初值,不妨取參數(shù)θ為參數(shù)空間Θ的中間值。
從形式上看,式(3)適用于連續(xù)型分布,若直接套用給離散型分布是不行的。實(shí)際上對于離散型分布,取其密度估計為頻率即可,即
(5)
另外,若取函數(shù)K(x)=I(x),且窗寬h=1,即可將式(5)統(tǒng)一到式(1)中。
式(3)和(4)給出了通過密度函數(shù)和分布函數(shù)求解未知參數(shù)點(diǎn)估計的基本模型,而要實(shí)現(xiàn)參數(shù)的區(qū)間估計與假設(shè)檢驗(yàn),還需借助非參數(shù)的Bootstrap方法。利用Bootstrap理論和方法,以已知樣本產(chǎn)生足夠多的自助樣本并利用式(3)或(4)得到相應(yīng)的θ估計序列,再基于Bootstrap方法體系中的求解區(qū)間估計的樞軸量和非樞軸量法[5],可計算出未知參數(shù)θ的置信度為1-α的區(qū)間估計,同理可計算未知參數(shù)θ相應(yīng)的假設(shè)檢驗(yàn)問題的檢驗(yàn)p值。
考慮式(3)或(4)中的q值,若取q=2,則是基于最小二乘思想;若取q=1,則基于最小一乘思想,代入樣本觀測值,可得到θ的點(diǎn)估計。結(jié)合R軟件給出如下過程:
步驟1根據(jù)樣本選擇合適的窗寬h,由式(1)結(jié)合R軟件中的density函數(shù)得到核密度估計fn,h(x)或者由式(2)結(jié)合R軟件中的ecdf函數(shù)是得到經(jīng)驗(yàn)分布函數(shù)Fn(x)。
步驟2選定q值,構(gòu)建式(3)或(4)的最優(yōu)化目標(biāo)函數(shù)g(θ)。
若希望得到未知參數(shù)θ更穩(wěn)定可靠的估計,可以引入Bootstrap方法,以Bootstrap法估計的平均值作為最終的點(diǎn)估計值。
近似正態(tài)法:由
可得:
(6)
近似t分布法:由
可得:
(7)
(8)
近似正態(tài)法:
(9)
此處Φ(x)為標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù)。同理可以實(shí)現(xiàn)近似t分布法的檢驗(yàn)p值,不再贅述。
分位數(shù)法:
(10)
參照雙側(cè)檢驗(yàn)的作法,同理可以得到右側(cè)檢驗(yàn)或左側(cè)檢驗(yàn)的檢驗(yàn)p值。
例1設(shè)樣本X1,X2,…,Xn及觀測值x1,x2,…,xn來自柯西分布總體X~C(μ,γ),其概率密度函數(shù)為
求參數(shù)μ、γ的估計值。
柯西分布的各階矩均不存在,故無法使用矩法得到點(diǎn)估計,但可以使用極大似然估計法。而本文方法屬于非參數(shù)法,故不受此限制。下面給出本文方法(簡稱逆向法)和極大似然估計法(簡稱極大法)的隨機(jī)模擬比較結(jié)果。
從表1結(jié)果可知,式(3)和(4)定義的逆向法可用來求解分布參數(shù)的點(diǎn)估計。由于核密度估計受到窗寬的影響較大,故式(3)的逆向法與極大似然估計法的偏差較式(4)的逆向法大,而式(4)的逆向法與極大似然法估計的結(jié)果非常接近。再給出μ=0,γ=1時,100次模擬的各種基本統(tǒng)計指標(biāo),以便比較這3種估計,具體見表2。
表1 逆向方法與極大似然估計法對于參數(shù)μ和γ估計的模擬對比(q=2)
注:模擬用的隨機(jī)樣本采用函數(shù)set.seed(12)進(jìn)行固定以便分析結(jié)果可驗(yàn)證和可重現(xiàn),具體程序見附錄1
表2 2個參數(shù)(μ,γ)100次隨機(jī)模擬估計值的統(tǒng)計指標(biāo)(q=2)
注:具體程序見附錄2
從表2及圖1、2輸出可知,式(3)逆向法的各項(xiàng)統(tǒng)計指標(biāo)弱于式(4)逆向法,且式(3)逆向法與極大似然估計有較大差異。但式(4)逆向法與極大似然估計法只有微小差異,由檢驗(yàn)p值可知,兩者不存在統(tǒng)計意義上的顯著差異。
對表3給出的計算結(jié)果分析可知,式(4)逆向法結(jié)合Bootstrap方法得到的區(qū)間估計與檢驗(yàn)p值與常規(guī)的方法相比沒有本質(zhì)區(qū)別,這歸功于經(jīng)驗(yàn)分布函數(shù)的穩(wěn)健性。而式(3)逆向法得到的區(qū)間估計與檢驗(yàn)p值與常規(guī)方法相比大部分沒本質(zhì)區(qū)別,但在指數(shù)分布上差異明顯,主要原因在于指數(shù)分布的密度最高值在邊界處達(dá)到,而核密度估計的劣勢正好在邊界處。但在分布密度基本對稱時,式(3)和(4)沒有本質(zhì)差異。
圖1 參數(shù)μ的100次模擬結(jié)果的箱線圖
圖2 參數(shù)γ的100次模擬結(jié)果的箱線圖
表3 分布參數(shù)的雙側(cè)置信區(qū)間和檢驗(yàn)p值(q=2)
注:各分布均采用函數(shù)set.seed(12)指定隨機(jī)數(shù)表,分別提取100個隨機(jī)數(shù);Bootstrap方法的自助樣本依隨機(jī)數(shù)表1~2 000生成,見附錄3
總體而言,在實(shí)際應(yīng)用中,式(4)逆向法優(yōu)于式(3)逆向法。一方面式(4)逆向法估計精度有保障而且估計更穩(wěn)健;另一方面式(4)逆向法的計算效率高于式(3)逆向法。
本文將非參數(shù)核密度估計和經(jīng)驗(yàn)分布函數(shù)這兩個實(shí)際上的擬合分布當(dāng)作“理論分布”,而將密度函數(shù)和分布函數(shù)這兩個實(shí)際上的理論分布當(dāng)作“擬合分布”,讓“擬合分布”逼近“理論分布”為基本思想逆向地構(gòu)建了兩者之間逼近的損失函數(shù),通過優(yōu)化模型得到未知參數(shù)的估計,并給出了這兩套方法的R腳本程序。通過構(gòu)建兩個例子和大量的隨機(jī)模擬過程,一方面將這兩套方法與極大似然估計方法進(jìn)行比較;另一方面給出了解決統(tǒng)計推斷中的區(qū)間估計和假設(shè)檢驗(yàn)兩類問題的基本過程,實(shí)現(xiàn)了統(tǒng)計方法教學(xué)所需要的完整過程,有利于學(xué)生充分思考、研究并掌握該方法,隨機(jī)模擬實(shí)驗(yàn)設(shè)計與對應(yīng)的R程序也便于實(shí)際教學(xué)及演示。隨機(jī)模擬結(jié)果表明基于分布函數(shù)的逆向法的普適性、精確性和穩(wěn)健性優(yōu)于基于密度函數(shù)的逆向法,基于分布函數(shù)的逆向法與極大似然估計方法沒有本質(zhì)差別。在區(qū)間估計和假設(shè)檢驗(yàn)方面,基于分布函數(shù)的逆向法表現(xiàn)與常規(guī)方法無顯著差異;除了在邊界處出現(xiàn)密度極端值外,其他情況下,基于密度函數(shù)的逆向法與常規(guī)方法也沒有太多差別。但在實(shí)際應(yīng)用中,建議優(yōu)先使用基于分布函數(shù)的逆向法。至于如何提高基于密度函數(shù)的逆向法的普適性,則需要在核密度估計的天生缺陷問題上進(jìn)行改進(jìn),有一定難度。至于提高基于密度的逆向法的精度,需要樣本量、最優(yōu)窗寬和核函數(shù)的綜合考量,有待進(jìn)一步研究。