趙江南, 龐 冬, 樊森德
(新疆農(nóng)業(yè)大學(xué) 數(shù)理學(xué)院,新疆 烏魯木齊 830052)
由于變點(diǎn)問(wèn)題涉及經(jīng)濟(jì)、醫(yī)學(xué)、金融、工程等很多領(lǐng)域,所以估計(jì)一個(gè)隨機(jī)序列中變點(diǎn)的位置是近年來(lái)統(tǒng)計(jì)學(xué)的熱點(diǎn)研究問(wèn)題之一。研究變點(diǎn)問(wèn)題的方法有很多種,文獻(xiàn)[1-2]用MCMC方法研究了IIRCT情況下二項(xiàng)分布、威布爾分布的多變點(diǎn)問(wèn)題,文獻(xiàn)[3]用IBF算法研究了正態(tài)分布均值單變點(diǎn)的識(shí)別問(wèn)題等等。但對(duì)獨(dú)立二項(xiàng)分布序列變點(diǎn)的研究的還比較少。本文運(yùn)用IBF算法研究二項(xiàng)分布的變點(diǎn)問(wèn)題,給出了識(shí)別變點(diǎn)個(gè)數(shù)和通過(guò)IBF算法識(shí)別變點(diǎn)具體位置的步驟,隨機(jī)模擬的結(jié)果表明估計(jì)值較為精確。
考慮如下具有獨(dú)立二項(xiàng)分布序列變點(diǎn)模型,假設(shè)各yi相互獨(dú)立
假設(shè)ti已知,當(dāng)θ1≠θ2≠.....≠θk+1(未知)時(shí),我們稱此模型為一個(gè)具有k個(gè)變點(diǎn)且變點(diǎn)位置為ri,(i=1,2,..,k)的獨(dú)立二項(xiàng)分布序列變點(diǎn)模型。那么,我們的問(wèn)題是如何判斷序列{yi}(i=1,2,..,n)中的變點(diǎn)個(gè)數(shù)k,以及確定變點(diǎn)的位置ri,(i=1,2,..,k)。
下面通過(guò)IBF方法估計(jì)變點(diǎn)的位置ri,(i=1,2,..,k)
在應(yīng)用IBF算法估計(jì)變點(diǎn)的位置ri,(i=1,2,..,k)之前,首先介紹IBF算法。Tian通過(guò)一種非迭代Bayes抽樣方法,簡(jiǎn)稱IBF方法,來(lái)從一組觀測(cè)數(shù)據(jù)中推導(dǎo)出缺失數(shù)據(jù)的條件分布,然后從完整數(shù)據(jù)的后驗(yàn)分布中提取樣本,進(jìn)而判決缺失數(shù)據(jù)的統(tǒng)計(jì)分布。
(1)
對(duì)于任意θ0∈S(θ|Y)及所有Z∈S(Z|Y)成立。證明見(jiàn)[10]。其中f(Z|Y)為缺失數(shù)據(jù)的后驗(yàn)分布,f(Z|Y,θ)為缺失數(shù)據(jù)的條件后驗(yàn)分布,f(θ|Y,Z)為參數(shù)θ的后驗(yàn)分布。(1)式表明,缺失數(shù)據(jù)的后驗(yàn)分布f(Z|Y)正比于f(Z|Y,θ)與f(θ|Y,Z)的商。因此要想得到缺失數(shù)據(jù)的統(tǒng)計(jì)分布,只需得到f(Z|Y,θ)及f(θ|Y,Z)即可。
(2)
(3)
又因?yàn)閞0=0,rk+1=n,所以
(4)
將變點(diǎn)r看做(1)式中的缺失數(shù)據(jù),那么由(1)式得
(5)
基于(5)式,我們就得到了變點(diǎn)的位置的后驗(yàn)分布,可以依照此式對(duì)變點(diǎn)位置做精確的統(tǒng)計(jì)推斷。下面我們通過(guò)Bayes因子討論如何確定序列中變點(diǎn)的個(gè)數(shù)。
根據(jù)文獻(xiàn)[12],Bayes因子定義如下:
Jeffreys在1961年的附錄B中給出了用Bayes因子進(jìn)行模型選擇的一般準(zhǔn)則,他指出當(dāng)BFs+1,s落在(1,3.2),(3.2,10),(10,100),(100,+)這四個(gè)區(qū)間時(shí)分別代表s與s+1間的差別不值一提、較為肯定支持s+1、強(qiáng)烈的支持s+1、以及較為強(qiáng)烈的支持s+1。
經(jīng)計(jì)算得L(Y|M1)=3.334×10(-75),L(Y|M0)=9.750×10-88,所以BF1,0=3.420×1012,因此,我們判斷模型為具有一個(gè)變點(diǎn)的獨(dú)立二項(xiàng)分布序列。再由(1)~(5)得變點(diǎn)在各處的概率分布見(jiàn)表2(精確到小數(shù)點(diǎn)后三位)。
表1 模型一隨機(jī)變量序列
表2 變點(diǎn)r的分布律
表中帶*為概率最大的變點(diǎn)位置,即判斷出變點(diǎn)位置r=10。
第二個(gè)變點(diǎn)模型為
表3 模型二隨機(jī)變量序列
表4 變點(diǎn)聯(lián)合分布律
續(xù)表4
r2r1123456789101112131415161718170.0000.0000.0000.0000.0080.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.000——180.0000.0000.0000.0010.0750.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.000—190.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.000
表中帶*為概率最大的變點(diǎn)位置,即判斷出變點(diǎn)位置 r1=5,r2=15。
6.1引用[7]中Hanify在1981年分析的數(shù)據(jù):1960年到1976年新西蘭北部某地區(qū)懷孕第一個(gè)月出現(xiàn)畸形足的人數(shù)xi及當(dāng)年新生兒總數(shù)ni(見(jiàn)表5)。
表5 1960年到1976年某地區(qū)懷孕第1個(gè)月出現(xiàn)畸形足的人數(shù)及新生兒總數(shù)
接下來(lái)通過(guò)IBF方法,為了簡(jiǎn)化計(jì)算量,首先將數(shù)據(jù)xi及ni取常用對(duì)數(shù),得到BF10=562.621,所以選擇單變點(diǎn)二項(xiàng)序列模型。然后由(1)~(5)得后驗(yàn)概率最大的點(diǎn)為x6,即1965年,后驗(yàn)概率為0.193,結(jié)合Worsley在1983年分別用似然比法和CUSUM檢驗(yàn)法得到的變點(diǎn)位置在第6個(gè),結(jié)果基本一致。事實(shí)上,在第6個(gè)觀測(cè)數(shù)據(jù)即1965年也是在該地區(qū)首次發(fā)現(xiàn)使用2,4,5-T除草劑的年份,此后出現(xiàn)畸形足新生兒比率明顯升高。由此可以推斷,該種除草劑與出現(xiàn)畸形足患兒有很大相關(guān)性。
6.2引用Smith[12]在1982年分析的數(shù)據(jù),在13個(gè)按時(shí)間順序排列的中世紀(jì)手稿中觀察到的兩種代詞詞尾的出現(xiàn)次數(shù)。一套手稿中的13個(gè)文件被認(rèn)為是多個(gè)作者的工作,因?yàn)槊總€(gè)文件中每個(gè)結(jié)束的比例似乎在順序上有所不同。因此,假設(shè)這些文檔可以分為時(shí)間上連續(xù)的階段,每個(gè)階段都有一個(gè)獨(dú)特的結(jié)尾比例,例如,對(duì)應(yīng)于不同的抄寫(xiě)員,一個(gè)離散多變點(diǎn)模型適用于這些數(shù)據(jù),y1i,y2i,ni分別代表第i個(gè)文件里兩種代詞詞尾的出現(xiàn)次數(shù)以及總數(shù)數(shù)據(jù)如表6。
表6 中世紀(jì)手稿中觀察到的兩種代詞詞尾的出現(xiàn)次數(shù)
i1234567yi12263124283439y2i91013624119ni21364430524548i8910111213y1i464119171716y2i1173344ni574822202120
首先考慮三個(gè)模型分別是沒(méi)有變點(diǎn)的獨(dú)立二項(xiàng)序列模型;含有一個(gè)變點(diǎn)的獨(dú)立二項(xiàng)序列模型以及含有兩個(gè)變點(diǎn)的獨(dú)立二項(xiàng)序列模型。其中BF1,0=212.064;BF2,0=673.952;BF2,1=3.178,再綜合前人結(jié)論,因此我們選擇含兩個(gè)變點(diǎn)的獨(dú)立二項(xiàng)序列模型。然后由(1)~(5)得到概率最大的變點(diǎn)位r1=4,r2=5,最大概率為0.328。這與Smith[12]以及D.A.Stephens[9]所得結(jié)果一致,因此可以判斷此部手稿為三名抄寫(xiě)員抄寫(xiě)。
本文通過(guò)Bayes因子以及IBF方法實(shí)現(xiàn)了對(duì)獨(dú)立二項(xiàng)分布序列變點(diǎn)模型的變點(diǎn)個(gè)數(shù)和變點(diǎn)位置的估計(jì)。給出了推導(dǎo)的詳細(xì)步驟,并通過(guò)隨機(jī)模擬驗(yàn)證了估計(jì)的準(zhǔn)確性,再結(jié)合實(shí)例,將分析應(yīng)用到了現(xiàn)實(shí)生活,實(shí)現(xiàn)了對(duì)兩個(gè)現(xiàn)實(shí)中存在的獨(dú)立二項(xiàng)分布序列變點(diǎn)模型的估計(jì)。結(jié)果顯示,估計(jì)精確,得到的結(jié)果與前人一致。