楊 航, 楊艷秋, 于新龍
(吉林師范大學數(shù)學學院,吉林 四平 136000)
數(shù)據(jù)缺失情況下的統(tǒng)計推斷問題一直是熱點問題.有關一些常見的連續(xù)分布,文獻[1]研究兩個冪分布在部分數(shù)據(jù)缺失情況下的參數(shù)估計及檢驗問題.文獻[2]研究具有部分缺失數(shù)據(jù)的混合指數(shù)分布的參數(shù)估計及假設檢驗問題.由于泊松分布是最常見到的非連續(xù)分布,因此對于泊松分布的統(tǒng)計推斷問題一直是統(tǒng)計學家關心的熱點研究問題.文獻[3]研究兩個泊松分布總體參數(shù)的估計及檢驗.文獻[4]給出含部分缺失數(shù)據(jù)的泊松分布參數(shù)的貝葉斯估計.文獻[5]闡述了泊松分布的由來及發(fā)展.文獻[6]給出泊松分布以及復合泊松分布的性質(zhì).2016年何朝兵、杜保建等人[7]通過EM算法得到了在不完全信息隨機截尾試驗下的混合泊松分布參數(shù)的點估計.2019年隋崴等[8]得到了雙變量泊松分布參數(shù)的極大似然估計.文中進一步研究混合泊松分布在部分數(shù)據(jù)缺失情況下的參數(shù)估計問題,計算混合泊松分布總體未知參數(shù)的矩估計,證明其性質(zhì),并進行隨機模擬以示其可行性.
混合泊松分布的密度函數(shù)為
f(x,q,λ1,λ2)=
其中λi>0(i=1.2)是第一個總體的參數(shù),在對總體分布進行n次獨立觀測下,每個樣本的觀測值以1-p的概率被缺失,以p的概率被觀測,用(Xi,δi),i=1,2,...,n去表示總體的第一個觀測值,這里Xi表示第一個混合泊松分布總體的第i個樣本觀測值,若第i個觀測值丟失,記δi=0,否則記δi=1.
下面用矩估計對兩個未知參數(shù)λ1,λ2進行估計,建立如下矩估計方程:
其中EX=qλ1+(1-q)λ2,E(X2)=qλ1(λ1+1)+(1-q)λ2(λ2+1).
解得
下面證明:對于上述參數(shù)λi(i=1,2)的矩估計的漸近正態(tài)性以及相合性.
證明:{Xiδi,1≤i≤n}是獨立同分布的隨機變量序列,由強大數(shù)定律可知
這里
E(X1δ1)=E(X1)E(δ1)=p(qλ1+(1-q)λ2).
同理可知
(1-q)λ2(λ2+1)),
進而有
其中
定理2在上述記號下有
證明:令Wi=(δi,δiXi,δiXi2),(Wi,i≥1)是獨立同分布的隨機變量序列,且
E(W1)=(p,p(qλ1+(1-q)λ2),
p(qλ1(λ1+1)+(1-q)λ2(λ2+1))).
令∑=E(W1-EW1)(W1-EW1)T,則由多元中心極限定理可知
記
其中
a11=p(1-p),
a12=a21=p(1-p)(qλ1+(1-q)λ2),
a13=a31=p(1-p)(qλ1(λ1+1)+(1-q)λ2(λ2+1)),
a22=p(qλ1(λ1+1)+(1-q)λ2(λ2+1))-
p2(qλ1+(1-q)λ2)2,
a23=a32=p(1-p)(qλ1(λ1+1)+
(1-q)λ2(λ2+1))(qλ1+(1-q)λ2),
a33=p(1-p)
(qλ1(λ1+1)+(1-q)λ2(λ2+1))2,
令
α1=p,
α2=p(qλ1+(1-q)λ2),
α3=p(qλ1(λ1+1)+(1-q)λ2(λ2+1)),
所以
由引理1知
而且
同理令
由引理1可知
其中
下面利用隨機模擬說明所給出的方法的可行性,表1分別給定樣本容量為n=50,n=100,n=300,缺失概率1-p=0.10,混合概率q=0.7和q=0.9時的模擬研究結果。模擬計算了不同參數(shù)λ1,λ2下1000次估計的均方誤差,括號中第一個數(shù)字是參數(shù)λ1的均方誤差,第二個數(shù)字是λ2均方誤差.
表1 模擬結果
從表1中的模擬結果可以看出,對于不同的參數(shù)以及不同的樣本量,參數(shù)估計的均方誤差都相對較小,并且誤差也比較穩(wěn)定,說明所給出的估計方法能夠?qū)ξ粗獏?shù)給出較為精確的估計.
研究了具有缺失數(shù)據(jù)的混合泊松分布總體參數(shù)的估計問題。利用矩估計給出了未知參數(shù)的估計,同時考慮了估計的極限性質(zhì)。也通過模擬分析計算了估計的均方誤差,根據(jù)模擬結果可知,的估計有較小的均方誤差,說明我們的估計方法具有可行性.