肖 翔,古 晞
(1.上海工程技術大學 數(shù)理與統(tǒng)計學院,上海 201620;2.同濟大學 數(shù)學科學學院,上海 200092)
在醫(yī)療衛(wèi)生、保險金融及可靠性等許多實際應用領域,樣本數(shù)據(jù)不僅會出現(xiàn)零過多的情況,也會出現(xiàn)一過多的情況.例如,在新型冠狀病毒(COVID–19)大流行時,個體感染COVID–19 后,自身就會產(chǎn)生抗體,使其感染次數(shù)最多可能一次.又如,在商場買衣服時,出于貨比三家的心理,很多顧客沒有購買衣服或者只購買一件衣服.
近年來,國內(nèi)外很多文獻對0–1 膨脹泊松分布模型進行了深入研究,取得豐富的研究成果.田震[1]基于數(shù)據(jù)刪失和加權擾動模型對0–1 膨脹泊松分布模型進行統(tǒng)計推斷.Tang 等[2]構(gòu)造0–1 膨脹泊松分布模型的等價表達式,采用極大似然估計與貝葉斯方法對新加坡軍團菌感染病例數(shù)據(jù)進行研究.Liu 等[3]利用廣義最大期望(EM)算法對0–1 膨脹泊松分布回歸模型中的參數(shù)進行估計,對美國底特律城市交通事故死亡數(shù)據(jù)進行擬合.夏麗麗等[4]使用局部多項式核回歸法對0–1 膨脹泊松分布模型進行參數(shù)估計,通過對北京市糖尿病患者數(shù)據(jù)的分析,驗證了局部多項式核回歸方法的有效性.
對于0–1 膨脹泊松分布模型,當數(shù)據(jù)存在較大變異時,即樣本均值與樣本方差不相等時,如果仍然用模型進行擬合,效果往往不好.而0–1 膨脹幾何分布模型,不僅可以用于處理樣本數(shù)據(jù)的變異,也適應于樣本尾部數(shù)據(jù)退化較慢的情形.對于0–1 膨脹幾何分布及其回歸模型,目前研究文獻較少,肖翔[5]利用貝葉斯方法對0–1 膨脹幾何分布回歸模型進行參數(shù)估計,Xiao 等[6]基于Polya-Gamma 潛變量設計0–1膨脹幾何分布回歸模型中后驗樣本的抽樣機制.本研究對0–1 膨脹幾何分布模型進行參數(shù)變換,計算出客觀貝葉斯先驗,以期得到更好的擬合效果.
本研究提出0–1 膨脹幾何分布(簡稱為ZOIGE)模型,即一個非負的0-1 膨脹幾何分布的隨機變量Y,可以表示為Y=V(1?B1)+B1(1?B2).其 中,B1、B2、V相互獨立,B1為一個試驗成功概率為p1的伯努利隨機變量;B2為一個試驗成功概率為p2的伯努利隨機變量;V為一個服從于試驗成功概率為 θ的幾何分布隨機變量,即P(V=k)=θk(1?θ),k=0,1,···.隨機變量Y的分布律為
式中:0 ≤p1≤1,0 ≤p2≤1,0 ≤θ ≤1.可以看出,0–1 膨脹幾何分布是由伯努利分布與幾何分布按照比例p1和1?p1組成的混合分布.當p2=1時,ZOIGE變成零膨脹幾何分布(ZIGE)[7?8],當p1=0時,ZOIGE 退化成幾何分布.
進行參數(shù)變換,令
可得
通過上述重參數(shù)化,式(1)變?yōu)?/p>
式中:q1≥0,q2≥0,q1+q2≤1,0 ≤θ ≤1.
設Y=(Y1,Y2,···,Yn)為取自0–1 膨脹幾何分布的觀測值,由式(4)得出似然函數(shù)公式為
式中:S0=#{i:Yi=0}為集合{i:Yi=0}中包含元素的個數(shù);為集合{i:Yi=1}中包含元素的個數(shù);
式(5)兩邊取對數(shù),得到對數(shù)似然函數(shù)為
計算隨機變量Y,S0,S1,S的期望為
計算對數(shù)似然函數(shù)式(6)的一階偏導數(shù)為
計算對數(shù)似然函數(shù)式(6)的二階偏導數(shù)為
進一步計算二階偏導數(shù)期望的相反數(shù),它們是Fisher 信息陣的組成元素.表達式為
因此,(q1,q2,θ)的Fisher 信息陣為
與Laplace 先驗比較,Jeffreys 先驗能夠在參數(shù)變換下保持不變性,比Laplace 先驗具有更廣泛的應用場合[9].參數(shù)(q1,q2,θ)的Jeffreys 先驗與Fisher信息矩陣行列式的平方根成正比,通過式(7)可以計算(q1,q2,θ)的Jeffreys 先驗,公式為
對于參數(shù)組合{(∑q1,q2),θ},(q1,q2)為感興趣的參數(shù),F(xiàn)isher 信息矩陣(q1,q2,θ)可寫成
其中
根據(jù)文獻[10],reference 先驗求解過程中,先求出h1和h2,公式為
再完成以下4 個步驟.
步驟1選取參數(shù)空間的一組緊子集為?i=?12×?3i={(q1,q2)|0 步驟2當(q1,q2)給定時,θ的條件先驗為 步驟3結(jié)合式(8),(q1,q2)的邊緣先驗為 步驟4Φ的reference 先驗為 對于參數(shù)組∑合{θ,(q1,q2)},θ為感興趣的參數(shù),F(xiàn)isher 信息矩陣(q1,q2,θ)可寫成 步驟1選取與{(q1,q2),θ}參數(shù)空間中相同的一組緊子集. 步驟2當 θ給定時,結(jié)合式(8),(q1,q2)的條件先驗為 步驟3結(jié)合式(8),θ的邊緣先驗為 步驟4Φ的reference 先驗為 基于先驗分布 πJ,πR1和πR2,分別得到它們的后驗分布,通過R 軟件進行抽樣,獲取后驗樣本.以πR1為例,(q1,q2,θ)的后驗分布為 式中:Y=(Y1,Y2,···,Yn)為觀測數(shù)據(jù).式(9)的具體形式為 從式(10)可以看出,(q1,q2)的后驗邊緣分布為 本節(jié)基于Jeffreys 先驗和reference 先驗,通過數(shù)值模擬對ZOIGE 模型的參數(shù)進行估計.樣本容量分別設為n=20和n=50,θ值設為 0.8,q1的值分別設為 0.3和0.7,q2值分別設為 0.4和 0.6,所有模擬重復2 000 次,計算出參數(shù)估計量的均值和均方誤差見表1 和表2.從表中可以看出,隨著樣本容量的增加,3 種客觀貝葉斯先驗下的估計值越來越接近真值,均方誤差也越來越小.對于q1和q2的估計,πR1、πR2比 πJ表現(xiàn)更好,這是因為在πR1、πR2中包含q1和q2的信息更加豐富.對于 θ的估計,πR2比πR1、πJ表現(xiàn)更好,這是因為在πR2中 θ為感興趣參數(shù),集中了更多的樣本信息. 表1 θ=0.8下參數(shù)估計量的均值Table 1 Mean of parameter estimators whenθ=0.8 表2 θ=0.8下參數(shù)估計量的均方誤差Table 2 Mean squared error of parameter estimators whenθ=0.8 本研究對0–1 膨脹幾何分布模型進行客觀貝葉斯分析,巧妙地進行重參數(shù)化,寫出具有分塊對角形式的Fisher 信息矩陣.因而,較容易推導出參數(shù)的Jeffreys 先驗和reference 先驗,這種方法和技巧可以推廣到其他形式的0–1 膨脹分布模型中去.3 后驗分析
4 數(shù)值模擬
5 結(jié)語