白永娟,李好奇
(長(zhǎng)江師范學(xué)院 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,重慶 涪陵 408100)
捕獲再捕獲研究是一種估算群體數(shù)目的方法,可以用來(lái)更好地了解潛在群體數(shù)目的動(dòng)態(tài)變化。所討論的群體,根據(jù)是否存在出生、死亡、遷入、遷出可以分為開(kāi)放群體和封閉群體。本文主要討論有多個(gè)觀測(cè)機(jī)構(gòu)的開(kāi)放群體數(shù)目估計(jì)問(wèn)題。對(duì)于開(kāi)放群體數(shù)據(jù),有一些特征需要注意。第一,數(shù)據(jù)是捕獲再捕獲數(shù)據(jù),屬于有偏抽樣,即僅僅被捕獲到至少一次的個(gè)體被觀測(cè);第二,開(kāi)放群體的個(gè)體數(shù)目是隨時(shí)間變化的,即不同時(shí)間的群體數(shù)目在不斷變化;第三,每個(gè)個(gè)體被捕獲概率是不同的,還要考慮個(gè)體協(xié)變量對(duì)捕獲概率的影響,以及無(wú)法觀測(cè)的個(gè)體異質(zhì)性存在。
對(duì)于封閉群體數(shù)目估計(jì),有很多文獻(xiàn)提出估計(jì)群體數(shù)目的方法。比如泊松對(duì)數(shù)線性模型(Poisson log-linear model)[1-3]、多項(xiàng)式模型[4]、樣本覆蓋方法[5]。對(duì)于開(kāi)放群體,也有一些方法被提出來(lái),如文獻(xiàn)[6-9]。這些方法都沒(méi)有擴(kuò)展到多重列表問(wèn)題。最近Lin等[10]提出了半?yún)?shù)方法來(lái)估計(jì)開(kāi)放群體多重列表問(wèn)題,但是沒(méi)有考慮協(xié)變量特征如性別、年齡等對(duì)捕獲概率的影響??紤]協(xié)變量特征的開(kāi)放群體多重列表估計(jì)問(wèn)題很少有文獻(xiàn)進(jìn)行研究。
本文提出廣義混合線性回歸模型來(lái)估計(jì)多重列表的開(kāi)放群體數(shù)目,同時(shí)考慮個(gè)體協(xié)變量特征對(duì)捕獲概率的影響。所提出的模型允許不可觀測(cè)個(gè)體異質(zhì)性存在。由于捕獲再捕獲數(shù)據(jù)的有偏抽樣屬性,使得廣義混合線性回歸模型的標(biāo)準(zhǔn)估計(jì)方法不可用,本文提出基于條件似然的估計(jì)方法,可以得到相關(guān)參數(shù)的極大似然估計(jì),進(jìn)而估計(jì)出群體數(shù)目。得到的估計(jì)量都將證明相合性,漸進(jìn)正態(tài)性。
把整個(gè)捕獲時(shí)間劃分為等長(zhǎng)度的小時(shí)間區(qū)間t=1,2,…,T,假設(shè)有d個(gè)捕獲機(jī)構(gòu)。在每個(gè)時(shí)間區(qū)間t,有nt個(gè)個(gè)體至少被捕獲一次,記錄詳細(xì)的個(gè)體特征和對(duì)應(yīng)捕獲機(jī)構(gòu)。令ytij表示個(gè)體i被機(jī)構(gòu)j在時(shí)間t被捕獲的示性函數(shù),被捕獲取值為1,否則為0,Xti表示對(duì)應(yīng)的協(xié)變量。令yti=(yti1,…,ytid)′和則觀測(cè)數(shù)據(jù) (Xti,yti)僅在δti=1的時(shí)候被觀測(cè)。在時(shí)間區(qū)間t內(nèi)的群體個(gè)數(shù)表示為νt。本文目的是對(duì)任意給定時(shí)間段t,基于觀測(cè)數(shù)據(jù)(Xti,yti),估計(jì)出未知群體數(shù)目νt。假設(shè)ptij表示在時(shí)間段t內(nèi)個(gè)體i被機(jī)構(gòu)j捕獲的概率,考慮下面的模型:
其中j=1,…,d和i=1,…,νt,βtj反映的是機(jī)構(gòu)j隨時(shí)間改變的捕獲能力,因?yàn)槿后w數(shù)目會(huì)隨時(shí)間改變。ai是隨機(jī)效應(yīng),反映對(duì)象的特殊響應(yīng)趨勢(shì),例如基于已知協(xié)變量特征判斷個(gè)體的被捕獲概率很低,但由于隨機(jī)效應(yīng)存在,實(shí)際被捕獲概率很高。此外個(gè)體對(duì)多個(gè)機(jī)構(gòu)響應(yīng)的相關(guān)性可以通過(guò)隨機(jī)效應(yīng)ai來(lái)表示。本文假設(shè)ai是均值為零方差為σ2的正態(tài)隨機(jī)變量。
本文給出全似然函數(shù)[11]:
其中f(nt)表示從νt個(gè)體中捕獲到nt個(gè)個(gè)體的二項(xiàng)概率,f(Xti|δti=1)是Xti的條件密度函數(shù),f(yti|Xti,δti=1)是yti的條件密度函數(shù),則:
其中pt表示在第t個(gè)時(shí)間段內(nèi)個(gè)體平均被捕獲的概率。用ft(·)表示Xti的密度函數(shù)??梢宰C明f(Xti|δti=1)=f(δti=1|Xti)ft(Xti)/pt,因此:
令qti表示概率f(Xti|δti=1),則根據(jù)式
(4)可以得到:
現(xiàn)在考慮f(δti=1|Xti),表示至少被捕獲一次的概率,可以被寫(xiě)為:
其中ptij(x,a)是ptij中Xti,ai分別用x和a代替。從式(5)和式(6)可以看到pt是βtj,αj,σ2和qti的函數(shù)。對(duì)于yti的條件密度函數(shù)有:
把式(3)、式(5)至式(7)代入式(2),可以得到對(duì)數(shù)似然函數(shù):
計(jì)算 log{L(β,α,σ2,ν)} 關(guān)于αd,t=1,…,T,i=1,…,nt的導(dǎo)數(shù)并令導(dǎo)數(shù)為0,即可得到得分方程:
其中λt是拉普拉斯乘子,qti具有限制條件而的展開(kāi)形式是ν的函數(shù),在[n,∞)上是凹函數(shù),
tt具 有 連 續(xù) 二 階 導(dǎo) 數(shù) ,在νt=nt/p?t處 的 一 階 導(dǎo) 數(shù) 為-log{1-p?t},其中p?t是pt的估計(jì)量。
其中:
討論n=mtin{nt}趨于無(wú)窮的時(shí)候,本文給出所提估計(jì)量的漸進(jìn)分布。符號(hào) →d表示“依分布收斂”。求出lN(θ)關(guān)于θ的導(dǎo)數(shù),得到得分函數(shù):
假定θ?=(β?,α?,σ?2)是得分方程U(θ)=0 的解。進(jìn)一步,通過(guò)泰勒展開(kāi)可以得到:
利用參數(shù)模型中極大似然估計(jì)量標(biāo)準(zhǔn)漸近理論[12],在正則條件下:
其中I(θ)是參數(shù)θ的費(fèi)希爾信息矩陣。根據(jù)delta方法,可以得到:
其中:
給定條件X1,…,Xnt,逼近式(12)的第二部分均值為0,第一部分對(duì)于X1,…,Xnt是可測(cè)的,且條件均值為0,最后一部分對(duì)于隨機(jī)變量nt是可測(cè)的,均值也是0。
其中bt定義如方程 (13)。 另外p?t=nt/ν?t,利用類似的方法可以得到:
其中是1/π(Xti;θ0)的樣本方差其中是的樣本均值是pt的估計(jì)量。
這個(gè)方法在B≥100的時(shí)候效果較好。
利用數(shù)值例子來(lái)說(shuō)明本文方法的效果。兩維協(xié)變量Xti不隨時(shí)間變化。Xti第一個(gè)成分服從標(biāo)準(zhǔn)正態(tài)分布,獨(dú)立于第二成分。第二部分以相等概率取值1和0。每一種設(shè)置進(jìn)行500次重復(fù)模擬。
情形1:設(shè)置為T(mén)=5,d=4,每一期的群體個(gè)數(shù)分別為ν=200;情形2:設(shè)置為T(mén)=5,d=4,每一期的群體個(gè)數(shù)分別為ν=1000;情形3:設(shè)置為T(mén)=5,d=8,每一期的群體個(gè)數(shù)分別為ν=200。
表1給出了情形1下所提方法的結(jié)果,包括基于500次重復(fù)計(jì)算的偏差,標(biāo)準(zhǔn)差。從表1可以看出,在樣本量較小的情形下,估計(jì)結(jié)果效果良好,能很好地估計(jì)出群體數(shù)目。情形2相對(duì)于情形1,樣本量增加了,其他設(shè)置保持不變,從基于500次重復(fù)計(jì)算的結(jié)果來(lái)看,所提方法依舊有效。由于同情形1類似,故結(jié)果未列出。表2給出了情形3下所提方法的結(jié)果,包括基于500次重復(fù)計(jì)算的偏差,標(biāo)準(zhǔn)差。情形3是對(duì)于捕獲列表增加的情況,考察所提方法的效果。從表3展示的結(jié)果看,捕獲列表較多情形下,所提方法仍然效果較好。
表1 設(shè)置T=5,d=4,v=200下模擬結(jié)果
表2 設(shè)置T=5,d=8,v=200下的模擬結(jié)果
對(duì)于多列表捕獲再捕獲問(wèn)題,本文通過(guò)混合效應(yīng)模型,對(duì)原始捕獲數(shù)據(jù)進(jìn)行分析,得到每個(gè)時(shí)間段群體個(gè)數(shù)相對(duì)客觀的估計(jì)。同時(shí),利用隨機(jī)效應(yīng)評(píng)估每個(gè)個(gè)體對(duì)捕獲機(jī)構(gòu)的反應(yīng)。個(gè)體隨機(jī)效應(yīng)彌補(bǔ)了個(gè)體協(xié)變量不能描述的個(gè)體反映。
捕獲再捕獲數(shù)據(jù)在多維列表情況下,為了分析的簡(jiǎn)單,一般設(shè)定各個(gè)機(jī)構(gòu)的捕獲是獨(dú)立進(jìn)行的,即假設(shè)各個(gè)列表獨(dú)立。這個(gè)假設(shè)在一些情況下可以放松,假設(shè)各個(gè)捕獲列表之間具有相關(guān)性,這個(gè)可以作為下一階段研究的內(nèi)容。
參考文獻(xiàn):
[1]Fienberg S E.The Multiple Recapture Census for Closed Population and Incomplete 2k Contingency Tables[J].Biometrika,1975,(59).
[2]Cormack R M.Log-linear Models for Capture-recapture[J].Biomet?rics,1989,(45).
[3]International Working Group for Disease Monitoring and Forecasting.Capture Recapture and Multiple-Record Systems Estimation.I:Histo?ry and Theoretical Development[J].Am.J.Epidemiol,1995,(142).
[4]Cormack R M,Jupp P E.Inference for Poisson and Multinomial Mod?els for Capture-Recapture Experiments[J].Biometrika,1991,(78).
[5]Chao A,Lee S M.Estimating the Number of Classes via Sample Cover?age[J].J.Amer.Statist.Assoc,1992,(87).
[6]Huggins R M,Yip P S F.Estimation of the Size of an Open Population From Capture-Recapture Data Using Weighted Martingale Methods[J].Biometrics,1999,(55).
[7]Huggins R M,Yang H C,Chao A.Population Size Estimation Using Local Sample Coverage for Open Populations[J].J.Statist.Plann.Infer?ence,2003,(113).
[8]Yang H C,Huggins R M.The Estimation of the Size of the Open Popu?lation Using Local Estimating Equations[J].Statist Sinica,2003,(13).
[9]Yang H C,Huggins R M,Clark A S S.Estimation of the Size of an Open Population Using Local Estimating Equations II:A Partially Parametric Approach[J].Biometrics,2003,(59).
[10]Lin H,Yip P S,Chen F.Estimating the Population Size for a Multi?ple List Problem With an Open Population[J].Statistica Sinica,2009,(19).
[11]Chen K.Parametric and Semiparametric Models for Recapture and Removal Studies:A Likelihood Approach[J].J.R.Statist.Soc.B,2001,(63).
[12]Van der Vaart A W.Asymptotic Statistics[M].Cambridge:Cambridge University Press,1998.