曾 平 趙晉芳 劉桂芬
Poisson回歸中過度離散的檢驗方法*
曾 平1△趙晉芳2劉桂芬2
在數(shù)理統(tǒng)計中,Poisson分布有著悠久的歷史,最早可追溯到1838年。對當時廣泛研究的二項分布,在事件的發(fā)生概率p很小、試驗次數(shù)n很大的情況下,法國數(shù)學家Poisson〔1〕推導出了二項分布的極限分布,為了紀念他而稱為Poisson分布。其早期一個著名的應用例子是Bortkiewicz(1898)觀察到普魯士的騎兵部隊中每年被馬踢死的士兵數(shù)服從Poisson分布〔2〕。Poisson回歸也被Ernst(1863)用來計算血紅細胞的數(shù)目〔3〕,此后Poisson回歸在農業(yè)、生物醫(yī)學和人口學等方面得到廣泛應用,已經成為計數(shù)資料的基本統(tǒng)計模型。Poisson回歸在應用中需要滿足一個十分重要的假設:事件的條件均值等于條件方差,稱為等離散(equal-dispersion)。然而計數(shù)資料常表現(xiàn)為事件的方差大于均值,從而使得計數(shù)數(shù)據(jù)存現(xiàn)出比Poisson分布下名義方差更大的變異。事件的條件方差超過條件均數(shù)稱為過度離散(over-dispersion)。對過度離散的計數(shù)資料,Poisson回歸常常低估參數(shù)估計值的標準誤,導致出現(xiàn)較大的統(tǒng)計量,從而增大Ⅰ類錯誤,夸大解釋變量效應。因此對計數(shù)資料過度離散的識別和檢驗就具有重要的意義,這是正確應用Poisson回歸的前提之一。
過度離散檢驗(overdispersion test)有基于殘差和樣本均數(shù)方差等多種不同的檢驗方法,本文主要介紹其中幾種方法。
O檢驗由B?ning提出,O統(tǒng)計量的計算為〔4〕:
式中n為總觀察單位數(shù),s2、ˉ分別為事件數(shù)的方差和均數(shù),在均數(shù)和方差相等的條件下統(tǒng)計量O近似服從正態(tài)分布。
在滿足Poisson回歸條件方差和均數(shù)相等的前提下,Cameron和Trivedi構造如下的回歸方程〔5〕:
*江蘇省教育廳高校哲學社會科學研究基金資助(2010SJB790037)1.徐州醫(yī)學院流行病與衛(wèi)生統(tǒng)計教研室(221002)
2.山西醫(yī)科大學公共衛(wèi)生學院(030001)
△通訊作者:曾平,E-mail:zengpingsanxing@163.com
或者,Cameron和Trivedi建議構造另外一個回歸方程〔6〕,如下:
即以((yi-)2-)為應變量,為自變量建立不包含常數(shù)項的最小二乘回歸方程,在均數(shù)和方差相等的條件下,對λ=0的檢驗等價于過度離散檢驗。
在Poisson回歸條件方差和均數(shù)相等的前提下,Dean 和 Lawless提出如下的得分檢驗〔7〕(score test),統(tǒng)計量T為
在均數(shù)和方差相等的條件下T統(tǒng)計量服從標準正態(tài)分布。
Greene(2002)介紹了一種基于負二項模型的過度離散檢驗方法,稱為拉格朗日乘數(shù)檢驗(lagrange multiplier test,LM)〔8〕。由于 Poisson 回歸可以通過約束負二項模型的參數(shù)而得到,所以能夠建立拉格朗日乘數(shù)檢驗。統(tǒng)計量為:
此處的權重wi取決于所假定的另一種分布,在負二項分布中,wi=1,因此當假定Poisson回歸通過約束負二項模型的參數(shù)而得到時,拉格朗日乘數(shù)檢驗統(tǒng)計量又可以表示為:
為研究影響重癥患者住院期間呼吸機使用次數(shù)的因素,收集了某醫(yī)科大學附屬醫(yī)院重癥監(jiān)護室2006年1~6月間140例病例在10天內呼吸機使用次數(shù)的資料,使用呼吸機患者的一般情況和臨床指標(見表1和表 2)。呼吸機平均使用次數(shù)為 5.44,方差為33.80,遠遠大于平均使用次數(shù),這暗示重癥患者住院期間呼吸機使用次數(shù)的變異較大。
表1 呼吸機使用次數(shù)數(shù)據(jù)連續(xù)指標統(tǒng)計描述
表2 呼吸機使用次數(shù)數(shù)據(jù)分類指標統(tǒng)計描述
表3 呼吸機使用次數(shù)的過度離散檢驗
經過度離散檢驗,都拒絕呼吸機使用次數(shù)數(shù)據(jù)不存在過度離散的零假設,表明呼吸機使用次數(shù)確實存在較大的變異,此時對于Poisson回歸的應用要慎重。對本資料的詳細統(tǒng)計分析我們將另文給出。
針對計數(shù)資料中Poisson回歸遇到的過度離散問題,文中介紹了一系列的檢驗方法,它們都充分利用了Poisson分布均數(shù)和方差相等的性質。對幾種方法的對比分析,我們認為O檢驗只涉及到樣本均數(shù)、方差和例數(shù),從公式可見即使方差和均數(shù)相差甚微,只要例數(shù)足夠大,也有可能得到一個較大的O值,得到有統(tǒng)計學意義的結果,可見其只利用了數(shù)據(jù)的若干概況性統(tǒng)計量,然而應該檢驗的是事件數(shù)的條件分布,而非簡單的對事件數(shù)直接進行檢驗。所以基于以上的原因,在實際應用中我們不推薦使用O檢驗?;赑oisson回歸的參差檢驗、得分檢驗和拉格朗日乘數(shù)檢驗利用了整個數(shù)據(jù),顯然比O檢驗更多地利用了信息,這幾個檢驗方法需要首先進行Poisson回歸,預測事件數(shù),但無需建立更為復雜的計數(shù)統(tǒng)計模型。LM檢驗則需要模擬負二項回歸。當計數(shù)資料存在過度離散時,應用者可以選擇的策略包括對Poisson回歸本身進行適當?shù)男U蛘哌x擇其他能夠容納更大變異的計數(shù)模型,如負二項回歸〔1〕。本文對患者呼吸機使用天數(shù)的幾種過度離散檢驗結果一致,然而當不同過度離散檢驗結果并不一致時又該如何選擇模型呢?我們建議首先將Poisson回歸作為一種探索性的分析方法,結合上述的幾種過度離散假設檢驗法和Poisson回歸的Deviance和Pearsonχ2統(tǒng)計量,以及負二項回歸中離散參數(shù)的似然比檢驗等確定最終分析方案。
計數(shù)資料的過度離散來源可能是多方面的,如模型中尚有沒能包含的重要解釋變量,或個體事件的發(fā)生存在相關性或聚集性,或存在異常影響點,或模型本身指定有誤,或者來源于數(shù)據(jù)中存在的過多零計數(shù)等等。但對橫斷面資料幾乎不可能明確知道過度離散的來源。再則,過度離散作為一種現(xiàn)象只是相對具體的分布而言,相對Poisson分布過度離散的資料并不表示在負二項分布中也一定存在過度離散。因此對計數(shù)資料需要仔細觀察和考慮數(shù)據(jù)可能存在的各種特殊結構,以選擇合適的模型。
1.Cameron AC,Trivedi P.Regression Analysis of Count Data.Oxford University Press,1998.
2.Lussenhop J.Victor Hensen and the development of sampling methods in ecology.Journal of the History of Biology,1974,7:319-337.
3.Winkelmann R.Econometric analysis of Count date.fifth edition.Berlin:Springer-Verlag,2008.
4.B?ning D.A note on test for Poisson overd is persion.Biometrika,81:418-419.
5.Cameron AC,Pravin KT.Econometric models based on countdata:Comparisons and applicationsof some estimators and tests.Journal of Applied Econometrics,1986,1:29-53.
6.Colin CA,Trivedi PK.Regression-based tests for overdispersion in poisson models.Journal of The American Statistical Association,1990,46:347-264.
7.Dean C,Law less JF.Tests for detecting overdispersion in Poisson regression models.Journal of the American Statistical Association,1989,84:467-472.
8.Greene W.Econometric Analysis.Prentice Hall,2002.