高文龍劉小寧顏 虹
Log-binom ial回歸在社區(qū)干預(yù)效果評(píng)價(jià)中的應(yīng)用*
高文龍1,2劉小寧1顏 虹2△
目的介紹利用log-binomial回歸評(píng)價(jià)社區(qū)干預(yù)效果的原理與方法。方法通過(guò)在log-binom ial模型中增加干預(yù)變量和時(shí)間變量的交互項(xiàng),獲得相對(duì)率比(RRR)的估計(jì)值,來(lái)進(jìn)行社區(qū)干預(yù)效果評(píng)價(jià),并以實(shí)例進(jìn)行分析。結(jié)果通過(guò)“兒童關(guān)愛(ài)”干預(yù)措施對(duì)嬰幼兒腹瀉患病率影響的實(shí)例分析了在有無(wú)協(xié)變量的log-binom ial回歸在社區(qū)干預(yù)效果評(píng)價(jià)中的應(yīng)用效果,并與Poisson回歸模型做了相應(yīng)的比較。調(diào)整混雜因子后的log-binomial回歸模型是在控制了個(gè)體因素后對(duì)干預(yù)效應(yīng)的有效估計(jì),因此,評(píng)價(jià)的結(jié)果更為可靠。結(jié)論log-binomial回歸模型是社區(qū)干預(yù)研究的一種有效方法。
log-binom ial回歸 社區(qū)干預(yù) 效果評(píng)價(jià)
Log-binomial回歸模型是廣義線性模型的一種特殊類型,由于它很容易得到某一因素率比(rate ratio,RR)的最大似然估計(jì)值,因此,能夠作為干預(yù)效應(yīng)評(píng)價(jià)的選擇方法。
假定反應(yīng)變量服從二項(xiàng)分布,連接函數(shù)為對(duì)數(shù)連接的這樣一種廣義線性模型類型通常被稱為log-binom ial回歸模型。它一般的模型結(jié)構(gòu)如式(1)表示:
式(1)中,p為結(jié)局出現(xiàn)的概率,誤差項(xiàng)ei是隨機(jī)項(xiàng)。該模型利用最大似然估計(jì)參數(shù)β時(shí)需要在SAS軟件中,該模型能夠通過(guò)PROC GENMOD程序,在模型參數(shù)中設(shè)定DISTRIBUTION=bin LINK=log來(lái)實(shí)現(xiàn)log-binomial回歸。
在社區(qū)干預(yù)研究中,通常存在兩個(gè)基本變量:反映干預(yù)實(shí)施狀態(tài)的變量(區(qū)別了干預(yù)和對(duì)照)和時(shí)間指示變量(區(qū)別了干預(yù)的前后)。實(shí)際上,干預(yù)對(duì)結(jié)局變量的影響是這兩個(gè)變量的交互效應(yīng)。具體的評(píng)價(jià)模型可以由式(1)擴(kuò)展為式(2)。此時(shí),Log-binomial回歸評(píng)價(jià)干預(yù)效應(yīng)的模型結(jié)構(gòu)如式2所示:
式(2)中,P(Y=1|int,time,X)為int,time和X不同取值時(shí)結(jié)局出現(xiàn)的概率,int為干預(yù)變量(int=1表示干預(yù),int=0表示對(duì)照),time為時(shí)間變量(time=1表示干預(yù)后,time=0表示干預(yù)前),X是需要調(diào)整的協(xié)變量或混雜因素,ei是誤差項(xiàng)。由式(2),可以看到exp(β3)實(shí)際上就是干預(yù)對(duì)結(jié)局影響的效應(yīng)估計(jì)值,它是干預(yù)下結(jié)局的率比(RR)在時(shí)間點(diǎn)上的比值,即(RR1為干預(yù)后結(jié)局的率比;RR0為干預(yù)前結(jié)局的率比),為了與主效應(yīng)RR相區(qū)別,此處稱它為相對(duì)率比(RRR:relative rate ratio)。當(dāng)RRR>1時(shí),說(shuō)明干預(yù)提高了結(jié)局的發(fā)生率,當(dāng)RRR=1時(shí),說(shuō)明干預(yù)對(duì)結(jié)局的發(fā)生沒(méi)有影響,當(dāng)RRR<1時(shí),說(shuō)明干預(yù)降低了結(jié)局的發(fā)生率。在SAS程序中,社區(qū)干預(yù)效應(yīng)評(píng)價(jià)的擬合模型式(2)與式(1)相比,僅在自變量中增加了int*time項(xiàng)。
本文以西安交通大學(xué)醫(yī)學(xué)院在2001年和2005年中國(guó)農(nóng)村初級(jí)衛(wèi)生保健項(xiàng)目(2001-2005年)執(zhí)行前后開(kāi)展的兩次斷面調(diào)查數(shù)據(jù)為例,評(píng)價(jià)“兒童關(guān)愛(ài)”的干預(yù)措施對(duì)三歲以下兒童腹瀉兩周患病率的影響。在兩次共同調(diào)查的34個(gè)縣中,9個(gè)縣接受了“兒童關(guān)愛(ài)”干預(yù)措施,視為干預(yù)組;25個(gè)縣沒(méi)有接受這一干預(yù)措施,被視為對(duì)照組?!皟和P(guān)愛(ài)”的干預(yù)措施從2001年開(kāi)始到2005年結(jié)束,兩次調(diào)查的抽樣方法均是在各縣中采用多階段按人口比例抽樣法(PPS)獲得鄉(xiāng)和村樣本單元,家庭和兒童的抽樣采用完全隨機(jī)抽樣方法。
2001年共調(diào)查符合要求的兒童10829名,其中對(duì)照組7936名,干預(yù)組2893名;2005年共調(diào)查10682名,其中對(duì)照組7885名,干預(yù)組2797名。表1顯示了2001年和2005年“兒童關(guān)愛(ài)”干預(yù)組和對(duì)照組嬰幼兒兩周腹瀉患病率和樣本特征。從表1可見(jiàn),2001年,對(duì)照組嬰幼兒兩周腹瀉患病率為17.72%,干預(yù)組為17.01%,干預(yù)組和對(duì)照組無(wú)統(tǒng)計(jì)學(xué)差異,2005年兩者分別為6.84%和4.85%,兩者間有顯著的統(tǒng)計(jì)學(xué)差異;無(wú)論2001年還是2005年,樣本特征很不平衡。
表1 2001年和2005年“兒童關(guān)愛(ài)”干預(yù)組和對(duì)照組兩周腹瀉患病率和樣本特征
本實(shí)例采用SAS9.1.2軟件分別擬合了有和無(wú)協(xié)變量的log-binom ial回歸和Poisson回歸兩種模型。表2顯示了log-binomial回歸和Poisson回歸兩種模型估計(jì)“兒童關(guān)愛(ài)”干預(yù)對(duì)嬰幼兒腹瀉患病率影響的效應(yīng)。由表2可知,log-binomial回歸和Poisson回歸兩種模型有相同的預(yù)測(cè)值:當(dāng)未調(diào)整混雜因素時(shí),“兒童關(guān)愛(ài)”干預(yù)降低了嬰幼兒腹瀉患病率26%,當(dāng)調(diào)查了混雜因素后,預(yù)測(cè)值提高了2%。但無(wú)論是否調(diào)整了混雜因素,Poisson回歸較log-binomial回歸模型預(yù)測(cè)值的可信區(qū)間均稍大。
表2 “兒童關(guān)愛(ài)”干預(yù)對(duì)嬰幼兒腹瀉患病率影響的效應(yīng)估計(jì)
本研究結(jié)果顯示,log-binom ial回歸由于能夠在調(diào)整可能的混雜因素的前提下,通過(guò)增加干預(yù)變量和時(shí)間變量的交互項(xiàng)來(lái)實(shí)現(xiàn)不同時(shí)間點(diǎn)上社區(qū)干預(yù)對(duì)結(jié)局影響的效果評(píng)價(jià)。但log-binomial回歸中,當(dāng)存在連續(xù)自變量時(shí),最大似然估計(jì)的參數(shù)通常在參數(shù)所限制范圍的邊界上,最大似然估計(jì)方法得不到似然函數(shù)的導(dǎo)數(shù)為零時(shí)的極大值,導(dǎo)致模型不能收斂。此時(shí),無(wú)法得到各參數(shù)的最大似然估計(jì)值[1]。Deddens等人提出了COPY方法對(duì)原始數(shù)據(jù)集調(diào)整擴(kuò)充后再擬合logbinomial回歸模型,能夠解決這樣的問(wèn)題[2]。這種COPY方法在SAS軟件中,可以在數(shù)據(jù)步通過(guò)設(shè)定權(quán)值按照一定比例和規(guī)則擴(kuò)充數(shù)據(jù)集,并在PROC GENMOD程序中增加相應(yīng)的weight語(yǔ)句很方便地實(shí)現(xiàn)[1]。Log-binom ial回歸模型是在乘法效應(yīng)的假設(shè)下建立了正確的似然結(jié)構(gòu),因此是率比和可信區(qū)間估計(jì)最合適的方法[3]。當(dāng)然,還有其它模型,如Poisson回歸,Cox風(fēng)險(xiǎn)回歸,也能夠得到率比的估計(jì)值[4],但它們經(jīng)常會(huì)出現(xiàn)概率越界問(wèn)題[5],同樣導(dǎo)致模型不能收斂,而且,在概率較大的情形下,能夠使得估計(jì)值的標(biāo)準(zhǔn)誤很大[6],從而使得統(tǒng)計(jì)檢驗(yàn)結(jié)果趨于保守。有些研究針對(duì)Poisson回歸和Cox風(fēng)險(xiǎn)回歸中出現(xiàn)的概率越界或標(biāo)準(zhǔn)誤大的問(wèn)題,提出了adjusted Poisson回歸和具有穩(wěn)健方差估計(jì)的Cox風(fēng)險(xiǎn)回歸等,能夠一定程度上解決了這些模型自己的缺陷問(wèn)題[7]。有研究者也將雙重差分模型,多水平發(fā)展模型用于社區(qū)干預(yù)性研究中[8-9]。當(dāng)然,對(duì)于模型的選擇問(wèn)題,應(yīng)該結(jié)合研究的特點(diǎn)、數(shù)據(jù)特征和模型的優(yōu)缺點(diǎn)來(lái)綜合分析,從而更好地選擇使用這些模型,來(lái)解決社區(qū)干預(yù)研究中效果的評(píng)價(jià)問(wèn)題。
1.葉榮,郜艷暉,楊翌,等.log-binom ial模型估計(jì)的患病比及其應(yīng)用.中華流行病學(xué)雜志,2010,31(5):576-578.
2.Deddens JA,Petersen MR,Lei X.Estimation of prevalence ratios when proc genmod does not converge.Proceedings of the 28th Annllal SAS Users Group Intemational Conference.Cary.NC:SAS Institute Inc,2003:270.
3.Traissac P,Martin-Prevel Y,Delpeuch F,et al.[Logistic regression vs other generalized linear models to estimate prevalence rate ratios][in French,English summary].Rev Epidem iol Sante Publique,1999,47:593-604.
4.ZocchettiC,ConsonniD,BertazziPA.Estimation of prevalencerate ratios from cross-sectional data.Int JEpidemiol,1995,24:1064-1065.
5.Yu B,Wang Z.Estimating relative risks for common outcome using PROC NLP.ComputMethods Programs Biomed,2008,90(2):179-186.
6.Skov T,Deddens J,Petersen MR,et al.Prevalence proportion ratios:estimation and hypothesis testing.Int JEpidemiol,1998,27:91-95.
7.Zou G.A modified Poisson Regression Approach to prospective studies with binary data.Am JEpidemiol,2004,159:702-706.
8.劉小寧,高文龍,顏虹.雙重差分模型在社區(qū)干預(yù)研究效果評(píng)價(jià)中的應(yīng)用.中國(guó)衛(wèi)生統(tǒng)計(jì),2013,30(1):21-22.
9.高俊嶺,傅華.多水平發(fā)展模型在社區(qū)干預(yù)性研究中的應(yīng)用.中國(guó)衛(wèi)生統(tǒng)計(jì),2009,26(2):459-461.
(責(zé)任編輯:劉 壯)
*:國(guó)家自然科學(xué)基金(81230016);蘭州大學(xué)中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金(lzujbky-2014-156)
1.蘭州大學(xué)公共衛(wèi)生學(xué)院(730000)
2.西安交通大學(xué)醫(yī)學(xué)部公共衛(wèi)生學(xué)院(710061)
△通信作者:顏虹