高文龍劉小寧顏 虹
一種logistic回歸率比估計方法的SAS實現(xiàn)*
高文龍1,2劉小寧1顏 虹2△
在流行病學中,對于發(fā)病率較低的疾病,OR可以作為相對危險度或率比(RR:relative risk/rate ratio)的近似估計,因此能夠被用來評估某一因素風險的大小。但是,對于一些發(fā)病率較高的疾病來說,此時用OR值會高估風險大?。?],此時宜用RR值來評估風險的大小更為合適。本文在SAS軟件中利用logistic回歸實現(xiàn)Schouten等人提出的擴充原始數(shù)據(jù)集估計率比的方法[2],為科學工作者準確地評價某一因素對疾病的風險提供了新的思路。
對于發(fā)病率較低的疾病而言,比值比可以作為相對危險度(RR)的近似估計。因此,在logistic回歸中,當?shù)玫侥骋灰蛩氐幕貧w系數(shù)估計值后,便可以得到危險因素不同水平下RR的近似估計值。此時如下式(2)所示:
但是,很多情形下疾病的發(fā)病率較高,此時,須采用RR值來評價因素風險的大小。下面擴充數(shù)據(jù)集后采用logistic回歸的方法能夠直接得到某一因素RR值的精確估計。
擴充數(shù)據(jù)集估計率比的原理:Schouten等人提出了一種擴充原始數(shù)據(jù)集利用logistic回歸來實現(xiàn)率比估計方法[2]。擴充數(shù)據(jù)集(EDS:expanded data set)的產生過程如下:在原始數(shù)據(jù)集(ODS:original data set)中每一個病例組數(shù)據(jù)復制后設置成非病例數(shù)據(jù)。此時,新的數(shù)據(jù)集由三部分構成:原始病例,原始非病例和新非病例。設ODS中病例發(fā)生的概率為p,在EDS中,觀察落入上面三個部分中的概率分別是因此,在EDS中病例觀察到的概率應為:
此時,在EDS中進行結局變量Y的logistic回歸時:
即p*的OR等于p的RR值。
設存在某一ODS,包含結局變量Y(Y=1為病例,Y=2為非病例)和分類自變量X1,X2,X3,…,Xn。根據(jù)EDS估計率比的原理,利用logistic回歸估計這些分類變量RR值的SAS程序如下:
第一步:建立原始病例集和非病例集
data example1;set ODS;/*數(shù)據(jù)集example1中包含了原始病例集和原始非病例集*/
第二步:建立新非病例集
data example2;set ODS;
if Y=1;/*選取結局變量為1的數(shù)據(jù)集*/
Y=2;/*將結局變量取值由1變?yōu)?,建立了新非病例集example2*/
第三步:合并兩個數(shù)據(jù)集,組成擴充數(shù)據(jù)集example。
data example;set example1 example2;
第四步:利用logistic回歸估計自變量X1-Xn的率比
proc logistic data=example;/*在擴充數(shù)據(jù)集example上直接進行l(wèi)ogistic回歸*/
class X1 X2...Xn;/*設定分類變量X1...Xn */model Y=X1-Xn;/*實現(xiàn)logistic回歸,得到EDS中X1-Xn的OR值及其可信區(qū)間*/run;
由此,可得ODS中X1-Xn的RR值及其可信區(qū)間。值得注意的是,在SAS中,logistic回歸分類變量X默認的參照取值為last,如果改變參照值,可在class語句后增加參照設定語句/para=REF REF=(first or last)。如果設定回歸的類型,如前進法,后退法等,可在第四步中增加/SELECTION參數(shù)進行選擇。
以2005年西安交通大學醫(yī)學院開展的農村初級衛(wèi)生保健服務項目(2001-2005年)終期調查的家庭數(shù)據(jù)為例,分析嬰幼兒兩周腹瀉患病率和產前檢查率的風險因素。具體的抽樣方法和調查內容在相關的研究中己經做了詳細的描述[4]。調查結果顯示,三歲以下兒童兩周腹瀉患病率為7.37%,孕產婦產前檢查率為98.03%。本研究選取嬰幼兒兩周腹瀉患病和產前檢查為結局變量,利用ODS的logistic回歸、EDS的logistic回歸和ODS的log二項回歸三種方法來探索腹瀉患病率和產前檢查率的風險因素。本研究僅對兩個結局有顯著性(α=0.05)的部分變量(腹瀉患病率:民族和兒童年齡;產前檢查率:家庭社會經濟狀況和母親教育年限進行單因素回歸分析,來比較三種方法評估因素對結局風險的差異,對于多因素回歸分析方法與之相似。
本研究數(shù)據(jù)分析采用SAS9.1.3軟件進行。ODS的logistic回歸、EDS的logistic回歸和ODS的log二項回歸三種方法評估結果見表1。由表1可見,三種方法估計的民族和兒童年齡對兩周腹瀉患病率的風險差別并不很大,但ODS的Logistic回歸嚴重高估了家庭社會經濟狀況和母親教育年限對產前檢查率的風險,但EDS的Logistic回歸與ODS的log-binomial回歸對該結局的估計結果相近。
表1 利用ODS的logistic回歸,EDS的logistic回歸和ODS的log-binom ial回歸估計嬰幼兒兩周腹瀉患病率和產前檢查率的風險
在流行病學調查中,logistic回歸分析由于能夠很容易得到患病風險的近似估計值OR,因此得到廣泛的應用。但是,OR值評估因素的患病風險一般認為疾病的患病率應該小于0.10[5]。當這個條件不滿足,即疾病的患病率>0.10,此時,直接利用Logistic回歸分析結果來評價因素的患病風險并不恰當,它能高估該因素風險的大小[1]。此時,計算RR值來評估患病風險的大小更為準確。王靜等人的研究推薦采用Cox回歸方法來獲得RR值[5]。Poisson回歸[6]和log-binomial回歸方法[7]也能夠獲得因素的RR值估計。但是利用Cox風險回歸和Poisson回歸估計RR值,有時會出現(xiàn)預測的概率出界問題[8],而且它們能夠使得估計參數(shù)的標準誤太大,尤其是疾病的患病率很高的時候[3];log-binomial回歸估計RR值時,當自變量中具有連續(xù)性變量的時候,往往會導致模型不能收斂[7]。但是,對于概率出界問題在logistic回歸分析中一般不會出現(xiàn),連續(xù)性變量導致模型不收斂的問題在logistic回歸中發(fā)生率較log-binomial回歸更低。本文提供了一種直接利用logistic回歸來獲得因素的RR值的估計方法,并提供了SAS實現(xiàn)的程序。這個研究為豐富統(tǒng)計方法實現(xiàn)的途徑增添了新的內容。
1.Localio AR,Margolis DJ,Berlin JA.Relative risks and confidence intervals were easily computed indirectly from multivariate logistic regression.JClin Epidemiol,2007,60(9):874-888.
2.Schouten EG,Dekker JM,Kok FJ.Risk ratio and rate ratio estimation in case-cohort design:hypertension and cardiovascularmortality.Stat Med,1993,12(18):1733-1745.
3.Skov T,Deddens J,Petersen MR,et al.Prevalence proportion ratios:estimation and hypothesis testing.Int JEpidemiol,1998,27(1):91-95.
4.Gao W,Dang S,Yan H,et al.Care-seeking pattern for diarrhea among children under 36 months old in ruralwestern China.PLoSOne,2012,7(8):e43103.doi:10.1371/journal.pone.0043103.
5.王靜,朋文佳,何倩,等.患病率比PRR和優(yōu)勢比OR的關系.中國衛(wèi)生統(tǒng)計,2012,29(1):149-150.
6.ZocchettiC,ConsonniD,BertazziPA.Estimation of prevalencerate ratios from cross-sectional data.Int JEpidemiol,1995,24(5):1064-1065.
7.葉榮,郜艷暉,楊笠,等.log-binomial模型估計的患病比及其應用.中華流行病學雜志,2010,31(5):576-578.
8.Yu B,Wang Z.Estimating relative risks for common outcomeusing PROC NLP.ComputMethods Programs Biomed,2008,90(2):179-186.
(責任編輯:丁海龍)
*:國家自然科學基金(81230016);蘭州大學中央高校基本科研業(yè)務費專項資金(lzujbky-2014-156)
1.蘭州大學公共衛(wèi)生學院(730000)
2.西安交通大學醫(yī)學部公共衛(wèi)生學院(710061)
△通信作者:顏虹