亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        利用logistic回歸進行直接標準化*

        2018-03-05 08:59:31北京大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計學(xué)系100191李嘉琛余燦清李立明
        中國衛(wèi)生統(tǒng)計 2018年1期
        關(guān)鍵詞:吸煙率置信區(qū)間人群

        北京大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計學(xué)系(100191) 李嘉琛 余燦清 呂 筠 李立明

        在流行病學(xué)研究中常常要進行不同組間率的比較,如果各比較組之間的重要協(xié)變量(如性別、年齡)分布不同,那么直接計算粗率并比較會受到混雜的影響。直接標準化是控制混雜最為常用的方法之一,該方法計算簡便、容易理解,得到了廣泛的應(yīng)用。但當(dāng)需要調(diào)整的因素分層較多時,會出現(xiàn)有些層人數(shù)過少的情況,此時難以精確估計層別率。此外,對于年齡這類連續(xù)型協(xié)變量,必須轉(zhuǎn)化為分類變量才能用于標化,可能帶來殘余混雜。多重回歸分析可以同時控制多個混雜因素,利用模型的預(yù)測功能計算調(diào)整均數(shù)或率的思想很早就已出現(xiàn),由最初的一般線性模型推廣到廣義線性模型[1]。然而這些方法在實際研究中的應(yīng)用還不是很多,一個可能的原因是其計算過程并不直觀,結(jié)果不易解釋?;谀P偷闹苯訕藴驶蓪⒒貧w分析與加權(quán)平均的思想相結(jié)合,可以發(fā)揮兩者的優(yōu)勢。利用logistic回歸計算直接標準化率主要有兩種不同的計算方法,目前應(yīng)用還不是很廣泛,本文將對其進行介紹,探討其特點和性質(zhì),比較不同方法的優(yōu)勢與不足,為研究者選擇分析方法提供參考。

        計算方法

        基于回歸進行標準化的基本思想是利用回歸模型的預(yù)測來代替直接標準化法中層別率的估計,再以標準人口的構(gòu)成作為權(quán)重進行加權(quán)平均。其前提假設(shè)是回歸模型可以正確反映因變量與自變量間的關(guān)系。使用y表示二分類的結(jié)局變量,x為用于比較的分組變量,z表示混雜,則回歸模型可以表示為:logitπ=f(x,z),f(x,z)代表自變量的線性函數(shù)。在logistic模型中,概率經(jīng)過了非線性連接函數(shù)的轉(zhuǎn)換,在加權(quán)平均計算時有兩種不同的方法,分別是對層別預(yù)測率進行加權(quán)平均和對層別預(yù)測logit進行加權(quán)平均。

        1.對預(yù)測率進行加權(quán)平均

        在各比較組按混雜因素分層后,利用回歸方程計算各層的預(yù)測結(jié)局概率,再以標準人口構(gòu)成為權(quán)重進行加權(quán)平均:P=∑wiPi,其中wi代表第i層的權(quán)重,Pi代表第i層的預(yù)測結(jié)局概率。上述過程適用于所有要調(diào)整的變量均為分類變量的情形。有時協(xié)變量中包含連續(xù)變量,而我們又不希望將其轉(zhuǎn)化分類變量損失信息,此時可以計算邊際預(yù)測率[2]?!斑呺H”的含義是在用回歸方程計算預(yù)測概率時,除要比較的分組變量以外,所有協(xié)變量的取值并不固定,而是使用標準人群的觀察值。某一組(x=k)的邊際預(yù)測率計算過程如下:首先要給定一個標準人群數(shù)據(jù)集,該數(shù)據(jù)集要包含每一個體的所有協(xié)變量取值。將所有人的x取值固定為k,其他協(xié)變量取值保持不變,計算每一個體的預(yù)測結(jié)局概率,求出預(yù)測率的算數(shù)平均數(shù)即為該組的標化率:

        (1)

        其中n為標準人群的人數(shù),zj為第j人的協(xié)變量取值。由計算過程可以看出,邊際預(yù)測率在個體層面上預(yù)測結(jié)局概率,再以相等的權(quán)重1/n進行加權(quán)平均,因此其含義與直接標準化一致,可以解釋為在標準人群的協(xié)變量分布下的結(jié)局事件概率。

        2.對預(yù)測logit進行加權(quán)平均

        (2)

        其中n為標準人群的人數(shù),zj為第j人的協(xié)變量取值。

        3.標化率的標準誤和置信區(qū)間

        在不同的方法中,標準化率置信區(qū)間的估計方法也有所不同。直接標化法和對預(yù)測概率加權(quán)平均法計算的置信區(qū)間為標化率點估計值加減標準誤倍數(shù)的形式(Wald置信區(qū)間)。然而對概率而言,這種以點估計值為中心的對稱的置信區(qū)間往往是不合理的[5]。對logit加權(quán)平均的方法則是計算標化logit的Wald置信區(qū)間,再轉(zhuǎn)換為概率的區(qū)間。由于logit比概率P更有可能服從正態(tài)分布,因此有研究者認為這種方法在統(tǒng)計學(xué)上更為合適[3]。

        4.軟件實現(xiàn)

        當(dāng)調(diào)整的變量均為分類變量時,可以直接利用統(tǒng)計軟件輸出模型的回歸系數(shù)估計值以及協(xié)方差矩陣來計算標準化率和置信區(qū)間。當(dāng)存在連續(xù)協(xié)變量時,需要計算邊際預(yù)測率,Stata 11增加了“margins”命令可以便捷地實現(xiàn)這一計算[5]。SAS本身沒有對應(yīng)的過程,不過有研究者編寫了宏,可用于計算邊際預(yù)測率,并且提供了多種置信區(qū)間的估計方法[5]。

        基于回歸的標化率與其他調(diào)整率

        利用回歸模型可以計算控制混雜后的因變量預(yù)測值,這一過程也被稱為“調(diào)整”或“校正”。基于模型的調(diào)整預(yù)測值分為兩類,一類是固定分組變量和協(xié)變量取值,計算條件均數(shù)或概率,稱為條件預(yù)測值(conditional prediction),協(xié)變量通常是取樣本或某個人群的平均數(shù);另一類是固定分組變量取值,保持協(xié)變量的實際觀察值,計算個體的平均調(diào)整預(yù)測值,稱為邊際預(yù)測值(marginal prediction)[2,6-8]。在線性回歸模型中,兩者的結(jié)果一致,而在非線性模型中結(jié)果不同,一些研究對兩類方法進行了比較[2,6-7,9]。調(diào)整與直接標準化的概念存在區(qū)別和聯(lián)系,有時會令人困惑。

        兩種標準化的計算方法雖是基于同樣的回歸模型,卻會得出不相等的結(jié)果。對預(yù)測概率進行加權(quán)平均(邊際預(yù)測率)是被許多研究者所接受的計算方法。對層別logit加權(quán)平均的方法自提出后也已被一些研究所采用[10-11],但還沒有研究者將其與邊際預(yù)測率、直接標化率進行比較。下面通過實例分析來說明兩種方法的計算過程,并展示出兩種方法標化結(jié)果的差異。

        分析實例

        利用中國慢性病前瞻性研究(China Kadoorie Biobank)基線調(diào)查數(shù)據(jù)[12]分析教育程度與吸煙的關(guān)系。以教育程度為自變量,分為大學(xué)及以上、大學(xué)以下兩組;吸煙為二分類結(jié)局變量,分為當(dāng)前每日吸煙與其他兩組。直接計算兩組的粗吸煙率,大學(xué)及以上者為21.0%,大學(xué)以下者為26.6%。在分析中發(fā)現(xiàn),不同教育程度人群的性別構(gòu)成不同,而性別與吸煙行為關(guān)聯(lián)較強。為了控制性別因素的影響,按性別分層計算吸煙率,結(jié)果見表1。為進行綜合比較,合并全部樣本作為標準人群,進行直接標準化。首先采用傳統(tǒng)的計算方法,直接估計兩組的層別吸煙率,經(jīng)加權(quán)平均計算后得出標化率。

        表1 不同教育程度人群分性別吸煙率

        建立吸煙率與教育和性別的回歸方程:logitP=1.1481×edu+4.1992×gender-4.8574,其中edu代表學(xué)歷水平,取值為0和1,以大學(xué)及以上組(edu=0)為參照;gender為性別,取值為0和1,以女性為參照(gender=0)。分別用兩種基于logistic回歸的方法計算標化率,各層權(quán)重以及層別率和層別logit的預(yù)測值見表2。

        表2 按性別分層的權(quán)重以及層別率、層別logit

        表3 不同方法計算標化吸煙率的比較(%)

        表3顯示了幾種直接標準化法的結(jié)果比較,并利用兩組的標化率計算了關(guān)聯(lián)強度指標OR值和RR值。從兩組粗率的比較可以看出,大學(xué)及以上學(xué)歷的人吸煙率低于大學(xué)以下的人。由于低學(xué)歷者中女性比例較高,而女性吸煙率遠低于男性,從理論上講性別的混雜會使關(guān)聯(lián)強度被低估。采用任何一種方法進行標準化后,RR值和OR值均增大,說明這三種方法都對混雜偏倚起到了一定的控制作用。在本例中吸煙并不是一個罕見事件,因此OR值并不能很好地近似RR值[13]。直接標化法與對率加權(quán)平均方法的結(jié)果基本相同,這是由于直接計算的層別率與使用logistic模型計算的層別率高度一致(表2),表明在本例中模型對數(shù)據(jù)的擬合是比較好的。

        由于樣本中大學(xué)以下人數(shù)比例較大(97.7%),合并后標準人群的性別構(gòu)成十分接近大學(xué)以下人群,所以大學(xué)以下組的標化率理應(yīng)與粗率相差不大,直接標準化和對預(yù)測率加權(quán)平均方法得到的結(jié)果都是如此。而對logit加權(quán)平均法得到的大學(xué)以下組的調(diào)整吸煙率為12.0%,這顯然不是標準人口構(gòu)成下的大學(xué)以下人群吸煙率,出現(xiàn)這種現(xiàn)象的根源就是ln(P/1-P)和P的非線性關(guān)系。在這里,12.0%和4.2%只能理解為對直接標化率的有偏差的估計值,并沒有現(xiàn)實意義。如果錯誤地將其理解為直接標化率,那么當(dāng)前每日吸煙者的比例將被嚴重低估。理論分析表明,當(dāng)協(xié)變量與結(jié)局關(guān)聯(lián)較強時,對logit加權(quán)平均法得到的調(diào)整率與直接標化率相差較大,在本例中,混雜因素性別與吸煙率關(guān)聯(lián)極強(OR=67),因此兩種基于回歸的標準化方法結(jié)果有明顯的差別。

        討 論

        通過比較,可以總結(jié)兩種基于logistic回歸的標準化方法的特點:邊際預(yù)測率與傳統(tǒng)的直接標準化法一致,結(jié)果容易理解,得到的置信區(qū)間以率的點估計值為中心;對logit進行加權(quán)平均的方法可以得到非對稱的置信區(qū)間,利用其調(diào)整率計算出的OR值等于模型估計的OR值。其不足之處在于其結(jié)果并不等于直接標化率,當(dāng)混雜因素與結(jié)局關(guān)聯(lián)較強時,用這種方法估計直接標準化率會產(chǎn)生較大偏差。

        基于多重回歸的標準化在調(diào)整連續(xù)變量、控制多個混雜因素時具有優(yōu)勢,傳統(tǒng)的直接標準化對分層因素各水平的所有組合分別估計結(jié)局概率,相當(dāng)于考慮所有可能的交互作用,而回歸模型可以幫助我們忽略其中一些沒有意義的交互作用,得到比較精確的層別率估計值。以往有人認為邊際預(yù)測率只能以合并樣本為標準人群,也就是只能進行樣本內(nèi)部調(diào)整[6],然而實際上并非如此,利用回歸進行標準化可以使用外部的標準人群,從而實現(xiàn)不同研究之間的比較。

        使用回歸模型進行標準化同樣要注意一些問題。首先,與傳統(tǒng)的直接標準化法相同,當(dāng)各比較組的層別率間比較出現(xiàn)明顯差異甚至交叉時,不宜計算一個綜合的標化率,此時權(quán)重的選擇會成為影響最終各組標化率比較的主要因素,是否適宜進行標準化可以通過檢驗?zāi)P椭械慕换ロ梺砼袛郲14]。對于結(jié)果的理解要正確,標化率不再反映實際水平,是假定在特定協(xié)變量分布人群中的預(yù)測概率。與直接標準化不同的是,利用模型進行標準化的前提假設(shè)是回歸模型可以正確估計層別率,因此能夠較好擬合數(shù)據(jù)的回歸方程是必要的。

        本文介紹了兩種基于logistic回歸的標準化方法,在一般情況下,兩者都可以用于估計直接標準化率。但是當(dāng)調(diào)整的因素與結(jié)局關(guān)聯(lián)很強時,對logit進行加權(quán)平均的方法會造成誤導(dǎo),計算邊際預(yù)測率是更好的選擇。由于基于回歸的調(diào)整率計算方法較多,研究者應(yīng)具體說明所使用的方法以及選擇的標準人群,使讀者能正確理解研究結(jié)果。

        [1] Lee J.Covariance adjustment of rates based on the multiple logistic regression model.J Chronic Dis,1981,34(8):415-426.

        [2] Lane PW,Nelder JA.Analysis of covariance and standardization as instances of prediction.Biometrics,1982,38(3):613-621.

        [3] Roalfe AK,Holder RL,Wilson S.Standardisation of rates using logistic regression:a comparison with the direct method.BMC Health Serv Res,2008,8(1):275.

        [4] Flanders WD,Rhodes PH.Large sample confidence intervals for regression standardized risks,risk ratios,and risk differences.J Chronic Dis,1987,40(7):697-704.

        [5] Zou GY.Assessment of risks by predicting counterfactuals.Stat Med,2009,28(30):3761-3781.

        [6] Wilcosky TC,Chambless LE.A comparison of direct adjustment and regression adjustment of epidemiologic measures.J Chronic Dis,1985,38(10):849-856.

        [7] Muller CJ,MacLehose RF.Estimating predicted probabilities from logistic regression:different methods correspond to different target populations.Int J Epidemiol,2014,43(3):962-970.

        [8] Graubard BI,Korn EL.Predictive margins with survey data.Biometrics,1999,55(2):652-659.

        [9] Chang IM,Gelman R,Pagano M.Corrected group prognostic curves and summary statistics.J Chronic Dis,1982,35(8):669-674.

        [10]Ursano RJ,Kessler RC,Stein MB,et al.Suicide Attempts in the US Army During the Wars in Afghanistan and Iraq,2004 to 2009.JAMA Psychiatry,2015,72(9):153-159.

        [11]Gilman SE,Bromet EJ,Cox KL,et al.Sociodemographic and career history predictors of suicide mortality in the United States Army 2004-2009.Psychol Med,2014,44(12):2579-2592.

        [12]李立明,呂筠,郭彧,等.中國慢性病前瞻性研究:研究方法和調(diào)查對象的基線特征.中華流行病學(xué)雜志,2012,33(3):249-255.

        [13]李鵬聲,梁融,周舒冬,等.應(yīng)用logistic回歸模型間接估計RR/PR的方法探討.中國衛(wèi)生統(tǒng)計,2014,31(6):949-951.

        [14]Freeman DH Jr,Holford TR.Summary rates.Biometrics,1980,36(2):195-205.

        猜你喜歡
        吸煙率置信區(qū)間人群
        在逃犯
        定數(shù)截尾場合三參數(shù)pareto分布參數(shù)的最優(yōu)置信區(qū)間
        p-范分布中參數(shù)的置信區(qū)間
        多個偏正態(tài)總體共同位置參數(shù)的Bootstrap置信區(qū)間
        糖尿病早預(yù)防、早控制
        神數(shù)據(jù)
        華聲(2020年7期)2020-08-11 07:34:13
        韓國吸煙率大降,多虧煙漲價
        列車定位中置信區(qū)間的確定方法
        我走進人群
        百花洲(2018年1期)2018-02-07 16:34:52
        財富焦慮人群
        华人免费网站在线观看| 中文字幕在线久热精品| 中文字幕精品亚洲无线码二区| 草青青在线视频免费观看| 性久久久久久| 成人做爰高潮尖叫声免费观看| 少妇的诱惑免费在线观看| 国产91久久精品成人看网站| 免费成人电影在线观看| 97se亚洲国产综合自在线| 国产成年无码久久久免费| 免费观看日本一区二区三区 | 欧美丰满熟妇bbbbbb| 国产av无码专区亚洲av| 麻豆国产AV网站| 人妻少妇中文字幕,久久精品 | 91九色中文视频在线观看| 中文字幕人妻中文| 国产乱淫视频| 美国又粗又长久久性黄大片| 久久久99精品成人片| 国产三级在线观看播放视频| 国产精品成人无码久久久久久| 一区二区视频在线国产| 夫妇交换性三中文字幕| 丝袜AV在线一区二区三区| 日本经典中文字幕人妻| 干日本少妇一区二区三区| 中文字幕久久精品一二三区| 久久99久久久无码国产精品色戒| 日韩va高清免费视频| 亚洲综合激情另类小说区| 国产熟妇搡bbbb搡bb七区| 中文字幕麻豆一区二区| 国产乱人精品视频av麻豆网站| 国产精品欧美一区二区三区不卡| 久久精品中文字幕极品| 亚洲国产女同在线观看| 欧美老妇多毛xxxxx极瑞视频| 在线中文字幕有码中文| 日韩亚洲午夜精品一区二区三区|