亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

利用logistic回歸進行直接標準化*

2018-03-05 08:59:31北京大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計學(xué)系100191李嘉琛余燦清李立明

中國衛(wèi)生統(tǒng)計 2018年1期

北京大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計學(xué)系(100191) 李嘉琛余燦清呂筠李立明

在流行病學(xué)研究中常常要進行不同組間率的比較，如果各比較組之間的重要協(xié)變量(如性別、年齡)分布不同，那么直接計算粗率并比較會受到混雜的影響。直接標準化是控制混雜最為常用的方法之一，該方法計算簡便、容易理解，得到了廣泛的應(yīng)用。但當(dāng)需要調(diào)整的因素分層較多時，會出現(xiàn)有些層人數(shù)過少的情況，此時難以精確估計層別率。此外，對于年齡這類連續(xù)型協(xié)變量，必須轉(zhuǎn)化為分類變量才能用于標化，可能帶來殘余混雜。多重回歸分析可以同時控制多個混雜因素，利用模型的預(yù)測功能計算調(diào)整均數(shù)或率的思想很早就已出現(xiàn)，由最初的一般線性模型推廣到廣義線性模型[1]。然而這些方法在實際研究中的應(yīng)用還不是很多，一個可能的原因是其計算過程并不直觀，結(jié)果不易解釋?；谀Ｐ偷闹苯訕藴驶蓪⒒貧w分析與加權(quán)平均的思想相結(jié)合，可以發(fā)揮兩者的優(yōu)勢。利用logistic回歸計算直接標準化率主要有兩種不同的計算方法，目前應(yīng)用還不是很廣泛，本文將對其進行介紹，探討其特點和性質(zhì)，比較不同方法的優(yōu)勢與不足，為研究者選擇分析方法提供參考。

計算方法

基于回歸進行標準化的基本思想是利用回歸模型的預(yù)測來代替直接標準化法中層別率的估計，再以標準人口的構(gòu)成作為權(quán)重進行加權(quán)平均。其前提假設(shè)是回歸模型可以正確反映因變量與自變量間的關(guān)系。使用y表示二分類的結(jié)局變量，x為用于比較的分組變量，z表示混雜，則回歸模型可以表示為：logitπ=f(x,z)，f(x,z)代表自變量的線性函數(shù)。在logistic模型中，概率經(jīng)過了非線性連接函數(shù)的轉(zhuǎn)換，在加權(quán)平均計算時有兩種不同的方法，分別是對層別預(yù)測率進行加權(quán)平均和對層別預(yù)測logit進行加權(quán)平均。

1.對預(yù)測率進行加權(quán)平均

在各比較組按混雜因素分層后，利用回歸方程計算各層的預(yù)測結(jié)局概率，再以標準人口構(gòu)成為權(quán)重進行加權(quán)平均：P=∑wiPi，其中wi代表第i層的權(quán)重，Pi代表第i層的預(yù)測結(jié)局概率。上述過程適用于所有要調(diào)整的變量均為分類變量的情形。有時協(xié)變量中包含連續(xù)變量，而我們又不希望將其轉(zhuǎn)化分類變量損失信息，此時可以計算邊際預(yù)測率[2]?！斑呺H”的含義是在用回歸方程計算預(yù)測概率時，除要比較的分組變量以外，所有協(xié)變量的取值并不固定，而是使用標準人群的觀察值。某一組(x=k)的邊際預(yù)測率計算過程如下：首先要給定一個標準人群數(shù)據(jù)集，該數(shù)據(jù)集要包含每一個體的所有協(xié)變量取值。將所有人的x取值固定為k，其他協(xié)變量取值保持不變，計算每一個體的預(yù)測結(jié)局概率，求出預(yù)測率的算數(shù)平均數(shù)即為該組的標化率：

(1)

其中n為標準人群的人數(shù)，zj為第j人的協(xié)變量取值。由計算過程可以看出，邊際預(yù)測率在個體層面上預(yù)測結(jié)局概率，再以相等的權(quán)重1/n進行加權(quán)平均，因此其含義與直接標準化一致，可以解釋為在標準人群的協(xié)變量分布下的結(jié)局事件概率。

2.對預(yù)測logit進行加權(quán)平均

(2)

其中n為標準人群的人數(shù)，zj為第j人的協(xié)變量取值。

3.標化率的標準誤和置信區(qū)間

在不同的方法中，標準化率置信區(qū)間的估計方法也有所不同。直接標化法和對預(yù)測概率加權(quán)平均法計算的置信區(qū)間為標化率點估計值加減標準誤倍數(shù)的形式(Wald置信區(qū)間)。然而對概率而言，這種以點估計值為中心的對稱的置信區(qū)間往往是不合理的[5]。對logit加權(quán)平均的方法則是計算標化logit的Wald置信區(qū)間，再轉(zhuǎn)換為概率的區(qū)間。由于logit比概率P更有可能服從正態(tài)分布，因此有研究者認為這種方法在統(tǒng)計學(xué)上更為合適[3]。

4.軟件實現(xiàn)

當(dāng)調(diào)整的變量均為分類變量時，可以直接利用統(tǒng)計軟件輸出模型的回歸系數(shù)估計值以及協(xié)方差矩陣來計算標準化率和置信區(qū)間。當(dāng)存在連續(xù)協(xié)變量時，需要計算邊際預(yù)測率，Stata 11增加了“margins”命令可以便捷地實現(xiàn)這一計算[5]。SAS本身沒有對應(yīng)的過程，不過有研究者編寫了宏，可用于計算邊際預(yù)測率，并且提供了多種置信區(qū)間的估計方法[5]。

基于回歸的標化率與其他調(diào)整率

利用回歸模型可以計算控制混雜后的因變量預(yù)測值，這一過程也被稱為“調(diào)整”或“校正”。基于模型的調(diào)整預(yù)測值分為兩類，一類是固定分組變量和協(xié)變量取值，計算條件均數(shù)或概率，稱為條件預(yù)測值(conditional prediction)，協(xié)變量通常是取樣本或某個人群的平均數(shù)；另一類是固定分組變量取值，保持協(xié)變量的實際觀察值，計算個體的平均調(diào)整預(yù)測值，稱為邊際預(yù)測值(marginal prediction)[2,6-8]。在線性回歸模型中，兩者的結(jié)果一致，而在非線性模型中結(jié)果不同，一些研究對兩類方法進行了比較[2,6-7,9]。調(diào)整與直接標準化的概念存在區(qū)別和聯(lián)系，有時會令人困惑。

兩種標準化的計算方法雖是基于同樣的回歸模型，卻會得出不相等的結(jié)果。對預(yù)測概率進行加權(quán)平均(邊際預(yù)測率)是被許多研究者所接受的計算方法。對層別logit加權(quán)平均的方法自提出后也已被一些研究所采用[10-11]，但還沒有研究者將其與邊際預(yù)測率、直接標化率進行比較。下面通過實例分析來說明兩種方法的計算過程，并展示出兩種方法標化結(jié)果的差異。

分析實例

利用中國慢性病前瞻性研究(China Kadoorie Biobank)基線調(diào)查數(shù)據(jù)[12]分析教育程度與吸煙的關(guān)系。以教育程度為自變量，分為大學(xué)及以上、大學(xué)以下兩組；吸煙為二分類結(jié)局變量，分為當(dāng)前每日吸煙與其他兩組。直接計算兩組的粗吸煙率，大學(xué)及以上者為21.0%，大學(xué)以下者為26.6%。在分析中發(fā)現(xiàn)，不同教育程度人群的性別構(gòu)成不同，而性別與吸煙行為關(guān)聯(lián)較強。為了控制性別因素的影響，按性別分層計算吸煙率，結(jié)果見表1。為進行綜合比較，合并全部樣本作為標準人群，進行直接標準化。首先采用傳統(tǒng)的計算方法，直接估計兩組的層別吸煙率，經(jīng)加權(quán)平均計算后得出標化率。

表1 不同教育程度人群分性別吸煙率

建立吸煙率與教育和性別的回歸方程：logitP=1.1481×edu+4.1992×gender-4.8574，其中edu代表學(xué)歷水平，取值為0和1，以大學(xué)及以上組(edu=0)為參照；gender為性別，取值為0和1，以女性為參照(gender=0)。分別用兩種基于logistic回歸的方法計算標化率，各層權(quán)重以及層別率和層別logit的預(yù)測值見表2。

表2 按性別分層的權(quán)重以及層別率、層別logit

表3 不同方法計算標化吸煙率的比較(%)

表3顯示了幾種直接標準化法的結(jié)果比較，并利用兩組的標化率計算了關(guān)聯(lián)強度指標OR值和RR值。從兩組粗率的比較可以看出，大學(xué)及以上學(xué)歷的人吸煙率低于大學(xué)以下的人。由于低學(xué)歷者中女性比例較高，而女性吸煙率遠低于男性，從理論上講性別的混雜會使關(guān)聯(lián)強度被低估。采用任何一種方法進行標準化后，RR值和OR值均增大，說明這三種方法都對混雜偏倚起到了一定的控制作用。在本例中吸煙并不是一個罕見事件，因此OR值并不能很好地近似RR值[13]。直接標化法與對率加權(quán)平均方法的結(jié)果基本相同，這是由于直接計算的層別率與使用logistic模型計算的層別率高度一致(表2)，表明在本例中模型對數(shù)據(jù)的擬合是比較好的。

由于樣本中大學(xué)以下人數(shù)比例較大(97.7%)，合并后標準人群的性別構(gòu)成十分接近大學(xué)以下人群，所以大學(xué)以下組的標化率理應(yīng)與粗率相差不大，直接標準化和對預(yù)測率加權(quán)平均方法得到的結(jié)果都是如此。而對logit加權(quán)平均法得到的大學(xué)以下組的調(diào)整吸煙率為12.0%，這顯然不是標準人口構(gòu)成下的大學(xué)以下人群吸煙率，出現(xiàn)這種現(xiàn)象的根源就是ln(P/1-P)和P的非線性關(guān)系。在這里，12.0%和4.2%只能理解為對直接標化率的有偏差的估計值，并沒有現(xiàn)實意義。如果錯誤地將其理解為直接標化率，那么當(dāng)前每日吸煙者的比例將被嚴重低估。理論分析表明，當(dāng)協(xié)變量與結(jié)局關(guān)聯(lián)較強時，對logit加權(quán)平均法得到的調(diào)整率與直接標化率相差較大，在本例中，混雜因素性別與吸煙率關(guān)聯(lián)極強(OR=67)，因此兩種基于回歸的標準化方法結(jié)果有明顯的差別。

討論

通過比較，可以總結(jié)兩種基于logistic回歸的標準化方法的特點：邊際預(yù)測率與傳統(tǒng)的直接標準化法一致，結(jié)果容易理解，得到的置信區(qū)間以率的點估計值為中心；對logit進行加權(quán)平均的方法可以得到非對稱的置信區(qū)間，利用其調(diào)整率計算出的OR值等于模型估計的OR值。其不足之處在于其結(jié)果并不等于直接標化率，當(dāng)混雜因素與結(jié)局關(guān)聯(lián)較強時，用這種方法估計直接標準化率會產(chǎn)生較大偏差。

基于多重回歸的標準化在調(diào)整連續(xù)變量、控制多個混雜因素時具有優(yōu)勢，傳統(tǒng)的直接標準化對分層因素各水平的所有組合分別估計結(jié)局概率，相當(dāng)于考慮所有可能的交互作用，而回歸模型可以幫助我們忽略其中一些沒有意義的交互作用，得到比較精確的層別率估計值。以往有人認為邊際預(yù)測率只能以合并樣本為標準人群，也就是只能進行樣本內(nèi)部調(diào)整[6]，然而實際上并非如此，利用回歸進行標準化可以使用外部的標準人群，從而實現(xiàn)不同研究之間的比較。

使用回歸模型進行標準化同樣要注意一些問題。首先，與傳統(tǒng)的直接標準化法相同，當(dāng)各比較組的層別率間比較出現(xiàn)明顯差異甚至交叉時，不宜計算一個綜合的標化率，此時權(quán)重的選擇會成為影響最終各組標化率比較的主要因素，是否適宜進行標準化可以通過檢驗?zāi)Ｐ椭械慕换ロ梺砼袛郲14]。對于結(jié)果的理解要正確，標化率不再反映實際水平，是假定在特定協(xié)變量分布人群中的預(yù)測概率。與直接標準化不同的是，利用模型進行標準化的前提假設(shè)是回歸模型可以正確估計層別率，因此能夠較好擬合數(shù)據(jù)的回歸方程是必要的。

本文介紹了兩種基于logistic回歸的標準化方法，在一般情況下，兩者都可以用于估計直接標準化率。但是當(dāng)調(diào)整的因素與結(jié)局關(guān)聯(lián)很強時，對logit進行加權(quán)平均的方法會造成誤導(dǎo)，計算邊際預(yù)測率是更好的選擇。由于基于回歸的調(diào)整率計算方法較多，研究者應(yīng)具體說明所使用的方法以及選擇的標準人群，使讀者能正確理解研究結(jié)果。

[1] Lee J.Covariance adjustment of rates based on the multiple logistic regression model.J Chronic Dis，1981,34(8):415-426.

[2] Lane PW,Nelder JA.Analysis of covariance and standardization as instances of prediction.Biometrics，1982,38(3):613-621.

[3] Roalfe AK,Holder RL,Wilson S.Standardisation of rates using logistic regression:a comparison with the direct method.BMC Health Serv Res，2008,8(1):275.

[4] Flanders WD,Rhodes PH.Large sample confidence intervals for regression standardized risks,risk ratios,and risk differences.J Chronic Dis,1987,40(7):697-704.

[5] Zou GY.Assessment of risks by predicting counterfactuals.Stat Med，2009,28(30):3761-3781.

[6] Wilcosky TC,Chambless LE.A comparison of direct adjustment and regression adjustment of epidemiologic measures.J Chronic Dis，1985,38(10):849-856.

[7] Muller CJ,MacLehose RF.Estimating predicted probabilities from logistic regression:different methods correspond to different target populations.Int J Epidemiol,2014,43(3):962-970.

[8] Graubard BI,Korn EL.Predictive margins with survey data.Biometrics,1999,55(2):652-659.

[9] Chang IM,Gelman R,Pagano M.Corrected group prognostic curves and summary statistics.J Chronic Dis,1982,35(8):669-674.

[10]Ursano RJ,Kessler RC,Stein MB,et al.Suicide Attempts in the US Army During the Wars in Afghanistan and Iraq,2004 to 2009.JAMA Psychiatry,2015,72(9):153-159.

[11]Gilman SE,Bromet EJ,Cox KL,et al.Sociodemographic and career history predictors of suicide mortality in the United States Army 2004-2009.Psychol Med,2014,44(12):2579-2592.

[12]李立明，呂筠，郭彧，等.中國慢性病前瞻性研究：研究方法和調(diào)查對象的基線特征.中華流行病學(xué)雜志，2012,33(3):249-255.

[13]李鵬聲,梁融,周舒冬,等.應(yīng)用logistic回歸模型間接估計RR/PR的方法探討.中國衛(wèi)生統(tǒng)計,2014,31(6):949-951.

[14]Freeman DH Jr,Holford TR.Summary rates.Biometrics,1980,36(2):195-205.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

利用logistic回歸進行直接標準化*

計算方法

基于回歸的標化率與其他調(diào)整率

分析實例

討 論

討論