劉彬彬 王琦琦 于石成 胡躍華 么鴻雁 孫謹(jǐn)芳 譚云洪
?
·流行病學(xué)與統(tǒng)計(jì)學(xué)方法·
二項(xiàng)分類logistic回歸的基本原理和關(guān)鍵問題
劉彬彬 王琦琦 于石成 胡躍華 么鴻雁 孫謹(jǐn)芳 譚云洪
二項(xiàng)分類logistic回歸是醫(yī)學(xué)研究中常用的方法,優(yōu)勢(shì)比及其95%可信區(qū)間是logistic回歸分析最重要的參數(shù)值,直接反映了自變量作用的大小和方向。而樣本含量、自變量篩選、變量賦值和結(jié)果解釋則是進(jìn)行l(wèi)ogistic 回歸分析的關(guān)鍵問題,決定了回歸分析是否能得到相對(duì)最佳的回歸模型而準(zhǔn)確反映自變量的影響作用,作者將就上述問題進(jìn)行闡述。
回歸分析; Logistic模型; 比值比
logistic回歸是醫(yī)學(xué)研究中常見的統(tǒng)計(jì)分析方法,可用于疾病危險(xiǎn)因素分析、藥物劑量反應(yīng)研究、臨床試驗(yàn)評(píng)價(jià)、疾病預(yù)后因素分析等諸多領(lǐng)域。當(dāng)研究二分類觀察結(jié)果與一組影響因素之間的關(guān)系時(shí),如觀察結(jié)果為是否患病、是否感染、是否死亡、是否復(fù)發(fā)等,最常用的多元統(tǒng)計(jì)學(xué)分析方法即為二項(xiàng)分類logistic回歸分析。
logistic回歸屬于概率型非線性回歸[1],其最常用的模型參數(shù)是利用回歸系數(shù)計(jì)算的優(yōu)勢(shì)比(odds ratio,OR),該值反映了在剔除其他自變量的影響作用之后,自變量Xi對(duì)陽性結(jié)果發(fā)生的影響作用。ORi=1表示Xi對(duì)陽性結(jié)果的發(fā)生無作用,ORi>1表示Xi的暴露會(huì)導(dǎo)致陽性結(jié)果的發(fā)生率增加,ORi<1表示Xi的暴露會(huì)導(dǎo)致陽性結(jié)果的發(fā)生率降低。
在二項(xiàng)分類logistic回歸的分析過程中,需要注意以下幾個(gè)關(guān)鍵問題,以保證獲得基于已有數(shù)據(jù)資源的最佳回歸模型:
1. 樣本含量的判斷:logistic回歸的所有統(tǒng)計(jì)推斷要求保證足夠的樣本量[2]。隨著模型中自變量個(gè)數(shù)的增加,自變量各水平的交叉組合數(shù)呈幾何級(jí)數(shù)增加,樣本量不足會(huì)影響模型的穩(wěn)定性,出現(xiàn)異常的參數(shù)估計(jì)值[3]。1998年,Hsieh等[4]提出了logistic回歸的樣本含量計(jì)算公式。但logistic回歸分析是在結(jié)果分析時(shí)應(yīng)用的數(shù)據(jù)分析方法,醫(yī)學(xué)研究中還是應(yīng)綜合考慮研究類型(包括橫斷面研究、病例-對(duì)照研究、隊(duì)列研究等)和設(shè)計(jì)方法(包括抽樣、分層、配對(duì)等)等因素來計(jì)算樣本含量。在進(jìn)行l(wèi)ogistic回歸分析時(shí),可根據(jù)以下條件評(píng)估樣本含量對(duì)模型適用性和穩(wěn)定性的影響:(1)病例組和對(duì)照組應(yīng)至少各有30~50例,模型中自變量的個(gè)數(shù)越多,需要的樣本例數(shù)也相應(yīng)越多[2];(2)各個(gè)自變量亞組的樣本含量應(yīng)大于自變量總數(shù)的20倍[3];(3)陽性結(jié)局(結(jié)果變量為二分類)發(fā)生率小于50%時(shí),每一個(gè)自變量至少需要10例具有陽性結(jié)局的樣本[3]。
如表1所示,利用logistic回歸分析肺結(jié)核患者耐藥情況的影響因素。納入肺結(jié)核患者200例,其中64例耐藥(病例組),136例敏感(對(duì)照組),滿足上述條件1;考慮納入性別和學(xué)歷2個(gè)自變量進(jìn)入分析,各個(gè)亞組的樣本量均大于40,滿足上述條件2;陽性結(jié)局(耐藥)發(fā)生率為32%(64/200×100%),各個(gè)亞組耐藥者例數(shù)均大于20(性別和學(xué)歷2個(gè)自變量),滿足上述條件3。綜上,可認(rèn)為利用該數(shù)據(jù)滿足logistic回歸的樣本量要求,可建立較穩(wěn)定的模型。
表1 肺結(jié)核患者耐藥情況分析的分組信息(例)
2. 自變量的選擇:為了使所建立的logistic回歸模型比較穩(wěn)定和便于解釋,自變量的選擇非常重要,應(yīng)盡可能將對(duì)結(jié)局變量影響大的自變量選入模型中,將作用不顯著的自變量排除在外[2]。
首先,應(yīng)結(jié)合專業(yè)知識(shí)和研究目的評(píng)估自變量的重要性,選擇可能會(huì)影響結(jié)果的因素作為分析變量。其次,根據(jù)卡方檢驗(yàn)進(jìn)行單因素分析,選擇有統(tǒng)計(jì)學(xué)意義的變量納入回歸模型(也可使用“單因素logistic回歸分析”,其作用等價(jià)于卡方檢驗(yàn)[5])。
單因素分析結(jié)果具有統(tǒng)計(jì)學(xué)意義的k個(gè)自變量中最終納入哪些變量進(jìn)入回歸模型,是logistic回歸分析最關(guān)鍵的步驟。全局擇優(yōu)法是對(duì)自變量各種不同組合所建立的回歸方程進(jìn)行比較,從中挑出一個(gè)“最優(yōu)”的回歸方程[2]。在實(shí)際應(yīng)用中最常使用的是逐步選擇法,在統(tǒng)計(jì)分析軟件中的應(yīng)用也最方便,包括前進(jìn)法、后退法和逐步回歸法3種[2]。
此外,還可根據(jù)變量的專業(yè)意義和研究目的構(gòu)建模型,按照研究關(guān)注的主要影響因素、常見的混雜因素(如性別、年齡)、對(duì)觀察結(jié)果作用明確的影響因素(如吸煙對(duì)肺癌的作用)、證據(jù)力度較弱的影響因素和可能但尚無證據(jù)支持的影響因素的順利依次加入,并利用回歸模型的評(píng)價(jià)指標(biāo)[3][包括皮爾遜χ2、偏差(deviance)、Homser-Lemeshow 統(tǒng)計(jì)量(H-L統(tǒng)計(jì)量,即擬合優(yōu)度指標(biāo))、赤池信息準(zhǔn)則(Akaike information criterion,AIC)和施瓦茨準(zhǔn)則(Schwarz criterion,SC)、廣義確定系數(shù)R2]判斷當(dāng)前模型是否已滿足研究要求。
3.自變量的賦值:在進(jìn)行l(wèi)ogistic回歸分析時(shí),自變量的賦值是一個(gè)關(guān)鍵的環(huán)節(jié)。不同的變量賦值形式,可能導(dǎo)致回歸模型參數(shù)的符號(hào)、大小和含義發(fā)生變化[2]。自變量包括分類變量、等級(jí)變量和連續(xù)變量,變量賦值形式各有不同。
分類變量,例如職業(yè)、學(xué)歷、血型等,在數(shù)據(jù)整理時(shí)通常整理為數(shù)值型變量,即用1,2,3,…k,k表示k個(gè)不同的種類。這里的數(shù)值實(shí)際上只是分類的一個(gè)代碼,無大小關(guān)系,所以需要將取值范圍為k的分類變量,轉(zhuǎn)化成k-1個(gè)啞變量納入回歸模型[3]。
等級(jí)變量,如人體血清反應(yīng)強(qiáng)度分-、±、+、++、+++、++++六級(jí),藥物治療的效果包括治愈、顯效、好轉(zhuǎn)、無效四級(jí),可以以連續(xù)變量的形式進(jìn)入logistic回歸模型,得到自變量每改變1個(gè)等級(jí)時(shí)的OR值。但這樣處理的前提條件是自變量的等級(jí)分組與應(yīng)變量的改變情況呈線性關(guān)系,其效應(yīng)呈等比例改變[3]。如果該前提不滿足,則只能將等級(jí)變量作為分類變量,通過設(shè)置啞變量進(jìn)行分析。
連續(xù)變量,如年齡、血壓、白細(xì)胞計(jì)數(shù)等,在數(shù)據(jù)整理時(shí)一般以原始觀察值記錄,如將連續(xù)變量直接帶入logistic回歸,則OR值表示自變量每改變1個(gè)單位,陽性結(jié)果的發(fā)生情況較之前水平的改變倍數(shù)。但這種情況有時(shí)在專業(yè)上比較難理解,比如年齡,OR值表示每增加1歲時(shí)的改變情況,不一定具有臨床意義[3]。此時(shí)應(yīng)將變量按值大小分成幾組,按等級(jí)變量的處理辦法,直接納入或化作k-1個(gè)啞變量納入模型。
4. 啞變量的應(yīng)用:設(shè)置啞變量必須先選取一個(gè)參照水平,表2是以“水平1”為參照,得到表示其他2個(gè)水平的啞變量D1和D2。其中D1=1表示學(xué)歷分組為高中,D1=0表示學(xué)歷分組為非高中,D2含義類似(大學(xué)及以上)。當(dāng)D1和D2均等于0時(shí),表示學(xué)歷分組為初中及以下(參照水平)。
表2 啞變量的設(shè)置方法
啞變量反映了同一個(gè)多分類變量不同水平的影響作用,是一個(gè)整體變量。因此,logistic回歸模型對(duì)啞變量應(yīng)該遵循同進(jìn)同出的原則[3]。即當(dāng)同一個(gè)多分類變量生成的一組啞變量中,如果其中有至少1個(gè)啞變量進(jìn)入了回歸模型,此時(shí)就不能按照逐步選擇法將該組中其他無統(tǒng)計(jì)學(xué)意義的啞變量剔除,而應(yīng)該采用強(qiáng)制進(jìn)入的處理方式,將該組啞變量全部納入模型。以表3為例,由學(xué)歷生成的2個(gè)啞變量,按照0.05的檢驗(yàn)水準(zhǔn),高中(D1)有統(tǒng)計(jì)學(xué)意義,大學(xué)及以上(D2)尚未觀察到有統(tǒng)計(jì)學(xué)意義,但這2個(gè)啞變量都應(yīng)該納入回歸模型。
表3 logistic回歸分析的結(jié)果
Variables in the Equation
圖1 SPSS軟件進(jìn)行l(wèi)ogistic回歸分析的主要結(jié)果項(xiàng)目
啞變量的參數(shù)表示的是一個(gè)多分類變量的各個(gè)水平與參照水平相比,對(duì)觀察結(jié)果的影響作用。此作用的大小和方向會(huì)因?yàn)檫x擇的參照不同而改變,因此需要根據(jù)研究目的和專業(yè)背景選擇合適的參照組。表2是以最低學(xué)歷為參照水平,分析其他2個(gè)學(xué)歷相比于最低學(xué)歷各自的影響作用。假設(shè)在進(jìn)行某種特殊疾病的發(fā)病風(fēng)險(xiǎn)分析時(shí),基于專業(yè)知識(shí)可以初步認(rèn)為該疾病在低學(xué)歷和高學(xué)歷時(shí)都可能高發(fā),同時(shí)研究也希望對(duì)兩個(gè)學(xué)歷水平的影響作用大小進(jìn)行評(píng)估,此時(shí)就可考慮選擇高中組為參照水平,計(jì)算低學(xué)歷(初中及以下)和高學(xué)歷(大學(xué)及以上)相對(duì)于參照水平的OR值。
5. 應(yīng)變量的賦值:應(yīng)變量的賦值也是影響研究結(jié)果的關(guān)鍵問題之一。當(dāng)觀察結(jié)果為二分類變量時(shí),一般陽性結(jié)果賦值為1,陰性結(jié)果賦值為0,所得OR值大于1為危險(xiǎn)因素,小于1為保護(hù)因素。但實(shí)際上這其中包含了陽性結(jié)果是不利結(jié)局的假設(shè),如患病、死亡、復(fù)發(fā)。當(dāng)陽性結(jié)果是有利結(jié)局時(shí),如治愈、主動(dòng)求醫(yī),自變量的性質(zhì)則會(huì)得到恰恰相反的結(jié)論。需要注意的是,在利用SAS軟件進(jìn)行l(wèi)ogistic回歸分析時(shí),系統(tǒng)默認(rèn)計(jì)算的是較小值與較大值比較的風(fēng)險(xiǎn),與上述分析習(xí)慣剛好相反,在賦值時(shí)應(yīng)做相應(yīng)改變[3]。
在結(jié)果報(bào)告時(shí),不鼓勵(lì)直接將圖1的軟件分析結(jié)果直接復(fù)制納入,需要將表頭轉(zhuǎn)換成標(biāo)準(zhǔn)的參數(shù)名稱或符號(hào),并標(biāo)明變量的亞組信息(表3)。如前所述,OR值及其95%可信區(qū)間是logistic回歸分析中最常用的參數(shù),當(dāng)篇幅有限時(shí)可以其為主要內(nèi)容進(jìn)行報(bào)告。
表3展示了以下結(jié)果:性別和學(xué)歷對(duì)結(jié)核病患者耐藥情況有影響。相對(duì)于女性,男性是耐藥的危險(xiǎn)因素,OR值為7.732(95%CI:1.589~37.615)。相對(duì)于初中及以下組,高中學(xué)歷是耐藥的危險(xiǎn)因素,OR值為5.139(95%CI:1.215~21.737);相對(duì)于初中及以下組,尚不能認(rèn)為大學(xué)及以上學(xué)歷對(duì)結(jié)核病患者耐藥有影響。
綜上,醫(yī)學(xué)研究常用logistic回歸分析觀察結(jié)果與影響因素間的關(guān)系,變量賦值、自變量選擇和結(jié)果解釋都是logistic回歸分析成功與否的重要影響因素。需要強(qiáng)調(diào)的是,不能盲目開展logistic回歸分析,需要結(jié)合專業(yè)知識(shí),在明確研究目的的基礎(chǔ)上,依據(jù)科學(xué)的數(shù)學(xué)原理對(duì)數(shù)據(jù)進(jìn)行分析,實(shí)事求是地解釋,才能得到相對(duì)最佳的回歸模型,獲得準(zhǔn)確而又有實(shí)際意義的結(jié)果。
[1] 方積乾.衛(wèi)生統(tǒng)計(jì)學(xué). 7版.北京: 人民衛(wèi)生出版社, 2012.
[2] 孫振球, 徐勇勇. 醫(yī)學(xué)統(tǒng)計(jì)學(xué). 4版.北京: 人民衛(wèi)生出版社, 2014.
[3] 馮國(guó)雙, 劉德平. 醫(yī)學(xué)研究中的logistic回歸分析及SAS實(shí)現(xiàn). 2版.北京: 北京大學(xué)醫(yī)學(xué)出版社, 2015.
[4] Hsieh FY, Bloch DA, Larsen MD. A simple method of sample size calculation for linear and logistic regression. Stat Med, 1998, 17(14):1623-1634.
[5] 李錫太, 葉臨湘, 施侶元, 等. 肺結(jié)核復(fù)發(fā)危險(xiǎn)因素logistic回歸分析. 中華流行病學(xué)雜志, 2004, 25(8): 658-660.
[6] 宇傳華. SPSS與統(tǒng)計(jì)分析. 2版.北京: 電子工業(yè)出版社, 2012.
(本文編輯:李敬文)
Principle and key steps of binary logistic regression
LIUBin-bin*,WANGQi-qi,YUShi-cheng,HUYue-hua,YAOHong-yan,SUNJin-fang,TANYun-hong.
*DepartmentofLaboratory,Hu’nanInstituteforTuberculosisControl,Hu’nanChestHospital,Changsha410013,China
s:SUNJin-fang,Email:sunjf@chinacdc.cn;TANYun-hong,Email:tanyunhong@163.com
Binary logistic regression analysis is frequently used in medical researches, odds ratio (OR) and 95% confidence index, which can directly measure the effect of independent variable on the responsing variables, which are the most important indicators of logistic regression analysis. Sample size, variable selection, variable assignment and result interpretation are the key steps to construct an optimal model, which can reflect the influence of explanatory variables correctly, and they will be discussed especially in this thesis.
Regression analysis; Logistic models; Odds ratio
10.3969/j.issn.1000-6621.2016.08.002
中國(guó)疾病預(yù)防控制中心青年科研基金課題(2015A204、2016A201)
410013 長(zhǎng)沙,湖南省結(jié)核病防治所 湖南省胸科醫(yī)院檢驗(yàn)科(劉彬彬、譚云洪);中國(guó)疾病預(yù)防控制中心流行病學(xué)辦公室(王琦琦、于石成、胡躍華、么鴻雁、孫謹(jǐn)芳)
孫謹(jǐn)芳,Email: sunjf@chinacdc.cn;譚云洪,Email:tanyunhong@163.com
2016-07-05)