四川大學華西公共衛(wèi)生學院流行病與衛(wèi)生統計學系(610041)
徐 浩 張 韜 李曉松 劉元元△
logistic回歸中兩種不同杠桿點診斷方法的初步探討*
四川大學華西公共衛(wèi)生學院流行病與衛(wèi)生統計學系(610041)
徐 浩 張 韜 李曉松 劉元元△
目的 探討logistic回歸模型中兩種不同杠桿點診斷方法間的異同,為杠桿點診斷及其軟件應用提供參考。方法 選取分類型和連續(xù)型兩種協變量數據類型的實例,分別建立logistic回歸模型,并采用代表不同估計方法的SPSS與STATA軟件對回歸模型進行杠桿點診斷。結果 兩種杠桿點診斷方法在處理不同類型數據時并不完全一致,當模型協變量組數遠小于研究對象個體數時,兩種方法所得結果有所不同。結論 研究者應根據研究目的和資料類型正確選用不同軟件進行杠桿點診斷。
logistic回歸 杠桿點診斷 SPSS軟件 STATA軟件
logistic回歸模型在醫(yī)學和公共衛(wèi)生等多種學科領域中應用十分廣泛[1-2]。與線性回歸類似,logistic模型的回歸系數估計容易受到數據結構的影響,其中杠桿點問題是常見的數據結構問題之一[3]。杠桿點的出現將會使回歸模型的擬合優(yōu)度下降,參數估計發(fā)生偏差,甚至得出錯誤結論[4]。目前關于如何運用杠桿點對logistic模型進行回歸診斷的研究相對較多,然而不同的文獻報道及統計軟件中關于其計算方法卻并不統一[3,5]。SPSS和STATA兩大常用統計軟件分別所采用的杠桿點計算方法即是數理統計界對此問題所持學術觀點不同的一種體現[6-7]。那么,當遇到不同類型的數據時,不同的杠桿點診斷方法及統計軟件的分析結果是否存在差異?如出現差異,在實際應用中進行杠桿點計算及統計軟件選擇時應如何考慮?目前,上述問題尚未見明確報道,且在實際應用中常被忽略甚至誤用[8-10]。有鑒于此,本研究從不同數據類型出發(fā),結合實例,探討不同的杠桿點計算方法及SPSS和STATA兩種統計軟件分析結果的異同,為此后在進行l(wèi)ogistic模型回歸診斷時如何選擇杠桿點計算方法和軟件提供參考。
SPSS與STATA兩種軟件的logistic回歸模型構建程序中,均提供了杠桿值指標,其計算公式如下[6-7]:
(1)
(2)
在logistic回歸模型中,其自變量的數據類型(亦稱為協變量類型)一般可分為兩種[11]:①分類型協變量,即協變量組數遠小于研究對象個體總數,此時模型中基本上都是分類型自變量(兩分類或多分類),如下文中的實例一;②連續(xù)型協變量,即協變量組數等于或近似等于研究對象個體總數,此時模型中含有連續(xù)型自變量,如下文中的實例二。以下實例分析中,本文將分別采用SPSS與STATA兩種軟件計算杠桿值,以展現和比較logistic回歸模型的兩種杠桿點診斷方法在不同協變量類型數據中的分析結果的異同。
1.實例一
實例一為探討輸卵管妊娠與輸卵管手術關系的病例對照研究[15],其自變量均為分類變量,協變量組數遠小于研究對象個體數。各變量說明見下表1,各協變量組合編號及樣本例數見下表2。
(1)logistic回歸模型建立
對組別與孕次、輸卵管手術史建立logistic回歸模型,分析結果如表3所示。Hosmer-Lemeshow指標為:
HL=0.112,v=7,P=0.999。模型似然比卡方檢驗:G=30.766,v=3,P<0.001。
(2)杠桿值計算
分別采用SPSS20.0與STATA11.0軟件運行程序得模型杠桿值,結果如表4所示,實例一的SPSS杠桿值計算結果與STATA差異較大,根據臨界點2(K+1)/n,SPSS為0.007813,其中第2、4、6協變量組所有研究對象個體均可被認為是高杠桿點,對回歸擬合影響較大。而STATA為1.3333,所有協變量組均未達到高杠桿點的判定標準,但是可以發(fā)現第1、3、5協變量組對回歸擬合影響較大。對二者呈現出較為矛盾的結果,將在后面進行討論。
2.實例二
實例二采用某地有償付能力及破產公司財務比率數據[16],表5為其部分數據。該數據中Y為因變量,0代表2年后破產,1代表2年后仍有償付能力;X1、X2、X3為自變量分別代表未分配利潤/總資產、支付利息稅金前的利潤/總資產、銷售額/總資產,均為連續(xù)型變量,obs為每個研究對象個體的編號。
(1)logistic回歸模型建立
對Y與X1、X2、X3建立logistic回歸模型如表6所示。Hosmer-Lemeshow指標為:HL=0.112,v=7,P=0.999。模型似然比卡方檢驗:G=85.683,v=3,P<0.001。
(2)杠桿值計算
根據臨界點2(K+1)/n,杠桿值大于0.15152的數據點,即杠桿點。如表7所示,SPSS與STATA的杠桿值分析結果一致。
在對logistic模型進行回歸診斷時,杠桿點診斷對發(fā)現模型中的數據結構問題具有重要意義[12-13]。但目前在實際應用中仍常常存在杠桿點計算方法及軟件誤選誤用等情況[9-10]。本研究從數據類型出發(fā),通過兩個實例分析,展現并比較了兩種杠桿點診斷方法及軟件在不同協變量類型數據中的應用差異。以期對此問題做一個初步的探討,并提醒讀者在今后的杠桿點診斷中需重視不同方法所得結果間的差異。
1.兩種杠桿點診斷方法的理論差異
杠桿點的診斷方法主要分為兩種:①基于研究對象個體水平;②基于協變量組水平。由公式1可知,以基于研究對象個體水平得出的杠桿值表示每個研究對象個體偏離數據主體的程度,也反映了該個體將回歸曲線拉向自己的能力大小[14]。而如公式2所示,以協變量組水平計算出的杠桿值為該協變量組所有研究對象個體的杠桿值之和,反映的是該協變量組將回歸曲線拉向自己的能力大小,是該協變量組所有個體的共同作用,受到各協變量組樣本數的影響[7,12]。
2.兩種杠桿點診斷方法在不同數據中的應用差異
對于協變量組數與研究對象個體數相同或相近的數據,兩種計算方法得出的結果相同或相似,如實例二所示;而當遇到協變量組數遠小于研究對象個體數類型數據時,二者得出的杠桿值差異則會較大。
對于實例一的杠桿點診斷,兩種軟件所得結論看似矛盾,實則是由于兩種結果分別是基于不同的研究水平算得。根據兩種軟件給出的杠桿值計算公式, SPSS為基于研究對象個體水平計算,而STATA則是基于協變量組水平。當某一協變量組內包含2個及以上研究對象個體時,基于協變量組水平計算出的杠桿值等于該組基于研究對象個體水平計算出的杠桿值的和,即該杠桿值代表了該協變量組整體對模型擬合的影響。當遇到模型中自變量均為分類變量時,此時協變量組數遠小于研究對象個體數,協變量組之間樣本例數具有一定差異,樣本例數多的協變量組內研究對象個體杠桿值雖然很小,但是其相加后的協變量組杠桿值仍會很大[9,11]。同理,即使某研究對象個體杠桿值很大,但是如果所在協變量組樣本例數很少,其協變量組杠桿值也很小。所以,實例一中的自變量均為分類變量,協變量組數遠小于研究對象個體數,STATA與SPSS的杠桿點診斷結果差異較大,兩者計算的杠桿值所代表的意義并不相同。
綜上所述,對于杠桿點的判斷,應根據研究目的及數據類型的不同選擇相應的方法與軟件。當遇到協變量組數與研究對象個體數相同或相近的數據時,兩種方法差異不大,均可使用。而當遇到協變量組數遠小于研究對象個體數類型的數據時,則應謹慎對待。此時,如研究目的是探討研究對象個體對回歸擬合的影響程度,應采用基于研究對象個體的杠桿值計算方法,可選擇SPSS軟件進行分析;如欲了解協變量組對回歸擬合的影響程度時,則應采用基于協變量組的杠桿值計算方法,可選擇STATA軟件進行分析[8,11]。此外,與SPSS及STATA不同,另一常用統計軟件SAS可給出兩種計算方法的結果。在計算杠桿值等診斷統計量時,SAS是根據數據錄入格式來選用相應計算方法:當數據是以每條數據行代表一個研究對象的形式錄入,計算方法即為基于研究對象個體水平計算杠桿值;當數據以每條數據行代表一個協變量組的形式錄入,則以基于協變量組水平計算杠桿值[11]。關于杠桿點的處理,目前常用方法為檢查原始數據,刪除該觀察對象,或用修正值代替[3]。但當出現實例一結果,即基于協變量組水平與基于研究對象個體水平計算的杠桿值結果不一致時,應如何處理,診斷結果優(yōu)劣的判斷標準應如何界定,仍有待進一步研究。
[1]常振海,劉薇.logistic回歸模型及其應用.延邊大學學報(自然科學版),2012,38(1):28-32.
[2]尹建杰.logistic回歸模型分析綜述及應用研究.黑龍江大學碩士學位論文,2011年.
[3]王濟川,郭志剛.Logistic回歸模型——方法與應用.北京:高等教育出版社,2000年.
[4]王駿,馬林茂.logistic回歸診斷及SAS實現.數理醫(yī)藥學雜志,2005,18(1):34-36.
[5]魏朝輝.logistic回歸診斷.中國衛(wèi)生統計,2001,18(2):112-113.
[6]SPSS Inc.2011.SPSS BASE 20.0 for Windows User’s Guide.Chicago:SPSS Inc.
[7]STATA Inc.2009.STATA User’s Guide release 11.0.Texas USA.
[8]Chao-Ying Joanne Peng,Tak-Shing Harry So.Logistic Regression Analysis and Reporting:A Primer.Understanding statistics,1(1),31-70.
[9]方積乾,陳和年.醫(yī)學研究中l(wèi)ogistic回歸模型的正確應用(一).中國衛(wèi)生統計,1993,10(4):54-56.
[10]馮國雙,陳景武,周春蓮.logistic回歸應用中容易忽視的幾個問題.中華流行病學雜志,2004,25(6):544-545.
[11]Daryl Pregibon.Logistic Regression Diagnostics.The Ananals of Statistics,1981,9(4):705-724.
[12]王斌會,徐勇勇,李文潮.高杠桿點和強影響點對回歸變量的影響.數理醫(yī)藥學雜志,1994,7(2):113-115.
[13]于義良.高杠桿點和強影響點的診斷.河北大學學報(自然科學版),1993,13(1):25-26.
[14]趙清波,徐勇勇,夏結來.logistic回歸中高杠桿點的檢測.中國衛(wèi)生統計,1997,14(2):17-19.
(責任編輯:鄧 妍)
國家科技重大專項子課題“五大癥候群病原學檢測數據挖掘與分析”(編號:2012ZX10004201-006);四川大學青年教師科研啟動基金“高校教師健康風險評估模型初步探索研究”項目(項目批準號:2011SCU11023)
△通信作者:劉元元,E-mail:y_multi@126.com