廣東藥學(xué)院流行病與衛(wèi)生統(tǒng)計學(xué)系(510310) 徐 英 張 敏 周舒冬
在流行病學(xué)疾病(結(jié)果變量、因變量)與影響因素(自變量)的關(guān)系研究中,研究者常傾向利用比值比(OR)大小或相對危險度(RR)大小來衡量兩者之間的聯(lián)系強度。但對于連續(xù)型自變量而言,研究其每改變一個單位對疾病的影響實際意義不大。因此,在數(shù)據(jù)處理時,往往將其離散化,轉(zhuǎn)化成分類變量進行分析。然而,由于不同研究者對同一變量離散化的方法不同,常使得該變量與疾病的關(guān)系缺乏穩(wěn)定性。而分式多項式模型(fractional polynomial model,F(xiàn)P)則可以在保持變量連續(xù)性的基礎(chǔ)上較好地解決上述問題。
分式多項式模型是由Royston和Altman在1994年提出的,當時主要討論單個變量對結(jié)果的影響,并初步擴展到了多個變量的情形。1999年,Sauerbrei和Royston提出用后退法對多個變量的模型進行篩選。2003年,Royston和Sauerbrei又利用Bootstrap法對多個變量的模型的穩(wěn)定性和模型的過度擬合問題進行了探討。
FP基本模型的表達式為:
FPm(X)=β1Xp1+… +βmXpm
這里,p1,…,pm表示冪,常用的取值范圍為{-2,-1,-0.5,0,0.5,1,2,3};m 表示模型的階數(shù),一般而言,二階模型就足以擬合數(shù)據(jù)〔1〕。
根據(jù)冪的取值范圍,一階模型可以有8種表達式,其中p=0表示對變量取對數(shù)變換,p=1則為一般線性回歸模型。二階模型可以有36種表達式,其中,當p1=p2時,模型表示為:FP2(X)=β1Xp1+β2(Xp1)log X。
當需要分析多個變量對結(jié)果變量的影響時,該模型可以擴展到多個變量的情形,即在模型等號右邊加上類似X變量表達式的其他變量即可。
在實際應(yīng)用時,往往需要選擇合適的模型對數(shù)據(jù)進行擬合,原則是希望用盡可能少的變量得到擬合較好的模型〔2〕。Royston和Altman建議,在決定用一階或二階模型時,似然比越大,模型越好。當兩個模型之間存在嵌套關(guān)系,可以用似然比檢驗的方法,兩者的Deviance偏差近似服從某自由度卡方分布,如P值<0.05時,則選擇相對較復(fù)雜的模型,反之,則選用較簡單的模型。其中自由度的大小與比較的模型有關(guān)。例如,當二階模型與無效模型比較時,Deviance偏差服從自由度為4的卡方分布;二階模型與線性模型比較時,Deviance偏差服從自由度為3的卡方分布;二階模型與一階模型比較時,Deviance偏差服從自由度為2的卡方分布。
在分析多個變量對結(jié)果變量的影響時,Royston和Altman建議可以根據(jù)研究的目的選用合適的P值,利用后退法,從較為復(fù)雜的二階模型出發(fā)對變量進行篩選。
統(tǒng)計軟件stata 8.0及以上版本即可實現(xiàn)對該模型的擬合〔3〕。本文以一個示例說明該模型的應(yīng)用。
本例中的數(shù)據(jù)來源于Lee(1974年)的文章,記錄的是癌癥病人的特征和病情是否減輕的數(shù)據(jù)。共有27個觀測,1個結(jié)果變量和6個連續(xù)型變量,分別是remiss(remiss=1,表示病情減輕,remiss=0,表示病情未減輕,)、cell、smear、infil、li、blast、temp。原文中對于該數(shù)據(jù)的分析,使用了logistic回歸分析的后退法。在此,嘗試使用FP模型后退法進行多變量分析。當篩選水準為P=0.05時,可以得到如表1所示的結(jié)果。FP模型的表達式為:
LogitP= -2.22×Ili_1-0.34 STATA10.0 程序:
stepwise,pr(0.05):logistic remiss cell smear infil li blast temp
logistic remiss li,coef
mfp logistic remiss cell smear infil li blast temp,sequential select(0.05)
fracplot li
fracpred dr,dresid
twoway scatter dr li
logistic remiss Ili__1
logistic remiss Ili__1,coef
由分析結(jié)果可見,兩個模型篩選的自變量結(jié)果一致,但FP模型對自變量進行了分式變換,使得模型的對數(shù)似然函數(shù)和Pseudo R2均增大,擬合效果更好。FP模型的擬合曲線及殘差圖分別見圖1、圖2。
表1 logistic回歸模型與FP模型分析結(jié)果的比較
圖1 FP模型擬合曲線圖
圖2 FP模型擬合殘差圖
由圖1可見,研究自變量li對結(jié)果變量的影響時,當li<1時,曲線較陡峭,自變量變化時影響較大;而當li>1時,曲線較平緩,自變量變化時影響較小。因此,可以按照表2對自變量進行分段報告結(jié)果。例如,li=0.7時病情減輕的可能性是li=0.5時的77.77倍(95%CI:1.63~3721.17)。
表2 基于FP模型的比值比OR的估計結(jié)果
擬合FP模型,不僅可以得到模型的表達式,方便研究者對結(jié)果變量進行預(yù)測,還能基于模型估計常用于表達疾病與影響因素之間關(guān)聯(lián)強度的指標,如比值比OR。同時,F(xiàn)P模型不僅可以擬合logistic回歸模型,還可以擬合 Cox回歸模型、Poisson回歸模型、Probit回歸模型等。
1.與連續(xù)型變量離散化處理方法的比較 研究者往往習(xí)慣用一些分界點,將連續(xù)型變量離散化。而分界點的選擇往往與數(shù)據(jù)的分布特點有關(guān),如以分位數(shù)、平均數(shù)等作為劃分不同類的標準。一方面,常導(dǎo)致相同目的的不同研究往往得出不同的結(jié)論,使該變量與疾病的關(guān)系缺乏穩(wěn)定性。另一方面,從統(tǒng)計學(xué)的角度而言,分界點的選擇應(yīng)該在數(shù)據(jù)分析之前就確定下來,而不是由數(shù)據(jù)出發(fā)來確定。因為研究者為了得出有統(tǒng)計學(xué)意義的結(jié)論,往往會嘗試選擇不同的分界點,這樣做可能會增加犯第一類錯誤的概率〔4〕。
2.與其他回歸分析方法的比較 不少研究者也直接利用線性回歸模型來分析連續(xù)型變量和疾病之間的關(guān)系,然而,由于線性假定并不是總是能夠得到滿足。同時,隨著計算機技術(shù)的發(fā)展,非參數(shù)的回歸模型越來越受到研究者青睞,如廣義可加模型等。然而,對于上述模型的選擇往往缺乏既定的標準方法,而且其估計過程對于非統(tǒng)計學(xué)專業(yè)人員而言總是不得而知的,且由于其對數(shù)據(jù)存在過度依賴,模型往往是過度擬合的。另外,從結(jié)果的表達而言,非參數(shù)回歸模型往往不能寫出明確的模型的表達式。
和其他依賴數(shù)據(jù)建立的模型一樣,F(xiàn)P模型的結(jié)果從嚴格的意義上來講比較難解釋,而且,其參數(shù)的估計值可能是有偏的,參數(shù)估計值的標準誤也可能被低估〔1〕。這些問題均有待于進一步探討。
1.Patrick R,Gareth A,Willi S.The use of fractional polynomials to model continous risk variables in epidemiology.Int.J.Epi,1999,28:964-974.
2.陳峰.醫(yī)用多元統(tǒng)計分析方法.第2版.北京:中國統(tǒng)計出版社,2007.
3.Sauerbrei W,Meier-Hirmer C,Benner A,et al.Multivariable regression model building by using fractional polynomials:Description of SAS,STATA and R programs.Computational Statistics & Data Analysis,2006,50(12):3464-3485.
4.Altman DG,Lausen B,Saauerbrei W,et al.The dangers of using‘optimal’cutpoints in the evalution of prognostic factors.J Natl Cancer Inst,1994,86:829-835.