山西醫(yī)科大學(xué)公共衛(wèi)生學(xué)院(030001) 王曉榮 王 彤
在一些臨床觀察中,研究者常將能夠代表人群健康狀況的某個指標(biāo)作為因變量來分析其影響因素,然而在測量該指標(biāo)水平時由于儀器的檢測極限問題,在某個水平之上或之下的值我們觀測不到,在數(shù)據(jù)收集時通常會用這個極限水平的值來代替那些我們觀測不到的數(shù)值。這里的因變量在理論上是連續(xù)的,但由于測量時受到某種限制,在某一點上被刪失或稱截取(censoring)而用界值代替,因變量成為連續(xù)分布和離散分布的混合分布〔1〕。對此類數(shù)據(jù)可以采用tobit回歸,或更普通的截取回歸模型進行分析。實際工作中對于所涉及的研究總體較大的調(diào)查,在研究設(shè)計時往往會整合簡單隨機抽樣、分層抽樣、整群抽樣等多種基本的抽樣技術(shù)形成多階段復(fù)雜抽樣,涉及截取因變量數(shù)據(jù)的調(diào)查也不例外。如果此時仍采用常規(guī)數(shù)據(jù)分析方法來分析復(fù)雜的截取數(shù)據(jù),忽略分層、整群及不等概率抽樣等因素所帶來的設(shè)計效應(yīng),即使樣本量足夠大,也可能得出錯誤的推斷結(jié)論〔2,3〕。故本次研究將模擬復(fù)雜抽樣設(shè)計下的截取數(shù)據(jù),并用泰勒級數(shù)法估計待估參數(shù)及其標(biāo)準(zhǔn)誤,將其與不考慮復(fù)雜抽樣設(shè)計之結(jié)果進行比較。
1.tobit模型的基本形式:
該方程意味著當(dāng)y*>0時,所觀測到的變量y=y*,當(dāng)y*≤0時,則y=0。以上是將截取點設(shè)為零,事實上截取臨界點可以為ci,ci可以對所有的i都是一樣的,但在多數(shù)情況下將隨著i的不同而變化,并且ci既可以從左截取,也可以從右截取,還可以兩邊同時截取。在這些更廣泛的情況下我們稱模型為截取回歸模型。例如醫(yī)學(xué)隨訪研究中常遇到的生存分析數(shù)據(jù)大多數(shù)屬于右截取情況,而tobit模型事實上是截取回歸模型在左端截取點為0時的特殊情況〔1〕。
2.參數(shù)估計
在tobit回歸模型中,當(dāng)誤差滿足正態(tài)同分布時,即u|x~N(0,σ2),估計回歸系數(shù)常用的是最大似然法,似然函數(shù)的表達(dá)式如下:
上述方法是針對于簡單隨機樣本而言的,對于復(fù)雜抽樣數(shù)據(jù)應(yīng)考慮更恰當(dāng)?shù)奶幚矸椒ǎ绫敬窝芯坎捎玫膮?shù)及其方差估計方法是泰勒級數(shù)法。泰勒級數(shù)法的基本思想就是通過泰勒級數(shù)展開式用線性估計去逼近非線性估計,給出方差這個非線性估計量的一個近似估計。然而泰勒級數(shù)法本身不能獨自地用于方差估計的構(gòu)造,它只是提供了非線性估計量的一種線性逼近算法,有時需要結(jié)合其他的復(fù)雜抽樣(刀切法、平衡半樣本法等)技術(shù)進行分析〔4,5〕。
(1)泰勒級數(shù)展開式如下:
對于非線性函數(shù)Y=f(x),x0為一個給定點,則f(x)在x0的泰勒級數(shù)展開為:
其中,a0,a1,a2,…,ak,…為常數(shù),如果僅保留常數(shù)項和一階導(dǎo)數(shù)項,就可以得到非線性函數(shù)f(x)在定點 x0處的線性化估計〔4〕。
(2)泰勒級數(shù)近似法估計方差〔6〕
現(xiàn)以分層整群抽樣為例探討復(fù)雜抽樣條件下tobit回歸系數(shù)的方差估計。假設(shè)現(xiàn)在有一組分層整群數(shù)據(jù),共有H個層,每個層中有M個群,每個群內(nèi)有B個觀察單位。從每個層內(nèi)抽取m個群進行觀察。
在tobit回歸模型中,假定回歸系數(shù)B與變量y和x的關(guān)系用下面的函數(shù)表示:
2.2.2 概率敏感性分析結(jié)果 由成本效果可接受曲線(圖3)可以看出,當(dāng)WTP小于60 000元時,仙靈骨葆膠囊具有成本效果優(yōu)勢的概率更高;當(dāng)WTP達(dá)到60 000元時,芪骨膠囊成為優(yōu)選方案的概率為52.5%;當(dāng)WTP超過60 000元時,芪骨膠囊具有成本效果優(yōu)勢的概率更高。
B=f(y,x)
如果函數(shù)f(y,x)的二階偏導(dǎo)數(shù)存在,運用泰勒級數(shù)展開式中的線性項就可以得到一個近似的線性表達(dá)式。
這樣就將一個非線性函數(shù)比值的方差估計轉(zhuǎn)變成為由y和x的方差和協(xié)方差所組成的線性函數(shù)。
設(shè)計效應(yīng)值越大,表明它的效率越低,若deff>1,表明所考慮的抽樣設(shè)計的效率比簡單隨機抽樣低,若deff<1,表明該抽樣設(shè)計的效率比簡單隨機抽樣高〔4〕.
1.模擬條件
預(yù)模擬一個10 000例的總體,總體中有兩個層,第一層中有6 000例觀察對象,將這6 000例觀察對象完全隨機地分配到100個群中,每群60例。第二層中有4 000例觀察對象,將這4 000例觀察對象完全隨機地分配到80個群中,每群50例。這樣分群可以使群內(nèi)方差與總體方差近似相等,使得群內(nèi)相關(guān)系數(shù)近似為0,保證群內(nèi)數(shù)據(jù)的異質(zhì)性〔4〕。
2.左截取數(shù)據(jù)的模擬及其參數(shù)模型分析結(jié)果
我們需要模擬三個變量:分別為x、y、u,其中x為自變量,y是應(yīng)變量,u是誤差項,y=1+x+u,u取自均值為0標(biāo)準(zhǔn)差為1的正態(tài)分布。自變量x的產(chǎn)生如下:第一層的數(shù)據(jù)是來自(0,1)的均勻分布,例數(shù)為6 000。第二層的數(shù)據(jù)是來自均數(shù)為0.5,標(biāo)準(zhǔn)差為1的正態(tài)分布中隨機產(chǎn)生,例數(shù)為4 000。然后我們按照等比例抽取的方式,每層均隨機抽取1/10的群作為樣本(即第一層中抽取10個群,第2層中抽取8個群),重復(fù)上述過程,模擬1 000次,得到1 000個樣本,用這1 000個樣本的數(shù)據(jù)擬合左截取tobit回歸模型,每個樣本均可計算出一個回歸系數(shù)以及其標(biāo)準(zhǔn)誤,最后計算出這1 000個樣本的回歸系數(shù)的均數(shù)和標(biāo)準(zhǔn)差。在
(3)設(shè)計效應(yīng)
為比較不同抽樣設(shè)計的效率,基什(L.Kish)提出了設(shè)計效應(yīng)的概念,設(shè)計效應(yīng)(design effect,簡記為deff)指的是一個特定的抽樣設(shè)計估計量的方差對相同樣本量下簡單隨機抽樣的估計量的方差之比,計算公式如下:模型擬合過程中,我們不斷變換截取數(shù)據(jù)的比例,回歸系數(shù)的均數(shù)及其標(biāo)準(zhǔn)誤會隨著截取數(shù)據(jù)比例的改變而改變。
我們采用按比例截取方式來截取數(shù)據(jù),截取比例分別為5%、10%、15%,其結(jié)果見表1。
表1 不同截取比例下左截取tobit模型回歸系數(shù)的模擬分析
從表1中可以看出,回歸系數(shù)的均數(shù)和標(biāo)準(zhǔn)誤隨著截取比例的變化而變化,隨著截取比例的增大,從5%逐漸增大至15%,考慮抽樣特征和不考慮抽樣特征這兩種情況下,左截取tobit回歸模型的回歸系數(shù)的均數(shù)越來越偏離真值1,且標(biāo)準(zhǔn)誤逐漸增大。當(dāng)截取比例固定不變時,考慮抽樣特征的情況下回歸系數(shù)的標(biāo)準(zhǔn)誤要明顯低于不考慮抽樣特征,將數(shù)據(jù)作為完全隨機處理的情形。
左截尾數(shù)據(jù)比例為5%、10%、15%時,tobit模型的設(shè)計效應(yīng)deff分別為0.8539、0.8937和0.9089,我們可以看出截取數(shù)據(jù)比例越小,模型的估計效率越高,估計結(jié)果真實性和準(zhǔn)確性也越高。
3.右截取數(shù)據(jù)的模擬及其半?yún)?shù)模型分析結(jié)果
首先生成服從(0,1)均勻分布的隨機數(shù)S,令生存函數(shù)S(t)=S,第一層數(shù)據(jù)采用服從均數(shù)為0.5,標(biāo)準(zhǔn)差為1的正態(tài)分布數(shù)據(jù)作為自變量x,例數(shù)為6 000,第二層的數(shù)據(jù)采用服從均數(shù)為0.1,標(biāo)準(zhǔn)差為0.5的正態(tài)分布數(shù)據(jù)作為自變量x,例數(shù)為4 000.令總體回歸系數(shù)b=1,λ=1,利用來計算服從參數(shù)為λ的指數(shù)分布的生存時間t。然后我們按照等比例抽取的方式,每層均隨機抽取1/10的群作為樣本(即第一層中抽取10個群,第2層中抽取8個群),重復(fù)上述過程,模擬1 000次,得到1 000個樣本,用這1 000個樣本的數(shù)據(jù)擬合COX比例風(fēng)險模型,每個樣本均可計算出一個回歸系數(shù)以及其標(biāo)準(zhǔn)誤,最后計算出這1 000個樣本的回歸系數(shù)的均數(shù)和標(biāo)準(zhǔn)差。在模型擬合過程中,我們不斷變換截取數(shù)據(jù)的比例,回歸系數(shù)的均數(shù)及其標(biāo)準(zhǔn)誤會隨著截取數(shù)據(jù)比例的改變而改變。
我們采用按比例截取方式來截取數(shù)據(jù),截取比例分別為5%、10%、15%,其結(jié)果見表2。
從表2中可以看出,回歸系數(shù)的均數(shù)和標(biāo)準(zhǔn)誤隨著截取比例的變化而變化,隨著截取比例的增大,從5%逐漸增大至15%,考慮抽樣特征和不考慮抽樣特征這兩種情況下,COX比例風(fēng)險回歸模型的回歸系數(shù)的均數(shù)越來越偏離真值1,且標(biāo)準(zhǔn)誤逐漸增大。當(dāng)截取比例固定不變時,考慮抽樣特征的情況下回歸系數(shù)的標(biāo)準(zhǔn)誤要明顯低于不考慮抽樣特征,將數(shù)據(jù)作為完全隨機處理的情形。
表2 不同截取比例下COX比例風(fēng)險模型回歸系數(shù)的模擬分析
右截尾數(shù)據(jù)比例為5%、10%、15%時,tobit模型的設(shè)計效應(yīng) deff分別為 0.8827、0.9489 和 0.9662,我們可以看出截取數(shù)據(jù)比例越小,模型的估計效率越高,估計結(jié)果真實性和準(zhǔn)確性也越高。
從上述模擬結(jié)果可以看出,不管是左截尾還是右截尾數(shù)據(jù),考慮抽樣特征后模型回歸系數(shù)的標(biāo)準(zhǔn)誤明顯低于不考慮抽樣特征的情形。因此,對于大規(guī)模的抽樣調(diào)查,如果抽樣框清楚明確,在進行數(shù)據(jù)分析和處理時應(yīng)盡可能的將抽樣特征考慮在內(nèi),如忽略分層整群等抽樣特征而一味地用簡單隨機假設(shè)條件下的方法來計算其回歸系數(shù)的標(biāo)準(zhǔn)誤,可能在一定程度上損失設(shè)計原有的估計效率〔4,5〕,這樣有時就會使得有統(tǒng)計學(xué)意義的因素變得無統(tǒng)計學(xué)意義。
1.截取數(shù)據(jù)的tobit回歸模型在醫(yī)學(xué)研究中的應(yīng)用日漸廣泛,本次模擬研究中模型誤差項滿足正態(tài)分布,且方差齊,因此在不考慮抽樣特征的情況下采用最大似然估計來估計模型中的參數(shù),但是最大似然估計的使用是有嚴(yán)格條件限制的,需要已知模型中數(shù)據(jù)誤差項的分布形式。如果我們調(diào)查所得的數(shù)據(jù)誤差項的分布未知,使用最大似然估計很可能得出錯誤的結(jié)論,這種情況下應(yīng)考慮限制條件相對較松的半?yún)?shù)和非參數(shù)估計方法〔1〕。
2.從模擬試驗中可以看出,隨著截取數(shù)據(jù)比例的增大,模型回歸系數(shù)的均數(shù)越來越偏離真值,且標(biāo)準(zhǔn)誤逐漸增大,當(dāng)截取數(shù)據(jù)的比例固定時,考慮抽樣特征情況下模型回歸系數(shù)的標(biāo)準(zhǔn)誤要低于不考慮抽樣特征的情形。因此在應(yīng)用截取回歸模型處理問題時,首先需注意截取數(shù)據(jù)在整體數(shù)據(jù)中所占的的比例,如果截取數(shù)據(jù)的比例太大,直接使用該模型可能會得出有偏差的結(jié)論。其次,如果數(shù)據(jù)的抽樣框清楚明確,在數(shù)據(jù)分析和處理時應(yīng)充分利用數(shù)據(jù)的抽樣特征,這樣得出的結(jié)果更加真實可靠。
3.本次數(shù)據(jù)模擬時是將兩層的數(shù)據(jù)完全隨機地分到各個群中,群內(nèi)相關(guān)系數(shù)(intra-class correlation coefficient)接近于0,此時可以將群效應(yīng)忽略,僅考慮分層的影響,因此考慮抽樣特征后,其回歸系數(shù)的標(biāo)準(zhǔn)誤要低于完全隨機的情形,但是在實際應(yīng)用過程中,我們遇到的數(shù)據(jù)中群內(nèi)相關(guān)系數(shù)往往是不可能忽略的,有時甚至很大,這樣會明顯降低估計效率,很多情況下會使設(shè)計效應(yīng)遠(yuǎn)遠(yuǎn)大于1。這種情況下,筆者認(rèn)為可結(jié)合非獨立數(shù)據(jù)的建模方法來解決,如GEE等混合效應(yīng)模型。
4.tobit模型可以用于各種截取數(shù)據(jù)的處理和分析。通常使用的tobit模型中假定誤差項是服從正態(tài)分布的,但它還可以是指數(shù)分布、威布爾分布、對數(shù)正態(tài)分布等〔7〕。事實上,在醫(yī)學(xué)領(lǐng)域中,對于常見的右截取生存分析數(shù)據(jù),我們只要指定tobit模型中的誤差項滿足指數(shù)分布或威布爾分布,就可以用來處理右截取生存分析資料,這樣也使tobit回歸模型在醫(yī)學(xué)中的應(yīng)用得到了延伸。
5.本次研究復(fù)雜截取數(shù)據(jù)相關(guān)參數(shù)的方差估計采用的是泰勒級數(shù)近似法,對于大規(guī)模復(fù)雜抽樣調(diào)查來說,泰勒級數(shù)線性法一般能給出真實有效的近似方差估計。且只要偏導(dǎo)數(shù)存在,線性法總能給出統(tǒng)計量的方差估計量,但并非所有的統(tǒng)計量均能表示為平滑的線性函數(shù)。如果出現(xiàn)這種情況,可以考慮使用其他的數(shù)據(jù)處理技術(shù)如:平衡半樣本法,刀切法等技術(shù)來處理〔4,6〕。刀切法和平衡半樣本法都屬于樣本再利用法,可以重復(fù)利用一個樣本的信息,由于這些方法不依賴于估計量的形式,可以用于估計任何非線性估計量的方差,主要適用于總體中有多個層,每個層中抽取兩個群的情況,也可以用于更復(fù)雜的抽樣設(shè)計的估計量的方差估計〔8,9〕。
1.薛小平,史東平,王彤.受限因變量模型及其半?yún)?shù)估計.中國衛(wèi)生統(tǒng)計,2007,24(2):211-213.
2.Rao JNK,Wu CFJ.Resampling inference with complex survey data.Journal of the American Statistical Association,1988,83,401,231-241.
3.Lee ES,F(xiàn)orthofer RN.Analyzing Complex Survey Dat,Sage Publications Inc,2005.
4.馮士雍,倪加勛,鄒國華.抽樣調(diào)查理論與方法.北京:中國統(tǒng)計出版社,1998.
5.Wolter KM著,王吉利,李毅主譯.方差估計引論.北京:中國統(tǒng)計出版社,1998.
6.Risto Lehtonen,Erkki Pahkinen.Practical methods for design and analysis of complex surveys.John Wiley$Sons Ltd,The Atrium,Southern Gate,Chichester,West Sussex PO198SQ,England,2004.
7.SASInstitute Inc.SAS/STAT0 9.1 User’s Guide.Cary,NC:SASInstltute Inc,2004.
8.Thomas Lumley.Analysis of complex survey samples.Department of Biostatistics in Univers-ity of Washington,2004.
9.KF Rust,Jnk Rao.Variance estimation for complex surveys using replication techniques,Statistical Methods in Medical Research,1996,5(3):283-310.