曹春正,徐 越,侯明輝
(南京信息工程大學 數(shù)學與統(tǒng)計學院,南京210044)
在經(jīng)典回歸模型中,協(xié)變量假定為確定性的,即可以準確獲得。實際上,這點很難保證。協(xié)變量值的觀測值可能與真實值之間存在一定的誤差,稱之為測量誤差。如果忽略掉這一誤差建模,推斷或分析結(jié)果就會產(chǎn)生偏差。為處理此類數(shù)據(jù),測量誤差模型得到了廣泛的研究與應用。[1~3]然而,大多數(shù)學者致力于研究同方差的測量誤差模型,對于在化學和醫(yī)學上常見的異方差情況研究較少。
一般線性測量誤差模型可表示如下:
一般的測量誤差模型理論大都基于測量誤差同方差假設。即便考慮了異方差情況[4,5],也并沒有針對重復測量數(shù)據(jù)作研究?;诖?,本文研究了異方差重復測量誤差模型(H-RME)的參數(shù)估計問題,并對模型的有效性進行驗證。
假設在位置t,對于真值ξt和ηt,分別可獲得 p和q個重復觀測值 xti,i=1,2,…,p ,ytj,j=1,2,…,q 。于是異方差重復測量誤差模型可表示為
其中,ξt,δti,εtj兩兩相互獨立。
一方面均值參數(shù)與尺度參數(shù)不正交,使得在迭代時算法很可能不收斂或異常;另一方面由于異方差的存在,使得估計變難。所以直接基于觀測數(shù)據(jù)對對數(shù)似然函數(shù)進行優(yōu)化很難有效獲得模型的參數(shù)估計。Lin等[6]在正態(tài)分布假定下,建立了無方程誤差的RME模型EM算法估計迭代式,Lin和Cao[7]將其推廣到更一般的橢球分布情形。因此,我們利用EM算法[8,9]對模型(2)進行參數(shù)估計。
上述似然表達式中均忽略了常數(shù)項,下同。協(xié)方差矩陣Σ1t的逆可以根據(jù)矩陣求逆的理論[10]由下述閉合式得到:
利用Monte Carlo方法說明該模型的有效性,并對異方差重復測量誤差模型(“H-RME”),一般重復測量誤差模型(“RME”)的極大似然估計結(jié)果,不考慮測量誤差的基于均值的簡單最小二乘估計(記為“OLS”)和基于均值的回歸校正估計(記為“RC”)進行比較評判。
我們首先根據(jù)上述模型產(chǎn)生2000組樣本容量為30的隨機樣本。然后,基于此樣本數(shù)據(jù),計算各種模型下參數(shù)的估計值和標準差。表1、2和3分別給出了不同異方差強度比下興趣參數(shù) β0和 β1的模擬樣本偏差(記為“BIAS”)、模擬樣本標準差(記為“MCSE”)、平均漸近標準差(利用信息陣計算,記為“AESE”)以及模擬均方誤(記為“MSE”)。分析可得,H-RME估計在各種異方差強度下均方誤都最小,其次為RME估計,OLS估計最差。隨著異方差強度的增加,H-RME估計的偏差、標準差有略微的增大,但相比其他幾種估計的優(yōu)勢卻越來越明顯。這說明,當存在顯著的異方差問題時,不考慮異方差性將使統(tǒng)計推斷出現(xiàn)嚴重偏差。另外,從樣本標準差和漸近標準差的接近程度來看,利用估計漸近標準差推算估計精度是合適的。
以上模擬結(jié)果充分表明了本文估計方法的有效性和存在嚴重異方差性時考慮異方差的重要性。
表1 異方差強度比h=1/2時各種估計方法比較
表2 異方差強度比h=2時各種估計方法比較
表3 異方差強度比h=10時各種估計方法比較
我們將基于CSFII(Continuing Survey of Food Intakes by Individuals)數(shù)據(jù)[11]說明該模型應用。CSFII數(shù)據(jù)包含了1722名女性關于飲食習慣的24小時回訪記錄。在該數(shù)據(jù)中,我們將樣本分為“飲酒”和“不飲酒”兩組。我們視卡路里攝入量/5000為ξ,飽和脂肪酸攝入量/100為η,根據(jù)24小時回訪記錄計算出的對應營養(yǎng)物質(zhì)量為ξ和η的觀測值x和y。
表4 CSFII數(shù)據(jù)估計方法比較
圖1給出了基于CSFII數(shù)據(jù),由4種估計方法得到的兩變量間的線性擬合圖。通過散點的分布可以看出平均卡路里(xˉ)和平均飽和脂肪含量()之間存在極強的線性關系。四種估計下,簡單最小二乘法(OLS)估計的斜率最小,這是由于OLS估計未考慮測量誤差,導致估計斜率出現(xiàn)了衰減現(xiàn)象。相比基于平均值的RC估計,H-RME估計和RME估計斜率要小些,且兩者最為接近,這是因為CSFII數(shù)據(jù)中只有δt具有不同方差,并且盡管存在異方差性,但方差變化范圍相對較小。總之,對于CSFII數(shù)據(jù),就以上四種估計來說,基于RME和H-RME的估計要比RC估計和簡單OLS估計要可靠,而依據(jù)是否飲酒為分類標準的異方差測量誤差模型更加適合該數(shù)據(jù)。
圖1 平均卡路里和平均飽和脂肪量的線性趨勢圖
異方差現(xiàn)象廣泛存在于各種數(shù)據(jù)中,忽略它將會給統(tǒng)計推斷帶來不同程度的偏差。本文研究了重復測量數(shù)據(jù)的異方差測量誤差模型建模和估計問題,給出了極大似然估計的EM算法。正如CSFII數(shù)據(jù)一樣,實際數(shù)據(jù)中,異方差的產(chǎn)生來源可能有多種,如年齡、性別、種族等。后續(xù)研究內(nèi)容將包括含方程誤差的H-RME模型的參數(shù)估計和模擬研究等。
[1]Fuller W A.Measurement error models[M].New York:Wiley,1987.
[2]Cheng C L,Van Ness J W.Statistical regression with measurement error[M].London:Arnold,1999.
[3]Carroll R J,Ruppert D,Stefanski L A,et al Measurement Error in Nonlinear Models:a Modern Perspective(2nd edn)[M].Boca Raton:Chapman and Hall,2006.
[4]Cheng C L,Riu J.On Estimating Linear Relationships when Both Variables Are Subject to Heteroscedastic Measurement Errors[J].Technometrics,2006,48.
[5]Kulathinal S B,Kuulasmaa K,Gasbarra D.Estimation of an Errors-in-Variables Regression Model When the Variances of the Measurement Errors Vary Between the Observations[J].Statistics in Medicine,2002,21(8).
[6]Lin N,Bailey B A,He X M,et al.Adjustment of Measuring Devices with Linear Models[J].Technometrics,2004,46(2).
[7]Lin J G,Cao C Z.On Estimation of Measurement Error Models with Replication under Heavy-tailed Distributions[J].Computational Statistics,2013,28(2).
[8]Dempster A P,Laird N M,Rubin D B.Maximum Likelihood from Incomplete Data via the EM Algorithm(with discussion)[J].J.R.Statist.Soc.B,1977,39.
[9]McLachlan G L,Krishnan T.The EM Algorithm and Extensions[M].New York:Wiley,1997.
[10]Harville D A.Matrix Algebra from a Statistician's Perspective[M].New York:Springer-Verlag,1997.
[11]Thompson F E,Sowers M F,Frongillo E A,et al.Sources of Fiber and Fat in Diets of U.S.Women Aged 19-50:Implications for Nutrition Education and Policy[J].Amer.J.Pub.Health,1992,82.
[12]朱曉欣,孟香楠,曹春正.含方程誤差的重復測量誤差模型參數(shù)估計[J],應用數(shù)學,2013,26(3).