亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于線性回歸變量誤差模型的工具變量法與校正似然法的比較

2017-06-28 14:51:15關(guān)靜陳永沛

統(tǒng)計(jì)與決策 2017年10期

關(guān)鍵詞：懸浮固體測(cè)量誤差參數(shù)估計(jì)

關(guān)靜，陳永沛

（天津大學(xué)數(shù)學(xué)學(xué)院，天津300350）

基于線性回歸變量誤差模型的工具變量法與校正似然法的比較

關(guān)靜，陳永沛

（天津大學(xué)數(shù)學(xué)學(xué)院，天津300350）

文章介紹了線性回歸變量誤差模型參數(shù)估計(jì)的兩種方法——工具變量法和校正似然法，然后通過(guò)數(shù)值模擬的方式對(duì)這兩種方法的估計(jì)結(jié)果進(jìn)行比較，說(shuō)明這兩種方法在不同假定下估計(jì)的優(yōu)劣，最后通過(guò)實(shí)例計(jì)算來(lái)進(jìn)行驗(yàn)證，并得到一些有用的結(jié)論。

線性回歸；變量誤差模型；工具變量法；校正似然法

0 引言

變量誤差模型（Errors-in-variables model）起源于19世紀(jì)，通常認(rèn)為，Adcock R J是最早研究自變量帶測(cè)量誤差的人。1902年，Karl Pearson提出測(cè)量誤差會(huì)影響到模型參數(shù)的估計(jì)；1987年，F(xiàn)uller[1]在其著作中詳細(xì)論述了帶測(cè)量誤差線性回歸模型的統(tǒng)計(jì)分析方法。Wang Liqun和Cheng Hsiao將工具變量法應(yīng)用到帶變量誤差的刪失回歸模型中[2]。Abarin和Wang Liqun又將工具變量法應(yīng)用到帶測(cè)量誤差的廣義線性模型中[3]。Nakamura將校正似然函數(shù)法應(yīng)用到正態(tài)、poisson、inverse Gaussian等測(cè)量誤差回歸模型中[5]。工具變量法和校正似然法正是由于考慮測(cè)量誤差的存在，且參數(shù)估計(jì)的結(jié)果都具有無(wú)偏性，因此相對(duì)于傳統(tǒng)的估計(jì)方法能夠更真實(shí)、準(zhǔn)確的反映變量之間的關(guān)系。

本文重點(diǎn)介紹工具變量法與校正似然法，通過(guò)數(shù)值模擬對(duì)兩種方法進(jìn)行比較，說(shuō)明兩種方法在處理不同分布情況下的優(yōu)劣。并應(yīng)用這兩種方法研究海水表面透明度與海水表面懸浮固體的關(guān)系。

1 變量誤差模型

考慮簡(jiǎn)單的一元線性回歸變量誤差模型為：

其中y為因變量或響應(yīng)變量，w為指示變量或可觀測(cè)變量，x為潛變量或不可測(cè)變量，u為變量誤差，ε～N(0，σεε)，u～N(0，σuu)，x與ε，u兩兩不相關(guān)。

1.1 工具變量法

對(duì)于上述模型，如果用普通的矩估計(jì)方法，存在辨識(shí)問(wèn)題，即σuu在實(shí)際中未知[5]。因此下面介紹工具變量法，即引入工具變量進(jìn)行參數(shù)估計(jì)。

在統(tǒng)計(jì)學(xué)中，工具變量也稱為輔助變量，簡(jiǎn)單說(shuō)來(lái)它是與真值x相關(guān)但與變量誤差無(wú)關(guān)的變量。

假設(shè)為z工具變量，并且與x有以下線性關(guān)系：

其中β1≠0，σzδ=0，δ～N(0，σδδ)。

在得到工具變量后，對(duì)模型參數(shù)進(jìn)行估計(jì)。首先，將式(3)帶入式(2)得到：

由于u+δ與z不相關(guān)，由最小二乘法可得β0，β1的無(wú)偏估計(jì)：

其次，將式(3)帶入式(1)得到：

其中 γ0=α0+α1β0,γ1=α1β1，τ=α1δ+ε。由于 τ與z不相關(guān)，由最小二乘法可得 γ0,γ1的無(wú)偏估計(jì)

故由上面兩步可得到 α1的無(wú)偏估計(jì)：

同時(shí)，可以得到參數(shù)估計(jì)量的漸近性質(zhì)[1]：

其中v=ε-α1u。

1.2 校正似然法

為方便起見(jiàn)，將式(1)和式(2)表示成如下形式：

其中α=(α0，α1)T，X=(1，x)，W=(1，w)，U=(0，u)～N

設(shè)l(α，X，y)，U(α，X，y)，I+(α，X，y)，I+(α，X，y)分別為模型(8)的對(duì)數(shù)似然函數(shù)、得分函數(shù)、觀察信息及Fisher信息，記E+為y關(guān)于的數(shù)學(xué)期望，不考慮變量誤差時(shí)有：

當(dāng)存在變量誤差時(shí)，用W代替X，此時(shí)式(9)和式(10)并不恒成立，因此用校正似然法來(lái)估計(jì)參數(shù)[4]。設(shè)校正對(duì)數(shù)似然函數(shù)l*(α，W，y)滿足：

其中E*表示y，X給定時(shí)關(guān)于W的數(shù)學(xué)期望。記:

分別表示校正得分函數(shù)、觀察信息，如果E*與?α可交換，則有：

滿足U*(α∧，W，y)=0的參數(shù)α的估計(jì)α∧稱為校正似然估計(jì)。記E=E+E*，則有：

E[U*(α，W，y)]=E+E*[U*(α，W，y)]=E+[U(α，X，y)]=0(11)式(11)說(shuō)明了校正得分函數(shù)是無(wú)偏的。

設(shè)(wi，yi)分別為(w，y)的樣本觀測(cè)值，i=1，2，…，n。將上述結(jié)果應(yīng)用到模型(8)，則有：

令式(12)等于0，得到參數(shù)α的估計(jì)：

對(duì)于模型(8)，可以證明參數(shù)估計(jì)具有漸近正態(tài)性和相合性[4]。進(jìn)一步有，

而在實(shí)際問(wèn)題中，σuu通常并不知道，可以通過(guò)對(duì)w進(jìn)行重復(fù)測(cè)量[6]，估計(jì)σuu。記得到σuu的一致無(wú)偏估計(jì)uu[7]，即：

2 數(shù)值模擬

應(yīng)用R軟件通過(guò)數(shù)值模擬來(lái)比較工具變量法和校正似然法估計(jì)結(jié)果的優(yōu)劣。

首先，取α0=3，α1=3，β0=-1，β1=1.3，且假設(shè)工具變量z～N(1，2)。變量誤差u分別為正態(tài)分布N(0，0.4)，N(0，0.8)，N(0，1.2)；t分布t(5)，t(15)，t(25)；以及均勻分布U(-1，1)，U(-2，2)，U(-3，3)。在模擬中，取迭代次數(shù)為N=1000，樣本容量n為100，500，1000。

2.1 模擬1

首先，通過(guò)模擬變量誤差u取3種不同的分布，來(lái)比較工具變量法以及校正似然法估計(jì)結(jié)果的優(yōu)劣，并且比較3種方法隨著測(cè)量誤差方差σuu的增大估計(jì)結(jié)果的變化。選取樣本大小，得到表1（見(jiàn)下頁(yè)）。其中，IVE表示工具變量法，CLE表示校正似然法，NAE表示普通極大似然法（不考慮變量誤差），Bias表示估計(jì)值與真值之間的偏差，RMSE表示均方根誤差。并且根據(jù)表1繪制了工具變量法與校正似然法得到的參數(shù)估計(jì)值的偏差Bias與誤差方差σuu的關(guān)系圖（圖1），其中橫坐標(biāo)S1,S2,S3分別表示3種不同分布的方差，縱坐標(biāo)為估計(jì)值的偏差。

表1 n=100時(shí)，3種不同分布情況下的參數(shù)估計(jì)

通過(guò)表1可以看出，對(duì)于3種不同類型的分布，忽略變量誤差(NAE)時(shí)得到的估計(jì)的偏差明顯大于工具變量法(IVE)和校正似然法(CLE)得到的結(jié)果，并且隨著方差的增大，估計(jì)值的偏差明顯增大，最高可達(dá)到37%。而其他兩種方法得到的估計(jì)量的偏差隨著方差的增大并沒(méi)有顯著變化，并且偏差最大為2%。與此同時(shí)忽略變量誤差(NAE)的RMSE也較其他兩種方法的大。結(jié)果表明，測(cè)量誤差對(duì)估計(jì)結(jié)果的影響很大，并且不能忽略它，要通過(guò)其他方法減小測(cè)量誤差對(duì)參數(shù)估計(jì)的影響，比如工具變量法與校正似然法。

圖1 Bias與σuu的關(guān)系圖

下面對(duì)這兩種方法進(jìn)行比較。從表1與圖1可以看出，在相同條件下，校正似然法(CLE)得到的偏差都要比工具變量法(IVE)的大，并且隨著方差的增大，校正似然法(CLE)偏差增大的更快。例如對(duì)正態(tài)分布N(0，0.4)，IVE的偏差為0.0009，而CLE的偏差為0.0038；且當(dāng)方差從0.4增大到1.2時(shí)，IVE的偏差增大0.4%，CLE則增大0.8%。對(duì)于分布t(25)，IVE的偏差為-0.0059，而CLE的偏差為0.0149；且當(dāng)自由度從25減小到5時(shí)(即方差從1.08增大到1.67)，IVE的偏差增大0.5%，CLE則增大1.2%。對(duì)于均勻分布U(-1，1)，IVE的偏差為0.0040，而CLE的偏差為0.0083；當(dāng)方差從0.33增大到3時(shí)，IVE的偏差增大1%，CLE則增大2.2%，偏差會(huì)達(dá)到0.7%。同時(shí)可以看出相同條件下IVE比CLE的RMSE相對(duì)較小。

2.2 模擬2

選取變量誤差u～N(0，1)，對(duì)樣本量n=100，500，1000分別進(jìn)行模擬，結(jié)果如表2。

表2 u～N(0，1)時(shí)，不同樣本大小情況下的參數(shù)估計(jì)

從表2可以看出，隨著樣本量的增大，3種方法估計(jì)的偏差都在減小，但依然可以看出NAE的估計(jì)結(jié)果并不好，誤差偏差仍然在15%左右。相同條件下IVE的估計(jì)依舊是最好的,偏差最大為0.18%，CLE的偏差最大為0.5%。同時(shí)隨著樣本量的增大，CLE的估計(jì)與IVE的估計(jì)越來(lái)越接近，也就說(shuō)明在大樣本情況下，CLE的估計(jì)效果與IVE的一樣好。因此，在大樣本情況下，這兩種方法都是不錯(cuò)的選擇。但在實(shí)際問(wèn)題中，由于Σuu是需要估計(jì)的，因此CLE的偏差會(huì)相對(duì)更大一些。

3 實(shí)例分析

為研究海水表面透明度與海水表面懸浮固體之間的關(guān)系，選取香港維多利亞港VM1監(jiān)測(cè)站觀測(cè)的26組數(shù)據(jù)進(jìn)行分析(數(shù)據(jù)來(lái)自香港環(huán)境保護(hù)署網(wǎng)站)。由于監(jiān)測(cè)站觀測(cè)的只是某一處懸浮固體的值，并非整個(gè)海水表面，因此存在測(cè)量誤差。故采取變量誤差模型，此處y為海水表面透明度，w為海水表面懸浮固體，z為海水中部懸浮固體，w1為w的重復(fù)觀察值。

首先，用工具變量法進(jìn)行參數(shù)估計(jì)。分兩步完成，第一步選取海水中部懸浮固體量作為工具變量z，由圖2可以看到海水中部懸浮固體量z與海水表面懸浮固體量w具有一定的線性相關(guān)性。由式(5)，可得到。第二步，由式(7)，得到，此外還可以得到y(tǒng)的RMSE為0.41。

圖2 z和w的散點(diǎn)圖及回歸直線

圖3為y和w的散點(diǎn)圖以及兩種不同方法得到的回歸直線?？梢钥闯鰯?shù)據(jù)均勻的落在IVE所得到的擬合直線左右，且由y的RMSE可以看到工具變量法(IVE)得到的RMSE明顯小于校正似然法(CLE)得到的結(jié)果。由估計(jì)的結(jié)果可以看到隨著懸浮固體數(shù)量的增多，海水的透明度在逐漸降低。

圖3 y和w的散點(diǎn)圖及回歸直線

4 結(jié)論

本文主要討論了帶變量誤差的線性回歸模型的兩種參數(shù)估計(jì)方法，即工具變量法和校正似然法。這兩種方法得到的參數(shù)估計(jì)都具有無(wú)偏性和一致性。通過(guò)數(shù)值模擬的方式對(duì)這兩種方法進(jìn)行比較。從模擬結(jié)果看出，首先工具變量法(IVE)和校正似然法(CLE)得到的參數(shù)估計(jì)值都比普通方法(NAE)要好，并且IVE得到的參數(shù)估計(jì)較CLE有更小的偏差和RMSE；其次隨著測(cè)量誤差的方差增大，IVE和CLE得到的參數(shù)估計(jì)的偏差也增大，但CLE的偏差增大的更快；最后，針對(duì)同一分布，隨著樣本量的增大，IVE和CLE得到估計(jì)的偏差都越來(lái)越小，并且在大樣本情況下，這兩種方法得到的估計(jì)值都很好。本文最后通過(guò)研究香港維多利亞港灣海水表面透明度與海水表面懸浮固體之間的關(guān)系，進(jìn)一步驗(yàn)證了在樣本量較小情況下，IVE的估計(jì)比CLE的估計(jì)更好。

[1]Wayne A.Fuller.Measurement Error Models[M].John Wiley&Sons. Inc,1987.

[2]Wang LiQun,Cheng Hsiao.Two-stage Estimation of Limited Depen?dent Variable Models With Errors-In-Variables[J].Econometrics Journal,2007,（10）.

[3]Abarin T,Wang LiQun.Instrumental Variable Approach to Covariate Measurement Error in Generalized Linear Models[J].Annals of the In?stitute of Statistical Mathematics,2012,（64）.

[4]Nakamura T.Corrected Score Function for Errors-In-Variables Mod?els:Methodology and Application to Generalized Linear Models[J]. Biometrika,1990,（77）.

[5]張衛(wèi)東.線性模型中的測(cè)量誤差問(wèn)題與工具變量法[J].統(tǒng)計(jì)與決策,2008,（8）.

[6]Liang H,H?rdle W,Carrol R J.Estimation in a Semiparametric Par?tially Linear Errors-In-Variables Models[J].Ann Statist,1999,（27）. [7]Yang Y P,Li G R,Tong T J.Corrected Empirical Likelihood for a Class of Generalized Linear Measurement Error Models[J].Sci China Math,2015,（58）.

（責(zé)任編輯/易永生）

Comparison of Instrumental Variable Estimation and Corrected Likelihood Method Based on Linear regression measurement error models

Guan Jing,Chen Yongpei
(School of Mathematics,Tianjin University,Tianjin 300350,China)

This paper introduces two methods of parameter estimation of linear regression measurement error models—Instrumental Variable Estimation and Corrected Likelihood Method.And then numerical simulation is given to compare the estimation results of the two methods.Advantages and disadvantages of these two methods under different assumptions are also described in the paper.Finally some useful conclusions are obtained through the case calculation and verification.

linear regression;variable error models;instrumental variable estimation;correction likelihood method

O212

1002-6487（2017）10-0081-04

關(guān)靜（1978—），女，天津人，博士，副教授，研究方向：測(cè)量誤差模型。

陳永沛（1992—），女，山西朔州人，碩士研究生，研究方向：測(cè)量誤差模型。