寇桂晏,陳希鎮(zhèn)
(溫州大學數(shù)學與信息科學學院,浙江溫州 325035)
最小一乘估計性質的討論
寇桂晏,陳希鎮(zhèn)?
(溫州大學數(shù)學與信息科學學院,浙江溫州 325035)
解決某些問題時,最小一乘準則在很大程度上優(yōu)于最小二乘準則.通過對最小一乘準則與最小二乘準則的比較分析,給出了最小一乘估計的一些優(yōu)良性質,如無偏性、漸近正態(tài)性、有效性等,并做了相應的理論證明.
最小一乘法;無偏性;漸近正態(tài)性;有效性
在實際問題的分析中,常常需要研究某一現(xiàn)象與影響它的某一最主要因素的關系.針對類似問題,我們常常會建立相應的數(shù)學模型,然后對模型中的參數(shù)進行估計.普通最小二乘方法(OLS)是常用的參數(shù)估計方法,由于它在正態(tài)分布模型中表現(xiàn)出很好的性質,故隨著正態(tài)模型的廣泛應用而發(fā)展得比較成熟和完善.但是,當測量數(shù)據中存在噪聲時,特別地,當所作的擬合有較大干擾的尖峰時,應用最小二乘法得到的參數(shù)精度不高,因為當尖峰突出時,其誤差平方值相對更大,為了降低平方和,需要將就這些奇異點,因而殘差本身大的數(shù)據對參數(shù)的影響就更大了,從而使參數(shù)估計的精度大大降低.最小一乘法受異常值的影響相對于最小二乘法要小,具有良好的穩(wěn)健性[1-3].但最小一乘準則有一個主要不足 —— 準則函數(shù)不可微,不能很好地利用已有的非線性規(guī)劃方法來快速搜索其最優(yōu)解,所以很長一段時間,最小一乘法處于停滯狀態(tài).現(xiàn)在,隨著計算機科學的發(fā)展,有關尋找它最優(yōu)解的算法也越來越易于實現(xiàn),且計算速度快,精度高[4],因此,最小一乘法在理論和應用中都越來越受重視.
實際上,從統(tǒng)計學的發(fā)展史來看,拉普拉斯提出最小一乘法比高斯提出最小二乘法要早,1961年,Walter D.Fisher在文獻[5]中就給出了線性模型中的最小一乘曲線擬合;此后,陳希孺在文獻[1]和文獻[2]中分別討論了在一維和多維情況下,最小一乘估計的本質,即其最優(yōu)解為中位數(shù).人們通常假定回歸模型中的隨機誤差服從正態(tài)分布,在這種假設下,最小二乘估計有一些好的性質,但某些數(shù)量經濟模型涉及的隨機誤差不具有正態(tài)性,而是服從某種厚尾分布,且方差可能是無限的,在這種情況下,最小一乘估計的統(tǒng)計性能優(yōu)于最小二乘估計[1-2],最小一乘準則擬合圖形更接近于人的直覺.本文將給出最小一乘估計的一些優(yōu)良性質,并對相應的理論給出證明.
假設給定n 個樣本點(x1,y1),(x2,y2),…,(xn,yn),其中yi∈R1,xi∈Rm,i=1,2,…,n,現(xiàn)將由這些數(shù)據擬合一個超平面方程y=xβ′,并使參數(shù)β滿足偏差絕對值之和最小,其中β=(β0,β1,β2,…,βm)∈Rm+1為待估計的參數(shù),上標一撇表示向量的轉置.
由于最小一乘法的以上幾種優(yōu)點,且基于現(xiàn)代計算機編程能力的快速發(fā)展,對最小一乘的最優(yōu)解也更容易實現(xiàn)了,所以現(xiàn)在最小一乘法應用相當廣泛.為了便于以后最小一乘的應用,下面給出并證明最小一乘所具有的良好的數(shù)學性質:無偏性、漸近正態(tài)性、有效性等.
2.1 最小一乘估計的定理
定理1 設Y服從某連續(xù)型分布,并記g(y)為其密度函數(shù),則使達到最小的解是Y的中位數(shù)p.
證明:由于
為使f(m)達到最小,則應滿足一階導數(shù)條件f′(m)=0,因此對上式求導得:
滿足上述方程的m 即為Y的中位數(shù)p.驗證二階導數(shù)條件:
定理2 設Y具有某離散型分布,則使達到最小值的是中位數(shù)ymed.
證明:對Y進行排序得y1≤y2≤…≤yn有序數(shù)列.不妨設m=yk使得達到最小值.令J(k)=由于yk-yk+1≤0,當時,J(k )-J(k +1)≥0,當 時,J(k )-J(k +1)≤0,故只有在時取得最小值,即為樣本中位數(shù)時,
達到最小.定理得證.
2.2 參數(shù)及其估計
一般地,任何定義在Θ上的實值函數(shù)都可以稱為參數(shù),但參數(shù)的定義不止參數(shù)統(tǒng)計結構中有,在非參數(shù)、半參數(shù)統(tǒng)計結構中也同樣有.
定義在P={Pθ:θ∈Θ}上的一個實值泛函g(P)稱為參數(shù),而(Y,B,P)上的用來估計g(P)的實值統(tǒng)計量稱為g(P)的點估計量,簡稱估計.
由上述定義看出,估計的概念應用相當廣泛,針對相應的模型都可以給出估計,如果不對估計的好壞加以明確,參數(shù)的估計就失去了意義.下面將討論估計的好壞標準.為了尋找參數(shù)的一個好的估計,首先對估計提出一些合理性要求,把不合理的估計排除在外,然后在滿足這種合理性要求的估計類中找到好的估計.最常用的一種合理性要求便是無偏性.
2.2.1 無偏性
定義1 設(Y,B,P)為可控參數(shù)統(tǒng)計結構,其中,P={Pθ:θ∈Θ},g(θ)是未知參數(shù),Y= (Y1,…,Yn)是來自該統(tǒng)計結構的一個樣本,若用?(Y)估計g(θ),且Eθ(?(Y))=g(θ),?θ∈Θ,則稱?(Y)為g(θ)的無偏估計.
通過下面的例子,給出最小一乘估計的無偏性.
例1 若總體Y~N(μ,σ2),Y1,Y2,…,Yn為Y的一個樣本,證明為σ的無偏估計.
證明:因為
并且由總體Y的分布可得:
此性質通過樣本平均絕對偏差引進了正態(tài)分布標準差σ的一個無偏估計,即最小一乘估計具有無偏性.無偏性體現(xiàn)了一種頻率思想,只有在大量重復使用時,無偏性才有意義.
下面將證明最小一乘估計在大樣本場合所具有的漸進性質.
2.2.2 漸近正態(tài)性
下面通過例2給出有關最小一乘估計的漸進正態(tài)性.
例2 i)若總體Y的密度函數(shù)為f(y),其中位數(shù)為p,且f(p)≠0,而Y1,Y2,…,Yn為它的一個樣本,其樣本中位數(shù)為Ymed,則Xn=n(Ymed-p)的極限分布為N(0,1/[4(f2(p )]);
ii)若總體Y~N(μ,σ2),而Y1,Y2,…,Yn為它的樣本,Ymed為其中位數(shù),則Ymed的分布漸近于N(μ,πσ2/2n).
證明:i)記g(ymed)為Ymed的密度函數(shù),設n為奇數(shù),由次序統(tǒng)計量的密度函數(shù)公式可得:
設Xn的密度函數(shù)為hn(x),則有:
一方面,當n→∞時,有:
所以,當n→∞時,有hn(x)→,即X=n(Y-p)的極限分布為n med
次序統(tǒng)計量Y(n/2+1)的密度函數(shù)為:
由于密度函數(shù)是連續(xù)的,所以有:
Xn的密度函數(shù)hn(x)同樣經過重要極限和Stirling公式可以得出:當n→∞時,有hn(x)→即Xn=n(Ymed-p)的極限分布為
ii)在正態(tài)N(μ,σ2)場合,,p=μ,f(p)=f(μ)=1/(2πσ)≠0,這時Ymed的分布漸近于即導出了一般場合及正態(tài)場合樣本中位數(shù)的漸近分布.
2.2.3 有效性
有些正則條件下的分布族中參數(shù)的無偏估計的C-R下界可以達到,有些則不能.我們將達到C-R下界的無偏估計稱為有效無偏估計,將無偏估計的方差與其C-R下界之比的倒數(shù)稱為該估計的效[6].
定義3 設{Pθ(Y ):θ∈Θ}是Cramer-Rao正則族,g(θ)是可估參數(shù),?(Y)是g(θ)的一個無偏估計,則稱為估計?(Y)的效,如果效等于1,則稱?(Y)為g(θ)的有效無偏估計.
證明:由于lnf(y,μ)=-lnπ-ln[1+(y -μ)2],,可求得Fisher信息:I(μ)=因此,參數(shù)μ的估計量方差的C-R下界為.又由
2.2.2 知,柯西分布總體的一個容量為n 的樣本中位數(shù)Y漸近服從N(μ,π2/4n),因此這個估m(xù)ed計量的漸近有效率為:
所以,對厚尾分布之一的柯西分布,在估計參數(shù)μ時,樣本中位數(shù)Ymed比樣本均值優(yōu)勝得多.
最小二乘法的優(yōu)點在于其有良好的數(shù)學性質,它的理論基礎是希爾伯特空間的投影理論,基于該空間理論的完備性,對于最小二乘數(shù)值求解比較容易,因此,該方法已廣泛應用于各種領域.但是,最小二乘估計容易受異常值的影響.本文證明了最小一乘估計的一些優(yōu)良性質,因為最小一乘準則所考慮的是殘差的一次方并非平方,因此受異常值的影響小得多,故它具有比最小二乘準則更好的穩(wěn)健性,但在樣本容量n較大時,計算比較復雜[3].現(xiàn)在,已經可以通過Lingo10、Matlab等計算機軟件實現(xiàn)最小一乘最優(yōu)解的快速計算[4].我們相信隨著相關算法的計算機實現(xiàn),最小一乘法會得到更為廣泛的應用.
[1] 陳希孺.最小一乘線性回歸:上[J].數(shù)理統(tǒng)計與管理, 1989, (5):48-55.
[2] 陳希孺.最小一乘線性回歸:下[J].數(shù)理統(tǒng)計與管理, 1989, (6):48-56.
[3] 李仲來.最小一乘法介紹[J].數(shù)學通報, 1992, (2):42-45.
[4] 呂書龍, 劉文麗.最小一乘估計快速算法[J].應用概率統(tǒng)計, 2008, (12):621-630.
[5] Fisher W D.A note on curve fitting with minmum deviations by linear programming [J].Jiurnal of American Statistical Association, 1961, (56):359-361.
[6] 茆詩松, 王靜龍, 濮曉龍.高等數(shù)理統(tǒng)計[M].第二版.北京:高等教育出版社, 2006:98-107.
A Discussion on the Properties of the Least Absolute Deviation Estimator
KOU Guiyan, CHEN Xizhen
(School of Mathematics and Information Science, Wenzhou University, Wenzhou, China 325035)
In addressing certain issues, the criterion of the Least Absolute Deviation is better than that of the Least Square Method to a large extent.After the contrastive analysis between the criterion of the Least Absolute Deviation and that of the Least Square Method, some of the good properties of the Least Absolute Deviation are given, such as unbiased property, asymptotic normality properties, effectiveness, and so on, which are then proved theoretically.
Least Absolute Deviation;Unbiased Property;Asymptotic Normality Properties;Effectiveness
O212
A
1674-3563(2013)04-0005-07
10.3875/j.issn.1674-3563.2013.04.002 本文的PDF文件可以從xuebao.wzu.edu.cn獲得
(編輯:王一芳)
2013-01-30
寇桂晏(1989- ),男,江西上饒人,碩士研究生,研究方向:應用統(tǒng)計.? 通訊作者,kgy0207@163.com