周生彬,張波
(1.中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院,北京100872;2.哈爾濱師范大學(xué)數(shù)學(xué)科學(xué)學(xué)院,哈爾濱150025)
乘積模型的最小二乘相對(duì)誤差估計(jì)
周生彬1,2,張波1
(1.中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院,北京100872;2.哈爾濱師范大學(xué)數(shù)學(xué)科學(xué)學(xué)院,哈爾濱150025)
文章提出了一種基于最小二乘準(zhǔn)則下的乘積模型的相對(duì)誤差估計(jì)方法。該方法的目標(biāo)函數(shù)是光滑的凸函數(shù),所得到的估計(jì)量具有強(qiáng)相合性和漸進(jìn)正態(tài)性,估計(jì)量的漸進(jìn)方差可以用插入法直接估計(jì)。模擬結(jié)果顯示所提方法與其他同類(lèi)方法比較具有一定的優(yōu)勢(shì)。
乘積回歸模型;相對(duì)誤差;最小絕對(duì)值相對(duì)誤差;隨機(jī)加權(quán)
在統(tǒng)計(jì)分析中,線性回歸模型是最流行最重要的模型之一。通過(guò)指數(shù)變換,線性模型可以寫(xiě)成乘積模型的形式:
其中yi是響應(yīng)變量,Xi是協(xié)變量,β是含有截距項(xiàng)的回歸系數(shù),εi是不可觀測(cè)的誤差項(xiàng)且與Xi獨(dú)立。模型(1)在經(jīng)濟(jì)理論和生存分析中有著廣泛的應(yīng)用。比如,生存分析中的加速失效模型,經(jīng)濟(jì)理論中的Cobb-Douglas類(lèi)型的乘積函數(shù),引力貿(mào)易流動(dòng)方程和乘積需求函數(shù)[1],這些模型的響應(yīng)變量都是正值且可以寫(xiě)成模型(1)的形式。在估計(jì)乘積模型時(shí),通常的做法是先做對(duì)數(shù)變換把乘積模型轉(zhuǎn)化成線性模型,然后對(duì)線性模型做參數(shù)估計(jì),最后把估計(jì)的參數(shù)做指數(shù)變換。但是,在實(shí)際中有時(shí)我們關(guān)心的是變量之間的乘積結(jié)構(gòu)而不是線性結(jié)構(gòu)。另外,當(dāng)我們感興趣的是E(Y|X)而不是參數(shù)β時(shí),上面這種做變換的方法就會(huì)使得結(jié)果不具有一致性。線性模型最常用的估計(jì)方法是最小二乘估計(jì)和最小絕對(duì)值估計(jì),這兩種方法都是基于絕對(duì)誤差。但是在實(shí)際中,我們可能更感興趣的是相對(duì)誤差而不是絕對(duì)誤差,因此,有必要建立一種基于相對(duì)誤差的統(tǒng)計(jì)方法。當(dāng)考慮相對(duì)誤差時(shí),響應(yīng)變量通常為正值,而乘積模型處理正是這種變量的模型。在國(guó)內(nèi),相對(duì)誤差的研究通常是應(yīng)用性質(zhì)的研究[2,3],國(guó)外對(duì)于相對(duì)誤差已有一些統(tǒng)計(jì)方法的研究[4-8],但是一直沒(méi)有證明相對(duì)誤差下估計(jì)量的統(tǒng)計(jì)性質(zhì)(如相合性和漸進(jìn)正態(tài)性)。Chen等[9]提出最小絕對(duì)值相對(duì)誤差(LARE)準(zhǔn)則:
并證明了該準(zhǔn)則下估計(jì)量的漸進(jìn)正態(tài)性。該準(zhǔn)則同時(shí)考慮兩種類(lèi)型的相對(duì)誤差:其中為yi估計(jì)值。最近,許多學(xué)者研究了基于LARE準(zhǔn)則下的相對(duì)誤差估計(jì)。Zhang等[10]通過(guò)局部光滑的方法把LARE準(zhǔn)則推廣到部分線性乘積模型并且對(duì)于線性部分提出了一種變量選擇的方法。Yang等[11]提出一種一般的相對(duì)誤差準(zhǔn)則(GREC)估計(jì)乘積模型的未知參數(shù),通過(guò)將相對(duì)誤差準(zhǔn)則變換為一般的絕對(duì)誤差準(zhǔn)則研究了估計(jì)量的漸進(jìn)性質(zhì)。Li等[12]提出一種經(jīng)驗(yàn)似然的方法從而避免了未知的密度估計(jì)。在一定的正則條件下,Chen等[1]證明了LARE的漸進(jìn)性質(zhì)。但是,該準(zhǔn)則得到的估計(jì)量的漸進(jìn)方差含有未知的誤差項(xiàng)的密度函數(shù)。另外,LARE準(zhǔn)則定義的函數(shù)不是光滑函數(shù)這使得求解計(jì)算非常費(fèi)時(shí)。因此,有必要建立一種準(zhǔn)則,該準(zhǔn)則不僅含有相對(duì)誤差項(xiàng)而且所定義的函數(shù)是光滑的凸函數(shù)。準(zhǔn)則函數(shù)的凸性保證了所得估計(jì)量的唯一性和一般的三明治類(lèi)型的插入估計(jì)量的相合性。本文基于LARE準(zhǔn)則進(jìn)一步提出最小二乘的相對(duì)誤差(LSRE)準(zhǔn)則,該準(zhǔn)則下目標(biāo)函數(shù)為光滑的凸函數(shù),估計(jì)量的漸進(jìn)方差可以用插入法直接估計(jì)。
在LARE準(zhǔn)則的基礎(chǔ)上,基于上述兩種類(lèi)型的相對(duì)誤差,本文提出一種最小二乘相對(duì)誤差準(zhǔn)則:
由式(4)可以看到LSRE準(zhǔn)則的一些優(yōu)點(diǎn)。首先,LSRE準(zhǔn)則得到的目標(biāo)函數(shù)是光滑的且有無(wú)窮階導(dǎo)數(shù)。其次,由于指數(shù)函數(shù)是嚴(yán)凸函數(shù),所以目標(biāo)函數(shù)也是嚴(yán)凸函數(shù)。于是,最小化目標(biāo)函數(shù)(4)等價(jià)于求其一階導(dǎo)數(shù)的根。所以,可以用局部二項(xiàng)式展開(kāi)直接得到估計(jì)量的漸進(jìn)性質(zhì)而且可以應(yīng)用M-估計(jì)的方法進(jìn)行統(tǒng)計(jì)推斷。記為β的估計(jì)量,即:
由式(4)的嚴(yán)凸性可知,如果式(4)存在最小值,則最小值一定是唯一的。若設(shè)計(jì)陣是非奇異的,那么存在且唯一。為了得到估計(jì)量的漸進(jìn)性質(zhì),假設(shè)如下條件成立:
條件1:E(XXT)是正定陣;
條件2:存在ψ>0使得E{(ε2+ε-2)exp(ψ‖X‖)}<∞;
條件3:存在ψ>0使得E{(ε2+ε-2)2exp(ψ‖X‖)}<∞;
條件4:誤差項(xiàng)滿足E(ε2)-E(ε-2)=0。
條件1保證了設(shè)計(jì)陣是非奇異的,該假設(shè)是回歸參數(shù)可識(shí)別的最小條件。條件2幾乎是目標(biāo)函數(shù)(4)在真實(shí)參數(shù)β0的某個(gè)鄰域內(nèi)有有限期望的最小條件,同時(shí)保證了式(4)的極限關(guān)于β是可微的且微分和期望是可交換的。條件3與假設(shè)2類(lèi)似,為了證明估計(jì)量的漸進(jìn)正態(tài)性。條件4等價(jià)于目標(biāo)函數(shù)(4)在β點(diǎn)導(dǎo)數(shù)的均值為0,這一假設(shè)也是估計(jì)量漸進(jìn)無(wú)偏的最小條件。嚴(yán)凸性和漸進(jìn)無(wú)偏性使得估計(jì)量一定是相合的。
n0的一個(gè)鄰域內(nèi)收斂到E{LARE(β)}且二者都是凸的。
n因此,由Rockafellar[13],收斂到β0,其中為 LAREn(β)的最小值,β0為E{LAREn(β)}的最小值。
證明:記Ln(β)=LAREn(β),由的定義有因?yàn)槭窍嗪系?由泰勒公式,所以,
估計(jì)量的漸進(jìn)方差可以用插入法直接估計(jì)。定義插入估計(jì)量為:
性質(zhì):設(shè)條件1成立,如果誤差項(xiàng)ε的密度函數(shù)有如下形式:
其中c是正則常數(shù),則估計(jì)量β?n是漸進(jìn)有效的,其中I(·)為示性函數(shù)。
證明:給定ε的密度函數(shù),則:
因此,Y的似然函數(shù)為:
最大化上面的似然函數(shù)等價(jià)于最小化所提的LSRE準(zhǔn)則,所以,當(dāng)時(shí),最小化LAREn得到的估計(jì)量是有效的。
采用蒙特卡洛模擬方法比較最小二乘(LS),最小絕對(duì)值偏差(LAD),最小絕對(duì)值相對(duì)誤差(LARE)和本文所提的最小二乘相對(duì)誤差(LSRE)在有限樣本情形下的有效性。模擬研究基于如下模型:
其中X1i和X2i都服從標(biāo)準(zhǔn)正態(tài)分布N(0,1)且相互獨(dú)立,β0,β1和β2是回歸參數(shù),取值為(β0,β1,β2)T=(1,1, 1)T??紤]四種誤差分布:(1)ε的分布使得LSRE的估計(jì)為有效估計(jì);(2)logε服從N(0,1);(3)logε服從(-2,2)的均勻分布;(4)ε的分布使得LARE的估計(jì)為有效估計(jì),即, ε~feff1(x)=c1exp(-|1-x|-|1-x-1|-log x)I(x>0),其中c1為正則化常數(shù)。樣本量n取200。LARE和LAD的方差估計(jì)采用隨機(jī)加權(quán)的方法且重抽樣的次數(shù)為N=500,LS和LSRE的方差估計(jì)采用插入法直接估計(jì)。模擬結(jié)果為重復(fù)1000次的情形。
表1 LSRE,LARE,LS和LAD在β=(1,1,1)T時(shí)的對(duì)比結(jié)果
人體脂肪數(shù)據(jù)共收集252個(gè)人的多項(xiàng)人體指標(biāo),該數(shù)據(jù)可用來(lái)分析人體脂肪所占體重的百分比,對(duì)于該數(shù)據(jù)的具體描述可參考Penrose[14],從原始數(shù)據(jù)中收集到12個(gè)解釋變量:年齡(X1)身高4/體重2(X2)和10個(gè)其他人體圍度指標(biāo)(頸、胸、腹、臀、大腿、膝、踝、二頭肌、前臂和手腕、分別記為Xi,i=3,…,12),其中X2對(duì)體質(zhì)指數(shù)(BMI=體重/身高2)變換得到。響應(yīng)變量Y為人體脂肪百分比。該數(shù)據(jù)有一個(gè)觀測(cè)值Y=0,將其刪除并用多元回歸模型擬合剩余n=251個(gè)數(shù)據(jù):
其中Zj,j=1,…,12表示標(biāo)準(zhǔn)化的解釋變量。為了對(duì)不同的方法進(jìn)行評(píng)估,數(shù)據(jù)集被分成兩部分。第一部分有200個(gè)樣本,用來(lái)擬合模型(7),剩余51個(gè)樣本被用來(lái)評(píng)估預(yù)測(cè)效果。表2和表3給出了擬合結(jié)果。p-值的計(jì)算公式為,其中是回歸系數(shù)的估計(jì)值,是的標(biāo)準(zhǔn)偏差的估計(jì),Φ(·)是標(biāo)準(zhǔn)正態(tài)累積分布函數(shù)。LSRE和LS的方差用插入法估計(jì),LARE和LAD的方差用隨機(jī)加權(quán)重抽樣的方法估計(jì)。表2說(shuō)明這四種方法都能夠識(shí)別出某些共同的變量(p-值<0.05),比如年齡、1/BMI和腹圍。隨著年齡的增長(zhǎng)、BMI的增加和腹圍的變大,人體脂肪的比例也會(huì)隨著增加,這一點(diǎn)是非常合理的。但是,只有LSRE識(shí)別出了肱二頭肌和大腿的圍度而其他三種方法卻沒(méi)有識(shí)別出來(lái),這說(shuō)明人體脂肪的比例會(huì)隨著大腿變粗和肱二頭肌的圍度變大而增加。
表2 LSRE,LARE,LS和LAD四種方法分析人體數(shù)據(jù)的結(jié)果
表3 LSRE,LARE,LS和LAD四種方法預(yù)測(cè)誤差的中位數(shù)的比較結(jié)果
這四種估計(jì)的預(yù)測(cè)效果用兩種不同的中位數(shù)指標(biāo)度量:乘積相對(duì)誤差中位數(shù)(MPPE)和可加相對(duì)預(yù)測(cè)誤差中位數(shù)(MAPE),其中i=201,…,251。表3表明LSRE的MPPE和MSPE比LARE、LS和LAD都要小。
本文提出一種乘積模型的最小二乘相對(duì)誤差(LSRE)準(zhǔn)則。所提的LSRE準(zhǔn)則的形式簡(jiǎn)單而且漸進(jìn)方差不包含未知的誤差項(xiàng)的密度,因此可以直接用插入法估計(jì)漸進(jìn)方差。而Chen[1]所提方法要用隨機(jī)加權(quán)的方法估計(jì)漸進(jìn)方差,該方法無(wú)論是算法的復(fù)雜度還是計(jì)算時(shí)間都要比插入法復(fù)雜得多。因此,本文所提方法進(jìn)一步改進(jìn)了LARE的估計(jì)效率。相對(duì)誤差還沒(méi)有像絕對(duì)誤差那樣受到人們普遍的關(guān)注,在相對(duì)誤差準(zhǔn)則下也沒(méi)有哪一個(gè)準(zhǔn)則像最小二乘準(zhǔn)則那樣被人們普遍接受,因此,本文所提出的LSRE準(zhǔn)則無(wú)論是在理論上還是在計(jì)算上都是LARE準(zhǔn)則的另外一種可能的選擇。數(shù)值模擬和實(shí)證研究結(jié)果表明LSRE準(zhǔn)則的優(yōu)良性。
[1]Chen K,Guo S,Lin y,etal.LeastAbsolute Relative Error Estimation. [J].Journalof the American StatisticalAssociation,2010,(105).
[2]Teekens R,Korets J.Some Statistical Implications of the Log Transformation ofMultiplicative Models[J].Econometrica,1972,(40).
[3]云連英,曹勃.基于優(yōu)化的相對(duì)誤差意義下的數(shù)據(jù)擬合[J].統(tǒng)計(jì)與決策,2007,(21).
[4]高尚,張紹虎,梅亮.基于相對(duì)誤差的線性組合預(yù)測(cè)研究[J].系統(tǒng)工程與電子技術(shù),2008,(3).
[5]Narula S C,w ellington,J F.Prediction,Linear Regresion and the Minimum Sum ofRelative Errors[J].Technometrics,1977,(19).
[6]Makridakis S,Andersen A,Carbone R,etal.The Forecasting Accuracy ofMajor Time SeriesMethods[M].New y ork:w iley,1984.
[7]Khoshgoftaar T M,Bhattacharyya B B,Richardson G D.Predicting Software Errors,During Development,Using Nonlinear Regression Models:A Comparative Study[J].IEEE Transactions on Reliability, 1992,(41).
[8]Park H,Stefanski L A.Relative一Error Prediction[J].Statist.&Prob. Letters,1998,(40).
[9]ye J.Price Models and the value Relevance of Accounting Information[R].TechnicalReport,2007.
[10]Zhang Q,w ang Q.Local Least Absolute Relative Error Estimating Approach for Partially Linear Multiplicative Model[J].Statistic Sinica,2012,(23).
[11]y ang y,ye F.General relative Error Criterion And M一estimation [J].FrontiersofMathematics in China,2013,(8).
[12]Li Z,Lin y,Zhou G,et al.Empirical Likelihood for Least Absolute Relative Error Regression[J].Test,2013,(23).
[13]Rockafellar R T.Convex analysis.Princeton University Press[M], Princeton:N J,1970.
[14]Penrose K w,Nelson A G,Fisher A G.Generalized Body Composition Prediction Equation for Men Using Simple Measurement Techniques(Abstract)[J].Medicine and Science in Sports and Exercise, 1895,(17).
(責(zé)任編輯/亦民)
O212
A
1002-6487(2016)20-0009-03
國(guó)家自然科學(xué)基金資助項(xiàng)目(71471173)
周生彬(1979—),男,吉林延邊人,博士研究生,研究方向:高維數(shù)據(jù)分析。張波(1960—),男,黑龍江哈爾濱人,教授,博士生導(dǎo)師,研究方向:概率統(tǒng)計(jì)。