甘勝進(jìn),游文杰
(福建師范大學(xué)福清分校電子與信息工程學(xué)院,福建 福清 350300)
基于矩生成函數(shù)的多元響應(yīng)降維子空間估計(jì)
甘勝進(jìn),游文杰
(福建師范大學(xué)福清分校電子與信息工程學(xué)院,福建 福清 350300)
提出一類新的估計(jì)多元響應(yīng)降維子空間方法,即基于矩生成函數(shù)(GF)、絕對(duì)值矩生成函數(shù)(G-A)與矩生成函數(shù)海塞主方向方法(G-PHD).給出了該方法估計(jì)量的相合性以及漸近性性質(zhì),并進(jìn)行了實(shí)例模擬.
充分降維;切片逆回歸;矩生成函數(shù);絕對(duì)值矩生成函數(shù);海塞主方向
考慮一維響應(yīng)變量Y和p維解釋變量X=(X1,X2,…,Xp)T之間回歸問(wèn)題的主要目的是研究在X給定的條件下,Y對(duì)X的條件分布函數(shù)FY|X如何隨自變量X變化.如果存在p×k(k≤p)矩陣η(列滿秩)滿足
Y‖X|X?Y‖X|ηTX,
(1)
其中‖表示統(tǒng)計(jì)獨(dú)立,Y‖X|U表示在任意給定U值的情況下,X與Y相互獨(dú)立,則FY|X(y|x)=FY|ηTX(y|ηTx),這樣X(jué)中有關(guān)Y的信息就包含在ηTX中,Y對(duì)X條件分布的維數(shù)是k維,不再是p維.如果k相對(duì)于維數(shù)p微不足道,那么降維目的就達(dá)到了.特別當(dāng)k=1,2時(shí),便可在概要圖上分析Y與X之間的回歸關(guān)系.Li[1]首次提出切片逆回歸(簡(jiǎn)稱SIR)方法,即用X對(duì)Y的逆回歸均值函數(shù)E(X|Y)來(lái)估計(jì)η.由于Y‖X|ηTX?Y‖X|(ηB)TX,其中B為k階可逆方陣,可見(jiàn)在上式中η與ηB起到作用是一樣的,而η與ηB列向量張成子空間是相同的,故考慮span{η}而非η本身,span{η}表示由η列向量張成的子空間.沿用Fisher充分統(tǒng)計(jì)量的概念,稱span{η}為其充分降維子空間(簡(jiǎn)稱DRS).進(jìn)一步地,如果滿足(1)式的所有η的交集仍然滿足(1)式,則稱其為中心降維子空間(簡(jiǎn)稱CS),記為SY|X,rank(SY|X)稱為結(jié)構(gòu)維數(shù).CS是最小的充分降維子空間,通常情況下CS總是存在的.如果感興趣的是E(Y|X),結(jié)合充分降維就產(chǎn)生均值降維子空間[2]概念,即
Y‖E(Y|X)|ηTX.
(2)
類似CS的討論,若所有滿足(2)式的集合的交集仍然滿足(2)式,則稱之為中心均值降維子空間(簡(jiǎn)稱CMS),記為SE(Y|X).令Z=Σ-1/2(X-E(X)),則有轉(zhuǎn)換公式SY|X=Σ-1/2SY|Z[3],其中Σ=D(X)>0.因此下文不妨假定E(X)=0,D(X)=Ip.
估計(jì)降維子空間常用到下面兩個(gè)基本條件:
(1) 線性條件均值:E(X|ηTX)為ηTX線性函數(shù),即E(X|ηTX)=PηX,?η∈Rp,其中投影陣Pη=η(ηTη)-1ηT.
(2) 常數(shù)條件方差:Var(X|ηTX)為非隨機(jī)矩陣,即Var(X|ηTX)=I-Pη.
滿足線性條件均值的是橢圓分布,而滿足條件常數(shù)方差的是多元正態(tài)分布.下文提出基于矩生成函數(shù)方法估計(jì)多元響應(yīng)降維子空間,并給出該方法估計(jì)量的相合性和漸近性,最后為該方法的蒙特卡羅模擬.
將一維響應(yīng)推廣到多維響應(yīng),就會(huì)產(chǎn)生多維響應(yīng)降維子空間與多維響應(yīng)均值降維子空間,即
Y‖X|ηTX,
(3)
Y‖E(Y|X)|ηTX.
(4)
其中X=(X1,X2,…,Xp)T,Y=(Y1,Y2,…,Yq)T.
一些一維響應(yīng)降維子空間估計(jì)方法可以推廣到多維響應(yīng)降維子空間的估計(jì),例如多元切片逆回歸(簡(jiǎn)記MS)、最小二乘估計(jì)(OLS)和海塞主方向(PHD)[4],其他估計(jì)方法可參看文獻(xiàn)[5-10].本文受文獻(xiàn)[8-9]啟發(fā),提出矩生成函數(shù)方法(簡(jiǎn)記GF).
記φ(t)=E(etTYX),t∈Rq,φ(t)張成子空間記為M,即M=span{φ(t)|t∈Rq},則M=span{E(φ(T)φ(T)T)}[11]幾乎必然成立,其中T是支撐為Rq的q維隨機(jī)向量.稱M為多元響應(yīng)降維子空間的矩生成函數(shù)估計(jì),其理論依據(jù)為下面定理.
定理1 在線性條件均值條件下,M?SY|X.
證明 注意到(3)式意味著Y|X,Y|ηTX同分布,故tTY|X,tTY|ηTX同分布.由此以及線性條件均值定義,有
φ(t)=E(etTYX)=E(XE(etTY|X))=E(XE(etTY|ηTX))=
E((X|ηTX)E(etTY|ηTX))=E((X|ηTX)etTY)=PηE(etTYX)?span(η).
從上述定理證明過(guò)程可知,E(etTYX)可看作Y對(duì)X向前回歸.另一方面,E(etTYX)=E(etTYE(X|Y))?span{E(X|Y=y)|y∈ΩY},其中ΩY為Y樣本空間,從而E(etTYX)也可看作X對(duì)Y逆回歸,因此E(etTYX)可看作向前回歸與逆回歸的結(jié)合.在線性條件均值條件下span{E(X|Y=y)|y∈ΩY}?SY|X,但切片逆回歸估計(jì)效果對(duì)切片數(shù)量比較敏感,因此如何選擇較為合適的切片數(shù)量至今仍是一個(gè)公開(kāi)難題,而本方法避免了對(duì)響應(yīng)變量進(jìn)行切片,只需樣本的矩估計(jì).
定理2 當(dāng)X為p維標(biāo)準(zhǔn)正態(tài)分布時(shí),M?SY|X.
證明 類似于定理1的證明及Stein引理[12],
E(etTYX)=E(XE(etTY|X))=E(XE(etTY|ηTX))=
(5)
(6)
實(shí)際上(5)與(6)式較容易滿足.[13]采用類似文獻(xiàn)[14]的方法可證明多元漸近正態(tài)性.
E(ψ(X,Y,T)φ(T)T|X=xi,Y=yi)}.
證明
由于E(ψ(X,Y,T)φ(T)T|T=ti)=E(ψ(X,Y,ti))φ(ti)T=0,故兩樣本U統(tǒng)計(jì)量
被下面的投影近似:
(7)
利用條件期望平滑性和(6)式,可類似上面討論Un:
(8)
當(dāng)回歸函數(shù)是偶函數(shù),并且自變量是對(duì)稱分布時(shí),多元切片逆回歸方法對(duì)此類模型失效,可采用兩種辦法,即絕對(duì)值矩生成函數(shù)與矩生成海塞主方向,分別簡(jiǎn)記為G-A、G-PHD.
定理5 在線性條件均值條件下,由φ(t)=E(e|tTY|X),t∈Rq張成的子空間M?SY|X.
此定理證明與定理1類似,故省略.
定理6 當(dāng)線性條件均值和常數(shù)條件方差成立時(shí),由φ(t)=E(etTY(XXT-I)),t∈Rq張成的子空間M?SY|X.
證明 由條件期望平滑性,線性條件均值和常數(shù)條件方差可得
φ(t)=E(etTY(XXT-I))=E(E(etTY|X)(XXT-I))=
E(E(etTY|ηTX)(XXT-I))=E(etTY(E(XXT|ηTX)-I))=
E(etTY(Var(X|ηTX)+E(X|ηTX)E(X|ηTX)T-I))=PηE(etTY(XXT-I))Pη?SY|X.
以上兩種方法的樣本估計(jì)、相合性和漸近性與GF類似,這里不再贅述.
表1為(X,Y)與T的樣本容量在某些取值下,采用定理1或定理2中M的樣本得到的100次蒙特卡羅隨機(jī)模擬結(jié)果.其中第一列與第一行分別為(X,Y)與T的樣本容量n與m的取值,每個(gè)表格里第一和第二個(gè)數(shù)分別表示100次模擬跡相關(guān)系數(shù)的均值與標(biāo)準(zhǔn)差.
表1 在(X,Y)與T的不同樣本容量下100次模擬跡相關(guān)系數(shù)的均值與標(biāo)準(zhǔn)差
從表1中可以看出,當(dāng)m固定時(shí),n逐漸變大,估計(jì)方向與真實(shí)方向接近程度的均值幾乎逐漸遞增,標(biāo)準(zhǔn)差曲折減少;而當(dāng)n固定,m逐漸變大時(shí),跡相關(guān)系數(shù)的均值和標(biāo)準(zhǔn)差變化不大,說(shuō)明估計(jì)效果只依賴于n,印證了定理3的結(jié)論.
表2為100次重復(fù)選取的各個(gè)方法在不同樣本容量下的估計(jì)性能比較,每個(gè)格子第一個(gè)數(shù)為跡相關(guān)系數(shù)的均值,第二個(gè)數(shù)為標(biāo)準(zhǔn)差.從中可以看出,GF表現(xiàn)最好,緊隨其后的是G-A與G-PHD,但G-A 與GF差別不大.相比之下,OLS和MS(每個(gè)響應(yīng)變量切片數(shù)量為4,故總切片數(shù)為42=16)表現(xiàn)最差,一個(gè)很重要的原因是Y對(duì)X回歸函數(shù)是偶函數(shù).
表2 基于模型2的幾種選取方法性能比較
圖1與圖2分別表示100次重復(fù)的情況下,三種方法GF,G-A與G-PHD在模型1和模型2上估計(jì)效果的箱線圖.從中可以看出,對(duì)于線性回歸函數(shù)而言,GF表現(xiàn)是最好的;而對(duì)于對(duì)稱函數(shù)來(lái)說(shuō),GF的估計(jì)性能不比其他兩種方法差.因此就目前模擬的效果來(lái)看,GF具有較好的穩(wěn)健性,是三種方法中最好的.
圖1n=1 000時(shí)模型1中GF,G-A與G-PHD估計(jì)效果對(duì)比
圖2n=1 000時(shí)模型2中GF,G-A與G-PHD估計(jì)效果對(duì)比
[1] LI K C.Sliced inverse regression for dimension reduction[J].Journal of American Statistical Association,1991,86:316-327.
[2] COOK R D,LI BING.Dimension reduction for conditional mean in regression[J].The Annals of Statistics,2002,30(2):455-474.
[3] COOK R D.Regression graphics:ideas for studying regressions through graphics[M].New York:Wiley,1998:104.
[4] YIN XIANGRONG,BURA E.Moment-based dimension reduction for multivariate response[J].Journal of Statistical Planning and Inference,2006,136:3675-3688.
[5] SETODJI C M,COOK R D.K-means inverse regression[J].American Statistical Association and American Society for Quality,2004,46(4):421-429.
[6] LI B,WEN S Q,ZHU L X.On a projective resampling method for dimension reduction with multivariate responses[J].Journal of American Statistical Association,2008,103:1177-1186.
[7] LI KER-CHAU,ARAGON YVE,SHEDDEN KERBY,et al.Dimension reduction for multivariate response data[J].Journal of American Statistical Association,2003,98:99-109.
[8] ZHU YU,ZENG PENG.Fourier methods for estimating the central subspace and the central mean subspace in regression[J].Journal of American Statistical Association,2006,101:1638-1651.
[9] ZHU LI PING,ZHU LI XING,WEN SONG QIAO.On dimension reduction in regression with multivariate responses[J].Statistica Sinica,2010,20:1291-1307.
[10] LUE H H.On principal Hessian directions for multivariate response regressions[J].Computational Statistics,2010,25(4):619-632.
[11] YIN X R,COOK R D.Estimating central subspaces via inverse third moments[J].Biometrika,2003,90:113-125.
[12] STEIN C M.Estimation of the mean of a multivariate normal distribution[J].The Annals of Statistics,1981,9:1135-1151.
[13] BICKEL KLAASSEN,RITOV WELLNER.Efficient and adaptive inference in semi-parametric models[M].Baltimore:John Hopkins University Press,1993:19.
[14] ZHU L P,WANG T,ZHU L X.Sufficient dimension reduction through discretization-expectation estimation[J].Biometrika,2010,97(2):295-304.
[15] FERR L.Determining the dimension in sliced inverse regression and related methods[J].Journal of American Statistical Association,1998,93:132-140.
(責(zé)任編輯:李亞軍)
Estimate of dimension reduction subspace for multivariate responses based on moment-generating function
GAN Sheng-jin,YOU Wen-jie
(School of Electronic and Information Engineering,F(xiàn)uqing Branch of Fujian Normal University,F(xiàn)uqing 350300;China)
A new class of estimators for dimension reduction subspace with multivariate responses are proposed based on some related literature,which are termed as moment-generating function(GF),absolute moment-generating function(G-A) and moment-generating function of principal Hessian directions(G-PHD) respectively.Consistency and asymptotic property of estimators are given.
sufficient dimension reduction;sliced inverse regression;moment generating function;absolute moment generating function;principal Hessian directions
1000-1832(2017)01-0043-05
10.16163/j.cnki.22-1123/n.2017.01.009
2015-10-29
國(guó)家自然科學(xué)基金資助項(xiàng)目(61473329);福建省自然科學(xué)基金資助項(xiàng)目(2015J01009);福建省中青年教師教育科研項(xiàng)目(JAT160566).
甘勝進(jìn),男,碩士,講師,主要從事高維數(shù)據(jù)充分降維研究;游文杰,男,博士,教授,主要從事統(tǒng)計(jì)計(jì)算以及數(shù)據(jù)挖掘研究.
O 213 [學(xué)科代碼] 110·71
A