陳海燕,趙培信,
(1.重慶工商大學 數(shù)學與統(tǒng)計學院,重慶 400067;2.經(jīng)濟社會應(yīng)用統(tǒng)計重慶市重點實驗室,重慶 400067)
部分線性模型[1]同時含有參數(shù)分量和非參數(shù)分量,在對實際問題建模過程中兼具經(jīng)典參數(shù)模型和非參數(shù)模型的優(yōu)點,目前已被廣泛地應(yīng)用于社會科學、計量經(jīng)濟學以及生物醫(yī)學等領(lǐng)域。另外,隨著現(xiàn)代數(shù)據(jù)收集技術(shù)的不斷發(fā)展,研究者們能夠在科學研究的各個領(lǐng)域以較低成本收集到大量的高維數(shù)據(jù)。這種大數(shù)據(jù)的統(tǒng)計推斷過程中,往往會遇到超高維情況,即數(shù)據(jù)的維數(shù)遠遠大于樣本量,從而導致經(jīng)典的統(tǒng)計推斷理論將無法直接應(yīng)用。
目前關(guān)于超高維數(shù)據(jù)的統(tǒng)計推斷問題,一般是先利用一些變量篩選方法,從大量的數(shù)據(jù)中篩選出一些重要變量,然后基于所篩選出的重要變量進行統(tǒng)計建模。關(guān)于超高維數(shù)據(jù)下部分線性模型的變量篩選問題,楊宜平等[2]結(jié)合樣條方法和Dantzig 或Lasso 進行變量選擇和未知參數(shù)估計。賴秋楠等[3]將超高維部分線性模型轉(zhuǎn)化為高維線性模型,考慮了協(xié)變量間的相關(guān)性,提出了profile貪婪向前回歸變量篩選方法。楊鑫等[4]基于profile 最小二乘方法和保留正則化方法,提出了新的變量選擇方法。但是這些文獻均是在假定超高維數(shù)據(jù)為外生協(xié)變量的情況下進行討論的。Fan J.Q.[5]、Lin W.[6]等指出,在超高維模型中存在許多可能導致違反外生性假定的因素,例如選擇偏差、測量誤差和遺漏變量等。因此對超高維數(shù)據(jù)統(tǒng)計建模過程中假定所有變量均為外生協(xié)變量是具有限制性且往往是不現(xiàn)實的。在違反外生性假設(shè)時,現(xiàn)有的基于邊際特征篩選方法可能會篩選出那些隱藏的重要變量,并產(chǎn)生較多的假陽性重要變量。
目前,關(guān)于超高維內(nèi)生性協(xié)變量的重要變量選擇問題研究還不多。針對含內(nèi)生協(xié)變量的超高維線性模型,F(xiàn)an J.Q.等[5]通過構(gòu)建懲罰聚焦廣義矩法準則函數(shù),有效實現(xiàn)了降維,并證明了模型存在內(nèi)生性時,該方法也具有Oracle 性質(zhì)。Lin W.等[6]提出了一個兩階段正則化框架,通過使用稀疏誘導懲罰函數(shù),將經(jīng)典的兩階段最小二乘法(two stage least square,2SLS)擴展到高維。Hu Q.Q.等[7]提出了一種新的特征篩選工具來衡量預(yù)測變量的邊際效用,然后引入兩階段正則化框架來識別重要的預(yù)測變量。但是,對超高維內(nèi)生性數(shù)據(jù)下部分線性模型的重要變量選擇問題目前還沒有相關(guān)研究。為此,本文在假定部分協(xié)變量為內(nèi)生協(xié)變量的情況下,研究超高維部分線性模型的重要變量篩選問題。
具體地,結(jié)合工具變量調(diào)整技術(shù),本文提出了一種新的重要變量篩選方法。理論上證明了所提出的篩選方法具有排序一致性。這意味著依據(jù)效用測度,總是可以大概率地將重要變量排在不重要變量之前,從而保證可以清晰地區(qū)分重要變量和不重要變量。
本節(jié)中,假定模型中線性部分的維數(shù)p遠遠超過樣本量n,且維數(shù)p隨著樣本量n呈指數(shù)型增長。本文考慮的部分線性模型結(jié)構(gòu)如下:
式中:Xi為p維協(xié)變量,且
β為未知參數(shù)的p維向量,且
g(·)為未知的非參數(shù)函數(shù);
Ui為一維變量;
εi為模型誤差。
式中:Zi為對應(yīng)的q維的工具變量向量,且
Γ為p×q維的未知參數(shù)矩陣,
e為模型誤差,且e=(e1,e2,…,en),其中ei=(ei1,ei2,…,eip)T,且滿足
綜上所述,考慮模型
滿足如下條件:
假設(shè)真參數(shù)β是稀疏的,即集合A={j:βj≠0,1≤j≤p}很小,則本文的目標是估計集合A。
經(jīng)典的兩階段最小二乘(2SLS)[8]和兩階段正則化(two stage regularization,2SR)[6]將協(xié)變量替換為它們對工具變量的期望。更具體地說,變量首先在工具變量上回歸,然后響應(yīng)變量在變量第一階段的預(yù)測結(jié)果上回歸。然而,因為變量和工具變量的維度隨著樣本量呈指數(shù)增長,2SLS 方法和2SR 方法的性能分別面臨眾多工具變量的維度災(zāi)難和計算成本的問題。因此,需要探索新的方法來獲取集合A。
注意:如果響應(yīng)變量在工具變量上進行回歸,根據(jù)上述模型(3),可以得到如下模型:
式中:α是q×1 維向量,且α=ΓTβ;
ξi為新誤差,且ξi=+εi。
為了找到一個特征篩選工具來估計活躍集A,首先考慮一個例子。在模型(4)中,很容易得到:
另一方面,
結(jié)合上面的方程,可以得到:
進一步展開,得到:
式(5)可表示成
通過這些假設(shè),可以得到如下結(jié)論:
結(jié)合上述分析,可以得到:
根據(jù)部分線性模型的剖面估計思想,首先假定β已知,則模型(1)可被看作是一個非參數(shù)回歸模型:
對于非參數(shù)g(u)可使用局部線性光滑方法構(gòu)造其估計量,它能減少Nadaraya-Watson 核估計的偏差和Gasser-Müller 估計的方差,并能夠避免核估計的邊界效應(yīng),在邊界點和內(nèi)點有相同的收斂速度。設(shè)回歸函數(shù)g(u)在u的鄰域內(nèi)有連續(xù)的一階導數(shù),如果Ui在u的一個小鄰域內(nèi),可用一個線性函數(shù)局部地逼近回歸函數(shù)g(Ui),有:
式中a、b為回歸系數(shù)。
因為假定β已知,可通過極小化下式加權(quán)最小二乘目標函數(shù)求a和b,
式中:Kh(·)=K(·/h)/h,其中K(·)為核函數(shù),h為窗寬,且h>0。
接下來設(shè)計兩階段方法。
式中:pλ(·)為懲罰函數(shù);λ為調(diào)和參數(shù),且λ≥0。
值得注意的是,沒有必要對解釋非活躍預(yù)測變量的工具變量做出任何條件假設(shè)。因此,所有非活躍預(yù)測變量都可以使用一個工具變量,即使這個工具變量非常弱,這意味著雖然預(yù)測變量X是高維的,但工具變量Z并不需要是高維的。通常情況下,要求工具變量的數(shù)量應(yīng)不小于用于識別的預(yù)測變量的數(shù)量,但是,系數(shù)的識別對篩選目標并不重要。即使系數(shù)不確定,仍然可以確定活動回歸量。因此,當工具變量的維度不太高時,可以忽略第1 階段的特征篩選。從理論上講,當工具變量的維數(shù)小于樣本量時,可以使用“普通最小二乘法”代替變量選擇過程。
式中,ψn是給定的閾值參數(shù)。
值得注意的是,無論模型中是否存在內(nèi)生協(xié)變量,本文所提出的篩選程序都是可行的。
本節(jié)將討論所提出的篩選程序的理論性質(zhì)。下列條件是為了方便技術(shù)證明,盡管它們可能不是最弱的條件。
C1)隨機誤差e的條件。給定為
C2)協(xié)變量X的條件。給定為
C3)工具變量Z的條件。
C3-a)存在正常數(shù)K1、K2和κ,使得
C3-c)線性條件為
C4)活躍集A和B之間的關(guān)系為
接下來,介紹所提出的篩選程序的理論性質(zhì),這些理論性質(zhì)是新篩選方法的主要理論基礎(chǔ)。
定理1在條件C1、C2、C4 下,有如下不等式關(guān)系成立:
定理1的證明 基于模型(3)和模型(4),設(shè)為真系數(shù),可以得到:
式中:βA由所有的βj,j∈A組成;由所有的∈A組成。
另一方面,如果j∈A,可以得到:
定理2 的證明為了提高可讀性,將證明分為如下兩個主要步驟。
步驟1首先
其中,δt=δ是強調(diào)δ取決于τ,
針對超高維內(nèi)生協(xié)變量的變量選擇問題,結(jié)合內(nèi)生協(xié)變量和工具變量的相關(guān)結(jié)構(gòu),提出了一種新的用于超高維線部分線性工具變量回歸模型的兩階段特征篩選方法,其中內(nèi)生協(xié)變量和工具變量的維數(shù)可以隨樣本量呈指數(shù)級增長。理論結(jié)果表明,該特征篩選方法在排序上具有一致性。
本文只考慮了工具變量的各分量之間相關(guān)性較弱的情況。當工具變量的各分量之間存在高度相關(guān)性時,可以使用Hu Q.Q.等[12]給出的條件特征篩選程序來處理。然而,在對內(nèi)生性協(xié)變量的工具變量調(diào)整過程中,如何事先確定一個工具變量的備選集合,然后從中篩選重要的工具變量,是當前內(nèi)生性數(shù)據(jù)統(tǒng)計建模中常遇到的難題之一。另外,值得進一步研究的問題是如何在不事先假定模型結(jié)構(gòu)的前提下,完全基于內(nèi)生變量與工具變量的相關(guān)結(jié)構(gòu)來構(gòu)造特征篩選方法。這些問題都有待進一步深入研究。