李 慶,趙培信,b,楊宜平
(重慶工商大學(xué)a.數(shù)學(xué)與統(tǒng)計(jì)學(xué)院;b.經(jīng)濟(jì)社會(huì)應(yīng)用統(tǒng)計(jì)重慶市重點(diǎn)實(shí)驗(yàn)室,重慶 400067)
考慮如下線性回歸模型:
Y=XTβ+ε
(1)
其中,β=(β1,β2,…,βp)T為p維未知的參數(shù)向量,X為協(xié)變量,Y為對(duì)應(yīng)的響應(yīng)變量,ε為零均值的模型誤差。當(dāng)X為外生協(xié)變量,即協(xié)變量X與模型誤差ε相互獨(dú)立時(shí),基于普通最小二乘方法可以得到模型參數(shù)β的有效估計(jì)。但當(dāng)X與ε存在較強(qiáng)的相關(guān)性,即X為內(nèi)生協(xié)變量時(shí),基于普通最小二乘方法對(duì)β估計(jì)將不再是相合的,而產(chǎn)生一定的內(nèi)生性偏差。在X為內(nèi)生協(xié)變量的情況下,基于工具變量調(diào)整技術(shù)則可以給出β一個(gè)相合估計(jì)。具體地,假定X為內(nèi)生協(xié)變量,且滿足:
X=ΓZ+e
(2)
其中,Z為q維工具變量,Γ為p×q維的未知參數(shù)矩陣,e為模型誤差。
近年來,對(duì)基于工具變量調(diào)整的統(tǒng)計(jì)推斷理論已有大量文獻(xiàn)進(jìn)行了研究。比如Cai等研究了部分變系數(shù)工具變量模型的估計(jì)問題,并提出了一種三階段估計(jì)方法[1]。Zhao等研究了變系數(shù)工具變量模型的變量選擇問題,并提出了一種基于光滑門限估計(jì)方程的變量選擇方法[2]。Fan等則對(duì)高維的線性工具變量模型進(jìn)行了研究,并提出了一種基于懲罰的廣義矩(GMM)估計(jì)方法[3]。Chen等對(duì)部分線性工具變量模型,在由于協(xié)變量的內(nèi)生性而導(dǎo)致過度識(shí)別的情況下,提出了一種基于廣義矩(GMM)估計(jì)方法[4]。Yang等針對(duì)部分線性單指標(biāo)工具變量模型的統(tǒng)計(jì)推斷問題,提出了一種基于經(jīng)驗(yàn)似然的估計(jì)方法[5]。Huang等則針對(duì)部分線性工具變量模型的變量選擇問題,提出了一種基于正交加權(quán)的經(jīng)驗(yàn)似然變量選擇方法[6]。
基于工具變量的統(tǒng)計(jì)推斷過程中,選取有效的工具變量是進(jìn)行統(tǒng)計(jì)推斷的關(guān)鍵,但是上述文獻(xiàn)均是在假定已知有效工具變量的前提下,研究模型參數(shù)β的估計(jì)及變量選擇等統(tǒng)計(jì)推斷問題。而如何選取有效的工具變量并沒有進(jìn)行研究。關(guān)于有效工具變量的識(shí)別問題,近年來也越來越受到統(tǒng)計(jì)學(xué)界的關(guān)注。比如Lin等和Belloni等結(jié)合懲罰最小二乘方法研究了線性工具變量模型的正則估計(jì)問題,對(duì)模型中有效工具變量的識(shí)別問題提出了一種基于懲罰最小二乘的識(shí)別方法[7-8]。Chen等則對(duì)線性工具變量模型中有效工具變量的識(shí)別問題提出一種基于兩階段懲罰最小二乘方法的識(shí)別過程[9]??傮w來看,目前研究有效工具變量識(shí)別的文獻(xiàn)不是太多,而在實(shí)際的回歸建模過程中往往需要從大量的指標(biāo)中選取某些指標(biāo)作為有效工具變量,因此對(duì)有效工具變量的識(shí)別成為內(nèi)生協(xié)變量回歸建模研究中一個(gè)重要的課題?;诖?本文在X為內(nèi)生協(xié)變量,并且在線性模型結(jié)構(gòu)(1)和(2)下,研究工具變量Z的識(shí)別問題。
本文通過構(gòu)造一個(gè)輔助回歸模型,并結(jié)合懲罰最小絕對(duì)偏差估計(jì)技術(shù),對(duì)模型結(jié)構(gòu)(1)和(2)中的有效工具變量給出了一種識(shí)別方法。數(shù)據(jù)模擬研究表明所提出的有效工具變量識(shí)別方法是行之有效的。本文提出的基于懲罰最小絕對(duì)偏差的識(shí)別方法允許工具變量的采集數(shù)據(jù)含有異常值。因此,與Lin等、Belloni等和Chen等所提出的基于懲罰最小二乘的有效工具變量識(shí)別方法相比[7-9],本文所提出的有效工具變量識(shí)別方法具有較好的穩(wěn)健性。另外,與Chen等提出的基于兩階段懲罰最小二乘方法的有效工具變量識(shí)別過程相比[9],本文所提出的識(shí)別方法是通過構(gòu)造一個(gè)輔助回歸模型來給出基于懲罰的最小絕對(duì)偏差有效工具變量識(shí)別過程,將大大減少計(jì)算量和計(jì)算復(fù)雜度。
注意到X為內(nèi)生協(xié)變量以及Z為對(duì)應(yīng)的工具變量可知:
E(ε|X)≠0,E(ε|Z)=0
(3)
記Zk為工具變量Z=(Z1,Z2,…,Zq)T的第k個(gè)分量,那么結(jié)合式(1)和(3)可得:
(4)
由模型(2)可知,如果Zk為有效的工具變量,那么Zk與X有顯著的線性相關(guān)關(guān)系。因此,如果對(duì)所有的j,1≤j≤p有Cov(Xj,Zk)=0,j=1,2,…,p,則Zk為無效的工具變量。進(jìn)而由式(4)可知,如果Zk為無效的工具變量,則有Cov(Y,Zk)=0。定義如下輔助回歸模型:
Y=θ1Z1+θ2Z2+…+θqZq+ε
(5)
那么由如上討論可知,如果θk≠0,則可知Zk為有效的工具變量。因此,為了選擇有效的工具變量,只需判斷θ=(θ1,θ2,…,θq)T中的非零元素。為此,定義如下懲罰絕對(duì)偏差目標(biāo)函數(shù):
(6)
其中,pλ(·)為某一指定的懲罰函數(shù)。在實(shí)際應(yīng)用中已有大量的懲罰函數(shù)可以應(yīng)用,比如Lasso懲罰、SCAD懲罰以及MCP懲罰[10-12]等。
(7)
(8)
在這一部分,考慮工具變量識(shí)別以及模型參數(shù)估計(jì)方法的迭代計(jì)算問題。首先討論最小化目標(biāo)函數(shù)Q(θ)的計(jì)算方法。結(jié)合Zou等提出的線性逼近方法[13],式(6)中的懲罰函數(shù)pλ(|θk|)可以漸近表示為:
(9)
(10)
其中,ξk=(0,…,1,…,0)T為第k個(gè)元素為1,其他元素均為0的q維單位向量。那么式(10)可寫為:
(11)
注意到式(11)為經(jīng)典的最小一乘估計(jì)目標(biāo)函數(shù),因此可以通過已有的統(tǒng)計(jì)軟件(如R軟件、SPSS軟件等)進(jìn)行求解。另外在求解式(11)的過程中,調(diào)整參數(shù)λ需要指定,并且參數(shù)向量θ需要給出一個(gè)初始估計(jì)。首先,可以通過最小化如下不帶懲罰項(xiàng)的絕對(duì)偏差目標(biāo)函數(shù)來得到θ的一個(gè)初始估計(jì):
(12)
另外,類似Wang等[14],本文建議用BIC準(zhǔn)則對(duì)調(diào)整參數(shù)λ估計(jì)。具體地,通過最小化如下BIC準(zhǔn)則函數(shù)來得到λ的估計(jì)。
(13)
第1步:最小化式(12)得初始估計(jì)量θ0。
為實(shí)施模擬從如下模型產(chǎn)生數(shù)據(jù):
(14)
其中,β=2,Γ=(2,1,0.5,0,…,0)為1×10維參數(shù)矩陣,對(duì)應(yīng)的工具變量Zk~N(1,1.5),k=1,2,…,10。由Γ的前三個(gè)元素非零,其他元素均為零可知Z1、Z2和Z3為三個(gè)有效的工具變量,而Z4,Z5,…,Z10均為無效工具變量。響應(yīng)變量Y以及內(nèi)生協(xié)變量X均由模型產(chǎn)生,其中模型誤差ε~N(0,0.5)并且e=0.5ε。該數(shù)據(jù)產(chǎn)生方法保證了E(Xε)≠0,即X為內(nèi)生協(xié)變量。在模擬過程中,樣本容量n分別取100、200和300三種情況,懲罰函數(shù)pλ(·)分別取Lasso懲罰、SCAD懲罰以及Adaptive-Lasso懲罰[10-11,15]三種情況。另外,為驗(yàn)證本文所提出方法的穩(wěn)健性,對(duì)樣本容量的每一種情況,對(duì)響應(yīng)變量Y和內(nèi)生協(xié)變量X人為設(shè)置部分異常點(diǎn)。在模擬過程中,考慮異常值占數(shù)據(jù)的5%和10%兩種情況。對(duì)每一種情況,異常值通過模型誤差取為ε~N(0,3)進(jìn)行產(chǎn)生。
關(guān)于有效工具變量識(shí)別的模擬結(jié)果見表1和表2,其中“C”表示基于1 000次重復(fù)實(shí)驗(yàn)把真實(shí)無效工具變量正確估計(jì)為無效工具變量的平均個(gè)數(shù),“I”表示基于1 000次重復(fù)實(shí)驗(yàn)把真實(shí)有效工具變量錯(cuò)誤估計(jì)為無效工具變量的平均個(gè)數(shù)。另外,表1和表2還給出了選擇有效工具變量的錯(cuò)誤選擇率(FSR),其定義為FSR=IN/TN,其中IN表示基于1 000次重復(fù)實(shí)驗(yàn)把無效工具變量估計(jì)為有效工具變量的平均個(gè)數(shù),TN表示基于1 000次重復(fù)實(shí)驗(yàn)選擇為有效工具變量的平均個(gè)數(shù)。由表1和表2,可以得到如下結(jié)論:
表1 異常值占5%時(shí),基于不同懲罰函數(shù)選擇有效工具變量的結(jié)果
表2 異常值占10%時(shí),基于不同懲罰函數(shù)選擇有效工具變量的結(jié)果
第一,隨著樣本量n的增加,基于三種懲罰方法的有效工具變量錯(cuò)誤識(shí)別率均逐漸趨于0,并且對(duì)無效工具變量的識(shí)別也逐漸趨于無效工具變量的實(shí)際個(gè)數(shù)7。這表明本文提出的有效工具變量的選擇方法是行之有效的。
第二,對(duì)任意給定的樣本量n,在不同異常值數(shù)量下的模擬結(jié)果是類似的,即異常值對(duì)模擬結(jié)果沒有明顯的影響。這表明本文提出的工具變量選擇方法具有較好的穩(wěn)健性。
第三,當(dāng)樣本量較小時(shí),基于Adaptive-Lasso和SCAD給出的模擬結(jié)果優(yōu)于基于Lasso給出的模擬結(jié)果。但當(dāng)樣本量增大時(shí),基于三種懲罰方法給出的模擬結(jié)果是類似的。
接下來模擬工具變量Z的維數(shù)變化對(duì)有效工具變量識(shí)別的影響。為此,取Γ=(2,1,0.5,0,…,0)為1×q維參數(shù)矩陣,并且在模擬過程中q分別取為q=15,20以及25三種情況。由Γ的定義可知Z1Z2和Z3為三個(gè)有效的工具變量,而其他q-3個(gè)均為無效工具變量。另外為了模擬本文所提方法的穩(wěn)健性,模型誤差取為厚尾的拉普拉斯分布ε~La(0,2)。其他數(shù)據(jù)的產(chǎn)生與模型(14)完全相同。在該模擬過程中,樣本容量取為n=200,懲罰函數(shù)pλ(·)分別取SCAD懲罰、Lasso懲罰以及Adaptive-Lasso懲罰三種情況。模擬結(jié)果見表3。
表3 工具變量在不同維數(shù)下,有效工具變量的識(shí)別結(jié)果
由表3可以看出,在不同數(shù)量的無效工具變量下,模擬出來的錯(cuò)誤選擇率(FSR)是類似的,即無效工具變量的維數(shù)對(duì)模擬結(jié)果沒有明顯的影響。另外我們還可以看出在模型誤差為厚尾分布的情況下,本文提出的有效工具變量識(shí)別方法仍可以給出較小的錯(cuò)誤選擇率(FSR),這也進(jìn)一步表明本文提出的有效工具變量識(shí)別方法具有較好的穩(wěn)健性。
接下來給出關(guān)于模型參數(shù)β的模擬結(jié)果。注意到無效工具變量的維數(shù)對(duì)有效工具變量的識(shí)別沒有明顯的影響,并且基于不同的懲罰函數(shù)識(shí)別出的有效工具變量差別不是太大。因此,在接下來的模擬過程中,假定工具變量的維數(shù)q=10,并用Lasso懲罰選擇有效工具變量。其他情況下的模擬結(jié)果是類似的,為此不再重復(fù)展示。另外作為比較,還給出了關(guān)于β的樸素(naive)估計(jì)結(jié)果,即不經(jīng)過工具變量調(diào)整,直接利用內(nèi)生協(xié)變量X并通過最小化如下目標(biāo)函數(shù)Qnaive(β)來得到β的估計(jì)。
圖1 異常值占5%時(shí),模型參數(shù)β估計(jì)量絕對(duì)偏差的箱線圖
圖2 異常值占10%時(shí),模型參數(shù)β估計(jì)量絕對(duì)偏差的箱線圖
自從實(shí)施改革開放政策以來,中國的對(duì)外貿(mào)易呈現(xiàn)高速增長,經(jīng)濟(jì)得到了長足的發(fā)展,對(duì)外貿(mào)易開放不論在量上還是在質(zhì)上也都有了巨大的飛躍。近年來,“一帶一路”倡議的縱深發(fā)展進(jìn)一步大幅度地推動(dòng)了中國與沿線國家之間的雙邊貿(mào)易和投資。對(duì)外貿(mào)易開放在中國經(jīng)濟(jì)增長和高質(zhì)量發(fā)展中的地位和作用也越來越受到大量學(xué)者關(guān)注。注意到對(duì)外貿(mào)易開放與經(jīng)濟(jì)增長是相互促進(jìn)的,即把對(duì)外貿(mào)易開放作為因素變量,研究其對(duì)中國經(jīng)濟(jì)增長影響的時(shí)候,對(duì)外貿(mào)易開放是一個(gè)內(nèi)生協(xié)變量。因此,我們用本文提出的工具變量模型估計(jì)方法研究中國對(duì)外貿(mào)易開放與經(jīng)濟(jì)增長之間的關(guān)系。
具體地,本文基于中國31個(gè)省份2009—2018年的相關(guān)數(shù)據(jù),對(duì)貿(mào)易開放度與中國經(jīng)濟(jì)增長的關(guān)系進(jìn)行實(shí)證分析研究。本文所涉及的數(shù)據(jù)均來自國家統(tǒng)計(jì)局網(wǎng)站《中國統(tǒng)計(jì)年鑒》。首先,參考已有文獻(xiàn),對(duì)各變量的設(shè)定和對(duì)應(yīng)數(shù)據(jù)的計(jì)算方法進(jìn)行簡單說明。響應(yīng)變量Y:采用以2009年為基期,各省份的實(shí)際GDP來代表各省份的經(jīng)濟(jì)發(fā)展水平。協(xié)變量X:采用各省份的進(jìn)出口總額與該地區(qū)生產(chǎn)總值的比值來衡量各省份的對(duì)外貿(mào)易開放度。另外從就業(yè)、教育、地理位置三個(gè)方面選擇三個(gè)指標(biāo)作為工具變量。具體地,Z1表示各省份與國外市場(chǎng)的接近度,類似陳生明等[16],其計(jì)算方法為各省份省會(huì)城市到海岸線距離的倒數(shù)(乘100倍)乘以人民幣對(duì)美元的名義匯率;Z2表示各省份的年底從業(yè)人員數(shù);Z3表示各省份的人力資本存量,其用各省6歲及以上人口的平均受教育年限來衡量。因此,可建立模型為:
在接下來的模擬過程中,懲罰函數(shù)仍考慮SCAD懲罰、Lasso懲罰以及Adaptive-Lasso懲罰三種情況,并對(duì)所有數(shù)據(jù)進(jìn)行自然對(duì)數(shù)變換。關(guān)于有效工具變量識(shí)別的模擬結(jié)果見表4。從表4可以看出,基于三種處罰方法給出的模擬結(jié)果是非常類似的,這也進(jìn)一步驗(yàn)證了上一節(jié)數(shù)值模擬得出結(jié)論。并且從系數(shù)γ1的估計(jì)值不為零,而系數(shù)γ2和γ3的估計(jì)值均為零可知“Z1:國外市場(chǎng)接近度”為識(shí)別出的有效工具變量,而“Z2:從業(yè)人員數(shù)”和“Z3:人力資本存量”則為無效工具變量。另外,對(duì)回歸系數(shù)β0和β1的估計(jì),同時(shí)給出基于工具變量調(diào)整的估計(jì)(AE)以及未經(jīng)過工具變量調(diào)整的樸素估計(jì)(NE),具體模擬結(jié)果見表5。由表5可以看出,對(duì)β1的估計(jì),基于工具變量調(diào)整給出的估計(jì)值大于未經(jīng)過工具變量調(diào)整的估計(jì)值。這就表明對(duì)外貿(mào)易開放度對(duì)當(dāng)?shù)氐慕?jīng)濟(jì)增長存在顯著的正影響效應(yīng),并且如果忽略對(duì)外貿(mào)易開放度的內(nèi)生性,則會(huì)低估對(duì)外貿(mào)易開放度在經(jīng)濟(jì)增長中發(fā)揮的作用。
表4 基于不同懲罰方法系數(shù)γ1-γ3的估計(jì)結(jié)果
表5 回歸系數(shù)β0和β1的估計(jì)結(jié)果
在對(duì)內(nèi)生性數(shù)據(jù)進(jìn)行統(tǒng)計(jì)推斷過程中,如何選取有效的工具變量對(duì)內(nèi)生性數(shù)據(jù)進(jìn)行調(diào)整是對(duì)模型進(jìn)行有效估計(jì)的關(guān)鍵一步。本文通過構(gòu)造一個(gè)輔助回歸模型并結(jié)合懲罰估計(jì)技術(shù)提出了一種有效工具變量識(shí)別方法。數(shù)據(jù)模擬研究表明所提出的有效工具變量識(shí)別方法是行之有效的,并具有較好的穩(wěn)健性。
基于所提出的統(tǒng)計(jì)推斷方法,本文對(duì)中國31個(gè)省份對(duì)外貿(mào)易開放度與經(jīng)濟(jì)增長的關(guān)系進(jìn)行實(shí)證分析。研究結(jié)果表明在處理貿(mào)易開放度的內(nèi)生性問題上,各地區(qū)的國外市場(chǎng)接近度是一個(gè)行之有效的工具變量,并且發(fā)現(xiàn)對(duì)外貿(mào)易開放對(duì)經(jīng)濟(jì)增長有著顯著的推動(dòng)作用。目前,中國正處在改革開放的攻堅(jiān)期和深水區(qū),全球性市場(chǎng)、技術(shù)和資源等要素的競(jìng)爭(zhēng)日趨激烈。因此,在“一帶一路”的倡議下,各省、自治區(qū)和直轄市需要全方位、寬領(lǐng)域地實(shí)行對(duì)外貿(mào)易的開放,積極地推進(jìn)對(duì)外貿(mào)易的發(fā)展。
目前,半?yún)?shù)工具變量模型已被廣泛應(yīng)用到環(huán)境、經(jīng)濟(jì)以及生物醫(yī)學(xué)等各個(gè)領(lǐng)域,但是本文在線性工具變量模型結(jié)構(gòu)下討論了有效工具變量的識(shí)別問題,所提出的識(shí)別方法不能直接應(yīng)用于半?yún)?shù)工具變量模型的有效工具變量識(shí)別中。因此,半?yún)?shù)工具變量模型的有效工具變量識(shí)別問題是接下來需要進(jìn)一步研究的有意義而具有挑戰(zhàn)性的課題之一。另外,隨著數(shù)據(jù)采集技術(shù)的發(fā)展,目前在社會(huì)經(jīng)濟(jì)、生物醫(yī)學(xué)、環(huán)境工程等各個(gè)領(lǐng)域出現(xiàn)了大量的超高維數(shù)據(jù)。因此,在超高維數(shù)據(jù)框架下,工具變量模型中有效工具變量的識(shí)別問題也是一個(gè)具有挑戰(zhàn)性的課題之一。在接下來的研究中,我們將對(duì)這些問題進(jìn)行深入的探討和研究。