劉 明,宋彥玲
(蘭州財(cái)經(jīng)大學(xué)a.統(tǒng)計(jì)學(xué)院;b.甘肅經(jīng)濟(jì)發(fā)展數(shù)量分析研究中心,蘭州 730020)
實(shí)證分析是經(jīng)濟(jì)學(xué)兩大基本分析方法之一,因具有客觀性等優(yōu)點(diǎn)長(zhǎng)期受到多數(shù)主流經(jīng)濟(jì)學(xué)家的推崇和關(guān)注。“帕累托最優(yōu)”理論被看作是完全的實(shí)證經(jīng)濟(jì)學(xué)理論,瓦爾拉斯、萊昂內(nèi)爾·羅賓斯以及米爾頓·弗里德曼也認(rèn)為經(jīng)濟(jì)學(xué)的構(gòu)建應(yīng)該遵循實(shí)證科學(xué)的方向前進(jìn)。但早期的經(jīng)濟(jì)學(xué)實(shí)證研究并沒(méi)有討論穩(wěn)健性問(wèn)題,因此也受到了批評(píng),學(xué)者們探討的焦點(diǎn)集中于其結(jié)果的可靠性:一方面實(shí)證研究甚少識(shí)別和理解變量間的因果關(guān)系,另一方面,實(shí)證研究中的計(jì)量推斷在附設(shè)模型及其誤差分布上不夠穩(wěn)健。直觀來(lái)看,基于回歸分析的計(jì)量模型絕大多數(shù)是對(duì)樣本數(shù)據(jù)考察的結(jié)果,但研究結(jié)論往往被推廣到總體,這就要求樣本對(duì)總體必須具有足夠的代表性;另外,回歸模型參數(shù)估計(jì)量的無(wú)偏性、有效性及相合性分析結(jié)果必須建立在模型正確設(shè)定的基礎(chǔ)之上,而現(xiàn)實(shí)中這些理想狀態(tài)難以實(shí)現(xiàn)。針對(duì)這些問(wèn)題,后續(xù)的研究開(kāi)始逐漸關(guān)注和討論計(jì)量經(jīng)濟(jì)模型的穩(wěn)健性。查閱當(dāng)前國(guó)內(nèi)外經(jīng)濟(jì)學(xué)實(shí)證研究的文獻(xiàn),幾乎在每一項(xiàng)完備的研究中都能看到關(guān)于穩(wěn)健性討論的內(nèi)容[1—4],但同時(shí)也發(fā)現(xiàn)一些問(wèn)題:一是許多研究中將穩(wěn)健性檢驗(yàn)過(guò)程概述為“對(duì)文章設(shè)定模型變化,發(fā)現(xiàn)模型確實(shí)穩(wěn)健,研究結(jié)果可靠”,而極少有學(xué)者能夠從根源上闡明進(jìn)行穩(wěn)健性檢驗(yàn)的原因、內(nèi)涵及方法邏輯,檢驗(yàn)選擇的隨意性比較明顯;二是穩(wěn)健性檢驗(yàn)方法較多,但缺乏具體的分類,因此在使用時(shí)容易產(chǎn)生混淆,甚至出現(xiàn)同一類方法重復(fù)使用的情況;三是人們對(duì)如何進(jìn)行穩(wěn)健性檢驗(yàn)沒(méi)有形成統(tǒng)一、合理的認(rèn)識(shí)和框架體系,對(duì)于一項(xiàng)定量研究,后續(xù)研究者仍然難以找到考察模型穩(wěn)健性的切入點(diǎn),從而導(dǎo)致基準(zhǔn)模型研究推斷結(jié)果難以令人信服。本文在梳理相關(guān)研究文獻(xiàn)的基礎(chǔ)上,闡明進(jìn)行穩(wěn)健性檢驗(yàn)的原因與方法邏輯,并對(duì)檢驗(yàn)方法進(jìn)行梳理歸類,為經(jīng)濟(jì)學(xué)實(shí)證研究提供科學(xué)的參考基準(zhǔn)。
(1)從經(jīng)濟(jì)學(xué)的角度看,作為研究對(duì)象的經(jīng)濟(jì)問(wèn)題自身具有復(fù)雜性,梳理經(jīng)濟(jì)變量間的復(fù)雜關(guān)系是正確設(shè)定模型的基礎(chǔ),因此,計(jì)量模型的設(shè)定直接受到經(jīng)濟(jì)問(wèn)題復(fù)雜性的影響。其中,因果關(guān)系的復(fù)雜性是最核心的體現(xiàn),具體表現(xiàn)在四個(gè)方面:一是人類經(jīng)濟(jì)行為中幾乎所有的因果對(duì)應(yīng)關(guān)系都是一個(gè)概率事件,識(shí)別難度較大;二是存在條件因果關(guān)系和異質(zhì)性因果關(guān)系,即變量x對(duì)變量y的影響依賴另一變量z、不同個(gè)體下的x對(duì)y的影響存在差異;三是因和果不在同一時(shí)間發(fā)生,可能存在一定的時(shí)滯,例如投資對(duì)經(jīng)濟(jì)增長(zhǎng)的影響,結(jié)果也可能先于原因,再如經(jīng)濟(jì)活動(dòng)中預(yù)期的自我調(diào)整等;四是有時(shí)處理行為往往會(huì)影響未被處理事件,例如一個(gè)人的儲(chǔ)蓄或消費(fèi)行為可能會(huì)受周圍人的影響,經(jīng)濟(jì)現(xiàn)象存在空間相關(guān)關(guān)系等。從理論角度識(shí)別和解釋這些復(fù)雜的因果關(guān)系,理論模型必須簡(jiǎn)化,相應(yīng)的實(shí)證模型也必須簡(jiǎn)化,本質(zhì)上經(jīng)濟(jì)理論無(wú)法提供精確的變量測(cè)量、模型設(shè)計(jì),也無(wú)法精確考慮個(gè)體之間的時(shí)間異質(zhì)性、動(dòng)態(tài)性及空間依存關(guān)系等。也就是說(shuō),用于指導(dǎo)模型設(shè)定的經(jīng)濟(jì)學(xué)理論框架可能因?yàn)閺?fù)雜性的存在(例如因果關(guān)系)而和客觀事實(shí)相悖,進(jìn)行穩(wěn)健性檢驗(yàn)的實(shí)質(zhì)是檢驗(yàn)經(jīng)濟(jì)學(xué)理論框架是否完備。
(2)從統(tǒng)計(jì)學(xué)的角度看,統(tǒng)計(jì)學(xué)或計(jì)量經(jīng)濟(jì)學(xué)方法本身具有一定的局限性。一是研究對(duì)象總體樣本的獲取幾乎不可能實(shí)現(xiàn),實(shí)證研究中往往是以樣本推斷總體。一方面,即使樣本具有足夠的代表性,基于總體樣本的推斷在劃分不同類別樣本后是否具有普遍性也難以確定;另一方面,樣本奇異值的存在是否對(duì)推斷結(jié)果造成了影響往往都需要進(jìn)行進(jìn)一步檢驗(yàn)。二是為得到核心解釋變量影響的凈效應(yīng),通常會(huì)在實(shí)證模型中引入控制變量來(lái)構(gòu)造類似科學(xué)實(shí)驗(yàn)的環(huán)境,但構(gòu)造的科學(xué)環(huán)境是否完全正確,本身也存在一定的不確定性。更換一組控制變量重新構(gòu)造這個(gè)實(shí)驗(yàn)環(huán)境,研究結(jié)果是否依然成立也有待進(jìn)行進(jìn)一步檢驗(yàn)。三是實(shí)證分析過(guò)程中所能運(yùn)用的模型很難與經(jīng)濟(jì)理論完全對(duì)應(yīng)。例如不論是基于H-O 理論還是新貿(mào)易理論,都可以利用引力模型作為實(shí)證分析的基準(zhǔn)模型,在此情形下基于統(tǒng)計(jì)數(shù)據(jù)的模型估計(jì)與檢驗(yàn)結(jié)果都難以確認(rèn)經(jīng)濟(jì)理論是否可靠。
基于上述原因,實(shí)證模型能否客觀反映理論事實(shí)存在著不確定性,即模型的估計(jì)或因果推斷可能無(wú)效,或有效性不確定,這是進(jìn)行穩(wěn)健性檢驗(yàn)的主要原因?;诙鄠€(gè)合理的模型設(shè)定進(jìn)行估計(jì),如果穩(wěn)健性檢驗(yàn)?zāi)P湍軌虬l(fā)現(xiàn)相同或相近的估計(jì),即使穩(wěn)健性檢驗(yàn)會(huì)增加多重模型估計(jì)的不確定性,但也會(huì)在總體上增加基準(zhǔn)模型推斷結(jié)果的可信度。
(1)模型設(shè)定檢驗(yàn)包含相對(duì)檢驗(yàn)、模型擬合檢驗(yàn)和分析殘差結(jié)構(gòu)的模型擬合檢驗(yàn)共三大類。其中,相對(duì)檢驗(yàn)有Hausman 檢驗(yàn)、AIC 檢驗(yàn)、BIC 檢驗(yàn)等,主要用于評(píng)判在兩個(gè)或多個(gè)理論無(wú)法判別“好”“壞”的模型中,哪個(gè)在統(tǒng)計(jì)意義上具有更好的估計(jì)效果。不論是遺漏解釋變量還是誤設(shè)動(dòng)態(tài)性,Hausman 檢驗(yàn)總是將一個(gè)模型設(shè)為固定效應(yīng),將另一個(gè)模型設(shè)為隨機(jī)效應(yīng),在比較二者參數(shù)估計(jì)的差異之后進(jìn)行選擇。AIC和BIC檢驗(yàn)通過(guò)加入模型復(fù)雜程度的懲罰項(xiàng)來(lái)避免過(guò)度擬合問(wèn)題,通常AIC和BIC值越小的模型過(guò)度擬合程度越低,越具有吸引力。模型擬合檢驗(yàn)的主要作用在于判斷和評(píng)估模型質(zhì)量,有t 檢驗(yàn)、R2、F 檢驗(yàn)等。t檢驗(yàn)是關(guān)于模型估計(jì)系數(shù)有效性的檢驗(yàn),t檢驗(yàn)的絕對(duì)值越大,估計(jì)系數(shù)的P值將越小、顯著性越強(qiáng);R2、F檢驗(yàn)均是以回歸平方和與殘差平方和為基礎(chǔ)構(gòu)造的檢驗(yàn)統(tǒng)計(jì)量,一般而言R2越大表明模型擬合效果越好,F(xiàn) 檢驗(yàn)的顯著性越強(qiáng),表明模型整體解釋變量的有效性越強(qiáng),當(dāng)R2越大時(shí),F(xiàn)檢驗(yàn)值也會(huì)越大。分析殘差結(jié)構(gòu)的模型擬合檢驗(yàn)包括White 檢驗(yàn)、DW 檢驗(yàn)等一系列異方差和序列相關(guān)檢驗(yàn)方法。這類檢驗(yàn)通過(guò)檢查殘差項(xiàng)與解釋變量及殘差項(xiàng)之間的相關(guān)性來(lái)評(píng)估模型設(shè)定的質(zhì)量,也是研究者比較推崇的模型設(shè)定質(zhì)量評(píng)估方法。本質(zhì)上模型設(shè)定檢驗(yàn)提供了基準(zhǔn)模型在統(tǒng)計(jì)意義上沒(méi)有誤設(shè)的證據(jù),但從穩(wěn)健性角度來(lái)看,模型設(shè)定檢驗(yàn)存在兩個(gè)方面的問(wèn)題:一是不論何種模型設(shè)定檢驗(yàn)方法,都只能顯示存在的問(wèn)題,而無(wú)法識(shí)別存在問(wèn)題的原因;二是能通過(guò)模型設(shè)定檢驗(yàn)的模型(“合理的”模型)通常不止一個(gè),對(duì)于這些沒(méi)有被明顯誤設(shè)的模型,很難在他們之間做出決定性區(qū)分。因此,為提高檢驗(yàn)推斷有效性,必須對(duì)“合理的”模型估計(jì)結(jié)果進(jìn)一步執(zhí)行穩(wěn)健性檢驗(yàn)。
(2)模型選擇算法是機(jī)器學(xué)習(xí)中模型選擇的一種方法,其主要思想是:在大量“合理的”模型中選擇最優(yōu)模型,包括交叉驗(yàn)證、特征選擇等。交叉驗(yàn)證是對(duì)大量模型中的每一個(gè)模型在樣本集上進(jìn)行訓(xùn)練,選擇具有最小誤差的模型。特征選擇是通過(guò)前向搜索、后向搜索等方法對(duì)變量進(jìn)行篩選,一方面選擇在特定樣本集上更具解釋力的模型,另一方面防止過(guò)度擬合。從穩(wěn)健性角度來(lái)看依然存在以下缺陷:模型選擇算法通常將推斷建立在選定的模型基礎(chǔ)上,沒(méi)有且不可能同時(shí)對(duì)所有函數(shù)形式、變量等條件不同的模型進(jìn)行篩選檢驗(yàn),這會(huì)導(dǎo)致遺失有用的信息;對(duì)觀測(cè)數(shù)據(jù)比較敏感,觀測(cè)數(shù)據(jù)較小的變動(dòng)就可能導(dǎo)致選擇不同的模型,估計(jì)結(jié)果變化較大。因此,模型選擇算法亦不能解決模型不確定性所有維度的問(wèn)題,也需要通過(guò)穩(wěn)健性檢驗(yàn)來(lái)進(jìn)一步論證其估計(jì)結(jié)果的可靠性。
(3)模型平均法認(rèn)為,較為科學(xué)合理的預(yù)測(cè)方法是將多個(gè)模型結(jié)果通過(guò)科學(xué)的權(quán)重選擇進(jìn)行組合,最大化利用可得到的信息,以保證分析結(jié)果的可靠性。然而,模型平均法可能在一個(gè)包含數(shù)以千、萬(wàn)甚至億計(jì)的模型空間中處理問(wèn)題,其中也包含大量幾乎完全不合理的模型;同時(shí),模型平均法也依賴諸如模型函數(shù)形式、樣本來(lái)源于總體等一系列假設(shè),因此,模型平均法仍然需要通過(guò)穩(wěn)健性檢驗(yàn)來(lái)進(jìn)一步驗(yàn)證其結(jié)果是否可靠。
(4)案例研究是研究者根據(jù)研究問(wèn)題背景、屬性等細(xì)致挑選案例,系統(tǒng)搜集數(shù)據(jù)資料,進(jìn)而探討經(jīng)濟(jì)現(xiàn)象問(wèn)題的一種方法,一般適用于現(xiàn)象與實(shí)際環(huán)境邊界不清晰且不容易區(qū)分,或研究者無(wú)法設(shè)計(jì)準(zhǔn)確、直接、系統(tǒng)性控制變量的情形??紤]穩(wěn)健性,案例研究一方面會(huì)增加分析案例的同質(zhì)性,容易剔除混淆因素,做出有效推斷;另一方面,挑選案例會(huì)減少樣本所包含案例的數(shù)量和類型,在因果異質(zhì)性和環(huán)境條件性的現(xiàn)實(shí)世界,這種挑選將使得樣本屬性與總體屬性發(fā)生偏差,從而導(dǎo)致案例研究結(jié)果難以推廣到總體。同時(shí),除異質(zhì)性影響之外,案例研究也會(huì)受到其他模型不確定性的影響,包括概念有效性、測(cè)量誤差和空間依存等。因此,案例研究亦需要穩(wěn)健性檢驗(yàn)來(lái)衡量估計(jì)效果的推廣程度。合成控制法是案例研究中出現(xiàn)的一種較新的方法,當(dāng)前應(yīng)用較為廣泛,值得注意的是,僅有基于真實(shí)模型的案例匹配才會(huì)估計(jì)出一個(gè)無(wú)偏的結(jié)果,若匹配算法排除了真實(shí)模型中的一個(gè)或多個(gè)變量,匹配估計(jì)就會(huì)存在偏差。因此,對(duì)于合成控制法的研究結(jié)果,為提高其可信度亦需要進(jìn)行穩(wěn)健性檢驗(yàn)。
(5)社會(huì)科學(xué)實(shí)驗(yàn)可以用實(shí)驗(yàn)數(shù)據(jù)代替觀測(cè)數(shù)據(jù),解決了因觀測(cè)數(shù)據(jù)雜亂無(wú)章引起的模型估計(jì)偏誤,但仍然存在三個(gè)方面的不確定性:一是社會(huì)科學(xué)實(shí)驗(yàn)通常是基于小樣本進(jìn)行的,此時(shí)潛在混淆變量的影響是否能被明確分辨存在不確定性,若實(shí)驗(yàn)組和對(duì)照組中混淆因素較為稀有,則在小樣本下能夠較為準(zhǔn)確地分辨混淆因素;反之,若實(shí)驗(yàn)組和對(duì)照組中混淆因素較為密集,則此時(shí)分辨混淆因素的難度大幅增加,實(shí)驗(yàn)結(jié)果的可信度會(huì)降低。二是實(shí)驗(yàn)處理和設(shè)計(jì)不同于真實(shí)世界的處理和設(shè)計(jì),組織實(shí)驗(yàn)者不一定知道實(shí)驗(yàn)發(fā)現(xiàn)代表了真實(shí)世界的何種行為,這使得實(shí)驗(yàn)處理概念的有效性具有不確定性。三是實(shí)驗(yàn)通常從預(yù)先選定的樣本中抽取實(shí)驗(yàn)組,不論用何種方法進(jìn)行挑選,預(yù)選樣本的分布都很難與總體樣本分布完全相同,存在一定的選擇偏差,而實(shí)驗(yàn)組內(nèi)部的隨機(jī)化處理無(wú)法消除這種偏差。同時(shí),社會(huì)科學(xué)實(shí)驗(yàn)還可能發(fā)生在特定環(huán)境之中,此時(shí)得出的結(jié)論對(duì)總體無(wú)效,因此,社會(huì)科學(xué)實(shí)驗(yàn)本身也需要進(jìn)行穩(wěn)健性檢驗(yàn)。
綜上所述,常見(jiàn)的模型設(shè)定檢驗(yàn)、模型選擇算法、案例研究以及社會(huì)科學(xué)實(shí)驗(yàn)等方法本身也存在諸多設(shè)定不確定性問(wèn)題,他們不僅不能夠替代穩(wěn)健性檢驗(yàn),而且需要進(jìn)一步的穩(wěn)健性檢驗(yàn)來(lái)探索其估計(jì)效應(yīng)是否穩(wěn)健,即弄清估計(jì)效應(yīng)對(duì)模型設(shè)定和理論要求的依賴。因此,穩(wěn)健性檢驗(yàn)是實(shí)證研究中的必要內(nèi)容,不能被其他具有類似功能的方法替代。
一項(xiàng)可靠的穩(wěn)健性檢驗(yàn)是有因有果、前后對(duì)應(yīng)、自成體系的,例如韋倩等(2014)[2]在研究市場(chǎng)力量對(duì)中國(guó)沿海地區(qū)崛起的作用時(shí),從四個(gè)方面進(jìn)行了穩(wěn)健性檢驗(yàn):一是考慮地理因素的影響,采用了某地區(qū)是否為沿海地區(qū)虛擬變量和省會(huì)城市離上海和香港的距離兩種方法對(duì)地理因素進(jìn)行度量。二是考慮內(nèi)生因果關(guān)系對(duì)模型估計(jì)造成的影響,將原始數(shù)據(jù)劃分為五個(gè)時(shí)間段,對(duì)被解釋變量和一部分解釋變量計(jì)算該時(shí)間段內(nèi)的均值形成新的變量;另一部分解釋變量取不同時(shí)間段內(nèi)的初始值,打亂其內(nèi)在的因果聯(lián)系對(duì)模型進(jìn)行了重新估計(jì)。三是考慮研究中自設(shè)市場(chǎng)因素變量本身也會(huì)存在概念有效性偏誤,用普遍認(rèn)可的市場(chǎng)化指數(shù)代替,對(duì)模型進(jìn)行了重新估計(jì)。四是將研究樣本的時(shí)間序列進(jìn)行擴(kuò)展,加入1956—1978 年計(jì)劃經(jīng)濟(jì)時(shí)代市場(chǎng)機(jī)制“天然”缺失機(jī)會(huì),設(shè)置虛擬變量進(jìn)一步進(jìn)行了穩(wěn)健性檢驗(yàn)。再如申廣軍等(2016)[1]利用2009 年增值稅改革政策沖擊,基于微觀層面數(shù)據(jù)分析增值稅率下降影響企業(yè)生產(chǎn),進(jìn)一步影響宏觀經(jīng)濟(jì)增長(zhǎng)的作用時(shí),從四個(gè)方面進(jìn)行了穩(wěn)健性檢驗(yàn):一是考慮采用企業(yè)實(shí)際繳納增值稅這一核心解釋變量面臨的測(cè)量誤差風(fēng)險(xiǎn),采用備選指標(biāo)增值稅應(yīng)繳納稅率替代核心解釋變量進(jìn)行分析;二是考慮企業(yè)進(jìn)入和退出的影響,保留了連續(xù)三年存在的企業(yè)為子樣本,利用平衡面板數(shù)據(jù)解決樣本選擇問(wèn)題;三是考慮了增值稅改革自身的內(nèi)生性問(wèn)題;四是考慮除企業(yè)層面異質(zhì)性外,其他隨時(shí)間變動(dòng)的因素對(duì)企業(yè)行為和績(jī)效的影響,包括行業(yè)、省份及稅收優(yōu)惠三種異質(zhì)性趨勢(shì)下增值稅降低對(duì)企業(yè)行為和績(jī)效的影響。這類研究對(duì)樣本選取、模型設(shè)計(jì)和變量指標(biāo)選擇中存在不確定性或較為主觀的方面有著明確的說(shuō)明,基于對(duì)核心解釋變量主觀性和測(cè)量誤差的考慮,進(jìn)一步對(duì)為何從這些方面出發(fā)進(jìn)行穩(wěn)健性檢驗(yàn)有全面、明確的原因闡述;與此同時(shí),對(duì)穩(wěn)健性檢驗(yàn)方法的選擇均結(jié)合所研究的問(wèn)題進(jìn)行了嚴(yán)謹(jǐn)論述,可以從中清晰地探測(cè)到研究者的邏輯思考和方法選擇過(guò)程。Neumayer 和Plu?mper(2017)[3]將這種穩(wěn)健性檢驗(yàn)邏輯步驟概括為“四步法”:第一步,根據(jù)研究理論及研究問(wèn)題需要,確定基準(zhǔn)模型;第二步,識(shí)別基準(zhǔn)模型中所包含的假設(shè);第三步,以改變基準(zhǔn)模型假設(shè)的方式發(fā)展模型,這些模型就是備選穩(wěn)健性檢驗(yàn)?zāi)P?;第四步,比較每一個(gè)穩(wěn)健性檢驗(yàn)?zāi)P秃突鶞?zhǔn)模型的估計(jì)效應(yīng),對(duì)穩(wěn)健性進(jìn)行分析。第一步是實(shí)證研究的必要步驟,也存在較多爭(zhēng)議,由理論模型逐步演化而來(lái)的實(shí)證基準(zhǔn)模型往往更具說(shuō)服力,設(shè)計(jì)構(gòu)建基于討論、敘述型理論分析的實(shí)證基準(zhǔn)模型則更多以“借鑒已有研究”來(lái)反駁質(zhì)疑。當(dāng)然,基準(zhǔn)模型的設(shè)定并不僅限于此,通常研究者還應(yīng)對(duì)基準(zhǔn)模型進(jìn)行一系列模型設(shè)定檢驗(yàn)。例如基于殘差結(jié)構(gòu)進(jìn)行的檢驗(yàn),要保證基準(zhǔn)模型在統(tǒng)計(jì)意義上不是已知被誤設(shè)或一開(kāi)始不會(huì)被質(zhì)疑,若基準(zhǔn)模型的設(shè)定不合理,則后續(xù)的穩(wěn)健性檢驗(yàn)便沒(méi)有任何意義。第二步是對(duì)可能造成基準(zhǔn)模型不穩(wěn)健的原因展開(kāi)分析,需要識(shí)別的假設(shè)就是基準(zhǔn)模型設(shè)定中存在不確定性而研究者假設(shè)其合理的地方。這些地方可以是基于經(jīng)濟(jì)意義的思考,比如核心解釋變量的選擇、樣本的選擇,尤其是微觀數(shù)據(jù)研究中的樣本選擇,也可以是基于統(tǒng)計(jì)思想的考慮,比如內(nèi)生性、遺漏重要解釋變量等,這也正是為什么“如此”進(jìn)行穩(wěn)健性檢驗(yàn)的原因。許多研究者在文章中會(huì)省略對(duì)這一過(guò)程的論述,但這恰巧也是讓讀者產(chǎn)生質(zhì)疑、造成穩(wěn)健性檢驗(yàn)選擇隨意等不良錯(cuò)覺(jué)的根本所在。因此,本文認(rèn)為在進(jìn)行穩(wěn)健性檢驗(yàn)時(shí),研究者有必要對(duì)基準(zhǔn)模型包含的假設(shè)或?yàn)楹稳绱诉M(jìn)行穩(wěn)健性檢驗(yàn)進(jìn)行闡釋,盡可能排除所用模型不正確的可能性。第三步通過(guò)改變模型的基準(zhǔn)假設(shè),對(duì)被檢驗(yàn)的模型進(jìn)行改變,以此作為基準(zhǔn)模型的對(duì)比形式。這是第二步內(nèi)容的進(jìn)一步實(shí)踐,同時(shí)也是第四步的開(kāi)端。第四步是穩(wěn)健性檢驗(yàn)結(jié)果的分析,現(xiàn)有研究普遍認(rèn)為,若穩(wěn)健性檢驗(yàn)?zāi)P徒Y(jié)果在系數(shù)大小、方向及顯著性(尤其是方向和顯著性)上沒(méi)有較大的改變,則可認(rèn)為基準(zhǔn)模型研究結(jié)果穩(wěn)健可靠,方向和顯著性“較大的變化”容易理解,但“較大的變化”所表示的范圍如何似乎沒(méi)有嚴(yán)格的標(biāo)準(zhǔn)。為嚴(yán)格定義結(jié)果的穩(wěn)健性,Neumayer和Plu?mper(2017)[3]提出了穩(wěn)健度(ρ)的概念,即穩(wěn)健性檢驗(yàn)?zāi)P偷母怕拭芏群瘮?shù)落入基準(zhǔn)模型概率密度函數(shù)95%置信區(qū)間的份額或百分比,如式(1)所示:
考慮簡(jiǎn)單情況,可令基準(zhǔn)模型估計(jì)系數(shù)βb的概率密度函數(shù)為
其中,和分別為穩(wěn)健性模型和基準(zhǔn)模型參數(shù)估計(jì)值,和分別為穩(wěn)健性檢驗(yàn)?zāi)P秃突鶞?zhǔn)模型變量標(biāo)準(zhǔn)誤。
“四步法”邏輯從“識(shí)別”到“實(shí)踐”的邏輯思路呈現(xiàn)了一個(gè)較為完整的穩(wěn)健性檢驗(yàn)分析、思考過(guò)程,也闡明了實(shí)證研究的研究設(shè)計(jì)需要包含的重要環(huán)節(jié),對(duì)研究者設(shè)計(jì)穩(wěn)健性檢驗(yàn)具有重要的啟發(fā)和引領(lǐng)作用。
不同的建模假設(shè)決定了如何選擇穩(wěn)健性檢驗(yàn),由此可將穩(wěn)健性檢驗(yàn)分為模型變異檢驗(yàn)、隨機(jī)置換檢驗(yàn)、結(jié)構(gòu)置換檢驗(yàn)、穩(wěn)健性極限檢驗(yàn)以及安慰劑檢驗(yàn)共五種類型。
模型變異檢驗(yàn)是以離散的方式改變模型的某一個(gè)方面,從而進(jìn)行穩(wěn)健性分析。模型變異檢驗(yàn)較為常見(jiàn),增加或減少解釋變量、改變模型函數(shù)形式、改變樣本容量等均可歸入該類型,這類方法的優(yōu)點(diǎn)是容易找到備選策略并進(jìn)行穩(wěn)健性檢驗(yàn),但也會(huì)存在同義反復(fù)等缺陷。隨機(jī)置換檢驗(yàn)是從大量看似合理的備選模型中隨機(jī)選擇穩(wěn)健性檢驗(yàn)?zāi)P?,包括分割樣本檢驗(yàn)、基于解釋變量集合的敏感性分析、任意置換測(cè)量誤差范圍的檢驗(yàn)[4]。隨機(jī)置換檢驗(yàn)一個(gè)致命的缺陷是,如果檢驗(yàn)前后模型空間無(wú)法限制,那么檢驗(yàn)結(jié)果就變得難以解釋;結(jié)構(gòu)置換檢驗(yàn)是在一個(gè)小空間內(nèi)窮盡所有可能的替代模型,或以結(jié)構(gòu)化的方式選擇少數(shù)幾個(gè)模型進(jìn)行穩(wěn)健性分析。例如,對(duì)于某些變量,如滿意度、腐敗程度等,可以以0 為分界點(diǎn),在-10—10 的標(biāo)尺范圍內(nèi)進(jìn)行選擇,也可定義5為分界點(diǎn),在0—10的標(biāo)尺范圍內(nèi)進(jìn)行選擇,結(jié)構(gòu)置換檢驗(yàn)可以使用所有合理的分界點(diǎn)進(jìn)行分析,討論結(jié)果是否發(fā)生了改變。穩(wěn)健性極限檢驗(yàn)通過(guò)探討哪種模型設(shè)定會(huì)使得基準(zhǔn)模型的估計(jì)不穩(wěn)健,利用反證法的思想對(duì)基準(zhǔn)模型的穩(wěn)健性進(jìn)行檢驗(yàn),這種模型可能代表了模型誤設(shè)??紤]非時(shí)變“不可觀測(cè)的異質(zhì)性”是否會(huì)讓基準(zhǔn)模型變得不穩(wěn)健時(shí)的檢驗(yàn),可歸為穩(wěn)健性極限檢驗(yàn)。例如申廣軍等(2016)[1]研究穩(wěn)健性檢驗(yàn)中考慮除企業(yè)異質(zhì)性層面的影響之外,行業(yè)、省份及稅收優(yōu)惠三種異質(zhì)性趨勢(shì)下增值稅降低對(duì)企業(yè)行為和績(jī)效的影響。安慰劑檢驗(yàn)通常有兩種做法,一是用安慰劑變量代替因變量,檢驗(yàn)在預(yù)期無(wú)效的條件下感興趣的變量沒(méi)有效果,二是用安慰劑變量代替處理變量,檢驗(yàn)這個(gè)安慰劑變量沒(méi)有效果。第一種方法在單一模型運(yùn)算下無(wú)法做出定論,故不常用;第二種方法在實(shí)證研究中較為常見(jiàn),如利用PSM-DID模型評(píng)判政策效應(yīng)時(shí),研究者總會(huì)利用將政策提出時(shí)間前移,說(shuō)明此時(shí)的政策變量沒(méi)有效果,以達(dá)到一定穩(wěn)健性檢驗(yàn)的要求。
可以看出,上述五種穩(wěn)健性檢驗(yàn)均假設(shè)基準(zhǔn)模型是正確設(shè)定的或至少在某個(gè)維度存在確定性,并在不同維度放松基準(zhǔn)模型所包含假設(shè)而進(jìn)行穩(wěn)健性檢驗(yàn)分類,故本文將其概括為基于模型假設(shè)的穩(wěn)健性檢驗(yàn)類型。不難發(fā)現(xiàn),基于模型假設(shè)的穩(wěn)健性檢驗(yàn)在操作思維上較為抽象,并且要求研究者做到統(tǒng)籌全局,盡可能識(shí)別基準(zhǔn)模型所包含的全部假設(shè)。另外,在實(shí)際檢驗(yàn)過(guò)程中,一種穩(wěn)健性檢驗(yàn)方法也可能同時(shí)屬于兩種或兩種以上的穩(wěn)健性檢驗(yàn)類型,例如將樣本逐個(gè)減少進(jìn)行穩(wěn)健性檢驗(yàn),既可認(rèn)為是模型變異檢驗(yàn),也可屬于隨機(jī)置換檢驗(yàn)。因此,從實(shí)際操作來(lái)看這種分類較為抽象,有待于挖掘更易理解和分辨的穩(wěn)健性檢驗(yàn)分類。
進(jìn)行穩(wěn)健性檢驗(yàn)的原因在于實(shí)證模型充滿不確定性,因而可以從不確定性維度得到另一種穩(wěn)健性檢驗(yàn)的分類方式。經(jīng)濟(jì)模型的不確定性體現(xiàn)在實(shí)證研究過(guò)程的所有環(huán)節(jié)。在模型設(shè)定環(huán)節(jié)容易出現(xiàn)兩種不確定性:一是變量方面的不確定性,包括可能存在的遺漏變量和多選無(wú)關(guān)變量,二是模型形式選擇的不確定性。在變量衡量指標(biāo)選擇環(huán)節(jié),對(duì)于解釋變量和被解釋變量具體指標(biāo)的選擇,往往會(huì)存在概念有效性難以準(zhǔn)確判斷等問(wèn)題。在數(shù)據(jù)搜尋環(huán)節(jié),常見(jiàn)的問(wèn)題包括樣本有效性較難確定、數(shù)據(jù)缺失嚴(yán)重等。在模型估計(jì)環(huán)節(jié),通常需要檢驗(yàn)基于真實(shí)數(shù)據(jù)的模型是否滿足經(jīng)典計(jì)量模型的基本假設(shè),包括內(nèi)生性等。因此,基于實(shí)證研究各環(huán)節(jié)存在的不確定性,穩(wěn)健性檢驗(yàn)的類型可以進(jìn)一步擴(kuò)展,也更易被理解和接受。故可以將穩(wěn)健性檢驗(yàn)劃分為總體或樣本不確定的穩(wěn)健性檢驗(yàn)、概念有效性和測(cè)量不確定的穩(wěn)健性檢驗(yàn)、存在內(nèi)生性的穩(wěn)健性檢驗(yàn)、模型函數(shù)形式不確定的穩(wěn)健性檢驗(yàn)和考慮異質(zhì)性的穩(wěn)健性檢驗(yàn)共五種類型。
總體或樣本不確定的穩(wěn)健性檢驗(yàn)是指包含總體或樣本觀測(cè)邊界不確定、總體或樣本存在奇異值、總體或樣本部分觀測(cè)值缺失①若只考慮總體或樣本的不確定,則應(yīng)包含樣本自選擇問(wèn)題,而樣本自選擇往往和內(nèi)生性緊密相連,因此本文將其歸入存在內(nèi)生性的穩(wěn)健性檢驗(yàn)類型。的穩(wěn)健性檢驗(yàn)??紤]總體或樣本不確定性,研究者常以包含可能不屬于總體的觀測(cè)值、剔除可能屬于總體的觀測(cè)值、擴(kuò)充樣本容量、選擇子樣本進(jìn)行回歸、上下縮尾剔除異常值等方法進(jìn)行穩(wěn)健性檢驗(yàn),具體如表1所示。
表1 總體或樣本不確定的穩(wěn)健性檢驗(yàn)方法
概念有效性和測(cè)量不確定的穩(wěn)健性檢驗(yàn)包含概念有效性的穩(wěn)健性檢驗(yàn)和測(cè)量不確定的穩(wěn)健性檢驗(yàn),兩者看似無(wú)關(guān),但實(shí)際中概念有效性的難以確定往往會(huì)導(dǎo)致無(wú)法對(duì)所研究的問(wèn)題進(jìn)行統(tǒng)計(jì)測(cè)量,因而兩者間也存在緊密的聯(lián)系。概念有效性的不確定有兩個(gè)根本原因:一是多維性,例如對(duì)于“健康”這一概念,劉暢等(2017)[9]的研究給出了6 個(gè)維度的度量方法。二是缺乏一致的定義,例如“技術(shù)創(chuàng)新”,研究中經(jīng)常以行為和結(jié)果兩種形式衡量。系統(tǒng)性測(cè)量誤差是測(cè)量不確定的另一個(gè)重要原因,在現(xiàn)實(shí)世界中占主導(dǎo)地位,其主要來(lái)源有三個(gè):一是測(cè)量過(guò)程的性質(zhì)。例如小地震的死亡人數(shù)測(cè)量會(huì)較為精確,而大地震的死亡人數(shù)會(huì)因基礎(chǔ)設(shè)施破壞較為嚴(yán)重等而難以測(cè)量,測(cè)量誤差也會(huì)增大。二是在缺失測(cè)量制度和測(cè)量單位的情況下,個(gè)體自量化變量時(shí)通常會(huì)對(duì)量化施以影響。例如訪談?wù){(diào)查中,很多變量會(huì)受到訪談人員主觀意識(shí)的影響。三是研究者進(jìn)行了不正當(dāng)?shù)霓D(zhuǎn)換。例如對(duì)次序變量計(jì)算算數(shù)平均值。測(cè)量誤差往往會(huì)導(dǎo)致模型估計(jì)中真實(shí)信息被隱藏、無(wú)法顯示無(wú)誤差數(shù)據(jù)中存在的關(guān)系甚至估計(jì)系數(shù)的符號(hào)相反等情形。針對(duì)概念有效性不確定,研究者常采用變量替換法進(jìn)行穩(wěn)健性檢驗(yàn),包括考慮多維性采用的綜合指標(biāo)替代法和考慮缺乏統(tǒng)一定義而采用的單一變量替代法;針對(duì)測(cè)量誤差的存在則可采用改變變量尺度、再分類等方法進(jìn)行檢驗(yàn)。具體如表2所示。
表2 概念有效性和測(cè)量誤差不確定的穩(wěn)健性檢驗(yàn)方法
存在內(nèi)生性的穩(wěn)健性檢驗(yàn)在研究中較為常見(jiàn)。對(duì)于存在內(nèi)生性的原因,往往有以下幾種解釋:一是存在內(nèi)生的因果循環(huán)關(guān)系;二是遺漏了重要的解釋變量;三是樣本的自選擇。關(guān)于內(nèi)生性檢驗(yàn)的方法主要有工具變量法、加入滯后期和Heckman兩階段模型,考慮遺漏變量的影響研究者還會(huì)加入新的控制變量進(jìn)行檢驗(yàn)。具體如表3所示。
表3 存在內(nèi)生性的穩(wěn)健性檢驗(yàn)方法
模型函數(shù)形式不確定的穩(wěn)健性檢驗(yàn)來(lái)自通過(guò)經(jīng)濟(jì)理論推演便可得到模型函數(shù)形式的例子很少,許多研究中變量間的函數(shù)形式事先并不知曉,研究者必須自行設(shè)定函數(shù)形式進(jìn)行分析驗(yàn)證,而這種模型形式的設(shè)定與研究者自身知識(shí)儲(chǔ)備等密切相關(guān)。針對(duì)模型函數(shù)形式的不確定,Neumayer 和Plu?mper(2017)[3]在研究中提出了三種檢驗(yàn)方法:一是高次多項(xiàng)式檢驗(yàn),即通過(guò)一個(gè)高次多項(xiàng)式模型來(lái)放松函數(shù)形式假設(shè),例如以下兩個(gè)模型:
模型(2)與模型(3)關(guān)于x求一階和二階導(dǎo)數(shù),并令其等于0。容易判斷雖然兩模型的函數(shù)形式不同,但具有相同的拐點(diǎn),僅傾斜度存在差異,因此可利用模型(2)對(duì)模型(3)進(jìn)行穩(wěn)健性檢驗(yàn)。二是半?yún)?shù)檢驗(yàn),即通過(guò)一個(gè)半?yún)?shù)模型來(lái)放松模型函數(shù)形式假設(shè)。三是函數(shù)形式中斷檢驗(yàn),即加入一個(gè)虛擬變量,在斷點(diǎn)處允許函數(shù)模型有不同的效應(yīng)。不難看出,上述三種方法更多是針對(duì)非線性模型函數(shù)形式不確定的檢驗(yàn)。對(duì)于線性概率模型,蔡曉慧和茹玉驄(2016)[15]用條件Logit、Probit 和Tobit 模型替換了線性基準(zhǔn)模型進(jìn)行穩(wěn)健性檢驗(yàn)。對(duì)于普通線性函數(shù)模型,許培源和程欽良(2020)[16]在基準(zhǔn)模型中加入了因變量的滯后項(xiàng),改變模型函數(shù)形式進(jìn)行了穩(wěn)健性檢驗(yàn)。具體如表4所示。
表4 模型函數(shù)形式不確定的穩(wěn)健性檢驗(yàn)
考慮異質(zhì)性的穩(wěn)健性檢驗(yàn)包含關(guān)于因果異質(zhì)性與環(huán)境條件性的穩(wěn)健性檢驗(yàn)、異質(zhì)性時(shí)間趨勢(shì)穩(wěn)健性檢驗(yàn)以及時(shí)間異質(zhì)性結(jié)構(gòu)變化檢驗(yàn)。因果異質(zhì)性為針對(duì)不同類型的人、地區(qū)、行業(yè)等,對(duì)于一項(xiàng)刺激可能會(huì)做出不同程度或完全不同的反應(yīng),環(huán)境條件性暗含分析單元同質(zhì),但針對(duì)不同的刺激環(huán)境因果關(guān)系可能會(huì)發(fā)生變化,實(shí)際中很難將因果異質(zhì)性和環(huán)境條件性分開(kāi)處理,且二者之間存在或多或少的聯(lián)系,因此實(shí)證研究中也往往將兩者同時(shí)處理。異質(zhì)性趨勢(shì)是指部分因素隨時(shí)間的變化而變化,會(huì)混淆研究變量對(duì)目標(biāo)變量的影響。例如申廣軍等(2016)[1]指出,如果政府積極扶持某一行業(yè),為其提供了多種機(jī)遇,那么這一行業(yè)會(huì)快速發(fā)展,從而混淆了增值稅改革對(duì)企業(yè)行為和績(jī)效的影響。時(shí)間異質(zhì)性是指在某一個(gè)或某些時(shí)間節(jié)點(diǎn),自變量x對(duì)因變量y的影響強(qiáng)度或方向可能發(fā)生變化,例如金融危機(jī)前后的貨幣、財(cái)政政策對(duì)宏觀經(jīng)濟(jì)的影響可能發(fā)生變化??赡艽嬖谝蚬愘|(zhì)性和環(huán)境條件性時(shí),研究者會(huì)采用分樣本回歸方法;可能存在異質(zhì)性時(shí)間趨勢(shì)時(shí),固定隨時(shí)間變化的因素是常用的穩(wěn)健性檢驗(yàn)方法;可能存在時(shí)間異質(zhì)性結(jié)構(gòu)變化時(shí)的穩(wěn)健性檢驗(yàn)方法有擴(kuò)展時(shí)間窗口、縮短時(shí)間窗口、切割時(shí)間段、滾動(dòng)時(shí)間窗口等方法,具體如表5所示。
表5 考慮異質(zhì)性的穩(wěn)健性檢驗(yàn)
進(jìn)一步地,穩(wěn)健性檢驗(yàn)“四步法”邏輯步驟中的第二步逐一識(shí)別基準(zhǔn)模型所包含的假設(shè),可闡述為從模型設(shè)定環(huán)節(jié)出發(fā),識(shí)別基準(zhǔn)模型所包含的不確定性。由此,研究者能有清晰方向查找基準(zhǔn)模型的缺陷,闡明緣由并進(jìn)行更全面的穩(wěn)健性檢驗(yàn)。
由于經(jīng)濟(jì)問(wèn)題自身因果關(guān)系的復(fù)雜性,統(tǒng)計(jì)或計(jì)量方法本身無(wú)法準(zhǔn)確衡量樣本的代表性、無(wú)法準(zhǔn)確設(shè)定類似科學(xué)實(shí)驗(yàn)的模型等局限,往往會(huì)導(dǎo)致實(shí)證模型存在不確定性,這是進(jìn)行穩(wěn)健性檢驗(yàn)的根本原因。盡管存在諸如模型設(shè)定檢驗(yàn)等一系列解決模型不確定性的方法,但這些方法仍然不能從根本上作為替代穩(wěn)健性檢驗(yàn)的方法,因此,穩(wěn)健性檢驗(yàn)是實(shí)證研究的必要內(nèi)容。一項(xiàng)好的穩(wěn)健性檢驗(yàn)應(yīng)遵循包含嚴(yán)謹(jǐn)設(shè)定基準(zhǔn)模型、識(shí)別模型包含假設(shè)或不確定性等在內(nèi)的“四步法”邏輯步驟,每個(gè)穩(wěn)健性檢驗(yàn)必須闡明其檢驗(yàn)原因和方法選擇的合理性。在此情形下,穩(wěn)健性檢驗(yàn)可分為模型變異檢驗(yàn)、隨機(jī)置換檢驗(yàn)、結(jié)構(gòu)置換檢驗(yàn)、穩(wěn)健性極限檢驗(yàn)以及安慰劑檢驗(yàn)共五種類型。如果考慮實(shí)證研究各環(huán)節(jié)包含的不確定性,穩(wěn)健性檢驗(yàn)可分為總體或樣本不確定的穩(wěn)健性檢驗(yàn)、概念有效性和測(cè)量誤差不確定的穩(wěn)健性檢驗(yàn)、存在內(nèi)生性的穩(wěn)健性檢驗(yàn)、模型函數(shù)形式不確定的穩(wěn)健性檢驗(yàn)和考慮異質(zhì)性的穩(wěn)健性檢驗(yàn)共五種類型。此外,在實(shí)際操作中往往也會(huì)遇到結(jié)果不穩(wěn)健的情況,挖掘不穩(wěn)健背后的原因有時(shí)比驗(yàn)證結(jié)果穩(wěn)健性更有意義。