空間斷點(diǎn)回歸分析框架及其應(yīng)用

2023-09-23 09:36:18戚兆坤隋博文

統(tǒng)計與決策 2023年17期

戚兆坤，隋博文，李紅

（1.北部灣大學(xué)a.北部灣海洋發(fā)展研究中心;b.經(jīng)濟(jì)管理學(xué)院，廣西欽州 535011；2.廣西大學(xué)經(jīng)濟(jì)學(xué)院，南寧 530000）

0 引言

自計量經(jīng)濟(jì)學(xué)可信性革命以來，Rubin（1974）[1]提出的反事實(shí)潛在結(jié)果模型奠定了利用隨機(jī)實(shí)驗(yàn)思路方法推斷因果關(guān)系的最基本框架，并在此基礎(chǔ)上發(fā)展出各種模型構(gòu)建方法和估計方法，且已成為目前非常流行的計量經(jīng)濟(jì)學(xué)實(shí)證研究方法[2,3]。反事實(shí)潛在結(jié)果模型以概率論和統(tǒng)計學(xué)為其數(shù)學(xué)基礎(chǔ)，保證了這種分析方法的科學(xué)性和嚴(yán)謹(jǐn)性。在關(guān)于個體潛在結(jié)果變量、實(shí)驗(yàn)分組變量以及其他可能影響潛在結(jié)果的變量的概率性質(zhì)假設(shè)下，恰當(dāng)設(shè)計回歸模型，利用樣本信息可實(shí)現(xiàn)對處理效應(yīng)的有效統(tǒng)計推斷。關(guān)于變量概率性質(zhì)的假設(shè)，作用有兩個：一是保證實(shí)驗(yàn)分組是隨機(jī)分組，避免選擇偏差；二是確保其他影響潛在結(jié)果的因素可以得到有效控制，避免差別化處理效應(yīng)偏差，從而使得實(shí)驗(yàn)處理對潛在結(jié)果的影響是可識別的，因此也稱為識別假設(shè)。識別假設(shè)是捕捉因果效應(yīng)的邏輯起點(diǎn)，也是計量模型設(shè)定的理論依據(jù)，構(gòu)成反事實(shí)潛在結(jié)果模型實(shí)驗(yàn)設(shè)計和統(tǒng)計推斷的理論基礎(chǔ)[4]。

經(jīng)濟(jì)學(xué)因果推斷方法可擴(kuò)展至地理空間，將面臨不同處理水平的地理區(qū)域分別視為實(shí)驗(yàn)組（區(qū)）和控制組（區(qū)）。一般實(shí)驗(yàn)區(qū)和控制區(qū)在地理上是相鄰的，但存在一條明確的地理邊界，如行政邊界、自然地理邊界、政策邊界（如西部大開發(fā)、三線建設(shè)）等。已有研究的差異主要體現(xiàn)在對地理信息的使用方法不同上[5]，主要分為兩類：一類假設(shè)潛在結(jié)果是經(jīng)緯度的函數(shù)，且實(shí)驗(yàn)區(qū)和控制區(qū)的函數(shù)形式一致，學(xué)者們將這種方法稱為空間斷點(diǎn)回歸；另一類基于斷點(diǎn)回歸分析思路，假設(shè)潛在結(jié)果是空間距離的函數(shù)，并將基于地理邊界的準(zhǔn)自然實(shí)驗(yàn)細(xì)分為多種情形。這兩類研究對處理效應(yīng)的尋求方法存在較大差異：首先，使用的地理信息不同，前者使用經(jīng)緯度，后者使用空間距離；其次，潛在結(jié)果關(guān)于地理信息函數(shù)形式的假設(shè)不同，前者假設(shè)實(shí)驗(yàn)區(qū)和控制區(qū)函數(shù)形式相同，后者假設(shè)不必相同；最后，使用的估計方法不同，前者使用最小二乘法，后者主要使用局部多項(xiàng)式回歸。

國內(nèi)相關(guān)研究中，學(xué)者們對地理信息的使用也存在差異，在基于行政邊界的地理準(zhǔn)自然實(shí)驗(yàn)研究中，黃新飛等（2014）[6]采用大地距離作為地理信息，回歸模型中加入了處理變量和距離乘積的交互項(xiàng)；田文佳等（2019）[7]的研究中，地理邊界的作用僅限于劃分實(shí)驗(yàn)區(qū)和控制區(qū)，回歸模型中沒有加入地理信息，將這種方法稱為邊界斷點(diǎn)回歸。在基于秦嶺—淮河一線的地理準(zhǔn)自然實(shí)驗(yàn)研究中，李衛(wèi)兵和張凱霞（2019）[8]、晉晶等（2020）[9]將回歸模型設(shè)置為大地距離的多項(xiàng)式函數(shù)；李楠和林友宏（2016）[10]研究了以瀾滄江為邊界形成的地理準(zhǔn)自然實(shí)驗(yàn)，回歸模型線性地控制大地距離。國內(nèi)尚無基于弦距離的相關(guān)研究文獻(xiàn)。

上述文獻(xiàn)的實(shí)驗(yàn)場景是一致的，即實(shí)驗(yàn)區(qū)和控制區(qū)處在相鄰但不同的地理區(qū)域，存在一條明確的地理邊界，但這些文獻(xiàn)的實(shí)驗(yàn)設(shè)計方法和對實(shí)驗(yàn)效應(yīng)采用的統(tǒng)計推斷方法存在很大差異，沒有形成統(tǒng)一的概念和分析框架。為梳理相關(guān)研究，本文將空間斷點(diǎn)回歸定義為：一種將地理邊界分割而成的相鄰地理區(qū)域視作準(zhǔn)自然實(shí)驗(yàn)分組，對這種準(zhǔn)自然實(shí)驗(yàn)的實(shí)驗(yàn)效應(yīng)進(jìn)行統(tǒng)計推斷的計量經(jīng)濟(jì)學(xué)實(shí)證研究方法。該定義抽象出上述文獻(xiàn)的共同本質(zhì)，概括了以上文獻(xiàn)所研究的共同實(shí)驗(yàn)場景。

目前空間斷點(diǎn)回歸理論研究中面臨的主要問題有：首先，是否需要假設(shè)潛在結(jié)果是地理信息的函數(shù)？函數(shù)形式在實(shí)驗(yàn)區(qū)和控制區(qū)是否應(yīng)該假設(shè)為一致？其次，模型設(shè)定中應(yīng)該選擇何種地理信息？不同地理信息的使用會導(dǎo)致何種聯(lián)系與區(qū)別？最后，不同空間距離的使用會導(dǎo)致實(shí)驗(yàn)設(shè)計存在何種差異？本文基于反事實(shí)潛在結(jié)果模型分析框架，重點(diǎn)討論空間斷點(diǎn)回歸不同實(shí)驗(yàn)場景下的主要假設(shè)識別及相應(yīng)模型設(shè)定方法，在此基礎(chǔ)上重新討論重慶市升級為直轄市的經(jīng)濟(jì)效應(yīng)，并回答上述問題，為后續(xù)開展應(yīng)用研究奠定基礎(chǔ)。

1 空間斷點(diǎn)回歸分析框架

假設(shè)對于所研究總體中任何個體i都存在兩種處理水平，用Ti（等于0或1）表示，這兩種處理水平分別對應(yīng)潛在結(jié)果yi0和yi1，平均處理效應(yīng)為E(yi1-yi0)[11]。

1.1 空間斷點(diǎn)回歸基礎(chǔ)假設(shè)

假設(shè)1：地理處理可忽略假設(shè)。所研究地理空間中任何個體i的潛在結(jié)果獨(dú)立于由地理邊界分割形成的處理分組，記為：(y0i，y1i)⊥Ti。

若感興趣的是平均處理效應(yīng)，則假設(shè)1可放寬為假設(shè)1'。

假設(shè)1'：均值地理處理可忽略假設(shè)。所研究地理空間中任何個體i的潛在結(jié)果均值均獨(dú)立于由地理邊界分割形成的處理分組，記為：(E(y0i)，E(y1i))⊥Ti。

潛在結(jié)果均與處理分組獨(dú)立，說明由地理邊界分割形成的實(shí)驗(yàn)分組是隨機(jī)分組。假設(shè)暗含了除處理水平外的其他因素對潛在結(jié)果的影響也獨(dú)立于處理分組，但并不意味著其他因素對潛在結(jié)果沒有影響，此時處理效應(yīng)的差分估計量由于可能包含其他因素的影響，因此不是無偏估計量。

假設(shè)2：條件地理處理可忽略假設(shè)。以x為條件時，所研究地理空間中任何個體i的潛在結(jié)果均獨(dú)立于處理分組，記為：(y0i，y1i)⊥Ti|xi。

現(xiàn)實(shí)中實(shí)驗(yàn)分組和潛在結(jié)果可能受到協(xié)變量x的影響，導(dǎo)致選擇偏差或處理效應(yīng)偏差，但若假設(shè)滿足，則此時處理效應(yīng)仍舊可識別?？梢酝ㄟ^多元回歸或匹配等方法控制x的影響，多元回歸可控制x的線性影響或多項(xiàng)式形式的非線性影響，匹配可控制x其他形式的非線性影響，同時解決非隨機(jī)分組問題[12]。同時可用雙重差分、三重差分等方法解決實(shí)驗(yàn)中存在的混雜因素、不同時間趨勢等問題。

現(xiàn)實(shí)中的地理邊界往往具有多種“身份”，一些地理邊界，如河流、山脈等，同時也是省域或市域的行政邊界或政策邊界，欲識別出感興趣的地理處理效應(yīng)，必須增加一條最基礎(chǔ)的識別假設(shè)，即復(fù)合處理不相關(guān)假設(shè)。

假設(shè)3：復(fù)合處理不相關(guān)假設(shè)。潛在結(jié)果只取決于感興趣的處理。假設(shè)總計有k個處理，Ti=(T1i，T2i，…，Tki)代表所有處理變量構(gòu)成的向量，假設(shè)感興趣的處理是T1i，針對兩組處理向量Ti、T′i，若T1i=，則yTii=。

若存在多個處理使得潛在結(jié)果在邊界處“跳躍”，則前三條假設(shè)也將不滿足，此時處理效應(yīng)無法識別，空間斷點(diǎn)回歸應(yīng)用基礎(chǔ)就不存在。復(fù)合處理不相關(guān)假設(shè)意味著：除了感興趣的處理外，其他處理不會導(dǎo)致這種“跳躍”。實(shí)證研究中有三點(diǎn)啟示：一是當(dāng)邊界很長時，假設(shè)較難滿足，可以尋找特殊小段邊界，使得不存在復(fù)合處理或其他處理影響較弱；二是應(yīng)利用平衡性檢驗(yàn)等充分討論假設(shè)滿足程度；三是通過模型設(shè)定，比如協(xié)變量匹配、控制協(xié)變量等方法緩解假設(shè)不滿足引起的偏誤。

1.2 基于大地距離的可忽略假設(shè)

上述假設(shè)只保證借助地理邊界實(shí)現(xiàn)隨機(jī)分組，并沒有充分利用地理信息。本文主要使用三種地理信息：一是大地距離，即沿地球表面一點(diǎn)到直線的最短垂直距離；二是弦距離，即地球橢球面上兩點(diǎn)之間的弦長；三是經(jīng)緯度信息。

假設(shè)4：局部地理可忽略假設(shè)。令hi表示個體i到邊界的大地距離，存在實(shí)數(shù)H＞0，當(dāng)hi≤H時，滿足潛在結(jié)果獨(dú)立于處理分組，即(y0i，y1i)⊥Ti。

假設(shè)5：條件局部地理可忽略假設(shè)。令hi表示個體i到邊界的大地距離，存在實(shí)數(shù)H＞0，當(dāng)hi≤H且以x為條件時，滿足潛在結(jié)果獨(dú)立于處理分組，即(y0i，y1i)⊥Ti|x。

假設(shè)4 意味著，在邊界周圍一個窄的帶狀區(qū)域內(nèi)，實(shí)驗(yàn)分組是隨機(jī)分組；當(dāng)假設(shè)5 放寬以x為條件這一要求時，滿足假設(shè)4。到目前為止，所有假設(shè)實(shí)質(zhì)上只明確了實(shí)驗(yàn)分組是隨機(jī)分組或條件隨機(jī)分組，并沒有關(guān)于潛在結(jié)果與地理信息具體關(guān)系的假設(shè)。假設(shè)4和假設(shè)5也可以修改為基于弦距離的可忽略假設(shè)，相當(dāng)于假設(shè)實(shí)驗(yàn)在以某一邊界點(diǎn)為圓心的圓形區(qū)域內(nèi)是隨機(jī)分組或條件隨機(jī)分組。

1.3 連續(xù)性假設(shè)

類似斷點(diǎn)回歸理論假設(shè)潛在結(jié)果是距離的函數(shù)，空間斷點(diǎn)回歸中也可假設(shè)潛在結(jié)果是地理信息的函數(shù)且函數(shù)形式更加多樣化。

假設(shè)6：基于大地距離的連續(xù)性假設(shè)。個體i到邊界的大地距離標(biāo)準(zhǔn)化①標(biāo)準(zhǔn)化過程為將控制區(qū)的距離都變?yōu)樨?fù)數(shù)。后記為hi，假設(shè)潛在結(jié)果條件均值是距離hi在邊界處的連續(xù)函數(shù)，即E(y0i|hi=h)和E(y1i|hi=h)在邊界處（即h=0 處）連續(xù)。

類似斷點(diǎn)回歸連續(xù)性假設(shè)的思想：越靠近邊界，個體間可比性越強(qiáng)，特別是在邊界上的個體可認(rèn)為是同質(zhì)的。但大地距離是平面距離，存在一個明顯缺陷，即當(dāng)兩點(diǎn)到某直線距離相等時，這兩點(diǎn)間的實(shí)際距離可能很遠(yuǎn)，理論上可以無窮大。所以當(dāng)邊界很長時，假設(shè)6 較難滿足，因此提出基于弦距離的連續(xù)性假設(shè)。

假設(shè)7：基于弦距離的連續(xù)性假設(shè)。bj為邊界上一點(diǎn)，hij表示個體i到bj的標(biāo)準(zhǔn)化后的弦距離，個體i的潛在結(jié)果條件均值是hij在邊界處的連續(xù)函數(shù)，即E(y0i|hij=h)和E(y1i|hij=h)在hi=0 處連續(xù)。

針對同一點(diǎn)的弦距離，其大小才具有可比較的性質(zhì)，假設(shè)描述了在以某個邊界點(diǎn)為圓心的圓形鄰域內(nèi)的個體間的可比性特征，圓形鄰域越小，可比性越強(qiáng)。利用弦距離進(jìn)行實(shí)驗(yàn)設(shè)計可識別出邊界上任意一點(diǎn)處的處理效應(yīng)。

連續(xù)性假設(shè)描述的是均值函數(shù)邊界上的局部特征，實(shí)際中不可能僅用邊界上的樣本進(jìn)行統(tǒng)計推斷，若擴(kuò)大范圍以增加樣本量，就要選擇距離邊界更遠(yuǎn)的樣本點(diǎn)，但這又會導(dǎo)致假設(shè)滿足程度下降。這一矛盾導(dǎo)致應(yīng)用中連續(xù)性假設(shè)有以下局限性：首先，假設(shè)可能不足以保證可估計的范圍內(nèi)個體間的可比性；其次，假設(shè)可能不足以保證潛在結(jié)果在可估計的范圍內(nèi)是距離的函數(shù)，若強(qiáng)制設(shè)定為距離的函數(shù)，則會扭曲距離對潛在結(jié)果的影響，并延伸至邊界，導(dǎo)致處理效應(yīng)估計的偏差更大；最后，在該假設(shè)下，回歸方程中一般包含距離和處理變量的交互項(xiàng)，且一般采用局部多項(xiàng)式估計，對樣本量有更高要求，加深了上述矛盾。

1.4 平滑性假設(shè)

假設(shè)8：基于大地距離的平滑性假設(shè)。將個體i到邊界標(biāo)準(zhǔn)化后的大地距離記為hi，潛在結(jié)果條件均值是hi在邊界處的平滑（可導(dǎo)）函數(shù)，即E(y0i|hi=h) 和E(y1i|hi=h)在hi=0 處平滑。

假設(shè)9：基于弦距離的平滑性假設(shè)。bj為邊界上一點(diǎn)，hij表示個體i到bj標(biāo)準(zhǔn)化后的弦距離，潛在結(jié)果條件均值是hij在邊界處的平滑函數(shù)，即E(y0i|hij=h) 和E(y1i|hij=h)在hij=0 處平滑。

平滑性假設(shè)描述的也是邊界上的局部特征。但與連續(xù)性假設(shè)相比，在平滑性假設(shè)下，實(shí)驗(yàn)區(qū)和控制區(qū)潛在結(jié)果條件均值函數(shù)形式一樣，故更好地模型化了邊界附近個體的可比性；模型設(shè)定中不必包含交互項(xiàng)；可使用最小二乘法進(jìn)行估計，降低了樣本量要求；估計量具有更好的邊界性質(zhì)，防止出現(xiàn)更大估計偏差的可能性。

連續(xù)性假設(shè)和平滑性假設(shè)除使用空間距離外，還可使用經(jīng)緯度，即假設(shè)潛在結(jié)果條件均值是經(jīng)緯度在邊界處的二元連續(xù)函數(shù)或二元平滑函數(shù)。

1.5 小結(jié)

假設(shè)1和假設(shè)2是反事實(shí)潛在結(jié)果模型中確?？杀刃缘幕A(chǔ)假設(shè)；假設(shè)3至假設(shè)5是潛在結(jié)果模型應(yīng)用于地理空間時的新增基本假設(shè)，避免了由復(fù)合處理或空間范圍過大引起的不可比性。連續(xù)性假設(shè)和平滑性假設(shè)借鑒斷點(diǎn)回歸的思路，二者對應(yīng)于不同的模型設(shè)定和估計方法，若結(jié)合不同的地理信息，則對應(yīng)于不同的實(shí)驗(yàn)場景。田文佳等（2019）[7]僅利用地理邊界實(shí)現(xiàn)隨機(jī)分組，歸結(jié)為條件地理可忽略假設(shè)（假設(shè)2）下的研究。Dell 的系列研究，回歸模型中使用經(jīng)緯度且不包含交互項(xiàng)，可歸類到基于經(jīng)緯度平滑性假設(shè)下的研究。晉晶等（2020）[9]、李衛(wèi)兵和張凱霞（2019）[8]、李楠和林友宏（2016）[10]的研究都可以歸結(jié)為基于大地距離平滑性假設(shè)（假設(shè)8）下的研究。黃新飛等（2014）[6]的研究可以歸結(jié)為基于大地距離連續(xù)性假設(shè)（假設(shè)6）下的研究。還有研究使用標(biāo)準(zhǔn)的斷點(diǎn)回歸模型設(shè)定，使用局部多項(xiàng)式估計方法，可歸結(jié)為基于空間距離連續(xù)性假設(shè)（假設(shè)6、假設(shè)7）下的研究。

2 空間斷點(diǎn)回歸方法的應(yīng)用

1997 年之前重慶市是四川省的地級市，其后升級為直轄市。將“重慶市升級為直轄市”視作準(zhǔn)自然實(shí)驗(yàn)，重慶市視作實(shí)驗(yàn)區(qū)，四川省視作控制區(qū)，二者相鄰，符合空間斷點(diǎn)回歸方法應(yīng)用的實(shí)驗(yàn)場景。本文基于上述空間斷點(diǎn)回歸框架，進(jìn)一步討論重慶市政治升級的經(jīng)濟(jì)效應(yīng)。

2.1 數(shù)據(jù)來源及處理說明

數(shù)據(jù)來源于期刊《Journal of Public Economics》的官方網(wǎng)站①原始數(shù)據(jù)來源于網(wǎng)址：https://www.sciencedirect.com/science/article/abs/pii/S0047272720302164?via%3Dihub。。數(shù)據(jù)集包含四川省和重慶市1996 年和2013 年共5088 個鄉(xiāng)鎮(zhèn)②為了保證研究個體之間的可比性，選擇鄉(xiāng)鎮(zhèn)作為研究個體（縣域差距過大導(dǎo)致可比性差），由于國內(nèi)無鄉(xiāng)鎮(zhèn)級經(jīng)濟(jì)發(fā)展統(tǒng)計數(shù)據(jù)，因此使用衛(wèi)星燈光數(shù)據(jù)作為經(jīng)濟(jì)發(fā)展的替代數(shù)據(jù)。的數(shù)據(jù)，主要變量有各鄉(xiāng)鎮(zhèn)衛(wèi)星燈光密度、經(jīng)緯度、平均海拔、平均坡度等。企業(yè)類數(shù)據(jù)包含2008年91277 個企業(yè)的銷售額、產(chǎn)出、利潤等數(shù)據(jù)。2000 年的人口普查數(shù)據(jù)，主要包含少數(shù)民族比例等變量。將企業(yè)數(shù)據(jù)匹配到相同經(jīng)緯度下的鄉(xiāng)鎮(zhèn)，從而形成可用的鄉(xiāng)鎮(zhèn)級企業(yè)特征數(shù)據(jù)。為使用弦距離考察經(jīng)濟(jì)效應(yīng)，利用GIS軟件將川渝邊界等分為10段，提取每段中點(diǎn)的經(jīng)緯度，利用R軟件分別計算每個鄉(xiāng)鎮(zhèn)到10個中點(diǎn)的弦距離。

2.2 基于假設(shè)3和假設(shè)4的平衡性檢驗(yàn)

在所研究的時段內(nèi)，川渝邊界僅是省域邊界，省際差異都可歸因于重慶市政治升級效應(yīng)，即不存在復(fù)合處理問題，滿足假設(shè)3。1997年以前，川渝邊界是市域邊界，兩側(cè)鄉(xiāng)鎮(zhèn)可能存在市級差異，即可能存在選擇偏差或存在其他影響實(shí)驗(yàn)隨機(jī)性的變量，需要進(jìn)行平衡性檢驗(yàn)。結(jié)果顯示，邊界兩側(cè)60 公里范圍內(nèi)，平均坡度、少數(shù)民族比例等基本稟賦條件和1996 年燈光密度幾乎無顯著差異。2008年企業(yè)產(chǎn)出在60公里內(nèi)、5%顯著性水平上差異不顯著，若取10%的顯著性水平，則僅在45公里內(nèi)無顯著差異，但在30公里內(nèi)重慶市企業(yè)產(chǎn)出明顯高于四川省。詳見下頁圖1。

圖1 平衡性檢驗(yàn)（標(biāo)準(zhǔn)化后，在5%顯著性水平上的結(jié)果）

2.3 差分估計量（基于假設(shè)1至假設(shè)3）

基于假設(shè)1的差分估計量回歸模型設(shè)定為：

其中，ln 2013i表示鄉(xiāng)鎮(zhèn)i2013 年燈光密度的對數(shù)；Chongqingi代表指示變量，鄉(xiāng)鎮(zhèn)i屬于重慶市時取值為1，否則為0；β1是處理效應(yīng)參數(shù)。結(jié)果顯示，在邊界20公里內(nèi)，處理效應(yīng)不顯著，原因可能是樣本量不足或邊界附近鄉(xiāng)鎮(zhèn)經(jīng)濟(jì)行為存在交互效應(yīng)；在25～65 公里內(nèi)，處理效應(yīng)估計值比較穩(wěn)定且顯著，最大值為1.05，最小值為0.71。

基于假設(shè)2的多元回歸模型設(shè)定為：

其中，X表示協(xié)變量，比如企業(yè)特征（銷售額、產(chǎn)出和利潤）等。由表1可知，控制1996年燈光密度后，處理效應(yīng)估計值并無顯著變化；控制企業(yè)特征后處理效應(yīng)不顯著，原因可能是企業(yè)特征對燈光密度存在非線性影響。依據(jù)1996年燈光密度進(jìn)行匹配后，處理效應(yīng)估計值變小，說明確實(shí)存在非線性影響。由于企業(yè)特征數(shù)據(jù)來自2008 年，因此匹配后處理效應(yīng)的估計值和顯著性都明顯下降。

表1 差分估計量匯總

2.4 雙重差分估計量（基于假設(shè)1至假設(shè)3）

若可同時觀測到實(shí)驗(yàn)前后的數(shù)據(jù)，在假設(shè)1 至假設(shè)3下可使用雙重差分估計，從而得到更一致的處理效應(yīng)估計值，回歸模型設(shè)定如下：

ln 2013-1996i表示鄉(xiāng)鎮(zhèn)i2013 年和1996 年燈光密度取對數(shù)后的差分，描述了這期間燈光密度的增長率。由表2 可知，與差分估計值相比，處理效應(yīng)雙重差分估計值明顯降低，最大值僅為0.80；匹配燈光密度后的估計值更低，最大值為0.68，但顯著性更強(qiáng)；匹配企業(yè)特征后估計值最低，在10公里內(nèi)，處理效應(yīng)不顯著。

表2 雙重差分估計量匯總

2.5 基于平滑性假設(shè)的統(tǒng)計推斷

本文主要討論基于經(jīng)緯度和大地距離的平滑性假設(shè)，大地距離是經(jīng)緯度的函數(shù)，不同個體的大地距離相同，但其經(jīng)緯度可能存在較大差異，故經(jīng)緯度包含信息更多，更能體現(xiàn)個體異質(zhì)性。控制或依據(jù)經(jīng)緯度進(jìn)行匹配，可解決與經(jīng)緯度相關(guān)的遺漏變量問題。

2.5.1 經(jīng)緯度

根據(jù)Dell（2010）[5]和Jia 等（2021）[13]的研究，回歸模型設(shè)定如下：

其中，loni和lati分別表示鄉(xiāng)鎮(zhèn)i的經(jīng)度和緯度，f(lati，loni)表示潛在結(jié)果與經(jīng)緯度的函數(shù)形式。由于雙重差分估計量更可信，因此下文均以雙重差分模型為基準(zhǔn)模型，即回歸被解釋變量都使用ln 2013-1996i。

由表3 可知，與雙重差分估計值相比，線性控制經(jīng)緯度后，處理效應(yīng)估計值增加接近一倍，最大值為1.17；二次多項(xiàng)式控制經(jīng)緯度和進(jìn)一步控制企業(yè)特征后，處理效應(yīng)估計值均有提高。使用經(jīng)緯度匹配與二次多項(xiàng)式控制經(jīng)緯度的處理效應(yīng)估計值相差不大?？傊?，與雙重差分估計量相比，當(dāng)充分利用經(jīng)緯度信息后，處理效應(yīng)的估計值和顯著性都有所增加，其中最大估計值為1.25。

表3 基于經(jīng)緯度平滑性假設(shè)的回歸結(jié)果

2.5.2 大地距離

回歸模型設(shè)定如下：

其中，disi代表鄉(xiāng)鎮(zhèn)i到邊界標(biāo)準(zhǔn)化后的大地距離?；貧w方程可以擴(kuò)展為大地距離的高次多項(xiàng)式。

由下頁表4可知，與雙重差分相比，線性控制距離后，處理效應(yīng)估計值有所提高，但顯著性下降；多項(xiàng)式控制距離和進(jìn)一步控制企業(yè)特征后，處理效應(yīng)基本不顯著。顯著性下降的原因值得探討，主要原因可能是過度模型化或此類模型的適用性較差。從統(tǒng)計角度看，模型加入距離后，其回歸系數(shù)均不顯著，模型擬合優(yōu)度幾乎無提升（偏R2幾乎為0）；處理變量“Chongqingi”與距離的相關(guān)系數(shù)均大于0.85 且顯著，這種嚴(yán)重的多重共線性會增大估計標(biāo)準(zhǔn)誤，導(dǎo)致處理效應(yīng)t檢驗(yàn)不顯著。從實(shí)際意義看，將經(jīng)濟(jì)增長設(shè)置為距離的函數(shù)，表示經(jīng)濟(jì)增長源自“距離”或與之相關(guān)的因素，其中的合理性有待探討；進(jìn)一步研究發(fā)現(xiàn)，雖然平衡性檢驗(yàn)表明均值無顯著差異，但考察范圍內(nèi)鄉(xiāng)鎮(zhèn)發(fā)展的差異程度在邊界兩側(cè)顯著不同，且無規(guī)律可循，故不宜模型化為距離的函數(shù)。從模型設(shè)定角度看，平滑性假設(shè)類似連續(xù)性假設(shè)，也只描述了函數(shù)在邊界上的特征，當(dāng)范圍擴(kuò)大時，平滑性假設(shè)成立的概率快速降低。綜上，強(qiáng)制將潛在結(jié)果假設(shè)為距離的函數(shù)，夸大“距離”的影響，會造成更大的估計偏差。

表4 基于大地距離平滑性假設(shè)的回歸結(jié)果

2.6 基于大地距離連續(xù)性假設(shè)的統(tǒng)計推斷

連續(xù)性假設(shè)允許模型在實(shí)驗(yàn)區(qū)和控制區(qū)設(shè)置不同的關(guān)于距離的函數(shù)形式，一般為多項(xiàng)式函數(shù)。由于連續(xù)性假設(shè)描述的是邊界處的局部特征，因此一般使用局部多項(xiàng)式進(jìn)行估計。回歸模型設(shè)定如下：

這與標(biāo)準(zhǔn)斷點(diǎn)回歸方程完全相同。由于邊界兩側(cè)回歸方程的距離系數(shù)不同，因此潛在結(jié)果條件均值函數(shù)不可能在邊界處平滑，僅能保證連續(xù)。局部多項(xiàng)式估計①局部多項(xiàng)式估計方法及帶寬選擇方法參考Titiunik發(fā)布的Stata軟件命令rdrobust。屬于非參數(shù)估計，有多種帶寬和加權(quán)核選擇方式，大部分選擇方法是數(shù)據(jù)驅(qū)動。局部多項(xiàng)式估計結(jié)果見表5。本文結(jié)合具體實(shí)驗(yàn)場景和平衡性檢驗(yàn)結(jié)果，基于均勻核和三角核加權(quán)方法，最終確定使用均方誤差最小準(zhǔn)則選擇最優(yōu)帶寬為45和55公里。

表5 局部多項(xiàng)式估計結(jié)果

均勻核和三角核對應(yīng)線性回歸方程的處理效應(yīng)估計值分別為0.69和0.64，與雙重差分估計值0.63（50公里內(nèi)）相差不大，基于普通標(biāo)準(zhǔn)誤和偏差校正標(biāo)準(zhǔn)誤的處理效應(yīng)t 檢驗(yàn)均顯著。均勻核和三角核對應(yīng)二次多項(xiàng)式回歸方程的處理效應(yīng)估計值分別為0.76 和0.51，前者顯著，后者不顯著。與平滑性假設(shè)相比，連續(xù)性假設(shè)下的回歸線擬合更好，但斜率波動更大，若錯誤設(shè)定可能導(dǎo)致更大估計偏誤。連續(xù)性假設(shè)下的統(tǒng)計推斷結(jié)論并不穩(wěn)健，當(dāng)帶寬和加權(quán)核選擇方式變化時，處理效應(yīng)估計值的大小和顯著性甚至符號都會發(fā)生變化。詳見圖2。

圖2 局部多項(xiàng)式估計擬合效果圖

2.7 基于弦距離的統(tǒng)計推斷

使用弦距離時，相當(dāng)于進(jìn)行新的實(shí)驗(yàn)設(shè)計。在以邊界某點(diǎn)為圓心的圓形區(qū)域內(nèi)考察處理效應(yīng)，邊界將圓形區(qū)域分成兩個子區(qū)域，即為新的實(shí)驗(yàn)區(qū)和控制區(qū)。為充分考察邊界上的處理效應(yīng)，將川渝邊界等分為10段，并估計每段中點(diǎn)處的處理效應(yīng)。將10 個中點(diǎn)從南向北依次編號，即最南端中點(diǎn)編號為1，最北端中點(diǎn)編號為10。

2.7.1 平衡性檢驗(yàn)

平衡性檢驗(yàn)結(jié)果顯示，不同點(diǎn)處的平衡性不同。依據(jù)1996年燈光密度，在35公里內(nèi)，第2、3、6、7個點(diǎn)沒有通過平衡性檢驗(yàn)；在65公里內(nèi)，第6、8個點(diǎn)沒有通過平衡性檢驗(yàn)。

2.7.2 雙重差分估計量

由表6可知，在35公里內(nèi)，除第4個點(diǎn)外，處理效應(yīng)估計值均為正，且有6 個點(diǎn)處的處理效應(yīng)是顯著的，未通過平衡性檢驗(yàn)的第2、6、73個點(diǎn)處的處理效應(yīng)不顯著。具體分析，前兩個點(diǎn)位于川渝貴交界，其統(tǒng)計推斷結(jié)論不具有足夠的參考性；第3個點(diǎn)緊鄰重慶市區(qū)，在35公里內(nèi)包含重慶市比較發(fā)達(dá)的地區(qū)，與對應(yīng)的四川省的鄉(xiāng)鎮(zhèn)可比性較差；第4個點(diǎn)在35公里內(nèi)包含四川省遂寧市和重慶市潼南區(qū)，遂寧市GDP 超過潼南區(qū)2 倍，所以出現(xiàn)負(fù)向且顯著的處理效應(yīng)估計值并不難理解；第5個點(diǎn)緊鄰四川省南充市和廣安市，南充市是四川省GDP排名前五的城市，故處理效應(yīng)估計值較小且不顯著；第6個點(diǎn)包含四川省廣安市和華鎣市區(qū)，僅包含重慶市合川區(qū)和北碚區(qū)的一部分，處理效應(yīng)估計值為正，但由于此區(qū)域內(nèi)鄉(xiāng)鎮(zhèn)間發(fā)展差異過大，導(dǎo)致估計標(biāo)準(zhǔn)誤較大，仍不顯著；第7 個點(diǎn)包含重慶市墊江縣，不包含四川省任何縣或區(qū)，且未通過平衡性檢驗(yàn)，可信度不高；第8 個點(diǎn)包含重慶市梁平區(qū)和四川省開江縣，但梁平區(qū)遠(yuǎn)比開江縣發(fā)達(dá)，也面臨可比性問題；第9 個點(diǎn)僅包含四川省宣漢縣和重慶市開州區(qū)普通鄉(xiāng)鎮(zhèn)，具有一定的可比性；第10 個點(diǎn)僅包含重慶市的普通鄉(xiāng)鎮(zhèn)和四川省萬源市，但萬源市是GDP較低的縣級市。綜上，第9、10個點(diǎn)附近鄉(xiāng)鎮(zhèn)可比性較強(qiáng)，鄉(xiāng)鎮(zhèn)間差異較小，且處理效應(yīng)顯著，估計值分別為0.56、0.58，與雙重差分估計值相差不大。當(dāng)考察65公里內(nèi)時，10個點(diǎn)處的實(shí)驗(yàn)場景差異更大，可比性下降，不再深入分析①匹配可解決弦距離下樣本點(diǎn)間可比性差的問題，但在如此小的范圍內(nèi)樣本量太少，大部分鄉(xiāng)鎮(zhèn)1996年燈光密度為0，導(dǎo)致匹配效果沒有想象中好。由于樣本量少，因此弦距離相關(guān)假設(shè)下更復(fù)雜模型的結(jié)果不予討論。。綜上，邊界點(diǎn)處的處理效應(yīng)統(tǒng)計推斷與該點(diǎn)處的實(shí)驗(yàn)場景密切相關(guān)，當(dāng)實(shí)驗(yàn)設(shè)計比較合理時，最終結(jié)論才具有一定的可信度。

表6 主要邊界點(diǎn)處雙重差分估計量

3 結(jié)論

地理信息的首要作用是保證實(shí)驗(yàn)的隨機(jī)分組，其次是通過模型化來描述潛在結(jié)果的變化規(guī)律，表現(xiàn)為平滑性和連續(xù)性假設(shè)。模型化過程中使用的地理信息不同，效果差異明顯，經(jīng)緯度包含更多信息，能充分體現(xiàn)個體異質(zhì)性，大地距離和弦距離是經(jīng)緯度的函數(shù)但存在一定的局限性。連續(xù)性和平滑性假設(shè)借鑒斷點(diǎn)回歸的分析思路，是對潛在結(jié)果在邊界處特征的模型化，是理論上對可比性的進(jìn)一步加強(qiáng)。基于空間距離的連續(xù)性和平滑性假設(shè)，在應(yīng)用中會出現(xiàn)過度擬合、缺少經(jīng)濟(jì)意義和統(tǒng)計推斷上的問題；使用局部多項(xiàng)式進(jìn)行估計時，不同的帶寬和加權(quán)核會導(dǎo)致結(jié)果差異較大，模型穩(wěn)健性較差，且目前沒有統(tǒng)一的帶寬選擇標(biāo)準(zhǔn)。針對本文案例，基于經(jīng)緯度平滑性假設(shè)的模型設(shè)定會產(chǎn)生比較好的實(shí)際效果。根據(jù)本文及已有研究的成果可以發(fā)現(xiàn)，經(jīng)緯度更適用于宏觀層面的研究，空間距離更適用于微觀層面的研究。總之，空間斷點(diǎn)回歸的應(yīng)用應(yīng)結(jié)合實(shí)際情況深入考察不同實(shí)驗(yàn)場景及因果關(guān)系產(chǎn)生的潛在機(jī)理，合理利用假設(shè)設(shè)計模型形式，恰當(dāng)使用地理信息。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放