張少華 李蘇蘇
摘 要:中國工業(yè)企業(yè)數(shù)據(jù)庫已經(jīng)成為研究中國微觀企業(yè)活動(dòng)的首選數(shù)據(jù)庫,但是數(shù)據(jù)庫中關(guān)鍵指標(biāo)的缺失嚴(yán)重影響了數(shù)據(jù)庫的更新和使用。本文在借鑒主要文獻(xiàn)處理方法的基礎(chǔ)上,先后采用單值移動(dòng)時(shí)序平滑法、MICE1、MICE2、MMICE1和MMICE2五種插補(bǔ)方法對(duì)數(shù)據(jù)庫進(jìn)行完善,從而將中國工業(yè)企業(yè)數(shù)據(jù)庫延伸至2013年,并通過計(jì)算企業(yè)全要素生產(chǎn)率來評(píng)估各種插補(bǔ)方法的相對(duì)有效性。研究表明:在這五種插值方法中,單值移動(dòng)時(shí)序平滑法和MMICE1是兩種最為有效的插值方法,不僅可以實(shí)現(xiàn)插值前后的數(shù)據(jù)庫特征一致,而且能夠?qū)崿F(xiàn)所計(jì)算的全要素生產(chǎn)率的數(shù)據(jù)結(jié)構(gòu)特征一致。值得強(qiáng)調(diào)的是,在完善數(shù)據(jù)庫和計(jì)算全要素生產(chǎn)率方面,前者因?yàn)樘幚磉^程簡(jiǎn)單因而是一種相對(duì)經(jīng)濟(jì)的方法,而后者因?yàn)槟軌虮A舾鄻颖拘畔⒁蚨且环N相對(duì)有效的方法。本文研究價(jià)值體現(xiàn)在對(duì)使用中國工業(yè)企業(yè)數(shù)據(jù)庫提供了基礎(chǔ)性研究工作。
關(guān)鍵詞:中國工業(yè)企業(yè)數(shù)據(jù)庫;單值移動(dòng)時(shí)序平滑法;多重鏈?zhǔn)椒匠滩逖a(bǔ)法;混合插補(bǔ)法;全要素生產(chǎn)率
文章編號(hào):2095-5960(2021)05-0020-10;中圖分類號(hào):F011;F016;F42
;文獻(xiàn)標(biāo)識(shí)碼:A
一、引言
目前,中國工業(yè)企業(yè)數(shù)據(jù)庫已經(jīng)成為研究中國經(jīng)濟(jì)問題的一個(gè)非常重要的微觀數(shù)據(jù)庫,因其來源權(quán)威、統(tǒng)計(jì)規(guī)范、樣本巨大以及指標(biāo)多樣等優(yōu)良特性而得到了海內(nèi)外學(xué)者的廣泛使用和認(rèn)可。其研究成果不僅發(fā)表在《經(jīng)濟(jì)研究》《管理世界》《中國工業(yè)經(jīng)濟(jì)》《數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究》等國內(nèi)權(quán)威期刊,也大量出現(xiàn)在《美國經(jīng)濟(jì)評(píng)論》《政治經(jīng)濟(jì)學(xué)期刊》《經(jīng)濟(jì)學(xué)季刊》《金融研究》等國際頂級(jí)期刊。但是令人遺憾的是,目前學(xué)者們使用的中國工業(yè)企業(yè)數(shù)據(jù)庫樣本主要局限在1999年至2007年,盡管主要研究機(jī)構(gòu)已經(jīng)將數(shù)據(jù)庫更新至2013年,但是由于2008年之后的多個(gè)關(guān)鍵指標(biāo)缺失問題,導(dǎo)致數(shù)據(jù)庫無法更新到2013年。因此,如何采用科學(xué)方法將數(shù)據(jù)庫進(jìn)行完善和更新,是一項(xiàng)基礎(chǔ)性研究工作。
關(guān)于中國工業(yè)企業(yè)數(shù)據(jù)庫的使用問題,事實(shí)上國內(nèi)外學(xué)者已經(jīng)進(jìn)行了大量深入研究和探討。例如,Brandt et al.最早規(guī)范使用該數(shù)據(jù)庫,其在面板構(gòu)建、行業(yè)調(diào)整、價(jià)格平減等方面的處理一直被后續(xù)學(xué)者采用。[1]而國內(nèi)學(xué)者聶輝華等在Brandt et al.基礎(chǔ)上,明確指出數(shù)據(jù)庫存在的樣本匹配混亂、變量大小異常、測(cè)量誤差嚴(yán)重以及指標(biāo)缺失等問題[2],并首次提出采用交叉匹配法來構(gòu)建面板。張?zhí)烊A和張少華則運(yùn)用1998~2007年的中國工業(yè)企業(yè)數(shù)據(jù)庫討論了生產(chǎn)函數(shù)模型、樣本范圍和價(jià)格因子在不同估計(jì)方法中對(duì)企業(yè)全要素生產(chǎn)率估計(jì)的影響。[3]在近期數(shù)據(jù)的使用上,陳林對(duì)數(shù)據(jù)庫的真實(shí)性和系統(tǒng)性誤差進(jìn)行了定量評(píng)估,并指出樣本范圍及統(tǒng)計(jì)口徑的變動(dòng),缺失值較多、“回避規(guī)模以上”以及“化整為零”等方面的數(shù)據(jù)問題,均會(huì)對(duì)數(shù)據(jù)規(guī)范使用產(chǎn)生一定的影響。[4]隨后其更進(jìn)一步從中國工業(yè)統(tǒng)計(jì)的理論體系和制度變遷角度,探討了相對(duì)頻繁的統(tǒng)計(jì)制度變遷對(duì)樣本統(tǒng)計(jì)范圍和統(tǒng)計(jì)口徑產(chǎn)生的系統(tǒng)性誤差影響。[5]
本文在系統(tǒng)梳理使用中國工業(yè)企業(yè)數(shù)據(jù)庫的文獻(xiàn)后發(fā)現(xiàn),1999~2007年區(qū)間的數(shù)據(jù)處理方式已逐漸形成共識(shí),尤其體現(xiàn)在面板構(gòu)建、行業(yè)調(diào)整、價(jià)格平減以及樣本篩選等方面,正是因?yàn)?008年后數(shù)據(jù)庫關(guān)鍵指標(biāo)的嚴(yán)重缺失,從而使得該數(shù)據(jù)庫的使用在時(shí)序上無法推進(jìn)。為此,本文主要研究目標(biāo)就是解決中國工業(yè)企業(yè)數(shù)據(jù)庫的關(guān)鍵指標(biāo)缺失問題。在遵循文獻(xiàn)主要處理方法基礎(chǔ)上,先后采用五種插補(bǔ)方法:?jiǎn)沃狄苿?dòng)時(shí)序平滑法、多重鏈?zhǔn)椒匠滩逖a(bǔ)法1(MICE1)、多重鏈?zhǔn)椒匠滩逖a(bǔ)法2(MICE2)、混合插補(bǔ)法1(MMICE1)和混合插補(bǔ)法2(MMICE2),對(duì)中國工業(yè)企業(yè)數(shù)據(jù)庫進(jìn)行更新和完善,并進(jìn)一步通過計(jì)算全要素生產(chǎn)率這個(gè)使用數(shù)據(jù)庫最為頻繁的指標(biāo),實(shí)證評(píng)估各種插補(bǔ)方法的相對(duì)有效性。
二、插值處理方法
下文詳細(xì)介紹對(duì)中國工業(yè)企業(yè)數(shù)據(jù)庫中的缺失指標(biāo)如何采用五種插補(bǔ)方法進(jìn)行指標(biāo)插補(bǔ)。事實(shí)上,對(duì)于中國工業(yè)企業(yè)數(shù)據(jù)庫的處理,還需要進(jìn)行面板構(gòu)建、行業(yè)調(diào)整、價(jià)格平減、派生指標(biāo)計(jì)算、樣本篩選等一系列的處理過程,本文在此處不進(jìn)行詳細(xì)的介紹,這些處理過程可以參考李蘇蘇、葉祥松和張少華,以及李蘇蘇、張少華和周鵬[6,7]。在進(jìn)行插值處理之前,首先需要進(jìn)行面板數(shù)據(jù)構(gòu)建,本文改進(jìn)了現(xiàn)有文獻(xiàn)的交叉識(shí)別方法,遵循盡量在數(shù)據(jù)庫中識(shí)別同一企業(yè)原則,采用三個(gè)步驟進(jìn)行匹配,具體匹配效果見表1。
表1中的重復(fù)觀測(cè)值包括通常意義上的重復(fù)觀測(cè)值和上面所提到的同一年份同一企業(yè)ID有多個(gè)觀測(cè)值且法人代碼相同的情況;重復(fù)觀測(cè)值的比例指重復(fù)觀測(cè)值占原始觀測(cè)值總數(shù)的比例,匹配數(shù)據(jù)是指構(gòu)建面板后刪除重復(fù)觀測(cè)值后剩下的年度觀測(cè)值總數(shù);匹配比例指匹配數(shù)據(jù)占原始觀測(cè)值總數(shù)的比例。其中2004年數(shù)據(jù)融合了中國經(jīng)濟(jì)普查企業(yè)數(shù)據(jù),故原始觀測(cè)值總數(shù)較多,匹配率相對(duì)較低。由于2010年數(shù)據(jù)異常,本文不予使用,在構(gòu)建面板的時(shí)候沒有刪除,是為了在匹配的時(shí)候保留更多的企業(yè)信息。構(gòu)建面板后本文借鑒王萬珺和劉小玄的做法,去掉2010年數(shù)據(jù)將2009年和2011年視為連續(xù)年份處理,原始數(shù)據(jù)觀測(cè)值總數(shù)為4936335,刪除重復(fù)值之后,匹配數(shù)據(jù)數(shù)量為3505053。[8]如果不考慮2004年數(shù)據(jù)融合的影響,數(shù)據(jù)庫總體匹配比例高達(dá)85%以上,而且匹配比例逐年提高,說明匹配效果穩(wěn)步提升。
(一)插值前的準(zhǔn)備
中國工業(yè)企業(yè)數(shù)據(jù)庫自2008年始,數(shù)據(jù)庫中諸多關(guān)鍵指標(biāo)缺失,這里將根據(jù)五種方法對(duì)數(shù)據(jù)庫缺漏值進(jìn)行插補(bǔ),每一種插補(bǔ)方法后文詳細(xì)說明。本文對(duì)缺失指標(biāo)按照“先計(jì)算,后插補(bǔ)”的原則進(jìn)行處理,并且以全要素生產(chǎn)率的估算為例進(jìn)行詳細(xì)闡述。
1.先計(jì)算
具體過程如下:對(duì)2004年缺失的工業(yè)總產(chǎn)值與工業(yè)增加值,在使用2004年中國經(jīng)濟(jì)普查企業(yè)數(shù)據(jù)進(jìn)行融合后還缺少工業(yè)增加值指標(biāo),通過“工業(yè)增加值=工業(yè)總產(chǎn)值-工業(yè)中間投入+增值稅”計(jì)算得出。關(guān)于本年折舊,對(duì)2007年前本年折舊缺失的樣本以及2008~2009年的數(shù)據(jù)進(jìn)行補(bǔ)全處理,若上一年存在固定資產(chǎn)總值,采用“固定資產(chǎn)投資=當(dāng)年固定資產(chǎn)總值-(1-折舊率)×上年固定資產(chǎn)總值”來補(bǔ)充計(jì)算,折舊率折中取10%。[2,9]這樣可以利用固定資產(chǎn)投資推算2008~2009年的本年折舊。
關(guān)于缺失的2008~2013年的工業(yè)中間投入和工業(yè)增加值,借鑒余淼杰等的方法,采用“工業(yè)中間投入=產(chǎn)出值×銷售成本/銷售收入-工資支付-本年折舊”和“工業(yè)增加值=工業(yè)總產(chǎn)值+增值稅-工業(yè)中間投入”先后得出。[10]由于2009年工資支付缺失,這樣,在計(jì)算企業(yè)全要素生產(chǎn)率指標(biāo)中,還缺失2009年的工業(yè)中間投入和工業(yè)增加值,需要通過插值方法來獲得。
2.離群值、異常值缺漏化處理
為保留盡可能多的觀測(cè)值,在插值前本文對(duì)異常值做如下處理:①通過畫指標(biāo)的核密度函數(shù)圖,將工業(yè)增加值a17、固定資產(chǎn)合計(jì)a25、工業(yè)中間投入a70左右端十萬分之一的離群值設(shè)為缺漏值。②將關(guān)鍵指標(biāo)如工業(yè)總產(chǎn)值、從業(yè)人員年平均人數(shù)、固定資產(chǎn)合計(jì)、職工人數(shù)缺失或者小于等于0的觀測(cè)值設(shè)為缺漏值。③對(duì)于所用到的明顯不符合會(huì)計(jì)原則的觀測(cè)值,如“資產(chǎn)總計(jì)<固定資產(chǎn)合計(jì)”“工業(yè)增加值>工業(yè)總產(chǎn)值”“工業(yè)中間投入>工業(yè)總產(chǎn)值”的觀測(cè)值,保留理論上相對(duì)較大的指標(biāo)值,將對(duì)應(yīng)的固定資產(chǎn)合計(jì)、工業(yè)增加值、工業(yè)中間投入設(shè)為缺漏值。
經(jīng)過如上處理,總樣本和工業(yè)增加值、工業(yè)中間投入和本年折舊的觀測(cè)樣本發(fā)生了一系列變化,具體如表2所示。從表2最后一列的缺失率計(jì)算結(jié)果來看,需要插值處理的工業(yè)增加值a17、本年折舊a28、工業(yè)中間投入a70指標(biāo)的缺失率分別由46.93%、23%、46.84%降低為15.98%、5.42%、16.25%。很大程度上對(duì)數(shù)據(jù)庫進(jìn)行了完善,也為接下來插值處理與效果評(píng)估提供了基礎(chǔ)。
(二)五種插補(bǔ)方法
經(jīng)過一系列數(shù)據(jù)分析與處理,可以觀察到要計(jì)算全要素生產(chǎn)率關(guān)鍵在于對(duì)2008~2009年本年折舊和2009年工業(yè)中間投入和工業(yè)增加值缺失值的處理。關(guān)于本年折舊缺失值的處理,王萬珺和劉小玄提到采用固定資產(chǎn)和兩位數(shù)行業(yè)信息,利用單值插補(bǔ)和多元線性回歸重復(fù)插值十次,以第十次的插值替代缺失值。[8]究竟這種多重插補(bǔ)在大樣本數(shù)據(jù)中是否合適?是否較單值插補(bǔ)法更為優(yōu)越?通過不斷的嘗試,本文最終采用單一插補(bǔ)中的單值移動(dòng)時(shí)序平滑法、和多重插補(bǔ)中的鏈?zhǔn)椒匠谭ㄒ约斑@兩者的混合插補(bǔ)對(duì)數(shù)據(jù)庫進(jìn)行處理,并比較它們的效果。具體介紹如下:
單值插補(bǔ)(移動(dòng)平滑插補(bǔ)):原始數(shù)據(jù) 公式計(jì)算1 移動(dòng)平滑插值 公式計(jì)算2 插值結(jié)果1
多重插補(bǔ)(MICE1):原始數(shù)據(jù) 公式計(jì)算1 分省份分行業(yè)多重插值MICE 插值結(jié)果2
多重插補(bǔ)(MICE2):原始數(shù)據(jù) 公式計(jì)算1 分省份多重插值MICEI 插值結(jié)果3
混合插補(bǔ)(MMICE1):原始數(shù)據(jù) 公式計(jì)算1 移動(dòng)平滑插值 分省份分行業(yè)多重插值MICH 插值結(jié)果4
混合插補(bǔ)(MMICE2):原始數(shù)據(jù) 公式計(jì)算1 移動(dòng)平滑插值 分省份多重插值MICEH 插值結(jié)果5
1.單值移動(dòng)時(shí)序平滑插補(bǔ)
單一插補(bǔ)(Single Imputation)就是給一個(gè)缺失單元(變量)補(bǔ)上一個(gè)合理的值。本文通過移動(dòng)時(shí)序平滑插值法來獲得2009年工資支付,進(jìn)而利用“工業(yè)中間投入=產(chǎn)出值×銷售成本/銷售收入-工資支付-本年折舊”和“工業(yè)增加值=工業(yè)總產(chǎn)值+增值稅-工業(yè)中間投入”計(jì)算出缺失的工業(yè)中間投入和工業(yè)增加值。
然后再對(duì)于數(shù)據(jù)庫中存在缺漏的主要變量使用單值移動(dòng)時(shí)序平滑插補(bǔ)法進(jìn)行均值插補(bǔ)處理。在插補(bǔ)的基礎(chǔ)上再通過上面公式計(jì)算出部分缺漏的本年折舊、工業(yè)中間投入與工業(yè)增加值。經(jīng)過如上兩輪的計(jì)算和插補(bǔ)后,將工業(yè)總產(chǎn)值a14還存在缺失的觀測(cè)值進(jìn)行刪除處理,其原因在于a14作為多數(shù)研究的核心指標(biāo),從數(shù)據(jù)庫本身的情況來看a14缺失的觀測(cè)變量相應(yīng)地其他指標(biāo)也缺失嚴(yán)重,這樣的觀測(cè)值并不能為研究提供更多的信息。最終得到數(shù)據(jù)結(jié)果如表3所示。
2.多重插補(bǔ)
根據(jù)經(jīng)驗(yàn),如果大樣本數(shù)據(jù)某個(gè)或某些變量的缺失比例超過5%,則可能需要進(jìn)行多重插補(bǔ)。多重插補(bǔ)(multiple imputation)是給每個(gè)缺失單元(變量)插補(bǔ)上多個(gè)值,并將這些值合并為一個(gè)綜合的結(jié)果,進(jìn)而運(yùn)用這個(gè)被綜合處理的數(shù)據(jù)集對(duì)變量進(jìn)行描述或者研究變量之間的關(guān)系。多重插補(bǔ)以完全隨機(jī)缺失、隨機(jī)缺失機(jī)制為前提,要求盡可能保證數(shù)據(jù)缺失與觀測(cè)來的數(shù)據(jù)有關(guān),與未觀測(cè)到的數(shù)據(jù)無關(guān)。如果說單一插補(bǔ)的假定是從回答數(shù)據(jù)中能夠預(yù)測(cè)出缺失數(shù)據(jù)的“最佳值”,那么多重插補(bǔ)則的假定是從回答數(shù)據(jù)中能夠找出缺失數(shù)據(jù)的概率分布。
本文運(yùn)用了MICE(Multivariate Imputation by Chained Equations)鏈?zhǔn)椒匠谭▽?duì)缺漏值進(jìn)行插值處理。在進(jìn)行MICE 插值前,我們對(duì)參考指標(biāo)和插值指標(biāo)進(jìn)行了共線性測(cè)度,對(duì)VIF值超過10的參考指標(biāo)如工業(yè)銷售總產(chǎn)值a14b、流動(dòng)資產(chǎn)合計(jì)a18、資產(chǎn)總計(jì)a31、所有者權(quán)益合計(jì)a36、主營業(yè)務(wù)收入a39、主營業(yè)務(wù)成本a40等進(jìn)行剔除。在進(jìn)行MICE插值時(shí),我們作了兩種處理以作對(duì)比,第一種為同時(shí)控制行業(yè)與地區(qū),將數(shù)據(jù)集分為30×31個(gè)子數(shù)據(jù)集來進(jìn)行處理,在文中我們記為MICE1。第二種為控制地區(qū)的同時(shí)將行業(yè)設(shè)為啞變量,將數(shù)據(jù)集分為31個(gè)子數(shù)據(jù)集來進(jìn)行插值處理,記為MICE2。在插補(bǔ)時(shí),對(duì)于使用同類回歸方法的變量可以排列在一起,程序在執(zhí)行插補(bǔ)的時(shí)候會(huì)自動(dòng)按照缺失值從低到高的順序依次執(zhí)行。我們分別運(yùn)用這兩種方法對(duì)數(shù)據(jù)庫中主要的關(guān)鍵變量進(jìn)行10次插補(bǔ)取平均值。插補(bǔ)觀測(cè)值的變化情況歸納為表5所示。由于鏈?zhǔn)椒匠谭ㄅc單值移動(dòng)時(shí)序平滑法的插值原則不同,在鏈?zhǔn)椒匠谭ㄇ靶鑼?duì)參考變量中存在缺失值的觀測(cè)值作刪除處理,因此得出采用MICE1和MICE2進(jìn)行插值前的觀測(cè)值數(shù)量分別為3,293,169和3,381,821。由表4可見,經(jīng)MICE1和MICE2多重插補(bǔ)以后,缺失值相較于插值前的觀測(cè)值數(shù)量得到完全的填充。
3.混合插補(bǔ)
考慮到單純進(jìn)行單值移動(dòng)時(shí)序平滑插值以后還存在較多的缺失值,而單純的多重插值因數(shù)據(jù)量過于龐大不可能對(duì)單個(gè)個(gè)體進(jìn)行控制使得插值效果不盡人意,經(jīng)不斷實(shí)踐,本文發(fā)現(xiàn)在進(jìn)行單值移動(dòng)時(shí)序平滑法插值后,再進(jìn)行如上相應(yīng)的多重插補(bǔ)能夠獲得很好的效果,且各自變量的相對(duì)效率均高于98.6%,在單純的多重插補(bǔ)92.8%的基礎(chǔ)上提高不少。我們將相應(yīng)的插補(bǔ)方式記為MMICE1和MMICE2。在單值移動(dòng)時(shí)序平滑法的插值之后鏈?zhǔn)椒匠谭ú逯抵靶鑼?duì)參考變量中存在缺失值的作刪除處理,因此得出MMICE1和MMICE2插值前的觀測(cè)值數(shù)量為3,381,791和3,382,121,具體如表5所示??梢姡?jīng)MMICE1和MMICE2多重插補(bǔ)以后,缺失值相較于插值前的觀測(cè)值數(shù)量得到完全的填充。
(三)五種插值方法效果比較
在完成插值以后,需要對(duì)插值效果進(jìn)行檢驗(yàn)。首先,我們從感性的角度上來考察它們分別對(duì)數(shù)據(jù)庫的補(bǔ)充程度,即比較它們的插值后數(shù)據(jù)庫的完善情況,本文將結(jié)果歸納如表6所示??梢?,在對(duì)數(shù)據(jù)庫的完善程度來看,原始觀測(cè)值為3,505,053,單值插補(bǔ)的插值后存在值占原始觀測(cè)值的比例為63.95%~94.42%,多重插補(bǔ)MICE1、MICE2的比例分別達(dá)到93.95%和96.48%,混合插補(bǔ)因其結(jié)合了單值插補(bǔ)和多重插補(bǔ)的優(yōu)點(diǎn),MMICE1、MMICE2的比例分別達(dá)到96.48%和96.49%。從對(duì)數(shù)據(jù)庫指標(biāo)完善的程度上來看,混合插補(bǔ)具有相對(duì)優(yōu)勢(shì)。
上面我們對(duì)插值后觀測(cè)值統(tǒng)計(jì)量變化情況進(jìn)行了比較。因在插值前我們對(duì)異常值進(jìn)行了缺漏設(shè)定,現(xiàn)在具體考察插值后異常值的統(tǒng)計(jì)情況,如表7所示。從中可以看出,采用MMICE1方案所得到的正常樣本的比例最高(94.45%),其次是MICE1(93.49%),然后是MICE2(91.83%)和MMICE2(91.16%),最后是移動(dòng)平滑插補(bǔ)(83.68%)。移動(dòng)平滑插補(bǔ)所得到的正常樣本比例最低,主要源于它對(duì)缺漏值所做的插補(bǔ)有限,在計(jì)算后的數(shù)據(jù)基礎(chǔ)上只增加了4528個(gè)觀測(cè)樣本。同樣地,我們可以衡量其他四種插值方法的插值效果,其中MMICE1在計(jì)算后的數(shù)據(jù)基礎(chǔ)上增加了123262個(gè)觀測(cè)樣本且正常樣本達(dá)到94.45%。從這個(gè)意義上來說,MMICE1的插值效果具有相對(duì)優(yōu)勢(shì)。
上面兩種方式主要是從對(duì)數(shù)據(jù)完整程度的改善和插補(bǔ)后異常值/正常值的對(duì)比情況來反應(yīng)插值的效果,并不能準(zhǔn)確判別出哪種方式更好。具體哪種插補(bǔ)方法能被應(yīng)用于實(shí)證研究,關(guān)鍵還在于插值前后具體指標(biāo)數(shù)據(jù)的結(jié)構(gòu)是否改變。如何考察這樣龐大的數(shù)據(jù)集指標(biāo)結(jié)構(gòu)的變化,我們嘗試考察插值前后的指標(biāo)分布結(jié)構(gòu)是否有較大差異,具體參見表8。
根據(jù)已有文獻(xiàn)的做法,我們以MICE1和MICE2多重插補(bǔ)下的估計(jì)結(jié)果作為參考基準(zhǔn)。發(fā)現(xiàn)個(gè)案刪除(表中原始列)、移動(dòng)時(shí)序平滑插值法的估計(jì)都是有偏的,只有混合插補(bǔ)MMICE1和MMICE2的插補(bǔ)結(jié)果較為接近多重插補(bǔ)下的估計(jì)結(jié)果,與多重插補(bǔ)相比,刪除個(gè)案、移動(dòng)時(shí)序平滑插補(bǔ)方法在多數(shù)樣本上均顯示出低估了樣本的標(biāo)準(zhǔn)差。
具體多重插補(bǔ)和混合插補(bǔ)哪一種更適合我們后續(xù)的實(shí)證研究,我們還將多重插補(bǔ)MICE1及混合插補(bǔ)MMICE1、MMICE2插值前后的a17、a28、a70對(duì)數(shù)的核密度函數(shù)圖與原始數(shù)據(jù)計(jì)算補(bǔ)充后相應(yīng)指標(biāo)的核密度函數(shù)圖進(jìn)行擬合,發(fā)現(xiàn)雖然擬合程度都很高,但MMICE1基本上能與原始數(shù)據(jù)所得出的核密度函數(shù)圖相重合,如圖1所示。在插補(bǔ)過程的檢驗(yàn)中自變量的相對(duì)效率也體現(xiàn)出混合插補(bǔ)相對(duì)于多重插補(bǔ)的優(yōu)越性。因此,我們認(rèn)為MMICE1的插值結(jié)果最有效合理。遂將MMICE1插值后的數(shù)據(jù)庫用于下文企業(yè)全要素生產(chǎn)率的測(cè)度。
三、插值效果評(píng)估
鑒于全要素生產(chǎn)率的測(cè)度是使用中國工業(yè)企業(yè)數(shù)據(jù)庫進(jìn)行的最為廣泛的一個(gè)研究領(lǐng)域,本文在上述兩種相對(duì)最有效的插補(bǔ)方法建立的數(shù)據(jù)庫基礎(chǔ)上,分別采用OLS、FE、OP方法、LP方法來計(jì)算中國工業(yè)企業(yè)的TFP,以進(jìn)一步評(píng)估不同插補(bǔ)方法的效果。表9是基于單值移動(dòng)平滑和MMICE1插補(bǔ)后采用如上四種方法估計(jì)的結(jié)果。研究表明,采用OLS回歸與FE方法計(jì)算的勞動(dòng)產(chǎn)出彈性系數(shù)高于資本產(chǎn)出彈性系數(shù),采用OP方法和LP方法計(jì)算的資本產(chǎn)出彈性系數(shù)則高于勞動(dòng)產(chǎn)出彈性系數(shù)。根據(jù)現(xiàn)有研究可知,OLS回歸與FE 方法計(jì)算TFP會(huì)產(chǎn)生聯(lián)立性偏誤和樣本選擇性偏誤這兩種重要問題,因此會(huì)導(dǎo)致勞動(dòng)產(chǎn)出彈性系數(shù)被高估。與此同時(shí),我們發(fā)現(xiàn)OP 方法計(jì)算的資本產(chǎn)出彈性系數(shù)和勞動(dòng)產(chǎn)出彈性系數(shù)均顯著高于LP方法計(jì)算結(jié)果。
表10是基于兩種主要插補(bǔ)方法建立數(shù)據(jù)庫基礎(chǔ)上,進(jìn)而采用四種TFP計(jì)算方法對(duì)中國工業(yè)企業(yè)的全要素生產(chǎn)率進(jìn)行重新測(cè)度,最后得出表中的描述性統(tǒng)計(jì)數(shù)據(jù),并且分別畫出了四種TFP估計(jì)方法估計(jì)結(jié)果的核密度分布函數(shù)圖,如圖2所示。從表10以及圖2可以看出,基于兩種插值方法建立的數(shù)據(jù)庫無
論是在計(jì)算TFP的資本和勞動(dòng)彈性系數(shù)上,還是在計(jì)算TFP的數(shù)據(jù)分布特征上,兩種插值方法呈現(xiàn)出來的差異都非常小,這一方面驗(yàn)證了我們數(shù)據(jù)處理過程的合理性,另一方面說明了兩種插補(bǔ)方法的相對(duì)有效性。值得強(qiáng)調(diào)的是,盡管這兩種插補(bǔ)方法建立的數(shù)據(jù)庫在計(jì)算TFP的效果上的差異較?。ㄟ@說明這兩種方法建立的數(shù)據(jù)庫都能夠捕捉到TFP的基本分布特征信息),但是由于混合插補(bǔ)法的MMICE1能夠在保證計(jì)算指標(biāo)有效性的同時(shí)保留更大的數(shù)據(jù)樣本,進(jìn)而保留更多的關(guān)鍵數(shù)據(jù)信息。因此,本文認(rèn)為相對(duì)于移動(dòng)平滑法,混合插補(bǔ)法MMICE1在數(shù)據(jù)庫完善和關(guān)鍵指標(biāo)獲取方面更為有效。同時(shí),考慮到移動(dòng)平滑法是一種最為簡(jiǎn)單的插補(bǔ)方法,即使沒有過多的技術(shù)處理仍然可以取得相當(dāng)完美的計(jì)算結(jié)果,因?yàn)楸疚恼J(rèn)為移動(dòng)平滑法是一種更加經(jīng)濟(jì)有效的插補(bǔ)方法。
參考文獻(xiàn):
[1]Brandt Loren,Biesebroeck Johannes Van, and Zhang Yifan. Creative accounting or creativedestruction? Firm-level productivity growth in China[J]. Journal of DevelopmentEconomics, 2012, 97:339~351.
[2]聶輝華,江艇,楊汝岱.中國工業(yè)企業(yè)數(shù)據(jù)庫的使用現(xiàn)狀和潛在問題[J].世界經(jīng)濟(jì),2012(5).
[3]張?zhí)烊A,張少華.中國工業(yè)企業(yè)全要素生產(chǎn)率的穩(wěn)健估計(jì)[J].世界經(jīng)濟(jì),2016(4).
[4]陳林.中國工業(yè)企業(yè)數(shù)據(jù)庫的使用問題再探[J].經(jīng)濟(jì)評(píng)論,2018(6).
[5]陳林.中國工業(yè)統(tǒng)計(jì)的理論體系和制度變遷:兼議中國工業(yè)企業(yè)數(shù)據(jù)的部分系統(tǒng)性誤差[J].經(jīng)濟(jì)科學(xué),2019(4).
[6]李蘇蘇,葉祥松,張少華.中國制造業(yè)企業(yè)全要素生產(chǎn)率測(cè)度研究[J].學(xué)術(shù)研究,2020(3).
[7]李蘇蘇,張少華,周鵬.中國企業(yè)出口生產(chǎn)率優(yōu)勢(shì)的識(shí)別與分解研究[J].數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究,2020(2).
[8]王萬珺,劉小玄.為什么僵尸企業(yè)能夠長期生存[J].中國工業(yè)經(jīng)濟(jì),2018(10).
[9]蘇錦紅,蘭宜生,夏怡然.異質(zhì)性企業(yè)全要素生產(chǎn)率與要素配置效率——基于1999~2007年中國制造業(yè)企業(yè)微觀數(shù)據(jù)的實(shí)證分析[J].世界經(jīng)濟(jì)研究,2015(11).
[10]余淼杰,金洋,張睿.工業(yè)企業(yè)產(chǎn)能利用率衡量與生產(chǎn)率估算[J].經(jīng)濟(jì)研究,2018(5).
Research on the use of China industrial enterprise database (1999~2013):
Comparative analysis of missing value processing methods
ZHANG Shao-hua,LI Su-su
(Guangzhou University,Guangzhou,Guangdong 510006,China;Guangdong University of Finance and Economics,Guangzhou,Guangdong 510320,China)
Abstract:
China industrial enterprise database has become the preferred database to study China's micro enterprise activities. However, the lack of key indicators in the database seriously affects the update and use of the database. On the basis of referring to the main literature processing methods, this paper uses five interpolation methods to improve the database, including single imputation, MICE1、MICE2、MMICE1和MMICE2, so as to extend the Chinese industrial enterprise database to 2013, and evaluate the relative effectiveness of various interpolation methods by calculating the total enterprise productivity. The results show that: In the five interpolation methods, the single imputation method and MMICE1 are the two most effective interpolation methods, which can not only achieve the consistency of database features before and after interpolation, but also achieve the consistency of data structure features of total factor productivity. It is worth emphasizing that in terms of improving the database and calculating the total factor productivity, the former is a relatively economic method because of its simple process, while the latter is a relatively effective method because it can retain more sample information The research value of this paper is to provide basic research work for the use of Chinese industrial enterprise database.
Key words:
chinese industrial enterprise database;single imputation;multivariate imputation by chained equations;mixed interpolation method;total factor productivity
責(zé)任編輯:吳錦丹
收稿日期:2021-03-05
基金項(xiàng)目:國家社會(huì)科學(xué)基金重大攻關(guān)項(xiàng)目“全面建成小康社會(huì)背景下新型城鄉(xiāng)關(guān)系研究”(17ZDA067);國家自然科學(xué)基金常規(guī)面上項(xiàng)目“中國的“中部迷失”問題:典型事實(shí)、形成機(jī)理及宏觀后果”(批準(zhǔn)號(hào):71673253)、“中國企業(yè)和城市規(guī)模分布異化的政策根源、形成機(jī)制與效率評(píng)估”(批準(zhǔn)號(hào):72073038),以及廣州市宣傳文化人才培養(yǎng)專項(xiàng)經(jīng)費(fèi)資助的成果之一。
作者簡(jiǎn)介:張少華(1975—),男,山西陽城人,廣州大學(xué)經(jīng)濟(jì)與統(tǒng)計(jì)學(xué)院教授、博導(dǎo),中山大學(xué)博士,浙江大學(xué)博士后,研究方向?yàn)橘Y源錯(cuò)配與全要素生產(chǎn)率研究;李蘇蘇(1984—)(通訊作者),女,湖南婁底人,廣東財(cái)經(jīng)大學(xué)講師,博士,研究方向?yàn)樯a(chǎn)率測(cè)度與分解研究。
貴州財(cái)經(jīng)大學(xué)學(xué)報(bào)2021年5期