吳繼英, 薛艷杰
數(shù)據(jù)是國家的基礎(chǔ)性戰(zhàn)略資源,對生產(chǎn)、流通和分配等方面產(chǎn)生越來越重要的影響。學(xué)術(shù)研究離不開數(shù)據(jù),高質(zhì)量的統(tǒng)計數(shù)據(jù)是國家制定宏觀政策的基礎(chǔ),也是考核官員政績的重要依據(jù)。2021年2月習(xí)近平總書記在全國脫貧攻堅總結(jié)表彰大會上宣告我國脫貧攻堅戰(zhàn)取得了全面勝利,現(xiàn)行標(biāo)準(zhǔn)下9 899萬農(nóng)村貧困人口全部脫貧。脫貧統(tǒng)計數(shù)據(jù)質(zhì)量直接影響脫貧攻堅成果評價,從而引發(fā)社會各界關(guān)注。2020年初新冠疫情暴發(fā),在脫貧工作完成的過程中,黨中央國務(wù)院不止一次地提出拒絕數(shù)字脫貧、虛假脫貧。然而,有部分地區(qū)為了彰顯政績、謀取國家扶貧項目和套取國家扶貧資金,在脫貧數(shù)據(jù)方面造假,虛報農(nóng)戶收入水平、超報貧困人口數(shù)量、脫貧成效考核時更改貧困標(biāo)準(zhǔn),導(dǎo)致數(shù)字脫貧與虛假脫貧現(xiàn)象時有發(fā)生(1)李曉園, 鐘偉. 大數(shù)據(jù)驅(qū)動中國農(nóng)村精準(zhǔn)脫貧的現(xiàn)實困境與路徑選擇[J].求實,2019(5):78-87.。在此背景下把好脫貧統(tǒng)計數(shù)據(jù)質(zhì)量關(guān),進行脫貧統(tǒng)計數(shù)據(jù)質(zhì)量檢驗,能夠有效檢驗脫貧成果,為國家各級部門科學(xué)決策提供高質(zhì)量的數(shù)據(jù)保障,使脫貧攻堅成果經(jīng)得起歷史和人民的考驗,對我國進一步提升國際形象具有十分重要的意義。
統(tǒng)計數(shù)據(jù)質(zhì)量檢驗一直是學(xué)術(shù)界關(guān)注的重點,檢驗的方法主要有邏輯關(guān)系檢驗法、調(diào)查誤差評估法、計量分析檢驗法、統(tǒng)計分布檢驗法、多維評估法等。Benford法則屬于統(tǒng)計分布檢驗法的一種,經(jīng)過不斷發(fā)展完善逐漸成為檢驗數(shù)據(jù)質(zhì)量的常用方法之一(2)韓兆洲, 程學(xué)偉. GDP統(tǒng)計數(shù)據(jù)質(zhì)量實證研究: 基于Benford法則和空間面板模型[J]. 數(shù)理統(tǒng)計與管理, 2019,38(3):394-404.,最早應(yīng)用于會計領(lǐng)域用來檢查會計相關(guān)行業(yè)統(tǒng)計數(shù)據(jù)的徇私舞弊行為(3)NIGRINI M J, MITTERMAIER L I. The use of Benford’s law as an aid in analytical procedures[J]. Auditing: a journal of practice & theory,1997,16(2):52-67.,后又逐漸應(yīng)用于宏觀和微觀統(tǒng)計數(shù)據(jù)方面(4)許滌龍, 金瑛. 基于Benford法則的M2統(tǒng)計數(shù)據(jù)準(zhǔn)確性研究[J]. 統(tǒng)計與信息論壇, 2010,25(8):20-24.,如檢驗調(diào)查數(shù)據(jù)質(zhì)量(5)GEORGE J, LAURA S. Detecting problems in survey data using Benford’s law[J]. Journal of human resourus,2009,44(1):1-24.,檢驗GDP數(shù)據(jù)(6)曾五一, 薛梅林. GDP國家數(shù)據(jù)與地區(qū)數(shù)據(jù)的可銜接性研究[J]. 廈門大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2014(2):110-119.、保險行業(yè)相關(guān)數(shù)據(jù)(7)劉云霞, 曾五一. 關(guān)于綜合利用Benford法則與其他方法評估統(tǒng)計數(shù)據(jù)質(zhì)量的進一步研究[J]. 統(tǒng)計研究, 2013,30(8):3-9.和宏觀經(jīng)濟統(tǒng)計數(shù)據(jù)(8)米子川, 楊小慶. Benford法則: 中國宏觀經(jīng)濟統(tǒng)計數(shù)據(jù)質(zhì)量評價的一種新范式[J]. 數(shù)學(xué)的實踐與認(rèn)識, 2014,44(24):10-18.的準(zhǔn)確性等。亦有研究運用計量模型通過考察待評估指標(biāo)與其他關(guān)聯(lián)性指標(biāo)的匹配度進行數(shù)據(jù)質(zhì)量檢驗(9)劉思明, 臧夢玲. 中國地區(qū)GDP增長數(shù)據(jù)準(zhǔn)確度評估——納入太空燈光數(shù)據(jù)下修正“克強指數(shù)”的實證研究[J]. 云南財經(jīng)大學(xué)學(xué)報, 2018,34(6):27-37.。Benford法則檢驗法多與計量模型結(jié)合使用,如劉云霞運用Benford法則和面板模型結(jié)合的方法對我國稅收收入進行質(zhì)量檢驗(10)劉云霞, 吳曦明, 曾五一. 關(guān)于綜合運用Benford法則和面板模型檢測統(tǒng)計數(shù)據(jù)質(zhì)量的研究[J]. 統(tǒng)計研究, 2012,29(11):74-78.、闕里和鐘笑寒對我國地區(qū) GDP 增長的統(tǒng)計數(shù)據(jù)進行了真實性檢驗(11)闕里, 鐘笑寒. 中國地區(qū)GDP增長統(tǒng)計的真實性檢驗[J]. 數(shù)量經(jīng)濟技術(shù)經(jīng)濟研究, 2005(4):3-12.。
綜上所述,相關(guān)學(xué)者運用Benford法則和計量模型相結(jié)合對我國經(jīng)濟統(tǒng)計數(shù)據(jù)質(zhì)量進行檢測,為本文研究提供了良好的方法基礎(chǔ),但現(xiàn)有研究構(gòu)建計量模型時,未對解釋變量數(shù)據(jù)進行質(zhì)量檢驗,容易造成檢驗結(jié)果的偏差性。因此,本文在構(gòu)建面板數(shù)據(jù)模型之前,運用Benford法則對變量數(shù)據(jù)進行質(zhì)量檢驗,同時為增加結(jié)果的可信度、避免單一方法檢驗所造成的誤差,引入邏輯匹配檢驗和殘差檢驗?,F(xiàn)有檢驗數(shù)據(jù)質(zhì)量的研究大多集中在對GDP等經(jīng)濟統(tǒng)計指標(biāo)的檢驗,關(guān)于脫貧攻堅方面的研究也更多傾向于扶貧成效的測度方面(12)周玉龍, 孫久文. 瞄準(zhǔn)國貧縣的扶貧開發(fā)政策成效評估——基于1990—2010年縣域數(shù)據(jù)的經(jīng)驗研究[J]. 南開經(jīng)濟研究,2019(5):21-40.(13)聶君, 束錫紅. 青海藏區(qū)精準(zhǔn)扶貧績效評價及影響因素實證研究[J]. 北方民族大學(xué)學(xué)報(哲學(xué)社會科學(xué)版), 2019,145(1):33-41.,對脫貧攻堅指標(biāo)數(shù)據(jù)進行質(zhì)量檢驗的研究成果幾乎未見。鑒于此,本文以2013—2018年我國農(nóng)村地區(qū)(14)全國農(nóng)村,涉及31個省份。和貧困地區(qū)(15)貧困地區(qū):貧困地區(qū)包括集中連片特困地區(qū)和片區(qū)外的國家扶貧開發(fā)工作重點縣,主要涉及22個省。為便于比較,本文以省為單位進行研究。范圍內(nèi)4個重要脫貧指標(biāo)統(tǒng)計數(shù)據(jù)為研究對象,運用Benford法則對脫貧統(tǒng)計數(shù)據(jù)前兩位數(shù)字的真實性進行檢驗,并構(gòu)建主成分面板回歸模型進行指標(biāo)之間的邏輯匹配性檢驗,由回歸分析得到的殘差進一步檢測脫貧指標(biāo)問題數(shù)據(jù)出現(xiàn)的時間和區(qū)域。
Benford法則認(rèn)為數(shù)據(jù)集的各位數(shù)字存在著某種分布規(guī)律,通過比較理論頻率與實際頻率來檢驗數(shù)據(jù)質(zhì)量。Benford法則經(jīng)過現(xiàn)象發(fā)現(xiàn)——給出數(shù)學(xué)表達式——證明、推導(dǎo),不斷發(fā)展和改善,已經(jīng)成為檢測數(shù)據(jù)是否存在修飾、篡改和舞弊等質(zhì)量問題的重要方法之一(16)龐新生, 廖子宜. 分市縣住戶調(diào)查收支匯總數(shù)據(jù)的準(zhǔn)確性評估[J]. 統(tǒng)計與決策,2019,35(22):11-15.。依據(jù)Benford定律,首位數(shù)字(非零非負(fù))出現(xiàn)的頻率為
(1)
第二位數(shù)字出現(xiàn)的頻率為
(2)
…
其中,d1是數(shù)據(jù)的首位數(shù)字,為1~9,該數(shù)字應(yīng)非零非負(fù),p(d1)是該首位數(shù)字d1出現(xiàn)的頻率;d2是數(shù)據(jù)的第二位數(shù)字,為0~9,該數(shù)字應(yīng)非負(fù),p(d2)是該第二位數(shù)字d2出現(xiàn)的頻率。
Benford法則首位數(shù)字和第二位數(shù)字分布的理論頻率如表1所示。
表1 Benford法則下首位數(shù)字和第二位數(shù)字分布的理論頻率
依據(jù)理論頻率分布可以發(fā)現(xiàn):隨著首位和第二位數(shù)字的不斷增大,理論分布頻率不斷降低,且降低的幅度越來越小。高質(zhì)量數(shù)據(jù)的數(shù)字分布應(yīng)該符合Benford法則,如果數(shù)據(jù)存在人為調(diào)整、修改、修飾等行為,就會破壞這種規(guī)則(17)韓兆洲, 程學(xué)偉. GDP統(tǒng)計數(shù)據(jù)質(zhì)量實證研究: 基于Benford法則和空間面板模型[J]. 數(shù)理統(tǒng)計與管理,2019,38(3):394-404.。Benford法則常用的檢驗方法主要有χ2擬合優(yōu)度檢驗、修正的K-S擬合優(yōu)度檢驗、距離檢驗和Pearson相關(guān)系數(shù)檢驗。
Benford法則雖然可以從一定程度上檢驗問題數(shù)據(jù)出現(xiàn)的位數(shù),但卻無法準(zhǔn)確地識別出問題數(shù)據(jù)出現(xiàn)的具體時間與地區(qū),此外也容易受到樣本數(shù)量的影響,單靠Benford法則無法確定統(tǒng)計數(shù)據(jù)是否真的存在質(zhì)量問題,將其與面板數(shù)據(jù)模型結(jié)合,既可以很好地規(guī)避這一缺點,又可以很好地避免由于模型設(shè)定和變量選取的不同所導(dǎo)致的檢驗結(jié)果差異性。面板數(shù)據(jù)模型主要分為固定效應(yīng)模型、隨機效應(yīng)模型和混合回歸模型。其中,固定效應(yīng)模型即假定每個個體回歸方程具有相同的斜率,每個個體的截距項不同。具體形式如下:
yit=ui+b*xit+eit,i=1,…,n;t=1,…,T
(3)
其中,i表示每個研究個體,t表示研究時期。yit是被解釋變量,xit是隨個體與時間而改變的解釋變量;ui是不隨時間而變的個體特征,eit是隨個體與時間而改變的擾動項。
為保證脫貧統(tǒng)計數(shù)據(jù)質(zhì)量的全面性與針對性,采用Benford法則分別對全國農(nóng)村和貧困地區(qū)的脫貧統(tǒng)計數(shù)據(jù)前兩位數(shù)字進行質(zhì)量檢驗,既能檢驗全國脫貧數(shù)據(jù)的質(zhì)量狀況,又能有針對性地檢測貧困地區(qū)的脫貧數(shù)據(jù)質(zhì)量。數(shù)據(jù)來源于《中國農(nóng)村貧困監(jiān)測報告》中2013—2018年31個省(市、自治區(qū))總的貧困數(shù)據(jù)以及貧困地區(qū)的數(shù)據(jù)。
在政府工作報告以及相關(guān)會議政策中,論述脫貧攻堅成效時都明確提到了貧困人口數(shù)、貧困發(fā)生率、人均可支配收入和人均消費支出等指標(biāo),這四項指標(biāo)是考察脫貧攻堅成效的常用指標(biāo)。貧困人口數(shù)、貧困發(fā)生率直接反映開展脫貧工作后的直接成果,人均可支配收入反映居民的基本生活保障度,人均消費支出反映了農(nóng)村居民及貧困地區(qū)的消費能力。對這四項指標(biāo)進行統(tǒng)計數(shù)據(jù)質(zhì)量檢驗分析,對于衡量脫貧工作的真實成效具有重要的意義。鑒于此,本文最終選取貧困人口數(shù)(萬人)、貧困發(fā)生率(%)、農(nóng)村居民人均可支配收入(元)和人均消費支出(元)四項指標(biāo)作為數(shù)據(jù)質(zhì)量檢驗的基礎(chǔ)性指標(biāo)。
運用Benford法則需要滿足四個基本條件:一是數(shù)據(jù)受主觀因素影響較小且數(shù)據(jù)量較大,樣本量一般大于等于100;二是數(shù)據(jù)從不同來源隨機抽樣,無人為限制;三是數(shù)據(jù)是自然形成的,不可人為賦值;四是首位數(shù)字非零非負(fù),同時無最大值與最小值的限制,不能按一定規(guī)律排序。結(jié)合所選樣本指標(biāo)數(shù)據(jù)的特征(如《中國農(nóng)村貧困監(jiān)測報告》給出的貧困發(fā)生率數(shù)據(jù)大多為兩位數(shù)字),對樣本數(shù)據(jù)的前兩位數(shù)字進行Benford法則驗證,同時對不符合上述條件的數(shù)據(jù)進行處理,使其保留原始數(shù)據(jù)信息的基礎(chǔ)上適合運用Benford法則(18)劉明宇. 基于Benford法則的城鎮(zhèn)居民人均可支配收入質(zhì)量評估[J]. 統(tǒng)計與咨詢,2014(6):30-31.。
由于貧困人口數(shù)指標(biāo)單位為萬人,導(dǎo)致個別省份貧困人口數(shù)只有一位數(shù)字,對這樣的數(shù)據(jù)一般至少乘以10。貧困發(fā)生率(%)指標(biāo)個別省份數(shù)據(jù)小于百分之1或只有一位數(shù)字,將該指標(biāo)樣本數(shù)據(jù)值乘以100。為計算方便,將全國農(nóng)村和貧困地區(qū)的這兩項指標(biāo)(貧困發(fā)生率和貧困人口數(shù))的數(shù)據(jù)統(tǒng)一乘以100,得到符合要求的數(shù)據(jù),該處理不影響B(tài)enford法則運算結(jié)果。另外,由于當(dāng)部分省份某個指標(biāo)某一年的數(shù)據(jù)較小而被忽略不計導(dǎo)致該指標(biāo)數(shù)據(jù)缺失時,比如,在計算全國農(nóng)村脫貧指標(biāo)數(shù)據(jù)的理論頻率時,北京(2013—2018)、天津(2013—2018)、上海(2013)、江蘇(2015—2018)、浙江(2015—2018)、福建(2017—2018)、山東(2018)、廣東(2016—2018)的貧困人口數(shù)和貧困發(fā)生率數(shù)據(jù)較小而缺失,在計算該類指標(biāo)首位數(shù)字和第二位數(shù)據(jù)出現(xiàn)次數(shù)時,不考慮該指標(biāo)上述省份上述年份的數(shù)據(jù),在計算總數(shù)時也予以刪除。經(jīng)上述處理,得到符合要求的樣本數(shù)據(jù)。
對處理后符合要求的樣本數(shù)據(jù),首先提取全國農(nóng)村及貧困地區(qū)4個指標(biāo)的首位和第二位數(shù)字;其次計算首位數(shù)字1~9和第二位數(shù)字0~9出現(xiàn)的次數(shù),然后分別利用次數(shù)除以總次數(shù),計算出首位數(shù)字1~9和第二位數(shù)字0~9出現(xiàn)的實際頻率;最后將實際頻率與Benford理論頻率進行對比計算差異值,并對可能存在的差異是否顯著進行χ2檢驗以判定脫貧指標(biāo)的數(shù)據(jù)質(zhì)量。
全國農(nóng)村和貧困地區(qū)“貧困發(fā)生率”“農(nóng)村貧困人口”“農(nóng)村居民人均可支配收入”和“農(nóng)村居民人均消費支出”四項指標(biāo)數(shù)據(jù),首位數(shù)字出現(xiàn)0~9和第二位數(shù)字出現(xiàn)1~9的實際頻率、Benford法則下的理論頻率以及二者之間的差異分別如表2所示(限于篇幅,其他3個指標(biāo)的結(jié)果略)。
表 2 “貧困發(fā)生率”數(shù)據(jù)的實際頻率、理論頻率及差異
續(xù)表
由表2可知,貧困發(fā)生率指標(biāo)的全國農(nóng)村和貧困地區(qū)數(shù)據(jù)首位數(shù)字出現(xiàn)的實際頻率除個別數(shù)值外,整體呈遞減趨勢;而全國和貧困地區(qū)數(shù)據(jù)第二位數(shù)字出現(xiàn)的實際頻率分布趨勢卻未呈現(xiàn)依次遞減趨勢,分布趨勢呈上下波動。進一步觀察二者首位與第二位數(shù)字出現(xiàn)的實際頻率與Benford法則下理論頻率差異的絕對值,除個別值(貧困地區(qū)的貧困發(fā)生率首位數(shù)字為1、3、2,貧困地區(qū)第二位數(shù)字為0)較大以外,整體較小。
貧困人口數(shù)指標(biāo)的全國農(nóng)村數(shù)據(jù)首位數(shù)字除6以外,貧困地區(qū)數(shù)據(jù)首位數(shù)字除6和7的實際頻率外,整體呈遞減趨勢;而第二位數(shù)字兩者都時增時減,未呈現(xiàn)明顯遞減趨勢的規(guī)律。二者首位數(shù)字與第二位數(shù)字出現(xiàn)的實際頻率與Benford法則下理論頻率差異的絕對值較小。
農(nóng)村居民人均可支配收入指標(biāo)的全國農(nóng)村數(shù)據(jù)的首位數(shù)字之間呈現(xiàn)先減(1~4)后增(5~9)趨勢,貧困地區(qū)除數(shù)字2、3、6以外,數(shù)字分布頻率隨著數(shù)字的增大逐漸呈遞減趨勢;第二位數(shù)字全國地區(qū)和貧困地區(qū)數(shù)字0~5出現(xiàn)頻率隨著數(shù)字的增大遞減,之后遞減趨勢消失。全國地區(qū)首位數(shù)字出現(xiàn)的實際頻率與Benford法則下理論頻率差異的絕對值個別數(shù)值較大,貧困地區(qū)首位數(shù)字出現(xiàn)的實際頻率與Benford法則下理論頻率差異的絕對值相對較大,第二位數(shù)字差異相對較小。
農(nóng)村居民人均消費支出指標(biāo)的全國農(nóng)村和貧困地區(qū)數(shù)據(jù)的首位數(shù)字出現(xiàn)1~9的頻率先遞減后遞增再減;全國農(nóng)村第二位數(shù)字除4、5、8、9以外呈現(xiàn)遞減趨勢,貧困地區(qū)數(shù)據(jù)中數(shù)字0~9出現(xiàn)的頻率沒有明顯呈現(xiàn)隨數(shù)字增大而遞減。全國農(nóng)村和貧困地區(qū)首位數(shù)字出現(xiàn)的實際頻率與Benford法則下理論頻率差異的絕對值均比較大,而第二位數(shù)字實際頻率與理論頻率差異較小。
綜合來看,四項指標(biāo)數(shù)據(jù)的首位數(shù)字與第二位數(shù)字實際頻率分布趨勢,與Benford法則下隨著數(shù)字增大而減小的理論頻率分布趨勢不一致,且有部分指標(biāo)出現(xiàn)上升趨勢。除農(nóng)村居民人均可支配收入和人均消費支出首位數(shù)字外,其他指標(biāo)數(shù)據(jù)首位與第二位數(shù)字實際頻率與理論頻率差異相對較小。判斷數(shù)據(jù)是否符合Benford法則,還需進行χ2擬合優(yōu)度檢驗。
對貧困發(fā)生率等4個指標(biāo)的計算結(jié)果進行χ2擬合優(yōu)度檢驗,如果χ2統(tǒng)計量小于臨界值,則接受原假設(shè)(實際頻率與理論頻率之間無差異),拒絕備擇假設(shè),認(rèn)為該統(tǒng)計數(shù)據(jù)符合Benford法則,數(shù)據(jù)準(zhǔn)確性較高,人為篡改的可能性較?。蝗绻?統(tǒng)計量大于臨界值,則拒絕原假設(shè),接受備擇假設(shè),即認(rèn)為該樣本數(shù)據(jù)不符合Benford法則,數(shù)據(jù)存在造假的可能。
χ2統(tǒng)計量計算公式為
(4)
其中,ei為首位(第二位數(shù)字)出現(xiàn)的實際頻率,bi為Benford法則下首位(第二位)數(shù)字出現(xiàn)的理論頻率,N為樣本總量。在5%的顯著性水平下,首位數(shù)字和第二位數(shù)字的χ2統(tǒng)計量的臨界值分別為15.51、16.92(19)劉云霞, 吳曦明, 曾五一. 關(guān)于綜合運用Benford法則和面板模型檢測統(tǒng)計數(shù)據(jù)質(zhì)量的研究[J]. 統(tǒng)計研究,2012,29(11):74-78.。
依據(jù)公式(4),得到如表3所示的檢驗結(jié)果。
表3 四項脫貧指標(biāo)數(shù)據(jù)前兩位數(shù)字分布的檢驗結(jié)果
由表3可知,2013—2018年全國農(nóng)村脫貧指標(biāo)中的貧困發(fā)生率、貧困人口數(shù)符合Benford法則,首位和第二位數(shù)字真實可信;貧困地區(qū)貧困人口數(shù)符合Benford法則,首位和第二位數(shù)字真實可信。此外,全國農(nóng)村居民人均消費支出的第二位數(shù)字和貧困地區(qū)貧困發(fā)生率、農(nóng)村居民人均可支配收入、農(nóng)村居民人均消費支出的第二位數(shù)字的χ2檢驗結(jié)果也是接受原假設(shè),表明上述指標(biāo)第二位數(shù)字是真實可信的。2013—2018年全國農(nóng)村居民人均可支配收入的首位和第二位數(shù)字、農(nóng)村居民人均消費支出首位數(shù)字以及貧困地區(qū)的貧困發(fā)生率、農(nóng)村人均可支配收入、農(nóng)村居民人均消費支出的首位數(shù)字χ2檢驗結(jié)果均拒絕原假設(shè),可認(rèn)為上述指標(biāo)相應(yīng)位數(shù)的數(shù)字不符合Benford法則,可能存在數(shù)據(jù)質(zhì)量問題。原因可能是不同省份指標(biāo)之間的統(tǒng)計口徑或核算角度存在差異,也可能是由于所選擇的樣本時期較短、樣本量相對較少造成的。隨著我國經(jīng)濟增長,人均可支配收入和人均消費支出也逐漸增長,指標(biāo)數(shù)值變大造成這兩項指標(biāo)數(shù)據(jù)中首位數(shù)字中某些數(shù)字(通常是較小的數(shù)字)缺失。同時由于政府對脫貧的有效治理也會導(dǎo)致貧困地區(qū)的貧困發(fā)生率的首位數(shù)字集中于某個數(shù)字,從而出現(xiàn)不符合Benford規(guī)律的現(xiàn)象。以貧困地區(qū)的貧困發(fā)生率指標(biāo)為例,結(jié)合表2中的計算結(jié)果可知實際頻率比Benford理論頻率大的首位數(shù)字為1、7、8、9,表明該指標(biāo)出現(xiàn)質(zhì)量問題的數(shù)據(jù)大概率會出現(xiàn)在首位數(shù)字為1、7、8、9的數(shù)據(jù)中,也即貧困發(fā)生率過低或過高均應(yīng)引起注意,在檢查數(shù)據(jù)質(zhì)量時應(yīng)該密切關(guān)注這些數(shù)據(jù)。
由上述分析可知,無論是全國農(nóng)村還是貧困地區(qū),考察脫貧工作的直接指標(biāo)“貧困發(fā)生率”的第一位數(shù)字均未通過統(tǒng)計檢驗,故需借助面板數(shù)據(jù)模型展開指標(biāo)之間的邏輯匹配性檢驗,以進一步檢驗指標(biāo)數(shù)據(jù)質(zhì)量。由表3可知,全國農(nóng)村范圍內(nèi)的農(nóng)村居民人均可支配收入指標(biāo)首位和第二位均未通過檢驗,可能存在質(zhì)量問題,因此不適合作為解釋變量構(gòu)建面板數(shù)據(jù)模型。而貧困地區(qū)4個指標(biāo)數(shù)據(jù)的第二位數(shù)字均通過了統(tǒng)計檢驗,整體數(shù)據(jù)質(zhì)量相對較好,可以作為面板數(shù)據(jù)模型檢驗的樣本。同時考慮到貧困地區(qū)作為脫貧攻堅戰(zhàn)的主戰(zhàn)場,相關(guān)指標(biāo)數(shù)據(jù)質(zhì)量直接影響國家脫貧政策的制定。因此,針對貧困地區(qū)的各項指標(biāo)構(gòu)建面板數(shù)據(jù)模型進行邏輯匹配性檢驗和殘差檢驗。
“貧困發(fā)生率”能夠較好地反映不同時期不同地區(qū)的貧困狀況,是衡量脫貧成效最重要的指標(biāo)之一,故將其作為被解釋變量?!柏毨丝跀?shù)”是貧困發(fā)生率的直接關(guān)聯(lián)指標(biāo),考慮到貧困發(fā)生率與貧困人口數(shù)存在著一定的比例關(guān)系,選擇貧困人口數(shù)x1對貧困發(fā)生率進行邏輯匹配性檢驗是合理的,可以驗證二者的邏輯關(guān)系是否正確,故將其作為解釋變量;同時選取“人均可支配收入x2”“人均消費支出x3”作為解釋變量,通過構(gòu)建面板模型進行邏輯匹配性檢驗。
為避免多重共線性需要對3個解釋變量提取主成分,傳統(tǒng)的主成分分析法對面板數(shù)據(jù)不適用,需采取全局主成分法;同時為了不減少數(shù)據(jù)信息量,提取與解釋變量數(shù)量相同的主成分,與被解釋變量進行回歸。由于提取主成分時對原始解釋變量進行了標(biāo)準(zhǔn)化處理,為保證一致性,對被解釋變量“貧困發(fā)生率”也進行標(biāo)準(zhǔn)化處理。運用SPSS 23.0進行全局主成分提取,具體過程略。
首先需要選擇適當(dāng)?shù)哪P瓦M行回歸。采用stata軟件分別進行混合模型回歸、固定效應(yīng)回歸和隨機效應(yīng)回歸,然后利用F檢驗、LM檢驗和Hausman檢驗進行模型選擇,最終拒絕混合效應(yīng)回歸模型和隨機效應(yīng)回歸模型,選取固定效應(yīng)回歸模型。經(jīng)檢驗,隨機擾動項存在組間異方差、組內(nèi)自相關(guān)和同期截面相關(guān),因此采用FGLS對模型進行估計,得到回歸系數(shù)估計結(jié)果如表4所示。
表4 個體固定效應(yīng)回歸系數(shù)估計結(jié)果
由表4可知,模型中解釋變量F1、F2、F3的回歸系數(shù)均通過了1%顯著性水平檢驗,表明固定效應(yīng)模型估計效果良好,所選取的自變量與因變量適合模型估計,接下來利用回歸結(jié)果進行邏輯匹配性檢驗。
主成分變量雖然可以消除共線性,但是卻無法很好地對被解釋變量進行解釋。因此需要把主成分與被解釋變量之間的回歸系數(shù)還原成原始變量與因變量之間的回歸系數(shù)。依據(jù)主成分的生成原理與表4,還原出因變量貧困發(fā)生率與原始自變量貧困人口數(shù)、農(nóng)村居民人均可支配收入之間的回歸系數(shù),如表5所示。
表5 還原后的回歸系數(shù)
表5中貧困人口數(shù)與貧困發(fā)生率之間呈正向關(guān)系,表明貧困人口數(shù)越多,貧困發(fā)生率越高;農(nóng)村居民人均可支配收入、人均消費支出與貧困發(fā)生率呈負(fù)向關(guān)系,表明農(nóng)村居民人均可支配收入和人均消費支出越高,貧困發(fā)生率相應(yīng)越低。從貧困發(fā)生率與貧困人口數(shù)計算關(guān)系來看,模型中得出的二者之間存在正向相關(guān)關(guān)系合理,隨著國家扶貧政策投入的不斷深入,貧困地區(qū)得到救助的人數(shù)越來越多,貧困人口不斷減少,使得貧困發(fā)生率也逐漸降低。從社會發(fā)展規(guī)律和經(jīng)濟發(fā)展過程來看,農(nóng)村人均可支配收入、人均消費支出與貧困發(fā)生率存在負(fù)向關(guān)系合理,因為這兩項指標(biāo)反映了農(nóng)村居民的收入能力和消費能力,隨著精準(zhǔn)扶貧政策和措施的不斷完善,國家扶貧產(chǎn)業(yè)不斷發(fā)展,貧困地區(qū)的勞動力資源得到開發(fā)利用,農(nóng)民有了收入來源和消費基礎(chǔ),生活水平逐漸提高,貧困發(fā)生率自然逐漸降低。因此,貧困發(fā)生率指標(biāo)2013—2018年數(shù)據(jù)通過了邏輯匹配性檢驗,符合計算法則和社會發(fā)展規(guī)律。
經(jīng)過Benford法則檢驗和邏輯匹配性檢驗可知,所選取的脫貧攻堅指標(biāo)2013—2018年數(shù)據(jù)整體質(zhì)量較好,但個別省份個別年份的數(shù)據(jù)還存在質(zhì)量問題,可利用殘差的標(biāo)準(zhǔn)化值來揭示貧困發(fā)生率數(shù)據(jù)的異常值點。
殘差標(biāo)準(zhǔn)化計算公式如下:
(5)
依據(jù)公式(5)計算2013—2018年貧困地區(qū)22個省貧困發(fā)生率的標(biāo)準(zhǔn)化殘差值見表6。
表6 貧困地區(qū)貧困發(fā)生率的標(biāo)準(zhǔn)化殘差值
續(xù)表
由表6可知,河北省2013—2015年、海南省2017—2018年、貴州省2018年和陜西省2013—2016年的標(biāo)準(zhǔn)化殘差值大于2,為“異常數(shù)據(jù)”,其余地區(qū)均控制在2以內(nèi),說明上述省份的貧困縣在上述年份的貧困發(fā)生率數(shù)據(jù)可能存在質(zhì)量問題。進一步觀察發(fā)現(xiàn),河北省2016—2017年、重慶市2015—2016年、貴州省2017年、西藏2013—2014年、陜西2017年的標(biāo)準(zhǔn)化殘差值雖然小于2,但均大于1.5,有些數(shù)值已達到1.9,非常接近于2,可將這類數(shù)據(jù)歸為“瀕臨異常數(shù)據(jù)”處理,認(rèn)為這些數(shù)據(jù)可能存在質(zhì)量問題,應(yīng)引起重視。值得注意的是,海南省和貴州省下屬貧困縣貧困發(fā)生率的標(biāo)準(zhǔn)化殘差值呈逐年遞增趨勢,應(yīng)引起預(yù)警。
為避免由于模型設(shè)定和變量選取導(dǎo)致殘差檢驗結(jié)果出現(xiàn)不一致性,將Benford法則中理論頻率與實際頻率的差異值與殘差檢驗結(jié)果相結(jié)合來進一步確定上述問題數(shù)據(jù)。Benford法則檢驗結(jié)果顯示貧困發(fā)生率數(shù)據(jù)首位數(shù)字不服從Benford分布,表2顯示首位數(shù)字理論頻率與實際頻率的差異最大的首位數(shù)字為1,其次為3和2。殘差檢驗結(jié)果揭示問題數(shù)據(jù)(包括異常數(shù)據(jù)和瀕臨異常數(shù)據(jù))共計18個,這18個問題數(shù)據(jù)中有7個數(shù)據(jù)(河北2014—2016年、陜西2013—2016年)的首位數(shù)字為1,1個數(shù)據(jù)(海南2018年)首位數(shù)字為3,2個數(shù)據(jù)(河北2013、西藏2013年)的首位數(shù)字為2,與Benford法則檢驗結(jié)果相符合。由此可見,這10個數(shù)據(jù)既是殘差檢驗下的問題數(shù)據(jù),又是Benford檢驗下的問題數(shù)據(jù),可認(rèn)定這10個數(shù)據(jù)存在質(zhì)量問題。其他8個問題數(shù)據(jù)雖然與Benford法則中理論頻率與實際頻率最大差異值所在的首位數(shù)字結(jié)果不一致,但仍可以確定貧困發(fā)生率指標(biāo)個別省份與年份的統(tǒng)計數(shù)據(jù)可能存在質(zhì)量問題。整體而言,貧困地區(qū)22個省2013—2018年共132個數(shù)據(jù),結(jié)合殘差檢驗與Benford檢驗結(jié)果得到貧困發(fā)生率指標(biāo)數(shù)據(jù)異常率為7.6%,可認(rèn)為我國貧困地區(qū)的貧困發(fā)生率指標(biāo)數(shù)據(jù)質(zhì)量總體較好。
本文選取我國農(nóng)村及貧困地區(qū)范圍內(nèi)貧困人口數(shù)、貧困發(fā)生率、農(nóng)村居民人均可支配收入和人均消費支出四個最常用的脫貧攻堅指標(biāo),首先利用Benford法則對指標(biāo)統(tǒng)計數(shù)據(jù)的前兩位數(shù)字的分布規(guī)律進行檢驗;其次運用面板數(shù)據(jù)模型,以貧困發(fā)生率為因變量,由全局主成分法生成3個主成分為自變量構(gòu)造個體固定效應(yīng)模型,對四個脫貧攻堅指標(biāo)的數(shù)據(jù)進行邏輯匹配性驗證,最后由回歸模型得到的殘差進行殘差檢驗。區(qū)別于單一方法檢驗,將Benford法則、邏輯檢驗和殘差檢驗三種方法相結(jié)合對我國2013—2018年的脫貧指標(biāo)數(shù)據(jù)質(zhì)量進行檢驗,減小了檢驗結(jié)果偏差,使檢驗結(jié)果更具可信性。研究成果豐富了脫貧統(tǒng)計相關(guān)理論與方法,能夠針對虛假脫貧與數(shù)字脫貧現(xiàn)象提供預(yù)警,為國家相關(guān)部門政策的制定提供高質(zhì)量的數(shù)據(jù)保障。研究得到以下結(jié)論:
1. Benford法則的χ2擬合優(yōu)度檢驗結(jié)果顯示,全國農(nóng)村和貧困地區(qū)范圍內(nèi)的脫貧統(tǒng)計數(shù)據(jù)質(zhì)量相差不大。全國農(nóng)村的貧困發(fā)生率和貧困人口數(shù)首位數(shù)字和第二位數(shù)字、農(nóng)村居民消費支出的第二位數(shù)字、貧困地區(qū)貧困發(fā)生率、貧困人口數(shù)首位數(shù)字和第二位數(shù)字、農(nóng)村居民人均可支配收入以及人均消費支出的第二位數(shù)字均通過了統(tǒng)計檢驗,說明從統(tǒng)計檢驗角度來看,數(shù)據(jù)質(zhì)量良好,數(shù)據(jù)真實可信,不存在人為竄改的可能;全國范圍內(nèi)農(nóng)村居民人均可支配收入的首位和第二位數(shù)字、貧困地區(qū)范圍內(nèi)的貧困發(fā)生率、人均可支配收入和人均消費支出的第一位數(shù)字未通過統(tǒng)計性檢驗,認(rèn)為該數(shù)據(jù)存在質(zhì)量問題。出現(xiàn)這種結(jié)果可能是所選擇的樣本時期過短、樣本總量過少,使樣本數(shù)據(jù)的首位過于集中于某位數(shù)字造成的,也可能是因為統(tǒng)計口徑或核算角度的差異造成的,真實原因有待進一步探索和檢驗。
2. 基于固定效應(yīng)面板模型的邏輯匹配性檢驗結(jié)果顯示,貧困地區(qū)范圍內(nèi),貧困人口數(shù)與貧困發(fā)生率之間呈正向相關(guān)關(guān)系,農(nóng)村居民人均可支配收入和人均消費支出與貧困發(fā)生率呈負(fù)向相關(guān)關(guān)系,通過邏輯性匹配檢驗。
3. 對固定效應(yīng)面板模型的殘差檢驗結(jié)果表明,2013—2018年貧困地區(qū)大部分省份下屬貧困縣的貧困發(fā)生率數(shù)據(jù)通過了殘差檢驗,共計18個統(tǒng)計數(shù)據(jù)可能存在質(zhì)量問題,結(jié)合Benford檢驗結(jié)果發(fā)現(xiàn)這18個問題數(shù)據(jù)中有10個數(shù)據(jù)既是殘差檢驗的問題數(shù)據(jù),又是Benford法則檢驗的問題數(shù)據(jù)。殘差檢驗與Benford檢驗結(jié)合所顯示貧困發(fā)生率數(shù)據(jù)的異常率為7.6%。
綜合來看,無論是Benford檢驗、邏輯檢驗還是殘差檢驗,以全國農(nóng)村或是貧困地區(qū)為統(tǒng)計范疇,所選取的脫貧攻堅四個常用統(tǒng)計指標(biāo)2013—2018年期間整體數(shù)據(jù)質(zhì)量良好。但仍有個別指標(biāo)和個別地區(qū)的數(shù)據(jù)存在問題,為提高我國脫貧攻堅方面統(tǒng)計數(shù)據(jù)質(zhì)量,本研究提出以下建議:
第一,對全國農(nóng)村居民人均可支配收入2013—2018年的數(shù)據(jù)予以關(guān)注,探究其未通過統(tǒng)計分布檢驗的真實原因。同時對河北2014—2016年、陜西2013—2016年、海南2018、河北2013、西藏2013年下屬貧困縣的貧困發(fā)生率數(shù)據(jù)進行核查,看是否存在數(shù)據(jù)造假行為。2021年我國脫貧工作取得了舉世矚目的成就,實現(xiàn)全面脫貧,在國際國內(nèi)高度關(guān)注下更應(yīng)加大脫貧統(tǒng)計數(shù)據(jù)的核查力度,保證統(tǒng)計數(shù)據(jù)的真實性不被破壞,從而使我國脫貧攻堅成果經(jīng)得起歷史和人民的考驗。
第二,統(tǒng)一相關(guān)指標(biāo)數(shù)據(jù)核算口徑,明確核算范圍。例如統(tǒng)一農(nóng)村居民可支配收入口徑和核算范圍,從而使得不同地區(qū)收入數(shù)據(jù)具有可比性,減少因口徑不統(tǒng)一導(dǎo)致的數(shù)據(jù)失真現(xiàn)象發(fā)生。
第三,完善脫貧攻堅數(shù)據(jù)庫系統(tǒng)。利用大數(shù)據(jù)技術(shù),實時跟蹤貧困地區(qū)貧困情況,建立和完善脫貧統(tǒng)計大數(shù)據(jù)倉庫,實行動態(tài)管理模式,有效防范“虛假脫貧”“數(shù)字脫貧”現(xiàn)象發(fā)生。同時加大扶貧統(tǒng)計數(shù)據(jù)監(jiān)管制度,完善相關(guān)法律法規(guī),對數(shù)據(jù)造假行為予以法律約束和懲戒,維護黨和政府的良好形象,為考察脫貧成效提供高質(zhì)量的統(tǒng)計數(shù)據(jù),為國家制定合理有效的脫貧政策提供科學(xué)依據(jù)。