陶春海,鐘桂珍
(江西財(cái)經(jīng)大學(xué)a.統(tǒng)計(jì)學(xué)院;b.財(cái)經(jīng)數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室,南昌 330000)
數(shù)據(jù)作為國家各級部門制定相關(guān)政策的重要依據(jù),開展數(shù)據(jù)質(zhì)量評估方法研究有利于提高數(shù)據(jù)質(zhì)量評估的精度,從中把握事物的內(nèi)在規(guī)律,進(jìn)而提高決策效率。近些年,如何利用科學(xué)方法來診斷數(shù)據(jù)的質(zhì)量,也成為理論界重點(diǎn)關(guān)注和探討的課題。
關(guān)于數(shù)據(jù)質(zhì)量評估的研究,從數(shù)據(jù)質(zhì)量評估方法來看,主要集中在三個(gè)方面:一是利用Benford法則來檢測統(tǒng)計(jì)數(shù)據(jù)質(zhì)量,并構(gòu)建面板模型進(jìn)行實(shí)證分析[1];二是基于異常值角度,運(yùn)用數(shù)理統(tǒng)計(jì)方法檢驗(yàn)數(shù)據(jù)中的異常值,對離群數(shù)據(jù)進(jìn)行顯著性檢驗(yàn)來評估數(shù)據(jù)質(zhì)量[2];三是在多維統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量評估中引入Bootstrap統(tǒng)計(jì)分布檢驗(yàn)法[3]。然而,鮮有學(xué)者綜合運(yùn)用三種方法評估數(shù)據(jù)的質(zhì)量。從數(shù)據(jù)質(zhì)量評估對象來看,現(xiàn)有研究主要關(guān)注GDP、GNI[4,5]等指標(biāo),但鮮有學(xué)者將貧困縣調(diào)研數(shù)據(jù)作為研究對象。從數(shù)據(jù)質(zhì)量評估視角來看,既有研究要么從數(shù)據(jù)質(zhì)量內(nèi)涵著手,如從精度、準(zhǔn)確性、關(guān)聯(lián)性、及時(shí)性、一致性等多個(gè)維度評估數(shù)據(jù)質(zhì)量;要么從誤差分析入手,以準(zhǔn)確性為著力點(diǎn),研究數(shù)據(jù)生產(chǎn)過程中的異常值情況,從而判斷數(shù)據(jù)質(zhì)量[6]。然而,鮮有學(xué)者從結(jié)構(gòu)匹配性視角出發(fā)研究數(shù)據(jù)質(zhì)量。
綜上,既有文獻(xiàn)雖為數(shù)據(jù)質(zhì)量評估奠定了重要的理論和方法基礎(chǔ)[7—10],但在研究方法、對象和視角上仍存在可拓展的空間。同時(shí),貧困縣調(diào)研數(shù)據(jù)刻畫了我國貧困地區(qū)農(nóng)戶的基本生活現(xiàn)狀,對我國全面推進(jìn)鄉(xiāng)村振興具有重要的理論和現(xiàn)實(shí)意義。鑒于此,本文根據(jù)貧困縣調(diào)研數(shù)據(jù)中家庭成員年齡結(jié)構(gòu)和勞動(dòng)能力結(jié)構(gòu)與收入之間的匹配性關(guān)系,提出基于結(jié)構(gòu)匹配性視角,由Benford 法則、異常值檢驗(yàn)、模型一致性和統(tǒng)計(jì)分布一致性四個(gè)維度共同組成的數(shù)據(jù)質(zhì)量綜合評估方法,以2020年S省Z貧困縣的實(shí)地調(diào)研數(shù)據(jù)為樣本,驗(yàn)證該方法的有效性,以期為高質(zhì)量綜合評估數(shù)據(jù)質(zhì)量提供方法參考。
1.1.1 Benford法則數(shù)據(jù)質(zhì)量評估方法
Benford法則最早于1881年由美國天文學(xué)家和數(shù)學(xué)家Simon Neweomb發(fā)現(xiàn)。經(jīng)過不斷發(fā)展和完善,Benford法則在檢驗(yàn)數(shù)據(jù)等方面的應(yīng)用越來越廣泛?;贐enford法則檢驗(yàn)數(shù)據(jù)質(zhì)量的基本思想是:計(jì)算數(shù)據(jù)集中各位數(shù)字的理論頻率與實(shí)際頻率及其差異,構(gòu)造卡方統(tǒng)計(jì)量與臨界值比較,驗(yàn)證各位數(shù)字是否服從Benford法則。
首位數(shù)字(非零非負(fù))按Benford定律出現(xiàn)的頻率為:
第二位數(shù)字出現(xiàn)的頻率為:
……
其中,d1和d2分別表示首位和第二位數(shù)字的取值,p(di)表示第i位出現(xiàn)數(shù)字di的頻率。
由上式計(jì)算的首位和第二位數(shù)字按Benford法則分布的理論頻率見表1。
表1 首位和第二位數(shù)字按Benford法則分布的理論頻率
卡方檢驗(yàn)原假設(shè)為理論頻率與實(shí)際頻率無差異,備擇假設(shè)為理論頻率與實(shí)際頻率存在差異。
構(gòu)造卡方統(tǒng)計(jì)量,χ2統(tǒng)計(jì)量的計(jì)算公式為:
其中,ei表示第i位數(shù)字出現(xiàn)的實(shí)際頻率,bi表示第i位數(shù)字出現(xiàn)的理論頻率,N為樣本總量。
比較卡方統(tǒng)計(jì)量的計(jì)算值與臨界值。若卡方統(tǒng)計(jì)量的計(jì)算值小于臨界值,則沒有理由拒絕原假設(shè),說明理論頻率與實(shí)際頻率無差異,數(shù)據(jù)遵循Benford 法則。若卡方統(tǒng)計(jì)量計(jì)算值大于臨界值,則拒絕原假設(shè),說明理論頻率與實(shí)際頻率存在差異,數(shù)據(jù)不符合該法則。
1.1.2 異常值數(shù)據(jù)質(zhì)量評估方法
異常值的多少是衡量數(shù)據(jù)質(zhì)量的方法之一,同時(shí)異常值的存在可能會(huì)對分析結(jié)果產(chǎn)生較大的負(fù)面影響,需要深入研究。通過異常值檢驗(yàn)數(shù)據(jù)質(zhì)量的原理是:若數(shù)據(jù)質(zhì)量好,則數(shù)據(jù)圍繞擬合線分布會(huì)比較集中,不會(huì)存在大量分布在很遠(yuǎn)的異常值。
1.1.3 Bootstrap數(shù)據(jù)質(zhì)量評估方法
Bootstrap 方法的基本思想是:若初始樣本足夠大,則根據(jù)初始樣本生成的一系列Bootstrap 樣本計(jì)算得到的統(tǒng)計(jì)量會(huì)無限接近總體的分布,比較原始分布與Bootstrap抽樣的統(tǒng)計(jì)分布是否一致,從而判斷數(shù)據(jù)質(zhì)量。
雖然三種方法各有優(yōu)點(diǎn)和缺點(diǎn),例如,數(shù)據(jù)不遵循Benford 法則并不意味著一定存在數(shù)據(jù)質(zhì)量問題,但他們的適用范圍相對較廣,且約束條件較少,故在數(shù)據(jù)質(zhì)量評估應(yīng)用中較為普遍。此外,單一的多元回歸、逐步回歸和分位數(shù)回歸模型并不能直接評估數(shù)據(jù)質(zhì)量,但考慮到三種回歸方法都是統(tǒng)計(jì)學(xué)的基本方法,應(yīng)用較廣,約束較少,若三個(gè)模型的經(jīng)濟(jì)學(xué)意義和統(tǒng)計(jì)學(xué)意義一致,則也能夠在一定程度上說明數(shù)據(jù)質(zhì)量的好壞。
基于此,本文根據(jù)一般性數(shù)據(jù)質(zhì)量評估方法和相關(guān)回歸分析理論,提出結(jié)構(gòu)匹配性視角數(shù)據(jù)質(zhì)量評估方法:首先,根據(jù)Benford 法則初步判斷某一核心指標(biāo)是否服從該法則;其次,異常值的多少不僅影響數(shù)據(jù)質(zhì)量,而且可能對建模產(chǎn)生較大的負(fù)面影響,故通過異常值檢驗(yàn)判斷數(shù)據(jù)質(zhì)量,并找到異常值的具體位置;然后剔除異常值,再根據(jù)數(shù)據(jù)特征和變量間的匹配性關(guān)系分別構(gòu)建線性和非線性模型,以模型的經(jīng)濟(jì)學(xué)意義和統(tǒng)計(jì)學(xué)意義是否一致判斷數(shù)據(jù)質(zhì)量;最后,根據(jù)Bootstrap 抽樣方法自助抽樣1000 次,檢驗(yàn)關(guān)鍵核心指標(biāo)的均值統(tǒng)計(jì)量是否呈對數(shù)正態(tài)分布,即與原始數(shù)據(jù)的統(tǒng)計(jì)分布是否一致,進(jìn)而判斷數(shù)據(jù)質(zhì)量。
1.2.1 基于Benford法則的數(shù)據(jù)質(zhì)量檢驗(yàn)
基于Benford 法則的數(shù)據(jù)質(zhì)量檢驗(yàn)的基本思路是:計(jì)算數(shù)據(jù)中某個(gè)或某些關(guān)鍵核心指標(biāo)首位和第二位數(shù)字出現(xiàn)的實(shí)際頻率,比較實(shí)際頻率與理論頻率的差異,并通過卡方檢驗(yàn)得到的首位和第二位數(shù)字的卡方值是否小于臨界值來判斷首位和第二位數(shù)字是否符合該法則。
1.2.2 基于異常值的數(shù)據(jù)質(zhì)量檢驗(yàn)
基于異常值的數(shù)據(jù)質(zhì)量檢驗(yàn)的基本思路是:首先,畫出散點(diǎn)圖矩陣,初步判斷變量之間的關(guān)系;其次,通過Q-Q圖了解數(shù)據(jù)分布特征,初步識別異常值的大致位置;最后,利用R 軟件中的outlier test 函數(shù),以數(shù)據(jù)殘差值的顯著性為依據(jù)進(jìn)行檢驗(yàn),從而找出異常值函數(shù)的具體位置和數(shù)值。
1.2.3 基于模型一致性的數(shù)據(jù)質(zhì)量檢驗(yàn)
基于模型一致性的數(shù)據(jù)質(zhì)量檢驗(yàn)的基本思路是:若數(shù)據(jù)質(zhì)量好,則無論線性還是非線性模型,模型的經(jīng)濟(jì)學(xué)意義和統(tǒng)計(jì)學(xué)意義都應(yīng)該保持一致,即數(shù)據(jù)質(zhì)量不受模型變化的影響。在剔除異常值的基礎(chǔ)上,分別構(gòu)建多元回歸、逐步回歸、分位數(shù)回歸模型,根據(jù)各模型參數(shù)估計(jì)結(jié)果的符號(經(jīng)濟(jì)學(xué)意義)和顯著性(統(tǒng)計(jì)學(xué)意義)是否一致來檢驗(yàn)數(shù)據(jù)質(zhì)量。
(1)多元回歸模型
初步分析數(shù)據(jù)的分布特征和趨勢,厘清解釋變量的內(nèi)在結(jié)構(gòu)和被解釋變量之間的匹配性關(guān)系。依據(jù)相關(guān)回歸分析理論,構(gòu)建理論模型如式(4)所示。
式(4)中,Y為被解釋變量,X1至Xi為解釋變量,ε為隨機(jī)誤差項(xiàng),β0至βi為回歸參數(shù)。
(2)逐步回歸模型
考慮到多元線性回歸模型易受多重共線性問題的影響,進(jìn)而影響模型的準(zhǔn)確性,故選用逐步回歸模型篩選合適的變量,避免變量過多等因素導(dǎo)致的模型精度下降,最終形成“最優(yōu)回歸方程”。雖然逐步回歸模型在一定程度上改進(jìn)了傳統(tǒng)的線性回歸模型,但無法回避的是,逐步回歸模型本質(zhì)上仍然是線性模型,也存在序列相關(guān)、異方差等缺陷,需進(jìn)行經(jīng)濟(jì)學(xué)和統(tǒng)計(jì)學(xué)意義檢驗(yàn)[13]。
(3)分位數(shù)回歸模型
僅依靠線性回歸模型很難對數(shù)據(jù)進(jìn)行全面的質(zhì)量評估,故需進(jìn)一步構(gòu)建非線性回歸模型,收入指標(biāo)常用的非線性回歸模型是分位數(shù)回歸模型。計(jì)算公式為:
其中,0 <p<1 表示數(shù)值小于第p分位數(shù)的比例。在分位數(shù)回歸模型中,根據(jù)垂直距離的加權(quán)總和來測量數(shù)據(jù)點(diǎn)和回歸線之間的距離,在擬合線之上數(shù)據(jù)點(diǎn)的權(quán)重為p,否則為1-p。故Y到特定q值的距離為:
若線性模型和非線性模型的參數(shù)估計(jì)符號一致,即經(jīng)濟(jì)學(xué)意義一致,統(tǒng)計(jì)學(xué)意義顯著,則可認(rèn)為解釋變量結(jié)構(gòu)和被解釋變量具有匹配性關(guān)系,數(shù)據(jù)質(zhì)量好。
1.2.4 基于Bootstrap自助抽樣法的數(shù)據(jù)質(zhì)量檢驗(yàn)
本文借鑒白永昕等(2020)[3]的做法,對數(shù)據(jù)質(zhì)量評估研究的基本思路是:首先判斷原始數(shù)據(jù)是否符合對數(shù)正態(tài)分布的條件。其次,構(gòu)建均值統(tǒng)計(jì)量,運(yùn)用Bootstrap 抽樣方法從原始數(shù)據(jù)中抽取1000 次,對均值統(tǒng)計(jì)量進(jìn)行Lilliefor 檢驗(yàn)和Anderson-Darling 檢驗(yàn),驗(yàn)證均值統(tǒng)計(jì)量是否也遵循對數(shù)正態(tài)分布規(guī)律。若均值統(tǒng)計(jì)量通過對數(shù)正態(tài)分布的檢驗(yàn),則認(rèn)為Bootstrap機(jī)制抽樣數(shù)據(jù)與原數(shù)據(jù)抽樣機(jī)制的數(shù)據(jù)統(tǒng)計(jì)分布一致,數(shù)據(jù)質(zhì)量較好;反之,則說明數(shù)據(jù)存在較大誤差,需查找誤差原因并加以修正,再進(jìn)行上述檢驗(yàn)。最后,人為擴(kuò)大1 倍原始數(shù)據(jù)再進(jìn)行Anderson-Darling檢驗(yàn)和Lilliefor檢驗(yàn),若不能通過檢測,則說明污染的數(shù)據(jù)是不能通過檢驗(yàn)的。
1.2.5 基于結(jié)構(gòu)匹配性視角的數(shù)據(jù)質(zhì)量評估具體方法的遞進(jìn)關(guān)系
綜上可知,本文提出的基于結(jié)構(gòu)匹配性的數(shù)據(jù)質(zhì)量評估方法是從定性和定量兩個(gè)方面,綜合Benford法則、異常值檢驗(yàn)、模型一致性、Bootstrap 檢驗(yàn)四個(gè)維度,從不同方面、角度對數(shù)據(jù)質(zhì)量進(jìn)行評估。具體評估方法之間存在遞進(jìn)關(guān)系,因模型一致性需多個(gè)指標(biāo)同時(shí)滿足三個(gè)模型的經(jīng)濟(jì)學(xué)意義和統(tǒng)計(jì)學(xué)意義基本一致,所以評估方法的優(yōu)先原則是模型一致性檢驗(yàn)優(yōu)于Bootstrap檢驗(yàn),Bootstrap檢驗(yàn)優(yōu)于異常值檢驗(yàn)和Benford法則檢驗(yàn)。
2.1.1 數(shù)據(jù)來源
2020 年是我國脫貧攻堅(jiān)的決勝之年,且新冠肺炎疫情暴發(fā),考慮到深度貧困地區(qū)的貧困脆弱性,課題組選取脫貧攻堅(jiān)主戰(zhàn)場之一的S省Z貧困縣開展實(shí)地調(diào)研,深入了解深度貧困地區(qū)農(nóng)戶的情況。調(diào)研內(nèi)容涉及農(nóng)戶的家庭成員年齡結(jié)構(gòu)、勞動(dòng)能力結(jié)構(gòu)、家庭純收入等,整理獲得1193份有效貧困縣調(diào)研數(shù)據(jù)。
2.1.2 基本假設(shè)
馬斯洛需求理論認(rèn)為,在滿足吃、穿、住等最基本的生存需要后,其他需要才會(huì)成為新的激勵(lì)因素,而這些均與收入息息相關(guān)。若貧困地區(qū)農(nóng)戶的收入高,則基本生存需要不存在問題;若低于某一標(biāo)準(zhǔn),則基本生存需要存在問題。故貧困地區(qū)家庭純收入的高低與家庭基本生活條件之間的關(guān)系是穩(wěn)定的?;诖?,本文提出:
假設(shè)1:家庭收入與家庭生活狀況具有穩(wěn)定性。
雖然近些年農(nóng)村空心化越來越嚴(yán)重,但外出務(wù)工人員中很多都是與農(nóng)村家庭其他成員共享開支。除自然災(zāi)害、突發(fā)疾病、婚喪嫁娶等因素外,通常情況下家庭人員結(jié)構(gòu)和勞動(dòng)能力隨時(shí)間推移遵循生老病死的自然規(guī)律,貧困地區(qū)家庭成員年齡結(jié)構(gòu)和勞動(dòng)能力結(jié)構(gòu)具有相對穩(wěn)定性?;诖耍疚奶岢觯?/p>
假設(shè)2:一定時(shí)期內(nèi)貧困地區(qū)家庭成員內(nèi)部結(jié)構(gòu)具有穩(wěn)定性。
凱恩斯貨幣需求理論認(rèn)為,持有貨幣受三種動(dòng)機(jī)影響,即交易動(dòng)機(jī)、預(yù)防動(dòng)機(jī)、投機(jī)動(dòng)機(jī)?;谪泿判枨罄碚?,貧困地區(qū)農(nóng)戶通過家庭成員提供勞動(dòng)力等要素獲得相應(yīng)收入,來滿足日常開支和應(yīng)對不確定性等因素對家庭的影響。故貧困地區(qū)農(nóng)戶的要素貢獻(xiàn)與家庭純收入之間具有結(jié)構(gòu)穩(wěn)定性?;诖?,本文提出:
假設(shè)3:要素貢獻(xiàn)和家庭純收入之間具有結(jié)構(gòu)匹配性。
2.2.1 變量定義
被解釋變量:家庭純收入。雖然該指標(biāo)僅能反映農(nóng)戶的經(jīng)濟(jì)狀況[9],但考慮到非收入指標(biāo)缺乏相對統(tǒng)一的標(biāo)準(zhǔn),且從1978年開始收入已作為測量我國貧困標(biāo)準(zhǔn)的重要指標(biāo),數(shù)據(jù)又相對容易獲得和處理,因此借鑒汪三貴(2018)[10]的做法,選取家庭純收入作為被解釋變量。
解釋變量:考慮到家庭成員的年齡結(jié)構(gòu)和勞動(dòng)能力結(jié)構(gòu)是影響家庭收入的重要因素,本文借鑒已有研究[5,6]的做法,選取家庭常住人口數(shù)、義務(wù)教育年齡段人數(shù)、16~60周歲人數(shù)、60周歲及以上人數(shù)、患大病人數(shù)、殘疾人數(shù)、患慢性病人數(shù)作為解釋變量。家庭常住人口數(shù)代表家庭人力資本情況,人力資本通過勞動(dòng)創(chuàng)造家庭純收入。義務(wù)教育年齡段人數(shù)能反映家庭潛在的勞動(dòng)力情況。16~60 周歲人數(shù)反映家庭獲得家庭純收入的最大勞動(dòng)力人數(shù)情況。60周歲及以上人數(shù)能反映家庭人員結(jié)構(gòu)中需贍養(yǎng)的人員數(shù)?;即蟛∪藬?shù)反映家庭無勞動(dòng)能力的人數(shù)情況。殘疾人數(shù)和患慢性病人數(shù)反映弱勞動(dòng)力或半勞動(dòng)力的人數(shù)情況。
2.2.2 描述性統(tǒng)計(jì)
貧困縣調(diào)研數(shù)據(jù)的描述性統(tǒng)計(jì)分析結(jié)果見表2。
表2 變量說明及描述性統(tǒng)計(jì)
從表2 可以看出,S 省Z 貧困縣家庭純收入的均值為55206.51 元,家庭常住人口數(shù)的均值約為5 人,結(jié)合這兩項(xiàng)數(shù)據(jù)計(jì)算可知家庭人均純收入約為11000余元,高于國家貧困線標(biāo)準(zhǔn),故貧困縣調(diào)研數(shù)據(jù)與我國宣布的消除絕對貧困的結(jié)論一致。貧困地區(qū)每個(gè)家庭義務(wù)教育年齡段人數(shù)的均值約為1 人,貧困地區(qū)家庭16~60 周歲人數(shù)的均值約為2人,60周歲及以上人數(shù)、患大病人數(shù)、殘疾人數(shù)和患慢性病人數(shù)的均值和方差均較小。
根據(jù)前文基于結(jié)構(gòu)匹配性數(shù)據(jù)質(zhì)量評估方法的分析,接下來以貧困縣調(diào)研數(shù)據(jù)為例,對其進(jìn)行Benford 法則檢驗(yàn)、異常值檢驗(yàn)、模型一致性檢驗(yàn)、Bootstrap 檢驗(yàn),進(jìn)而從不同方面、角度評估貧困縣調(diào)研數(shù)據(jù)質(zhì)量,并根據(jù)數(shù)據(jù)質(zhì)量評估結(jié)果驗(yàn)證該方法的有效性。
2.3.1 基于Benford法則的數(shù)據(jù)質(zhì)量評估結(jié)果
計(jì)算家庭純收入指標(biāo)首位和第二位數(shù)字的實(shí)際頻率,與根據(jù)Benford 法則計(jì)算的理論頻率進(jìn)行比較,比較結(jié)果見表3。
表3 家庭純收入指標(biāo)數(shù)據(jù)的實(shí)際頻率、理論頻率及差異
由表3 可知,除個(gè)別數(shù)值外,貧困縣調(diào)研數(shù)據(jù)的家庭純收入指標(biāo)首位數(shù)字整體呈現(xiàn)遞減趨勢,第二位數(shù)字呈現(xiàn)波動(dòng)趨勢,但差異的絕對值較小。故需通過卡方擬合優(yōu)度檢驗(yàn)來判斷數(shù)據(jù)是否符合Benford法則。
經(jīng)計(jì)算,首位數(shù)字的χ2統(tǒng)計(jì)量為174.18,高于臨界值15.51,拒絕原假設(shè),說明家庭純收入首位數(shù)字的理論頻率和實(shí)際頻率存在差異。但這并不意味著數(shù)據(jù)質(zhì)量存在問題,可能是該法則不適用于貧困縣調(diào)研數(shù)據(jù)質(zhì)量評估,故需進(jìn)一步采用其他方法綜合研判。第二位數(shù)字的χ2統(tǒng)計(jì)量為16.70,低于臨界值16.91,沒有足夠的理由拒絕原假設(shè),表明該指標(biāo)的第二位數(shù)字符合該法則。這與吳繼英和薛艷杰(2021)[1]的研究結(jié)果一致。
綜上,雖然Benford法則應(yīng)用范圍廣泛,但并不意味著該法則能適用于所有數(shù)據(jù)。故本文將從異常值檢驗(yàn)、模型一致性和統(tǒng)計(jì)分布一致性三個(gè)維度出發(fā)綜合考量貧困縣調(diào)研數(shù)據(jù)家庭成員年齡結(jié)構(gòu)和勞動(dòng)能力結(jié)構(gòu)與收入之間的匹配性關(guān)系,從而驗(yàn)證該方法的有效性。
2.3.2 基于異常值的數(shù)據(jù)質(zhì)量評估結(jié)果
根據(jù)散點(diǎn)圖矩陣歸納特征點(diǎn)的分布模式,結(jié)果如圖1所示。家庭純收入指標(biāo)大致呈正態(tài)分布,家庭純收入指標(biāo)數(shù)據(jù)隨家庭常住人口數(shù)、義務(wù)教育年齡段人數(shù)和16~60周歲人數(shù)的增加而增加,家庭純收入隨60周歲及以上人數(shù)、患大病人數(shù)和殘疾人數(shù)的增加而下降。
圖1 貧困縣調(diào)研數(shù)據(jù)變量的散點(diǎn)圖矩陣
為進(jìn)一步分析數(shù)據(jù)中是否存在異常值,本文構(gòu)建相應(yīng)模型進(jìn)行檢驗(yàn)。
由圖2 可知,1193 個(gè)樣本點(diǎn)中僅有3 個(gè)離群點(diǎn),分布在樣本中的第848、500 和797 位,故從Q-Q 圖來看,貧困縣調(diào)研數(shù)據(jù)樣本點(diǎn)中離群點(diǎn)較少,貧困縣調(diào)研數(shù)據(jù)質(zhì)量較高。
圖2 家庭純收入的Q-Q圖
運(yùn)用R 軟件進(jìn)行outlier test 函數(shù)檢測發(fā)現(xiàn),在1193 個(gè)樣本點(diǎn)中檢測出10 個(gè)離群點(diǎn),分布在樣本的第848、500、797、1028、115、503、501、1031、46 和1020 位,占比不到1%,說明貧困縣調(diào)研數(shù)據(jù)質(zhì)量較高。經(jīng)分析發(fā)現(xiàn),outlier test函數(shù)檢測的前3位離群點(diǎn)與Q-Q圖中的離群點(diǎn)位置一致,說明這3個(gè)必然是離群點(diǎn)。outlier test函數(shù)檢測出其他7個(gè)離群點(diǎn)的P值均小于0.00,殘差值顯著,因此建模時(shí)也需要?jiǎng)h除。綜合兩種方法的檢測結(jié)果來看,離群點(diǎn)均較少,檢測結(jié)果具有一致性,說明貧困縣調(diào)研數(shù)據(jù)質(zhì)量較高。
2.3.3 基于模型一致性的數(shù)據(jù)質(zhì)量評估結(jié)果
根據(jù)模型設(shè)計(jì),剔除outlier test 函數(shù)檢測出的10個(gè)異常值,運(yùn)用R軟件進(jìn)行模型參數(shù)估計(jì),具體結(jié)果見表4。
表4 模型一致性參數(shù)估計(jì)結(jié)果
以多元回歸模型為例,分析家庭成員年齡結(jié)構(gòu)、勞動(dòng)能力結(jié)構(gòu)與家庭純收入指標(biāo)之間的關(guān)系。被解釋變量為家庭純收入,X1為家庭常住人口數(shù),斜率為正,且在1%的水平上顯著。當(dāng)其他變量保持不變時(shí),家庭人數(shù)越多,潛在的具備勞動(dòng)能力的人數(shù)也越多,提高家庭純收入的可能性越大。X2為義務(wù)教育年齡段人數(shù),斜率為負(fù),但不顯著。在其他變量保持不變的情況下,義務(wù)教育年齡段的人數(shù)與家庭純收入之間關(guān)系不顯著。X3為16~60 周歲人數(shù),斜率為正,且在1%的水平上顯著。當(dāng)其他變量保持不變時(shí),貧困地區(qū)農(nóng)戶家庭16~60 周歲人數(shù)越多,農(nóng)戶家庭純收入越高。X4為60 周歲及以上人數(shù),斜率為正,且在1%的水平上顯著。當(dāng)其他變量保持不變時(shí),60 周歲及以上人數(shù)越多,家庭純收入越高,這與人口老齡化會(huì)加重家庭負(fù)擔(dān)是不一致的。究其原因,一是貧困地區(qū)多是自給自足,家庭養(yǎng)老負(fù)擔(dān)較城市更輕;二是受經(jīng)濟(jì)發(fā)展水平提升、醫(yī)療水平提高等因素影響,勞動(dòng)力減弱需要一個(gè)過程,農(nóng)村地區(qū)60周歲及以上的人仍參加社會(huì)生產(chǎn)活動(dòng)的現(xiàn)象較為普遍,這會(huì)增加家庭收入。X5為患大病人數(shù),斜率為負(fù),且在5%的水平上顯著。當(dāng)其他變量保持不變時(shí),家中患大病人數(shù)越多,家庭純收入越少。患大病的勞動(dòng)力不僅無法獲取收入,還需支付大額的看病開銷。照顧患大病的人也很難獲得收入,家庭整體勞動(dòng)能力減弱,獲取收入的能力下降。X6為殘疾人數(shù),斜率為負(fù),且在1%的水平上顯著。當(dāng)其他變量保持不變時(shí),家庭殘疾人數(shù)越多,家庭純收入越少。X7為患慢性病人數(shù),斜率為負(fù),且在1%的水平上顯著。當(dāng)其他變量保持不變時(shí),患慢性病如高血壓等的人數(shù)增加,會(huì)使得家庭成員勞動(dòng)能力減弱,家庭純收入減少,同時(shí)還需支付一定的醫(yī)療費(fèi)用。
從表4的參數(shù)估計(jì)結(jié)果可知,無論是非線性回歸模型還是線性回歸模型,X1、X3、X4的參數(shù)估計(jì)結(jié)果都顯著且參數(shù)符號為正,表明家庭常住人口數(shù)、16~60周歲人數(shù)、60 周歲及以上人數(shù)與家庭純收入存在正向關(guān)系。X2、X5、X6、X7的參數(shù)估計(jì)結(jié)果符號為負(fù),且X2不顯著,表明義務(wù)教育年齡段人數(shù)與家庭純收入的關(guān)系不顯著,患大病人數(shù)、殘疾人數(shù)和患慢性病人數(shù)與家庭純收入存在負(fù)向關(guān)系。由此可知,線性和非線性回歸模型的參數(shù)估計(jì)結(jié)果具有一致性,從匹配性角度來看,家庭成員年齡結(jié)構(gòu)和勞動(dòng)能力結(jié)構(gòu)與家庭純收入是相匹配的,說明貧困縣調(diào)研數(shù)據(jù)質(zhì)量較高。
2.3.4 基于Bootstrap抽樣的數(shù)據(jù)質(zhì)量評估結(jié)果
Cheng 等(2000)[4]已經(jīng)證明,當(dāng)統(tǒng)計(jì)量反映了總體規(guī)模生產(chǎn)、收入等對象時(shí),統(tǒng)計(jì)量近似服從對數(shù)正態(tài)分布。貧困縣調(diào)研數(shù)據(jù)中家庭純收入反映了貧困地區(qū)農(nóng)戶的家庭總收入,很容易驗(yàn)證統(tǒng)計(jì)量滿足規(guī)模統(tǒng)計(jì)的三個(gè)條件,故貧困縣調(diào)研數(shù)據(jù)中的家庭純收入服從對數(shù)正態(tài)分布。
采用Bootstrap 方法對貧困縣調(diào)研數(shù)據(jù)的家庭純收入指標(biāo)的數(shù)值進(jìn)行有放回的重復(fù)抽樣1000 次,得到1000 個(gè)Bootstrap樣本,計(jì)算得到1000個(gè)樣本均值。為了驗(yàn)證均值統(tǒng)計(jì)量是否服從對數(shù)正態(tài)分布,給出了統(tǒng)計(jì)量對數(shù)的直方圖,如圖3所示。
圖3 Bootstrap抽樣均值統(tǒng)計(jì)量分布直方圖
根據(jù)圖3 可知,統(tǒng)計(jì)量近似服從對數(shù)正態(tài)分布。此外,Lilliefor 檢驗(yàn)和Anderson-Darling 檢驗(yàn)是統(tǒng)計(jì)中用來檢驗(yàn)數(shù)據(jù)是否服從正態(tài)分布的檢驗(yàn)方法,利用上述兩種檢驗(yàn)方法對統(tǒng)計(jì)量的對數(shù)進(jìn)行檢驗(yàn)。原假設(shè):數(shù)據(jù)符合正態(tài)分布。備擇假設(shè):數(shù)據(jù)不符合正態(tài)分布。經(jīng)計(jì)算,Lilliefor test 檢驗(yàn)的D 值為0.02,接近于0,P 值為0.76,明顯大于0.05,沒有足夠的理由拒絕原假設(shè),因此樣本數(shù)據(jù)近似服從對數(shù)正態(tài)分布。Anderson-Darling 檢驗(yàn)結(jié)果顯示:A 值為0.31,P值為0.55,沒有足夠的理由拒絕原假設(shè),故Bootstrap抽樣數(shù)據(jù)的樣本均值服從對數(shù)正態(tài)分布。
將原始數(shù)據(jù)擴(kuò)大1 倍,即人為增補(bǔ)1193 個(gè)數(shù)據(jù),再進(jìn)行Lilliefor 檢驗(yàn)和Anderson-Darling 檢驗(yàn),兩個(gè)檢驗(yàn)的P 值分別為2.2e-16和2.2e-6,遠(yuǎn)小于0.05,說明檢驗(yàn)對于偽數(shù)據(jù)很敏感,即使對原始數(shù)據(jù)作很小的變動(dòng),檢驗(yàn)結(jié)果也不能通過。綜上,本文提出的結(jié)構(gòu)匹配性視角下的數(shù)據(jù)質(zhì)量評估方法確實(shí)有效。
本文運(yùn)用系統(tǒng)性思維,從解釋變量的結(jié)構(gòu)與被解釋變量的匹配性視角出發(fā),提出由Benford 法則、異常值檢驗(yàn)、模型一致性和統(tǒng)計(jì)分布一致性四個(gè)維度共同組成的數(shù)據(jù)質(zhì)量綜合評估方法。以2020 年S 省Z 貧困縣的實(shí)地調(diào)研數(shù)據(jù)為樣本,從貧困縣調(diào)研數(shù)據(jù)中勞動(dòng)要素結(jié)構(gòu)與收入的匹配性視角出發(fā),應(yīng)用結(jié)構(gòu)匹配性數(shù)據(jù)質(zhì)量評估方法檢驗(yàn)貧困縣調(diào)研數(shù)據(jù)的質(zhì)量,從而驗(yàn)證該方法的有效性。
實(shí)證研究發(fā)現(xiàn),調(diào)研數(shù)據(jù)中家庭純收入指標(biāo)的首位數(shù)字不符合Benford法則,第二位數(shù)字符合Benford法則,Q-Q圖和outlier test 函數(shù)檢測結(jié)果顯示,數(shù)據(jù)樣本點(diǎn)中異常值較少,剔除異常值后,多元回歸、逐步回歸和分位數(shù)回歸三個(gè)模型中的參數(shù)估計(jì)符號和顯著性基本一致,說明勞動(dòng)要素與收入之間的結(jié)構(gòu)匹配性關(guān)系較強(qiáng),對比Bootstrap機(jī)制的模擬抽樣數(shù)據(jù)與真實(shí)貧困縣調(diào)研數(shù)據(jù)的分布結(jié)構(gòu)可以發(fā)現(xiàn),兩套機(jī)制收集的數(shù)據(jù)分布一致,綜合來看,調(diào)研數(shù)據(jù)質(zhì)量較高。
綜上,通過實(shí)證檢驗(yàn),貧困縣調(diào)研數(shù)據(jù)驗(yàn)證了本文提出的結(jié)構(gòu)匹配性視角下的數(shù)據(jù)質(zhì)量評估方法確實(shí)有效,能從不同方面、角度對數(shù)據(jù)質(zhì)量進(jìn)行評估。
第一,建立健全現(xiàn)有的數(shù)據(jù)質(zhì)量評估體系。在研究對象上,數(shù)據(jù)質(zhì)量評估既要關(guān)注GDP等宏觀性指標(biāo),也要關(guān)注家庭收入等重要指標(biāo);在研究視角上,既要關(guān)注準(zhǔn)確性、誤差最小化等傳統(tǒng)視角,也要將結(jié)構(gòu)匹配性視角納入現(xiàn)有數(shù)據(jù)質(zhì)量評估體系中;在數(shù)據(jù)質(zhì)量評估方法上,既要關(guān)注單一方法的數(shù)據(jù)質(zhì)量檢驗(yàn)思路,也要注意到聯(lián)系是普遍的,運(yùn)用系統(tǒng)性思維,綜合運(yùn)用多種方法檢驗(yàn)數(shù)據(jù)質(zhì)量的思路是可行的。
第二,拓展結(jié)構(gòu)匹配性視角數(shù)據(jù)質(zhì)量評估方法的應(yīng)用范圍。結(jié)構(gòu)匹配性數(shù)據(jù)質(zhì)量評估方法不僅能應(yīng)用于貧困縣調(diào)研數(shù)據(jù),也能應(yīng)用于其他具有匹配性關(guān)系的數(shù)據(jù)。但是在拓展該方法的應(yīng)用范圍時(shí),要注意各種方法的適用范圍和約束條件,找到多種方法融合的可能性,不斷優(yōu)化和改進(jìn)結(jié)構(gòu)匹配性數(shù)據(jù)質(zhì)量評估方法。
第三,加強(qiáng)對匹配性數(shù)據(jù)質(zhì)量評估方法的研究。除結(jié)構(gòu)匹配性視角外,理論界還可以從其他維度考慮,以加強(qiáng)對匹配性數(shù)據(jù)質(zhì)量評估方法的改進(jìn)或創(chuàng)新研究。如從空間匹配性視角對基本條件相似的兩個(gè)地域,就某個(gè)或某些指標(biāo)展開數(shù)據(jù)質(zhì)量評估;再如,隨著大數(shù)據(jù)技術(shù)的廣泛應(yīng)用,學(xué)術(shù)界可以從不同數(shù)據(jù)源的匹配性視角出發(fā),對數(shù)據(jù)質(zhì)量展開評估。