張會(huì)清 晉中信息學(xué)院
毋庸置疑,大數(shù)據(jù)時(shí)代下,數(shù)據(jù)充分發(fā)揮其價(jià)值的必備條件是要有高質(zhì)量數(shù)據(jù)。2021年1月19日統(tǒng)計(jì)局局長(zhǎng)寧吉喆在題為“推進(jìn)統(tǒng)計(jì)現(xiàn)代改革”中指出:“統(tǒng)計(jì)數(shù)據(jù)作為國(guó)家經(jīng)濟(jì)發(fā)展的晴雨表已經(jīng)取得了顯著的成績(jī),但它發(fā)揮的作用還不夠充分,還有待開發(fā),數(shù)據(jù)質(zhì)量需要進(jìn)一步提升”。統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的內(nèi)涵也不再僅僅是準(zhǔn)確,大數(shù)據(jù)背景下,適合的才是最好的,用戶需求也是衡量數(shù)據(jù)質(zhì)量的一個(gè)方面。近年來,科技發(fā)展迅猛,新型技術(shù)的發(fā)展突飛猛進(jìn),物聯(lián)網(wǎng)、人工智能、云計(jì)算的發(fā)展讓人應(yīng)接不暇,海量的數(shù)據(jù)紛繁復(fù)雜,如何保證數(shù)據(jù)的質(zhì)量,已成為上到國(guó)家,下到每一位統(tǒng)計(jì)相關(guān)者關(guān)注的問題,也是我們亟待解決的問題。在此背景下,數(shù)據(jù)質(zhì)量評(píng)估無疑是保證高質(zhì)量數(shù)據(jù)的前提條件。在數(shù)據(jù)評(píng)估研究方面,祝君儀(2015)6在《大數(shù)據(jù)時(shí)代背景下統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的評(píng)估方法及適用性分析》一文中分析了目前常用的包括邏輯規(guī)則檢驗(yàn)、核算數(shù)據(jù)重估、計(jì)量模型分析、統(tǒng)計(jì)分布驗(yàn)證、調(diào)查偏差評(píng)估、多維評(píng)估延伸六種評(píng)估數(shù)據(jù)質(zhì)量的方法,但僅僅是定性分析。成邦文等(2001)2已經(jīng)證明如果統(tǒng)計(jì)指標(biāo)反映的是經(jīng)濟(jì)社會(huì)規(guī)模(如產(chǎn)量、銷售收入等),則統(tǒng)計(jì)量均趨于對(duì)數(shù)正態(tài)分布,并提出了統(tǒng)計(jì)數(shù)據(jù)質(zhì)量評(píng)估的對(duì)數(shù)正態(tài)分布檢驗(yàn)法。本文基于社會(huì)規(guī)模服從對(duì)數(shù)正態(tài)分布,利用Bootstrap抽樣法對(duì)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估。
對(duì)于統(tǒng)計(jì)數(shù)據(jù)質(zhì)量還沒有形成統(tǒng)一公認(rèn)的定義,隨著大數(shù)據(jù)時(shí)代的到來,統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的內(nèi)涵從準(zhǔn)確性這一個(gè)維度擴(kuò)展到多個(gè)維度。衡量數(shù)據(jù)質(zhì)量最明顯的標(biāo)準(zhǔn)就是數(shù)據(jù)的準(zhǔn)確性,即數(shù)據(jù)信息準(zhǔn)確描述其所代表的真實(shí)機(jī)構(gòu)或現(xiàn)象的程度。除了準(zhǔn)確性這一特征外,數(shù)據(jù)的時(shí)效性、精確性、完整性、一致性都是數(shù)據(jù)質(zhì)量的重要表現(xiàn)。當(dāng)然在眾多的維度中,準(zhǔn)確性是擺在數(shù)據(jù)質(zhì)量的第一位的,只有數(shù)據(jù)準(zhǔn)確,數(shù)據(jù)分析結(jié)果才有效,管理者據(jù)此做出的決策才正確。本文的研究是基于數(shù)據(jù)準(zhǔn)確性進(jìn)行研究。
Bootstrap是1979年Efron在他的論文
步驟1:假定 為初始樣本,利用Matlab中Bootstrap函數(shù)從此樣本中有放回抽取m個(gè)樣本,本文規(guī)定m=1000。
步驟2:根據(jù)1中抽樣結(jié)果,計(jì)算各自樣本統(tǒng)計(jì)量,具體利用Matlab中mean函數(shù)計(jì)算均值統(tǒng)計(jì)量,即可得到1000個(gè)樣本均值;
步驟3:基于2中計(jì)算結(jié)果,調(diào)用log函數(shù)計(jì)算統(tǒng)計(jì)量的對(duì)數(shù)值;
步驟4:利用QQ圖及單一樣本Kolmogorov-Smirnov 檢驗(yàn)3中結(jié)果是否服從正態(tài)分布,如果是,說明統(tǒng)計(jì)量服從對(duì)數(shù)正態(tài)分布,統(tǒng)計(jì)數(shù)據(jù)質(zhì)量符合要求,否則,統(tǒng)計(jì)數(shù)據(jù)誤差大,需要修正。
本文以山西省2000-2019年地區(qū)生產(chǎn)總值為研究對(duì)象,對(duì)其進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估。表1是山西省2000-2019年地區(qū)生產(chǎn)總值。
表1 山西省2000-2019年地區(qū)生產(chǎn)總值
利用Bootstrp方法對(duì)2000-2019年山西省地區(qū)生產(chǎn)總值進(jìn)行可放回的重復(fù)抽樣1000次,進(jìn)而得到1000個(gè)Bootstrap樣本,然后根據(jù)每一個(gè)樣本計(jì)算對(duì)應(yīng)的均值,從而得到1000個(gè)樣本均值,接著計(jì)算樣本均值對(duì)數(shù),然后通過spss繪制其對(duì)應(yīng)的直方圖,如圖1所示。
圖1 統(tǒng)計(jì)量對(duì)數(shù)正態(tài)直方圖及密度曲線
從圖1可以直觀的看出,統(tǒng)計(jì)量的對(duì)數(shù)服從正態(tài)分布,從圖中只是很形象的觀察出統(tǒng)計(jì)量對(duì)數(shù)的分布,要想進(jìn)一步證實(shí)其為正態(tài)分布,還需要進(jìn)行統(tǒng)計(jì)檢驗(yàn)。本文使用Q-Q圖檢驗(yàn)和K-S檢驗(yàn)兩種方法對(duì)統(tǒng)計(jì)量對(duì)數(shù)進(jìn)行正態(tài)性檢驗(yàn)。
(1)Q-Q圖又名分位數(shù)圖,通過比較實(shí)際觀測(cè)數(shù)據(jù)分位數(shù)與正態(tài)分布分位數(shù)是否一致來檢驗(yàn)數(shù)據(jù)的正態(tài)性。具體是通過做散點(diǎn)圖,觀測(cè)兩列數(shù)據(jù)的分位數(shù)是否分布在參考直線上,如果是,說明被檢驗(yàn)數(shù)據(jù)服從正態(tài)分布,否則非正態(tài)。通過SPSS中Q-Q圖功能對(duì)樣本統(tǒng)計(jì)量對(duì)數(shù)進(jìn)行檢驗(yàn),結(jié)果如圖2所示,從Q-Q Plot 中,各點(diǎn)幾乎全部落在參考直線上,說明被檢驗(yàn)數(shù)據(jù)服從正態(tài)分布。
圖2 樣本均值對(duì)數(shù)值正態(tài)Q-Q圖
(2)K-S檢驗(yàn)。在利用Bootstrp方法得到1000個(gè)樣本均值對(duì)數(shù)后,為了檢驗(yàn)樣本均值對(duì)數(shù)的分布,提出原假設(shè)和備擇假設(shè),原假設(shè)為樣本均值對(duì)數(shù)服從正態(tài)分布,備擇假設(shè)為樣本均值對(duì)數(shù)不服從正態(tài)分布。
通過SPSS中的非參數(shù)檢驗(yàn)K-S方法進(jìn)行檢驗(yàn),輸出結(jié)果如表2,從表里可以看出,K-S檢驗(yàn)中,Kolmogorov-Smirnov Z值為0.022,P值(雙側(cè))=0.2,在給定顯著性水平α=0.05條件下,顯然 P>α,所以接受原假設(shè),說明樣本均值對(duì)數(shù)服從正態(tài)分布。
表2 單一樣本Kolmogorov-Smirnov 檢驗(yàn)結(jié)果
本文研究新時(shí)代統(tǒng)計(jì)數(shù)據(jù)質(zhì)量評(píng)價(jià)方法,利用對(duì)數(shù)正態(tài)分布來評(píng)估數(shù)據(jù)質(zhì)量,鑒于研究數(shù)據(jù)分布需要足夠的樣本容量,然而現(xiàn)實(shí)數(shù)據(jù)無法滿足此要求,故采用Bootstrap重抽樣方法解決兩者間矛盾。通過以山西省2000-2019年地區(qū)生產(chǎn)總值為研究對(duì)象,驗(yàn)證采用Bootstrap方法構(gòu)造的統(tǒng)計(jì)量是否服從對(duì)數(shù)正態(tài)分布判斷真實(shí)數(shù)據(jù)的數(shù)據(jù)質(zhì)量,通過檢驗(yàn),結(jié)果表明山西省2000-2019年地區(qū)生產(chǎn)總值統(tǒng)計(jì)數(shù)據(jù)質(zhì)量可靠。