中國電科第16研究所 陸杉
為貫徹習近平新時代中國特色社會主義思想,實現(xiàn)由高速增長向高質(zhì)量發(fā)展的轉(zhuǎn)變,各類科研院所更加需要扎實可靠的數(shù)據(jù)信息為國家整體戰(zhàn)略規(guī)劃和經(jīng)營管理提供數(shù)據(jù)基礎。
由于中小型科研院所缺少統(tǒng)計信息化平臺、批量化產(chǎn)品較少等普遍情況,導致其經(jīng)營統(tǒng)計工作體系無法實現(xiàn)信息共享和全面管理,只能從成本與效率雙重角度出發(fā),重點關注并搜集反映經(jīng)營效益、運營效率以及可持續(xù)發(fā)展等重點數(shù)據(jù)信息。
以合肥低溫電子所為例。合肥低溫電子所統(tǒng)計工作體系依據(jù)自身經(jīng)營管控目的,從四個維度劃分已有的數(shù)據(jù)信息:反映經(jīng)濟規(guī)模指標的數(shù)據(jù)信息M 1;反映經(jīng)濟發(fā)展指標的數(shù)據(jù)信息M 2;反映目標完成情況指標的數(shù)據(jù)信息M 3;反映新動能指標的數(shù)據(jù)信息M 4。
再根據(jù)四個類型統(tǒng)計數(shù)據(jù)信息在不同類別中的作用,進一步細分為:反映業(yè)務能力指標、反映經(jīng)濟運行狀態(tài)指標、反映經(jīng)營管理質(zhì)量指標、反映市場競爭力指標、反映可持續(xù)發(fā)展能力指標、反映經(jīng)營風險類指標及推動生產(chǎn)類和科研類新動能指標。綜上所述,合肥低溫電子所統(tǒng)計數(shù)據(jù)指標分類見表1。
表1 合肥低溫電子所統(tǒng)計數(shù)據(jù)指標分類
中小型研究所由于缺乏信息化設施和平臺,統(tǒng)計數(shù)據(jù)的收集主要依靠統(tǒng)計人員從已有的業(yè)務流程中摘取、提煉。再依據(jù)流程設計和制度要求逐級收集、匯總。因此數(shù)據(jù)收集和傳輸方式受統(tǒng)計工作體系運行質(zhì)量的影響較大,易出現(xiàn)由于篡改、修正、修勻等人為因素導致的統(tǒng)計數(shù)據(jù)失真[2]。而且不同部門統(tǒng)計員的數(shù)據(jù)相對獨立,缺乏相關性,不易事后進行數(shù)據(jù)比對驗證。同時,受市場行業(yè)相對單一且產(chǎn)品多為科研任務的影響,可橫向比較的外部數(shù)據(jù)不足。
為保證統(tǒng)計數(shù)據(jù)的及時性、完整性、精確性,中小型研究所除需建立穩(wěn)定可靠的統(tǒng)計工作體系外,還應設計專門的統(tǒng)計數(shù)據(jù)質(zhì)量評價方法,對于數(shù)據(jù)的真實性進行驗證,避免由于人為因素導致影響統(tǒng)計數(shù)據(jù)質(zhì)量、影響統(tǒng)計工作體系正常運作等情況發(fā)生。本文進行的統(tǒng)計數(shù)據(jù)評價不涉及統(tǒng)計數(shù)據(jù)經(jīng)濟意義、類型等指標設置問題,只討論能否通過數(shù)據(jù)本身的結(jié)構(gòu)和分布特征來描述和討論數(shù)據(jù)質(zhì)量問題。
1.指標選擇
本文從反映經(jīng)濟規(guī)模M 1、經(jīng)濟發(fā)展M 2、目標完成情況M 3和新動能M 4四個方面各自選擇近10年相應具代表性的指標,例如:營業(yè)收入M 11,利潤總額M 12,應收賬款周轉(zhuǎn)率M 21,新簽合同額M 22,外部權益性融資M 23,流動比率M 24,營業(yè)收入目標完成率M 31,成本費用占營業(yè)收入比重M 32,專利數(shù)M 4等。上述指標來源于3個領域9個部門,數(shù)據(jù)經(jīng)多次傳遞存在失真風險隱患,可以較為全面地反映實際運行的統(tǒng)計數(shù)據(jù)信息質(zhì)量。
2.數(shù)據(jù)處理
由于Benford法則要求首位數(shù)字必須是有效的數(shù)字,既要求首數(shù)字必須非零、非負。所以在開始實證分析之前,本文對上述數(shù)據(jù)做如下處理:
(1)對指標數(shù)值為負的數(shù)據(jù),將其負值取絕對值變?yōu)檎龜?shù);
(2)為統(tǒng)一指標單位,考慮到本文于選擇指標的單位多為萬元,且Benford法則主要對所選數(shù)據(jù)的前兩位數(shù)字進行分析,故對于只有一位數(shù)字和小于1而大于0的數(shù)據(jù),乘以10000得到新的符合條件的數(shù)字;
(3)為統(tǒng)一指標單位,百分比數(shù)字統(tǒng)一除以100再乘以10000得到新的符合條件的數(shù)字
3.假設條件
本文假設:(1)統(tǒng)計體系中統(tǒng)計的內(nèi)外部經(jīng)濟指標設計合理有效,符合實際經(jīng)濟需求;(2)統(tǒng)計數(shù)據(jù)信息真實可靠,且內(nèi)部溝通順暢;(3)統(tǒng)計工作體系可以穩(wěn)定運行。
4.實證分析
本文的實證分析過程主要通過Excel軟件完成。在Excel中首先分別用LEFT函數(shù)和M ID函數(shù)將反映經(jīng)濟規(guī)模M 1、反映經(jīng)濟發(fā)展M 2、反映目標完成情況M 3和反映新動能M 4四個層面數(shù)據(jù)的首位數(shù)字和次位數(shù)字提取出來,再用COUNTIF函數(shù)統(tǒng)計各類型統(tǒng)計數(shù)據(jù)的首位數(shù)字為1至9共9個自然數(shù)出現(xiàn)的次數(shù),次位數(shù)字為1至9共9個這個自然數(shù)出現(xiàn)的次數(shù)。然后計算各個數(shù)字在首位上和次位上的出現(xiàn)頻率,并將這些結(jié)果分別與Benford法則的期望頻率進行對比分析。最后通過擬合優(yōu)度檢驗來檢驗數(shù)字分布同法分布的整體擬合程度,最終確定已有的統(tǒng)計數(shù)據(jù)是否準確可靠,進而達到對16整體統(tǒng)計工作體系數(shù)據(jù)質(zhì)量分析的目的。
本文采用的是由皮爾遜х2擬合優(yōu)度檢驗,具體公式如下:
首位數(shù)字:
次位數(shù)字:
從公式我們可以看出,x2統(tǒng)計量越大,說明所分析數(shù)據(jù)的分布與Benford法則的期望分布偏差越大,即越不符合Benford法則,其準確性就越值得懷疑。反之,所分析經(jīng)濟部門的數(shù)據(jù)越準確,質(zhì)量越好。
因此,我們需要先對已有數(shù)據(jù)進行統(tǒng)計,見表2,找出其與Benford法則期望規(guī)律的偏差情況。
表2 Benford法則的概率分布
從表2可以看出,進行分析的統(tǒng)計數(shù)據(jù)中首位數(shù)字的觀察頻率總體上來說是呈遞減分布的,只有數(shù)字4和數(shù)字9的分布頻率要比數(shù)字7的分布頻率要高一點;次位數(shù)字的分布總體上趨勢下降趨勢,但是在3以后下降趨勢不明顯。沒有明顯的遞減趨勢,所以上述統(tǒng)計數(shù)據(jù)在此階段受較大影響。
經(jīng)過由皮爾遜x2擬合優(yōu)度檢驗計算,表3和表4分別列出了四個類型統(tǒng)計數(shù)據(jù)的首位數(shù)字和次位數(shù)字檢驗的結(jié)果。對首位數(shù)字和次位數(shù)字,本文一次做零假設和備擇假設分別為:
表3 四個類型指標首位數(shù)字的x2檢驗結(jié)果
表4 四個類型指標第二位數(shù)字的x2檢驗結(jié)果
H00:在統(tǒng)計工作體系核算統(tǒng)計數(shù)據(jù)(反映經(jīng)濟規(guī)模M 1、經(jīng)濟發(fā)展M 2、目標完成情況M 3和新動能M 4)中,1至9作為首位數(shù)字的實際出現(xiàn)頻率與Benford法則下的期望頻率沒有顯著差異與Benford法則相符)。
H01:在統(tǒng)計工作體系核算統(tǒng)計數(shù)據(jù)(反映經(jīng)濟規(guī)模M 1、經(jīng)濟發(fā)展M 2、目標完成情況M 3和新動能M 4)中,1至9作為首位數(shù)字的出現(xiàn)頻率與Benford法則下期望頻率有顯著差異(與Benford法則不符)。對次位數(shù)字,本文做零假設和備擇假設分別為:
H10:在統(tǒng)計工作體系核算統(tǒng)計數(shù)據(jù)(反映經(jīng)濟規(guī)模M 1、經(jīng)濟發(fā)展M 2、目標完成情況M 3和新動能M 4)中,0至9作為次位數(shù)字的實際出現(xiàn)頻率與Benford法則下的期望頻率沒有顯著差異(與Benford法則相符)。
H11:在統(tǒng)計工作體系核算統(tǒng)計數(shù)據(jù)(反映經(jīng)濟規(guī)模M 1、經(jīng)濟發(fā)展M 2、目標完成情況M 3和新動能M 4)中,0至9作為次位數(shù)字的出現(xiàn)頻率與Benford法則下期望頻率有顯著差異(與Benford法則不符)。
從表4我們可以看出,在0.05的顯著水平下,四個類型統(tǒng)計數(shù)據(jù)的首位數(shù)字的分布都沒有落在拒絕域中,說明我們不能拒絕原假設H00,即反映經(jīng)濟規(guī)模M 1、經(jīng)濟發(fā)展M 2、目標完成情況M 3和新動能M 4這四個統(tǒng)計數(shù)字類型的首位數(shù)字分布和Benford法則的期望分布沒有顯著差異。也就是說合肥低溫電子所統(tǒng)計工作體系中統(tǒng)計數(shù)據(jù)的首位數(shù)字分布與Benford法則的期望分布一致。從x2的統(tǒng)計值來看,雖然四個統(tǒng)計類型指標的統(tǒng)計值中,有三個大于10但是小于自由度為8的15.51的x2分布臨界值,其中反映經(jīng)濟規(guī)模和反映目標完成情況的統(tǒng)計值最大、反映經(jīng)濟發(fā)展的統(tǒng)計值最小。這說明統(tǒng)計分析結(jié)果與統(tǒng)計樣本個數(shù)的最少有關。
從表4我們可以看出,在0.05的顯著水平下,四個類型統(tǒng)計數(shù)據(jù)的次位數(shù)字的分布也沒有落在拒絕域中,說明我們不能拒絕原假設H10,即映經(jīng)濟規(guī)模M 1、經(jīng)濟發(fā)展M 2、目標完成情況M 3和新動能M 4這四個統(tǒng)計數(shù)字類型的次位數(shù)字分布和Benford法則的期望分布沒有顯著差異,次位數(shù)字分布與Benford法則的期望分布一致。從x2的統(tǒng)計值來看,雖然四個統(tǒng)計類型指標的統(tǒng)計值中,有三個都大于10, 但是仍然小于自由度為9的16.12的x2分布臨界值。并且反映經(jīng)濟規(guī)模的和反映目標完成情況的統(tǒng)計值最大、反映經(jīng)濟發(fā)展的統(tǒng)計值最小。也說明統(tǒng)計分析結(jié)果受統(tǒng)計樣本數(shù)量的影響。
綜上所述,在0.05的置信水平下的四個統(tǒng)計類型指標,其統(tǒng)計數(shù)據(jù)的首位數(shù)字和次位數(shù)字均是準確的。因此有較大的把握地認為說這四個類型統(tǒng)計指標都比較好地符合Benford法則,即數(shù)據(jù)是準確的。
從數(shù)據(jù)構(gòu)成分析和檢驗結(jié)果來看,合肥低溫電子所統(tǒng)計指標基本上是可信的,無數(shù)據(jù)舞弊跡象。這說明其建立的統(tǒng)計工作體系運行效率較高,可以為國家統(tǒng)計工作提供高質(zhì)量的統(tǒng)計數(shù)據(jù)。而觀察Benford分布x2的擬合值,發(fā)現(xiàn)有部分領域的x2的擬合值接近其相應自由度的x2分布臨界值,這種數(shù)據(jù)類型可以作為合肥低溫電子所未來統(tǒng)計工作體系的重點關注領域。
相關鏈接
本福特定律,也稱為本福特法則,說明一堆從實際生活得出的數(shù)據(jù)中,以1為首位數(shù)字的數(shù)的出現(xiàn)概率約為總數(shù)的三成,接近直覺得出之期望值1/9的3倍。推廣來說,越大的數(shù),以它為首幾位的數(shù)出現(xiàn)的概率就越低。它可用于檢查各種數(shù)據(jù)是否有造假。
一組平均增長的數(shù)據(jù)開始時,增長得較慢,由最初的數(shù)字a增長到另一個數(shù)字 a+1起首的數(shù)的時間,必然比a+1起首的數(shù)增長到a+2,需要更多時間,所以出現(xiàn)率就更高了。
從數(shù)數(shù)目來說,順序從1開始數(shù),1,2,3,...,9,從這點終結(jié)的話,所有數(shù)起首的機會似乎相同,但9之后的兩位數(shù)10至19,以1起首的數(shù)又大大拋離了其他數(shù)了。而下一堆9起首的數(shù)出現(xiàn)之前,必然會經(jīng)過一堆以2,3,4,...,8起首的數(shù)。若果這樣數(shù)法有個終結(jié)點,以1起首的數(shù)的出現(xiàn)率一般都比9大。
這個定律的嚴格證明,可以參見Hill,T.P."A Statistical Derivation of the Significant-Digit Law."Stat. Sci. 10, 354-363, 1996.。