徐延軍 左宇曉 王茹川/ 文
人類文明的每一次進(jìn)步都以科學(xué)技術(shù)革新為標(biāo)志。從19世紀(jì)的“蒸汽機(jī)時(shí)代”,20 世紀(jì)的“信息技術(shù)”到21 世紀(jì)“大數(shù)據(jù)時(shí)代”的變革,現(xiàn)如今大數(shù)據(jù)與數(shù)字經(jīng)濟(jì)正在全球范圍內(nèi)掀起一陣顛覆傳統(tǒng)的熱潮,成為各國(guó)重塑競(jìng)爭(zhēng)優(yōu)勢(shì)的共同選擇。黨中央國(guó)務(wù)院高度重視大數(shù)據(jù)在經(jīng)濟(jì)社會(huì)發(fā)展中的作用,黨的十八屆五中全會(huì)提出“實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略”,國(guó)務(wù)院印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,全面推進(jìn)大數(shù)據(jù)發(fā)展,加快建設(shè)數(shù)據(jù)強(qiáng)國(guó)。據(jù)《2018 全球大數(shù)據(jù)發(fā)展分析報(bào)告》顯示,隨著全球海量數(shù)據(jù)的增長(zhǎng),無論是中國(guó)還是世界,大數(shù)據(jù)能否轉(zhuǎn)化為決策力都面臨著數(shù)據(jù)結(jié)構(gòu)化以及系統(tǒng)建模分析等諸多難題。由此可見,數(shù)據(jù)已經(jīng)成為重要的基礎(chǔ)性戰(zhàn)略資源,而且取之不盡用之不竭,越用越豐富,是21 世紀(jì)的“鉆石礦”。大數(shù)據(jù)時(shí)代數(shù)據(jù)資源豐盈的同時(shí),數(shù)據(jù)分析顯得更加重要,數(shù)據(jù)分析的核心是統(tǒng)計(jì)。大數(shù)據(jù)時(shí)代統(tǒng)計(jì)思維不再束縛于傳統(tǒng)的統(tǒng)計(jì)方式,尤其是數(shù)據(jù)采集和分析的方法,不論是政府統(tǒng)計(jì)還是民間統(tǒng)計(jì),都必須順應(yīng)大數(shù)據(jù)時(shí)代的變革,未來的統(tǒng)計(jì)將是傳統(tǒng)統(tǒng)計(jì)和大數(shù)據(jù)的高度融合,構(gòu)造多數(shù)據(jù)源的大統(tǒng)計(jì)。
統(tǒng)計(jì)源于國(guó)家管理需要而產(chǎn)生,比如最早的人口統(tǒng)計(jì)。統(tǒng)計(jì)有三方面的含義:統(tǒng)計(jì)工作、統(tǒng)計(jì)資料和統(tǒng)計(jì)學(xué)。一般來說,統(tǒng)計(jì)來源于實(shí)踐,通過統(tǒng)計(jì)工作獲取統(tǒng)計(jì)資料,進(jìn)而隨著認(rèn)識(shí)的不斷深入,統(tǒng)計(jì)學(xué)上升為一門學(xué)科。統(tǒng)計(jì)學(xué)作為一門學(xué)科已有三百多年的歷史。通常可以將統(tǒng)計(jì)學(xué)的發(fā)展史分為三個(gè)階段:古典統(tǒng)計(jì)學(xué)、近代統(tǒng)計(jì)學(xué)和現(xiàn)代統(tǒng)計(jì)學(xué)。
古典統(tǒng)計(jì)學(xué)時(shí)期(17 世紀(jì)中葉到18 世紀(jì))以政治算術(shù)學(xué)派和國(guó)勢(shì)學(xué)派為代表,二者相互滲透和借鑒。其中政治算術(shù)學(xué)派以威廉·配第(Willian Petty,1623—1687 年)和約翰·格朗特(John Graunt,1620—1674 年)為代表,國(guó)勢(shì)學(xué)派以海爾曼·康令(Hermann Conring,1606—1681 年)為代表,統(tǒng)計(jì)主要為國(guó)家管理和社會(huì)福利改善提供服務(wù)和指導(dǎo)。
近代統(tǒng)計(jì)學(xué)時(shí)期(18 世紀(jì)末—19 世紀(jì)末)以數(shù)理統(tǒng)計(jì)和社會(huì)統(tǒng)計(jì)為代表。源于歐洲各國(guó)的工業(yè)革命和科學(xué)技術(shù)的迅猛發(fā)展,天文、氣象、社會(huì)人口等領(lǐng)域的數(shù)據(jù)資料積累到一定規(guī)模,國(guó)家層面對(duì)統(tǒng)計(jì)的需求開始擴(kuò)展至社會(huì)科學(xué)各個(gè)領(lǐng)域。社會(huì)統(tǒng)計(jì)學(xué)派主要代表人物是恩格爾(C.L.E.Engel,1821—1896 年)和梅爾(C.G.V.Mayer,1841—1925 年),他們認(rèn)為統(tǒng)計(jì)學(xué)的研究對(duì)象是社會(huì)經(jīng)濟(jì)現(xiàn)象。對(duì)事物現(xiàn)象的靜態(tài)描述也不能滿足社會(huì)需求,數(shù)理統(tǒng)計(jì)學(xué)派創(chuàng)始人凱特勒(A.J.Quetelet,1796—1874 年)率先將概率論引進(jìn)古典統(tǒng)計(jì)學(xué),提出了大數(shù)定律思想,使得統(tǒng)計(jì)學(xué)逐步成為揭示事物內(nèi)在規(guī)律的一般性研究方法,由此凱特勒被歐美統(tǒng)計(jì)學(xué)界譽(yù)為“近代統(tǒng)計(jì)學(xué)之父”。
現(xiàn)代統(tǒng)計(jì)學(xué)時(shí)期(20 世紀(jì)以來)以凱特勒的數(shù)理統(tǒng)計(jì)學(xué)為基礎(chǔ),經(jīng)過高爾頓(F.Galton,1822—1921 年)、皮爾遜(K.Pearson,1857—1936 年)、鮑萊(A.L.Bowley,1869—1957 年)和費(fèi)歇爾(R.A.Fisher,1880—1962 年)等統(tǒng)計(jì)學(xué)家的不斷豐富和完善,主要成果是數(shù)理統(tǒng)計(jì)在隨機(jī)抽樣基礎(chǔ)上建立起來的推斷統(tǒng)計(jì)學(xué)。隨著計(jì)算機(jī)技術(shù)的發(fā)展,一系列統(tǒng)計(jì)方法技術(shù)被開發(fā)出來,如MCMC 模擬計(jì)算、Jackknife、Bootstrap 等。21 世紀(jì)大數(shù)據(jù)時(shí)代的到來,以互聯(lián)網(wǎng)為中心的云計(jì)算技術(shù)為大數(shù)據(jù)提供了存儲(chǔ)、訪問的場(chǎng)所和渠道,由此而來的一系列面向大數(shù)據(jù)的抽樣、分類、聚類、關(guān)聯(lián)分析方法應(yīng)運(yùn)而生。例如,社交網(wǎng)絡(luò)的發(fā)展直接促進(jìn)了基于網(wǎng)絡(luò)的統(tǒng)計(jì)方法的產(chǎn)生,大數(shù)據(jù)流環(huán)境促進(jìn)了數(shù)據(jù)流算法的產(chǎn)生等。因此,計(jì)算機(jī)技術(shù)可以說是大數(shù)據(jù)發(fā)展的基礎(chǔ),同時(shí)計(jì)算機(jī)對(duì)統(tǒng)計(jì)學(xué)的發(fā)展起到了很大的促進(jìn)作用。
縱觀統(tǒng)計(jì)學(xué)發(fā)展史,作為統(tǒng)計(jì)研究對(duì)象的數(shù)據(jù)的產(chǎn)生,尤其是大數(shù)據(jù)的產(chǎn)生和存儲(chǔ),離不開計(jì)算機(jī)技術(shù)的迅猛發(fā)展?,F(xiàn)在已經(jīng)進(jìn)入計(jì)算機(jī)、大數(shù)據(jù)和統(tǒng)計(jì)方法相互融合的時(shí)代,統(tǒng)計(jì)分析也經(jīng)歷了簡(jiǎn)單的計(jì)數(shù)分析、簡(jiǎn)單描述統(tǒng)計(jì)分析、抽樣分布特征分析、估計(jì)檢驗(yàn)推算分析、動(dòng)態(tài)預(yù)測(cè)分析、評(píng)價(jià)判定分析、變量關(guān)聯(lián)關(guān)系分析、數(shù)據(jù)挖掘分析等階段,相應(yīng)的產(chǎn)生了不同的統(tǒng)計(jì)分析方法,包括大量觀察法、統(tǒng)計(jì)分組法、綜合指標(biāo)法、模型方程法、數(shù)據(jù)挖掘等方法,并且對(duì)計(jì)算機(jī)和軟件的利用程度也越來越深。
如何從海量數(shù)據(jù)中進(jìn)行數(shù)據(jù)的清洗,并提煉有用的信息,是大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)面臨的重大挑戰(zhàn)。
Viktor 和Kenneth(2013)認(rèn)為大數(shù)據(jù)時(shí)代將開啟全部數(shù)據(jù)的分析模式,不再需要隨機(jī)抽樣推斷分析的統(tǒng)計(jì)方法。統(tǒng)計(jì)是動(dòng)態(tài)的歷史,歷史是靜態(tài)的統(tǒng)計(jì)。著名統(tǒng)計(jì)學(xué)家、哈佛大學(xué)終身教授劉軍則指出,全數(shù)據(jù)的概念經(jīng)不起推敲,而且“在大數(shù)據(jù)時(shí)代,統(tǒng)計(jì)學(xué)依然是數(shù)據(jù)分析的靈魂”。如果將大數(shù)據(jù)比喻成“海洋”,那么統(tǒng)計(jì)學(xué)必定是匯入“大數(shù)據(jù)海洋”的主干河流之一。大數(shù)據(jù)時(shí)代的統(tǒng)計(jì)從數(shù)據(jù)采集、數(shù)據(jù)分析到數(shù)據(jù)的發(fā)布等都將對(duì)統(tǒng)計(jì)學(xué)產(chǎn)生重要影響。接下來我們從三個(gè)方面探討大數(shù)據(jù)環(huán)境下的統(tǒng)計(jì)問題進(jìn)行辨析。
討論一:大數(shù)據(jù)是總體還是樣本呢?面對(duì)海量數(shù)據(jù)的產(chǎn)生,有人認(rèn)為大數(shù)據(jù)是全部所有的數(shù)據(jù),因此不需要隨機(jī)抽樣,將大數(shù)據(jù)定義為總體的研究對(duì)象。另一說法是大數(shù)據(jù)再大也只是相對(duì)的,隨著時(shí)間的推演,大數(shù)據(jù)還在源源不斷地產(chǎn)生,而且由于時(shí)空的交錯(cuò),我們很難采集到所有的數(shù)據(jù)?;ヂ?lián)網(wǎng)外還有大魚,數(shù)據(jù)再大也是相對(duì)的,今天的大數(shù)據(jù)相對(duì)而言只是明天的小數(shù)據(jù),我們不可能窮盡獲取所有數(shù)據(jù),而且對(duì)數(shù)據(jù)的掌控也是有限的。北京大學(xué)耿直教授給的定義為:“大數(shù)據(jù)是一個(gè)大樣本和高維變量的數(shù)據(jù)集合?!?/p>
這里以居民消費(fèi)價(jià)格指數(shù)(consumer price index,簡(jiǎn)稱CPI)為例。國(guó)家統(tǒng)計(jì)局編制CPI,一些電商也在編制CPI。國(guó)家統(tǒng)計(jì)局編制的CPI 包括8 大類商品,260 多個(gè)基本分類,700 多種代表商品,調(diào)查范圍涵蓋全國(guó)31 個(gè)?。ㄊ小^(qū))500 多個(gè)市縣4000多個(gè)調(diào)查網(wǎng)點(diǎn)。可是,全國(guó)2000 多個(gè)縣,市場(chǎng)上有數(shù)以億計(jì)的商品和服務(wù),而且數(shù)以萬計(jì)的商業(yè)網(wǎng)點(diǎn)和電商的數(shù)據(jù)沒有全部包括進(jìn)去。那么我們是否能在全國(guó)范圍內(nèi)編制總體的CPI 呢?答案是不可以也不可取。從目前全國(guó)實(shí)施情況來看,小范圍可以實(shí)現(xiàn),如某個(gè)行業(yè),或某個(gè)電商平臺(tái)?,F(xiàn)在一些電商也在編制自己的網(wǎng)購(gòu)價(jià)格指數(shù),如阿里巴巴的網(wǎng)購(gòu)價(jià)格指數(shù)。
因此,總的來說大數(shù)據(jù)等于總體說法是不準(zhǔn)確的,也是不可取的。在某些特定的場(chǎng)合,大數(shù)據(jù)約等于總體,例如小范圍大數(shù)據(jù)近似等于小總體,直接就可以對(duì)總體進(jìn)行分析。但在很多場(chǎng)合,大數(shù)據(jù)表現(xiàn)出來的是一個(gè)海量的樣本,可以通過再抽樣減少樣本量,大數(shù)據(jù)如何再抽樣,達(dá)到估計(jì)的精度。
討論二:大數(shù)據(jù)時(shí)代還需要傳統(tǒng)的抽樣嗎?因?yàn)榇髷?shù)據(jù)的稀疏性,它需要清洗掉80%以上的垃圾信息,如果按照隨機(jī)抽樣的原則,對(duì)清洗后的數(shù)據(jù)進(jìn)行抽樣實(shí)施,那么總體分布將是有偏的,抽取的樣本也存在偏倚。傳統(tǒng)的數(shù)據(jù)采集方式是主動(dòng)獲取的數(shù)據(jù),大數(shù)據(jù)時(shí)代數(shù)據(jù)如潮水般涌來進(jìn)而被囤積下來,兩種數(shù)據(jù)源如何實(shí)現(xiàn)有效融合是統(tǒng)計(jì)學(xué)面臨的重要問題。針對(duì)大數(shù)據(jù)流環(huán)境,耿直(2014)提出需要探究如何抽取足以滿足統(tǒng)計(jì)調(diào)查目的和精度的樣本,需要研究新的適應(yīng)性,序慣性和動(dòng)態(tài)的抽樣方法。例如,對(duì)政府的宏觀經(jīng)濟(jì)統(tǒng)計(jì)而言,如何從原來的政府統(tǒng)計(jì)(以抽樣調(diào)查為主)到將來的政府大數(shù)據(jù)統(tǒng)計(jì)(微觀個(gè)體和企業(yè)),將各種來源的數(shù)據(jù)庫(kù)實(shí)現(xiàn)有效的融合和對(duì)接至關(guān)重要。對(duì)于企業(yè)而言,可以從原來的用戶滿意度抽樣調(diào)查上升到借助大數(shù)據(jù)挖掘用戶的消費(fèi)畫像,從而實(shí)現(xiàn)用戶的精準(zhǔn)營(yíng)銷。對(duì)于家庭或個(gè)人而言,大數(shù)據(jù)時(shí)代電子支付手段的使用,所有的消費(fèi)行為都會(huì)被記錄下來,可以更加清晰地發(fā)現(xiàn)家庭的消費(fèi)支出特征,為進(jìn)一步優(yōu)化消費(fèi)結(jié)構(gòu)提供依據(jù)。
討論三:在大數(shù)據(jù)環(huán)境下,統(tǒng)計(jì)學(xué)的經(jīng)典分析方法會(huì)被淘汰嗎?有人認(rèn)為如果大數(shù)據(jù)包含了所有的數(shù)據(jù),抽樣誤差將消失,模型顯得不重要了,被統(tǒng)計(jì)學(xué)視為經(jīng)典的回歸模型分析法等將被淘汰。大數(shù)據(jù)時(shí)代思維的改變是更關(guān)注數(shù)據(jù)的相關(guān)關(guān)系,舍恩伯格等提道:“相關(guān)關(guān)系比因果關(guān)系能更好地了解這個(gè)世界”。例如,某些電商平臺(tái)的推薦系統(tǒng),基于數(shù)據(jù)的抓取、挖掘和可視化呈現(xiàn)的數(shù)據(jù)新聞等。這些通過數(shù)據(jù)挖掘?qū)崿F(xiàn)了從數(shù)據(jù)到價(jià)值的轉(zhuǎn)變,創(chuàng)造出很好地經(jīng)濟(jì)利潤(rùn)和社會(huì)效益,更好地實(shí)現(xiàn)精準(zhǔn)營(yíng)銷。但是對(duì)象之間相關(guān)關(guān)系越強(qiáng)也可能并不存在本質(zhì)上的關(guān)聯(lián)性,而且相關(guān)分析不能進(jìn)一步的解釋現(xiàn)象之間的因果關(guān)系。因此,大數(shù)據(jù)時(shí)代依然需要借助傳統(tǒng)的統(tǒng)計(jì)分析方法,而致力于因果關(guān)系研究的回歸分析或?qū)嶒?yàn)設(shè)計(jì)等方法在大數(shù)據(jù)時(shí)代依然重要,比如說人工智能核心領(lǐng)域的機(jī)器學(xué)習(xí),回歸分析是有監(jiān)督學(xué)習(xí)的主要方法之一,而且和統(tǒng)計(jì)密不可分。因此,傳統(tǒng)的統(tǒng)計(jì)經(jīng)典分析方法不會(huì)被淘汰,相反依托于大數(shù)據(jù),可以實(shí)現(xiàn)現(xiàn)代和傳統(tǒng)統(tǒng)計(jì)分析技術(shù)的有機(jī)結(jié)合。
伴隨著大數(shù)據(jù)時(shí)代統(tǒng)計(jì)分析技術(shù)的提高,從大數(shù)據(jù)采集到數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理、數(shù)據(jù)挖掘與分析、數(shù)據(jù)可視化與決策這樣一個(gè)完整的大數(shù)據(jù)資源價(jià)值才能得到完整的利用。隨著非結(jié)構(gòu)化數(shù)據(jù)的井噴式增長(zhǎng),語(yǔ)音信息處理、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)成為大數(shù)據(jù)統(tǒng)計(jì)分析的重要領(lǐng)域,我們的目標(biāo)是建立面向大數(shù)據(jù)的宏觀統(tǒng)計(jì)核算體系,充分利用各種信息技術(shù)和手段,運(yùn)用統(tǒng)計(jì)理論方法實(shí)現(xiàn)大數(shù)據(jù)資源的價(jià)值提升,把統(tǒng)計(jì)測(cè)度與數(shù)據(jù)清洗、數(shù)據(jù)分析模型、計(jì)算方法相結(jié)合,努力建立融自動(dòng)搜索、動(dòng)態(tài)演化和自主優(yōu)選統(tǒng)計(jì)測(cè)度為一體的大數(shù)據(jù)統(tǒng)計(jì)測(cè)度方法體系。在政府國(guó)民核算方面,將新興經(jīng)濟(jì)核算作為拓展核算納入國(guó)民經(jīng)濟(jì)核算體系,而新興經(jīng)濟(jì)中很大一部分屬于數(shù)字經(jīng)濟(jì)。為了準(zhǔn)確核算數(shù)字經(jīng)濟(jì)發(fā)展規(guī)模及其對(duì)宏觀經(jīng)濟(jì)的貢獻(xiàn),數(shù)據(jù)的獲取非常重要。除了完善數(shù)字平臺(tái)相關(guān)數(shù)據(jù),開展專項(xiàng)調(diào)查之外,還需要充分挖掘大數(shù)據(jù)技術(shù)記錄存儲(chǔ)基礎(chǔ)數(shù)據(jù),充分挖掘網(wǎng)絡(luò)來源數(shù)據(jù)等。將這些大數(shù)據(jù)與各部門行政、稅收、商業(yè)等數(shù)據(jù)互補(bǔ)結(jié)合,采取傳統(tǒng)調(diào)查為主、網(wǎng)絡(luò)記錄數(shù)據(jù)為輔的原則。因此,伴隨著數(shù)字經(jīng)濟(jì)的快速發(fā)展,亟須構(gòu)建數(shù)字經(jīng)濟(jì)核算體系。大數(shù)據(jù)時(shí)代表現(xiàn)出來的數(shù)字經(jīng)濟(jì)離不開大數(shù)據(jù)和云計(jì)算技術(shù),通過新型技術(shù)實(shí)現(xiàn)對(duì)傳統(tǒng)業(yè)務(wù)和模式的數(shù)據(jù)改變,從而推動(dòng)政府、企業(yè)、消費(fèi)者多層次多目標(biāo)數(shù)據(jù)源的發(fā)展,提高大數(shù)據(jù)質(zhì)量,加快建設(shè)數(shù)字中國(guó)。
從統(tǒng)計(jì)的發(fā)展歷程可以看出,隨著計(jì)算機(jī)和大數(shù)據(jù)的出現(xiàn),統(tǒng)計(jì)已經(jīng)發(fā)生了翻天覆地的變化。統(tǒng)計(jì)思維方式也將發(fā)生變革,如何將不同數(shù)據(jù)源的數(shù)據(jù)整合,大數(shù)據(jù)與小數(shù)據(jù)的對(duì)接,主動(dòng)獲取的數(shù)據(jù)和被動(dòng)囤積的數(shù)據(jù)相銜接。未來的統(tǒng)計(jì)將融合計(jì)算機(jī)、大數(shù)據(jù)為一體,呈現(xiàn)出大統(tǒng)計(jì)百花爭(zhēng)艷的局面,在數(shù)字全球化背景下如何構(gòu)造宏觀大數(shù)據(jù)統(tǒng)計(jì)體系,在此基礎(chǔ)上構(gòu)建數(shù)字經(jīng)濟(jì)核算體系,進(jìn)而為提高大數(shù)據(jù)質(zhì)量,加快數(shù)字中國(guó)建設(shè)建言獻(xiàn)策。