張娟
摘要:統(tǒng)計(jì)實(shí)踐活動(dòng)在誕生之初只是單純的計(jì)數(shù)與描述,其研究方法和理論是與相關(guān)的數(shù)學(xué)理論相結(jié)合的,也就是形成了一門邏輯構(gòu)架嚴(yán)密的學(xué)科——統(tǒng)計(jì)學(xué)。概率論與數(shù)理統(tǒng)計(jì),各種統(tǒng)計(jì)推斷模型與方法,以及近幾十年來計(jì)算機(jī)與網(wǎng)絡(luò)技術(shù)的普及,給數(shù)據(jù)采集與處理帶來的巨大進(jìn)步,對(duì)統(tǒng)計(jì)學(xué)的萌芽與發(fā)展發(fā)揮了重要作用,使統(tǒng)計(jì)方法在各個(gè)領(lǐng)域得到廣泛應(yīng)用。通過統(tǒng)計(jì)員和有關(guān)專家的不懈努力,統(tǒng)計(jì)方法不斷完善。從大數(shù)據(jù)時(shí)代統(tǒng)計(jì)方法的發(fā)展趨勢(shì),應(yīng)用及拓展談起,不僅能夠加深對(duì)統(tǒng)計(jì)學(xué)方法的認(rèn)識(shí)和理解,也為未來的統(tǒng)計(jì)學(xué)研究發(fā)展方向提供借鑒和啟發(fā)。
關(guān)鍵詞:統(tǒng)計(jì)方法;發(fā)展;大數(shù)據(jù);應(yīng)用
引言:當(dāng)前,大數(shù)據(jù)浪潮已經(jīng)逐漸沖擊了世界,對(duì)人類社會(huì)產(chǎn)生了巨大沖擊,同時(shí)也影響了世界的發(fā)展進(jìn)程。大數(shù)據(jù)的強(qiáng)烈沖擊對(duì)應(yīng)用統(tǒng)計(jì)學(xué)研究也產(chǎn)生了深遠(yuǎn)的影響。本論文主要探討和研究統(tǒng)計(jì)方法從萌芽到發(fā)展的過程中與大數(shù)據(jù)、并對(duì)其在大數(shù)據(jù)中的應(yīng)用進(jìn)行了探討。
一、不同階段統(tǒng)計(jì)方法發(fā)展概述
(一)統(tǒng)計(jì)學(xué)方法的萌芽
初期統(tǒng)計(jì)工作僅限于實(shí)際工作階段,調(diào)查、登記、核實(shí)一件事。1671年誕生了政治算術(shù)學(xué)派和國術(shù)學(xué)派。就統(tǒng)計(jì)學(xué)研究的內(nèi)容而言,國力學(xué)派注重國力在不同國家之間的比較,而政治算術(shù)學(xué)派則注重人口學(xué)和生活經(jīng)濟(jì)指標(biāo)的比較。伴隨著政治算術(shù)學(xué)派和國家權(quán)力學(xué)派的出現(xiàn),統(tǒng)計(jì)開始發(fā)揮著超越計(jì)數(shù)的作用。將大量的統(tǒng)計(jì)實(shí)踐歸納為統(tǒng)計(jì)理論,使統(tǒng)計(jì)知識(shí)系統(tǒng)化和綜合化。從那以后,政治算術(shù)學(xué)派與國家權(quán)力學(xué)派爭論了二百多年。最終,這一分歧的解決為今后的統(tǒng)計(jì)發(fā)展奠定了基礎(chǔ)[1]。
(二)統(tǒng)計(jì)學(xué)方法的關(guān)鍵發(fā)展
1.概率論—統(tǒng)計(jì)學(xué)的基石
早期概率論,數(shù)學(xué)學(xué)派與國力學(xué)派爭論不休的時(shí)期,數(shù)學(xué)家通過解答大量的博弈問題,創(chuàng)造了一種新的學(xué)科概率理論。結(jié)合式,遞推式,條件概率式,全概率式,期望式的概念,使得概率計(jì)算由簡單計(jì)數(shù)階段發(fā)展到更加精確階段。在早期,由于概率論本身還不夠成熟,概率論和統(tǒng)計(jì)學(xué)的交叉并沒有迅速展開。但隨著數(shù)學(xué)分析等數(shù)學(xué)理論的發(fā)展,概率論在數(shù)學(xué)上有了很好的基礎(chǔ),大大提高了它的嚴(yán)謹(jǐn)性和通用性,為它在統(tǒng)計(jì)上的擴(kuò)展提供了依據(jù)。
2.隨機(jī)過程,十九世紀(jì),概率論的發(fā)展由相對(duì)靜態(tài)變量研究發(fā)展到隨機(jī)變量時(shí)間序列即隨機(jī)過程研究。隨機(jī)性的產(chǎn)生大大拓展了概率論的應(yīng)用和研究領(lǐng)域,使隨機(jī)變量的研究由靜態(tài)向動(dòng)態(tài)發(fā)展,取得了很大進(jìn)展。時(shí)間序列分析的理論基礎(chǔ)是隨機(jī)過程描述和研究變量隨時(shí)間變化的運(yùn)動(dòng)過程,并將相關(guān)結(jié)果應(yīng)用于實(shí)際預(yù)測(cè)和決策。隨機(jī)性和實(shí)踐性的特點(diǎn)使其在數(shù)學(xué)和非數(shù)學(xué)領(lǐng)域有著廣泛的應(yīng)用和發(fā)展。
3.大數(shù)定律,約在1685年,英國著名數(shù)學(xué)家伯努利完成了他的學(xué)術(shù)巨作《推測(cè)術(shù)》,但這本書1713年才出版,在書中他用數(shù)學(xué)把賭博中的現(xiàn)象理論化,并提出了伯努利定理。伯努利定理是“大數(shù)定律”的最初形式,而許多統(tǒng)計(jì)方法和理論都建立在大數(shù)定律的基礎(chǔ)上。
(三)數(shù)理統(tǒng)計(jì)的提出與發(fā)展—統(tǒng)計(jì)學(xué)和實(shí)踐相結(jié)合的開始
隨著大數(shù)定律和中心極限定理的提出,二項(xiàng)分布概率P的“逆概率”問題作為新的問題產(chǎn)生了?!澳娓怕省敝傅氖墙Y(jié)果推原因,即為數(shù)理統(tǒng)計(jì)。關(guān)于如何做統(tǒng)計(jì)推斷問題,統(tǒng)計(jì)學(xué)家的觀點(diǎn)主要分為兩種:一種是頻率學(xué)派,認(rèn)為參數(shù) E是固定的、未知的常數(shù),而樣本 x是隨機(jī)的,其焦點(diǎn)是樣本空間。二是貝葉斯學(xué)派,它與頻率學(xué)派相對(duì)立。把參量 E看作是一個(gè)隨機(jī)變量,樣本x看作是一個(gè)固定變量,關(guān)注參數(shù)空間。源于十九世紀(jì)六十年代貝葉斯統(tǒng)計(jì)理論的貝葉斯學(xué)派,用概率論的方法來解決“反概率”問題。對(duì)于一些參數(shù)模型和小樣本情況,貝葉斯方法較頻率法更為方便,因?yàn)樗梢员苊馇髽颖痉植嫉穆闊?。非參量模型不易設(shè)定先驗(yàn)分布,采用頻度校合法更為方便。所以,兩者是互補(bǔ)的。數(shù)學(xué)統(tǒng)計(jì)的出現(xiàn),使得將統(tǒng)計(jì)的概率論和實(shí)際得到的數(shù)據(jù)結(jié)合起來,實(shí)現(xiàn)對(duì)統(tǒng)計(jì)參數(shù)的逆向推導(dǎo)成為可能,是統(tǒng)計(jì)學(xué)發(fā)展的一個(gè)重大突破。由此,統(tǒng)計(jì)數(shù)據(jù)能夠從樣本中獲得總體概率估計(jì),為以后的統(tǒng)計(jì)預(yù)測(cè)、控制和實(shí)證分析奠定了堅(jiān)實(shí)的基礎(chǔ)[2]。
二、統(tǒng)計(jì)學(xué)方法在大數(shù)據(jù)時(shí)代的應(yīng)用
過去,對(duì)資料的收集整理主要是通過人工,主要包括試驗(yàn)調(diào)查資料和一些二級(jí)資料等渠道進(jìn)行。資料稀少且昂貴。主要依據(jù)抽樣數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。這種方法是以因果關(guān)系為基礎(chǔ)的統(tǒng)計(jì)分析,是一門綜合學(xué)科,它以一定的數(shù)據(jù)推論整體,進(jìn)而得出事物的總體分布。隨著計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)、物聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)的取得、記錄和儲(chǔ)存和過去相比變得更加容易,可以用于分析的數(shù)據(jù)呈幾何級(jí)增長。統(tǒng)計(jì)是以數(shù)據(jù)為基礎(chǔ)的,在此意義上,大數(shù)據(jù)的產(chǎn)生對(duì)統(tǒng)計(jì)工作具有劃時(shí)代的意義。海量數(shù)據(jù)具有多樣性、海量性和高速性的特點(diǎn),這與高統(tǒng)計(jì)成本、大誤差相對(duì)應(yīng)。但這并不意味著統(tǒng)計(jì)數(shù)字時(shí)代的終結(jié)。大數(shù)據(jù)的搜索,聚類和分類仍需要依賴于統(tǒng)計(jì)方法。機(jī)器學(xué)習(xí)是大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)中最不可分割的部分。機(jī)器學(xué)習(xí)專家 MichelleJordan和 TomMitchell認(rèn)為,機(jī)器學(xué)習(xí)是計(jì)算機(jī)科學(xué)和統(tǒng)計(jì)學(xué)的交叉學(xué)科,是人工智能和數(shù)據(jù)科學(xué)的核心。如今,機(jī)器學(xué)習(xí)已成為統(tǒng)計(jì)學(xué)的發(fā)展方向,擴(kuò)大了統(tǒng)計(jì)學(xué)可研究問題的范圍。與此同時(shí),機(jī)器學(xué)習(xí)也離不開統(tǒng)計(jì)。有很多可以用于機(jī)器學(xué)習(xí)項(xiàng)目的統(tǒng)計(jì)方法,它們都很有價(jià)值[3]。
結(jié)語:
總的來說,只要有數(shù)據(jù),就有統(tǒng)計(jì)數(shù)據(jù)。統(tǒng)計(jì)學(xué)從17世紀(jì)國力學(xué)派、算術(shù)學(xué)派的論戰(zhàn),到今天與大數(shù)據(jù)、計(jì)算機(jī)技術(shù)的互動(dòng),其內(nèi)容不斷更新和完善,應(yīng)用領(lǐng)域不斷拓展,統(tǒng)計(jì)方法也不斷創(chuàng)新。伴隨著大數(shù)據(jù)時(shí)代的到來,統(tǒng)計(jì)學(xué)研究開始從小樣本的統(tǒng)計(jì)推斷分析轉(zhuǎn)向大樣本挖掘。今后的趨勢(shì)是把現(xiàn)有的統(tǒng)計(jì)方法和數(shù)據(jù)思維結(jié)合起來,產(chǎn)生新的統(tǒng)計(jì)方法,或者更廣泛地應(yīng)用大數(shù)據(jù)算法。未來我國統(tǒng)計(jì)方法的發(fā)展應(yīng)充分考慮實(shí)際需要,積極適應(yīng)時(shí)代的變化。目前,隨著大數(shù)據(jù)時(shí)代的全面到來,大數(shù)據(jù)技術(shù)已在我國廣泛應(yīng)用,并在實(shí)際應(yīng)用過程中取得了令人滿意的效果。大數(shù)據(jù)與統(tǒng)計(jì)方法相結(jié)合,能夠更好地反映統(tǒng)計(jì)方法的作用,使統(tǒng)計(jì)方法不斷發(fā)展壯大,它的功能在大數(shù)據(jù)背景下得到了更加充分的體現(xiàn)。
參考文獻(xiàn):
[1]"大數(shù)據(jù)中的統(tǒng)計(jì)方法"課題組,馬雙鴿.大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)發(fā)展的若干問題[J].統(tǒng)計(jì)研究,2017,34(01):5-11.
[2]李金昌.基于大數(shù)據(jù)思維的統(tǒng)計(jì)學(xué)若干理論問題[J].統(tǒng)計(jì)研究,2016,33(11):3-10.
[3]邱東.大數(shù)據(jù)時(shí)代對(duì)統(tǒng)計(jì)學(xué)的挑戰(zhàn)[J].統(tǒng)計(jì)研究,2014,31(01):16-22.