胡雪輝
【摘要】隨著大數(shù)據(jù)時(shí)代的到來,傳統(tǒng)統(tǒng)計(jì)學(xué)面臨著創(chuàng)新和發(fā)展的新局面,結(jié)合大數(shù)據(jù)特征,需要對統(tǒng)計(jì)理論進(jìn)行創(chuàng)新和重新構(gòu)建,其中統(tǒng)計(jì)方法、總體理論存在價(jià)值、統(tǒng)計(jì)結(jié)果評價(jià)標(biāo)準(zhǔn)等的重建成了亟待解決的問題,本文就此進(jìn)行了分析和探討。
【關(guān)鍵詞】大數(shù)據(jù)技術(shù)? 統(tǒng)計(jì)學(xué)理論? 創(chuàng)新
隨著大數(shù)據(jù)應(yīng)用,信息獲取和存儲能力不斷提高,同時(shí)成本不斷下降,其應(yīng)用優(yōu)勢也使大數(shù)據(jù)技術(shù)在各種領(lǐng)域中得到了廣泛應(yīng)用,對科學(xué)技術(shù)的發(fā)展產(chǎn)生極其重要的影響。在產(chǎn)生大數(shù)據(jù)的數(shù)據(jù)源中,通常具有實(shí)時(shí)性和高速度性的特征,因此對數(shù)據(jù)分析和處理系統(tǒng)也提出了實(shí)時(shí)性和高效性的要求,而傳統(tǒng)統(tǒng)計(jì)方法已無法適應(yīng)目前大數(shù)據(jù)的研究和分析,需要對統(tǒng)計(jì)學(xué)理論進(jìn)行創(chuàng)新和改進(jìn)。
一、傳統(tǒng)意義下的統(tǒng)計(jì)學(xué)理論
傳統(tǒng)統(tǒng)計(jì)學(xué)理論中,主要包含三種類型的統(tǒng)計(jì)方法:描述統(tǒng)計(jì)方法,主要處理非隨機(jī)非概率數(shù)據(jù),比如社會調(diào)查、指數(shù)編制等;隨機(jī)現(xiàn)象的統(tǒng)計(jì)方法,比如數(shù)理統(tǒng)計(jì)方法、概率論等;特殊方法,主要是針對相關(guān)聯(lián)的特定學(xué)科的處理方法,比如環(huán)境科學(xué)、經(jīng)濟(jì)統(tǒng)計(jì)方法等。
由于受到數(shù)據(jù)采集、處理工具和能力的影響和限制,跟統(tǒng)計(jì)相關(guān)的數(shù)據(jù)信息的全部采集無法實(shí)現(xiàn),因此通常統(tǒng)計(jì)學(xué)理論和方法都是基于樣本的基礎(chǔ)上展開的,即使能夠采集全部數(shù)據(jù),但也會因投入過大而選擇抽樣的方式進(jìn)行。而作為統(tǒng)計(jì)學(xué)理論中最佳的,統(tǒng)計(jì)分析方法和抽樣方法,也只能在某些方面或特定方面最大限度的還原總體特征,而且也僅是統(tǒng)計(jì)對象大量特征中的極小部分,其他部分特征依然有待挖掘。
在抽樣理論基礎(chǔ)上建立的傳統(tǒng)統(tǒng)計(jì)學(xué),通過以點(diǎn)帶面的統(tǒng)計(jì)分析方法,對因果關(guān)系進(jìn)行利用和強(qiáng)調(diào),并根據(jù)統(tǒng)計(jì)分析結(jié)果,對統(tǒng)計(jì)對象的總體本質(zhì)進(jìn)行推斷,從而形成的集采集、整理、分析、研究數(shù)據(jù)為一體,并對數(shù)據(jù)內(nèi)部規(guī)律進(jìn)行探索的科學(xué)。
二、統(tǒng)計(jì)學(xué)與大數(shù)據(jù)的關(guān)系
事物通過科學(xué)的計(jì)量單位以及用數(shù)來表現(xiàn)其特征,形成具有科學(xué)依據(jù)的數(shù)據(jù),能夠通過對數(shù)據(jù)的測量和觀察,對社會現(xiàn)象、自然現(xiàn)象等的內(nèi)部變化規(guī)律進(jìn)行了解,或?qū)σ延械睦碚摵图僭O(shè)進(jìn)行檢驗(yàn),使具有理論意義和實(shí)際意義的數(shù)據(jù)得以產(chǎn)生。統(tǒng)計(jì)學(xué)理論即是從數(shù)據(jù)中取得科學(xué)數(shù)據(jù)的理論。
大數(shù)據(jù)分析能夠使數(shù)據(jù)在科學(xué)研究、認(rèn)知世界、傳達(dá)事物特征等方面充分發(fā)揮其功能和重要性,能夠?qū)Σ煌枨蟮幕疽笥枰詽M足和充分表達(dá)。而大數(shù)據(jù)的主要作務(wù)為數(shù)據(jù)內(nèi)在規(guī)律的挖掘、數(shù)據(jù)與知識的轉(zhuǎn)化、實(shí)際問題的解決、未來結(jié)果的預(yù)測等方面,這些也需要針對大數(shù)據(jù),通過提取、挖掘、分析數(shù)據(jù)等方式,對數(shù)據(jù)內(nèi)在的本質(zhì)和規(guī)律進(jìn)行了解,這也與統(tǒng)計(jì)學(xué)密不可分,同時(shí)也需要對統(tǒng)計(jì)學(xué)理論進(jìn)行改進(jìn)和創(chuàng)新。
數(shù)據(jù)統(tǒng)計(jì)歷經(jīng)了少量數(shù)據(jù)的采集、最大限度的收集數(shù)據(jù)、樣本數(shù)據(jù)的科學(xué)利用,以及各類數(shù)據(jù)的綜合利用等過程,目前已發(fā)展到大數(shù)據(jù),為了適應(yīng)數(shù)據(jù)不斷增加的發(fā)展歷程,統(tǒng)計(jì)理論分析也產(chǎn)生了統(tǒng)計(jì)分組法、模型方程法、大量觀察法、綜合指標(biāo)法、歸納推斷法、數(shù)據(jù)挖掘法等,同時(shí)計(jì)算機(jī)軟件技術(shù)應(yīng)用程度也越來越深入。在大數(shù)據(jù)背景下作為數(shù)據(jù)分析的核心,統(tǒng)計(jì)學(xué)也被賦予了數(shù)據(jù)分析新任務(wù),需要對統(tǒng)計(jì)新理論、新技術(shù)、新方法進(jìn)行創(chuàng)新和挑戰(zhàn)。
三、統(tǒng)計(jì)學(xué)理論創(chuàng)新
傳統(tǒng)統(tǒng)計(jì)學(xué)主要針對總體抽樣進(jìn)行數(shù)據(jù)收集,并整理,分析和描述樣本數(shù)據(jù),從而對所測對象的總體本質(zhì)進(jìn)行推斷,其所采用的樣本抽取的方式已無法適應(yīng)目前大數(shù)據(jù)的特點(diǎn),因此對統(tǒng)計(jì)學(xué)理論提出了新的要求和挑戰(zhàn),需要統(tǒng)計(jì)學(xué)對大樣本標(biāo)準(zhǔn)、選取形式、樣本先取標(biāo)準(zhǔn)進(jìn)行調(diào)整和重新確定,對統(tǒng)計(jì)軟件進(jìn)行開發(fā)和升級,使統(tǒng)計(jì)質(zhì)量提高,成本降低,作用領(lǐng)域擴(kuò)大等得以實(shí)現(xiàn)。
(一)抽樣和總體理論存在價(jià)值
傳統(tǒng)統(tǒng)計(jì)學(xué)從客觀存在的總體進(jìn)行樣本數(shù)據(jù)的提取,對抽樣進(jìn)行觀測,從而通過所得到的數(shù)據(jù)對總體進(jìn)行認(rèn)識,在大數(shù)據(jù)背景下,需要將全部海量數(shù)據(jù)作為一個(gè)高緯度的大樣本集合,按照傳統(tǒng)統(tǒng)計(jì)方式進(jìn)行抽樣,使樣本容量減少,同時(shí)又要達(dá)到所需要的精度,較難實(shí)現(xiàn),同樣對變量進(jìn)行壓縮、降維、選擇、分解等使數(shù)據(jù)復(fù)雜程度降低,也會影響數(shù)據(jù)的精度。在大數(shù)據(jù)中融合了多源泉、多學(xué)科領(lǐng)域、混合數(shù)據(jù),同時(shí)存在著學(xué)科邊界模糊、學(xué)科之間數(shù)據(jù)融合、各范疇數(shù)據(jù)合為一體,互相重疊的特點(diǎn),僅通過傳統(tǒng)統(tǒng)計(jì)學(xué)的抽樣方式,完成對數(shù)據(jù)的統(tǒng)計(jì)和分析是無法實(shí)現(xiàn)的。
在大數(shù)據(jù)背景下,需要對傳統(tǒng)統(tǒng)計(jì)學(xué)中的抽樣理論、樣本以及總體等概念進(jìn)行突破和改進(jìn),是對總體和樣本等概念不再使用或是進(jìn)行重新定義,以及如何對總體,抽樣樣本的定義進(jìn)行修正等問題,都是統(tǒng)計(jì)學(xué)理論需要改進(jìn)和創(chuàng)新的至關(guān)重要的問題。
(二)統(tǒng)計(jì)方法重構(gòu)
利用傳統(tǒng)統(tǒng)計(jì)學(xué)的群體行為、結(jié)構(gòu)描述和高緯度表達(dá)等的分析方法,無法在大數(shù)據(jù)中精準(zhǔn)體和表達(dá)大數(shù)據(jù)的時(shí)效性,異構(gòu)性、突發(fā)性,交互性的特點(diǎn),因此假設(shè)-模型-檢驗(yàn)的統(tǒng)計(jì)方法也需要通過新的理論體系的建立進(jìn)行引導(dǎo),通過新分析模型的建立,對數(shù)據(jù)噪音進(jìn)行有效去除,同時(shí)對有價(jià)值的數(shù)據(jù)進(jìn)行篩選,再將不同類型的數(shù)據(jù)進(jìn)行整合,對數(shù)據(jù)進(jìn)行快速分析,并得到相應(yīng)的分析結(jié)果,這些問題都需要進(jìn)一步研究和解決。
對大數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,會涉及到空間緯度、時(shí)間緯度和數(shù)據(jù)本身的緯度三個(gè)方面,如何更好的對大數(shù)據(jù)的特性和復(fù)雜性進(jìn)行深入全面的分析,對大數(shù)據(jù)的不確定性進(jìn)行準(zhǔn)確掌握,同時(shí)對大數(shù)據(jù)計(jì)算模型進(jìn)行高效構(gòu)建,成為了大數(shù)據(jù)統(tǒng)計(jì)分析的重要和關(guān)鍵突破口。因此統(tǒng)計(jì)學(xué)理論需要不斷的發(fā)展和完善,已適應(yīng)和滿足數(shù)據(jù)量以指數(shù)級增長的大數(shù)據(jù)分析的需要。
(三)統(tǒng)計(jì)結(jié)果評價(jià)框架的構(gòu)建
統(tǒng)計(jì)分析評價(jià)標(biāo)準(zhǔn)在大數(shù)據(jù)背景下也需要進(jìn)行改進(jìn)和創(chuàng)新,對于傳統(tǒng)的有效性評價(jià)和可靠性評價(jià),都是基于抽樣統(tǒng)計(jì)理論基礎(chǔ)產(chǎn)生的。
通過概率方法對樣本對總體把握程度進(jìn)行衡量即是可靠性評價(jià),其評價(jià)水平也存在著一定的爭議性,主要體現(xiàn)在顯著性水平的確定方面,而對于大數(shù)據(jù)而言,已脫離了樣本推斷總體的理論程序,則可靠性、置信水平等如何確定及以什么做為依據(jù)便成為了問題。
通過真實(shí)值和觀察值之間的吻合程度以及抽樣分布的標(biāo)準(zhǔn)差等,來判斷誤差的大小,即真實(shí)性作為有效性評價(jià),通常無法衡量準(zhǔn)確性,同時(shí)精確性也只能就樣本數(shù)據(jù)而言,因此抽樣誤差的計(jì)算和控制可以實(shí)現(xiàn),而非抽樣誤差通常只能通過控制樣本量來實(shí)現(xiàn),樣本量較小的樣本,能夠?qū)Ψ浅闃诱`差予以有效控制和防范。而對大數(shù)據(jù)所具有的特性而言,非抽樣誤差難以控制和防范,準(zhǔn)確性評價(jià)也難以實(shí)現(xiàn)。
在大數(shù)據(jù)視角下,需要對現(xiàn)在的統(tǒng)計(jì)學(xué)理論加強(qiáng)分析,確定針對大數(shù)據(jù)分析,統(tǒng)計(jì)學(xué)理論哪些還有價(jià)值和意義,不適用的有哪些,同時(shí)對需要加以改進(jìn)和創(chuàng)新的理論進(jìn)行研究,使統(tǒng)計(jì)學(xué)理論通過創(chuàng)新能夠更好的適應(yīng)大數(shù)據(jù)的發(fā)展需求。
四、結(jié)束語
隨著科技和經(jīng)濟(jì)建設(shè)的發(fā)展,各個(gè)領(lǐng)域及社會發(fā)展數(shù)據(jù)以指數(shù)級速度增長,也推動了大數(shù)據(jù)時(shí)代的到來,對于傳統(tǒng)技術(shù)和傳統(tǒng)觀念都帶來了極大的影響,統(tǒng)計(jì)學(xué)理論也面臨著改進(jìn)創(chuàng)新的新要求,要求加大對新的統(tǒng)計(jì)方法的研究,對統(tǒng)計(jì)學(xué)應(yīng)用范圍擴(kuò)大,更好地適應(yīng)和滿足大數(shù)據(jù)發(fā)展的需求。
參考文獻(xiàn):
[1]胡云霞. 大數(shù)據(jù)背景下統(tǒng)計(jì)學(xué)教學(xué)改革與創(chuàng)新研究[J]. 現(xiàn)代商貿(mào)工業(yè), 2018, (35).
[2]宋瑞雪, 周晏羽, 黃揚(yáng)藝. 大數(shù)據(jù)環(huán)境下統(tǒng)計(jì)學(xué)改革研究[J]. 四川水泥, 2017,(1).
[3]劉超, 朱長存. 大數(shù)據(jù)時(shí)代經(jīng)濟(jì)統(tǒng)計(jì)學(xué)人才培養(yǎng)模式創(chuàng)新研究——基于Seminar教學(xué)法應(yīng)用的視角[J]. 河北大學(xué)成人教育學(xué)院學(xué)報(bào), 2018, (04).
[4]曹彥林. 應(yīng)用統(tǒng)計(jì)學(xué)在大數(shù)據(jù)背景下的應(yīng)用與創(chuàng)新探討[J]. 納稅, 2018,(4).
[5]陳容, 張敏. 大數(shù)據(jù)時(shí)代下經(jīng)管類專業(yè)統(tǒng)計(jì)學(xué)教學(xué)改革研究[J]. 信息記錄材料, 2019, (01).