盧荷琴 臺州市統(tǒng)計局
論大數(shù)據(jù)環(huán)境下的統(tǒng)計新思維
盧荷琴 臺州市統(tǒng)計局
隨著全球經(jīng)濟一體化進程的加快,移動互聯(lián)網(wǎng)信息技術(shù)飛速發(fā)展,其中具有巨大價值的大數(shù)據(jù)技術(shù)成為各個公司關注的焦點。這就使得具有同樣核心的以數(shù)據(jù)的收集整理和分析的統(tǒng)計學受到了越來越高的關注。本文以大數(shù)據(jù)的定義和數(shù)據(jù)來源出發(fā),通過分析互聯(lián)網(wǎng)大數(shù)據(jù)的特征,把現(xiàn)代統(tǒng)計學與傳統(tǒng)統(tǒng)計學相對比,在此基礎上對大數(shù)據(jù)分析與傳統(tǒng)統(tǒng)計學的差異進行討論。僅供參考。
大數(shù)據(jù) 統(tǒng)計 新思維
傳統(tǒng)電腦端互聯(lián)網(wǎng)訪問過程中,用戶在訪問門戶網(wǎng)站時產(chǎn)生了訪問量數(shù)據(jù),個人賬號的注冊體現(xiàn)了用戶信息,網(wǎng)絡活動顯示出用戶個人習慣。這些信息就成為了部分的網(wǎng)絡數(shù)據(jù)。手機端移動互聯(lián)網(wǎng)的蓬勃發(fā)展,擴大了互聯(lián)網(wǎng)的覆蓋,使得人們訪問互聯(lián)網(wǎng)的方式更加便捷,這就同時加大了有價值數(shù)據(jù)的產(chǎn)生量。然而這些數(shù)據(jù)的價值也不單單體現(xiàn)的數(shù)據(jù)量的方面,這些數(shù)據(jù)也能夠體現(xiàn)更加豐富多樣的內(nèi)容。大數(shù)據(jù)技術(shù)就是對這些數(shù)據(jù)進行統(tǒng)一的歸納、整理、分析,然后根據(jù)分析的結(jié)果進一步了解市場需求,讓更多企業(yè)在經(jīng)營的過程中能夠很好地掌握經(jīng)營管理的主動權(quán),提升市場競爭能力。對于企業(yè)而言,通過大數(shù)據(jù)技術(shù)能夠更好地了解消費者的需求,生產(chǎn)出符合消費者需求的產(chǎn)品,提升企業(yè)的經(jīng)濟增長。另外,通過大數(shù)據(jù)技術(shù)能夠了解企業(yè)產(chǎn)品給市場帶來的反應,及時的發(fā)現(xiàn)產(chǎn)品中的不足,及時改變產(chǎn)品性能以及企業(yè)的營銷方式,提升企業(yè)對自身的認知。隨著互聯(lián)網(wǎng)應用范圍的不斷擴大,任何使用互聯(lián)網(wǎng)技術(shù)的人都會在使用的過程中留下一些線索,這種線索就會被大數(shù)據(jù)技術(shù)通過收集、處理轉(zhuǎn)化為一種有價值的信息,被企業(yè)獲得并應用,產(chǎn)生巨大的經(jīng)濟價值或者社會價值。為了能夠提升大數(shù)據(jù)技術(shù)的應用,我們應該建立大數(shù)據(jù)環(huán)境下的統(tǒng)計新思維。
傳統(tǒng)的數(shù)據(jù)統(tǒng)計分析要先確定總體,然后再分析總體數(shù)據(jù)中存在的一些規(guī)律或者是反應的一些事情。大數(shù)據(jù)分析方式則完全不同。大數(shù)據(jù)環(huán)境下是先有數(shù)據(jù),再從數(shù)據(jù)中獲得產(chǎn)生數(shù)據(jù)的總體。傳統(tǒng)統(tǒng)計學比較有針對性,都是對已經(jīng)清晰的總體進行數(shù)據(jù)收集,所以研究分析對象都比較明確。然而大數(shù)據(jù)分析方式,針對數(shù)據(jù)進行分析,它包含的數(shù)據(jù)量非常大,針對性不強,沒有明確產(chǎn)生數(shù)據(jù)的總體是什么,個體又是在哪里。對于提取數(shù)據(jù)進行分析的樣本也與傳統(tǒng)統(tǒng)計分析不同。雖然如此我們也需要盡力識別總體的個體身份。這樣才能更好的去對總體和個體的定義方式進行有利思考。
半結(jié)構(gòu)、非結(jié)構(gòu)或異構(gòu)數(shù)據(jù)是大數(shù)據(jù)環(huán)境下的數(shù)據(jù)主要來源。在大數(shù)據(jù)環(huán)境下的統(tǒng)計學研究應將傳統(tǒng)的數(shù)據(jù)定義進行拓展和深化。數(shù)據(jù)概念的深化與拓展的根本目的是實現(xiàn)數(shù)據(jù)的結(jié)構(gòu)化與非結(jié)構(gòu)化對接。雖然大數(shù)據(jù)的定義是超大量的數(shù)據(jù),但是并不能覆蓋所有數(shù)據(jù)。這就使得傳統(tǒng)統(tǒng)計學中的結(jié)構(gòu)化數(shù)據(jù)不能被大數(shù)據(jù)中的非結(jié)構(gòu)化數(shù)據(jù)所替代。這將是一個長期兩種數(shù)據(jù)長期并存的狀態(tài)。大數(shù)據(jù)的應用,使得信息的收集、存儲和分解變得更加便捷且分析能力也大大加強,速度也大大加快。但是由于各種因素所制約,一些結(jié)構(gòu)化數(shù)據(jù)不能依賴于大數(shù)據(jù)收集,而是需要通過特定的方式去收集。因此在大數(shù)據(jù)環(huán)境下,我們應該應用統(tǒng)計新思維,強化大數(shù)據(jù)技術(shù)應用過程中的針對性,保證大數(shù)據(jù)技術(shù)能夠得到有效的應用,發(fā)現(xiàn)更多隱藏的信息,保證大數(shù)據(jù)環(huán)境下統(tǒng)計結(jié)果更加符合信息需求者的要求。在大數(shù)據(jù)環(huán)境下,在進行數(shù)據(jù)分析的過程中,我們應該不斷地結(jié)合結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化的特征來進行數(shù)據(jù)分析,保證分析的結(jié)果更加準確、及時,讓數(shù)據(jù)統(tǒng)計更好地發(fā)揮其自身的作用,為信息需求者提供更加有用的信息。
傳統(tǒng)統(tǒng)計學中隨機抽樣方法的應用雖然取得了成功,但是因為受條件所限,是在不能將數(shù)據(jù)全部收集和分析的情況下所選擇的一條捷徑。此方法的成功取決于采樣的絕對隨機性,但是往往絕對隨機性的確保是非常困難的,一旦采樣過程中出現(xiàn)任何差異,分析結(jié)果的正確性就會出現(xiàn)偏差。所以隨機抽樣方法先天就存在許多固有的缺陷。大數(shù)據(jù)的出現(xiàn)就可以有效的解決以往數(shù)據(jù)收集方面的問題,但是現(xiàn)階段在互聯(lián)網(wǎng)與物聯(lián)網(wǎng)不能實現(xiàn)全覆蓋的情況下,并不能拋棄傳統(tǒng)數(shù)據(jù)統(tǒng)計分析方式方法。應當取二者優(yōu)勢進行互補,才能充分發(fā)揮出大數(shù)據(jù)時代下數(shù)據(jù)分析研究的最大工作優(yōu)勢。
大于等于兩個變量的分析樣本所體現(xiàn)出的隨機數(shù)學關系被稱之為相關關系。它是一種存在于隨機變量中的特殊關系。諸多觀點認為,在大數(shù)據(jù)時代我們只需要知道數(shù)據(jù)體現(xiàn)出的是什么,有什么數(shù)據(jù)意義,并不需要知道數(shù)據(jù)從哪里來。但是,在許多數(shù)據(jù)應用領域僅僅研究數(shù)據(jù)所體現(xiàn)出來的意義是不夠的,還必須要知道數(shù)據(jù)是怎么產(chǎn)生的。只有做到了了解數(shù)據(jù)產(chǎn)生的前因后果,才能更全面的進行數(shù)據(jù)分析。因此在大數(shù)據(jù)環(huán)境下,統(tǒng)計過程中應該擁有新的思維,保證相關分析的同時還要加強因果分析,只有這兩個分析同時并重,才能保證信息數(shù)據(jù)統(tǒng)計結(jié)果的穩(wěn)定性以及準確信,幫助信息需求者通過數(shù)據(jù)統(tǒng)計創(chuàng)造更多的價值。
隨著互聯(lián)網(wǎng)的發(fā)展和計算機處理數(shù)據(jù)能力的增強,以及數(shù)據(jù)存儲器價格的降低,以往數(shù)據(jù)量龐大的諸如天文學、氣象學等領域的數(shù)據(jù)得以存儲與分析,是以大數(shù)據(jù)分析方式開始逐漸被應用。傳統(tǒng)統(tǒng)計學是圍繞數(shù)據(jù)進行分析,大數(shù)據(jù)分析也是圍繞數(shù)據(jù)進行分析。所以依據(jù)兩者有著相同的分析對象,得出兩者也必然存在聯(lián)系。所以大數(shù)據(jù)時代的降臨是對統(tǒng)計學的挑戰(zhàn)也是統(tǒng)計學機遇,所以,大數(shù)據(jù)時代中統(tǒng)計學應適應潮流,結(jié)合大數(shù)據(jù)便利努力創(chuàng)新建立新思維。
[1] 李金昌.大數(shù)據(jù)與統(tǒng)計新思維[J].統(tǒng)計研究,2014,31(1):10-17.
[2] 耿直.大數(shù)據(jù)時代統(tǒng)計學面臨的機遇與挑戰(zhàn)[J].統(tǒng)計研究,2014,31(1):5-9.
[3] 梁吉業(yè),馮晨嬌,宋鵬.大數(shù)據(jù)相關分析綜述[J].計算機學報,2016,39(1):1-18.