次世青 高東宇 次青波
摘 要 近些年來,伴隨著經(jīng)濟社會的迅猛發(fā)展以及網(wǎng)絡信息技術的不斷普及,數(shù)據(jù)信息量正呈現(xiàn)出爆炸式增長。在大數(shù)據(jù)背景下,如何實現(xiàn)數(shù)據(jù)的有效挖掘和分析,提升數(shù)據(jù)分析的質(zhì)量和效率正成為統(tǒng)計學研究的重要內(nèi)容。本文圍繞大數(shù)據(jù)時代下的數(shù)據(jù)分析,介紹了大數(shù)據(jù)的概念,分析了大數(shù)據(jù)環(huán)境下數(shù)據(jù)分析的基本過程,并對大數(shù)據(jù)環(huán)境下對數(shù)據(jù)分析的影響進行了研究。
關鍵詞 大數(shù)據(jù)時代 數(shù)據(jù)分析
一、相關概述
大數(shù)據(jù)環(huán)境下經(jīng)濟社會生活都出現(xiàn)了較大的變化,同時自然科學和人文科學等也都有了較大的提升。在此背景下,依靠計算機信息技術的不斷發(fā)展,研究者能夠使用一定的方法和技能對較為復雜且規(guī)模較大的海量數(shù)據(jù)進行數(shù)據(jù)處理,并有效挖掘其中的價值信息。大數(shù)據(jù)環(huán)境為統(tǒng)計學的研究和發(fā)展提供了好的機遇,同時也對統(tǒng)計學的拓展提出了一定的挑戰(zhàn)。
大數(shù)據(jù)環(huán)境下數(shù)據(jù)在各個行業(yè)和領域中都有所滲透,并逐漸成為主要的生產(chǎn)要素。大數(shù)據(jù)本身具有價值密度低、數(shù)據(jù)體量大、數(shù)據(jù)類型多、數(shù)據(jù)處理速度快的特點。不過由于數(shù)據(jù)量的急速增長,也使得在數(shù)據(jù)分析和研究過程中由于數(shù)據(jù)庫缺少必要的管理工具進行數(shù)據(jù)采集和管理,而導致數(shù)據(jù)搜索、數(shù)據(jù)分析、數(shù)據(jù)存取和數(shù)據(jù)共享等出現(xiàn)一定的困難。一般情況下,在大數(shù)據(jù)環(huán)境下,往往存在著數(shù)據(jù)存儲、處理技術、數(shù)據(jù)安全等相關的技術性問題。這些問題的存在一定程度上影響和制約了數(shù)據(jù)的開發(fā)和應用效率。盡管大數(shù)據(jù)下進行數(shù)據(jù)分析存在一定困難,但是其在實踐中的應用空間和領域卻十分廣泛,對于經(jīng)濟社會的發(fā)展具有重要的推動力。
二、大數(shù)據(jù)環(huán)境下數(shù)據(jù)分析過程分析
(一)數(shù)據(jù)的價值挖掘過程
面對海量的大數(shù)據(jù)環(huán)境,數(shù)據(jù)使用者應當圍繞數(shù)據(jù)分析目標和具體要求對大數(shù)據(jù)進行有效挖掘,提取有用數(shù)據(jù),摒棄無用數(shù)據(jù),從海量數(shù)據(jù)中進行價值挖掘,結(jié)合數(shù)據(jù)類型提升數(shù)據(jù)使用價值。在進行具體的大數(shù)據(jù)挖掘時可以按照具體的案例來進行,比如在進行廣告人群匹配時,在進行數(shù)據(jù)分析和數(shù)據(jù)挖掘上主要是面對著兩種數(shù)據(jù)。一種是廣告庫數(shù)據(jù),主要包含了廣告庫以及廣告的客戶信息等。這種數(shù)據(jù)一般都具有較高的結(jié)構(gòu)性,能夠在傳統(tǒng)的數(shù)據(jù)庫中進行采集和應用、分析。另外一種數(shù)據(jù)是客戶的后期行為數(shù)據(jù)。通過對此兩種數(shù)據(jù)的結(jié)合分析,有效挖掘其中的有效價值。與此同時,在具體的應用實踐過程中,還需要積極發(fā)揮第二種信息的作用和價值,這樣能夠獲得客戶所需的信息。依靠對群體行為和群體智能的分析,最終形成具體的反饋機制和反饋流程,在此基礎上為信息使用者提供優(yōu)質(zhì)可靠的數(shù)據(jù)處理信息,為信息使用者科學決策提供有效的信息和數(shù)據(jù)支持。
(二)數(shù)據(jù)的處理與分析過程
在此過程中,一方面要及時更新抽樣調(diào)查的工作理念。一般情況下,大數(shù)據(jù)的樣本資料都是之前的材料匯總,這就要求在對此數(shù)據(jù)進行分析處理時應當首先對數(shù)據(jù)整體進行梳理和了解,并逐步向數(shù)據(jù)局部進行延伸。同時在對海量數(shù)據(jù)進行分析處理時還應當解決好調(diào)查目標設定不合理、抽樣框架不穩(wěn)定以及樣本數(shù)量受限制等問題。另一方面,也要進一步提升大數(shù)據(jù)環(huán)境下數(shù)據(jù)精確度標準。由于大數(shù)據(jù)環(huán)境下數(shù)據(jù)的來源比較廣,數(shù)據(jù)處理質(zhì)量和效果也各有差異,因此應當在允許數(shù)據(jù)之間存在準確度差異的同時提升數(shù)據(jù)精準度的標準。要在積極吸收各種數(shù)據(jù)資源的基礎上,提升數(shù)據(jù)處理能力和質(zhì)量,科學應對數(shù)據(jù)復雜性和變量關系復雜性等問題。除此之外,也應當圍繞大數(shù)據(jù)中的數(shù)據(jù)分析,對數(shù)據(jù)關系的分析重點進行合理轉(zhuǎn)換。既要重視對數(shù)據(jù)中因果關系的分析和梳理,同時也要重視對事物之間相關性的分析研究,及時轉(zhuǎn)換分析思路,圍繞數(shù)據(jù)分析目標和事物之間關聯(lián)關系進行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)分析工作。
三、大數(shù)據(jù)對統(tǒng)計的影響分析
(一)能夠進一步拓展統(tǒng)計學研究領域
大數(shù)據(jù)環(huán)境對于各個研究領域都能夠產(chǎn)生比較大的影響,對于統(tǒng)計學也是一樣。統(tǒng)計學研究的是客體、客觀事物之間的數(shù)量關系和數(shù)量特征,數(shù)量性是統(tǒng)計學研究對象最為主要的特征。由于在傳統(tǒng)的統(tǒng)計學研究實踐中實驗數(shù)據(jù)和調(diào)查數(shù)據(jù)是最主要的研究數(shù)據(jù),因此在大數(shù)據(jù)環(huán)境下,統(tǒng)計學研究對象既包括了之前的結(jié)構(gòu)化數(shù)據(jù),同時也包括了非結(jié)構(gòu)化數(shù)據(jù),這些非結(jié)構(gòu)化數(shù)據(jù)不能夠單純地依靠數(shù)量關系來加以衡量和表示。這其中就包括了文本、聲音、圖片、動畫等數(shù)據(jù)信息。從這個意義上講,大數(shù)據(jù)環(huán)境下統(tǒng)計學的研究領域有了較大范圍的擴展。
(二)能夠?qū)y(tǒng)計計算的規(guī)范性產(chǎn)生影響
按照傳統(tǒng)的統(tǒng)計學研究方法,在反應事物量的特征時大都是依靠方差、平均值、相對數(shù)等來進行,這些研究方法能夠反映出事物之間的界限和關系,并且也能夠依靠數(shù)據(jù)計算規(guī)范來反映出具體的數(shù)據(jù)。不過在當前的大數(shù)據(jù)環(huán)境下,非結(jié)構(gòu)性數(shù)據(jù)常常難以使用傳統(tǒng)的數(shù)據(jù)計算規(guī)范來加以計算。從這個角度上講,大數(shù)據(jù)環(huán)境下統(tǒng)計的數(shù)據(jù)計算規(guī)范也受到了較大的挑戰(zhàn)。
(三)能夠?qū)y(tǒng)計的數(shù)據(jù)整理和分析過程產(chǎn)生影響
統(tǒng)計學中數(shù)據(jù)審核之前主要是針對數(shù)據(jù)的完整性和準確性。不過在當前的大數(shù)據(jù)環(huán)境下,數(shù)據(jù)審核除了要保障原先的數(shù)據(jù)完整性、準確性外,還應當保證數(shù)據(jù)審核的速度、效率以及數(shù)據(jù)預測的準確性等。除此之外,還應當準確確定數(shù)據(jù)處理的規(guī)模,合理確定數(shù)據(jù)量的級別。盡管大數(shù)據(jù)自身具有混亂性和不穩(wěn)定性的特點,但是使用合理的數(shù)據(jù)整理方法也能夠在大數(shù)據(jù)中有效挖掘出數(shù)據(jù)之間的隱蔽關系,提升數(shù)據(jù)挖掘的價值性。因此,大數(shù)據(jù)下統(tǒng)計研究對象本身具有準確和不準確兩種情況,它們分別具有不同的價值屬性,一般情況下不需要對其進行刪除或者替換。
對于數(shù)據(jù)存儲來講,之前的統(tǒng)計研究數(shù)據(jù)存儲過程中都是將審核、匯總或者編制的表格、圖表等,并將它們進行適當?shù)谋4嫣幚怼2贿^在大數(shù)據(jù)環(huán)境下進行數(shù)據(jù)的保存就還需要重視數(shù)據(jù)存儲成本的管控,并結(jié)合自身實際制定規(guī)章制度和計劃合理確定數(shù)據(jù)存儲的規(guī)模和目錄。
(四)能夠?qū)?shù)據(jù)開發(fā)和利用過程產(chǎn)生影響
這主要涉及大數(shù)據(jù)環(huán)境下數(shù)據(jù)的積累、開發(fā)以及應用。在傳統(tǒng)的數(shù)據(jù)統(tǒng)計工作過程中,研究者都是圍繞自身目標來對相關數(shù)據(jù)進行分類和匯總,通過存儲和提取過程,對數(shù)據(jù)進行有效挖掘,并在此基礎上為后續(xù)的數(shù)據(jù)分析和查詢提供支撐。大數(shù)據(jù)環(huán)境下,數(shù)據(jù)量比較大,只有對數(shù)據(jù)信息進行適當處理才能夠獲得其中價值量比較高的信息。正是基于大數(shù)據(jù)自身的復雜性,統(tǒng)計研究者應當對前期數(shù)據(jù)進行適當處理。圍繞數(shù)據(jù)的規(guī)模和結(jié)構(gòu)、層次等進行合理分類和匯總,在確保真實性的同時提升數(shù)據(jù)的價值性。與此同時,由于大數(shù)據(jù)環(huán)境下數(shù)據(jù)具有流動性特點,使得數(shù)據(jù)本身也具有再生性特征,并進一步增加了數(shù)據(jù)的價值性。因此有必要針對統(tǒng)計研究中的大數(shù)據(jù)進行深入的數(shù)據(jù)挖掘,依靠數(shù)據(jù)整合提升數(shù)據(jù)價值性。在數(shù)據(jù)應用上則主要是針對統(tǒng)計學現(xiàn)象的預測和解釋,實現(xiàn)在大數(shù)據(jù)環(huán)境下數(shù)據(jù)相關關系的預測和分析。
總的來講,大數(shù)據(jù)環(huán)境不僅改變了經(jīng)濟社會生活,也對統(tǒng)計等相關科學產(chǎn)生了巨大的影響,如何實現(xiàn)大數(shù)據(jù)環(huán)境下的統(tǒng)計研究是統(tǒng)計學領域的重要課題。進一步強化對大數(shù)據(jù)的理解和把握,重視大數(shù)據(jù)在統(tǒng)計中的研究和應用,有效分析和挖掘大數(shù)據(jù)中的價值信息,更好地推動統(tǒng)計學的理論和實踐應用。
(次世青、高東宇單位為首都航天機械公司;次青波單位為中國航天標準化研究所)
參考文獻
[1] 田茂再.大數(shù)據(jù)時代統(tǒng)計學重構(gòu)研究中的幾個熱點問題[J].統(tǒng)計研究,2015(05).
[2] 耿直.大數(shù)據(jù)時代統(tǒng)計學面臨的機遇與挑戰(zhàn)[J].統(tǒng)計研究,2014(01).
[3] 朱建平,章貴軍,劉曉葳.大數(shù)據(jù)時代下數(shù)據(jù)分析理念的辨析[J].統(tǒng)計研究,2014(02).