次世青 高東宇 次青波
大數(shù)據(jù)時代下數(shù)據(jù)分析理念框架探討
次世青 高東宇 次青波
近些年來,伴隨著經(jīng)濟(jì)社會的迅猛發(fā)展以及網(wǎng)絡(luò)信息技術(shù)的不斷普及,數(shù)據(jù)信息量正呈現(xiàn)出爆炸式增長。在大數(shù)據(jù)背景下,如何實現(xiàn)數(shù)據(jù)的有效挖掘和分析,提升數(shù)據(jù)分析的質(zhì)量和效率正成為統(tǒng)計學(xué)研究的重要內(nèi)容。本文圍繞大數(shù)據(jù)時代下的數(shù)據(jù)分析,介紹了大數(shù)據(jù)的概念,分析了大數(shù)據(jù)環(huán)境下數(shù)據(jù)分析的基本過程,并對大數(shù)據(jù)環(huán)境下對數(shù)據(jù)分析的影響進(jìn)行了研究。
大數(shù)據(jù)時代 數(shù)據(jù)分析
大數(shù)據(jù)環(huán)境下經(jīng)濟(jì)社會生活都出現(xiàn)了較大的變化,同時自然科學(xué)和人文科學(xué)等也都有了較大的提升。在此背景下,依靠計算機(jī)信息技術(shù)的不斷發(fā)展,研究者能夠使用一定的方法和技能對較為復(fù)雜且規(guī)模較大的海量數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,并有效挖掘其中的價值信息。大數(shù)據(jù)環(huán)境為統(tǒng)計學(xué)的研究和發(fā)展提供了好的機(jī)遇,同時也對統(tǒng)計學(xué)的拓展提出了一定的挑戰(zhàn)。
大數(shù)據(jù)環(huán)境下數(shù)據(jù)在各個行業(yè)和領(lǐng)域中都有所滲透,并逐漸成為主要的生產(chǎn)要素。大數(shù)據(jù)本身具有價值密度低、數(shù)據(jù)體量大、數(shù)據(jù)類型多、數(shù)據(jù)處理速度快的特點。不過由于數(shù)據(jù)量的急速增長,也使得在數(shù)據(jù)分析和研究過程中由于數(shù)據(jù)庫缺少必要的管理工具進(jìn)行數(shù)據(jù)采集和管理,而導(dǎo)致數(shù)據(jù)搜索、數(shù)據(jù)分析、數(shù)據(jù)存取和數(shù)據(jù)共享等出現(xiàn)一定的困難。一般情況下,在大數(shù)據(jù)環(huán)境下,往往存在著數(shù)據(jù)存儲、處理技術(shù)、數(shù)據(jù)安全等相關(guān)的技術(shù)性問題。這些問題的存在一定程度上影響和制約了數(shù)據(jù)的開發(fā)和應(yīng)用效率。盡管大數(shù)據(jù)下進(jìn)行數(shù)據(jù)分析存在一定困難,但是其在實踐中的應(yīng)用空間和領(lǐng)域卻十分廣泛,對于經(jīng)濟(jì)社會的發(fā)展具有重要的推動力。
(一)數(shù)據(jù)的價值挖掘過程
面對海量的大數(shù)據(jù)環(huán)境,數(shù)據(jù)使用者應(yīng)當(dāng)圍繞數(shù)據(jù)分析目標(biāo)和具體要求對大數(shù)據(jù)進(jìn)行有效挖掘,提取有用數(shù)據(jù),摒棄無用數(shù)據(jù),從海量數(shù)據(jù)中進(jìn)行價值挖掘,結(jié)合數(shù)據(jù)類型提升數(shù)據(jù)使用價值。在進(jìn)行具體的大數(shù)據(jù)挖掘時可以按照具體的案例來進(jìn)行,比如在進(jìn)行廣告人群匹配時,在進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)挖掘上主要是面對著兩種數(shù)據(jù)。一種是廣告庫數(shù)據(jù),主要包含了廣告庫以及廣告的客戶信息等。這種數(shù)據(jù)一般都具有較高的結(jié)構(gòu)性,能夠在傳統(tǒng)的數(shù)據(jù)庫中進(jìn)行采集和應(yīng)用、分析。另外一種數(shù)據(jù)是客戶的后期行為數(shù)據(jù)。通過對此兩種數(shù)據(jù)的結(jié)合分析,有效挖掘其中的有效價值。與此同時,在具體的應(yīng)用實踐過程中,還需要積極發(fā)揮第二種信息的作用和價值,這樣能夠獲得客戶所需的信息。依靠對群體行為和群體智能的分析,最終形成具體的反饋機(jī)制和反饋流程,在此基礎(chǔ)上為信息使用者提供優(yōu)質(zhì)可靠的數(shù)據(jù)處理信息,為信息使用者科學(xué)決策提供有效的信息和數(shù)據(jù)支持。
(二)數(shù)據(jù)的處理與分析過程
在此過程中,一方面要及時更新抽樣調(diào)查的工作理念。一般情況下,大數(shù)據(jù)的樣本資料都是之前的材料匯總,這就要求在對此數(shù)據(jù)進(jìn)行分析處理時應(yīng)當(dāng)首先對數(shù)據(jù)整體進(jìn)行梳理和了解,并逐步向數(shù)據(jù)局部進(jìn)行延伸。同時在對海量數(shù)據(jù)進(jìn)行分析處理時還應(yīng)當(dāng)解決好調(diào)查目標(biāo)設(shè)定不合理、抽樣框架不穩(wěn)定以及樣本數(shù)量受限制等問題。另一方面,也要進(jìn)一步提升大數(shù)據(jù)環(huán)境下數(shù)據(jù)精確度標(biāo)準(zhǔn)。由于大數(shù)據(jù)環(huán)境下數(shù)據(jù)的來源比較廣,數(shù)據(jù)處理質(zhì)量和效果也各有差異,因此應(yīng)當(dāng)在允許數(shù)據(jù)之間存在準(zhǔn)確度差異的同時提升數(shù)據(jù)精準(zhǔn)度的標(biāo)準(zhǔn)。要在積極吸收各種數(shù)據(jù)資源的基礎(chǔ)上,提升數(shù)據(jù)處理能力和質(zhì)量,科學(xué)應(yīng)對數(shù)據(jù)復(fù)雜性和變量關(guān)系復(fù)雜性等問題。除此之外,也應(yīng)當(dāng)圍繞大數(shù)據(jù)中的數(shù)據(jù)分析,對數(shù)據(jù)關(guān)系的分析重點進(jìn)行合理轉(zhuǎn)換。既要重視對數(shù)據(jù)中因果關(guān)系的分析和梳理,同時也要重視對事物之間相關(guān)性的分析研究,及時轉(zhuǎn)換分析思路,圍繞數(shù)據(jù)分析目標(biāo)和事物之間關(guān)聯(lián)關(guān)系進(jìn)行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)分析工作。
(一)能夠進(jìn)一步拓展統(tǒng)計學(xué)研究領(lǐng)域
大數(shù)據(jù)環(huán)境對于各個研究領(lǐng)域都能夠產(chǎn)生比較大的影響,對于統(tǒng)計學(xué)也是一樣。統(tǒng)計學(xué)研究的是客體、客觀事物之間的數(shù)量關(guān)系和數(shù)量特征,數(shù)量性是統(tǒng)計學(xué)研究對象最為主要的特征。由于在傳統(tǒng)的統(tǒng)計學(xué)研究實踐中實驗數(shù)據(jù)和調(diào)查數(shù)據(jù)是最主要的研究數(shù)據(jù),因此在大數(shù)據(jù)環(huán)境下,統(tǒng)計學(xué)研究對象既包括了之前的結(jié)構(gòu)化數(shù)據(jù),同時也包括了非結(jié)構(gòu)化數(shù)據(jù),這些非結(jié)構(gòu)化數(shù)據(jù)不能夠單純地依靠數(shù)量關(guān)系來加以衡量和表示。這其中就包括了文本、聲音、圖片、動畫等數(shù)據(jù)信息。從這個意義上講,大數(shù)據(jù)環(huán)境下統(tǒng)計學(xué)的研究領(lǐng)域有了較大范圍的擴(kuò)展。
(二)能夠?qū)y(tǒng)計計算的規(guī)范性產(chǎn)生影響
按照傳統(tǒng)的統(tǒng)計學(xué)研究方法,在反應(yīng)事物量的特征時大都是依靠方差、平均值、相對數(shù)等來進(jìn)行,這些研究方法能夠反映出事物之間的界限和關(guān)系,并且也能夠依靠數(shù)據(jù)計算規(guī)范來反映出具體的數(shù)據(jù)。不過在當(dāng)前的大數(shù)據(jù)環(huán)境下,非結(jié)構(gòu)性數(shù)據(jù)常常難以使用傳統(tǒng)的數(shù)據(jù)計算規(guī)范來加以計算。從這個角度上講,大數(shù)據(jù)環(huán)境下統(tǒng)計的數(shù)據(jù)計算規(guī)范也受到了較大的挑戰(zhàn)。
(三)能夠?qū)y(tǒng)計的數(shù)據(jù)整理和分析過程產(chǎn)生影響
統(tǒng)計學(xué)中數(shù)據(jù)審核之前主要是針對數(shù)據(jù)的完整性和準(zhǔn)確性。不過在當(dāng)前的大數(shù)據(jù)環(huán)境下,數(shù)據(jù)審核除了要保障原先的數(shù)據(jù)完整性、準(zhǔn)確性外,還應(yīng)當(dāng)保證數(shù)據(jù)審核的速度、效率以及數(shù)據(jù)預(yù)測的準(zhǔn)確性等。除此之外,還應(yīng)當(dāng)準(zhǔn)確確定數(shù)據(jù)處理的規(guī)模,合理確定數(shù)據(jù)量的級別。盡管大數(shù)據(jù)自身具有混亂性和不穩(wěn)定性的特點,但是使用合理的數(shù)據(jù)整理方法也能夠在大數(shù)據(jù)中有效挖掘出數(shù)據(jù)之間的隱蔽關(guān)系,提升數(shù)據(jù)挖掘的價值性。因此,大數(shù)據(jù)下統(tǒng)計研究對象本身具有準(zhǔn)確和不準(zhǔn)確兩種情況,它們分別具有不同的價值屬性,一般情況下不需要對其進(jìn)行刪除或者替換。
對于數(shù)據(jù)存儲來講,之前的統(tǒng)計研究數(shù)據(jù)存儲過程中都是將審核、匯總或者編制的表格、圖表等,并將它們進(jìn)行適當(dāng)?shù)谋4嫣幚?。不過在大數(shù)據(jù)環(huán)境下進(jìn)行數(shù)據(jù)的保存就還需要重視數(shù)據(jù)存儲成本的管控,并結(jié)合自身實際制定規(guī)章制度和計劃合理確定數(shù)據(jù)存儲的規(guī)模和目錄。
(四)能夠?qū)?shù)據(jù)開發(fā)和利用過程產(chǎn)生影響
這主要涉及大數(shù)據(jù)環(huán)境下數(shù)據(jù)的積累、開發(fā)以及應(yīng)用。在傳統(tǒng)的數(shù)據(jù)統(tǒng)計工作過程中,研究者都是圍繞自身目標(biāo)來對相關(guān)數(shù)據(jù)進(jìn)行分類和匯總,通過存儲和提取過程,對數(shù)據(jù)進(jìn)行有效挖掘,并在此基礎(chǔ)上為后續(xù)的數(shù)據(jù)分析和查詢提供支撐。大數(shù)據(jù)環(huán)境下,數(shù)據(jù)量比較大,只有對數(shù)據(jù)信息進(jìn)行適當(dāng)處理才能夠獲得其中價值量比較高的信息。正是基于大數(shù)據(jù)自身的復(fù)雜性,統(tǒng)計研究者應(yīng)當(dāng)對前期數(shù)據(jù)進(jìn)行適當(dāng)處理。圍繞數(shù)據(jù)的規(guī)模和結(jié)構(gòu)、層次等進(jìn)行合理分類和匯總,在確保真實性的同時提升數(shù)據(jù)的價值性。與此同時,由于大數(shù)據(jù)環(huán)境下數(shù)據(jù)具有流動性特點,使得數(shù)據(jù)本身也具有再生性特征,并進(jìn)一步增加了數(shù)據(jù)的價值性。因此有必要針對統(tǒng)計研究中的大數(shù)據(jù)進(jìn)行深入的數(shù)據(jù)挖掘,依靠數(shù)據(jù)整合提升數(shù)據(jù)價值性。在數(shù)據(jù)應(yīng)用上則主要是針對統(tǒng)計學(xué)現(xiàn)象的預(yù)測和解釋,實現(xiàn)在大數(shù)據(jù)環(huán)境下數(shù)據(jù)相關(guān)關(guān)系的預(yù)測和分析。
總的來講,大數(shù)據(jù)環(huán)境不僅改變了經(jīng)濟(jì)社會生活,也對統(tǒng)計等相關(guān)科學(xué)產(chǎn)生了巨大的影響,如何實現(xiàn)大數(shù)據(jù)環(huán)境下的統(tǒng)計研究是統(tǒng)計學(xué)領(lǐng)域的重要課題。進(jìn)一步強(qiáng)化對大數(shù)據(jù)的理解和把握,重視大數(shù)據(jù)在統(tǒng)計中的研究和應(yīng)用,有效分析和挖掘大數(shù)據(jù)中的價值信息,更好地推動統(tǒng)計學(xué)的理論和實踐應(yīng)用。
(次世青、高東宇單位為首都航天機(jī)械公司;次青波單位為中國航天標(biāo)準(zhǔn)化研究所)
[1] 田茂再.大數(shù)據(jù)時代統(tǒng)計學(xué)重構(gòu)研究中的幾個熱點問題[J].統(tǒng)計研究,2015(05).
[2] 耿直.大數(shù)據(jù)時代統(tǒng)計學(xué)面臨的機(jī)遇與挑戰(zhàn)[J].統(tǒng)計研究,2014(01).
[3] 朱建平,章貴軍,劉曉葳.大數(shù)據(jù)時代下數(shù)據(jù)分析理念的辨析[J].統(tǒng)計研究,2014(02).