賈堯
摘要:大數(shù)據(jù)時(shí)代給很多行業(yè)帶來新的可能性,傳統(tǒng)的小數(shù)據(jù)研究慢慢不受重視。雖然大數(shù)據(jù)有諸多優(yōu)勢,但也無法取代抽樣調(diào)查和實(shí)驗(yàn)研究等小數(shù)據(jù)研究在行業(yè)里所占據(jù)的地位。因此,本文通過對大數(shù)據(jù)、小數(shù)據(jù)概念和特點(diǎn)的分析,而后分析大數(shù)據(jù)與傳統(tǒng)意義上的小數(shù)據(jù)的異同。
關(guān)鍵詞:大數(shù)據(jù);小數(shù)據(jù);基本概念;異同比較;特點(diǎn)
1. 引言
大數(shù)據(jù)是用來指數(shù)據(jù)集太大或太復(fù)雜,而不是傳統(tǒng)的數(shù)據(jù)處理應(yīng)用軟件充分處理有許多情況(行)的數(shù)據(jù)提供了更多的統(tǒng)計(jì)功率,而具有較高復(fù)雜性(更多屬性或列)的數(shù)據(jù)可能會導(dǎo)致更高的錯(cuò)誤發(fā)現(xiàn)率.大數(shù)據(jù)挑戰(zhàn)包括捕獲數(shù)據(jù),數(shù)據(jù)存儲,數(shù)據(jù)分析搜索,共享,轉(zhuǎn)移,可視化,查詢,更新,信息隱私和數(shù)據(jù)源。小數(shù)據(jù)是“小”到足以讓人理解的數(shù)據(jù)。這是一個(gè)卷和格式的數(shù)據(jù),使它可以訪問,信息和行動。
2. 特點(diǎn)分析
(1)同質(zhì)性與異質(zhì)性
“小數(shù)據(jù)”的哲學(xué)基礎(chǔ)是同質(zhì)性,實(shí)踐方法是“還原論”,試圖通過發(fā)掘事物內(nèi)在統(tǒng)一性而達(dá)成共識。在事物同質(zhì)性假設(shè)的基礎(chǔ)上,“小數(shù)據(jù)”對事物進(jìn)行抽象化提取,通過層層假設(shè)剝離事物的個(gè)性,并最終通過數(shù)學(xué)建模完成對事物的科學(xué)化認(rèn)知。同質(zhì)性是我們認(rèn)知世界的一個(gè)重要方式,“小數(shù)據(jù)”只是為人類提供了認(rèn)識同質(zhì)性的工具,卻沒有提供洞察異質(zhì)性的工具;“大數(shù)據(jù)”既能洞察事物的同質(zhì)性,又能洞察事物的異質(zhì)性。
(2)結(jié)構(gòu)化與非結(jié)構(gòu)化
“小數(shù)據(jù)”是以“人力為主,機(jī)器為輔”的運(yùn)行模式,在數(shù)據(jù)的采集、存儲、傳輸和處理中大量地依賴人力資源;“大數(shù)據(jù)”恰好相反,計(jì)算機(jī)等各類數(shù)據(jù)設(shè)備成為數(shù)據(jù)采集、存儲、傳輸和處理的主體,人力只在模型設(shè)計(jì)、參數(shù)設(shè)置、編輯矯正等環(huán)節(jié)發(fā)揮作用?!按髷?shù)據(jù)”能夠處理的數(shù)據(jù)來源更加廣泛,不僅包括結(jié)構(gòu)化數(shù)據(jù),而且包括只有機(jī)器方能處理的非結(jié)構(gòu)化數(shù)據(jù)。
(3)局部與整體
“小數(shù)據(jù)”建立的基礎(chǔ)是抽樣調(diào)查技術(shù),通過選擇具有“代表性”的局部樣本來洞察整體樣本。抽樣樣本的“代表性”的科學(xué)化問題是“小數(shù)據(jù)”的關(guān)鍵所在。圍繞著“代表性”的科學(xué)化問題,統(tǒng)計(jì)學(xué)不斷完善其抽樣技術(shù),推出了一系列數(shù)據(jù)抽樣和處理技術(shù)?!按髷?shù)據(jù)”建立的基礎(chǔ)是全樣本調(diào)查技術(shù),不再用局部去“代表”整體,讓整體中的每個(gè)成員“代表”自己?!按髷?shù)據(jù)”克服了統(tǒng)計(jì)學(xué)的拘囿,不再糾結(jié)于局部樣本的“代表性”。在小數(shù)據(jù)時(shí)代,需要對參與人員進(jìn)行嚴(yán)格的標(biāo)準(zhǔn)化處理,避免參與人員的主觀性影響調(diào)查結(jié)果,但是大數(shù)據(jù)的全樣本調(diào)查技術(shù),擺脫了參與人員的主觀性對抽樣所帶來的負(fù)面影響。
(4)靜態(tài)與動態(tài)
“小數(shù)據(jù)”是靜態(tài)性數(shù)據(jù),只是抽取了“時(shí)間軸”上的某個(gè)片段,再加上從數(shù)據(jù)采集、存儲、傳輸?shù)教幚砩系闹芷谛?,這使得“小數(shù)據(jù)”具有典型的延時(shí)性特征,不能實(shí)時(shí)反映事物發(fā)展的動態(tài)性?!靶?shù)據(jù)”為了克服靜態(tài)性的不足,采取了跟蹤調(diào)查、事前調(diào)查、事中調(diào)查、事后調(diào)查等補(bǔ)償性手段,但這些手段的周期性,使其依然難以反映實(shí)時(shí)性動態(tài)。“大數(shù)據(jù)”是動態(tài)性數(shù)據(jù),通過移動互聯(lián)網(wǎng)技術(shù)、物聯(lián)網(wǎng)技術(shù)及人性交互技術(shù)等數(shù)據(jù)技術(shù)可以對調(diào)查對象全程追蹤,主動抓取實(shí)時(shí)數(shù)據(jù)?!按髷?shù)據(jù)”能夠即時(shí)洞察事物發(fā)展的延續(xù)性和斷裂性,這克服了小數(shù)據(jù)“事后諸葛亮”的尷尬。
(5)描述性與預(yù)測性
“小數(shù)據(jù)”具有局部性、靜態(tài)性、單維性、非場景化和規(guī)模性等特征,在數(shù)據(jù)采集、存儲、傳輸和處理過程中,損耗了大量的細(xì)節(jié)數(shù)據(jù),只是對各類事物的高度抽象性概括,因此,“小數(shù)據(jù)”難以從全局把握事物的變動性,在使用方式上多被用來進(jìn)行描述性研究,而解釋性和預(yù)測性卻相對不足?!按髷?shù)據(jù)”具有整體性、動態(tài)性、多維性、場景化和長尾性等特征,能夠?qū)κ挛锛捌渲苓叚h(huán)境進(jìn)行空間性和歷時(shí)性洞察,“見微知著”,因此,“大數(shù)據(jù)”不僅在描述性上更優(yōu)于“小數(shù)據(jù)”,而且能夠在解釋性和預(yù)測性方面更準(zhǔn)確。
3. 對比分析
首先,從數(shù)據(jù)的規(guī)?;蛄縼砜?,大數(shù)據(jù)體量巨大,規(guī)模已經(jīng)超出了在常規(guī)方法和時(shí)間內(nèi)搜集、利用、管理和處理數(shù)據(jù)的能力,體量是PB量級的。小數(shù)據(jù)相對來說小得多,傳統(tǒng)社會下生產(chǎn)的統(tǒng)計(jì)數(shù)據(jù)可以看作是小數(shù)據(jù)。
其次,從數(shù)據(jù)形態(tài)來看,傳統(tǒng)的數(shù)據(jù)通常是結(jié)構(gòu)化數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù)(行數(shù)據(jù))是指存儲在數(shù)據(jù)庫里的,大數(shù)據(jù)則是混合形態(tài)的數(shù)據(jù)。在大數(shù)據(jù)中,多數(shù)是非結(jié)構(gòu)化的數(shù)據(jù)。
第三,小數(shù)據(jù)是目標(biāo)導(dǎo)向數(shù)據(jù),價(jià)值密度較高。小數(shù)據(jù)有非常明確的目的,有非常明確的價(jià)值。大數(shù)據(jù)則是記錄導(dǎo)向的,價(jià)值密度低,僅僅是為記錄數(shù)據(jù),并不是首先就有為了得到或解釋某個(gè)特定事件的具體目的。
第四,大數(shù)據(jù)即時(shí)產(chǎn)生,隨時(shí)可用。小數(shù)據(jù)生產(chǎn)的時(shí)間長,從測量到可用,需要相當(dāng)長的時(shí)間;而大數(shù)據(jù)是即時(shí)產(chǎn)生的,大數(shù)據(jù)的獲取省略了抽樣設(shè)計(jì)環(huán)節(jié),基本不介入調(diào)查對象的行為,始終以觀察者的角色出現(xiàn),直接對整體進(jìn)行分析。
第五,從數(shù)據(jù)占有情況來看,在傳統(tǒng)社會里的小數(shù)據(jù)擁有的主體是政府(包括政府統(tǒng)計(jì)部門和各專業(yè)部門)、企業(yè)、民間調(diào)查機(jī)構(gòu)、科研機(jī)構(gòu)等。而大數(shù)據(jù)則主要掌握在互聯(lián)網(wǎng)公司手中,目前我國國內(nèi)互聯(lián)網(wǎng)三巨頭BAT(百度、阿里、騰訊),數(shù)據(jù)私有化將成為一種趨勢。而對大數(shù)據(jù)的開發(fā)利用,也只有具有技術(shù)能力的網(wǎng)絡(luò)公司才能做到,通過網(wǎng)絡(luò)爬蟲在網(wǎng)絡(luò)上抓取數(shù)據(jù),然后經(jīng)過數(shù)據(jù)清洗,進(jìn)行數(shù)據(jù)挖掘分析。不具備大數(shù)據(jù)挖掘利用能力的一般個(gè)人或者企業(yè)、機(jī)構(gòu),通過向這些公司付費(fèi)后購買數(shù)據(jù)和服務(wù),這就是我們?nèi)找媸煜さ脑朴?jì)算、云平臺、云服務(wù);未來的地方政府或許將不得不向私營部門購買數(shù)據(jù)。
4. 結(jié)語
本文通過對大數(shù)據(jù)和小數(shù)據(jù)的概念分析和特點(diǎn)分析,發(fā)現(xiàn)大數(shù)據(jù)和小數(shù)據(jù)在不同的領(lǐng)域發(fā)揮著各自的優(yōu)勢,而后對兩者進(jìn)行對比分析,發(fā)現(xiàn)大數(shù)據(jù)和小數(shù)據(jù)在數(shù)據(jù)規(guī)模、數(shù)據(jù)形態(tài)、目標(biāo)導(dǎo)向、產(chǎn)生時(shí)間和占有數(shù)據(jù)情況上都有各自的特別。
參考文獻(xiàn)
[1]秦蕭,甄峰.大數(shù)據(jù)與小數(shù)據(jù)結(jié)合:信息時(shí)代城市研究方法探討[J].地理科學(xué),2017, 37(03):321-330.
[2]唐文方.大數(shù)據(jù)與小數(shù)據(jù):社會科學(xué)研究方法的探討[J].中山大學(xué)學(xué)報(bào)(社會科學(xué)版),2015, 55(06):141-146.
[3]徐立軍.數(shù)據(jù)時(shí)代的未來? 大數(shù)據(jù)與小數(shù)據(jù)融合的價(jià)值與路徑[J].新聞與寫作,2015 (11):11-15.
[4]王浩. 大數(shù)據(jù)時(shí)代下的思維方式變革[D].東華大學(xué),2015.
[5]郭新平,黃貽俊.淺析大數(shù)據(jù)時(shí)代的小數(shù)據(jù)[J].現(xiàn)代經(jīng)濟(jì)信息,2014(20):149.
[6]黃欣榮.大數(shù)據(jù)技術(shù)對科學(xué)方法論的革命[J].江南大學(xué)學(xué)報(bào)(人文社會科學(xué)版),2014,13 (02):28-33.
[7]王成文.數(shù)據(jù)力:“大數(shù)據(jù)”PK“小數(shù)據(jù)”[J].中國傳媒科技,2013(19):68-70.