杜泇儀
在這個(gè)大數(shù)據(jù)占主導(dǎo)的時(shí)代,數(shù)據(jù)逐漸進(jìn)入了人們的視野并且逐步發(fā)揮著越來(lái)越重要的作用。如何合理利用大數(shù)據(jù)解決實(shí)際問(wèn)題,并做出科學(xué)有效的決策成為了當(dāng)今社會(huì)各行各業(yè)廣泛關(guān)注的問(wèn)題??茖W(xué)技術(shù)的發(fā)展與普及使得信息數(shù)據(jù)在社會(huì)發(fā)展過(guò)程中的各個(gè)方面都大展拳腳。而在數(shù)據(jù)處理和分析方法方面,統(tǒng)計(jì)學(xué)的相關(guān)知識(shí)一直是理論的主力和中心,這些方法協(xié)助人們從雜亂無(wú)章的數(shù)據(jù)中挖掘有價(jià)值的信息,并為其相關(guān)決策提供理論支撐和方法支持。但是,隨著處理數(shù)據(jù)的數(shù)量逐漸龐大,傳統(tǒng)的理論方法在面對(duì)大量數(shù)據(jù)時(shí)遇到了瓶頸,向我們暴露了了較多的不足。傳統(tǒng)統(tǒng)計(jì)方法和分析軟件無(wú)法處理大規(guī)模的數(shù)據(jù)。如果人們要緊隨大數(shù)據(jù)的潮流,利用相關(guān)的科技更好的收集和處理信息,首先要對(duì)原有的統(tǒng)計(jì)學(xué)方法進(jìn)行改進(jìn),使其與大數(shù)據(jù)所需要的處理方法更加的貼合。
首先需要明確的是大數(shù)據(jù)的定義,根據(jù)維基百科上對(duì)于大數(shù)據(jù)的定義:大數(shù)據(jù)指的是那些因?yàn)閿?shù)據(jù)過(guò)于復(fù)雜和龐大從而傳統(tǒng)軟件分析方法不足以應(yīng)對(duì)的數(shù)據(jù)群,主要技術(shù)模塊包括數(shù)據(jù)的獲取,數(shù)據(jù)的儲(chǔ)存和數(shù)據(jù)的分析,搜尋,轉(zhuǎn)移,可視化,排列等??偟膩?lái)說(shuō),大數(shù)據(jù)的特征可以概括為是數(shù)據(jù)量大,數(shù)據(jù)流動(dòng)性大: 例如現(xiàn)在熱門(mén)的各種軟件如snapchat,微博和知乎。再者就是數(shù)據(jù)種類(lèi)多,有豐富的多樣性,包括結(jié)構(gòu)化數(shù)據(jù),也有其他類(lèi)型的非結(jié)構(gòu)數(shù)據(jù)。最后是數(shù)據(jù)價(jià)值大,這些大規(guī)模數(shù)據(jù)可以為企業(yè)或組織創(chuàng)造出巨大的商業(yè)或社會(huì)價(jià)值。大數(shù)據(jù)的方法最主要的包括:Analytic Visualizations(可視化分析):數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本的要求??梢暬梢灾庇^的展示數(shù)據(jù),讓數(shù)據(jù)自己說(shuō)話,讓觀眾聽(tīng)到結(jié)果。Data Mining Algorithms(數(shù)據(jù)挖掘算法):可視化是給人看的,而數(shù)據(jù)挖掘是給機(jī)器展示。集群、分割等算法讓我們深入數(shù)據(jù)內(nèi)部,挖掘價(jià)值。Predictive Analytic Capabilities(預(yù)測(cè)性分析能力):數(shù)據(jù)挖掘可以讓分析員更好的理解數(shù)據(jù),而預(yù)測(cè)性分析則可以讓分析員根據(jù)可視化分析和數(shù)據(jù)挖掘的結(jié)果做出一些預(yù)測(cè)性的判斷。Semantic Engines(語(yǔ)義引擎):由于非結(jié)構(gòu)化數(shù)據(jù)的多樣性帶來(lái)了數(shù)據(jù)分析的新的挑戰(zhàn),需要一系列的工具去解析,提取,分析數(shù)據(jù)。Data Quality and Master Data Management(數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理):數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理是一些管理方面的最佳實(shí)踐。通過(guò)標(biāo)準(zhǔn)化的流程和工具對(duì)數(shù)據(jù)進(jìn)行處理可以保證一個(gè)預(yù)先定義好的高質(zhì)量的分析結(jié)果。Victor在其最新著作《大數(shù)據(jù)時(shí)代――生活、工作與思維的大變革》中指出,大數(shù)據(jù)時(shí)代,人們的思維方式要發(fā)生3個(gè)變革:第一,要分析與事物相關(guān)的所有數(shù)據(jù),而不是依靠分析少量數(shù)據(jù)樣本;要總體,不要樣本。第二,要樂(lè)于接受數(shù)據(jù)的紛繁復(fù)雜,而不再追求精確性。第三,不再探求難以捉摸的因果關(guān)系,應(yīng)該更加注重相關(guān)關(guān)系。上述與計(jì)算機(jī)結(jié)合的新進(jìn)方法和變革反映出了大數(shù)據(jù)處理方式與傳統(tǒng)統(tǒng)計(jì)學(xué)分析方法的很多關(guān)聯(lián)以及主要不同。
接下來(lái)討論大數(shù)據(jù)與統(tǒng)計(jì)學(xué)分析方法的聯(lián)系,其二者均采用量化分析。大數(shù)據(jù)分析的基礎(chǔ)是數(shù)據(jù)化,也就是一種把各種各樣現(xiàn)象轉(zhuǎn)變?yōu)榭芍票矸治龅牧炕问降倪^(guò)程。不論是傳統(tǒng)統(tǒng)計(jì)學(xué)中所應(yīng)用的數(shù)據(jù)還是大數(shù)據(jù)時(shí)代即將被轉(zhuǎn)化和采用其他多種形式的數(shù)據(jù)最終都是通過(guò)量化分析方法來(lái)對(duì)數(shù)據(jù)進(jìn)行有效的分析并且揭示數(shù)據(jù)中所蘊(yùn)含的事物特征。
現(xiàn)在將討論的重點(diǎn)還是放在統(tǒng)計(jì)學(xué)分析與現(xiàn)今大數(shù)據(jù)的分析過(guò)程中的差異。統(tǒng)計(jì)學(xué)的定義是通過(guò)搜索、整理、分析數(shù)據(jù)等手段,以達(dá)到推斷所測(cè)對(duì)象的本質(zhì),甚至預(yù)測(cè)對(duì)象未來(lái)的一門(mén)綜合性科學(xué)。其中用到了大量的基礎(chǔ)數(shù)學(xué)知識(shí)及其它學(xué)科的專(zhuān)業(yè)知識(shí),使用范圍非常的廣泛。雖然統(tǒng)計(jì)學(xué)也在跟著不斷的發(fā)展更新,理論知識(shí)的更新速度很難一下子跟上社會(huì)拋出的一系列新問(wèn)題。而現(xiàn)在大數(shù)據(jù)價(jià)值就像是一座寶藏,絕大部分都隱藏在表面下等待挖掘。相關(guān)領(lǐng)域的專(zhuān)家表明大數(shù)據(jù)的來(lái)臨使人類(lèi)第一次有機(jī)會(huì)和條件,在非常多的領(lǐng)域和非常深入的層次獲得和使用全面數(shù)據(jù)、完整數(shù)據(jù)和系統(tǒng)數(shù)據(jù),深入探索現(xiàn)實(shí)世界的規(guī)律,獲取過(guò)去不可能獲取的知識(shí)。大數(shù)據(jù)傾向于盡可能利用所有能獲取的數(shù)據(jù)。
在傳統(tǒng)的數(shù)理統(tǒng)計(jì)學(xué)中,由于記錄,存儲(chǔ),分析數(shù)據(jù)的工具并沒(méi)有那么的先進(jìn),傾向于從總體中抽取樣本來(lái)分析,用樣本簡(jiǎn)單有效的估計(jì)整體,最主要的就是利用樣本參數(shù)估計(jì)對(duì)應(yīng)的總體參數(shù)。采樣分析的準(zhǔn)確性的確會(huì)隨著采樣隨機(jī)性的增大而提高,但是與樣本數(shù)量的增大關(guān)系并不是很大。當(dāng)樣本數(shù)量達(dá)到了某個(gè)值的時(shí)候,從新個(gè)體身上得到的信息會(huì)越來(lái)越少。在大數(shù)據(jù)時(shí)代,隨機(jī)分析的方法將不再被采用,人們會(huì)選擇去利用所有的數(shù)據(jù)。即“樣本=總體”。統(tǒng)計(jì)抽樣產(chǎn)生的契機(jī)是為了解決存在的一些特定問(wèn)題而產(chǎn)生的。在技術(shù)逐漸成熟之后,樣本分析就會(huì)被逐漸拋棄。?
大數(shù)據(jù)的其中一個(gè)很重要的特質(zhì)就是讓人們學(xué)會(huì)接受不精確,對(duì)小容量的數(shù)據(jù)來(lái)說(shuō),統(tǒng)計(jì)學(xué)或許已經(jīng)可以把數(shù)據(jù)處理的較為合理。但是在大數(shù)據(jù)時(shí)代,原始統(tǒng)計(jì)方法并不能有效的解決問(wèn)題,因?yàn)閿?shù)據(jù)量的大幅增加會(huì)導(dǎo)致量化分析的結(jié)果包含誤差。執(zhí)迷于絕對(duì)的精確性是信息缺乏時(shí)代和模擬時(shí)代的產(chǎn)物,只有接受不精確性才能帶領(lǐng)我們進(jìn)入新的領(lǐng)域。
另外,大數(shù)據(jù)時(shí)代數(shù)據(jù)的來(lái)源沒(méi)有原先那么簡(jiǎn)單。一般情況下,統(tǒng)計(jì)學(xué)中要想得到一些數(shù)據(jù)是需要通過(guò)各種不同實(shí)驗(yàn)方法測(cè)量和記錄,數(shù)據(jù)的收集是較為耗時(shí),同時(shí)也需要大量的精力。但是隨著科技的發(fā)展,數(shù)據(jù)有時(shí)候可以從你意想不到的地方得到。也許在精心地設(shè)計(jì)實(shí)驗(yàn)或是研究測(cè)試之后,真正操作才會(huì)發(fā)現(xiàn)事情并不像想象的簡(jiǎn)單。大數(shù)據(jù)時(shí)代所提出的“數(shù)據(jù)化”方式,將使得對(duì)所需數(shù)據(jù)的收集變得更加容易和高效。除了傳統(tǒng)的數(shù)字化數(shù)據(jù),就連圖像、方位、文本的字、段落等等,世間萬(wàn)物都可以成為大數(shù)據(jù)分析的原料。
至于數(shù)據(jù)的利用方式,在統(tǒng)計(jì)學(xué)中,對(duì)數(shù)據(jù)的利用主要包括對(duì)數(shù)據(jù)進(jìn)行分析,求統(tǒng)計(jì)的各種數(shù)值中的聯(lián)系,如身高的遺傳問(wèn)題,不僅要分析其父母的身高,還要分析孩子的身高,先估計(jì)合適的模型,再實(shí)際代入檢驗(yàn)?zāi)P团袛嗍欠窈线m,進(jìn)行合理分析從而得出自己的結(jié)論。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)沒(méi)有這樣較為定性的檢驗(yàn)和分析手段,對(duì)數(shù)據(jù)的利用方法也隨著情況的不同而不同,要學(xué)會(huì)具體情況具體分析。另外,大數(shù)據(jù)的發(fā)展使得機(jī)器學(xué)習(xí),云計(jì)算等原來(lái)計(jì)算機(jī)領(lǐng)域的方法逐漸進(jìn)入人們的視野,與原來(lái)的統(tǒng)計(jì)分析方法和途徑有效結(jié)合和互補(bǔ)從而實(shí)現(xiàn)數(shù)據(jù)的收集,存儲(chǔ)和分析。
總的來(lái)說(shuō),只有更好的了解統(tǒng)計(jì)知識(shí)并結(jié)合大數(shù)據(jù)的特點(diǎn)進(jìn)行分析,這樣才能研究出最好的分析方法,提高分析效率。
參考文獻(xiàn)
[1]孟小峰,慈祥.大數(shù)據(jù)管理:概念,技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,50(1):146169.
[2]俞立平.大數(shù)據(jù)與大數(shù)據(jù)經(jīng)濟(jì)學(xué)[J].中國(guó)軟科學(xué),2013,(7):177183.
[3]維克托·邁爾·舍恩伯格,肯尼斯·庫(kù)克耶.大數(shù)據(jù)時(shí)代―生活、工作與思維的大變革[M].盛楊燕,周濤譯.杭州:浙江人民出版社,2012.