李真春+裴彥芳
摘 要 本文全方位多角度分析了大數(shù)據(jù)概念的提出及發(fā)展歷程,闡述了大數(shù)據(jù)概念的內(nèi)涵和外延,特別對(duì)大數(shù)據(jù)的“4V”特征進(jìn)行了深入解讀,剖析了大數(shù)據(jù)技術(shù)快速發(fā)展的深層次原因,為大家正確認(rèn)識(shí)大數(shù)據(jù)提供了有益的探索。簡(jiǎn)要介紹了主要的大數(shù)據(jù)技術(shù),包括:大數(shù)據(jù)采集與預(yù)處理的技術(shù)、大數(shù)據(jù)存儲(chǔ)與管理技術(shù)、大數(shù)據(jù)計(jì)算技術(shù)、大數(shù)據(jù)分析技術(shù)和大數(shù)據(jù)呈現(xiàn)技術(shù),詳細(xì)介紹了在大數(shù)據(jù)研究領(lǐng)域影響最廣泛的大數(shù)據(jù)技術(shù)-Hadoop,在此基礎(chǔ)上,簡(jiǎn)要介紹了大數(shù)據(jù)技術(shù)的基本應(yīng)用。
關(guān)鍵詞 大數(shù)據(jù);4V特征;大數(shù)據(jù)技術(shù);hadoop
中圖分類號(hào) TP3 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 1674-6708(2016)172-0105-002
1 大數(shù)據(jù)概念的內(nèi)涵和外延
大數(shù)據(jù)是一個(gè)很寬泛的概念,仁者見仁,智者見智。
亞馬遜(全球最大的電子商務(wù)公司)大數(shù)據(jù)科學(xué)家John Rauser認(rèn)為大數(shù)據(jù)是任何超過了一臺(tái)計(jì)算機(jī)處理能力的數(shù)據(jù)量。(Big data is ‘a(chǎn)ny amount of data thats too big to be handled by one computer)。
在《大數(shù)據(jù):下一個(gè)創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)率的前沿》當(dāng)中,麥肯錫對(duì)于大數(shù)據(jù)做出了一下定義,即:所謂的大數(shù)據(jù),主要就是指那些大小比常規(guī)數(shù)據(jù)庫(kù)工具的獲取、存儲(chǔ)等更大的數(shù)據(jù)集。一般來(lái)說,大數(shù)據(jù)概念的內(nèi)涵通常用4V特征來(lái)表述。
第一個(gè)V是Volume,就是數(shù)據(jù)體量大。大到運(yùn)用常用的數(shù)據(jù)庫(kù)軟件無(wú)法對(duì)其進(jìn)行管理。現(xiàn)在來(lái)看,基本上是指幾十TB到幾個(gè)PB的數(shù)量級(jí)。當(dāng)然,隨著技術(shù)的進(jìn)步,數(shù)據(jù)的積累,這個(gè)數(shù)值會(huì)變得更多,有人預(yù)測(cè)5年后,也許只有EB數(shù)量級(jí)的數(shù)據(jù)量才能夠稱得上是大數(shù)據(jù)。
第二個(gè)V是Variety,是指數(shù)據(jù)類型繁多,來(lái)源各異。有來(lái)自網(wǎng)絡(luò)的網(wǎng)頁(yè)、日志、圖片,有來(lái)自傳感器的監(jiān)測(cè)數(shù)據(jù)、視頻數(shù)據(jù)、音頻數(shù)據(jù)、位置信息,還有來(lái)自日常運(yùn)營(yíng)系統(tǒng)的各類信息等。
第三個(gè)V是Velocity,速度快。它包含兩個(gè)含義,一是數(shù)據(jù)產(chǎn)生和更新的頻率快,數(shù)據(jù)量增長(zhǎng)速度快。如今,只需兩天就能產(chǎn)生出自人類文明誕生以來(lái)到2003年所產(chǎn)生數(shù)據(jù)的總量。谷哥搜索引擎每個(gè)月處理的數(shù)據(jù)量超過400PB;百度每天大約要處理幾十PB字節(jié)數(shù)據(jù);淘寶在線商品10億多件,每天發(fā)生數(shù)千萬(wàn)筆交易,產(chǎn)生約20TB數(shù)據(jù)。各個(gè)城市的視頻監(jiān)控每時(shí)每刻都在采集巨量的流媒體數(shù)據(jù)。二是響應(yīng)快,要有很高的時(shí)效性。對(duì)大數(shù)據(jù)的處理要求也要遵循1秒定律,就是在1秒內(nèi)出結(jié)果。
第四個(gè)V是Value,價(jià)值性。包含3層含義。一是價(jià)值密度低,在數(shù)據(jù)總量中有用數(shù)據(jù)所占比例低。以視頻數(shù)據(jù)為例,在連續(xù)不間斷的監(jiān)控圖像中,可能有用的數(shù)據(jù)僅有一兩秒。二是整體價(jià)值高,設(shè)想一下,研究問題領(lǐng)域相關(guān)的、全部的、真實(shí)的數(shù)據(jù)被匯集起來(lái)形成的大數(shù)據(jù)集,其價(jià)值是何等珍貴。三是潛在價(jià)值大。大量數(shù)據(jù)的價(jià)值尚未完全被挖掘利用,大數(shù)據(jù)挖掘就像沙里淘金。
2 大數(shù)據(jù)為什么能“火”
一是大數(shù)據(jù)的大眾化。事實(shí)上,大數(shù)據(jù)并不是一個(gè)新名詞,尤其是當(dāng)我們只從數(shù)據(jù)量的方向來(lái)對(duì)其進(jìn)行分析的話,大數(shù)據(jù)早已存在。例如,飛機(jī)汽輪機(jī)壓縮器葉片的監(jiān)控?cái)?shù)據(jù)為每天588GB,生物技術(shù)領(lǐng)域中的基因組分析用的數(shù)據(jù)、氣象數(shù)據(jù)分析用的數(shù)據(jù)等,很早之前就已經(jīng)屬于大數(shù)據(jù)了,并且其已經(jīng)大到需要運(yùn)用一些相對(duì)昂貴的超級(jí)高端計(jì)算機(jī),進(jìn)行數(shù)據(jù)的處理與分析。
二是大數(shù)據(jù)的硬軟件條件具備了。計(jì)算基礎(chǔ)條件:IT的摩爾定律使得計(jì)算機(jī)處理速度更快卻更便宜。(1965年,Intel的主要?jiǎng)?chuàng)始人戈登?摩爾就曾經(jīng)提出一個(gè)非常有名的“摩爾定律”:在價(jià)格保持不變時(shí),在集成電路當(dāng)中,其所能夠容納的晶體管數(shù)目,通常都會(huì)在18個(gè)月之后增加一倍,并提升一倍的性能)。
存儲(chǔ)條件:其磁盤的價(jià)格出現(xiàn)了非常顯著的下降,其中,在2000年的時(shí)候,每GB硬盤的單價(jià)大約為19美元,但是到了2010年時(shí),其已經(jīng)降到了7美分,10年下降了近300倍;而且體積比以前更小。
分布并行計(jì)算條件:大規(guī)模數(shù)據(jù)分布式處理技術(shù)的發(fā)明與應(yīng)用,成為了現(xiàn)階段大數(shù)據(jù)浪潮的第一推動(dòng)力。
三是云計(jì)算的普及。云計(jì)算,就是一種利用大規(guī)模、低成本運(yùn)算單元,通過網(wǎng)絡(luò)連接,提供各種計(jì)算和存儲(chǔ)服務(wù)的信息平臺(tái)。云計(jì)算改變了數(shù)據(jù)的存儲(chǔ)、計(jì)算和訪問方式。因?yàn)橛辛嗽朴?jì)算,大數(shù)據(jù)的硬軟件環(huán)境就不需要自行搭建了。
3 大數(shù)據(jù)技術(shù)及應(yīng)用
3.1 主要的大數(shù)據(jù)技術(shù)
通俗地講,所謂的大數(shù)據(jù)技術(shù),指的就是從各種數(shù)據(jù)當(dāng)中,來(lái)快速獲得有一定價(jià)值的信息的一種技術(shù)。
依據(jù)相應(yīng)的數(shù)據(jù)處理流程,大數(shù)據(jù)技術(shù)主要包括大數(shù)據(jù)采集與預(yù)處理技術(shù),大數(shù)據(jù)存儲(chǔ)與管理技術(shù)、大數(shù)據(jù)分析技術(shù)、大數(shù)據(jù)計(jì)算技術(shù)和大數(shù)據(jù)呈現(xiàn)技術(shù)等。
大數(shù)據(jù)采集與預(yù)處理技術(shù),用于解決數(shù)據(jù)來(lái)源和數(shù)據(jù)質(zhì)量等問題,主要包括異構(gòu)數(shù)據(jù)庫(kù)集成、WEB信息實(shí)體識(shí)別、傳感器網(wǎng)絡(luò)數(shù)據(jù)融合、數(shù)據(jù)清洗和數(shù)據(jù)質(zhì)量控制等。
從某種意義上來(lái)說,大數(shù)據(jù)的存儲(chǔ)與管理技術(shù),能夠用來(lái)解決大數(shù)據(jù)的可靠存儲(chǔ)和快速檢索訪問等問題,主要包括分布式文件系統(tǒng)、分布式數(shù)據(jù)庫(kù)、大數(shù)據(jù)索引和查詢、實(shí)時(shí)/流式大數(shù)據(jù)存儲(chǔ)與處理等。
大數(shù)據(jù)計(jì)算技術(shù),用于解決分布式高速并行計(jì)算問題,主要包括分布式查詢計(jì)算技術(shù)、批處理計(jì)算、流式計(jì)算、迭代計(jì)算、圖計(jì)算、內(nèi)存計(jì)算等。
大數(shù)據(jù)分析技術(shù),用于揭示規(guī)律、發(fā)現(xiàn)線索、探尋答案問題,主要包括數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、模式識(shí)別、聚類分析等技術(shù)。
大數(shù)據(jù)呈現(xiàn)技術(shù),用于將數(shù)據(jù)分析結(jié)果顯示給用戶,使得用戶能夠更清晰、方便、深入理解數(shù)據(jù)分析結(jié)果。主要包括可視化技術(shù)、歷史流展示技術(shù)、空間流展示技術(shù)等。
3.2 大數(shù)據(jù)應(yīng)用
利用電子商務(wù)平臺(tái)所擁有的大數(shù)據(jù),對(duì)客戶的行為進(jìn)行大數(shù)據(jù)挖掘分析,提供了相似選購(gòu)行為分析-用于推薦相似產(chǎn)品-經(jīng)典臺(tái)詞是“看過本商品的顧客還看了”;提供了相似購(gòu)買行為分析-用于推薦組合產(chǎn)品-經(jīng)典臺(tái)詞是“購(gòu)買本商品的顧客還購(gòu)買了”;根據(jù)客戶的瀏覽歷史預(yù)測(cè)客戶喜好分析-用于推薦最適合的產(chǎn)品-經(jīng)典臺(tái)詞是“建議購(gòu)買以下產(chǎn)品”。
利用社區(qū)網(wǎng)站所擁有的大數(shù)據(jù),根據(jù)用戶上網(wǎng)行為向用戶推送定向廣告。如根據(jù)我在新浪微博中的“男士休閑服”的話題,為我推薦淘寶店中出售的休閑套裝;根據(jù)我的身份信息,為我推薦的產(chǎn)品基本符合我的年齡、身份和喜好;并根據(jù)我對(duì)套裝的關(guān)注,為我推薦黃金絨的牛仔褲;根據(jù)我的喜好和評(píng)介,將類似的產(chǎn)品推薦給我的好友。
目前,大數(shù)據(jù)已在社會(huì)各領(lǐng)域進(jìn)行了應(yīng)用,從應(yīng)用方向上看,在實(shí)現(xiàn)了大數(shù)據(jù)的存儲(chǔ)、挖掘與分析之后,大數(shù)據(jù)被廣泛運(yùn)用在企業(yè)管理、數(shù)據(jù)標(biāo)準(zhǔn)化分析等領(lǐng)域中。而從應(yīng)用行業(yè)的角度來(lái)說,通過大數(shù)據(jù)的運(yùn)用,能夠在很大程度上改進(jìn)客戶的營(yíng)銷方式與服務(wù)水平,這樣能夠有效幫助行業(yè)降低成本,實(shí)現(xiàn)運(yùn)營(yíng)效益的提升。此外,其還可以幫助企業(yè)創(chuàng)新商業(yè)模式,并發(fā)現(xiàn)新的市場(chǎng)商機(jī)。從對(duì)整個(gè)社會(huì)的價(jià)值來(lái)看,大數(shù)據(jù)在智慧城市、智慧交通及災(zāi)難預(yù)警等方面都有巨大的潛在應(yīng)用價(jià)值。
參考文獻(xiàn)
[1]城田真琴.大數(shù)據(jù)的沖擊[M].北京:人民郵電出版社,2013,6.
[2]涂子沛.大數(shù)據(jù)[M].北京:廣西師范大學(xué)出版社,2012,7.
[3]維克托?邁爾?舍恩伯格.大數(shù)據(jù)時(shí)代[M].杭州:浙江人民出版社,2012,12.
[4]特金頓(Garry Turkington).Hadoop基礎(chǔ)教程[M].北京:人民郵電出版社,2014,1.
[5]劉蔚然,劉莉娜.大數(shù)據(jù)技術(shù)[J].冶金設(shè)備管理與維修,2014(4):33-36.