隨著云計(jì)算、物聯(lián)網(wǎng)、互聯(lián)網(wǎng)的高速發(fā)展,大數(shù)據(jù)(Big Data)吸引了眾多眼球,成為近幾年社會(huì)發(fā)展的焦點(diǎn)。本文首先從大數(shù)據(jù)的概念入手,接著闡述了大數(shù)據(jù)的時(shí)代背景,然后對傳統(tǒng)數(shù)據(jù)庫與大數(shù)據(jù)進(jìn)行了比較,進(jìn)而剖析了大數(shù)據(jù)的代表技術(shù)及應(yīng)用研究。旨在了解大數(shù)據(jù)當(dāng)前發(fā)展?fàn)顩r,為以后進(jìn)行大數(shù)據(jù)分析與處理提供參考。
一、大數(shù)據(jù)概念
大數(shù)據(jù)的4個(gè)“V”:Volume,數(shù)據(jù)體量巨大,從TB級別,躍升到PB級別;Variety,數(shù)據(jù)類型繁多;Veracity,數(shù)據(jù)的準(zhǔn)確性和真實(shí)性;Velocity處理速度快。
廣義上來說大數(shù)據(jù)已經(jīng)不再局限于技術(shù)領(lǐng)域。如今,大數(shù)據(jù)除了為應(yīng)對長期存在的業(yè)務(wù)挑戰(zhàn)提供解決方案之外,還為流程、組織、整個(gè)行業(yè)、甚至社會(huì)本身的轉(zhuǎn)型激發(fā)了許多新的方式。狹義上來說大數(shù)據(jù)泛指數(shù)據(jù)集的大小,產(chǎn)生的速度和數(shù)據(jù)類型超過了通常的數(shù)據(jù)庫,數(shù)據(jù)管理軟件在限定的時(shí)間范圍內(nèi)所能獲取,存儲(chǔ),管理和分析的范疇。
二、大數(shù)據(jù)的時(shí)代背景
2008年9月,《NATURE》雜志推出了名為“SPECIALS: Big Data”的專欄;12月,計(jì)算機(jī)社區(qū)聯(lián)盟發(fā)布《Big Data Computing: Creating Revolutionary Breakthroughs in Commerce, Science, and Society》這個(gè)報(bào)告,闡述了在數(shù)據(jù)驅(qū)動(dòng)背景下解決大數(shù)據(jù)問題所需的技術(shù)以及面臨的一些挑戰(zhàn)。EMC 公司于2011年舉辦的EMC World大會(huì)上提出當(dāng)年的主題是“云計(jì)算相遇大數(shù)據(jù)”;2012年5月,聯(lián)合國對外發(fā)布了《Big Data for Development: Challenges and Opportunities》白皮書,探討如何利用互聯(lián)網(wǎng)產(chǎn)生的大數(shù)據(jù)推動(dòng)全球發(fā)展。
三、傳統(tǒng)數(shù)據(jù)庫與大數(shù)據(jù)的比較
傳統(tǒng)的數(shù)據(jù)庫存儲(chǔ)數(shù)據(jù)采用的都是結(jié)構(gòu)化,在過去的很長一段時(shí)間中,關(guān)系型數(shù)據(jù)庫(RDMS)一直是最主流的數(shù)據(jù)庫解決方案,他運(yùn)用真實(shí)世界中事物與關(guān)系來解釋數(shù)據(jù)庫中抽象的數(shù)據(jù)架構(gòu)。使用的數(shù)據(jù)庫系統(tǒng)有Oracle、MySQL、DB2、SQL Server等。
然而,在信息技術(shù)爆炸式發(fā)展的今天,大數(shù)據(jù)已經(jīng)成為了繼云計(jì)算、物聯(lián)網(wǎng)后新的技術(shù)革命,關(guān)系型數(shù)據(jù)庫在處理大數(shù)據(jù)量時(shí)已經(jīng)開始吃力,開發(fā)者只能通過不斷地優(yōu)化數(shù)據(jù)庫來解決數(shù)據(jù)量的問題,但優(yōu)化畢竟不是一個(gè)長期方案,所以人們提出了一種新的數(shù)據(jù)庫解決方案來迎接大數(shù)據(jù)時(shí)代的到來——NoSQL。處理非關(guān)系型數(shù)據(jù)使用的數(shù)據(jù)庫管理系統(tǒng)最多的是MongoDB,MongoDB盡可能精簡數(shù)據(jù)庫,將盡可能多的操作交給客戶端。
四、大數(shù)據(jù)的代表技術(shù)
(一)Hadoop
Hadoop它來源于Google的一個(gè)編程模型包,目前,已經(jīng)有很多公司開始提供基于Hadoop的培訓(xùn)、服務(wù),它有高可靠性、高擴(kuò)展性、高效性、高容錯(cuò)率、低成本等優(yōu)點(diǎn),所以用戶可以輕松在在Hadoop上編寫程序。
(二)NoSQL
隨著互聯(lián)網(wǎng)的發(fā)展,傳統(tǒng)的關(guān)系數(shù)據(jù)庫已經(jīng)無法滿足非結(jié)構(gòu)化大數(shù)據(jù)的存儲(chǔ)和處理,顯得力不從心,NoSQL數(shù)據(jù)庫就是為了解決非結(jié)構(gòu)化大數(shù)據(jù)帶來的種種挑戰(zhàn),是一項(xiàng)全新的數(shù)據(jù)庫革命。
(三)Streaming
Streaming是一種流動(dòng)傳動(dòng)數(shù)據(jù)技術(shù),即客戶機(jī)接收的數(shù)據(jù)變成流,源源不斷,客戶機(jī)看到的圖片不受任何影響,完全可以在整個(gè)文件傳送完之前瀏覽屏幕上的文件。
五、大數(shù)據(jù)的應(yīng)用研究
(一)大數(shù)據(jù)的采集
采集的結(jié)構(gòu)化數(shù)據(jù)包括生產(chǎn)報(bào)表、經(jīng)營報(bào)表等具有關(guān)系特征的數(shù)據(jù);非結(jié)構(gòu)化數(shù)據(jù),主要包括網(wǎng)頁( HTML)、格式文檔(Word、PDF)、文本文件(Text)等文字性資料。這些數(shù)據(jù)目前可以通過關(guān)系數(shù)據(jù)庫和專用的數(shù)據(jù)挖掘軟件進(jìn)行挖掘采集。特別是非結(jié)構(gòu)化數(shù)據(jù),如DSM相關(guān)的各種動(dòng)態(tài)等信息對DSM分析研究十分重要,綜合運(yùn)用定點(diǎn)采集等搜索技術(shù)。
(二)大數(shù)據(jù)的導(dǎo)入
將這些來自前端的數(shù)據(jù)導(dǎo)入到一個(gè)集中的大型分布式數(shù)據(jù)庫或者分布式存儲(chǔ)集群,并且做一些簡單的清洗和預(yù)處理工作,也可以使用Storm技術(shù)來對數(shù)據(jù)進(jìn)行流式計(jì)算。導(dǎo)入和預(yù)處理過程的特點(diǎn)和挑戰(zhàn)主要是導(dǎo)入的數(shù)據(jù)量大,每秒鐘的導(dǎo)入量經(jīng)常會(huì)達(dá)到百兆,甚至千兆級別。
(三)大數(shù)據(jù)的存儲(chǔ)與管理
隨著數(shù)字圖書館、電子商務(wù)、多媒體傳輸?shù)炔粩喟l(fā)展,數(shù)據(jù)從GB、TB到PB量級海量急速增長。存儲(chǔ)設(shè)備不僅僅局限于單一的控制界面,同時(shí),也對數(shù)據(jù)的精簡提出了要求。根據(jù)這些衍生的問題,重復(fù)數(shù)據(jù)刪除和自動(dòng)精簡配置這兩項(xiàng)技術(shù)呼之欲出。針對海量數(shù)據(jù)存儲(chǔ),目前主要開展了虛擬存儲(chǔ)技術(shù)、高性能I/O、網(wǎng)格存儲(chǔ)系統(tǒng)等這些方面的研究。
(四)大數(shù)據(jù)的應(yīng)用實(shí)例
最經(jīng)典的大數(shù)據(jù)應(yīng)用實(shí)例當(dāng)屬名為 “Google流感趨勢” 的工具;比如廣東移動(dòng)基于數(shù)據(jù)挖掘的數(shù)據(jù)業(yè)務(wù)精確營銷,增加了數(shù)據(jù)業(yè)務(wù)收入,有力地促進(jìn)了業(yè)務(wù)收入KPI指標(biāo)的完成,促進(jìn)了彩信、手機(jī)等業(yè)務(wù)的用戶增長,降低了彩鈴客戶的流失率,為重點(diǎn)業(yè)務(wù)用戶數(shù)的KPI指標(biāo)完成做出重要貢獻(xiàn);洛杉磯警察局和加利福尼亞大學(xué)合作利用大數(shù)據(jù)預(yù)測犯罪的發(fā)生。
六、結(jié)語
大數(shù)據(jù)給人們帶來了便利,同時(shí)也給了人們一種發(fā)掘數(shù)據(jù)的挑戰(zhàn)。馬云在2017世界物聯(lián)網(wǎng)無錫峰會(huì)上發(fā)言中說:“大數(shù)據(jù)是重要的生產(chǎn)資料,涵蓋兩個(gè)關(guān)鍵:大計(jì)算和云數(shù)據(jù),也就是強(qiáng)大的計(jì)算能力和從云端可取的大量數(shù)據(jù)。物聯(lián)網(wǎng)和云計(jì)算大數(shù)據(jù),合在一起才是真正的未來。” 麥肯錫預(yù)測未來中國大數(shù)據(jù)產(chǎn)品的潛在市場規(guī)模有望達(dá)到1.57萬億元,給IT行業(yè)開拓了一個(gè)新的黃金時(shí)代。(作者單位為鄭州財(cái)經(jīng)學(xué)院)