周健
[摘 要]未來將是大數(shù)據(jù)的時代。大數(shù)據(jù)產(chǎn)業(yè)主要涉及數(shù)據(jù)生成、存儲、處理分析、應用四個環(huán)節(jié),具體來看,包含硬件設備、處理分析環(huán)節(jié)、綜合處理、語音識別、視頻識別、商業(yè)智能軟件、數(shù)據(jù)中心建設與維護、IT咨詢、方案實施、信息安全等領域。
[關鍵詞]大數(shù)據(jù);數(shù)據(jù)采集;數(shù)據(jù)管理
[DOI]10.13939/j.cnki.zgsc.2015.45.105
隨著計算機和信息技術的迅猛發(fā)展和普及應用,行業(yè)應用系統(tǒng)的規(guī)模迅速擴大,行業(yè)應用所產(chǎn)生的數(shù)據(jù)呈爆炸性增長。動輒達到數(shù)百TB甚至數(shù)十至數(shù)百PB規(guī)模的行業(yè)、企業(yè)大數(shù)據(jù)已遠遠超出了現(xiàn)有傳統(tǒng)的計算技術和信息系統(tǒng)的處理能力。因此,尋求有效的大數(shù)據(jù)處理技術、方法和手段已經(jīng)成為現(xiàn)實世界的迫切需求。世界權威IT信息咨詢分析公司IDC研究報告預測:全世界數(shù)據(jù)量未來10年將從2009年的0.8ZB增長到2020年的35ZB(1ZB=1000EB=1000000PB),10年將增長44倍,年均增長 40%。而且,大量新數(shù)據(jù)源的出現(xiàn)導致數(shù)據(jù)結構的多樣變化,非結構化、半結構化的數(shù)據(jù)呈爆發(fā)式增長。這些信息背后產(chǎn)生的大量數(shù)據(jù)遠遠超越了目前人力所能處理的范疇,大數(shù)據(jù)時代正在來臨。
1 大數(shù)據(jù)的特征
大數(shù)據(jù)(Big Data)是指“無法用現(xiàn)有的軟件工具提取、存儲、搜索、共享、分析和處理的海量的、復雜的數(shù)據(jù)集合?!睒I(yè)界通常用4個V(即Volume、Variety、Value、Velocity)來概括大數(shù)據(jù)的特征。
1.1 數(shù)據(jù)體量巨大(Volume)
截至目前,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB(1PB=210TB),而歷史上全人類說過的所有的話的數(shù)據(jù)量大約是5EB(1EB=210PB)。當前,典型個人計算機硬盤的容量為TB量級,而一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近EB量級。
1.2 數(shù)據(jù)類型繁多(Variety)這種類型的多樣性也將數(shù)據(jù)分為結構化數(shù)據(jù)和非結構化數(shù)據(jù)。相對于以往便于存儲的以文本為主的結構化數(shù)據(jù),非結構化數(shù)據(jù)越來越多,包括網(wǎng)絡日志、音頻、視頻、圖片、地理位置信息等,這些多類型的數(shù)據(jù)對數(shù)據(jù)的處理能力提出了更高要求。
1.3 價值密度低(Value)價值密度的高低與數(shù)據(jù)總量的大小成反比。以視頻為例,一部1小時的視頻,在連續(xù)不間斷的監(jiān)控中,有用數(shù)據(jù)可能僅有一兩秒。如何通過強大的機器算法更迅速地完成數(shù)據(jù)的價值“提純”成為目前大數(shù)據(jù)背景下亟待解決的難題。
1.4 處理速度快(Velocity)這是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)挖掘的最顯著特征。根據(jù)IDC的“數(shù)字宇宙”的報告,預計到2020年,全球數(shù)據(jù)使用量將達到35.2ZB。在如此海量的數(shù)據(jù)面前,處理數(shù)據(jù)的效率就是企業(yè)的生命。
一個基本的大數(shù)據(jù)處理流程,可以概括為四步,分別是采集、導入和預處理、統(tǒng)計和分析,以及挖掘。
2 大數(shù)據(jù)的采集方法
2.1 系統(tǒng)日志采集方法
對于系統(tǒng)日志采集,很多互聯(lián)網(wǎng)企業(yè)都有自己的海量數(shù)據(jù)采集工具,如Hadoop的Chukwa,Cloudera的Flume,F(xiàn)acebook的Scribe等,它們均采用分布式架構,能滿足每秒數(shù)百MB的日志數(shù)據(jù)采集和傳輸需求。
2.2 網(wǎng)絡數(shù)據(jù)采集方法:對非結構化數(shù)據(jù)的采集
網(wǎng)絡數(shù)據(jù)采集可以將非結構化數(shù)據(jù)從網(wǎng)頁中抽取出來,將其存儲為統(tǒng)一的本地數(shù)據(jù)文件,并以結構化的方式存儲??梢酝ㄟ^網(wǎng)絡爬蟲或網(wǎng)站公開API等方式從網(wǎng)站上獲取數(shù)據(jù)信息。它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動關聯(lián)。對于網(wǎng)絡流量的采集可以使用DPI或DFI等帶寬管理技術進行處理。
2.3 其他數(shù)據(jù)采集方法
對于企業(yè)生產(chǎn)經(jīng)營數(shù)據(jù)或?qū)W科研究數(shù)據(jù)等保密性要求較高的數(shù)據(jù),可以通過與企業(yè)或研究機構合作,使用特定系統(tǒng)接口等相關方式采集數(shù)據(jù)。
3 大數(shù)據(jù)存儲(導入)和管理
3.1 并行數(shù)據(jù)庫
并行數(shù)據(jù)庫系統(tǒng)大部分采用了關系數(shù)據(jù)模型并且支持SQL語句查詢,在無共享的體系結構中進行數(shù)據(jù)操作的數(shù)據(jù)庫系統(tǒng)。
3.2 NoSQL數(shù)據(jù)管理系統(tǒng)
NoSQL指的是“Not Only SQL”,即對關系型SQL數(shù)據(jù)系統(tǒng)的補充。NoSQL最普遍的解釋是“非關系型的”,強調(diào)鍵值存儲和文檔數(shù)據(jù)庫的優(yōu)點,而不是單純地反對關系型數(shù)據(jù)庫。它采用簡單數(shù)據(jù)模型、元數(shù)據(jù)和應用數(shù)據(jù)的分離、弱一致性技術,使NoSQL能夠很好地應對海量數(shù)據(jù)的挑戰(zhàn)。
3.3 云存儲與云計算
在云計算概念上延伸和發(fā)展出來的云存儲,是一種新興的網(wǎng)絡存儲技術,將網(wǎng)絡中大量各種不同類型的存儲設備通過應用軟件集合起來協(xié)同工作,共同對外提供數(shù)據(jù)存儲和業(yè)務訪問功能的一個系統(tǒng)。云存儲是一個以數(shù)據(jù)存儲和管理為核心的云計算系統(tǒng)。
3.4 實時流處理
所謂實時系統(tǒng),是指能在嚴格的時間限制內(nèi)響應請求的系統(tǒng)。流式處理就是指源源不斷的數(shù)據(jù)流過系統(tǒng)時,系統(tǒng)能夠不停地連續(xù)計算。所以,流式處理沒有嚴格的時間限制,數(shù)據(jù)從進入系統(tǒng)到出來結果可能是需要一段時間。然而,流式處理唯一的限制是系統(tǒng)長期來看的輸出速率應當快于或至少等于輸入速率。否則,數(shù)據(jù)會在系統(tǒng)中越積越多。
4 大數(shù)據(jù)的分析
數(shù)據(jù)分析主要利用分布式數(shù)據(jù)庫,或者分布式計算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進行普通的分析和分類匯總等,以滿足大多數(shù)常見的分析需求。統(tǒng)計與分析這部分的主要特點和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對系統(tǒng)資源,特別是I/O會有極大的占用。如果是一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基MySQL的列式存儲Infobright等,而一些批處理,或者基于半結構化數(shù)據(jù)的需求可以使用Hadoop。
5 大數(shù)據(jù)的挖掘與展示
大數(shù)據(jù)技術不在于掌握龐大的數(shù)據(jù)信息,而是將這些含有意義的數(shù)據(jù)進行專業(yè)化處理,將海量的信息數(shù)據(jù)在經(jīng)過分布式數(shù)據(jù)挖掘處理后將結果可視化。數(shù)據(jù)可視化主要是借助于圖形化手段,清晰有效地傳達與溝通信息。依據(jù)數(shù)據(jù)及其內(nèi)在模式和關系,利用計算機生成的圖像來獲得深入認識和知識。這樣就對數(shù)據(jù)可視化軟件提出了更高的要求。數(shù)據(jù)可視化應用軟件的開發(fā)迫在眉睫,數(shù)據(jù)可視化軟件的開發(fā)既要保證實現(xiàn)其功能用途,同時又要兼顧美學形式。例如,標簽云、聚類圖、空間信息流、熱圖等。
大數(shù)據(jù)成為推動經(jīng)濟轉型發(fā)展的新動力。以數(shù)據(jù)流引領技術流、物質(zhì)流、資金流、人才流,將深刻影響社會分工協(xié)作的組織模式,促進生產(chǎn)組織方式的集約和創(chuàng)新。大數(shù)據(jù)成為重塑國家競爭優(yōu)勢的新機遇。在全球信息化快速發(fā)展的大背景下,大數(shù)據(jù)已成為國家重要的基礎性戰(zhàn)略資源,正引領新一輪科技創(chuàng)新。大數(shù)據(jù)還成為提升政府治理能力的新途徑。大數(shù)據(jù)應用能夠揭示傳統(tǒng)技術方式難以展現(xiàn)的關聯(lián)關系,推動政府數(shù)據(jù)開放共享,促進社會事業(yè)數(shù)據(jù)融合和資源整合,將極大提升政府整體數(shù)據(jù)分析能力,為有效處理復雜社會問題提供新的手段。
參考文獻:
孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術與挑戰(zhàn)[J].算機研究與發(fā)展,2014(1).