李瑞江
(新疆輕工職業(yè)技術(shù)學(xué)院 新疆 830021)
據(jù)百度百科,大數(shù)據(jù)(big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。互聯(lián)網(wǎng)特別是移動互聯(lián)網(wǎng)的發(fā)展,加快了信息化向社會經(jīng)濟各方面、大眾日常生活的滲透,從而在制造業(yè)方面、農(nóng)業(yè)領(lǐng)域、商業(yè)領(lǐng)域、金融領(lǐng)域、醫(yī)療保健領(lǐng)域、社會安全管理領(lǐng)域、科學(xué)研究領(lǐng)域無不存在大數(shù)據(jù),因而一個大數(shù)據(jù)時代正在到來。
大數(shù)據(jù)是一個比較抽象的概念,它表示數(shù)據(jù)規(guī)模的龐大。但是僅僅數(shù)量上的巨大無法看出大數(shù)據(jù)概念和以往的“海量數(shù)據(jù)”(Massive Data)、“超大規(guī)模數(shù)據(jù)”(Very Large Data)等概念之間有何區(qū)別,對于大數(shù)據(jù)尚未有一個公認的定義,不同的定義基本都是從大數(shù)據(jù)的特征出發(fā),通過這些特征的闡述和歸納,試圖給出其定義。在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數(shù)據(jù)時代》中大數(shù)據(jù)指不用隨機分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)的方法[1]。著名咨詢機構(gòu)麥肯錫認為,大數(shù)據(jù)是指其大小超出了典型數(shù)據(jù)庫軟件的采集、存儲、管理和分析等能力的數(shù)據(jù)集[2]。大數(shù)據(jù)的4V特征有四個層面:第一,大量化(Velume),數(shù)據(jù)體量巨大。從TB級別躍升到PB級別;第二,多樣化(Varity),數(shù)據(jù)類型繁多;第三,價值低密度(Value),以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒;第四,快速化(Velocity),處理速度快,1秒定律。最后這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。只有具備這些特點的數(shù)據(jù)才是大數(shù)據(jù)。大數(shù)據(jù)技術(shù)將被設(shè)計用于在成本可承受的條件下,通過非??焖俚牟杉?、發(fā)現(xiàn)和分析,從大量化、多類別的數(shù)據(jù)中提取價值。
自20世紀(jì)的CD、磁盤以及磁帶,直至現(xiàn)在備受歡迎的固態(tài)硬盤和云存儲,存儲的載體在不斷的變化和發(fā)展。但是,大數(shù)據(jù)時代,除了數(shù)據(jù)量增長速度極快,視頻、音頻、微博等非結(jié)構(gòu)化數(shù)據(jù)占據(jù)的比例越來越大,傳統(tǒng)存儲產(chǎn)品由于自身的設(shè)計缺陷,在擴展性方面、與上層應(yīng)用集成度、高性能、自動化能力、成本等方面已經(jīng)很難滿足大數(shù)據(jù)諸多的存儲特征,根本很難肩負起企業(yè)大數(shù)據(jù)存儲、分析以及應(yīng)用的諸多需求。尤其當(dāng)前數(shù)據(jù)的類型豐富程度、容量愈發(fā)變大的情況下,并且在業(yè)務(wù)部門跟IT日益緊密的趨勢下,對于數(shù)據(jù)的存儲與分析的速度和性能要求越來越高,對海量數(shù)據(jù)的快速、高效存儲絕對應(yīng)該是大數(shù)據(jù)時代存儲系統(tǒng)的第一必備要求,否則大數(shù)據(jù)后續(xù)相關(guān)的數(shù)據(jù)分析、處理都將成為空談。
首先,在數(shù)據(jù)存儲方面計算機體系結(jié)構(gòu)要有龐大的水平擴展性,NoSQL是一項全新的數(shù)據(jù)庫革命性運動,非關(guān)系型的數(shù)據(jù)庫,可以為大數(shù)據(jù)建立快速、可擴展的存儲庫。目前Google的 BigTable和Amazon 的Dynamo使用的就是NoSQL型數(shù)據(jù)庫,
其次,應(yīng)對存儲容量有一些優(yōu)化的技術(shù),像重復(fù)數(shù)據(jù)刪除(適用于結(jié)構(gòu)化數(shù)據(jù))、自動精簡配置和分層存儲等技術(shù),都是提高存儲效率最重要、最有效的技術(shù)手段。結(jié)合重復(fù)刪除技術(shù),備份數(shù)據(jù)量和帶寬資源需求可以減少90%以上。如何更好的支撐IT應(yīng)用的性能,有效的存儲大數(shù)據(jù)僅僅是第一步,處理數(shù)據(jù)的能力是企業(yè)最關(guān)心的,下面介紹較流行的數(shù)據(jù)處理技術(shù)。
數(shù)據(jù)處理是對數(shù)據(jù)的采集、存儲、檢索、加工、變換和傳輸。數(shù)據(jù)的形式可以是數(shù)字、文字、圖形或聲音等[3]。數(shù)據(jù)處理的基本目的是從大量的、可能是雜亂無章的、難以理解的數(shù)據(jù)中抽取并推導(dǎo)出對于某些特定的人們來說是有價值、有意義的數(shù)據(jù)。數(shù)據(jù)處理是系統(tǒng)工程和自動控制的基本環(huán)節(jié)。數(shù)據(jù)處理技術(shù)的發(fā)展及其應(yīng)用的廣度和深度,極大地影響著人類社會發(fā)展的進程。
IDC對于大數(shù)據(jù)技術(shù)定位為通過高速捕捉、發(fā)現(xiàn)和分析,從大容量數(shù)據(jù)中獲取價值的一種新的技術(shù)架構(gòu)。大數(shù)據(jù)的分析并不是一個獨立存在的環(huán)節(jié),它與大數(shù)據(jù)的收集、整理等工作緊密相連,企業(yè)需要一個完善的數(shù)據(jù)源,才能得出更為準(zhǔn)確的結(jié)果[4]。同時,這個過程越簡單,對企業(yè)的管理和分析越有利。
簡而言之,從各種各樣類型的數(shù)據(jù)中快速獲得有價值信息的能力就是大數(shù)據(jù)技術(shù)。也正是這一點促使該技術(shù)具備走向眾多企業(yè)的潛力。隨著國內(nèi)3G網(wǎng)絡(luò)的發(fā)展,中國聯(lián)通目前運營著世界上最大的CDMA網(wǎng)絡(luò),流量運營是中國聯(lián)通一個重要特點。隨著流量的增長,3G流量的爭議也迅速的增加。主要問題是電信計費系統(tǒng)流量話單的產(chǎn)生設(shè)備GGSN是網(wǎng)關(guān)設(shè)備,只能計入一段時間之內(nèi)使用流量總合,沒有說訪問哪個目標(biāo)的IP地址,沒有訪問目的地,說不清流量到哪兒去了,導(dǎo)致用戶不明流量的起訴。
但上網(wǎng)記錄數(shù)據(jù)是海量數(shù)據(jù),用戶每個上網(wǎng)記錄基本有幾萬到幾十萬,有的用戶五六十萬,如果在網(wǎng)關(guān)所有用戶流量必經(jīng)地方采集,分析流量數(shù)據(jù),然后上成上網(wǎng)記錄話單,話單量非常大。傳統(tǒng)IOE方式,IBM小型機,思科數(shù)據(jù)庫存儲,EMC存儲等方式存儲這么大上網(wǎng)記錄時候比較困難。將開源Hadoop、Hbase技術(shù)應(yīng)用商用電信服務(wù)系統(tǒng)中來可以有效的解決此問題。首先,系統(tǒng)的構(gòu)成,包括數(shù)據(jù)采集、數(shù)據(jù)入庫、數(shù)據(jù)存儲、數(shù)據(jù)查詢和數(shù)據(jù)分析技術(shù),基本技術(shù)采用Hadoop,目前上網(wǎng)記錄數(shù)據(jù)存儲一般不小于30分鐘,30分鐘之前的上網(wǎng)記錄現(xiàn)在可以通過系統(tǒng)查詢到。其次,用HBase處理海量的數(shù)據(jù),入庫速度非常迅速,查詢速度也非???。
大數(shù)據(jù)時代的來臨將改變我們對工作、生活的思維,也將改變?nèi)藗兊纳鐣ぷ鲬B(tài)度行為,同時也催生了林林總總的新興技術(shù)在推動著人類對信息與數(shù)據(jù)的創(chuàng)造與應(yīng)用范圍。大數(shù)據(jù)時代已經(jīng)到來,也成為世界下一個創(chuàng)新、競爭和生產(chǎn)率提高的前沿[5]。
[1]維克托·邁爾-舍爾維恩、肯尼斯·庫克耶.大數(shù)據(jù)時代[M].浙江人民出版社,2013:039.
[2]http://cloud.chinabyte.com/news/255/12541755.shtm l
[3]趙剛,大數(shù)據(jù):技術(shù)與應(yīng)用實踐指南 電子工業(yè)出版社,2013.10
[4]從大數(shù)據(jù)視角看地方網(wǎng)絡(luò)問政平臺的發(fā)展與轉(zhuǎn)型 周光華中國衛(wèi)生信息管理雜志 2013.05
[5]大數(shù)據(jù)時代的競爭情報發(fā)展動向探析 劉高勇、汪會玲 圖書情報知識 2013.03