亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        用大數(shù)據(jù)武裝”云”:基于云計算的大數(shù)據(jù)處理技術

        2015-05-30 19:46:11張焰等
        中國新通信 2015年4期
        關鍵詞:云計算大數(shù)據(jù)

        張焰等

        【摘要】 隨著互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展,我們已經迎來了數(shù)據(jù)大爆炸的時代,數(shù)據(jù)的快速增長帶來了數(shù)據(jù)存儲、處理、分析的巨大壓力,而大數(shù)據(jù)技術(Big data)的引入,不但滿足了系統(tǒng)功能和性能的要求,帶來良好的可擴展性,降低了IT部署的成本,還拓展了數(shù)據(jù)智能分析的應用領域。同時,大數(shù)據(jù)分析與云計算的發(fā)展密切相關,云計算是大數(shù)據(jù)處理的基礎,而大數(shù)據(jù)技術是云計算的延伸,云計算的分布式存儲和計算架構為大數(shù)據(jù)的快速處理和智能分析提供了一種合適的解決方案。本文將探討建立在云計算基礎上的大數(shù)據(jù)處理技術,包括分布式計算框架、分布式文件系統(tǒng)、大數(shù)據(jù)管理技術、實時流數(shù)據(jù)處理、機器學習以及可視化技術等。

        【關鍵詞】 云計算 大數(shù)據(jù) MapReduce Hadoop一、大數(shù)據(jù)

        1.1什么是大數(shù)據(jù)

        大數(shù)據(jù)概念可以從四個維度去解,即三個V和一個C。三個V分別指的是數(shù)據(jù)量大(Volume)、數(shù)據(jù)種類多(Variety)和數(shù)據(jù)增長速度快(Velocity),最后一個C指的是處理、升級或利用大數(shù)據(jù)的分析手段比處理結構化數(shù)據(jù)要復雜的多(Complexity)。大數(shù)據(jù)分析常和云計算聯(lián)系到一起,因為實時的大型數(shù)據(jù)集分析需要像Map-Reduce一樣的并行計算框架將復雜的計算任務分配到“云”中成百上千的節(jié)點。

        1.2大數(shù)據(jù)與云計算

        大數(shù)據(jù)本身就是一個問題集,云計算技術是目前解決大數(shù)據(jù)問題集最重要最有效的手段。云計算提供了基礎的架構平臺,大數(shù)據(jù)應用在這個平臺上運行。目前公認為分析大數(shù)據(jù)集最有效手段的分布式處理技術,也是云計算思想的一種具體體現(xiàn)。

        云計算是分布式處理、并行處理和網(wǎng)格計算的發(fā)展,或者說是這些計算機科學概念的商業(yè)實現(xiàn)。云計算將網(wǎng)絡上分布的計算、存儲、服務構件、網(wǎng)絡軟件等資源集中起來,基于資源虛擬化的方式,為用戶提供方便快捷的服務, 實現(xiàn)了資源和計算的分布式共享和并行處理,能夠很好地應對當前互聯(lián)網(wǎng)數(shù)據(jù)量高速增長的勢頭。

        1.3大數(shù)據(jù)與Hadoop

        Hadoop是一個Apache的開源項目,主要面向存儲和處理成百上千TB直至PB級別的結構化、半結構化或非結構化的大數(shù)據(jù)。Hadoop提供的Map-Reduce能將大數(shù)據(jù)問題分解成多個子問題,并將它們分配到成百上千個處理節(jié)點之上,再將結果匯集到一個小數(shù)據(jù)集當中,從而更容易分析得出最后的結果。

        Hadoop項目包括三部分,分別是Hadoop Distributed File System(HDFS)、Map Reduce編程模型,以及Hadoop Common。Hadoop具備低廉的硬件成本、開源的軟件體系、較強的靈活性、允許用戶自己修改代碼等特點,同時能支持海量數(shù)據(jù)的存儲和計算任務。這些特點讓Hadoop被公認為是新一代的大數(shù)據(jù)處理平臺。 Hadoop同樣具備出色的大數(shù)據(jù)集處理能力,在獲取、存儲、管理和分析數(shù)據(jù)方面遠遠超越傳統(tǒng)的數(shù)據(jù)庫軟件工具。Hadoop經常在構建大數(shù)據(jù)解決方案時被用作基礎構架軟件。

        二、大數(shù)據(jù)技術綜述

        大數(shù)據(jù)處理不僅僅是Hadoop,許多特定的數(shù)據(jù)應用場景是需要實時分析和互動反饋的,這時候就需要利用包括內存檢索、流處理和實時計算等其他技術。而云計算的分布式存儲和計算架構開啟了大數(shù)據(jù)技術研究的大門,打造健全的大數(shù)據(jù)生態(tài)環(huán)境,所有這些技術結合在一起,才是一個完整的大數(shù)據(jù)處理系統(tǒng)。

        2.1分布式計算框架

        MapReduce是Google開發(fā)的一種簡化的分布式編程模型和高效的任務調度模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算,使云計算環(huán)境下的編程變得十分簡單。

        MapReduce將數(shù)據(jù)處理任務抽象為一系列的Map(映射)和Reduce(化簡)操作對。Map主要完成數(shù)據(jù)的分解操作,Reduce主要完成數(shù)據(jù)的聚集操作.輸入輸出數(shù)據(jù)均以〈key,value〉格式存儲.用戶在使用該編程模型時,只需按照自己熟悉的語言實現(xiàn)Map函數(shù)和Reduce函數(shù)即可,MapReduce算法框架會自動對任務進行劃分以做到并行執(zhí)行。

        Pregel是Google 提出的迭代處理計算框架,它具有高效、可擴展和容錯的特性,并隱藏了分布式相關的細節(jié),展現(xiàn)給人們的僅僅是一個表現(xiàn)力很強、很容易編程的大型圖算法處理的計算框架。Pregel的主要應用場景是大型的圖計算,例如交通線路、疾病爆發(fā)路徑、WEB 搜索等相關領域。

        2.2分布式文件系統(tǒng)

        為保證高可用、高可靠和經濟性,基于云計算的大數(shù)據(jù)處理系統(tǒng)采用分布式存儲的方式來保存數(shù)據(jù),用冗余存儲的方式保證數(shù)據(jù)的可靠性。目前廣泛使用的分布式文件系統(tǒng)是Google的GFS和Hadoop團隊開發(fā)的GFS的開源實現(xiàn)HDFS。

        GFS即Google文件系統(tǒng),是一個可擴展的分布式文件系統(tǒng),用于大型的、分布式的、對大量數(shù)據(jù)進行訪問的應用。GFS的設計思想不同于傳統(tǒng)的文件系統(tǒng),是針對大規(guī)模數(shù)據(jù)處理和Google應用特性而設計的,運行成本低廉,并提供容錯功能。

        HDFS即Hadoop分布式文件系統(tǒng),受到GFS很大啟發(fā),具有高容錯性,并且可以被部署在低價的硬件設備之上。HDFS很適合那些有大數(shù)據(jù)集的應用,并且提供了數(shù)據(jù)讀寫的高吞吐率。HDFS是一個master/slave的結構,在master上只運行一個Namenode,而在每一個slave上運行一個Datanode。HDFS支持傳統(tǒng)的層次文件組織結構,對文件系統(tǒng)的操作(如建立、刪除文件和文件夾)都是通過Namenode來控制,Datanode用來存放數(shù)據(jù)塊。

        2.3大數(shù)據(jù)管理技術

        互聯(lián)網(wǎng)數(shù)據(jù)已超出關系型數(shù)據(jù)庫的管理范疇,電子郵件、超文本、博客、標簽(Tag)以及圖片、音視頻等各種非結構化數(shù)據(jù)逐漸成為大數(shù)據(jù)的重要組成部分,而面向結構化數(shù)據(jù)存儲的關系型數(shù)據(jù)庫已經不能滿足數(shù)據(jù)快速訪問、大規(guī)模數(shù)據(jù)分析的需求,隨之而來,一系列新型的大數(shù)據(jù)管理技術和工具應運而生。

        2.3.1 非關系型數(shù)據(jù)庫

        NoSQL,也有人理解為Not Only SQL,它是一類非關系型數(shù)據(jù)庫的統(tǒng)稱。其特點是:沒有固定的數(shù)據(jù)表模式、可以分布式和水平擴展。NoSQL并不是單純的反對關系型數(shù)據(jù)庫,而是針對其缺點的一種補充和擴展。典型的NoSQL數(shù)據(jù)存儲模型有文檔存儲、鍵-值存儲、圖存儲、對象數(shù)據(jù)、列存儲等。而比較流行的,不得不提到Google的Bigtable,它把所有數(shù)據(jù)都作為對象來處理,形成一個巨大的表格,用來分布存儲大規(guī)模結構化數(shù)據(jù),數(shù)據(jù)量可達PB級。而HBase是Hadoop團隊基于Bigtable的開源實現(xiàn),使用HDFS作為其文件存儲系統(tǒng)。同時,Cassandra(K/V型數(shù)據(jù)庫)、MongoDB(文檔數(shù)據(jù)庫)和Redis等一系列優(yōu)秀的非關系型數(shù)據(jù)庫產品如雨后春筍般問世。

        2.3.2 數(shù)據(jù)查詢工具

        Hive是Facebook提出的基于Hadoop的大型數(shù)據(jù)倉庫,其目標是簡化Hadoop上的數(shù)據(jù)聚集、即席查詢及大數(shù)據(jù)集的分析等操作,以減輕程序員的負擔.它借鑒關系數(shù)據(jù)庫的模式管理、SQL接口等技術,把結構化的數(shù)據(jù)文件映射為數(shù)據(jù)庫表,提供類似于SQL的描述性語言HiveQL供程序員使用,可自動將HiveQL語句解析成一優(yōu)化的MapReduce任務執(zhí)行序列.此外,它也支持用戶自定義的MapReduce函數(shù)。

        PigLatin是Yahoo!提出的類似于Hive的大數(shù)據(jù)集分析平臺.兩者的區(qū)別主要在于語言接口.Hive提供了類似SQL的接口,PigLatin提供的是一種基于操作符的數(shù)據(jù)流式的接口.可以說Pig利用操作符來對Hadoop進行封裝,Hive利用SQL進行封裝。

        Google Dremel是個可擴展的、交互式的即時查詢系統(tǒng),用于完成大規(guī)模查詢結構化數(shù)據(jù)集(如日志和事件文件)。它支持類SQL語法,區(qū)別在于它只能查詢,不支持修改或者創(chuàng)建功能,也沒有表索引。數(shù)據(jù)被列式存儲,這樣有助于提升查詢的速度。Google將Dremel作為MapReduce的一種補充,被用于分析MapReduce的結果或者是作為大規(guī)模計算的測試。

        2.4實時流處理技術

        伴隨著互聯(lián)網(wǎng)業(yè)務發(fā)展的步調,以及業(yè)務流程的復雜化,企業(yè)的注意力越來越集中在“數(shù)據(jù)流”而非“數(shù)據(jù)集”上面,他們需要的是能夠處理隨時發(fā)生的數(shù)據(jù)流的架構,現(xiàn)有的分布式計算架構并不適合數(shù)據(jù)流處理。流計算強調的是數(shù)據(jù)流的形式和實時性。MapReduce系統(tǒng)主要解決的是對靜態(tài)數(shù)據(jù)的批量處理,當MapReduce任務啟動時,一般數(shù)據(jù)已經到位了(比如保存到了分布式文件系統(tǒng)上),而流式計算系統(tǒng)在啟動時,一般數(shù)據(jù)并沒有完全到位,而是經由外部數(shù)據(jù)源源不斷地流入,重視的是對數(shù)據(jù)處理的低延遲,希望進入的數(shù)據(jù)越快處理越好。數(shù)據(jù)越快被處理,結果就越有價值,這也是實時處理的價值所在。

        流計算的數(shù)據(jù)本身就是數(shù)據(jù)流,不需要數(shù)據(jù)準備的時間,有數(shù)據(jù)流入就開始計算,解決了數(shù)據(jù)準備和延遲的兩個問題。現(xiàn)有的解決方案中,Twitter的Storm和雅虎的S4框架更適合數(shù)據(jù)流計算的場景。Storm是開源的分布式實時計算系統(tǒng),可以可靠的處理流式數(shù)據(jù)并進行實時計算,單機性能可達到百萬記錄每秒,開發(fā)語言為Clojure和Java,并具備容錯特性。S4是面向流式數(shù)據(jù)和實時處理的,所以針對實時性較高的業(yè)務,可以很好地對數(shù)據(jù)做出高效的分析處理,而且系統(tǒng)一旦上線,很少需要人工干預,源源不斷的數(shù)據(jù)流會被自動路由并分析。對于海量數(shù)據(jù),它和MapReduce都可以應對,但它能比后者更快地處理數(shù)據(jù)。

        三、思考與展望

        以云計算為基礎的信息存儲、分享和挖掘手段為知識生產提供了工具,通過對大數(shù)據(jù)分析、預測會使得決策更為精準,這對媒體融合具有重要意義。

        新聞媒體的數(shù)據(jù)庫中擁有海量信息存儲,這些多媒體數(shù)據(jù)包括文字,圖片,視頻和音頻等多種格式,符合大數(shù)據(jù)處理的基本特征,利用大數(shù)據(jù)技術對這些資源進行存儲,計算和分析,了解用戶行為,挖掘數(shù)據(jù)本質和關聯(lián),為領導提供決策支持,為終端用戶提供更好的服務和新聞定制,增強新聞信息產品的質量和影響力。

        如今,在開源社區(qū),圍繞Google MapReduce框架,已經成長出了一批優(yōu)秀的開源項目。這些項目在技術和實現(xiàn)上相互支持和依托,逐漸形成了一個特有的“大數(shù)據(jù)”生態(tài)系統(tǒng)。系統(tǒng)為我們實現(xiàn)優(yōu)質廉價的大數(shù)據(jù)分析和管理提供了堅實的技術基礎。

        新聞媒體可以順應大數(shù)據(jù)的技術趨勢,加強技術調研,早日選型,搭建大數(shù)據(jù)處理平臺,利用云計算項目資源,將海量數(shù)據(jù)統(tǒng)籌管理,通過分析和挖掘,實現(xiàn)新聞產品的創(chuàng)新和跨越式發(fā)展,以現(xiàn)代化的傳播手段向世界展示中國。

        猜你喜歡
        云計算大數(shù)據(jù)
        基于云計算的移動學習平臺的設計
        實驗云:理論教學與實驗教學深度融合的助推器
        大學教育(2016年9期)2016-10-09 08:54:03
        云計算中的存儲虛擬化技術應用
        科技視界(2016年20期)2016-09-29 13:34:06
        基于大數(shù)據(jù)背景下的智慧城市建設研究
        科技視界(2016年20期)2016-09-29 10:53:22
        无码精品a∨在线观看十八禁| 国产情侣亚洲自拍第一页| 国产精品一区二区三区专区| 岳好紧好湿夹太紧了好爽矜持| 国产精品6| 中文字幕一区二区三区97| 日本人妻精品有码字幕| 亚洲人成人无码www影院| 最好看2019高清中文字幕视频| 亚洲av福利天堂在线观看 | 亚洲精品一区二区视频| 成人影院视频在线免费观看| 日韩乱码人妻无码中文字幕久久| 日韩中文字幕欧美亚洲第一区| 国产免费人成视频在线观看播放| 一区二区在线观看视频高清| 亚洲精品www久久久| 国产成人精品三级91在线影院| 中文字幕乱码琪琪一区| 人妻少妇进入猛烈时中文字幕| 黄瓜视频在线观看| 97福利视频| 偷偷夜夜精品一区二区三区蜜桃| 狠狠色丁香婷婷久久综合| 亚洲中文字幕无码久久2020| 两个人免费视频大全毛片| 国产av一卡二卡日韩av| 少妇粉嫩小泬喷水视频www| 96免费精品视频在线观看| 国产一级黄片久久免费看| 色爱情人网站| 疯狂做受xxxx高潮欧美日本| 亚洲AV小说在线观看| 狠色人妻丝袜中文字幕| 少妇太爽了在线观看免费视频| 97色偷偷色噜噜狠狠爱网站97| 女人天堂av免费在线| 亚洲一区二区丝袜美腿| 国产美女高潮流白浆免费视频| 九九99久久精品国产| 亚洲第一区无码专区|