亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Hadoop生態(tài)系統(tǒng)的大數(shù)據(jù)解決方案

        2019-06-26 01:31:56韓朵朵劉會(huì)杰許愛(ài)雪
        關(guān)鍵詞:結(jié)構(gòu)化解決方案數(shù)據(jù)庫(kù)

        韓朵朵 劉會(huì)杰 許愛(ài)雪

        (石家莊鐵路職業(yè)技術(shù)學(xué)院 河北石家莊 050041)

        1 引言

        隨著21世紀(jì)進(jìn)入信息化時(shí)代,由人類(lèi)日益普遍的網(wǎng)絡(luò)行為伴生的數(shù)據(jù)信息量呈爆發(fā)式增長(zhǎng),大數(shù)據(jù)概念也應(yīng)運(yùn)而生。由于大數(shù)據(jù)包含了超出傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)處理能力的海量數(shù)據(jù),處理這些信息時(shí)必須采用與傳統(tǒng)數(shù)據(jù)處理方式不同的解決方案。目前,圍繞大數(shù)據(jù)的相關(guān)研究已經(jīng)大量存在,主要集中在對(duì)數(shù)據(jù)的快速捕獲、管理、存儲(chǔ)和分析等關(guān)鍵問(wèn)題的解決上。其中,由Apache軟件基金研發(fā)的Hadoop技術(shù)在大數(shù)據(jù)分析處理領(lǐng)域占據(jù)了主流地位。

        本文介紹了大數(shù)據(jù)的概念及Hadoop生態(tài)系統(tǒng)的組成框架,重點(diǎn)從大數(shù)據(jù)平臺(tái)中面臨的數(shù)據(jù)存儲(chǔ)、分析、管理及安全等關(guān)鍵問(wèn)題入手,對(duì)基于Hadoop生態(tài)系統(tǒng)的解決方案進(jìn)行了分析綜述,并結(jié)合實(shí)際指出基于Hadoop的大數(shù)據(jù)平臺(tái)的研究和應(yīng)用發(fā)展方向。

        1.1 大數(shù)據(jù)特征

        當(dāng)數(shù)據(jù)量超過(guò)一定規(guī)模,致使常規(guī)軟件不能在可接受的時(shí)長(zhǎng)內(nèi)完成對(duì)數(shù)據(jù)的捕獲、管理和處理工作時(shí),這些數(shù)據(jù)即可稱(chēng)為大數(shù)據(jù)(big data)。大數(shù)據(jù)是物理世界在數(shù)字空間的映射,通過(guò)大數(shù)據(jù)平臺(tái)有效組織各類(lèi)數(shù)據(jù),模擬物理世界屬性,即可用來(lái)分析和服務(wù)現(xiàn)實(shí)世界,這也是大數(shù)據(jù)所追求的最終目的。大數(shù)據(jù)具有典型的“4V”特征,分別為:

        (1)體量(Volume):數(shù)據(jù)量級(jí)高,從TB量級(jí)躍增到PB量級(jí),并持續(xù)增高。

        (2)速度(Velocity):處理速度快,對(duì)于時(shí)間敏感的數(shù)據(jù)處理,一般要在秒級(jí)給出分析結(jié)果,時(shí)間太長(zhǎng)就失去價(jià)值。比如發(fā)現(xiàn)詐騙事件,數(shù)據(jù)就必須要及時(shí)反饋給相應(yīng)機(jī)構(gòu)。

        (3)多樣性(Variety):數(shù)據(jù)結(jié)構(gòu)復(fù)雜,包括各種結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),類(lèi)型涵蓋視頻、文本、音頻、圖片和日志數(shù)據(jù)等。

        (4)價(jià)值(Value):價(jià)值密度低但存在著可觀的商業(yè)價(jià)值,例同監(jiān)控視頻,連續(xù)不停頓的畫(huà)面里,有價(jià)值的可能僅有幾秒。

        1.2 Hadoop生態(tài)系統(tǒng)

        目前,遍觀國(guó)內(nèi)外現(xiàn)有的各種模式的大數(shù)據(jù)解決方案,由Apache軟件基金研發(fā)的Hadoop技術(shù)迅速崛起,并逐步演化形成了一個(gè)生態(tài)系統(tǒng),奠定了其在大數(shù)據(jù)分析處理領(lǐng)域的主流地位。Hadoop生態(tài)系統(tǒng)基本框架如圖1所示[1],其中最核心的是底層的Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)和MapReduce編程框架,除此之外,還包括與之緊密關(guān)聯(lián)的HBase數(shù)據(jù)庫(kù)集群和ZooKeeper集群。需要指出的是,Hadoop生態(tài)系統(tǒng)中有的技術(shù)并不是由Apache組織提出的。例如HadoopDB屬于Yale大學(xué),HOP屬于Google,Ganglia屬于UC Berkeley。

        圖1 Hadoop生態(tài)系統(tǒng)基本框架

        2 Hadoop關(guān)鍵技術(shù)及應(yīng)用

        構(gòu)建一個(gè)能夠有效支撐大數(shù)據(jù)應(yīng)用的平臺(tái),需要著重考慮幾個(gè)關(guān)鍵問(wèn)題:大數(shù)據(jù)的存儲(chǔ)、大數(shù)據(jù)的分析、大數(shù)據(jù)的管理以及大數(shù)據(jù)的安全,而Hadoop系統(tǒng)在這些問(wèn)題的處理上都有著較明顯的優(yōu)勢(shì)。

        2.1 大數(shù)據(jù)的存儲(chǔ)問(wèn)題

        據(jù)統(tǒng)計(jì),當(dāng)前中國(guó)的數(shù)據(jù)量占了全球數(shù)據(jù)量的約13%,到2020年全球數(shù)據(jù)將可能達(dá)到40ZB,這些數(shù)據(jù)的類(lèi)型以半結(jié)構(gòu)化和非結(jié)構(gòu)化為主,而傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)系統(tǒng)比如SQL Server、Oracle等僅適于處理結(jié)構(gòu)化數(shù)據(jù),對(duì)于半結(jié)構(gòu)和非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)還需要開(kāi)發(fā)尋找其他合適的新系統(tǒng)。這類(lèi)系統(tǒng)需具有高性價(jià)比、高可靠性和容量可橫向擴(kuò)展等特點(diǎn),并且滿足分布式計(jì)算的需求。為此,Google設(shè)計(jì)了以GFS為基礎(chǔ)的Bigtable分布式數(shù)據(jù)存儲(chǔ)系統(tǒng),并將其應(yīng)用到公司內(nèi)部多個(gè)項(xiàng)目中,比如存儲(chǔ)網(wǎng)絡(luò)爬蟲(chóng)大數(shù)據(jù)、用戶Web請(qǐng)求的日志大數(shù)據(jù)等。HP利用StoreAll解決非結(jié)構(gòu)化大數(shù)據(jù)的存儲(chǔ)問(wèn)題,可在單一命名空間內(nèi)支持文件存儲(chǔ)的同時(shí)支持對(duì)象存儲(chǔ),并且總數(shù)據(jù)量可達(dá)16PB。

        目前,Hadoop生態(tài)系統(tǒng)是大數(shù)據(jù)研究中最熱門(mén)的解決方案之一,其通過(guò)HDFS分布式文件系統(tǒng)來(lái)解決非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ),通過(guò)HBase項(xiàng)目來(lái)解決結(jié)構(gòu)化數(shù)據(jù)或半結(jié)構(gòu)化數(shù)據(jù)。HDFS類(lèi)同于Google的GFS,以Master/Slave形式為架構(gòu),以“一次寫(xiě)入,多次讀取”訪問(wèn)方式為核心設(shè)計(jì)思想,將需要存儲(chǔ)的大文件進(jìn)行分割,形成Block數(shù)據(jù)塊分別存放,從而完成大數(shù)據(jù)的存儲(chǔ)。對(duì)大數(shù)據(jù)進(jìn)行存儲(chǔ)主要依賴(lài)于并行數(shù)據(jù)庫(kù),通過(guò)對(duì)數(shù)據(jù)的各個(gè)節(jié)點(diǎn)并行來(lái)實(shí)現(xiàn)對(duì)數(shù)據(jù)庫(kù)執(zhí)行的目的,但并行數(shù)據(jù)庫(kù)在讀寫(xiě)并行上存在一定制約,所以大家一般盡可能采用移動(dòng)終端對(duì)信息進(jìn)行存儲(chǔ),而不使用并行數(shù)據(jù)庫(kù)。

        2.2 大數(shù)據(jù)的分析問(wèn)題

        大數(shù)據(jù)不同于海量數(shù)據(jù),簡(jiǎn)單來(lái)說(shuō),大數(shù)據(jù)=海量數(shù)據(jù)+復(fù)雜類(lèi)型的數(shù)據(jù)。在生態(tài)系統(tǒng)出現(xiàn)之前,商業(yè)并行數(shù)據(jù)庫(kù)是對(duì)海量數(shù)據(jù)進(jìn)行分析的主要手段,這些并行數(shù)據(jù)庫(kù)主要采用的是shared-nothing架構(gòu),獨(dú)立設(shè)置網(wǎng)絡(luò)中每個(gè)Slave節(jié)點(diǎn)的本地CPU、本地存儲(chǔ)、本地內(nèi)存和本地?cái)?shù)據(jù)庫(kù)管理系統(tǒng),保持各個(gè)Slave節(jié)點(diǎn)間的獨(dú)立性。作為所有Slave節(jié)點(diǎn)的管理員,Master節(jié)點(diǎn)負(fù)責(zé)將客戶端提交的SQL查詢?nèi)蝿?wù)進(jìn)行透明化分解,分配給多個(gè)Slave節(jié)點(diǎn)并行執(zhí)行。

        借助數(shù)據(jù)庫(kù)領(lǐng)域成熟領(lǐng)先的優(yōu)化技術(shù),如索引、數(shù)據(jù)壓縮等,并行數(shù)據(jù)庫(kù)在結(jié)構(gòu)化數(shù)據(jù)分析上表現(xiàn)出超強(qiáng)的性能優(yōu)勢(shì)。但是隨著以半結(jié)構(gòu)化和非結(jié)構(gòu)化為主的大數(shù)據(jù)出現(xiàn),并行數(shù)據(jù)庫(kù)的先天不足就開(kāi)始顯現(xiàn)出來(lái),主要表現(xiàn)在可擴(kuò)展性差,容錯(cuò)性能低和同構(gòu)性不足幾個(gè)方面。而最初就是針對(duì)大數(shù)據(jù)特征提出的Hadoop生態(tài)系統(tǒng),彌補(bǔ)了在半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)處理上的這些不足,并且隨著生態(tài)系統(tǒng)性能的不斷優(yōu)化調(diào)整,Hadoop的這種優(yōu)勢(shì)會(huì)越來(lái)越明顯。

        Hadoop主要由兩部分組成:底部是HDFS,負(fù)責(zé)存儲(chǔ)工作,上部是MapReduce引擎,負(fù)責(zé)對(duì)大數(shù)據(jù)集進(jìn)行并行處理。MapReduce是一種簡(jiǎn)化的分布式編程模式,核心思想是Map和Reduce,即任務(wù)的分解與結(jié)果的匯總,該種方式編寫(xiě)的程序會(huì)被分布到一個(gè)超大集群中的若干個(gè)普通機(jī)器上并行執(zhí)行。作為影響MapReduce執(zhí)行效率的主要因素,調(diào)度算法的研究至關(guān)重要。目前常用的調(diào)度算法,如MapReduce提供的fair調(diào)度、FIFO調(diào)度及Chen Quan等人提出的“自適應(yīng)調(diào)度”算法,其主要思想和方法依然局限在分布式系統(tǒng)、操作系統(tǒng)或網(wǎng)格計(jì)算中。近些年針對(duì)MapReduce的計(jì)算模型的改進(jìn)研究,主要集中在數(shù)據(jù)集的掃描、分解和歸約等方面的并行性上,通過(guò)結(jié)合具體應(yīng)用來(lái)比較不同方法適用的數(shù)據(jù)類(lèi)型及性能優(yōu)劣。

        2.3 大數(shù)據(jù)的管理問(wèn)題

        一個(gè)Hadoop大數(shù)據(jù)解決方案只有有了一體化的管理系統(tǒng)才算得上是完備的,因?yàn)檫@個(gè)系統(tǒng)解決方案涉及太多方面,比如復(fù)雜的數(shù)據(jù)類(lèi)型和數(shù)據(jù)來(lái)源、大量機(jī)器構(gòu)成的Hadoop集群和其它小集群、大量參數(shù)的配置和優(yōu)化、多個(gè)作業(yè)的部署和運(yùn)行等[5]。離開(kāi)了專(zhuān)門(mén)的管理工具或系統(tǒng),系統(tǒng)就難以得到提升,系統(tǒng)推廣也就非常受限了。所以企業(yè)在利用Hadoop生態(tài)系統(tǒng)構(gòu)建平臺(tái)后,均會(huì)開(kāi)發(fā)專(zhuān)門(mén)的管理工具或系統(tǒng)。

        實(shí)際上,每個(gè)生態(tài)系統(tǒng)項(xiàng)目均會(huì)帶有一些基本工具,以HDFS和Hadoop MapReduce為例,有Eclipse插件、Web接口和Shell接口,但是功能尚不完善[5]。目前,Hadoop大數(shù)據(jù)管理工作中應(yīng)用較為廣泛的是Sqoop和Ganglia兩個(gè)項(xiàng)目,Sqoop主要實(shí)現(xiàn)的是Hadoop生態(tài)系統(tǒng)內(nèi)外數(shù)據(jù)轉(zhuǎn)換的工作,Ganglia可以Web的方式來(lái)實(shí)現(xiàn)監(jiān)控Hadoop集群[9]。

        2.4 大數(shù)據(jù)的安全問(wèn)題

        在開(kāi)發(fā)之初,Hadoop優(yōu)先考慮的是功能,安全問(wèn)題并未得到過(guò)多考慮,而實(shí)際上大數(shù)據(jù)中可能包含大量的用戶敏感數(shù)據(jù)和隱私信息,隨著Hadoop大數(shù)據(jù)平臺(tái)應(yīng)用日益廣泛,企業(yè)不得不考慮如何保護(hù)這些敏感數(shù)據(jù),尤其是想將大數(shù)據(jù)放進(jìn)公用云上。因此,針對(duì)Hadoop平臺(tái)可能存在的安全隱患,開(kāi)發(fā)者們通過(guò)加強(qiáng)平臺(tái)的身份驗(yàn)證、訪問(wèn)授權(quán)、數(shù)據(jù)加密和操作審計(jì)等管控手段,對(duì)應(yīng)不同應(yīng)用場(chǎng)景設(shè)計(jì)出實(shí)用化的安全管控產(chǎn)品。

        2009年,基于Kerberos的用戶身份驗(yàn)證方案的提出,正式拉開(kāi)了Hadoop平臺(tái)安全管控研究工作的大幕。2013年,Intel牽頭啟動(dòng)了開(kāi)源項(xiàng)目“Project Rhino”,致力于增強(qiáng)Hadoop平臺(tái)安全管控能力。到目前為止,通過(guò)引入Kerberos、配置防火墻、基礎(chǔ)的HDFS權(quán)限和ACLs,已經(jīng)形成了一套能滿足眾多組件且能橫向擴(kuò)展的安全管控基本解決方案。但其實(shí),要實(shí)現(xiàn)Kerberos與Hadoop服務(wù)的完美整合,還需要做一系列復(fù)雜的配置工作,導(dǎo)致其易用性表現(xiàn)較差,安全問(wèn)題依舊有待得到更好地解決。

        2.5 Hadoop商業(yè)應(yīng)用與發(fā)展

        大數(shù)據(jù)的戰(zhàn)略意義在于從海量的數(shù)據(jù)中挖掘出有用的價(jià)值。譬如企業(yè)進(jìn)行大數(shù)據(jù)分析,期望從中發(fā)現(xiàn)隱含的商業(yè)價(jià)值,以便更好地提高產(chǎn)品和服務(wù)質(zhì)量。所以目前,Hadoop在商業(yè)領(lǐng)域應(yīng)用較多且取得了很大創(chuàng)新,商業(yè)應(yīng)用更加注重處理的效率和運(yùn)維的成本。其中,Cloudera CDH,Hortonworks和MapR 3家公司發(fā)行的Hadoop商業(yè)版本較為流行,通過(guò)對(duì)Apache的Hadoop進(jìn)行打包、改進(jìn),為確保生態(tài)圈的所有軟件協(xié)調(diào)工作提供技術(shù)支持。

        在國(guó)外,作為大數(shù)據(jù)市場(chǎng)的積極推動(dòng)者,Google,IBM,Yahoo等巨頭也都是Hadoop的最大的應(yīng)用者。藍(lán)云Bluemix是IBM構(gòu)建云框架的基礎(chǔ)設(shè)施,基于Apache Hadoop構(gòu)建的IBM InfoSphere Biginsights可提供大規(guī)模的靜態(tài)數(shù)據(jù)分析功能,實(shí)時(shí)數(shù)據(jù)則可通過(guò)Infosphere Streams采用內(nèi)存計(jì)算方式分析。Amazon基于Hadoop構(gòu)建了A9.com,以此實(shí)現(xiàn)強(qiáng)大的商品搜索索引功能。Facebook使用Hadoop存儲(chǔ)內(nèi)部日志與多維數(shù)據(jù),基于Hive等進(jìn)行日志分析和數(shù)據(jù)挖掘。Twitter的微博數(shù)據(jù)、日志文件和中間數(shù)據(jù)的存儲(chǔ)依靠Hadoop的HDFS完成,并采用Cloudera's CDH2系統(tǒng)來(lái)存儲(chǔ)壓縮數(shù)據(jù)[12]。

        在國(guó)內(nèi),越來(lái)越多的企業(yè)加入到應(yīng)用和研究Hadoop的行列,主要包括傳統(tǒng)企業(yè)如百度、淘寶、騰訊、網(wǎng)易等互聯(lián)網(wǎng)公司以及中國(guó)移動(dòng)、華為、農(nóng)業(yè)銀行等。阿里巴巴是國(guó)內(nèi)首先使用Hadoop的公司之一,百度是目前Hadoop的最大使用者之一,每天處理的數(shù)據(jù)量高達(dá)9000TB,針對(duì)自身需求百度對(duì)Hadoop進(jìn)行了改進(jìn),開(kāi)發(fā)了HCE(HadoopC++)系統(tǒng)以及自己的日志分析平臺(tái)、數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)等,為公司業(yè)務(wù)提供分析計(jì)算和存儲(chǔ)服務(wù)[12]。騰訊基于Hadoop和Hive構(gòu)建了分布式數(shù)據(jù)倉(cāng)庫(kù)TDW(Tencent distributed Data Warehouse),克服了傳統(tǒng)數(shù)據(jù)庫(kù)可控性差,無(wú)法線性擴(kuò)展的缺陷,目前改進(jìn)為基于Spark框架。中國(guó)移動(dòng)在通信領(lǐng)域廣泛使用Hadoop,利用HDFS實(shí)現(xiàn)數(shù)據(jù)分布式存儲(chǔ),利用MapReduce進(jìn)行分布式數(shù)據(jù)處理。華為構(gòu)建了FusionInsight大數(shù)據(jù)平臺(tái),通過(guò)實(shí)時(shí)數(shù)據(jù)處理引擎,以事件驅(qū)動(dòng)模式有效地解決了高速事件流的實(shí)時(shí)計(jì)算問(wèn)題。

        3 結(jié)語(yǔ)

        目前,大數(shù)據(jù)和Hadoop生態(tài)系統(tǒng)都處于一個(gè)快速發(fā)展的時(shí)期,相互影響和促進(jìn)。而Hadoop生態(tài)系統(tǒng)符合大數(shù)據(jù)本質(zhì)特點(diǎn),其成員具有多樣性、靈活性、擴(kuò)展性,尤其是對(duì)中小型用戶具有很大的吸引力,能按企業(yè)業(yè)務(wù)需求進(jìn)行比較自由的組合,相信利用Hadoop生態(tài)系統(tǒng)構(gòu)建小企業(yè)的大數(shù)據(jù)平臺(tái)將會(huì)成為一個(gè)趨勢(shì)。

        另外,雖然圍繞大數(shù)據(jù)平臺(tái)的研究已經(jīng)大量存在,但還有一些問(wèn)題有待進(jìn)一步解決:一是技術(shù)推廣,二是標(biāo)準(zhǔn)和法規(guī)的制定,三是應(yīng)用系統(tǒng)(平臺(tái))之間的兼容和整合,四是提高數(shù)據(jù)應(yīng)用能力,相信隨著研究的不斷深入,這些問(wèn)題都可以慢慢得到解決或改進(jìn)。

        猜你喜歡
        結(jié)構(gòu)化解決方案數(shù)據(jù)庫(kù)
        解決方案和折中方案
        促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
        結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
        簡(jiǎn)潔又輕松的Soundbar環(huán)繞聲解決方案
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        4G LTE室內(nèi)覆蓋解決方案探討
        基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
        水蜜桃精品视频在线观看| 国内少妇毛片视频| 国产精品一区二区无线| 真正免费一级毛片在线播放| 精品999无码在线观看| 久久精品国产熟女亚洲av麻豆 | 能看的网站中文字幕不卡av | 天天躁日日躁aaaaxxxx| 亚洲乱亚洲乱少妇无码99p| 亚洲三级香港三级久久| 日本一区二三区在线中文| 国产乱码人妻一区二区三区| 久久久精品人妻久久影视| 亚洲av无码一区二区乱子仑| 亚洲男人天堂2019| 国产精品亚洲美女av网站| 日本一二三区免费在线| 国产午夜福利不卡在线观看| 日韩中文无线码在线视频观看| 欧美在线观看www| 伊人久久大香线蕉av不变影院| 夜夜躁狠狠躁日日躁2022| 黑人巨大videos极度另类 | 日本午夜免费福利视频| 国产又爽又黄又不遮挡视频| 久久综合精品国产丝袜长腿| 白丝兔女郎m开腿sm调教室| 欧美一欧美一区二三区性| 尤物成av人片在线观看| 日韩经典午夜福利发布| 久久久精品人妻一区二区三区四| 高清国产亚洲va精品| 夜夜高潮夜夜爽免费观看| 午夜精品久久久久久99热| 欧美成人www免费全部网站| 日本国产精品高清在线| 久久精品中文字幕| 亚洲综合色成在线播放| 亚洲av网站首页在线观看| 亚洲综合av一区二区三区蜜桃| 99精品热这里只有精品|