亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)關(guān)鍵技術(shù)分析及系統(tǒng)實(shí)例分析

        2016-04-29 02:56:08溫玉杰
        中國(guó)科技博覽 2016年10期
        關(guān)鍵詞:大數(shù)據(jù)分析

        溫玉杰

        [摘 要]根據(jù)大數(shù)據(jù)處理形式不同,將大數(shù)據(jù)計(jì)算分為批量處理計(jì)算和流式處理計(jì)算,對(duì)大數(shù)據(jù)中的批量處理計(jì)算和流式處理計(jì)算進(jìn)行了分析,介紹了不用的大數(shù)據(jù)應(yīng)用場(chǎng)景、數(shù)據(jù)特征和代表性處理系統(tǒng),分析批量計(jì)算中的關(guān)鍵技術(shù)(系統(tǒng)架構(gòu)、分布式文件系統(tǒng)、分布式數(shù)據(jù)處理系統(tǒng))和流式計(jì)算關(guān)鍵技術(shù)(系統(tǒng)架構(gòu)、數(shù)據(jù)傳輸、編程接口)。

        [關(guān)鍵詞]大數(shù)據(jù)分析 批量處理計(jì)算 流式處理計(jì)算

        中圖分類號(hào):X734.2 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-914X(2016)10-0206-01

        1 引言

        隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,物聯(lián)網(wǎng)技術(shù)、移動(dòng)互聯(lián)技術(shù)、社交媒體等技術(shù)及其應(yīng)用在是越來(lái)越多,全球的數(shù)據(jù)急劇膨脹,人類已經(jīng)步入了大數(shù)據(jù)的時(shí)代。大數(shù)據(jù)中包含著大量的隱含信息,需要從這些隱含的信息中提取有價(jià)值的大知識(shí),這些大的知識(shí)將在更高的層面上、更廣闊的視角、更大范圍內(nèi)對(duì)用戶提供洞察力、決策力,為人類以及社會(huì)創(chuàng)造更大的利益以及價(jià)值。目前主流的大數(shù)據(jù)庫(kù)計(jì)算模式分為兩種,分別為批量式計(jì)算和流式計(jì)算兩種模式。

        在批量計(jì)算模式中,首先是需要對(duì)海量數(shù)據(jù)進(jìn)行存儲(chǔ),然后對(duì)這些存儲(chǔ)的靜態(tài)數(shù)據(jù)進(jìn)行集中起來(lái)進(jìn)行計(jì)算,目前的Hadoop就是一種非常典型的批量計(jì)算架構(gòu);在流式計(jì)算模式中,無(wú)法確定數(shù)據(jù)的到來(lái)時(shí)刻以及數(shù)據(jù)的次序,也不用將數(shù)據(jù)全部進(jìn)行存儲(chǔ)起來(lái)進(jìn)行計(jì)算。而是當(dāng)這些流動(dòng)的數(shù)據(jù)到來(lái)之后直接在內(nèi)存中進(jìn)行實(shí)時(shí)性的處理,典型的Twitter、Storm、Yahoo的S4就是這種流式的數(shù)據(jù)計(jì)算模式。

        2 應(yīng)用場(chǎng)景及數(shù)據(jù)特征

        2.1 批量處理系統(tǒng)

        對(duì)于批量處理系統(tǒng)來(lái)說(shuō),這類系統(tǒng)比較適合對(duì)于靜態(tài)數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,從海量信息中獲取具體的含義,得到很明智的決策,最終為領(lǐng)導(dǎo)提供輔助決策制定相應(yīng)的應(yīng)對(duì)措施來(lái)實(shí)現(xiàn)業(yè)務(wù)目標(biāo)。大數(shù)據(jù)中的批量處理系統(tǒng)適合先進(jìn)行存儲(chǔ)然后進(jìn)行計(jì)算,對(duì)于數(shù)據(jù)處理的實(shí)時(shí)性要求不是很高,但是對(duì)于數(shù)據(jù)的準(zhǔn)確性和全面性要求更高。

        2.1.1 數(shù)據(jù)特征

        對(duì)于批量數(shù)據(jù)來(lái)說(shuō),通常具備三個(gè)典型的特征,(1)數(shù)據(jù)量比較大,數(shù)據(jù)量從TB級(jí)別到PB級(jí)別,數(shù)據(jù)主要是以靜態(tài)的形式存儲(chǔ)在磁盤上,存儲(chǔ)的時(shí)間比較大,一般不進(jìn)行數(shù)據(jù)的更新數(shù)據(jù),海量數(shù)據(jù)可以重復(fù)進(jìn)行使用,這種數(shù)據(jù)不容易移動(dòng)以及備份處理;(2)數(shù)據(jù)的精度比較高,存儲(chǔ)的這些數(shù)據(jù)一般是屬于企業(yè)中的一部分,是長(zhǎng)時(shí)間積累下來(lái)的;(3)數(shù)據(jù)價(jià)值密度相對(duì)來(lái)說(shuō)比較低。往往有價(jià)值的信息比較少,因此需要采用合理的分析算法對(duì)這些批量數(shù)據(jù)進(jìn)行信息抽取,同時(shí)處理批量數(shù)據(jù)比較耗時(shí),一般不提供交互功能,當(dāng)提取結(jié)果與預(yù)期差別很大時(shí),會(huì)浪費(fèi)很多時(shí)間。因此,批量處理系統(tǒng)比較適合相對(duì)比較成熟的作業(yè)。

        2.1.2 代表性處理系統(tǒng)

        對(duì)于批處理系統(tǒng)來(lái)說(shuō),比較典型的代表是由Google公司開(kāi)發(fā)的文件系統(tǒng)GFS(google File System)和研發(fā)的MapReduce編程模型。雖然Google公司沒(méi)有對(duì)這兩項(xiàng)技術(shù)進(jìn)行源碼的公開(kāi),但是基于發(fā)表的兩篇文章,Nutch子項(xiàng)目中的Hadoop實(shí)現(xiàn)了開(kāi)源的兩個(gè)產(chǎn)品:HDFS和MapReduce。Hadoop成為批量處理架構(gòu)中非常典型的一種架構(gòu)模式,HDFS負(fù)責(zé)對(duì)靜態(tài)的數(shù)據(jù)進(jìn)行存儲(chǔ),通過(guò)MapReduce對(duì)這些靜態(tài)數(shù)據(jù)進(jìn)行計(jì)算邏輯的分配。Hadoop成為很多IT公司的大數(shù)據(jù)主流架構(gòu),基于HDFS和MapReduce建立了很多項(xiàng)目。

        MapReduce編程模型收到很多主流IT的歡迎,主要有幾個(gè)方面的原因:(1)MapReduce是一種沒(méi)有共享的大規(guī)模集群系統(tǒng),這種集群系統(tǒng)具有很好的性價(jià)比和伸縮性;(2)MapReduce模型比較簡(jiǎn)單,容易理解,便于使用。能夠不僅僅處理大規(guī)模的數(shù)據(jù),而且能夠?qū)芏嗉?xì)節(jié)進(jìn)行隱藏(包括自動(dòng)并行化、負(fù)載均衡、災(zāi)備管理等),能夠很大程度上降低程序員的工作量。

        2.2 流式處理系統(tǒng)

        2.2.1 數(shù)據(jù)特征

        一般情況下,對(duì)于流式數(shù)據(jù)來(lái)說(shuō),是一個(gè)無(wú)窮的數(shù)據(jù)序列信息,對(duì)于流式數(shù)據(jù)中的每個(gè)序列來(lái)說(shuō)數(shù)據(jù)的來(lái)源是不同的,數(shù)據(jù)可能是結(jié)構(gòu)化或非結(jié)構(gòu)化,這些序列往往包含時(shí)間特征,或者有其他能夠表示有序的標(biāo)簽信息。從數(shù)據(jù)庫(kù)的角度來(lái)說(shuō),流式數(shù)據(jù)中的每個(gè)元素都可以看成是一個(gè)元祖。流式數(shù)據(jù)在不同的場(chǎng)景中能夠表現(xiàn)出不同的特征信息,比如表現(xiàn)流速的大小、元素特征的數(shù)量、數(shù)據(jù)格式不同等。

        2.2.2 代表性處理系統(tǒng)

        流式計(jì)算處理系統(tǒng)目前得到廣泛的應(yīng)用,包括Twitter的Storm,F(xiàn)acebook的Scribe,Linkedin的Samza等。本節(jié)主要是對(duì)Twitter的Storm進(jìn)行詳細(xì)的介紹。

        Storm的主要特點(diǎn)是一種基于分布式的、可靠、容錯(cuò)性好的流式處理系統(tǒng),被分配的流式處理作業(yè)能夠分發(fā)到不同的組件上,被分配的每個(gè)組件負(fù)責(zé)一項(xiàng)單一的、特定的處理任務(wù)。Storm集群中輸入流由Spout來(lái)進(jìn)行負(fù)責(zé),Storm將流式數(shù)據(jù)分發(fā)給Blot的組件,Blot組件對(duì)其進(jìn)行處理。Storm可以進(jìn)行實(shí)時(shí)的數(shù)據(jù)處理以及對(duì)數(shù)據(jù)庫(kù)進(jìn)行更新,能夠被用于進(jìn)行持續(xù)的計(jì)算,對(duì)連續(xù)的數(shù)據(jù)流進(jìn)行查詢處理,在計(jì)算的過(guò)程中結(jié)果是以流的形式輸出給用戶。還可以用于進(jìn)行分布式的處理RPC。

        3 大數(shù)據(jù)關(guān)鍵技術(shù)

        3.1 大數(shù)據(jù)批量計(jì)算關(guān)鍵技術(shù)

        在大數(shù)據(jù)批量計(jì)算中,系統(tǒng)架構(gòu)、分布式文件系統(tǒng)、分布式數(shù)據(jù)處理系統(tǒng)等關(guān)鍵技術(shù)成為制約其發(fā)展的關(guān)鍵技術(shù)。

        (1)系統(tǒng)架構(gòu)

        在進(jìn)行大數(shù)據(jù)處理的過(guò)程中,需要的關(guān)鍵技術(shù)主要是針對(duì)海量的數(shù)據(jù)進(jìn)行存儲(chǔ)以及分析計(jì)算,因此選擇合理的架構(gòu)對(duì)其進(jìn)行批量處理是其中的重點(diǎn)。

        (2)分布式文件系統(tǒng)

        在大數(shù)據(jù)應(yīng)用中,文件系統(tǒng)是其中非常重要的一個(gè)部分。對(duì)于海量的數(shù)據(jù)需要采取分布式存儲(chǔ)的方式存儲(chǔ)到磁盤上,方便后期的計(jì)算。

        (3)分布式數(shù)據(jù)處理系統(tǒng)

        對(duì)于分布到磁盤上的海量信息,如何選取合理的數(shù)據(jù)處理系統(tǒng)對(duì)其進(jìn)行處理分析是其中的一個(gè)非常重要的關(guān)鍵點(diǎn)。

        3.2 大數(shù)據(jù)流式計(jì)算關(guān)鍵技術(shù)

        對(duì)于流式計(jì)算中,理想中的大數(shù)據(jù)流式計(jì)算應(yīng)該具有比較低的延遲、高的吞吐量、保持持續(xù)運(yùn)行、可以伸縮等特征,這些離不開(kāi)系統(tǒng)的架構(gòu)、海量數(shù)據(jù)的傳輸、編程的接口、高新技術(shù)等關(guān)鍵技術(shù)的合理設(shè)計(jì)與規(guī)劃。

        (1)系統(tǒng)架構(gòu)設(shè)計(jì)

        流式計(jì)算中的架構(gòu)指不同的各個(gè)子系統(tǒng)之間的一種重新組合的方式,對(duì)于流式處理計(jì)算中需要選擇特定的框架進(jìn)行流式計(jì)算。目前主流的流式計(jì)算系統(tǒng)中采用的架構(gòu)分為無(wú)中心節(jié)點(diǎn)的對(duì)稱系統(tǒng)架構(gòu)以及具備中心節(jié)點(diǎn)的主從式結(jié)構(gòu)。

        (2)數(shù)據(jù)傳輸

        數(shù)據(jù)傳輸主要是完成從有向任務(wù)圖到物理計(jì)算節(jié)點(diǎn)之間的部署,部署各個(gè)節(jié)點(diǎn)之間的數(shù)據(jù)傳輸方式。在流式計(jì)算系統(tǒng)中,為了能夠具備高的吞吐量、比較低的延遲,需要不斷的優(yōu)化從有向任務(wù)圖到物理計(jì)算節(jié)點(diǎn)之間的部署及其映射方式。目前主流的數(shù)據(jù)傳輸方式分為主動(dòng)推送方式和被動(dòng)拉取的方式。

        (3)編程接口

        在流式計(jì)算中,為了方便從有向任務(wù)圖到物理計(jì)算節(jié)點(diǎn)之間的部署,需要進(jìn)行編程實(shí)現(xiàn)任務(wù)圖中各個(gè)節(jié)點(diǎn)的相應(yīng)處理功能。需要編制大量的流式數(shù)據(jù)計(jì)算系來(lái)提供應(yīng)用編程的接口,方便的接口能夠方便用戶實(shí)現(xiàn)內(nèi)部的業(yè)務(wù)邏輯及處理,減少用戶的編程的工作量。

        4 總結(jié)與展望

        互聯(lián)網(wǎng)技術(shù)、云計(jì)算等高新技術(shù)的快速發(fā)展,多樣化的應(yīng)用不斷的增加,數(shù)據(jù)在各行各業(yè)中都成為非常重要的一個(gè)組成部分,如何在海量的信息中獲取有價(jià)值的信息是大數(shù)據(jù)需要完成的工作。本文根據(jù)大數(shù)據(jù)對(duì)數(shù)據(jù)處理的形式不同,介紹了批量處理系統(tǒng)和流式處理系統(tǒng),并對(duì)大數(shù)據(jù)中的關(guān)鍵技術(shù)進(jìn)行了介紹。

        參考文獻(xiàn)

        [1] 劉智慧,張泉靈.大數(shù)據(jù)技術(shù)研究綜述[J].浙江大學(xué)學(xué)報(bào):工學(xué)版,2014(06):957-972.

        [2] 黃欣榮.從復(fù)雜性科學(xué)到大數(shù)據(jù)技術(shù)[J].長(zhǎng)沙理工大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2014,29(2):5-9.

        [3] 李紀(jì)舟,蘇曉娟,葉蕾.大數(shù)據(jù)技術(shù)及其國(guó)外發(fā)展情況[J].電信技術(shù)研究,2013(2):60-64.

        猜你喜歡
        大數(shù)據(jù)分析
        基于智慧服務(wù)的圖書(shū)館“互聯(lián)網(wǎng)+”創(chuàng)新服務(wù)平臺(tái)構(gòu)建研究
        基于大數(shù)據(jù)分析的低壓臺(tái)區(qū)降損系統(tǒng)研究及應(yīng)用
        大數(shù)據(jù)分析對(duì)提高教學(xué)管理質(zhì)量的作用
        亞太教育(2016年36期)2017-01-17 17:26:50
        基于大數(shù)據(jù)分析的電力通信設(shè)備檢修影響業(yè)務(wù)自動(dòng)分析平臺(tái)研究與應(yīng)用
        面向大數(shù)據(jù)遠(yuǎn)程開(kāi)放實(shí)驗(yàn)平臺(tái)構(gòu)建研究
        面向大數(shù)據(jù)分析的信息管理實(shí)踐教學(xué)體系構(gòu)建
        傳媒變局中的人口電視欄目困境與創(chuàng)新
        科技傳播(2016年19期)2016-12-27 14:35:21
        大數(shù)據(jù)分析的移動(dòng)端在網(wǎng)絡(luò)課堂教學(xué)中的應(yīng)用
        大數(shù)據(jù)分析技術(shù)應(yīng)對(duì)突發(fā)性人流聚集事件的方法與策略研究
        大數(shù)據(jù)分析在城市照明管理系統(tǒng)中的應(yīng)用
        就爱射视频在线视频在线| 污污污污污污污网站污| 男性一插就想射是因为啥| 黑丝美女被内射在线观看| 一区二区三区日本视频| 日韩精品视频久久一区二区 | 国产做无码视频在线观看| 中文字幕一区二区人妻性色| 馬与人黃色毛片一部| 日韩精品免费在线视频| 国产区一区二区三区性色 | 夜夜高潮夜夜爽国产伦精品| 最近日本免费观看高清视频| 亚洲a级片在线观看| 亚洲视频中文字幕更新| 国产成人国产三级国产精品| 国产免费又爽又色又粗视频| 福利体验试看120秒| 亚洲是图一区二区视频| 麻豆夫妻在线视频观看| 亚洲男人av天堂久久资源| 未满十八勿入av网免费| 3344永久在线观看视频| 国产精品女同久久久久久| 国产精品久久婷婷六月丁香| 在线视频夫妻内射| 久久久午夜精品福利内容| 亚洲一区二区三区久久不卡| 亚洲中文字幕免费精品| 久久午夜精品人妻一区二区三区 | 日本道免费精品一区二区| 亚洲一区二区三区自拍麻豆| 国产18禁黄网站免费观看| 国产精品无码一本二本三本色| 国产精品原创巨作av无遮| 日本精品熟妇一区二区三区| 久草视频在线手机免费看| 国产又色又爽又高潮免费视频麻豆 | 国产成人精品视频网站| 你懂的视频网站亚洲视频| 亚洲精品无码专区在线在线播放|