亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)與Hadoop

        2016-11-30 17:12:02朱立北京信息職業(yè)技術(shù)學院北京100018
        中國科技縱橫 2016年2期
        關(guān)鍵詞:大數(shù)據(jù)

        朱立(北京信息職業(yè)技術(shù)學院,北京 100018)

        ?

        大數(shù)據(jù)與Hadoop

        朱立
        (北京信息職業(yè)技術(shù)學院,北京 100018)

        【摘 要】大數(shù)據(jù)技術(shù)正在向各行各業(yè)滲透。Hadoop作為數(shù)據(jù)分布式處理系統(tǒng)的典型代表,已經(jīng)成為該領(lǐng)域事實的標準。但Hadoop并不等于大數(shù)據(jù),它只是一個成功的處理離線數(shù)據(jù)的分布式系統(tǒng),大數(shù)據(jù)領(lǐng)域還存在眾多其他類型的處理系統(tǒng)。所以,Hadoop代替不了大數(shù)據(jù)的全部,但Hadoop是大數(shù)據(jù)時代的優(yōu)秀代表。

        【關(guān)鍵詞】大數(shù)據(jù) Hadoop 分布式處理系統(tǒng)

        隨著信息化技術(shù)的日漸普及、寬帶網(wǎng)絡的快速興起,以及云計算、移動互聯(lián)和物聯(lián)網(wǎng)等新一代信息技術(shù)的廣泛應用,全球數(shù)據(jù)的增長速度進一步加快。與此同時,一批數(shù)據(jù)收集、存儲、處理技術(shù)和應用快速發(fā)展并逐漸匯聚。軟件運用的技術(shù)越來越尖端,結(jié)合不斷提高的計算能力,從數(shù)據(jù)中提取有價值信息的能力顯著提高。大體量的數(shù)據(jù)不再是無序而又沒有價值的,大數(shù)據(jù)誕生了。

        1 認識大數(shù)據(jù)

        所謂大數(shù)據(jù),就是從各種類型的數(shù)據(jù)中,快速獲得有價值信息的能力。大數(shù)據(jù)是需要新處理模式才能具有更強的決策力、洞察力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。它是對那些超出正常處理范圍和大小、迫使用戶采用非傳統(tǒng)處理方法的數(shù)據(jù)集所下的定義。

        區(qū)別于過去的海量數(shù)據(jù),大數(shù)據(jù)的特點可以概況為4個V: Volume、Variety、Value和Velocity,即大量、多樣、價值密度低、快速。

        第一,數(shù)據(jù)體量大。大數(shù)據(jù)一般指在10TB(1TB=1024GB)規(guī)模以上的數(shù)據(jù)量,目前正在躍升到PB(1PB=1024TB)級別。不僅存儲量大,計算量也大。

        第二,數(shù)據(jù)類型多。除了數(shù)值數(shù)據(jù),還有文字、聲音、視頻等,包括網(wǎng)絡日志、視頻、圖片、地理位置信息等多種類型的格式。由于數(shù)據(jù)來自多種數(shù)據(jù)源,數(shù)據(jù)種類和格式日漸豐富,已沖破了以前所限定的結(jié)構(gòu)化數(shù)據(jù)范疇,囊括了半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。

        第三,價值密度低。以視頻為例,不間斷監(jiān)控視頻中,有價值的數(shù)據(jù)可能僅有一兩秒。找到有價值的信息有如沙里淘金,其價值卻又彌足珍貴。

        第四,處理速度快。在數(shù)據(jù)量非常龐大的情況下,也能做到數(shù)據(jù)的實時處理。這一點和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。

        大數(shù)據(jù)技術(shù)是指從各種類型的大體量數(shù)據(jù)中快速獲得有價值信息的技術(shù)。這是大數(shù)據(jù)的核心問題。目前所說的大數(shù)據(jù)不僅指數(shù)據(jù)本身的規(guī)模,也包括采集數(shù)據(jù)的工具、平臺和數(shù)據(jù)分析系統(tǒng)。大數(shù)據(jù)研發(fā)的目的是發(fā)展大數(shù)據(jù)技術(shù)并將其應用到相關(guān)領(lǐng)域,通過解決大體量數(shù)據(jù)處理問題促進其突破性發(fā)展。因此,大數(shù)據(jù)時代帶來的挑戰(zhàn)不僅體現(xiàn)在如何處理大體量數(shù)據(jù)并從中獲取有價值的信息,也體現(xiàn)在如何加強大數(shù)據(jù)技術(shù)研發(fā)。大數(shù)據(jù)所涉及的關(guān)鍵技術(shù)大致包括6個方面:數(shù)據(jù)采集與數(shù)據(jù)管理、分布式存儲和并行計算、大數(shù)據(jù)應用開發(fā)、數(shù)據(jù)分析與挖掘、大數(shù)據(jù)前端應用、數(shù)據(jù)服務和展現(xiàn)。

        2 大數(shù)據(jù)與Hadoop

        伴隨大數(shù)據(jù)技術(shù)的普及,Hadoop因其開源的特點和卓越的性能成為一時的新寵,甚至有人認為大數(shù)據(jù)就是Hadoop,其實這是一個誤區(qū)。Hadoop只是處理離線數(shù)據(jù)的分布式存儲和處理系統(tǒng)。除了Hadoop,還有用于處理流數(shù)據(jù)的Storm、處理關(guān)系型數(shù)據(jù)的Oracle、處理實時機器數(shù)據(jù)的Splunk……目前主流的大數(shù)據(jù)系統(tǒng)很多, Hadoop只是其中的代表。

        2.1 Hadoop的核心模塊

        Hadoop Common:Hadoop的公用應用模塊,是整個Hadoop項目的核心,為Hadoop各子項目提供各種工具,如配置文件和日志操作等,其他Hadoop子項目都是在此基礎(chǔ)上發(fā)展起來的。

        Hadoop Distributed File System(HDFS):Hadoop分布式文件系統(tǒng),提供高吞吐量應用程序數(shù)據(jù)訪問,并具有高容錯性。對外部客戶機而言,HDFS就像一個傳統(tǒng)的分級文件系統(tǒng),可以進行增刪改查或重命名等常規(guī)文件操作。但實際上HDFS中的文件被分成塊,然后復制到多個計算機中,這與傳統(tǒng)的RAID架構(gòu)大不相同。HDFS特別適合需要一次寫入、多次讀取的超大規(guī)模數(shù)據(jù)集的應用程序。

        Hadoop YARN:一個作業(yè)調(diào)度和群集資源管理框架。

        Hadoop MapReduce:基于YARN的大型數(shù)據(jù)分布式并行編程模式和程序執(zhí)行框架,是Google的MapReduce的開源實現(xiàn)。它幫助用戶編寫處理大型數(shù)據(jù)集的并行運行程序。MapReduce隱藏了分布式并行編程的底層細節(jié),開發(fā)人員只需編寫業(yè)務邏輯代碼,而無需考慮程序并行執(zhí)行的細節(jié),從而大大提高了開發(fā)效率。

        Apache的其他與Hadoop相關(guān)的項目還有很多。

        2.2 Hadoop的特點

        作為分布式計算領(lǐng)域的典型代表,Hadoop比其他分布式框架有更多的優(yōu)點。

        可擴展性:Hadoop可以在不停止集群服務的情況下,在可用的計算機集簇間分配數(shù)據(jù)并完成計算,這些集簇可以方便地擴展到數(shù)千節(jié)點中。

        簡單性:Hadoop實現(xiàn)了簡單并行編程模式,用戶不需要了解分布式存儲和計算的底層細節(jié)即可編寫和運行分布式應用,在集群上處理大規(guī)模數(shù)據(jù)集,所以使用Hadoop的用戶可以輕松搭建自己的分布式平臺。

        高效性:Hadoop的分布式文件系統(tǒng)具有高效的數(shù)據(jù)交互設計,可以通過并行處理加快處理速度。Hadoop還是可伸縮的,能夠在節(jié)點間動態(tài)地移動數(shù)據(jù),并保證各個節(jié)點的動態(tài)平衡,因此處理速度非???。

        可靠性:Hadoop的分布式文件系統(tǒng)將數(shù)據(jù)分塊儲存,每個數(shù)據(jù)塊在集群節(jié)點上依據(jù)一定的策略冗余儲存,確保能夠針對失敗的節(jié)點重新分布處理,從而保證了數(shù)據(jù)的可靠性。

        成本低:依賴于廉價服務器,它的成本比較低,任何人都可以使用。

        3 結(jié)語

        在大數(shù)據(jù)時代,Hadoop以其優(yōu)越的性能受到業(yè)界的廣泛關(guān)注,已經(jīng)成為大數(shù)據(jù)處理領(lǐng)域事實上的標準。如今,Hadoop在諸多領(lǐng)域大顯身手。隨著開源社區(qū)和國際眾多國際技術(shù)廠商對這一開源技術(shù)的積極支持與持續(xù)的大量投入,相信不久的將來,Hadoop技術(shù)會被拓展到更多的應用領(lǐng)域。

        參考文獻:

        [1]李斌.大數(shù)據(jù)及其發(fā)展趨勢研究.廣西教育,2013.9.

        [2]林子雨.大數(shù)據(jù)技術(shù)原理與應用——概念、存儲、處理、分析與應用.人民郵電出版社,2015.8.

        [3]張引,陳敏,廖小飛.大數(shù)據(jù)應用的現(xiàn)狀與展望.計算機研究與發(fā)展[J],2013.0(z2).

        作者簡介:朱立,女,北京信息職業(yè)技術(shù)學院,副教授,碩士,軟件技術(shù)、高職教育研究方向。

        猜你喜歡
        大數(shù)據(jù)
        大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        基于大數(shù)據(jù)背景下的智慧城市建設研究
        科技視界(2016年20期)2016-09-29 10:53:22
        數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉(zhuǎn)型提高服務能力的探索
        中國記者(2016年6期)2016-08-26 12:36:20
        国产精品黑丝美女av| 久久这里只精品国产免费10 | 欧美成人www免费全部网站| 九色精品国产亚洲av麻豆一| 国产专区国产精品国产三级| 香港aa三级久久三级| 精品综合久久久久久97超人| 99精品视频69v精品视频免费| 日本女优免费一区二区三区| 亚洲熟妇无码久久精品| 精品无码人妻一区二区三区品| 亚洲不卡无码高清视频| 澳门精品一区二区三区| 老女老肥熟女一区二区| 国产乱子伦农村叉叉叉| 国产精品美女久久久久久大全| 自拍偷拍另类三级三色四色| 三级黄色片免费久久久| 亚洲精品无码久久久久牙蜜区 | 欧洲熟妇色xxxx欧美老妇性| 日韩内射美女人妻一区二区三区| 中文字幕天天躁日日躁狠狠| 精品亚洲在线一区二区| 精品乱人伦一区二区三区| 一本色道av久久精品+网站| 久久aⅴ无码av高潮AV喷| av天堂免费在线播放| 亚洲av无码成人网站在线观看| 国产一级做a爱免费观看| 日本精品人妻一区二区三区| 日本视频一区二区三区一| 亚洲色欲色欲www| 欧美成人免费看片一区| 亚洲第一大av在线综合| 久久久中文久久久无码| 狠狠爱无码一区二区三区| 亚洲av国产大片在线观看| 91九色成人蝌蚪首页| 欧美日韩不卡合集视频| 一个人免费观看在线视频播放| 99伊人久久精品亚洲午夜|