亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Hadoop集群實(shí)現(xiàn)之原理初步探討

        2019-05-24 14:13:16張衛(wèi)
        電腦知識(shí)與技術(shù) 2019年11期
        關(guān)鍵詞:大數(shù)據(jù)

        張衛(wèi)

        摘要:隨著信息技術(shù)的持續(xù)發(fā)展,大數(shù)據(jù)技術(shù)、AI技術(shù)成為時(shí)代的主流,大量數(shù)據(jù)的存儲(chǔ)成為當(dāng)前技術(shù)分析面臨的第一個(gè)問題,存儲(chǔ)數(shù)據(jù),分析數(shù)據(jù),是IT技術(shù)的核心,那么如何迅速存儲(chǔ)海量數(shù)據(jù),現(xiàn)在主要采用hadoop技術(shù),該文在研究當(dāng)下主要的hadoop技術(shù)的架構(gòu)下,對技術(shù)原理做出論述。

        關(guān)鍵詞:hadoop;分布式存儲(chǔ);大數(shù)據(jù);集群

        中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A

        文章編號(hào):1009-3044(2019)11-0071-02

        隨著大數(shù)據(jù)時(shí)代的到來,各種大數(shù)據(jù)相關(guān)產(chǎn)業(yè)和技術(shù)也營運(yùn)而生,那么什么是大數(shù)據(jù)呢?大數(shù)據(jù)歸根結(jié)底就是很多的數(shù)據(jù),那么多少數(shù)據(jù)謂之多呢,本來沒有一個(gè)相對量化的概念,但是在如今各種個(gè)人電腦性能極大提高的近日,數(shù)據(jù)量很小如幾個(gè)G等似乎都很容易被個(gè)人電腦輕松應(yīng)對。但是現(xiàn)在各種行業(yè),各種設(shè)備都會(huì)產(chǎn)生數(shù)據(jù),數(shù)據(jù)動(dòng)輒多少T字節(jié),甚至網(wǎng)Z字節(jié)動(dòng)蕩。所以有人說,少于50T的數(shù)據(jù)都不能算是大數(shù)據(jù)。那50T是一個(gè)什么樣的概念呢,一般一本長篇電子書也就是3~4MB的容量的樣子,那么往大了說按5M算的話,1G就是200本以上的長篇小說,50T相當(dāng)于10240000本長篇小說,試想如果在數(shù)千萬本《紅樓夢》或者《三國演義》這樣的小說中去查找信息,工作量可想而知。但是如果僅僅是查找的話人力不可為,或許你會(huì)說計(jì)算機(jī)對于這樣簡單性質(zhì)的比對還是比較能勝任,不錯(cuò),計(jì)算機(jī)做簡單的數(shù)學(xué)或者邏輯判斷是擅長的快速的。但是如果這些信息是數(shù)千萬張照片或者視頻等形式的信息,近年來雖然智能識(shí)別如人臉識(shí)別等技術(shù)的發(fā)展,即使計(jì)算機(jī)的性能也有很大的提高,這些識(shí)別算法還是比較消耗性能的,何況是海量的數(shù)據(jù)那么難度和挑戰(zhàn)肯定還是并存的。

        1 什么是大數(shù)據(jù)

        大數(shù)據(jù)(Big Data),是指無法在一定的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高速增長的多樣化信息資產(chǎn)1。

        在以往鑒于人的精力和設(shè)備的局限性,對一些數(shù)據(jù)處理都是抽樣處理,而大數(shù)據(jù)不是對數(shù)據(jù)進(jìn)行抽樣處理,而是所有數(shù)據(jù),處理要得到的結(jié)論是不再是簡單的精確匹配或者計(jì)算,而是在多個(gè)維度上進(jìn)行復(fù)雜的相互關(guān)系的分析。IBM公司提出數(shù)據(jù)的5V特點(diǎn), Volumn、Velocity、Varity、Value、Veracity分別指其在容量、速度、變化、價(jià)值、真實(shí)性等方面的要求。需要在快速的時(shí)間內(nèi)手機(jī)大量的真實(shí)的信息,跟蹤數(shù)據(jù)的變化,得到有價(jià)值的建議。

        2 大數(shù)據(jù)的工作意義及過程

        數(shù)據(jù)如果放在哪里不用就沒有任何價(jià)值,甚至如果垃圾還占了大量的空間,大數(shù)據(jù)歸根結(jié)底還是要從數(shù)據(jù)中提取信息,通俗講,大數(shù)據(jù)就是處理大數(shù)據(jù),其過程可以通過以下流程圖來描述:

        大數(shù)據(jù)就是從海量數(shù)據(jù)中去除無用數(shù)據(jù),經(jīng)過各種算法給客戶提供決策信息的過程。

        3 什么是Hadoop

        Hadoop是一個(gè)由Apatch基金開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。提供給用戶分布式程序,利用集群資源進(jìn)行高速數(shù)據(jù)處理、運(yùn)算、存儲(chǔ)的服務(wù)。Hadoop框架的核心有HDFS和MapReduce,HDFS(hadoop distributed file system),分布式文件系統(tǒng),通過高容錯(cuò)、低成本提供大數(shù)據(jù)集。而MapReduce為這些大數(shù)據(jù)集提供了處理能力。

        總的來說,haddoop核心包括兩大塊,mapreduce提供任務(wù)分解和結(jié)果匯總,hdfs提供namenode文件管理和datanode文件存儲(chǔ)功能,由client進(jìn)行文件的獲取。

        3.1 HDFS 分布式文件系統(tǒng)

        HDFS是hadoop框架中數(shù)據(jù)存儲(chǔ)和管理的支撐,它高度容錯(cuò),能檢測和應(yīng)對硬件故障,在低成本的硬件上提供了高性價(jià)比的數(shù)據(jù)存儲(chǔ)和管理功能,通過流式數(shù)據(jù)訪問提高吞吐量等應(yīng)用程序性能給一些大型數(shù)據(jù)集應(yīng)用程序提供數(shù)據(jù)資源。

        Client提供切片訪問,與HDFS和數(shù)據(jù)主節(jié)點(diǎn)DataNode交互,讀取或者寫入文件,在datanode中有一個(gè)主節(jié)點(diǎn)Masternode即NameNode,NameNode用來管理HDFS的名稱空間和數(shù)據(jù)集塊映射信息。

        3.2 Mapreduce

        MapReduce用以進(jìn)行大數(shù)據(jù)量的計(jì)算2,通過Map對數(shù)據(jù)集上的獨(dú)立元素進(jìn)行特定操作,將數(shù)據(jù)加工成K-V(Key-Value)對,reduce對這個(gè)K-V對進(jìn)行規(guī)定約束以得到最終的結(jié)果。

        其中TaskTracker作為從節(jié)點(diǎn),主要運(yùn)行Map任務(wù)和Reduce任務(wù),將結(jié)果與主節(jié)點(diǎn)JobTracker交互,通信任務(wù)狀態(tài)。主節(jié)點(diǎn)JobTracker將作業(yè)任務(wù)分解成一系列的任務(wù),并分派給TasckTracker,運(yùn)行后負(fù)責(zé)管理監(jiān)督所有作業(yè),對作業(yè)發(fā)生的錯(cuò)誤進(jìn)行處理。

        每個(gè)TasckTracker的Map Task完成每條數(shù)據(jù)記錄的解析傳遞給用戶編寫的Map函數(shù)執(zhí)行,將結(jié)果寫入本地磁盤或者HDFS。而Reduce Task則從MapTask的執(zhí)行結(jié)果中,遠(yuǎn)程讀入數(shù)據(jù),對數(shù)據(jù)進(jìn)行排序并分組傳遞給用戶編寫的reduce函數(shù)執(zhí)行。

        4 Hadoop的應(yīng)用與展望

        國際上Yahoo是Hadoop的最大支持者,截至2012年,Yahoo的Hadoop機(jī)器總節(jié)點(diǎn)數(shù)目超過420000個(gè),有超過10萬的核心CPU在運(yùn)行Hadoop。Facebook使用Hadoop存儲(chǔ)內(nèi)部日志與多維數(shù)據(jù),并以此作為報(bào)告、分析和機(jī)器學(xué)習(xí)的數(shù)據(jù)源。目前Hadoop集群的機(jī)器節(jié)點(diǎn)超過1400臺(tái),共計(jì)11?200個(gè)核心CPU,超過15PB原始存儲(chǔ)容量,每個(gè)商用機(jī)器節(jié)點(diǎn)配置了8核CPU,12TB數(shù)據(jù)存儲(chǔ)3。在國內(nèi),百度、360、阿里巴巴等軟件巨頭也在Hadoop應(yīng)用領(lǐng)域做了深入研究和開發(fā),主要應(yīng)用與數(shù)據(jù)挖掘和分析,日志分析、數(shù)據(jù)倉儲(chǔ)、推薦引擎、用戶行為分析等。

        Hadoop在有效利用現(xiàn)有資源,對其進(jìn)行整合以達(dá)到高性能運(yùn)行服務(wù)的框架為企業(yè)和各行業(yè)客戶提供了極大的便利,作為一種技術(shù)性方向作用非常重要,在后期必定會(huì)吸引更多的資源加入hadoop的研究和拓展。

        注釋:

        1.百度百科https://baike.baidu.com/item/%E5%A4%A7%E6%95%B0%E6%8D%AE/1356941?fr=aladdin#reference-[1]-13647476-wrap

        2.http://lib.csdn.net/article/hadoop/50993

        3.https://blog.csdn.net/lienen/article/details/50460243

        參考文獻(xiàn):

        [1] Sanger F.Nicklen S. DNA sequencing with chain-terminating[P]. 1977,74:5463–5467.

        [2] Struster SC.Next-generation sequencing transform todays biology[J].Nat Methods, 2008,5(1):16-18.

        [3] 解增言,林俊華,譚軍,舒坤賢. DNA測序技術(shù)的發(fā)展歷史與最新進(jìn)展[J].生物技術(shù)通報(bào), 2010(08).

        [4] Rusk N. Cheap third-generation sequecing[J]. Nature, 2011,6(4): 244-245.

        [5] J. Craig Venter, Mark D. Adams, Eugene W. Myers. The Sequence of the Human Genome[J]. Science, 2001, 291(5507): 1304-1351.

        [6] 于聘飛,王英,葛芹玉.高通量DNA測序技術(shù)及其應(yīng)用進(jìn)展[J].南京曉莊學(xué)院學(xué)報(bào),2010(5).

        【通聯(lián)編輯:代影】

        猜你喜歡
        大數(shù)據(jù)
        基于在線教育的大數(shù)據(jù)研究
        中國市場(2016年36期)2016-10-19 04:41:16
        “互聯(lián)網(wǎng)+”農(nóng)產(chǎn)品物流業(yè)的大數(shù)據(jù)策略研究
        中國市場(2016年36期)2016-10-19 03:31:48
        基于大數(shù)據(jù)的小微電商授信評(píng)估研究
        中國市場(2016年35期)2016-10-19 01:30:59
        大數(shù)據(jù)時(shí)代新聞的新變化探究
        商(2016年27期)2016-10-17 06:26:00
        淺談大數(shù)據(jù)在出版業(yè)的應(yīng)用
        今傳媒(2016年9期)2016-10-15 23:35:12
        “互聯(lián)網(wǎng)+”對傳統(tǒng)圖書出版的影響和推動(dòng)作用
        今傳媒(2016年9期)2016-10-15 22:09:11
        大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
        中國記者(2016年6期)2016-08-26 12:36:20
        最新国产女主播在线观看| 香蕉视频毛片| 午夜国产精品久久久久| 国产av精品一区二区三区不卡| 黄射视频在线观看免费| 国产xxx69麻豆国语对白| 亚洲a∨无码一区二区| 无码91 亚洲| 日韩美腿丝袜三区四区| 亚洲精品国产一区二区 | 欧洲熟妇乱xxxxx大屁股7| 中文无码制服丝袜人妻AV| 国产一区二区三区日韩在线观看| 国语自产偷拍在线观看| 97免费人妻在线视频| h动漫尤物视频| 海外华人在线免费观看| 国产成人喷潮在线观看| 麻豆国产成人精品午夜视频| 日韩精品极品免费观看| 亚洲精品有码日本久久久| 国产女人高潮叫床视频| 亚州精品无码久久aV字幕| 蜜桃av一区二区三区| 伊人久久大香线蕉av不变影院| 伊人久久五月丁香综合中文亚洲| 99精品久久久中文字幕| 国产亚洲av夜间福利在线观看| 四虎影视久久久免费观看| 97人人超碰国产精品最新o| 国产美女黄性色av网站| 一区二区三区国产高清视频| 亚洲午夜无码av毛片久久| 97中文字幕在线观看| 中文字幕人妻av一区二区| 无码av不卡一区二区三区| 精品亚洲aⅴ在线观看| 国产后入内射在线观看| 蜜桃成熟时在线观看免费视频| av潮喷大喷水系列无码| 亚洲国产成人资源在线桃色|