亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于Hadoop的海量圖片檢索策略

        2016-11-14 23:54:40孫玉林王曉卉
        電子技術(shù)與軟件工程 2016年18期
        關(guān)鍵詞:分布式系統(tǒng)

        孫玉林++王曉卉

        摘 要

        針對(duì)電商平臺(tái)海量圖片的檢索出現(xiàn)的性能瓶頸問題,本文提出一種基于Hadoop的海量圖片檢索策略,通過Sequence實(shí)現(xiàn)對(duì)小圖片合并,并在合并過程中設(shè)定單個(gè)Sequence File的偏移量,解析索引快速定位存儲(chǔ)圖片Block的DataNode和Fileld,解決海量圖片數(shù)據(jù)擴(kuò)容和快速檢索的問題。

        【關(guān)鍵詞】分布式系統(tǒng) 海量圖片 檢索策略

        隨著互聯(lián)網(wǎng)的普及和廣泛應(yīng)用,電商平臺(tái)和社交網(wǎng)絡(luò)也不斷發(fā)展,用于商品展示或社交分享的圖片數(shù)量呈爆炸式增長。在這些電子商務(wù)網(wǎng)站和社交網(wǎng)站上,圖片的信息表達(dá)遠(yuǎn)遠(yuǎn)超過了文字信息的描述,所以這些電子商務(wù)網(wǎng)站和社交網(wǎng)站更加注重圖片的質(zhì)量。從對(duì)淘寶網(wǎng)的分析來看,在整個(gè)商務(wù)平臺(tái)的流量中,對(duì)圖片的訪問高達(dá)91.5%以上。騰訊相冊(cè)的用戶每周上傳的圖片也高達(dá)11億張,目前的總圖片數(shù)量有近700億張,總?cè)萘扛哌_(dá)15PB。由于海量圖片需要消耗海量的存儲(chǔ)空間,圖片的存儲(chǔ)和檢索都會(huì)出現(xiàn)性能瓶頸。面對(duì)海量的圖片資源,如何高效的檢索以及如何在滿足高并發(fā)訪問的前提下構(gòu)建高效廉價(jià)的檢索系統(tǒng)成為需要迫切解決的問題。

        1 Hadoop云計(jì)算平臺(tái)

        Hadoop是一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架,同時(shí)它又是可靠、高效、可擴(kuò)展的??煽啃泽w現(xiàn)在它假設(shè)計(jì)算元素和存儲(chǔ)會(huì)失敗,因此它維護(hù)多個(gè)工作數(shù)據(jù)副本,確保能夠針對(duì)失敗的節(jié)點(diǎn)重新分布處理。高效性體現(xiàn)在它以并行的方式工作,通過并行處理加快處理速度??赏卣剐灾钙淠軌蛱幚鞵B級(jí)數(shù)據(jù)。由于Hadoop最初是針對(duì)大規(guī)模文本數(shù)據(jù)處理設(shè)計(jì)的,內(nèi)部數(shù)據(jù)類型有限,不能直接處理圖片數(shù)據(jù)。在HDFS中,文件或目錄等均是以對(duì)象形式在內(nèi)存中存儲(chǔ),每個(gè)對(duì)象約使用150比特內(nèi)存。隨著海量圖片數(shù)量的增加,耗費(fèi)的內(nèi)存也迅速增加,大量名字節(jié)點(diǎn)內(nèi)存的耗費(fèi),嚴(yán)重影響了Hadoop的應(yīng)用性。同時(shí),檢索大量圖片的速度遠(yuǎn)遠(yuǎn)慢于訪問相同數(shù)據(jù)量的大文件。

        2 基于Hadoop的海量圖片檢索策略

        HDFS是分布式計(jì)算的存儲(chǔ)基石,Hadoop的分布式文件系統(tǒng)和其他分布式文件系統(tǒng)有很多類似的特質(zhì)。它將復(fù)雜的運(yùn)行于大規(guī)模集群上的并行計(jì)算過程高度的抽象到了兩個(gè)函數(shù)Map和Reduce。MapReduce是一個(gè)用于進(jìn)行大數(shù)據(jù)量計(jì)算的編程模型,同時(shí)也是一種高效的任務(wù)調(diào)度模型,它將一個(gè)任務(wù)分成很多更細(xì)粒度的子任務(wù),這些子任務(wù)能夠在空閑的處理節(jié)點(diǎn)之間調(diào)度,使處理速度越快的節(jié)點(diǎn)處理越多的任務(wù),從而避免處理速度慢的節(jié)點(diǎn)延長整個(gè)任務(wù)的完成時(shí)間。

        步驟1 搭建Hadoop集群平臺(tái)。每臺(tái)計(jì)算機(jī)安裝操作系統(tǒng)和Hadoop軟件,將一臺(tái)計(jì)算機(jī)配置成NameNode,其它計(jì)算機(jī)配置成DataNodes。各個(gè)機(jī)器通過SSH直接通信。NameNode負(fù)責(zé)的是整個(gè)存儲(chǔ)層的管理,DataNode主要作為存儲(chǔ)節(jié)點(diǎn)。驗(yàn)證DataNode和NameNode之間聯(lián)通性是通過心跳檢測(cè)來實(shí)現(xiàn),并且DataNode還要定期將自己的存儲(chǔ)區(qū)信息發(fā)送給NameNode。當(dāng)客戶端訪問時(shí),首先訪問NameNode,NameNode會(huì)分配相應(yīng)的空間,在得到相應(yīng)的空間后開始各個(gè)作業(yè)。

        步驟2 設(shè)置安全策略。Hadoop集群平臺(tái)中新增一臺(tái)DataNode2作為NameNode備份機(jī),將原有NameNode中的數(shù)據(jù)復(fù)制到選定的DataNode2中,在NameNode運(yùn)行時(shí),NameNode2會(huì)實(shí)時(shí)的檢測(cè)NameNode的運(yùn)行狀態(tài),同時(shí)把NameNode中的操作實(shí)時(shí)更新到本地,在NameNode出現(xiàn)故障時(shí),NameNode2代替NameNode保證服務(wù)的正常進(jìn)行。

        步驟3 單圖片存儲(chǔ)處理。圖片先經(jīng)過負(fù)載均衡模塊過濾,進(jìn)入應(yīng)用服務(wù)器隊(duì)列等待進(jìn)入HDFS存儲(chǔ)系統(tǒng),通過NameNode分配DataNode進(jìn)行存儲(chǔ),圖片寫入過程中先確定寫入Block,再確定Sequence File,系統(tǒng)將二者的ID組合命名為圖片的系統(tǒng)內(nèi)的名稱。圖片元數(shù)據(jù)保存在HBase,同時(shí)元數(shù)據(jù)也保存在由Redis構(gòu)建的緩存系統(tǒng)中。圖片完成寫入操作。

        步驟4 文件預(yù)處理合并。將指定目錄下的圖片文件讀取進(jìn)圖片數(shù)組,并初始化byte數(shù)組,用相應(yīng)的輸出文件流將byte中的圖片讀入到指定路徑下的合并文件中去。

        步驟5 建立圖片索引。圖片名用的是聯(lián)合編碼的方式,主要包含BlockId和FileId兩部分。其中BlockId代表的是一個(gè)存儲(chǔ)單元,NameNode可以根據(jù)其確定最近的DateNode地址,F(xiàn)ileId代表的是小圖片在拼接的時(shí)候SequenceFile的Id;offset代表的是相應(yīng)key值的一個(gè)的偏移量。HDFS前端在接收到客戶端的請(qǐng)求后首先會(huì)解析文件名,根據(jù)相關(guān)信息定位到相應(yīng)的Block文件、FileId和offset,然后客戶端直接對(duì)圖片進(jìn)行讀取。在對(duì)文件名解析以后,可以直接讀取DateNode節(jié)點(diǎn)數(shù)據(jù),并可以通過偏移量定位到圖片的開始位置。

        步驟6 客戶端以圖片名稱和創(chuàng)建時(shí)間為參數(shù)發(fā)起訪問請(qǐng)求,NameNode運(yùn)算獲取圖片所在分鐘時(shí)間段和合并文件對(duì)應(yīng)的Blocks信息,返回給客戶端??蛻舳讼蜃罱腄ataNode發(fā)起圖片讀取請(qǐng)求。DataNode運(yùn)算獲得圖片具體地址信息。

        3 結(jié)束語

        本文提出的一種基于Hadoop的海量圖片檢索策略,可以很好的解決Hadoop檢索海量圖片時(shí)NameNode內(nèi)存消耗過度和檢索效率低下的問題,并有效降低了檢索時(shí)的NameNode負(fù)載,實(shí)現(xiàn)了對(duì)NameNode性能的提升,從而推動(dòng)hadoop平臺(tái)更廣泛的應(yīng)用。

        參考文獻(xiàn)

        [1]郭本俊,王鵬, 陳高云等.基于MPI的云計(jì)算模型[J].計(jì)算機(jī)工程,2009,35(24): 84-85,96.

        [2]王文平,劉希玉,韓杰.基于并行遺傳算法的關(guān)聯(lián)規(guī)則挖掘[J].山東師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2006,21(04):29-31.

        猜你喜歡
        分布式系統(tǒng)
        機(jī)房溫濕度監(jiān)控系統(tǒng)研究
        中國新通信(2017年8期)2017-05-26 15:54:29
        基于分布式計(jì)算的暴力破解密碼系統(tǒng)的改進(jìn)
        基于現(xiàn)場(chǎng)采集與云服務(wù)的流量積算管理系統(tǒng)研究
        典型應(yīng)用領(lǐng)域全球定量遙感產(chǎn)品生產(chǎn)體系
        科技資訊(2016年25期)2016-12-27 16:23:06
        以數(shù)據(jù)為中心的分布式系統(tǒng)自適應(yīng)集成方法
        分布式系統(tǒng)中的辯證對(duì)立統(tǒng)一概念與方法
        基于Hadoop的MOOC學(xué)習(xí)分析系統(tǒng)的構(gòu)建
        一種分布式消息隊(duì)列的可靠性研究
        “中間件技術(shù)”課程教學(xué)方法改革探討
        基于MapReduce的海量數(shù)據(jù)動(dòng)態(tài)裝箱算法研究
        日本道免费精品一区二区| 99久久免费精品色老| 国产精品亚洲在钱视频| 一区二区三区四区亚洲免费| 尤物在线观看一区蜜桃| 亚洲加勒比久久88色综合| 精品无码人妻一区二区三区| 亚洲精品成人av一区二区| 免费一区二区三区av| 国产精品成人自拍在线观看| 色综合久久无码五十路人妻 | 40岁大乳的熟妇在线观看| 荡女精品导航| 亚洲美女av一区二区| av网站不卡的av在线| 国产av无码专区亚洲精品| 中文日韩亚洲欧美制服| 亚洲国产cao| 综合人妻久久一区二区精品| 国产实拍日韩精品av在线| 人妻av无码一区二区三区| 欧美 国产 日产 韩国 在线 | 国产果冻豆传媒麻婆精东| 老熟妇乱子伦av| www.日本一区| 亚洲一区二区日韩精品| 完整版免费av片| 国模冰莲极品自慰人体| 在线亚洲午夜理论av大片| 国产美女在线精品免费观看网址| 特级毛片全部免费播放a一级| 日韩在线精品免费观看| 欧洲美熟女乱av亚洲一区| 久久久久久久久蜜桃| 亚洲成在人网av天堂| 一区二区三区日本久久| 日韩精品一区二区在线天天狠天| 日韩丰满少妇无码内射| 国产精品白浆一区二区免费看| 中文字幕中乱码一区无线精品 | 国产精品,在线点播影院|