亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Hadoop的海量圖片存儲(chǔ)平臺(tái)的設(shè)計(jì)與開發(fā)

        2018-09-13 11:22:00周曉慶周智勇高江錦肖建瓊羅興賢
        電腦知識(shí)與技術(shù) 2018年17期
        關(guān)鍵詞:分布式計(jì)算

        周曉慶 周智勇 高江錦 肖建瓊 羅興賢

        摘要:隨著 Internet的飛速發(fā)展與深入應(yīng)用,海量圖片數(shù)據(jù)的存取問(wèn)題顯得越發(fā)突出,傳統(tǒng)存儲(chǔ)架構(gòu)已突顯管理效率不高、存儲(chǔ)能力不足及成本太高等問(wèn)題,Hadoop為我們提供了一種新的解決問(wèn)題的思路,Hadoop可以充分利用集群的威力進(jìn)行高速運(yùn)算和存儲(chǔ),但是小文件過(guò)多時(shí)Hadoop的NameNode將導(dǎo)致內(nèi)存出現(xiàn)瓶頸問(wèn)題,使得系統(tǒng)效率變得極為低下。該文提出了一種基于Hadoop的、可對(duì)海量圖片文件進(jìn)行高效處理的存儲(chǔ)架構(gòu),通過(guò)預(yù)處理模塊的歸類算法,并引入擴(kuò)展一級(jí)索引機(jī)制,能較好地解決海量圖片的處理問(wèn)題,并避免內(nèi)存瓶頸問(wèn)題。實(shí)驗(yàn)表明,該系統(tǒng)易維護(hù)、具有良好的可擴(kuò)展性,其穩(wěn)定性、安全性、并發(fā)性均有較大改善。

        關(guān)鍵詞:海量圖片;Hadoop;分布式計(jì)算;存儲(chǔ)架構(gòu)

        中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)17-0135-03

        Abstract: With fast development and deep appliance of the Internet, problem of mass image data storage stand out, so the problem of low management efficiency, low storage ability and high cost of traditional storage framework has appeared. The appearance of Hadoop provides a new thought. However, Hadoop itself is not suit for the handle of small files. This paper puts forward a storage framework of mass image files based on Hadoop, and solved the internal storage bottleneck of NameNode when small files are excessive through classification algorithm of preprocessing module and lead-in of high efficiency and first-level of index mechanism. The test manifests that the system is safe, easy to defend and has fine extension quality; as a result, it can reach to a fine effect.

        Key words: Massive Images; Hadoop; Distributed Calculation;storage framework

        1 背景

        隨著 Internet的飛速發(fā)展與深入應(yīng)用,大型門戶網(wǎng)站、電子商務(wù)網(wǎng)站及網(wǎng)絡(luò)社區(qū)大量出現(xiàn),這些網(wǎng)站都存儲(chǔ)有大量圖片,傳統(tǒng)的技術(shù)架構(gòu)在處理海量數(shù)據(jù)方面顯得越來(lái)越乏力[1]。如何構(gòu)建一個(gè)能高并發(fā)訪問(wèn)且廉價(jià)高效的圖片存儲(chǔ)管理系統(tǒng)已經(jīng)成為一個(gè)亟待解決的問(wèn)題。云存儲(chǔ)概念的提出給我們提供了一種解決思路, Hadoop能夠?qū)A繑?shù)據(jù)進(jìn)行分布式高效處理,然而, HDFS并不是為處理小文件而設(shè)計(jì)的[2][3],要用Hadoop來(lái)進(jìn)行海量圖片的存儲(chǔ)及處理,必須對(duì)其進(jìn)行改進(jìn)。通過(guò)對(duì)Hadoop的HDFS、MapReduce技術(shù)的研究以及圖片存儲(chǔ)的業(yè)務(wù)需求分析[4],我們提出了一種基于Hadoop的海量圖片存儲(chǔ)模型。系統(tǒng)采用 Map Reduce 編程算法實(shí)現(xiàn)并行處理,可以對(duì)海量數(shù)據(jù)進(jìn)行快速處理,充分利用低廉PC的處理能力,充分利用現(xiàn)有資源實(shí)現(xiàn)高并發(fā)、高可靠的應(yīng)用。

        2 平臺(tái)總體設(shè)計(jì)

        系統(tǒng)采用HA架構(gòu)及平滑擴(kuò)容,可用性和擴(kuò)展性都較好,通過(guò)引入高效的擴(kuò)展一級(jí)索引機(jī)制,可使系統(tǒng)快速定位到圖片文件所在的序列文件及其偏移位置。通過(guò)建立圖片存儲(chǔ)模型,可實(shí)現(xiàn)在高并發(fā)高訪問(wèn)下圖片存取的高擴(kuò)展性和高容錯(cuò)性。通過(guò)負(fù)載均衡系統(tǒng)和緩存系統(tǒng)的設(shè)計(jì),對(duì)各存儲(chǔ)節(jié)點(diǎn)進(jìn)行存儲(chǔ)優(yōu)化,使其存儲(chǔ)穩(wěn)定性得到較大提高。系統(tǒng)采用 MVC三層架構(gòu)設(shè)計(jì),分別是數(shù)據(jù)資源層、業(yè)務(wù)邏輯層、應(yīng)用接口層。

        數(shù)據(jù)資源層是整個(gè)平臺(tái)的基礎(chǔ),是云存儲(chǔ)系統(tǒng)的基礎(chǔ)部分。存儲(chǔ)設(shè)備可以采用多種光纖存儲(chǔ)設(shè)備,如NAS、iSCSI等設(shè)備,也可以采用SCSI或SAS等DAS存儲(chǔ)設(shè)備[5]。由一個(gè)統(tǒng)一的存儲(chǔ)設(shè)備管理系統(tǒng)對(duì)存儲(chǔ)設(shè)備進(jìn)行管理,從而對(duì)物理存儲(chǔ)設(shè)備實(shí)現(xiàn)邏輯虛擬化管理、多鏈路冗余管理,并且對(duì)硬件設(shè)備進(jìn)行狀態(tài)監(jiān)控及故障維護(hù),其主要功能是協(xié)調(diào)下層若干存儲(chǔ)設(shè)備,對(duì)上層的應(yīng)用服務(wù)。該層通過(guò)利用HadoopHDFS提供的文件存儲(chǔ)系統(tǒng),HadoopMapReduce提供的海量數(shù)據(jù)處理能力,通過(guò)集成大量廉價(jià)PC的集群來(lái)提供海量存儲(chǔ)容量。

        業(yè)務(wù)邏輯層并行處理海量圖片數(shù)據(jù),并對(duì)整個(gè)平臺(tái)系統(tǒng)進(jìn)行配置管理,它是云存儲(chǔ)系統(tǒng)中最重要的部分。該層使得各個(gè)存儲(chǔ)設(shè)備協(xié)調(diào)運(yùn)行,多個(gè)存儲(chǔ)設(shè)備向上層應(yīng)用提供統(tǒng)一的服務(wù),屏蔽下層的存儲(chǔ)設(shè)備,提供更好的訪問(wèn)性能。同時(shí),通過(guò)集群、分布式文件系統(tǒng)和網(wǎng)格計(jì)算等來(lái)實(shí)現(xiàn)云存儲(chǔ)中存儲(chǔ)設(shè)備間的協(xié)同工作,對(duì)外提供同一種服務(wù)。

        應(yīng)用接口層為用戶提供方便、易用和友好界面,是云存儲(chǔ)最靈活多變的部分,在云計(jì)算平臺(tái)中,可以支持各種不同類型的應(yīng)用,在相同的時(shí)間點(diǎn)上,云端也同時(shí)支持不同類型的應(yīng)用,各系統(tǒng)可以自行定制各自的服務(wù),這也正體現(xiàn)了云存儲(chǔ)的優(yōu)勢(shì)。

        3 平臺(tái)功能設(shè)計(jì)

        3.1 平臺(tái)總體功能模塊構(gòu)成

        從系統(tǒng)功能角度考慮,整個(gè)系統(tǒng)的總體功能模塊構(gòu)成如圖1所示:

        3.2 平臺(tái)分層模塊構(gòu)成分析

        3.2.1 業(yè)務(wù)邏輯層模塊構(gòu)成

        業(yè)務(wù)邏輯層是本系統(tǒng)設(shè)計(jì)開發(fā)的重點(diǎn)內(nèi)容,也是整個(gè)系統(tǒng)的核心,該層由5個(gè)功能模塊構(gòu)成,分別是圖片文件索引模塊、存儲(chǔ)控制模塊、緩存服務(wù)模塊、業(yè)務(wù)處理模塊、負(fù)載均衡模塊。

        圖片文件預(yù)處理模塊的主要功能是對(duì)圖片文件進(jìn)行預(yù)處理、文件名設(shè)計(jì)和圖片元數(shù)據(jù)管理。預(yù)處理模塊通過(guò)歸類算法將具有強(qiáng)相關(guān)性強(qiáng)的文件合并為序列文件,從而大大減少文件數(shù)量,再通過(guò)擴(kuò)展一級(jí)索引即可快速找到圖片文件在序列文件中的位置。為此我們采用Hadoop中的HBase來(lái)存儲(chǔ)圖片元數(shù)據(jù)[6],索引則可保證其唯一性。

        存儲(chǔ)控制模塊主要功能是對(duì)存儲(chǔ)管理提供統(tǒng)一界面和命令,通過(guò)在廉價(jià)PC上部署 HDFS 文件系統(tǒng),搭建機(jī)器集群,為海量數(shù)據(jù)的存儲(chǔ)提供相關(guān)存儲(chǔ)設(shè)備,對(duì)上層應(yīng)用提供接口,以實(shí)現(xiàn)對(duì)圖片的相關(guān)操作,保證數(shù)據(jù)的安全性及存儲(chǔ)節(jié)點(diǎn)的穩(wěn)定性,并進(jìn)行存儲(chǔ)優(yōu)化。用戶可通過(guò)Hadoop提供的端口50070查看NameNode信息。

        緩存服務(wù)模塊的主要功能是構(gòu)建緩存區(qū),起到篩檢過(guò)濾的功能。與傳統(tǒng)的緩存區(qū)使用 Memecache 來(lái)構(gòu)建有所不同,我們利用Redis來(lái)構(gòu)建緩存區(qū)。Redis 跟 Memecache 類似,也是一個(gè)的存儲(chǔ)模型,但所支持的Value 類型更多,而且可支持像取交集、并集、差集等這樣一些原子性操作。

        業(yè)務(wù)處理模塊主要對(duì)圖片數(shù)據(jù)進(jìn)行處理,上傳圖片都要進(jìn)行相關(guān)處理,如縮放、切割等等。利用map Reduce即可對(duì)上傳的圖片進(jìn)行處理,處理后的圖片被存儲(chǔ)到廉價(jià)PC的節(jié)點(diǎn)機(jī)器上,這樣可減少各個(gè)節(jié)點(diǎn)的壓力。在對(duì)存儲(chǔ)的圖像進(jìn)行處理的時(shí)候,Map Reduce每次處理圖像時(shí),會(huì)讀取緩沖區(qū)中相應(yīng)的數(shù)據(jù)加載到內(nèi)存中,由于緩沖區(qū)中的數(shù)據(jù)是按矩陣存儲(chǔ)的,可通過(guò)各種圖片處理算法對(duì)圖片進(jìn)行壓縮,壓縮完成后存入到 HDFS 系統(tǒng)中。

        負(fù)載均衡模塊的主要功能是在高并發(fā)情況下使系統(tǒng)能夠安全穩(wěn)定的運(yùn)行,它承擔(dān)著系統(tǒng)災(zāi)難控制,資源分配,故障規(guī)避等功能。Hadoop中,數(shù)據(jù)在HDFS節(jié)點(diǎn)中分布并不均衡,特別是當(dāng)有新增從節(jié)點(diǎn)或從節(jié)點(diǎn)發(fā)生故障的時(shí)候,其數(shù)據(jù)分布不均勻狀況則更加嚴(yán)重。該文采用HAProxy的RoundRobin負(fù)載均衡算法,通過(guò)負(fù)載均衡算法進(jìn)行負(fù)載管理,降低系統(tǒng)局部負(fù)載,對(duì)系統(tǒng)資源進(jìn)行合理分配和調(diào)度。

        3.2.2 應(yīng)用接口層模塊構(gòu)成

        該層由基于用戶的GUI界面模塊和基于算法庫(kù)的API模塊兩大模塊構(gòu)成。基于用戶的GUI界面模塊面向用戶,針對(duì)不同的用戶為用戶提供各種友好的操作應(yīng)用工具,以方便用戶進(jìn)行海量數(shù)據(jù)存儲(chǔ)處理工作?;谒惴◣?kù)的API模塊對(duì)于有較高、較多要求的高級(jí)用戶,可提供編寫應(yīng)用系統(tǒng),調(diào)用算法庫(kù)中的API來(lái)擴(kuò)展系統(tǒng)功能,實(shí)現(xiàn)所需的應(yīng)用功能。

        4 系統(tǒng)實(shí)現(xiàn)及結(jié)果分析

        4.1 軟件準(zhǔn)備

        操作系統(tǒng)使用Ubuntu9.04,分布式文件系統(tǒng)用Hadoop0.20.2,選擇JDK1.6.0_31作為JDK環(huán)境,包括一個(gè)NameNode 服務(wù)器、一個(gè)JobTracker服務(wù)器和4個(gè) DataNode 服務(wù)器。圖片服務(wù)器用Nginx-0.9.6,緩存軟件為Redis,負(fù)載均衡軟件使用HAProxy,使用Java 作為開發(fā)環(huán)境。通過(guò)配置 host 文件、創(chuàng)建新的用戶和目錄、安裝 JDK 和配置環(huán)境參數(shù)、然后配置SSH 免密碼登錄、安裝 Hadoop ,從而完成Hadoop 的部署及配置。

        4.2 實(shí)驗(yàn)結(jié)果分析

        4.2.1 集群安全性測(cè)試

        NameNode安全性測(cè)試,通過(guò)HeartAgent實(shí)現(xiàn)DataNode2對(duì)NameNode的熱備份,當(dāng)斷開NameNode的網(wǎng)絡(luò)連接后,迅速通過(guò)HeartAgent將vip綁定到NameNode2的地址,檢查后確認(rèn)滿足安全性需求且服務(wù)正常,從而完成系統(tǒng)安全性測(cè)試。

        4.2.2 圖片存取接口測(cè)試

        首先通過(guò)并發(fā)線程對(duì)小圖片進(jìn)行大量存取操作,以測(cè)試應(yīng)用服務(wù)器的并發(fā)能力,然后隨機(jī)對(duì)小圖片的讀取情況進(jìn)行分析處理,其讀取和寫入效果如圖2和圖3所示。

        從圖中可以看出,通過(guò)Hadoop構(gòu)建的存儲(chǔ)系統(tǒng)的讀寫TPS (每秒傳輸?shù)牟僮鞔螖?shù))與傳統(tǒng)NFS構(gòu)建的存儲(chǔ)系統(tǒng)相比,其達(dá)到峰值時(shí)的所能容納的線程數(shù)明顯增加。這說(shuō)明采用Hadoop的新存儲(chǔ)系統(tǒng)減少了系統(tǒng)IO操作次數(shù),提高了系統(tǒng)的承載量,在同等機(jī)器配置下,能實(shí)現(xiàn)更多的并發(fā)讀取及寫入操作。采用Hadoop的新存儲(chǔ)系統(tǒng)在讀寫性能上優(yōu)于NFS,可保證系統(tǒng)的高吞吐性。面對(duì)高并發(fā)的讀寫操作時(shí),新存儲(chǔ)系統(tǒng)中的HDFS能保證系統(tǒng)的穩(wěn)定性及安全性。

        4.2.3 系統(tǒng)性能測(cè)試

        在系統(tǒng)性能測(cè)試中,我們將數(shù)據(jù)文件分成不同量級(jí)進(jìn)行計(jì)算分析,并對(duì)單機(jī)和Hadoop 集群在不同量級(jí)上所耗時(shí)間進(jìn)行統(tǒng)計(jì)對(duì)比。測(cè)試結(jié)果如圖4所示。

        從圖4中可以看出,當(dāng)數(shù)據(jù)量較小時(shí),集群比單機(jī)耗用時(shí)間較多,說(shuō)明集群的分布式架構(gòu)在系統(tǒng)初始化和中間文件的生成與傳遞上耗時(shí)較多,Hadoop 集群在數(shù)據(jù)量較小時(shí)并沒(méi)有優(yōu)勢(shì)。隨著數(shù)據(jù)量增大,可看出Hadoop 集群的分布式并行計(jì)算的優(yōu)勢(shì)逐漸發(fā)揮出來(lái),集群系統(tǒng)處理時(shí)間增加幅度明顯較小。測(cè)試結(jié)果表明,隨著數(shù)據(jù)量的增大,相比單機(jī),集群節(jié)約的時(shí)間越來(lái)越大,這充分體現(xiàn)了 Hadoop 集群在大數(shù)據(jù)量處理速度上有很大的優(yōu)勢(shì)。

        5 結(jié)束語(yǔ)

        該文設(shè)計(jì)了一個(gè)基于Hadoop的海量圖片數(shù)據(jù)存儲(chǔ)平臺(tái)架構(gòu),該平臺(tái)采用并行分布式技術(shù)、Linux集群技術(shù)。平臺(tái)以Hadoop分布式平臺(tái)為基礎(chǔ),使用HDFS分布式文件系統(tǒng)、Map Reduce并行計(jì)算模型及HBase數(shù)據(jù)庫(kù)技術(shù)作為處理海量圖片數(shù)據(jù)的有效方法,以Redis和HAProxy來(lái)構(gòu)建緩存區(qū)并進(jìn)行負(fù)載均衡處理。通過(guò)使用大量的普通PC形成集群,達(dá)到了高效存儲(chǔ)和管理海量圖片數(shù)據(jù)的要求。仿真實(shí)驗(yàn)的結(jié)果表明,系統(tǒng)具有良好的穩(wěn)定性,在處理大數(shù)據(jù)量時(shí)性能良好,同時(shí)還具有很好的擴(kuò)展性和易維護(hù)性,具有編程簡(jiǎn)化、安全可靠性高、開發(fā)成本低、易于實(shí)現(xiàn)等優(yōu)點(diǎn)

        參考文獻(xiàn):

        [1] 趙曉永, 楊揚(yáng), 孫莉莉, 等. 基于 Hadoop 的海量 MP3 文件存儲(chǔ)架構(gòu)[J]. 計(jì)算機(jī)應(yīng)用,2012, 32(6): 1724-1726.

        [2] 鄧涵元, 盧山, 程光, 等. 基于MPP-Hadoop混合架構(gòu)高校數(shù)據(jù)集成系統(tǒng)研究[J]. 計(jì)算機(jī)技術(shù)與發(fā)展, 2018(7).

        [3] 崔杰, 李陶深, 蘭紅星. 基于Hadoop的海量數(shù)據(jù)存儲(chǔ)平臺(tái)設(shè)計(jì)與開發(fā)[J]. 計(jì)算機(jī)研究與發(fā)展, 2012(49): 12-18.

        [4] 柳俊. 基于 Hadoop 的海量教學(xué)資源存儲(chǔ)平臺(tái)的設(shè)計(jì)與研究[J]. 電腦與電信,2013(7).

        [5] Bibhudutta Jena, Mahendra Kumar Gourisaria, Siddharth Swarup Rautaray, et al. A Survey Work on Optimization Techniques Utilizing Map Reduce Framework in Hadoop Cluster[J]. International Journal of Intelligent Systems and Applications(IJISA), 2017, 9(4): 61-68.

        [6] Systems, Tome White. Hadoop: The Definitive Guide [M]. O'REILLY PRESS, 2009: 9-13.

        猜你喜歡
        分布式計(jì)算
        基于云計(jì)算的大數(shù)據(jù)處理與分析綜述
        基于云計(jì)算的移動(dòng)學(xué)習(xí)平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)
        云計(jì)算中MapReduce分布式并行處理框架的研究與搭建
        云計(jì)算技術(shù)概述
        面向異構(gòu)分布式計(jì)算環(huán)境的并行任務(wù)調(diào)度優(yōu)化方法
        女优视频一区二区三区在线观看 | 国产精品一区二区 尿失禁| 国产自在自线午夜精品视频在| 韩国美女主播国产三级| 亚洲视频一区二区免费看| 人人妻人人添人人爽欧美一区| 丰满人妻一区二区三区视频53| 欧洲熟妇色xxxx欧美老妇多毛网站| 亚洲一区二区三区av在线免费| 日韩精品不卡一区二区三区| 日本va中文字幕亚洲久伊人 | 国产第一页屁屁影院| 西西人体大胆视频无码| 蜜桃av在线播放视频| 亚洲视频网站大全免费看| 国产综合在线观看| 无码人妻品一区二区三区精99| 中文字幕av无码一区二区三区电影| 国产成人亚洲综合二区| 国产精品黑丝高跟在线粉嫩| 在线天堂www中文| 国产亚洲精久久久久久无码77777 丝袜足控一区二区三区 | 日本av一级片免费看| 亚洲欧美乱日韩乱国产| 国产极品久久久久极品| 中文字幕一区韩国三级| 99久久精品人妻一区| 久久国产劲爆∧v内射| 亚洲性啪啪无码av天堂| 亚洲欧美日韩高清中文在线 | 麻豆视频黄片在线免费观看| 尹人香蕉久久99天天拍| 伊人久久久精品区aaa片| 亚洲两性视频一三区| 一本色道久久综合亚州精品| 日韩少妇人妻中文视频| 小sao货水好多真紧h无码视频| 国产在线网址| 日韩美女人妻一区二区三区| 亚洲最大中文字幕熟女| 亚洲 自拍 另类小说综合图区|