亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Hadoop分布式架構的云存儲系統(tǒng)、文件存儲實現(xiàn)研究

        2022-03-05 08:22:46彭玉濤
        電腦與電信 2022年10期
        關鍵詞:設置

        謝 帆 彭玉濤

        (井岡山大學網(wǎng)絡信息中心,江西 吉安 343009)

        1 引言

        面對海量大文件、小文件存儲混亂的問題,引入基于Hadoop分布式架構的云存儲系統(tǒng)、HBase數(shù)據(jù)庫,并提出海量小文件存儲的HPM優(yōu)化方案。根據(jù)小文件體積不均勻、數(shù)量多的特征,通過創(chuàng)建不同類別的小文件索引,將MDS鏡像文件與文件名拼接成字符串,完成多個小文件合并設置,并采用Ehcache緩存框架對需要訪問的特定數(shù)據(jù)文件,緩存至云存儲平臺的客戶端中,能夠充分保證用戶在與Hadoop集群交互、重復信息訪問的效率,以及分布式數(shù)據(jù)存儲的可靠性、容錯性。

        2 分布式云存儲涉及的關鍵技術

        2.1 分布式存儲技術

        分布式存儲是將分布式文件系統(tǒng),部署于多個分散的云服務器中,并采用ScaleOut橫向擴展架構,將不同的數(shù)據(jù)信息處理、存儲任務,分布到多個低成本的網(wǎng)絡節(jié)點,并可根據(jù)數(shù)據(jù)存儲的需求添加節(jié)點,來擴展云服務存儲容量、存儲功能。[1]外部客戶端可通過互聯(lián)網(wǎng),接入到分布式存儲的云服務平臺之中,對任意時間、任意地點、任意數(shù)據(jù)對象的存儲行為,進行獨立存儲節(jié)點、數(shù)據(jù)存儲任務的配置,提供面向客戶端、按需的云存儲服務。

        2.2 存儲虛擬化技術

        存儲虛擬化是指存儲設備虛擬化、存儲服務虛擬化、網(wǎng)絡虛擬化,目的在于通過硬件及應用虛擬化、數(shù)據(jù)封裝技術,解決不同計算機設備接口、存儲容量間的差異問題,使得用戶在數(shù)據(jù)信息處理、存儲過程中,無需考慮后臺的硬件配置、資源負載狀況。

        在PC主機上設置虛擬化層,虛擬出應用軟件、虛擬存儲管理設備,并通過映像技術虛擬出CPU、I/O通訊接口,以及NAS、SAN等虛擬網(wǎng)絡存儲,在數(shù)據(jù)信息處理與存儲中共用同一傳輸信道,或者經(jīng)由數(shù)據(jù)通道直接訪問存儲設備,實現(xiàn)底層硬件、上層存儲業(yè)務的互相耦合。

        2.3 數(shù)據(jù)容錯及加密技術

        數(shù)據(jù)容錯技術為分布式云存儲的故障處理技術,包括復制性數(shù)據(jù)容錯、糾刪碼型數(shù)據(jù)容錯等內(nèi)容。其中復制性數(shù)據(jù)容錯技術,是通過設置多個數(shù)據(jù)處理模塊,用于不同網(wǎng)絡節(jié)點的數(shù)據(jù)處理、存儲控制,當某一模塊損壞后可斷開或隔離該模塊,內(nèi)部節(jié)點的其余模塊可正常運行,但缺點是復制性數(shù)據(jù)容錯技術需要建立副本,會占用大量的存儲硬件資源。糾刪碼型數(shù)據(jù)容錯技術、數(shù)據(jù)加密技術,則是采用存儲數(shù)據(jù)的編碼處理方式、TTL/SSL技術等進行編碼加密、解碼控制,用于防控外部用戶攻擊、病毒入侵,其占用的存儲硬件資源較少,但缺陷是編解碼過程對服務器設備的性能要求更高。

        3 Hadoop分布式框架下小文件存儲的優(yōu)化方案設計

        HadoopArchives作為數(shù)據(jù)文檔或文件的合并工具,通常利用MapReduce模型編程、HAR文件元數(shù)據(jù)信息設置與合并,完成小的數(shù)據(jù)文件處理、歸檔存儲等操作,并將歸檔后的文件添加至系統(tǒng)索引中。[2]如針對_index、_masterindex形式的小數(shù)據(jù)文件,可由HAR打包工具設置*.har的文件擴展名,其中包含了不同數(shù)據(jù)的文件名、位置等元數(shù)據(jù)信息,然后用part-*存放數(shù)據(jù)內(nèi)容、用masterindex存放hashcode指針,歸檔處理后的har文件可壓縮和解壓,這樣能夠最大程度減少磁盤容量的占用。

        SequenceFile與HAR的數(shù)據(jù)文件合并方案類似,是以[key value]鍵值對的二進制文件作為小文件合并的元數(shù)據(jù)信息處理方式,其中設置key為小文件名、value為小文件內(nèi)容,以數(shù)據(jù)塊為單位進行序列化合并,將小文件數(shù)據(jù)切為split格式的片,作為MapReduce并行計算、存儲的輸入值,使小文件合并降低NameNode內(nèi)存開銷。但缺陷是該文件格式不能建立索引,讀取時需遍歷整個源文件。因而這一數(shù)據(jù)文件合并方案,即使采取Block組織方式對key、value都進行壓縮,也難以滿足低延時隨機訪問的數(shù)據(jù)讀取需求。

        為解決這一問題,本文給出HPM分級處理的小文件優(yōu)化方案,采用HPM方案改進現(xiàn)有的HDFS分布式存儲架構,將其設置為包含用戶層、數(shù)據(jù)處理層、存儲層的多層結構,具體如圖1所示。

        圖1 HPM方案改進的HDFS分布式存儲架構

        其中HPM分級處理模塊位于數(shù)據(jù)處理層,該層級包含文件重復判定、文件大小判定、文件合并、緩存和預取等的子模塊,根據(jù)服務器/客戶機(C/S)模式傳輸?shù)奈募笮。琀PM通過以上多個處理模塊,完成不同文件名稱字符串、MD5值的數(shù)據(jù)檢索分析,判定文件大小、是否存在重復,將小文件通過合并模塊的合并隊列、臨時隊列進行合并,使合并文件大小滿足系統(tǒng)數(shù)據(jù)塊的閾值要求,降低NameNode的內(nèi)存開銷。同時,在索引子模塊中創(chuàng)建索引文件,在HBase數(shù)據(jù)庫中記錄臨時索引信息,將檢索的同一類型的小文件合并;在緩存和預取子模塊中,掃描數(shù)據(jù)文件的訪問次數(shù),記錄訪問頻率更高的文件,并將該文件緩存于HDFS存儲端,以便于用戶端對數(shù)據(jù)文件的重復訪問和讀取。

        4 基于云計算的分布式存儲系統(tǒng)組成架構、功能實現(xiàn)

        4.1 Hadoop集群部署、環(huán)境變量配置

        在分布式存儲系統(tǒng)構建之前,需要利用各節(jié)點主機、VMWare虛擬機、Hadoop集群,進行完全分布式系統(tǒng)架構的環(huán)境部署。選用6臺PC機作為NameNode節(jié)點、DataNode節(jié)點、SecondaryNameNode節(jié)點的主機,分別命名為masterl、master2、slavel、……、slave4,各主機在不同節(jié)點上執(zhí)行主機名修改,以及network-scripts目錄的ifcfg-eth0文件修改、靜態(tài)IP地址配置等任務,使Hadoop集群的多個節(jié)點名與節(jié)點IP地址相對應[3]。

        而后對Hadoop分布式架構的Java編譯運行環(huán)境進行配置,設置由ssh管理的免密鑰登錄節(jié)點,設定各節(jié)點的數(shù)據(jù)存放目錄/opt/software、解壓目錄/opt/module,ssh免密鑰配置的執(zhí)行流程為:$ssh-keygen-trsa;$cd/root/.ssh;$ssh-copy-idslavel~4,即輸入命令分別對應id_rsa.pub(公鑰)、id_rsa(私鑰)等文件,在master節(jié)點進入/root/.ssh目錄,將公鑰拷貝到可免密登錄的slavel、……、slave4節(jié)點,由此只需通過sshroot@slavel~4命令驗證,即可完成存儲節(jié)點設置。

        Hadoop環(huán)境變量的配置需打開etc目錄,將profile文件的用戶名$LOGNAME/.profile、登錄目錄$HOME/.profile變量,添加到數(shù)據(jù)存儲的運行環(huán)境中,在profile文件末尾添加Hadoop路徑vim/etc/profile,保存退出。而后對masterl節(jié)點、slaves節(jié)點的環(huán)境變量進行設置,將jdk安裝路徑加入至masterl節(jié)點,添加slave節(jié)點的IP地址,修改Hadoop核心配置文件來完成節(jié)點IP和端口設置。

        4.2 分布式存儲系統(tǒng)的總體架構設計

        基于Hadoop分布式集群環(huán)境,構建用于數(shù)據(jù)處理、存儲的云服務管理系統(tǒng),對系統(tǒng)內(nèi)的文件大小、名稱、長度、合并偏移值等元數(shù)據(jù)信息,以及數(shù)據(jù)文件的存儲路徑進行科學規(guī)范管理[4]。云存儲系統(tǒng)模型的層次化組成結構,包括存儲層、數(shù)據(jù)管理層、應用接口層、用戶訪問層等層級,具體如圖2所示。

        圖2 分布式存儲系統(tǒng)的組成架構

        該分布式云存儲系統(tǒng)模型以B/S(瀏覽器/服務器)模式,作為用戶訪問、數(shù)據(jù)處理與存儲的功能實現(xiàn)方式,由應用服務器響應用戶登錄、文件上傳/下載的執(zhí)行命令,Hadoop集群節(jié)點存儲大文件、小文件、合并文件。

        存儲層為系統(tǒng)最底層,通常包含HDFS存儲器、Web服務器、存儲硬盤等設備;數(shù)據(jù)管理層借助于Hadoop分布式集群、存儲器裝置,設置多個網(wǎng)絡節(jié)點、虛擬出NAS、SAN存儲裝置,可提供數(shù)據(jù)讀取、寫入、瀏覽、刪除的功能服務。

        應用接口層為系統(tǒng)的網(wǎng)絡連接層,包含API、webserver等接口,在數(shù)據(jù)接入、網(wǎng)絡信道傳輸過程中,由Web服務器控制用戶訪問請求、文件處理與存儲需求,安排Nginx反向代理向多個網(wǎng)絡節(jié)點分配負載,并將處理后的數(shù)據(jù)寫入至Hadoop集群、MySQL或HDFS存儲數(shù)據(jù)庫中。

        用戶訪問層為系統(tǒng)最外層,由管理服務器分配與配置系統(tǒng)賬號、登錄密碼,展示用于用戶訪問控制的注冊、登錄等操作頁面。

        4.3 數(shù)據(jù)文件存儲的功能實現(xiàn)

        網(wǎng)絡云平臺中的數(shù)據(jù)文件存儲設置,通常圍繞著用戶層、數(shù)據(jù)處理層、存儲層等系統(tǒng)層級,設置用于數(shù)據(jù)文件存儲的大小判定模塊、重復判定模塊、合并模塊、緩存及預讀寫模塊,分級完成多個小文件數(shù)據(jù)的連續(xù)處理[5]。

        (1)文件大小判定的功能模塊。當前網(wǎng)絡傳輸、存儲數(shù)據(jù)文件大小的閾值設定,通常依照HDFS分布式文件存儲的標準,默認數(shù)據(jù)塊大小為64MB,小于64MB的存儲數(shù)據(jù)文件被稱為小文件,但這一文件閾值設定過高,將導致不必要的文件合并,過低又會增加合并后的小文件數(shù)量,因此本文設定小文件閾值為10MB。

        (2)文件重復判定的功能模塊。數(shù)據(jù)文件傳輸?shù)闹貜托耘卸?,通常使用MDS信息摘要算法,對不定長度數(shù)據(jù)信息,處理為具有固定字符串長度的數(shù)據(jù)元組,并輸出由MDS算法處理后的結果A。當用戶客戶端上傳文數(shù)據(jù)件后,查看數(shù)據(jù)信息的MDS值是否存在于HBase數(shù)據(jù)庫中,若存在表明數(shù)據(jù)已被寫入、無需重復寫入,具體基于MDS算法的數(shù)據(jù)文件重復判定步驟如下:

        第一,對數(shù)據(jù)長度為M的文件進行二進制數(shù)填充(包括1和n個0),直到字符串擴充為448+N*512(bit)的長度則停止填充。

        第二,用64位字符串存儲填充前的數(shù)據(jù)信息長度,按照64位求余的結果,追加長度為448+N*512+64=(N+1)*512(bit)的數(shù)據(jù)序列。

        第三,設置32位初始化鏈路變量A、B、C、D,對輸入數(shù)據(jù)分為字符串長度為512bit的信息塊,進行多輪線性函數(shù)循環(huán)運算,求解公式為lib=(ABC)T+(ABD)T+(ACD)T+(BCD)T,得到lib1、lib2……等的相加求和結果lib,作為MDS值。將MDS值與HBase數(shù)據(jù)庫中的文件名、文件內(nèi)容字符串作對比,進行重復數(shù)據(jù)的篩除、過濾。

        (3)文件合并的功能模塊。HDFS分布式存儲架構,可按照順序進行大文件的存取、合并,但在大量小文件的處理、合并方面性能較差,而對緩存區(qū)隊列設定閾值、遍歷小文件的方式,雖然能完成大部分主流小文件的處理、合并存儲操作,但以“文件體積”控制為主的合并,將造成合并后的數(shù)據(jù)體積不均、NameNode內(nèi)存浪費問題。

        根據(jù)以上數(shù)據(jù)文件大小判定標準,設定小文件閾值為10MB的體積最優(yōu)模式,也即當傳輸文件體積大于10MB時不作處理,小于10MB時按照數(shù)據(jù)文件大小判定的要求,按照文件體積大小進行均勻分布,執(zhí)行文件大小的判定算法(具體代碼如圖3所示)對其合并處理,并調(diào)用API接口上傳大文件至DataNode集群中存儲。這一基于體積最優(yōu)的小文件合并算法,可最大化利用數(shù)據(jù)塊的存儲空間,避免合并小文件被分割、跨越數(shù)據(jù)塊存儲,降低NameNode節(jié)點的內(nèi)存開銷。

        文件大小的判定算法如下:

        (4)文件索引、緩存的功能模塊。在HPM多處理器架構中,設置小文件讀取分級模塊、建立索引文件,使用HBase索引表、數(shù)據(jù)庫存儲臨時的索引文件信息,包括數(shù)據(jù)文件名、塊BlockID、存儲路徑、MDS值等的信息,以及合并后的小文件長度、偏移值信息。其中對不同類型的數(shù)據(jù)文件進行標記,大小數(shù)據(jù)文件分別記為flag=1、flag=0,合并文件記為flag=2,根據(jù)標記選擇數(shù)據(jù)讀取、索引的執(zhí)行策略。

        網(wǎng)絡數(shù)據(jù)小文件緩存的主要目的,在于方便HDFS分布式存儲系統(tǒng)的讀寫操作,也即“一次寫入、多次讀取”。依托于HBase索引表、HDFS分布式存儲器與I/O接口,可針對外部用戶客戶端訪問的NameNode請求,設置元數(shù)據(jù)文件的緩存機制、置換策略,響應請求后將大文件、合并文件的元數(shù)據(jù)信息,以及將小文件的文件名、長度和偏移值等信息,緩存到HDFS存儲器之中,當目標文件被訪問時,直接檢索HDFS存儲器的元數(shù)據(jù)信息即可[6]。這里小文件緩存信息與的格式內(nèi)容對應,Key值用于記錄小文件檢索的信息,value值用于記錄小文件的文件名、長度和偏移值信息,進而實現(xiàn)分布式存儲系統(tǒng)的用戶管理、目錄管理和文件管理功能。

        5 結語

        分布式云存儲是基于多臺PC主機、服務器及數(shù)據(jù)庫,將網(wǎng)絡數(shù)據(jù)處理的任務程序,拆分為多個動態(tài)資源分配的小程序,為不同用戶分配動態(tài)的資源池,完成數(shù)據(jù)存儲的按需資源配置、功能擴展。因而對于不同數(shù)據(jù)信息的分布式云存儲,借助于Hadoop分布式架構、HDFS存儲器、HBase數(shù)據(jù)庫、PC主機、VMWare虛擬機等軟硬件設備,搭建起虛擬化云存儲服務平臺,提供分布式接入、全局訪問、虛擬化處理與存儲的服務,可完成對大小數(shù)據(jù)文件的分布式存儲、存儲虛擬化及數(shù)據(jù)容錯處理。

        猜你喜歡
        設置
        中隊崗位該如何設置
        少先隊活動(2021年4期)2021-07-23 01:46:22
        船舶防火結構及設置的缺陷與整改
        水上消防(2020年5期)2020-12-14 07:16:18
        中外醫(yī)學專業(yè)與專科設置對比分析及啟示
        特殊場景下列控等級轉換的設置方案
        7招教你手動設置參數(shù)
        動車段(所)股道有效長設置研究
        我國中小學將設置人工智能相關課程
        玩具世界(2017年9期)2017-11-24 05:17:29
        吃紙的妖怪
        本刊欄目設置說明
        中俄臨床醫(yī)學專業(yè)課程設置的比較與思考
        久久无码人妻一区=区三区| 337p日本欧洲亚洲大胆| 国产性生大片免费观看性| 欧美一级三级在线观看| 国产喷白浆精品一区二区| 三级日韩视频在线观看| 中文天堂国产最新| 久久久久国色av∨免费看| 国产精品nv在线观看| 日本午夜剧场日本东京热| 熟女少妇精品一区二区| 99久久精品免费看国产情侣| 亚洲美女av一区二区| 喷水白浆视频在线观看| 欧美成人在线视频| 欧美精品中文字幕亚洲专区| av资源在线永久免费观看| 人妻少妇不满足中文字幕 | 国产激情在线观看免费视频| av狠狠色丁香婷婷综合久久| 麻豆精品久久久久久久99蜜桃 | 国产99一区二区三区四区| 疯狂撞击丝袜人妻| 无码精品色午夜| 日本一区二区三区激视频| 国产精品久久国产精品99 gif| 精品国产乱码久久久软件下载 | 亚洲中文字幕乱码在线视频| 中文字幕无码成人片| 久久乐国产精品亚洲综合| 成年视频网站在线观看777| 中文字幕乱码日本亚洲一区二区| 激情综合丁香五月| 国产一区二区精品在线观看| 亚洲国内精品一区二区在线| 无码专区人妻系列日韩精品 | 四虎影视永久在线精品| 久久精品中文字幕亚洲| 蜜桃av噜噜一区二区三区策驰| 中文字幕人妻熟女人妻洋洋| 日韩精品视频在线观看免费|