亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

中小規(guī)模分布式文件系統(tǒng)集群構架的優(yōu)化方案

2014-04-21 05:43:45白俊王新耿昕

武漢工程大學學報 2014年1期

關鍵詞：子網(wǎng)結點集群

白俊，王新，耿昕

（1.北京京北職業(yè)技術學院機電工程系，北京101400；2.中國石油大學計算機系，北京102249）

中小規(guī)模分布式文件系統(tǒng)集群構架的優(yōu)化方案

白俊1，王新2，耿昕2

（1.北京京北職業(yè)技術學院機電工程系，北京101400；2.中國石油大學計算機系，北京102249）

針對分布式文件系統(tǒng)的應用存在處理小文件效率不高的問題，提出一種適用于中小規(guī)模分布式文件系統(tǒng)集群的應用架構，將傳統(tǒng)分布式文件系統(tǒng)集群中的內網(wǎng)劃分為兩個子網(wǎng)：對外子網(wǎng)和對內子網(wǎng)，對外子網(wǎng)中傳輸與外網(wǎng)之間的交互數(shù)據(jù)，對內子網(wǎng)中傳輸分布件系統(tǒng)集群的管理數(shù)據(jù)。每個數(shù)據(jù)結點同時與對外和對內兩個子網(wǎng)連接，并代替名稱節(jié)點負責與外網(wǎng)直接的數(shù)據(jù)交流；名稱節(jié)點本身只與對內子網(wǎng)連接。對外子網(wǎng)與外網(wǎng)之間使用防火墻設備加強安全性，并使用負載均衡設備將來自外網(wǎng)的數(shù)據(jù)請求合理的分配到每個數(shù)據(jù)節(jié)點上；增加了緩存機制對系統(tǒng)處理小文件操作進行優(yōu)化，部署實驗環(huán)境，設計一個測試程序對緩存效率測試，對1000個100KB的文件，通過模擬多線程連續(xù)讀取大量文件來測試緩存的性能，實驗證明系統(tǒng)設計方案可行，增加磁盤緩存有利于提高系統(tǒng)處理小文件的存取效率，系統(tǒng)優(yōu)化效果顯著.

緩存；中小規(guī)模分布式文件系統(tǒng)；管理數(shù)據(jù)

0 引言

當前，如何更為有效而又廉價地處理海量的用戶數(shù)據(jù)，已經(jīng)成為互聯(lián)網(wǎng)公司普遍面臨的一個難題.傳統(tǒng)的企業(yè)架構采用企業(yè)級服務器或者小型機等高端硬件，并搭配昂貴的企業(yè)數(shù)據(jù)庫軟件，不但給互聯(lián)網(wǎng)公司增加了非常高的運營成本，一定程度上阻礙了互聯(lián)網(wǎng)公司的發(fā)展；也沒有足夠的擴展性來處理未來互聯(lián)網(wǎng)公司所面臨的驚人數(shù)據(jù)量.

面對以上問題，很多互聯(lián)網(wǎng)公司開始自行研發(fā)更加廉價并且具有良好擴展性的解決方案. Google推出的分布式文件系統(tǒng)Google File System（簡稱GFS）是一種已經(jīng)被證明的高效、高擴展性并且較為廉價的解決方案.GFS配合MapReduce分布式計算框架，可以提供一套有效的數(shù)據(jù)存儲和處理系統(tǒng)，然而GFS并沒有向外界開放.Apache和Yahoo！也推出了一套類似的開源系統(tǒng)Ha?doop，并且已經(jīng)在很多互聯(lián)網(wǎng)公司得到了廣泛的應用.Hadoop主要包括了三部分：

（1）Hadoop Common：一系列用于分布式文件系統(tǒng)和I/O的組件和接口（串行化，Java RPC，穩(wěn)定的數(shù)據(jù)結構）；

（2）Hadoop Distributed File System（HDFS）：運行在大量普通商用機器上的、支持高吞吐量的分布式文件系統(tǒng)；

（3）Hadoop MapReduce：一種在分布式系統(tǒng)上有效處理大數(shù)據(jù)集的數(shù)據(jù)處理框架.

Hadoop Distributed File System（簡稱HDFS）是Hadoop包含的分布式文件系統(tǒng)，具有高效、高擴展性和廉價的特點，很適合存儲海量的互聯(lián)網(wǎng)數(shù)據(jù).中國的很多互聯(lián)網(wǎng)公司尤其是有搜索引擎業(yè)務的公司已經(jīng)開始廣泛的使用HDFS，并且越來越深的感受到HDFS帶來的好處.但是，HDFS的應用仍然存在一些阻礙：一是沒有一種完整、成熟、易于部署的架構；二是HDFS為處理大文件而優(yōu)化，處理小文件的I/O效率不高.本文主要針對這兩個問題進行了研究.

1 HDFS 應用架構設計

1.1 傳統(tǒng)HDFS集群架構

HDFS是Hadoop的文件系統(tǒng)組件，它與其他的分布式文件系統(tǒng)有很多不同之處.HDFS具有很強的錯誤恢復機制，因為它運行的機器往往是價格相對低廉、損壞率較高的機器，所以它要具有快速檢測錯誤和自動恢復數(shù)據(jù)的能力；HDFS提供以數(shù)據(jù)流的方式訪問數(shù)據(jù)，適用于批量處理數(shù)據(jù)，而不是與用戶交互進行數(shù)據(jù)操作，這種方式帶來了很高的數(shù)據(jù)吞吐流量，適合于對大量數(shù)據(jù)的處理.

傳統(tǒng)的HDFS使用了主/從架構來管理集群中的結點，每個集群中都有一個NameNode結點和多個DataNode結點，如圖1所示.NameNode作為主結點，管理著文件系統(tǒng)的名字空間和對集群中數(shù)據(jù)的訪問；DataNode是從結點，負責存儲和管理數(shù)據(jù).用戶將文件存儲到HDFS中后，文件會被分割為若干個數(shù)據(jù)塊，并存儲到各個DataNode上.Na?meNode管理著各個文件和數(shù)據(jù)塊的映射表，以及所有對文件的操作，例如文件打開、關閉和重命名. DataNode負責處理客戶端的數(shù)據(jù)讀寫請求，同時也根據(jù)NameNode的指令進行數(shù)據(jù)塊的創(chuàng)建、刪除和拷貝操作.

圖1 傳統(tǒng)HDFS集群架構Fig.1 Traditional HDFSarchitecture cluster

傳統(tǒng)HDFS集群的優(yōu)點是集群內部結構簡潔，只有NameNode、DataNode和交換機三種設備，MapReduce等分布式計算模型可以充分利用這種簡潔性進行數(shù)據(jù)計算的轉移，因此集群內部可以達到很高的數(shù)據(jù)吞吐量，同時結構上的簡潔也降低了維護工作的難度，相對提高了數(shù)據(jù)可靠性.但是在用于MapReduce之外的環(huán)境時，這種架構存在很多不足之處［1-2］：

（1）外網(wǎng)讀寫數(shù)據(jù)時需要直接訪問NameNo?de，當訪問頻繁時會給NameNode造成很大的性能壓力.

（2）單交換機的設計使內外網(wǎng)之間的數(shù)據(jù)傳輸流量與HDFS集群管理的流量都集中于單個網(wǎng)段中，造成頻繁的網(wǎng)絡繁忙，限制了數(shù)據(jù)的傳輸效率.

（3）外網(wǎng)與內網(wǎng)的直接連接會帶來數(shù)據(jù)安全上的隱患，尤其對于互聯(lián)網(wǎng)企業(yè)，安全遠比性能更重要.

1.2 應用架構設計

針對傳統(tǒng)HDFS集群架構的不足，提出以下優(yōu)化方案，如圖2所示：

（1）將傳統(tǒng)HDFS集群中的內網(wǎng)劃分為兩個子網(wǎng)：對外子網(wǎng)和對內子網(wǎng)，對外子網(wǎng)中傳輸與外網(wǎng)之間的交互數(shù)據(jù)，對內子網(wǎng)中傳輸HDFS集群的管理數(shù)據(jù).

（2）每個DataNode同時與對外和對內兩個子網(wǎng)連接，并代替NameNode負責與外網(wǎng)直接的數(shù)據(jù)交流；NameNode本身只與對內子網(wǎng)連接.

（3）對外子網(wǎng)與外網(wǎng)之間使用防火墻設備加強安全性，并使用負載均衡設備將來自外網(wǎng)的數(shù)據(jù)請求合理的分配到每個DataNode上［3］.

圖2 HDFS應用架構Fig.1 HDFS application cluster

采用這種架構的優(yōu)點是：

（1）采用內外子網(wǎng)的劃分方式，減輕了傳統(tǒng)HDFS集群中NameNode的性能瓶頸和單個網(wǎng)絡中的頻繁數(shù)據(jù)擁堵問題.

（2）由DataNode負責直接處理外網(wǎng)的數(shù)據(jù)請求，配合使用負載均衡設備，在減少NameNode壓力的同時，提高了數(shù)據(jù)請求的處理速度和整個集群的數(shù)據(jù)處理效率.

（3）加入防火墻設備，增強了數(shù)據(jù)的安全性.

這種架構也存在不足之處：

（1）沒有改變集群中單NameNode的方式，仍然存在單NameNode帶來的性能瓶頸和可靠性問題.

（2）內外子網(wǎng)劃分的方式增加了系統(tǒng)實現(xiàn)和維護的復雜度.

（3）仍然存在小文件I/O的效率問題.

2 緩存設計

2.1 緩存設計需要解決的問題

由于上述應用架構仍然存在小文件I/O的效率問題，而互聯(lián)網(wǎng)中的數(shù)據(jù)一般具有以下特點：（1）小文件所占的比例很高；（2）大部分文件在創(chuàng)建后很少會被修改；（3）大部分數(shù)據(jù)讀取請求集中于小部分經(jīng)常被訪問的文件，而其余大部分文件被訪問到的次數(shù)很少.這些特點正符合緩存的使用場景，因此本文使用緩存技術對上述應用架構進行優(yōu)化.在設計緩存時，主要應解決緩存置換策略問題［4］、所占空間大小、需要緩存文件［5］的大小等問題.

2.2 緩存設計方案

（1）置換策略：由于緩存的空間是有限的，在緩存填滿時的置換策略，本文使用最早被訪問置換策略.

（2）緩存空間：由于DataNode結點需要將更多的空間留給HDFS，如果要求所有經(jīng)常被訪問到的文件都被存儲在緩存中，則緩存在本地磁盤中所占的比例p由下式可得：

其中：n為數(shù)據(jù)塊的冗余度，f為所有文件中經(jīng)常被訪問的比例.

（3）需要緩存文件的大小限制：過大的文件在置換到緩存中時，會導致很多小文件被置換出緩存；同時文件越大，文件尋址時間造成的效率問題就越小，因此有必要對需要緩存的文件大小進行限制.當尋址時間占讀取總時間的比例大于或等于某一給定值時，需要被緩存.數(shù)據(jù)塊大小f由下式可得：

其中：f為數(shù)據(jù)塊大?。∕B），t為平均尋址時間（ms），s為網(wǎng)絡傳輸速度（MB/s），r為設定緩存時尋址時間占讀取總時間應達到的比例.

3 實驗設計與結果分析

3.1 實驗環(huán)境與目的

系統(tǒng)中設置1個NameNode，2個DataNode，2臺100M以太網(wǎng)交換機.其上部署Ubuntu 9.04，Ha?doop 0.20.203.0，JDK 6，Bash等軟件環(huán)境.通過部署實驗平臺，驗證設計的HDFS應用架構是否可行.在無緩存和有緩存情況下進行大量小文件讀取測試，記錄和比較每項測試花費的時間，來驗證緩存對于提高HDFS中小文件讀取效率的效果.

3.2 實驗內容

實驗的內容是進行緩存效率測試.緩存效率實驗所需的數(shù)據(jù)設定為1 000個100 KB的文件，并設計一個測試程序，通過模擬多線程連續(xù)讀取大量文件來測試緩存的性能.測試分為6次進行，根據(jù)緩存大小與HDFS中所有文件體積之和的比例，將緩存條件分別設置為無緩存、20%緩存，40%緩存，60%緩存，80%緩存，100%緩存，每次測試中讀取文件系統(tǒng)中的任意文件2 100次.

3.3 實驗結果分析

從圖3中可以看出：隨著緩存容量增大，文件讀取時間顯著減少，說明緩存對小文件效率優(yōu)化起到了較好的作用，證明了緩存優(yōu)化的可行性.而隨著緩存容量減少，讀取時間快速增加.在20%緩存時，讀取時間已經(jīng)超過了沒有緩存的情況，這是因為緩存容量減少時，被訪問文件存在于緩存中的幾率減少，緩存程序需要頻繁地處理文件的置換工作，比較明顯的影響了緩存工作的效率.尤其當緩存容量非常小時，這種置換工作帶來的消耗使效率降低到了比不使用緩存更差的程度，因此在實際應用中，應當考慮給緩存盡可能大的空間，在空間不足時避免使用緩存.

圖3 實驗結果折線圖Fig.3 The line graph of experiment result

4 結語

實驗證明：在實際應用中，可以部署本文提出的HDFS應用架構，在集群規(guī)模不大時，該架構是一個比較合適的解決方案.當集群規(guī)模增大到一定級別之后，對外子網(wǎng)和對內子網(wǎng)分別被劃分為多個交換機連接的網(wǎng)段，該架構需要進行適當?shù)恼{整.而磁盤緩存對小文件讀取效率的優(yōu)化有較好的效果.

致謝

衷心感謝北京京北職業(yè)技術學院對教師科研工作的大力支持.

［1］Borthakur D.The hadoop distributed file system：A rchitecture and design［R］.Hadoop Docs，2007.

［2］Venner J.Pro Hadoop［M］.New York：Apress，2009： 21-53.

［3］柴黃琪，蘇成.基于HDFS的安全機制設計［J］.計算機安全，2010，5：22-25.

CHAI Huang-qi，SU Chen.The design of security mechanism based on HDFS［J］.Com puter Security，2010，5：22-25.（in Chinese）

［4］孫玉昕，章瑾.利用堆排序優(yōu)化路徑搜索效率的分析［J］.武漢工程大學學報，2013，35（6）：51-55.

SUN Yu-xin，ZHANG Jin.The analysis of heap sort optim ization path search efficiency of［J］.Journal of Wuhan Institute of Technology，2013，35（6）：51-55.（in Chinese）

［5］熊俊俏，周建軍，熊詩琪.快速圖形數(shù)據(jù)采集與現(xiàn)實控制器的設計［J］.武漢工程大學學報，2012，34（1）：61-63.

XIONG Jun-qiao，ZHOU Jian-jun，XIONG Shi-qi. Design of Journal［J］.fast graphics data acquisition and real controller of Wuhan Institute of Technology，2012，34（1）：61-63.（in Chinese）

Optimization scheme of cluster architecture of small and medium scaleHadoop distributed file system

BAIJun1，WANG Xin2，GENG Xin2
（1. Department of Electrical Engineering，Northern BeiJing Vocational Education Institute，BeiJing 101400，China）2. Department of Computer Science ，China University of Petroleum，Beijing 102249，China）

Aimed at the low efficiency of distributed file system dealing with small files, we proposed anapplication structure of small and medium- sized distributed file system cluster, the intranet of which wasdivided into external subnet and internal subnet. The external subnet was used to transport the exchange datato external network. The internal subnet was used to transport the management data in distributed file system.Every data node was connected to both two subnets to exchange data with external network replacing thename node，while the name node was connected only with internal subnet. The safety was enforced by usingfirewalls between external subnet and internal subnet. The data requests from the external network wereassigned to each data node reasonably through load balancing device. Because of the existence of efficiencyproblem in small files，we optimized small files operation through adding caching behavior，deployingexperimental environment and designing a test program for caching efficiency test. We tested the cacheperformance by simulating multithreading continuous reading large files using 1000 files of 100KB.Experiments prove that the efficiency of processing small file in system is improved by adding disk buffer andthe system optimization effect is remarkable.

cache；small and medium-sized distributed file system；management data

TP311.13

10.3969/j.issn.1674-2869.2014.01.014

1674－2869（2014）01－0069－05

本文編輯：陳小平

2014-01-03

十二五國家科技重大專項課題子課題（2011ZX05023-005-006）

白?。?981-），女，河南洛陽人，講師，碩士.研究方向：數(shù)據(jù)庫，數(shù)據(jù)分析.