亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

分布式存儲

2020-11-16 02:11:06張恒均

數(shù)碼世界 2020年10期

張恒均

摘要：分布式存儲與傳統(tǒng)集中式存儲截然相反，集中式存儲采用的存儲服務(wù)器存放數(shù)據(jù)，更多地依賴于硬件設(shè)備，面對大規(guī)模存儲需求，很容易成為制約系統(tǒng)性能發(fā)揮的因素。分布式存儲所謂一種概念，最早由美國的谷歌公司提出，它包含的種類有很多，比如分布式文件系統(tǒng)、分布式對象存儲、分布式數(shù)據(jù)存儲等，但無論是哪種存儲，核心內(nèi)容和思想都是一樣的。與傳統(tǒng)集中式存儲相比，分布式存儲所用到的物理設(shè)備較少，主要是靠整合、劃分和分配存儲資源來建立一個(gè)虛擬的存儲空間，再由具體某些虛擬存儲空間出發(fā)，擴(kuò)展出更多系統(tǒng)結(jié)構(gòu)，在提高可靠性和有效性的同時(shí)，也解決了冗余等諸多問題。下面本文將對分布式存儲——數(shù)據(jù)中心建設(shè)解決策略進(jìn)行研究。

關(guān)鍵詞：分布式數(shù)據(jù);HDFS;Cepf;問題解決策略

一、透析分布式存儲

（一）HDFS分布式存儲體系結(jié)構(gòu)

HDFS是一種實(shí)現(xiàn)分布式文件存儲的體系結(jié)構(gòu)，它類似于一個(gè)文件傳輸系統(tǒng)，當(dāng)客戶端需要讀取某個(gè)文件數(shù)據(jù)時(shí)，首先會從元數(shù)據(jù)，也就是namenode服務(wù)器獲取文件信息，然后在元數(shù)據(jù)服務(wù)器和實(shí)際存儲數(shù)據(jù)服務(wù)器（datanode）的交互作用下，獲取具體有效數(shù)據(jù)。通過分析整個(gè)交互過程我們發(fā)現(xiàn)，作為整個(gè)HDFS文件系統(tǒng)中的管理者，namenode主要負(fù)責(zé)文件系統(tǒng)的命名空間、集群配置信息和存儲塊的復(fù)制;datanode則是文件存儲的基本單元，當(dāng)客戶端向namenode發(fā)送文件寫入和讀取請求后，namenode會按照事先制定好的規(guī)則反饋給客戶端自己所管理的datanode信息。一般來說，一個(gè)集中中只有一個(gè)namenode的設(shè)計(jì)大大簡化了系統(tǒng)結(jié)構(gòu)。

（二）Ceph分布式存儲系統(tǒng)結(jié)構(gòu)

Ceph分布式存儲系統(tǒng)的設(shè)計(jì)初衷是為了提供更好的可靠性、可擴(kuò)展性和性能。它所采用的是 CRUSH 算法和數(shù)據(jù)分布均衡，這與傳統(tǒng)集中式存儲的元數(shù)據(jù)尋址有著非常大的不同，可實(shí)現(xiàn)各種類型的負(fù)載副本放置規(guī)則，存儲節(jié)點(diǎn)規(guī)模十分龐大。Ceph的核心組件有Monitor服務(wù)、OSD服務(wù)和MDS服務(wù)，其中OSD是負(fù)責(zé)響應(yīng)客戶請求返回具體數(shù)據(jù)的進(jìn)程操作，它的元數(shù)據(jù)被保存在Monitor里。一般來說，Ceph分布式存儲系統(tǒng)中的塊存儲需要Monitor服務(wù)、OSD服務(wù)和客戶端軟件，Monitor負(fù)責(zé)維護(hù)存儲系統(tǒng)的硬件邏輯關(guān)系，OSD負(fù)責(zé)磁盤管理，以實(shí)現(xiàn)真正的數(shù)據(jù)讀寫。

塊存儲是Ceph分布式存儲系統(tǒng)三種存儲類型中的一種，另外兩種是文件存儲和對象存儲，每種類型的存儲都有各自的優(yōu)點(diǎn)和缺點(diǎn)，如塊存儲的優(yōu)點(diǎn)是利用Raid和LVM來保護(hù)數(shù)據(jù)的完成性，通過組合廉價(jià)硬盤來提高存儲容量，由多磁盤合成的邏輯盤能夠提升讀寫效率，缺點(diǎn)在于，數(shù)據(jù)共享無法在主機(jī)之間實(shí)現(xiàn)，且由光纖交換機(jī)等構(gòu)建的硬件網(wǎng)絡(luò)平臺成本較高;文件存儲類型的優(yōu)點(diǎn)是，造價(jià)低廉，文件共享是可行的，但讀寫和數(shù)據(jù)傳輸速度慢也是不容忽視的問題，并且在使用場景和日志存儲方面也有比較特殊的要求;而對象存儲類型既具備了塊存儲讀寫速度高的優(yōu)點(diǎn)，也具備了文件存儲共享的特性，但更適合去更新變動(dòng)較少的數(shù)據(jù)。

二、不同分布式存儲系統(tǒng)存在的問題

（一）HDFS的缺點(diǎn)

1.短時(shí)間、低延遲請求的響應(yīng)能力不足

受自身性質(zhì)和結(jié)構(gòu)的限制，HDFS在處理用戶要求時(shí)間比較短的低延遲請求時(shí)會顯得力不從心。HDFS最初是為了處理和解決大型數(shù)據(jù)集問題而設(shè)計(jì)的，實(shí)現(xiàn)高吞吐量的代價(jià)就是出現(xiàn)高延遲。

2.小文件存儲量的有效性低

由于元數(shù)據(jù)會被存放在內(nèi)存中，因此文件系統(tǒng)所能容納的文件數(shù)量必然是有限的，如果以每個(gè)文件160字節(jié)去計(jì)算，200萬份文件就需要占用至少600MB的內(nèi)存空間，雖然以目前的情況來看是可行的，但當(dāng)發(fā)展到10億以上時(shí)，對硬件的要求就會變得很高。

3.文件寫入及修改的限制

從目前來看，HDFS還不支持多用戶對同一個(gè)文件寫入的操作，也就是說，HDFS規(guī)定，一個(gè)文件只配有一個(gè)寫入者，且只能在文件末尾完成，對文件修改也是如此。

（二）Ceph分布式存儲系統(tǒng)的問題

1.可擴(kuò)展性

由于CRUSH 算法的存在，使Ceph對系統(tǒng)擴(kuò)容方面充滿了自信，甚至聲稱能夠?qū)崿F(xiàn)無限擴(kuò)展，事實(shí)上也確實(shí)如此。但這種無限擴(kuò)展更多是站在宏觀立場去做判斷，其擴(kuò)展過程并不是很順暢。由于Ceph沒有中心化的數(shù)據(jù)節(jié)點(diǎn)，使擴(kuò)容易受“容錯(cuò)域”制約，導(dǎo)致數(shù)據(jù)放置策略受到影響，所以擴(kuò)容力度沒辦法得到提升。

2.存儲成本問題

眾所周知，Ceph是去中心化的分布式存儲，元數(shù)據(jù)被分布在各個(gè)物理設(shè)備上，事實(shí)上，對象的被隨機(jī)分配是無法保證均勻地存儲在每一塊磁盤上，所以某些磁盤的使用率會明顯高于全部磁盤的平均使用率，那么這跟存儲成本又有什么關(guān)系呢？在集群整體使用率不高的情況下，即便出現(xiàn)上述所講的問題也沒什么，但在整體使用率達(dá)到一定程度時(shí)（一般會以65%作為標(biāo)準(zhǔn)去衡量），就需要管理員對高使用率的磁盤進(jìn)行reweight，如果在調(diào)整過程中另外一塊磁盤也被寫滿了，那管理員就必須被迫在Ceph沒有達(dá)到穩(wěn)定狀態(tài)前，又一次進(jìn)行reweight操作，從而使Ceph變得越來越不穩(wěn)定，加之?dāng)U展性方面的問題，這個(gè)Ceph系統(tǒng)運(yùn)行就會很緊張。所以，很多公司為了避免出現(xiàn)這些問題，會選擇增加成本，購買更多的物理設(shè)備，準(zhǔn)備更多的磁盤，其實(shí)這并不是一個(gè)很省錢的辦法，很多業(yè)界人士認(rèn)為，一般Ceph集群在達(dá)到50%使用率時(shí)，就要開始準(zhǔn)備擴(kuò)容了，越大規(guī)模的集群，越多空置的存儲資源，就會浪費(fèi)越多的錢。

三、問題改進(jìn)策略

（一）HDFS問題改進(jìn)策略

1.HBase開源數(shù)據(jù)庫

建立 HBase數(shù)據(jù)庫是解決低延時(shí)問題比較有效的一個(gè)辦法，在很大程度上提升了存儲系統(tǒng)的性能，使用緩存或多master設(shè)計(jì)可以降低client的數(shù)據(jù)請求壓力，以減少延時(shí)。另一方面，著手于HDFS系統(tǒng)內(nèi)部進(jìn)行修改也是一個(gè)不錯(cuò)的辦法，但需要權(quán)衡吞吐量的問題。

2.提高小文件存儲量的有效性

關(guān)于這方面問題的解決辦法還是不少的，比如用SequenceFile、MapFile、Har等方式對小文件進(jìn)行歸檔操作，其中比較重要的點(diǎn)在于，要知道與歸檔文件的映射關(guān)系;再有就是橫向擴(kuò)展，即把幾個(gè)Hadoop集群拖在一個(gè)虛擬服務(wù)器后面，形成一個(gè)大的Hadoop集群，google曾經(jīng)就是這樣操作的;還有就是正在研發(fā)中的GFS II，它也將被改為分布式多Master設(shè)計(jì)，而且還支持Master的Failover。

（二）Ceph問題改進(jìn)策略

1.擴(kuò)充“容錯(cuò)域”

在開始規(guī)劃Ceph集群時(shí)，設(shè)定好更大層次的“容錯(cuò)域”，比如Rack。可以是真實(shí)的Rack，即使沒有也可以是邏輯的Rack。這樣擴(kuò)容時(shí)，可以擴(kuò)一個(gè)邏輯“容錯(cuò)域”，就可以打破擴(kuò)一臺機(jī)器的限制，擴(kuò)一整個(gè)Rack，至少有好幾臺機(jī)器。

2.Ceph存儲成本

到目前為止，還沒有太好的辦法去解決Ceph儲存成本的問題，有人建議過Ceph集群按整個(gè)pool去擴(kuò)容，即當(dāng)一個(gè)pool滿了，就不擴(kuò)容了，開新的pool，新的對象只準(zhǔn)寫新的pool，老的pool的對象只可以進(jìn)行刪除和讀取操作，但這樣做也就談不上“無限擴(kuò)容”了。

四、結(jié)束語

分布式存儲較集中式存儲相比，的確為使用者提供了諸多便利，具有很明顯的優(yōu)勢，且每一種分布式存儲都有自己獨(dú)特的亮點(diǎn)，給使用者提供了多樣化的選擇。但在具體應(yīng)用時(shí)，還需要結(jié)合實(shí)際情況，HDFS也好，Ceph也罷，它們也都有自己的不足，沒有哪種產(chǎn)品是十全十美的，數(shù)據(jù)中心建設(shè)的標(biāo)準(zhǔn)應(yīng)遵循分布式存儲的特點(diǎn)進(jìn)行實(shí)施，這樣才能最大限度提高數(shù)據(jù)使用率和保證數(shù)據(jù)安全。

參考文獻(xiàn)

[1]寧睿，張琳.基于分布式深度網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情分析方法研究與實(shí)現(xiàn)[J].電子設(shè)計(jì)工程，2020，28（14）：85-89.

[2]高紅巖.基于分布式存儲的應(yīng)用場景研究[J].網(wǎng)絡(luò)安全和信息化，2020（07）：87-90.

數(shù)碼世界2020年10期

數(shù)碼世界的其它文章: 智能化數(shù)控加工技術(shù)的特點(diǎn)分析; 數(shù)控加工的工藝設(shè)計(jì)原則及方法探討; 探討大截面碳纖維導(dǎo)線卡線器夾嘴優(yōu)化設(shè)計(jì); 交叉式露點(diǎn)間接蒸發(fā)冷卻空調(diào)機(jī)組在數(shù)據(jù)機(jī)房的應(yīng)用方案分析; 跳繩智能化發(fā)展研究; 智能樓宇自動(dòng)化監(jiān)控系統(tǒng)分析