亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        分布式存儲

        2020-11-16 02:11:06張恒均
        數(shù)碼世界 2020年10期

        張恒均

        摘要:分布式存儲與傳統(tǒng)集中式存儲截然相反,集中式存儲采用的存儲服務(wù)器存放數(shù)據(jù),更多地依賴于硬件設(shè)備,面對大規(guī)模存儲需求,很容易成為制約系統(tǒng)性能發(fā)揮的因素。分布式存儲所謂一種概念,最早由美國的谷歌公司提出,它包含的種類有很多,比如分布式文件系統(tǒng)、分布式對象存儲、分布式數(shù)據(jù)存儲等,但無論是哪種存儲,核心內(nèi)容和思想都是一樣的。與傳統(tǒng)集中式存儲相比,分布式存儲所用到的物理設(shè)備較少,主要是靠整合、劃分和分配存儲資源來建立一個(gè)虛擬的存儲空間,再由具體某些虛擬存儲空間出發(fā),擴(kuò)展出更多系統(tǒng)結(jié)構(gòu),在提高可靠性和有效性的同時(shí),也解決了冗余等諸多問題。下面本文將對分布式存儲——數(shù)據(jù)中心建設(shè)解決策略進(jìn)行研究。

        關(guān)鍵詞:分布式數(shù)據(jù);HDFS;Cepf;問題解決策略

        一、透析分布式存儲

        (一)HDFS分布式存儲體系結(jié)構(gòu)

        HDFS是一種實(shí)現(xiàn)分布式文件存儲的體系結(jié)構(gòu),它類似于一個(gè)文件傳輸系統(tǒng),當(dāng)客戶端需要讀取某個(gè)文件數(shù)據(jù)時(shí),首先會從元數(shù)據(jù),也就是namenode服務(wù)器獲取文件信息,然后在元數(shù)據(jù)服務(wù)器和實(shí)際存儲數(shù)據(jù)服務(wù)器(datanode)的交互作用下,獲取具體有效數(shù)據(jù)。通過分析整個(gè)交互過程我們發(fā)現(xiàn),作為整個(gè)HDFS文件系統(tǒng)中的管理者,namenode主要負(fù)責(zé)文件系統(tǒng)的命名空間、集群配置信息和存儲塊的復(fù)制;datanode則是文件存儲的基本單元,當(dāng)客戶端向namenode發(fā)送文件寫入和讀取請求后,namenode會按照事先制定好的規(guī)則反饋給客戶端自己所管理的datanode信息。一般來說,一個(gè)集中中只有一個(gè)namenode的設(shè)計(jì)大大簡化了系統(tǒng)結(jié)構(gòu)。

        (二)Ceph分布式存儲系統(tǒng)結(jié)構(gòu)

        Ceph分布式存儲系統(tǒng)的設(shè)計(jì)初衷是為了提供更好的可靠性、可擴(kuò)展性和性能。它所采用的是 CRUSH 算法和數(shù)據(jù)分布均衡,這與傳統(tǒng)集中式存儲的元數(shù)據(jù)尋址有著非常大的不同,可實(shí)現(xiàn)各種類型的負(fù)載副本放置規(guī)則,存儲節(jié)點(diǎn)規(guī)模十分龐大。Ceph的核心組件有Monitor服務(wù)、OSD服務(wù)和MDS服務(wù),其中OSD是負(fù)責(zé)響應(yīng)客戶請求返回具體數(shù)據(jù)的進(jìn)程操作,它的元數(shù)據(jù)被保存在Monitor里。一般來說,Ceph分布式存儲系統(tǒng)中的塊存儲需要Monitor服務(wù)、OSD服務(wù)和客戶端軟件,Monitor負(fù)責(zé)維護(hù)存儲系統(tǒng)的硬件邏輯關(guān)系,OSD負(fù)責(zé)磁盤管理,以實(shí)現(xiàn)真正的數(shù)據(jù)讀寫。

        塊存儲是Ceph分布式存儲系統(tǒng)三種存儲類型中的一種,另外兩種是文件存儲和對象存儲,每種類型的存儲都有各自的優(yōu)點(diǎn)和缺點(diǎn),如塊存儲的優(yōu)點(diǎn)是利用Raid和LVM來保護(hù)數(shù)據(jù)的完成性,通過組合廉價(jià)硬盤來提高存儲容量,由多磁盤合成的邏輯盤能夠提升讀寫效率,缺點(diǎn)在于,數(shù)據(jù)共享無法在主機(jī)之間實(shí)現(xiàn),且由光纖交換機(jī)等構(gòu)建的硬件網(wǎng)絡(luò)平臺成本較高;文件存儲類型的優(yōu)點(diǎn)是,造價(jià)低廉,文件共享是可行的,但讀寫和數(shù)據(jù)傳輸速度慢也是不容忽視的問題,并且在使用場景和日志存儲方面也有比較特殊的要求;而對象存儲類型既具備了塊存儲讀寫速度高的優(yōu)點(diǎn),也具備了文件存儲共享的特性,但更適合去更新變動(dòng)較少的數(shù)據(jù)。

        二、不同分布式存儲系統(tǒng)存在的問題

        (一)HDFS的缺點(diǎn)

        1.短時(shí)間、低延遲請求的響應(yīng)能力不足

        受自身性質(zhì)和結(jié)構(gòu)的限制,HDFS在處理用戶要求時(shí)間比較短的低延遲請求時(shí)會顯得力不從心。HDFS最初是為了處理和解決大型數(shù)據(jù)集問題而設(shè)計(jì)的,實(shí)現(xiàn)高吞吐量的代價(jià)就是出現(xiàn)高延遲。

        2.小文件存儲量的有效性低

        由于元數(shù)據(jù)會被存放在內(nèi)存中,因此文件系統(tǒng)所能容納的文件數(shù)量必然是有限的,如果以每個(gè)文件160字節(jié)去計(jì)算,200萬份文件就需要占用至少600MB的內(nèi)存空間,雖然以目前的情況來看是可行的,但當(dāng)發(fā)展到10億以上時(shí),對硬件的要求就會變得很高。

        3.文件寫入及修改的限制

        從目前來看,HDFS還不支持多用戶對同一個(gè)文件寫入的操作,也就是說,HDFS規(guī)定,一個(gè)文件只配有一個(gè)寫入者,且只能在文件末尾完成,對文件修改也是如此。

        (二)Ceph分布式存儲系統(tǒng)的問題

        1.可擴(kuò)展性

        由于CRUSH 算法的存在,使Ceph對系統(tǒng)擴(kuò)容方面充滿了自信,甚至聲稱能夠?qū)崿F(xiàn)無限擴(kuò)展,事實(shí)上也確實(shí)如此。但這種無限擴(kuò)展更多是站在宏觀立場去做判斷,其擴(kuò)展過程并不是很順暢。由于Ceph沒有中心化的數(shù)據(jù)節(jié)點(diǎn),使擴(kuò)容易受“容錯(cuò)域”制約,導(dǎo)致數(shù)據(jù)放置策略受到影響,所以擴(kuò)容力度沒辦法得到提升。

        2.存儲成本問題

        眾所周知,Ceph是去中心化的分布式存儲,元數(shù)據(jù)被分布在各個(gè)物理設(shè)備上,事實(shí)上,對象的被隨機(jī)分配是無法保證均勻地存儲在每一塊磁盤上,所以某些磁盤的使用率會明顯高于全部磁盤的平均使用率,那么這跟存儲成本又有什么關(guān)系呢?在集群整體使用率不高的情況下,即便出現(xiàn)上述所講的問題也沒什么,但在整體使用率達(dá)到一定程度時(shí)(一般會以65%作為標(biāo)準(zhǔn)去衡量),就需要管理員對高使用率的磁盤進(jìn)行reweight,如果在調(diào)整過程中另外一塊磁盤也被寫滿了,那管理員就必須被迫在Ceph沒有達(dá)到穩(wěn)定狀態(tài)前,又一次進(jìn)行reweight操作,從而使Ceph變得越來越不穩(wěn)定,加之?dāng)U展性方面的問題,這個(gè)Ceph系統(tǒng)運(yùn)行就會很緊張。所以,很多公司為了避免出現(xiàn)這些問題,會選擇增加成本,購買更多的物理設(shè)備,準(zhǔn)備更多的磁盤,其實(shí)這并不是一個(gè)很省錢的辦法,很多業(yè)界人士認(rèn)為,一般Ceph集群在達(dá)到50%使用率時(shí),就要開始準(zhǔn)備擴(kuò)容了,越大規(guī)模的集群,越多空置的存儲資源,就會浪費(fèi)越多的錢。

        三、問題改進(jìn)策略

        (一)HDFS問題改進(jìn)策略

        1.HBase開源數(shù)據(jù)庫

        建立 HBase數(shù)據(jù)庫是解決低延時(shí)問題比較有效的一個(gè)辦法,在很大程度上提升了存儲系統(tǒng)的性能,使用緩存或多master設(shè)計(jì)可以降低client的數(shù)據(jù)請求壓力,以減少延時(shí)。另一方面,著手于HDFS系統(tǒng)內(nèi)部進(jìn)行修改也是一個(gè)不錯(cuò)的辦法,但需要權(quán)衡吞吐量的問題。

        2.提高小文件存儲量的有效性

        關(guān)于這方面問題的解決辦法還是不少的,比如用SequenceFile、MapFile、Har等方式對小文件進(jìn)行歸檔操作,其中比較重要的點(diǎn)在于,要知道與歸檔文件的映射關(guān)系;再有就是橫向擴(kuò)展,即把幾個(gè)Hadoop集群拖在一個(gè)虛擬服務(wù)器后面,形成一個(gè)大的Hadoop集群,google曾經(jīng)就是這樣操作的;還有就是正在研發(fā)中的GFS II,它也將被改為分布式多Master設(shè)計(jì),而且還支持Master的Failover。

        (二)Ceph問題改進(jìn)策略

        1.擴(kuò)充“容錯(cuò)域”

        在開始規(guī)劃Ceph集群時(shí),設(shè)定好更大層次的“容錯(cuò)域”,比如Rack。 可以是真實(shí)的Rack,即使沒有也可以是邏輯的Rack。這樣擴(kuò)容時(shí),可以擴(kuò)一個(gè)邏輯“容錯(cuò)域”,就可以打破擴(kuò)一臺機(jī)器的限制,擴(kuò)一整個(gè)Rack,至少有好幾臺機(jī)器。

        2.Ceph存儲成本

        到目前為止,還沒有太好的辦法去解決Ceph儲存成本的問題,有人建議過Ceph集群按整個(gè)pool去擴(kuò)容,即當(dāng)一個(gè)pool滿了,就不擴(kuò)容了,開新的pool,新的對象只準(zhǔn)寫新的pool,老的pool的對象只可以進(jìn)行刪除和讀取操作,但這樣做也就談不上“無限擴(kuò)容”了。

        四、結(jié)束語

        分布式存儲較集中式存儲相比,的確為使用者提供了諸多便利,具有很明顯的優(yōu)勢,且每一種分布式存儲都有自己獨(dú)特的亮點(diǎn),給使用者提供了多樣化的選擇。但在具體應(yīng)用時(shí),還需要結(jié)合實(shí)際情況,HDFS也好,Ceph也罷,它們也都有自己的不足,沒有哪種產(chǎn)品是十全十美的,數(shù)據(jù)中心建設(shè)的標(biāo)準(zhǔn)應(yīng)遵循分布式存儲的特點(diǎn)進(jìn)行實(shí)施,這樣才能最大限度提高數(shù)據(jù)使用率和保證數(shù)據(jù)安全。

        參考文獻(xiàn)

        [1]寧睿,張琳.基于分布式深度網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情分析方法研究與實(shí)現(xiàn)[J].電子設(shè)計(jì)工程,2020,28(14):85-89.

        [2]高紅巖.基于分布式存儲的應(yīng)用場景研究[J].網(wǎng)絡(luò)安全和信息化,2020(07):87-90.

        岛国熟女精品一区二区三区| 2022国内精品免费福利视频| 国产精品一区二区av白丝在线| 国产盗摄一区二区三区av| 色婷婷久久亚洲综合看片| 色噜噜av亚洲色一区二区| 久久久久这里只有精品网| 久青青草视频手机在线免费观看| 日本高级黄色一区二区三区 | 久久久久久av无码免费网站下载 | 黑色丝袜秘书夹住巨龙摩擦| 日韩国产精品一区二区Hd| 91精品亚洲一区二区三区| 无人视频在线播放免费| av免费网址在线观看| 国内揄拍国内精品少妇国语| 成美女黄网站18禁免费| 国产三级精品三级在线专区2| 国产精久久一区二区三区| 在线永久看片免费的视频| 欧洲AV秘 无码一区二区三| 少妇高潮精品在线观看| 亚洲av无码乱码国产精品| 自拍偷自拍亚洲精品播放| 最大色网男人的av天堂| 久久婷婷综合缴情亚洲狠狠| 亚洲精品一区久久久久久| 亚洲an日韩专区在线| 精品中文字幕精品中文字幕| 四虎国产成人永久精品免费| 18禁无遮挡羞羞污污污污网站| 91在线区啪国自产网页| 顶级高清嫩模一区二区| 亚洲娇小与黑人巨大交| 国产夫妻av| 日韩精品一区二区在线视| 欧美精品一区二区精品久久| 1717国产精品久久| 国产成人午夜av影院| 综合国产婷婷精品久久99之一| 真人无码作爱免费视频禁hnn|