岳陽(yáng) 徐昆 康利剛
摘要:針對(duì)大數(shù)據(jù)高并發(fā)應(yīng)用的特點(diǎn),設(shè)計(jì)了基于云技術(shù)的分布式大數(shù)據(jù)存儲(chǔ)系統(tǒng)結(jié)構(gòu)。該存儲(chǔ)系統(tǒng)結(jié)構(gòu)采用帶外模式的大規(guī)模開(kāi)放集群存儲(chǔ)架構(gòu),通過(guò)高速網(wǎng)絡(luò)將通用存儲(chǔ)服務(wù)器中的CPU、內(nèi)存、網(wǎng)絡(luò)帶寬、磁盤(pán)轉(zhuǎn)速、總線(xiàn)性能進(jìn)行整合,形成統(tǒng)一的存儲(chǔ)系統(tǒng),使得存儲(chǔ)總體性能高于計(jì)算處理能力與網(wǎng)絡(luò)帶寬的傳輸速度,以此來(lái)屏蔽由于磁盤(pán)和總線(xiàn)性能提升緩慢造成的存儲(chǔ)性能瓶頸。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)管理;數(shù)據(jù)存儲(chǔ);云技術(shù)
中圖分類(lèi)號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2020)09-0115-03
0 引言
大數(shù)據(jù)是一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具能力范圍的數(shù)據(jù)集合[1]。大數(shù)據(jù)提出者維克托指出,大數(shù)據(jù)是指[2]不用隨機(jī)分析法(抽樣調(diào)查)捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處理。大數(shù)據(jù)具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類(lèi)型和價(jià)值密度低四大特征。
大數(shù)據(jù)存儲(chǔ)是將這些數(shù)據(jù)集存儲(chǔ)在計(jì)算機(jī)中。大數(shù)據(jù)平臺(tái)系統(tǒng)主要為了支撐大數(shù)據(jù)存儲(chǔ)、分析、實(shí)時(shí)處理等使用場(chǎng)景,整體采用分布式系統(tǒng)的架構(gòu),該存儲(chǔ)架構(gòu)通過(guò)云平臺(tái)、虛擬化、負(fù)載均衡等技術(shù),將網(wǎng)絡(luò)上不同終端站點(diǎn)的數(shù)據(jù)資源形成邏輯上的共享資源,能夠根據(jù)用戶(hù)需求提供相應(yīng)的存儲(chǔ)數(shù)據(jù)。
大數(shù)據(jù)存儲(chǔ)系統(tǒng)作為數(shù)據(jù)統(tǒng)一處理和服務(wù)的平臺(tái),是位于各業(yè)務(wù)信息系統(tǒng)之下的一種支撐性數(shù)據(jù)訪(fǎng)問(wèn)平臺(tái)。其定位是為大數(shù)據(jù)的采集、整合、存儲(chǔ)、查詢(xún)、分析構(gòu)建統(tǒng)一的數(shù)據(jù)管理與服務(wù),為上層應(yīng)用提供數(shù)據(jù)運(yùn)算、數(shù)據(jù)服務(wù)以及數(shù)據(jù)管理的能力。大數(shù)據(jù)存儲(chǔ)系統(tǒng)的核心意義[3]在于使數(shù)據(jù)存儲(chǔ)管理更為集中化,透明化,最終實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)服務(wù)平臺(tái)化,并且可以讓數(shù)據(jù)以資源和服務(wù)的方式對(duì)外提供。
1 大數(shù)據(jù)存儲(chǔ)系統(tǒng)功能需求
大數(shù)據(jù)存儲(chǔ)系統(tǒng)功能需求[4]如下:
(1)海量異構(gòu)數(shù)據(jù)存儲(chǔ)。大數(shù)據(jù)存儲(chǔ)系統(tǒng)應(yīng)具有通用化、平臺(tái)化、服務(wù)化的特點(diǎn),能夠提供足夠的存儲(chǔ)空間和可靠的數(shù)據(jù)存儲(chǔ)能力,確保任何情況下數(shù)據(jù)可按需存取。存儲(chǔ)系統(tǒng)能夠?qū)⑺蟹?wù)器的處理器資源進(jìn)行整合,進(jìn)行并發(fā)數(shù)據(jù)處理,以提升存儲(chǔ)系統(tǒng)效率,提升存儲(chǔ)系統(tǒng)整體的處理能力。
(2)高性能存儲(chǔ)。存儲(chǔ)系統(tǒng)應(yīng)具有大容量、易擴(kuò)展和快速高效的特點(diǎn),以適應(yīng)數(shù)據(jù)快速膨脹、變化的特點(diǎn),滿(mǎn)足應(yīng)用程序?qū)Υ鎯?chǔ)性能增長(zhǎng)的要求。
大數(shù)據(jù)存儲(chǔ)系統(tǒng)設(shè)計(jì)目標(biāo):面向海量多源異構(gòu)數(shù)據(jù)存儲(chǔ)管理需求,提供安全強(qiáng)化的異構(gòu)對(duì)象存儲(chǔ)管理能力,能夠?yàn)槎鄳B(tài)對(duì)象數(shù)據(jù)提供統(tǒng)一的存儲(chǔ)管理,并提供高安全保障能力,為各類(lèi)應(yīng)用的狀態(tài)數(shù)據(jù)存儲(chǔ)、歷史數(shù)據(jù)管理提供支撐,具有非結(jié)構(gòu)化文本數(shù)據(jù)的高效內(nèi)容檢索能力,能夠?yàn)楦黝?lèi)應(yīng)用文檔數(shù)據(jù)提供精準(zhǔn)的內(nèi)容檢索。
2 大數(shù)據(jù)存儲(chǔ)系統(tǒng)功能設(shè)計(jì)
面向大數(shù)據(jù)的存儲(chǔ)系統(tǒng)功能主要從存儲(chǔ)可靠性、存儲(chǔ)維護(hù)性和存儲(chǔ)擴(kuò)展性三方面加強(qiáng)設(shè)計(jì)[5]。
(1)存儲(chǔ)可靠性設(shè)計(jì)。大數(shù)據(jù)平臺(tái)存儲(chǔ)的數(shù)據(jù)集中、數(shù)據(jù)量大、數(shù)據(jù)價(jià)值高,因此大數(shù)據(jù)環(huán)境下的數(shù)據(jù)安全顯得尤為重要,存儲(chǔ)系統(tǒng)可靠性是系統(tǒng)整體可靠性的關(guān)鍵,設(shè)計(jì)的重點(diǎn)在于存儲(chǔ)功能的劃分及系統(tǒng)自動(dòng)備份恢復(fù)、故障檢測(cè)判斷等。設(shè)計(jì)目標(biāo)為不論系統(tǒng)發(fā)生任何故障,保證系統(tǒng)數(shù)據(jù)不丟失,同時(shí)保證數(shù)據(jù)使用的連續(xù)性和不間斷性,對(duì)上層應(yīng)用不造成影響。
(2)存儲(chǔ)維護(hù)性設(shè)計(jì)。存儲(chǔ)系統(tǒng)內(nèi)的服務(wù)器、硬盤(pán)等硬件設(shè)施采用通用化設(shè)計(jì),便于用戶(hù)維護(hù)使用。系統(tǒng)平時(shí)自動(dòng)監(jiān)測(cè)各設(shè)備及硬件的運(yùn)行情況,出現(xiàn)故障時(shí)能夠自動(dòng)探測(cè)定位,并按照負(fù)載均衡策略自動(dòng)進(jìn)行數(shù)據(jù)備份或遷移操作,將出現(xiàn)故障的設(shè)備進(jìn)行數(shù)據(jù)存儲(chǔ)隔離。
(3)存儲(chǔ)擴(kuò)展性設(shè)計(jì)。新一代業(yè)務(wù)應(yīng)用需要存儲(chǔ)系統(tǒng)能夠根據(jù)增加的數(shù)據(jù)量實(shí)時(shí)按需擴(kuò)容,系統(tǒng)內(nèi)的服務(wù)器及硬盤(pán)數(shù)量等存儲(chǔ)硬件無(wú)上限要求。此外,存儲(chǔ)系統(tǒng)需要具有分級(jí)存儲(chǔ)功能,可以設(shè)置數(shù)據(jù)存儲(chǔ)所使用的硬件設(shè)備,經(jīng)常被訪(fǎng)問(wèn)的數(shù)據(jù)放置在性能高的存儲(chǔ)硬件介質(zhì)中,以此提升存儲(chǔ)系統(tǒng)整體性能,同時(shí)實(shí)現(xiàn)硬件設(shè)備按需分享。對(duì)硬件設(shè)備進(jìn)行更新?lián)Q代時(shí),可在系統(tǒng)中按需添加最新的存儲(chǔ)硬件以滿(mǎn)足應(yīng)用需求,提升存儲(chǔ)系統(tǒng)整體的靈活性。
3 大數(shù)據(jù)存儲(chǔ)系統(tǒng)結(jié)構(gòu)設(shè)計(jì)
大數(shù)據(jù)主要有三種存儲(chǔ)架構(gòu)[6],分別是基于嵌入式的存儲(chǔ)架構(gòu)、基于X86的存儲(chǔ)架構(gòu)以及基于云技術(shù)的存儲(chǔ)架構(gòu)?;谠萍夹g(shù)的存儲(chǔ)架構(gòu)是目前使用比較廣泛的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu),該結(jié)構(gòu)在大數(shù)據(jù)的存儲(chǔ)可靠性、存儲(chǔ)擴(kuò)展性、存儲(chǔ)維護(hù)性等方面有許多技術(shù)優(yōu)勢(shì)。
基于云技術(shù)設(shè)計(jì)的分布式大數(shù)據(jù)存儲(chǔ)系統(tǒng)結(jié)構(gòu)主要由五部分組成,分別是:硬件層、存儲(chǔ)層、管理層、協(xié)議層、接口層,系統(tǒng)結(jié)構(gòu)如圖1所示。
硬件層:主要由存儲(chǔ)硬件及網(wǎng)絡(luò)設(shè)備組成,存儲(chǔ)節(jié)點(diǎn)采用標(biāo)準(zhǔn)X86架構(gòu)平臺(tái),通過(guò)軟件可將異構(gòu)存儲(chǔ)設(shè)備、Flash存儲(chǔ)、存儲(chǔ)盤(pán)陣、分布式存儲(chǔ)和磁帶庫(kù)統(tǒng)一管理,不同的存儲(chǔ)設(shè)備池化管理。
存儲(chǔ)層:存儲(chǔ)管理層采用分布式文件系統(tǒng),分別部署在集群存儲(chǔ)的各個(gè)節(jié)點(diǎn)上,各節(jié)點(diǎn)上的軟件相互通信并協(xié)同工作,將集群中全部存儲(chǔ)節(jié)點(diǎn)的硬盤(pán)空間通過(guò)存儲(chǔ)池虛擬化技術(shù)融合成統(tǒng)一命名空間。利用數(shù)據(jù)生命周期管理技術(shù),根據(jù)文件元數(shù)據(jù)屬性(名稱(chēng)、創(chuàng)建時(shí)間、修改時(shí)間、大小、路徑等)的不同,將文件的數(shù)據(jù)放置在統(tǒng)一存儲(chǔ)空間的不同的存儲(chǔ)池中,從而映射到不同的存儲(chǔ)硬件設(shè)備上。利用Flash設(shè)備進(jìn)行存儲(chǔ)加速,可將對(duì)IO敏感的應(yīng)用部署在Flash存儲(chǔ)設(shè)備上,根據(jù)Flash存儲(chǔ)池的空間使用情況自動(dòng)遷移至普通磁盤(pán)或帶庫(kù)。
管理層:系統(tǒng)管理層實(shí)現(xiàn)集群管理功能和企業(yè)高級(jí)功能。實(shí)現(xiàn)集群化安裝部署和在線(xiàn)升級(jí)。同時(shí)具有集群網(wǎng)絡(luò)附屬存儲(chǔ)(Network Attached Storage,NAS)功能,可定義集群中的部分節(jié)點(diǎn)作為NAS網(wǎng)關(guān)節(jié)點(diǎn),節(jié)點(diǎn)故障后,NAS服務(wù)IP會(huì)自動(dòng)漂移至其它節(jié)點(diǎn)。同時(shí)具有企業(yè)級(jí)應(yīng)用場(chǎng)景中需要的數(shù)據(jù)壓縮、權(quán)限、配額、災(zāi)備站點(diǎn)數(shù)據(jù)同步等功能。
協(xié)議層:協(xié)議層是指與前端應(yīng)用軟件之間進(jìn)行數(shù)據(jù)通信的規(guī)程,可支持多種數(shù)據(jù)傳輸協(xié)議,以滿(mǎn)足用戶(hù)不同應(yīng)用場(chǎng)景的需求。如可以通過(guò)POSIX、CIFS、NFS、FTP、HTTP等傳輸協(xié)議支持文件數(shù)據(jù)傳輸。
接口層:接口層是可提供的對(duì)外接口,管理員可對(duì)整個(gè)存儲(chǔ)系統(tǒng)進(jìn)行監(jiān)控和管理。
該存儲(chǔ)系統(tǒng)結(jié)構(gòu)采用了云技術(shù)的特點(diǎn)和優(yōu)勢(shì),在系統(tǒng)的體系架構(gòu)、數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)、數(shù)據(jù)的備份與恢復(fù)、數(shù)據(jù)的獲取與使用、負(fù)載勻衡等方面進(jìn)行了更合理及更方便用戶(hù)使用的優(yōu)化設(shè)計(jì),底層數(shù)據(jù)傳輸采用流媒體結(jié)構(gòu),能夠大幅提高數(shù)據(jù)的存儲(chǔ)性能。
組網(wǎng)架構(gòu)采用存儲(chǔ)節(jié)點(diǎn)進(jìn)行組網(wǎng),這種組網(wǎng)方式為對(duì)稱(chēng)式組網(wǎng)架構(gòu),統(tǒng)一存儲(chǔ)節(jié)點(diǎn)部署NCSFS元數(shù)據(jù)管理服務(wù)、集群監(jiān)控服務(wù)、數(shù)據(jù)存儲(chǔ)服務(wù)等功能模塊,存儲(chǔ)節(jié)點(diǎn)部署集群監(jiān)控服務(wù)及數(shù)據(jù)存儲(chǔ)服務(wù)等功能模塊,實(shí)際組網(wǎng)時(shí),支持采用部分統(tǒng)一存儲(chǔ)節(jié)點(diǎn)+存儲(chǔ)節(jié)點(diǎn)的組網(wǎng)方式,也可以全部采用統(tǒng)一存儲(chǔ)節(jié)點(diǎn)進(jìn)行組網(wǎng)。采用這種對(duì)稱(chēng)式組網(wǎng)架構(gòu)可以滿(mǎn)足大部分用戶(hù)業(yè)務(wù)需求,是目前主要應(yīng)用的組網(wǎng)架構(gòu)。
4 結(jié)語(yǔ)
針對(duì)大數(shù)據(jù)高并發(fā)應(yīng)用的特點(diǎn),設(shè)計(jì)了基于云技術(shù)的分布式大數(shù)據(jù)存儲(chǔ)系統(tǒng)結(jié)構(gòu)。該存儲(chǔ)系統(tǒng)結(jié)構(gòu)采用帶外模式的大規(guī)模開(kāi)放集群存儲(chǔ)架構(gòu),通過(guò)高速網(wǎng)絡(luò)將通用存儲(chǔ)服務(wù)器中的CPU、內(nèi)存、網(wǎng)絡(luò)帶寬、磁盤(pán)轉(zhuǎn)速、總線(xiàn)性能進(jìn)行整合,形成統(tǒng)一的存儲(chǔ)系統(tǒng),使得存儲(chǔ)總體性能高于計(jì)算處理能力與網(wǎng)絡(luò)帶寬的傳輸速度,以此來(lái)屏蔽由于磁盤(pán)和總線(xiàn)性能提升緩慢造成的存儲(chǔ)性能瓶頸。
前端的應(yīng)用服務(wù)器和后端的存儲(chǔ)節(jié)點(diǎn)及元數(shù)據(jù)節(jié)點(diǎn)通過(guò)千兆或萬(wàn)兆以太網(wǎng)絡(luò)互連,可以保證存儲(chǔ)設(shè)備的性能輸出達(dá)到最大化。帶外模式可以很好的消除元數(shù)據(jù)通路與數(shù)據(jù)通路的相互干擾。元數(shù)據(jù)服務(wù)器的集群化和存儲(chǔ)服務(wù)器的集群化,使得整個(gè)系統(tǒng)中不存在像NAS系統(tǒng)那樣的性能瓶頸點(diǎn),因此能夠完全滿(mǎn)足高并發(fā)應(yīng)用的需求。
參考文獻(xiàn)
[1] 孫莉娜.基于云計(jì)算的大數(shù)據(jù)存儲(chǔ)安全探討[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2018(2):77-78.
[2] 維克托.邁爾-舍恩伯格,肯尼斯.庫(kù)克耶.大數(shù)據(jù)時(shí)代[M].浙江人民出版社,2013:158-189.
[3] 王瑞通,李煒春.大數(shù)據(jù)基礎(chǔ)存儲(chǔ)系統(tǒng)技術(shù)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2017,27(8):66-72.
[4] 陸云帆,諸振家.數(shù)據(jù)庫(kù)大數(shù)據(jù)量存儲(chǔ)結(jié)構(gòu)的研究分析[J].電子技術(shù)與軟件工程,2014(11):200.
[5] 劉圓,王峰,楊明川.面向大數(shù)據(jù)的分布式存儲(chǔ)技術(shù)研究[J].電信技術(shù),2015(6):35-38.
[6] 劉亮.基于虛擬化與分布式技術(shù)的云存儲(chǔ)研究[J].電腦知識(shí)與技術(shù),2012(11):211-212.