武警8710部隊(duì)通信科 段志剛武警警官學(xué)院 吳耕銳 薄 鳥(niǎo)
面向武警云災(zāi)備的數(shù)據(jù)同步技術(shù)研究綜述
武警8710部隊(duì)通信科段志剛武警警官學(xué)院吳耕銳薄鳥(niǎo)
近年來(lái),云計(jì)算作為一種新的集群計(jì)算模式,為人們提供了一種市場(chǎng)空間巨大、全新的信息化服務(wù)[1]-[6]。盡管云計(jì)算與云存儲(chǔ)帶來(lái)極大的便利,諸多用戶(hù)依然選擇分布式計(jì)算系統(tǒng),主要原因是在云計(jì)算及云存儲(chǔ)中,沒(méi)有采取有效的措施保護(hù)用戶(hù)數(shù)據(jù)的可用性和完整性。換而言之,數(shù)據(jù)災(zāi)備問(wèn)題是眾多用戶(hù)選擇云存儲(chǔ)的最大障礙,而用戶(hù)數(shù)據(jù)的安全最大程度依賴(lài)于數(shù)據(jù)備份后的完整性和可用性。
傳統(tǒng)的分布式系統(tǒng)中的數(shù)據(jù)災(zāi)難備份已經(jīng)不能適應(yīng)新環(huán)境下的災(zāi)備需求,云災(zāi)備服務(wù)擁有投入成本低、資源共享的巨大優(yōu)勢(shì),這些優(yōu)勢(shì)為云災(zāi)備提供了強(qiáng)大的生命力,云計(jì)算環(huán)境下數(shù)據(jù)同步問(wèn)題成為災(zāi)難備份發(fā)展的一個(gè)重大瓶頸。
數(shù)據(jù)同步是云環(huán)境下實(shí)時(shí)動(dòng)態(tài)備份的關(guān)鍵技術(shù),研究一種適用的數(shù)據(jù)同步技術(shù)成為云環(huán)境下災(zāi)難備份的迫切需求。因此,研究適用于云環(huán)境下的數(shù)據(jù)同步技術(shù)對(duì)于降低網(wǎng)絡(luò)通信量、實(shí)現(xiàn)數(shù)據(jù)實(shí)時(shí)同步、縮減數(shù)據(jù)重復(fù)率以節(jié)省存儲(chǔ)空間具有重大的理論意義和緊迫的現(xiàn)實(shí)意義。
針對(duì)現(xiàn)有網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)同步問(wèn)題,學(xué)術(shù)界的眾多學(xué)者和專(zhuān)家已經(jīng)有了深入的研究。基于廣域網(wǎng)的網(wǎng)絡(luò)環(huán)境下時(shí)刻伴隨著數(shù)據(jù)同步,例如遠(yuǎn)程數(shù)據(jù)的備份、網(wǎng)絡(luò)數(shù)據(jù)的同步、共享等。最直接的方法是用源數(shù)據(jù)覆蓋舊數(shù)據(jù),但是源數(shù)據(jù)和被覆蓋數(shù)據(jù)之間往往存在較小的差異,因此會(huì)占用不必要的網(wǎng)絡(luò)流量,特別是具有較高相似性的集群存儲(chǔ)系統(tǒng)以及存儲(chǔ)密度較大的云環(huán)境下,往往會(huì)造成大量網(wǎng)絡(luò)流量資源的浪費(fèi)。目前,網(wǎng)絡(luò)環(huán)境下數(shù)據(jù)同步工作的研究主要有Rsync、FileGee(基于Windows平臺(tái)的數(shù)據(jù)文件同步)[7],TAPER和 GrahanConmode提出的T.Suel[8]同步算法以及LBFS算法等。另外,在數(shù)據(jù)同步系統(tǒng)的開(kāi)發(fā)與實(shí)踐中,IMB、HP、DELL等著名的IT企業(yè)占據(jù)了其重要的地位。
吳昊[9]在共享內(nèi)存體系結(jié)構(gòu)下,為解決鎖同步導(dǎo)致的并發(fā)性能瓶頸,提出了一種基于硬件CAS(比較交換)原語(yǔ)的無(wú)鎖同步算法。該算法實(shí)現(xiàn)了多核多線(xiàn)程環(huán)境下共享變量的非阻塞同步操作,有效的避免由于鎖競(jìng)爭(zhēng)造成的程序串行化問(wèn)題。
張鳳琴[10]等人鑒于目前數(shù)據(jù)同步領(lǐng)域存在的不足,通過(guò)對(duì)WCF技術(shù)的分析和研究,構(gòu)建了一個(gè)數(shù)據(jù)同步模型,該模型實(shí)現(xiàn)了分布式環(huán)境下多個(gè)數(shù)據(jù)中心之間的高效實(shí)時(shí)同步。文獻(xiàn)[10]以實(shí)時(shí)數(shù)據(jù)檢索機(jī)制的設(shè)計(jì)作為切入點(diǎn),提出了結(jié)合一致性哈希算法的數(shù)據(jù)存儲(chǔ)方案。對(duì)于數(shù)據(jù)同步的研究,目前研究主要側(cè)重于數(shù)據(jù)復(fù)制策略以及數(shù)據(jù)壓縮算法,通過(guò)計(jì)算得出數(shù)據(jù)源端和目標(biāo)數(shù)據(jù)的差異部分,通過(guò)網(wǎng)絡(luò)傳輸差異數(shù)據(jù)來(lái)更新目標(biāo)數(shù)據(jù),使數(shù)據(jù)達(dá)到一致。
遠(yuǎn)程同步往往缺少監(jiān)控機(jī)制,不能實(shí)時(shí)的進(jìn)行數(shù)據(jù)同步,針對(duì)此類(lèi)問(wèn)題,李貞[11]設(shè)計(jì)了基于Rsync算法的遠(yuǎn)程同步系統(tǒng),并引入了Inotify機(jī)制,進(jìn)行文件的實(shí)時(shí)監(jiān)控。文獻(xiàn)[12]基于云平臺(tái)的數(shù)據(jù)同步需求,設(shè)計(jì)了以Rsync算法為基礎(chǔ)的同步系統(tǒng)。
云環(huán)境下數(shù)據(jù)同步面臨的另一個(gè)挑戰(zhàn)是同步帶來(lái)的大量數(shù)據(jù)冗余,針對(duì)數(shù)據(jù)冗余的問(wèn)題,眾多學(xué)者開(kāi)始研究重復(fù)數(shù)據(jù)刪除技術(shù)[12-14]。為在較少的數(shù)據(jù)冗余前提下保持?jǐn)?shù)據(jù)的高可靠性,Bhagwat等人提出了基于副本的重復(fù)數(shù)據(jù)刪除策略[15],根據(jù)數(shù)據(jù)chunk的共享度在存儲(chǔ)系統(tǒng)內(nèi)存放數(shù)目不同的數(shù)據(jù)副本,以增強(qiáng)數(shù)據(jù)刪重系統(tǒng)的可靠性。
為了保證存儲(chǔ)系統(tǒng)在較高可靠性的前提下縮減數(shù)據(jù)量,眾多學(xué)者利用糾錯(cuò)編碼技術(shù)進(jìn)行數(shù)據(jù)的刪重。Data Domain開(kāi)發(fā)的DDFS[16]和HP開(kāi)發(fā)的D2D4000[17]利用RAID-6編碼技術(shù)實(shí)現(xiàn)了磁盤(pán)損壞后的數(shù)據(jù)恢復(fù)。Liu等人為提高存儲(chǔ)系統(tǒng)可靠性,設(shè)計(jì)了重復(fù)數(shù)據(jù)刪除系統(tǒng)R-ADMAD[18],將不定長(zhǎng)的數(shù)據(jù)塊打包成定長(zhǎng)的數(shù)據(jù)塊,并運(yùn)用ECC編碼進(jìn)行校驗(yàn)。
1)數(shù)據(jù)傳輸?shù)陌踩院蛿?shù)據(jù)中心的安全訪(fǎng)問(wèn)控制在遠(yuǎn)程數(shù)據(jù)同步的整個(gè)過(guò)程中也是一個(gè)至關(guān)重要的方面。如何實(shí)現(xiàn)服務(wù)器接收請(qǐng)求的口令協(xié)定,是今后深入研究的問(wèn)題之一。
2)云環(huán)境下的實(shí)時(shí)同步方案的設(shè)計(jì)中,首先,存在文件系統(tǒng)實(shí)時(shí)監(jiān)控的可移植性行問(wèn)題。在HDFS會(huì)同時(shí)存儲(chǔ)一個(gè)文件的三個(gè)副本,在集群系統(tǒng)內(nèi)部的副本之間的數(shù)據(jù)同步方法,將是未來(lái)進(jìn)一步研究?jī)?yōu)化的方向。
3)集群式重復(fù)數(shù)據(jù)刪除重點(diǎn)需要解決的兩個(gè)問(wèn)題是磁盤(pán)的索引瓶頸和節(jié)點(diǎn)之間的孤島效應(yīng)。如何盡可能降低全局的消重策略的誤判率提高刪除效率,在誤判率可以接受的范圍內(nèi)進(jìn)行重復(fù)數(shù)據(jù)的刪除是下一步工作研究的主要方向,有效地清除磁盤(pán)碎片是重復(fù)數(shù)據(jù)刪除中的又一個(gè)研究難點(diǎn)。
[1]Shamim S M,Sarker A,Bahar A N,et al.A Review on Mobile Cloud Computing[J].International Journal of Computer Applications, 2015,113(16):4-9.
[2]Crago S P,Walters J P.Heterogeneous Cloud Computing:The Way Forward[J]. Computer,2015, 48(1):59-61.
[3]IBM Cloud Computing [EB/OL]. http://www.ibm.com/ibm/cloud.
[4]吳朱華.云計(jì)算核心技術(shù)剖析[M].北京:人民郵電出版社,2011.5.
[5]陸嘉恒等.分布式系統(tǒng)與云計(jì)算[M].北京:清華大學(xué)出版社,2011.5.
[6]Sookhak M,Gani A,Talebain H, et al.Remote Data Auditing in Cloud Computing Environments: A Survey,Taxonomy,and Open Issues[J]. Acm Computing Surveys, 2015.
[7]Pierce B C,Vouillon J.Unison:A File Synchronizer and Its Specification[C]// Proceedings of the 4th International Symposium on Theoretical Aspects of Computer SoftwareSpringer-Verlag,2001.
[8]陳煌.基于差異同步的云存儲(chǔ)研究和實(shí)踐[D].華東理工大學(xué),2015.
[9]張青鳳,張鳳琴,王磊.多數(shù)據(jù)中心的數(shù)據(jù)同步模型研究與設(shè)計(jì)[J].微型機(jī)與應(yīng)用,2013.
[10]傅穎勛,羅圣美,舒繼武.一種云存儲(chǔ)環(huán)境下的安全網(wǎng)盤(pán)系統(tǒng)[J].軟件學(xué)報(bào),2014,08:1831-1843.
[11]張海峰.基于Rsync的異構(gòu)環(huán)境數(shù)據(jù)同步機(jī)制研究[D].成都:電子科技大學(xué),2013.
[12]劉西崗.基于rsync算法的云平臺(tái)文件同步系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].成都:電子科技大學(xué), 2013.
[13]敖莉.舒繼武,李明強(qiáng).重復(fù)數(shù)據(jù)刪除技術(shù)[J].軟件學(xué)報(bào),2010(05):916-929..
[14]Muthitacharoen A,Chen B,Mazières D.A Low-bandwidth Network File System[J].Acm Sigops Operating Systems Review, 2001.35(5):174-187.
[15]Bolosky W J,Corbin S,Goebel D,et al.Single instance storage in Windows? 2000[C]//In Proceedings of the 4th USENIX Windows Systems Symposium (WinsSys 20002000.
[16]Bobbarjung D R,Jagannathan S,Dubnicki C.Improving duplicate elimination in storage systems[J].Acm Transactions on Storage,2006,2(4):424-448.
[17]付印金.肖儂.劉芳.重復(fù)數(shù)據(jù)刪除關(guān)鍵技術(shù)研究進(jìn)展[J].計(jì)算機(jī)研究與發(fā)展,2012(1):12-20.
[18]Zhu B,Li K,Patterson H.Avoiding the disk bottleneck in the data domain deduplication file system[C]//Proceedings of the 6th USENIX Conference on File and Storage TechnologiesUSENIX Association, 2008.
吳耕銳(1985—),福建漳州人,現(xiàn)供職于武警警官學(xué)院信息工程系,研究方向:信息化。
薄鳥(niǎo)(1986—),女,陜西西安人,現(xiàn)供職于武警警官學(xué)院數(shù)學(xué)與物理系,研究方向:固體物理。
未來(lái)對(duì)數(shù)據(jù)同步中的關(guān)鍵技術(shù)研究將主要集中在以下幾個(gè)方面:
段志剛(1977—),男,江西景德鎮(zhèn)人,現(xiàn)供職于武警8710部隊(duì)通信修理所,助理工程師,主要研究武警通信與信息化。