摘? 要:隨著教育信息化的轉(zhuǎn)型升級,信息系統(tǒng)數(shù)據(jù)存儲安全和容災保護成為學校安全防護的熱點問題。如何確保數(shù)據(jù)在發(fā)生災難性事件后能夠快速恢復,保障信息系統(tǒng)數(shù)據(jù)不丟失成為學校網(wǎng)絡安全的重要課題。CDP技術(shù)是一種全方位的防范災難性技術(shù),介紹了CDP技術(shù)的備份原理、恢復過程、關(guān)鍵技術(shù)點,針對貴州經(jīng)貿(mào)職業(yè)技術(shù)學院數(shù)據(jù)容災需求,設計本地備份系統(tǒng)和遠程容災系統(tǒng),提出了基于CDP技術(shù)的數(shù)據(jù)容災系統(tǒng)設計方法,并在實際工作中取得良好效果。
關(guān)鍵詞:CDP技術(shù);備份技術(shù);恢復技術(shù);容災系統(tǒng)
中圖分類號:TP311.5;TP309? 文獻標識碼:A? 文章編號:2096-4706(2023)12-0147-05
Design and Implementation of Data Disaster Recovery System Based on CDP Technology
—Taking Guizhou Vocational College of Economics and Business as an Example
LIN Jiaquan
(Guizhou Vocational College of Economics and Business, Duyun? 558022, China)
Abstract: With the transformation and upgrading of education informatization, the security of information system data storage and disaster recovery protection have become the hot issues of school security protection. How to ensure the rapid recovery of data after a catastrophic event and ensure that the information system data is not lost has become an important topic of school network security. The CDP technology is a comprehensive disaster prevention technology. This paper introduces the backup principle, recovery process and key technical points of CDP technology. Aiming at the data disaster recovery requirements of Guizhou Vocational College of Economics and Business, it designs local backup systems and remote disaster recovery systems, and puts forward a design method of data disaster recovery system based on CDP technology, which has achieved good results in practical work.
Keywords: CDP technology; backup technology; recovery technology; disaster recovery system
0? 引? 言
隨著學校信息化教學轉(zhuǎn)型升級,學校信息化建設、管理和應用能力成為評價學校辦學能力的指標之一。信息系統(tǒng)的安全穩(wěn)定運行成為當前信息化教學的熱點和難點工作,如何做好信息系統(tǒng)和數(shù)據(jù)的容災備份工作,當出現(xiàn)災難性系統(tǒng)故障時,如何保障數(shù)據(jù)不丟失,快速恢復和啟動系統(tǒng)成為學校的關(guān)注點。
1? 學校在數(shù)據(jù)容災中存在的困境
1.1? 數(shù)據(jù)容災系統(tǒng)缺失
學校在信息化建設過程中,大部分學校只重視信息系統(tǒng)的建設,在系統(tǒng)的管理和安全運維上缺失。信息系統(tǒng)的建設大多數(shù)基于傳統(tǒng)的單機服務器模式,沒有進行虛擬化云存儲集中統(tǒng)一管理,數(shù)據(jù)備份只能做傳統(tǒng)的數(shù)據(jù)庫備份和文件備份,而且是定期備份,數(shù)據(jù)不能做到實時全量和增量備份。信息系統(tǒng)一旦出現(xiàn)災難性故障,數(shù)據(jù)恢復需要專業(yè)的運營團隊才能完成,數(shù)據(jù)缺失現(xiàn)象嚴重。
1.2? 數(shù)據(jù)備份不能實現(xiàn)鏡像備份
傳統(tǒng)的數(shù)據(jù)備份只能靠備份計劃進行,一般選擇業(yè)務量訪問較少的時候進行。數(shù)據(jù)備份不能夠備份鏡像系統(tǒng),只能備份重要的數(shù)據(jù)庫和相關(guān)文件,具有一定的局限性。數(shù)據(jù)恢復不能恢復鏡像系統(tǒng),如果系統(tǒng)出現(xiàn)災難性事件,需要從頭部署系統(tǒng)環(huán)境,系統(tǒng)恢復時間長。數(shù)據(jù)恢復對帶寬要求高,恢復能力有限。
2? 數(shù)據(jù)容災系統(tǒng)需求分析
數(shù)據(jù)容災系統(tǒng)需求如下:
1)數(shù)據(jù)災備系統(tǒng)要支持所有主流數(shù)據(jù)庫、操作系統(tǒng)鏡像備份和恢復。高校信息系統(tǒng)主要以Oracle、MySQL、SQLServer為主,數(shù)據(jù)容災系統(tǒng)要全面支持Oracle、MySQL、SQLServer等主流數(shù)據(jù)庫的備份與恢復;要充分考慮支持VMware、HCI、OpenStack等主流虛擬化、云平臺的無代理備份;在高?;旌显破脚_建設過程中,要支持以租戶為單位無代理備份和恢復支持系統(tǒng)鏡像備份。
2)數(shù)據(jù)災備系統(tǒng)要具備離線恢復功能。由于高校信息系統(tǒng)繁多,數(shù)據(jù)量比較大,恢復比較慢,數(shù)據(jù)災備系統(tǒng)要具備數(shù)據(jù)庫離線恢復能力,即備份數(shù)據(jù)可直接恢復至數(shù)據(jù)庫,同時也支持將備份數(shù)據(jù)恢復成文件,恢復的文件可以以離線的方式在異地直接恢復至異地數(shù)據(jù)庫,完全不依賴備份系統(tǒng),同時也不需要在異地搭建備份系統(tǒng)。
3)具備異地災備和秒級恢復的能力。高校數(shù)據(jù)中心大多數(shù)采用超融合服務器集群搭建而成,災備設備與超融合服務器一般不在同一集群中,甚至在不同樓棟,當中心機房發(fā)生災難性事件后,信息系統(tǒng)能夠快速恢復。災備系統(tǒng)具備應用級別容災,保證業(yè)務系統(tǒng)承載服務器宕機實現(xiàn)秒級切換。
針對上述需求,需要對數(shù)據(jù)庫、虛擬化、文件等進行備份恢復。數(shù)據(jù)中心采用超融合服務搭建而成,針對學校的業(yè)務系統(tǒng)、數(shù)據(jù)庫、文件的承載及存儲均采用的本地云平臺進行承載。因此對數(shù)據(jù)庫、虛擬化、文件的存儲和運行都在虛擬化環(huán)境里,所以采取CDP持續(xù)數(shù)據(jù)保護方案,對整個云平臺上的虛擬機進行備份即可對數(shù)據(jù)庫、虛擬化、文件等的備份恢復。針對應用軟件的容災備份需求,同樣采用CDP持續(xù)數(shù)據(jù)保護方案,因為應用軟件一般部署在操作系統(tǒng)之上,而操作系統(tǒng)一般裝在虛擬機里,虛擬機用云平臺承載,所以我們對云平臺上的虛擬機進行備份恢復就可實現(xiàn)應用級的容災。
3? 數(shù)據(jù)容災系統(tǒng)設計方案
3.1? 系統(tǒng)架構(gòu)設計
以貴州經(jīng)貿(mào)職業(yè)技術(shù)學院數(shù)據(jù)中心災備系統(tǒng)為例,學校建有標準的網(wǎng)絡中心機房,具備數(shù)據(jù)存儲和信息系統(tǒng)運行環(huán)境的能力。由于學校信息系統(tǒng)建設是根據(jù)需求分期建設,系統(tǒng)的運行依靠獨立的服務器單獨部署運行,無法實現(xiàn)集中統(tǒng)一管理,數(shù)據(jù)備份只能備份數(shù)據(jù)庫及重要文件,無法實現(xiàn)系統(tǒng)鏡像的備份。數(shù)據(jù)備份采用本機備份或者2臺服務器之間互相備份,都是在同一機房進行,不滿足等級保護異地備份要求。
基于上述情況,學校數(shù)據(jù)災備系統(tǒng)設計采用CDP技術(shù),利用超融合服務器搭建主集群,利用舊服務器搭建輔助集群,建立學校數(shù)據(jù)中心災備系統(tǒng),實現(xiàn)主集群和輔集群實時備份。構(gòu)建數(shù)據(jù)中心異地災備機制,防范數(shù)據(jù)中心機房到災備機房環(huán)境故障風險及區(qū)域自然災害風險。從中心機房到災備備機房對系統(tǒng)數(shù)據(jù)(含數(shù)據(jù)庫數(shù)據(jù)和文件系統(tǒng)數(shù)據(jù))進行備份,以達到同城容災的目的,可實現(xiàn)對物理機、VMware平臺、超融合云平臺的統(tǒng)一災備能力。學院中心機房的核心交換機采用堆疊形式組網(wǎng),確保數(shù)據(jù)的交換能力和冗余備份能力,核心交換機到災備機房采用萬兆全光網(wǎng)絡,點到點直達存儲設備,確保數(shù)據(jù)秒級傳輸,達到實時快速備份和恢復的作用。
在學校數(shù)據(jù)災備系統(tǒng)設計中,首先要采用合理、高效、先進的遠程數(shù)據(jù)復制技術(shù)來支持數(shù)據(jù)的異地備份,支持全量及增量的數(shù)據(jù)復制,綜合考慮對帶寬等資源的占用,避免對生產(chǎn)環(huán)境運行的影響;其次,異地備份應支持按照數(shù)據(jù)量及網(wǎng)絡帶寬靈活調(diào)整數(shù)據(jù)備份或遠程數(shù)據(jù)復制的頻率。異地備份的頻率可以靈活配置,便于對不同級別應用系統(tǒng)按實際情況設置不同的備份頻率,達到最優(yōu)的容災效果,數(shù)據(jù)容災系統(tǒng)網(wǎng)絡拓撲圖如圖1所示。
3.2? 設計要點
3.2.1? 應用級容災
中心機房服務器主機與容災主機規(guī)劃在同IP網(wǎng)段,實現(xiàn)服務器主機數(shù)據(jù)實時同步至容災主機。服務器主機發(fā)生軟件、硬件故障,容災主機自動接管業(yè)務。
3.2.2? 數(shù)據(jù)級容災
服務器主機與容災主機規(guī)劃在不同IP網(wǎng)段,實現(xiàn)服務器主機的數(shù)據(jù)實時同步至容災主機。通過容災環(huán)境恢復最新數(shù)據(jù),或通過容災環(huán)境應急恢復業(yè)務。實現(xiàn)物理機到虛擬機的P2V容災、虛擬機到虛擬機的V2V容災。
3.2.3? 在超融合云平臺創(chuàng)建虛擬機
部署容災方案,實現(xiàn)物理機到超融合云平臺的P2V本地/同城容災,實現(xiàn)其他虛擬化平臺到超融合云平臺的V2V本地/同城容災,保障學校數(shù)據(jù)安全和業(yè)務連續(xù)。
3.3? 業(yè)務訪問過程
正常情況下,用戶通過域名訪問DNS服務器,主數(shù)據(jù)中心上的虛擬機開機提供業(yè)務,備數(shù)據(jù)中心上的容災備機關(guān)機,DNS服務器通過全局負載服務器的監(jiān)控,得知主數(shù)據(jù)中心上的虛擬機可以訪問,將域名解析為IP1,并通過地址轉(zhuǎn)換訪問到主數(shù)據(jù)中心的虛擬機。
容災切換之后,主數(shù)據(jù)中心的虛擬機處于關(guān)機狀態(tài),備數(shù)據(jù)中心上的容災備機開機并提供業(yè)務,DNS服務器通過全局負載服務器的監(jiān)控,得知主數(shù)據(jù)中心上的虛擬機無法訪問,備數(shù)據(jù)中心上的虛擬機可以訪問,將域名解析為IP2,并通過地址轉(zhuǎn)換訪問到備數(shù)據(jù)中心的虛擬機。由于配置了地址轉(zhuǎn)換,在容災的切換前后,同一個業(yè)務在主、備數(shù)據(jù)中心無須修改IP。
4? CDP災備實現(xiàn)的原理分析
4.1? CDP備份原理分析
CDP備份數(shù)據(jù)由RP日志文件和BP備份文件組成,備份實現(xiàn)原理主要為BP點和RP點的生成原理,如圖2所示。
1)啟動虛擬機時,同時開啟業(yè)務(QEMU)和CDP功能(cdp_worker),并為該虛擬機開辟一塊內(nèi)存(默認2 GB),作為主業(yè)務和CDP模塊的共享緩存區(qū)(shared buffer)。
2)CDP模塊(cdp_worker)位于虛擬機的qcows2文件層,可直接下發(fā)備份指令,對qcow2文件進行備份形成全備和增備BP,首次開啟CDP功能,需要進行一次全備生成基準點,后續(xù)根據(jù)設置的定期備份頻率(小時級別),定期生成BP點;BP點以備份文件的形式存在CDP數(shù)據(jù)存儲區(qū)。
3)采用旁路架構(gòu)+IO分流技術(shù),經(jīng)過共享緩存區(qū),實現(xiàn)從主業(yè)務異步復制IO到CDP日志存儲區(qū)(IO倉庫),以IO日志的形式存在;根據(jù)設置的IO日志間隔時間(RPO=
1 s/5 s),定期生成RP點,單獨利用RP并不能夠恢復數(shù)據(jù),所有的RP均依賴于對應的BP。
4)對生成的BP點和RP點均標記上時間戳,便于故障時定位恢復點。
4.2? 一致性備份
數(shù)據(jù)備份過程中,需要對多磁盤上存儲數(shù)據(jù)做一致性檢測,保證每個恢復點數(shù)據(jù)正確性和有效性,一致性CDP備份示意圖如圖3所示。下面就如何確保數(shù)據(jù)備份的一致性作以下說明:
1)如圖3所示,CDP存儲有3個磁盤,每個IO寫入并形成id標識的RP點,3個磁盤上的id相同的RP點則認為屬于同個一致性RP。
2)id為3的RP點在3個vdisk上都存在,因此RP3是一個有效的一致性RP,可以展現(xiàn)在頁面上,用于恢復虛擬機。
3)id為6的RP在vdisk2中缺失了,因此RP6不是一個有效的一致性RP,不能展現(xiàn)在頁面上,不能用于恢復虛擬機。
4.3? CDP恢復實現(xiàn)原理
當業(yè)務發(fā)生故障(病毒,誤刪除等)需要通過CDP備份文件進行虛擬機恢復時,可根據(jù)時間點查找對應備份文件,通過增量備份和IO倉庫創(chuàng)新設計,支持快速瀏覽備份文件,實現(xiàn)文件級和業(yè)務級恢復,流程如圖4所示。
如圖所示:CDP備份文件包括3個BP備份文件(BP、BP1和BP2)和8個RP日志文件(RP1到RP8);當選擇某個RP點進行恢復時,需要將目標恢復點之前的所有BP點和最近一個BP點至目標恢復點的所有RP點進行數(shù)據(jù)合并和業(yè)務恢復。以RP5進行業(yè)務恢復為例,關(guān)鍵步驟如下:
1)終端界面提出瀏覽14:00:20生成的IO日志(即RP5)的請求。
2)從qcow2備份文件中提取該恢復點之前的全部備份文件,即全量BP和增量BP1。
3)從IO倉庫中提取從最近備份點至目標恢復點的所有RP點,即RP4和RP5。
4)將獲取到相關(guān)備份文件和RP點文件進行合并,得到該恢復點的最終結(jié)果。
5)客戶可通過找回文件恢復特定文檔,或者直接恢復該時刻的整個虛擬機。
5? CDP快速恢復的應用
當業(yè)務系統(tǒng)出現(xiàn)故障不可用時,若開啟CDP功能進行數(shù)據(jù)備份保護,此時通過查找備份文件恢復虛擬機到最近的業(yè)務正常運行點實現(xiàn)業(yè)務恢復。
備份恢復一般做法:一是遷移備份數(shù)據(jù)至運行位置;二是等待數(shù)據(jù)遷移完后,在運行位置拉起虛擬機恢復業(yè)務;此時如果業(yè)務數(shù)據(jù)量大,數(shù)據(jù)遷移時間長,導致業(yè)務拉起時間長,意味著業(yè)務恢復的RTO會很大。為此,對備份恢復功能進一步進行優(yōu)化。
5.1? 快速恢復原理
在滿足一條限制條件的情況下,可以快速恢復虛擬機備份,僅需幾分鐘時間便可完成備份恢復并開機;通過先拉起虛擬機實現(xiàn)業(yè)務快速恢復,業(yè)務運行的同時遷移備份數(shù)據(jù)至目標存儲的方式實現(xiàn)業(yè)務快速恢復上線。快速恢復原理如圖5所示。
5.2? 快速恢復步驟
5.2.1? 快速拉起虛擬機運行業(yè)務
在業(yè)務恢復位置上新建空白鏡像,QEMU進程會通過該空白鏡像拉起虛擬機,此時業(yè)務可正常運行。如圖恢復位置中的第一行,形成一個空白鏡像。
5.2.2? 業(yè)務讀數(shù)據(jù)優(yōu)先恢復位置
業(yè)務運行過程中,優(yōu)先從恢復位置讀取數(shù)據(jù),如果恢復位置沒有該數(shù)據(jù),需要從備份文件池中將該位置數(shù)據(jù)遷移到恢復位置中,然后進行數(shù)據(jù)讀取。如圖恢復位置中的第二行,業(yè)務需要讀取位置1的K和位置3的M數(shù)據(jù)。
5.2.3? 業(yè)務寫數(shù)據(jù)位置為恢復位置
業(yè)務運行過程中,虛擬機新產(chǎn)生的數(shù)據(jù),則直接寫入新鏡像中。如圖恢復位置中第三行和第四行,分別在位置3和位置1寫入O和P。
5.2.4? 備份數(shù)據(jù)不斷從備份文件池遷移至恢復位置
在恢復虛擬機進行業(yè)務運行的同時,虛擬機QEMU進程中還會有一個默默在后臺持續(xù)將備份恢復池的數(shù)據(jù)搬運到恢復位置上的虛擬機鏡像中,我們稱之為備份數(shù)據(jù)整理,數(shù)據(jù)整理完成后,該虛擬機恢復為普通虛擬機。如圖恢復位置的第三行和第四行,在第三行狀態(tài)時,QEMU發(fā)現(xiàn)恢復位置中的鏡像文件中位置2和沒有數(shù)據(jù),此時將這位置2的數(shù)據(jù)從備份文件池遷移至恢復位置,當所有數(shù)據(jù)遷移完成后,如恢復位置的第四行狀態(tài),意味著虛擬機完全恢復,成為一個普通虛擬機。
快速恢復做到快速恢復業(yè)務的同時保證數(shù)據(jù)不會丟失??焖倩謴褪紫韧ㄟ^在恢復位置新建空白鏡像快速拉起虛擬機,實現(xiàn)業(yè)務快速恢復;其次優(yōu)先恢復業(yè)務運行的熱數(shù)據(jù),在短時間內(nèi)提高業(yè)務運行性能,然后以不影響主業(yè)務運行的速度遷移備份文件池中其他數(shù)據(jù)(冷數(shù)據(jù))到恢復位置中。
5.3? CDP數(shù)據(jù)恢復注意事項
本次CDP數(shù)據(jù)災備方案包含兩部分:一是由計算虛擬化、網(wǎng)絡虛擬化、存儲虛擬化、硬件服務器搭建的云平臺,主要用于業(yè)務系統(tǒng)的運行;二是由CDP持續(xù)數(shù)據(jù)保護,EDS分布式存儲設備搭建的備份恢復。
因此,如超融合云平臺數(shù)據(jù)丟失,可通過CDP方式立馬進行數(shù)據(jù)恢復,整個恢復過程是將業(yè)務系統(tǒng)的虛擬機(包含操作系統(tǒng)、軟件、應用程序、存儲文件)全部恢復。但若現(xiàn)規(guī)劃的云平臺出現(xiàn)全部宕機,例如:地震、火災等不可控因素。需要恢復至其他地方,或在其他地方進行業(yè)務拉起,保證業(yè)務不中斷,需要在異地部署同樣環(huán)境的云環(huán)境方可實現(xiàn)。我們可以用利舊的服務器及存儲設備,將三臺配置相同的兩路服務器搭建一套計算虛擬化+外置存儲方式的資源池,在發(fā)生主數(shù)據(jù)中心全部宕機時,核心業(yè)務系統(tǒng)會遷移至備數(shù)據(jù)中心,保障核心業(yè)務不宕機。
6? 結(jié)? 論
CDP技術(shù)是一種全新的容災備份技術(shù),CDP技術(shù)與超融合服務器平臺有機結(jié)合,可以滿足系統(tǒng)的鏡像備份,可以回到任意時間節(jié)點的歷史軌跡。CDP技術(shù)可以實現(xiàn)分層次恢復,大部分數(shù)據(jù)恢復在本地即可完成,具有獨特的帶寬優(yōu)化功能,可以確保在網(wǎng)絡帶寬有限的情況下快速異地恢復。在學校的數(shù)據(jù)災備系統(tǒng)設計過程中,發(fā)揮超融合服務器云平臺的作用,合理利用現(xiàn)有的服務器,搭建超融合集群服務和輔助集群,通過萬兆全光網(wǎng)絡保障數(shù)據(jù)的全量和增量實時備份。在學校的災備演練中,數(shù)據(jù)恢復用時少,數(shù)據(jù)沒有丟失現(xiàn)象,達到預期效果。
參考文獻:
[1] 錢濤.等保2.0背景下高職院校容災備份技術(shù)的探究和實踐 [J].中國信息化,2022(1):75-76+74.
[2] 張先哲,馬曉.基于混合云的數(shù)據(jù)容災備份方案研究 [J].網(wǎng)絡安全技術(shù)與應用,2022(2):86-87.
[3] 李小林.基于CDP技術(shù)建設同城數(shù)據(jù)容災中心——設計與實踐 [J].中國信息化,2021(11):85-87+84.
[4] 陳劉忠,展亞南,張旭東.云平臺容災技術(shù)研究與實現(xiàn) [J].網(wǎng)絡安全技術(shù)與應用,2021(5):87-89.
[5] 陳波.基于CDP技術(shù)的災備系統(tǒng)實踐 [J].福建電腦,2018,34(6):142+162.
作者簡介:林家全(1987—),男,漢族,貴州遵義人,講師,網(wǎng)絡信息中心副主任,本科,研究方向:大數(shù)據(jù)技術(shù)、網(wǎng)絡技術(shù)。
收稿日期:2022-12-27