[摘 要]介紹了CDP技術(shù)的含義、特點(diǎn)、原理、控制機(jī)制和實現(xiàn)模式,并以本院圖書館為例,簡要說明如何利用CDP技術(shù)在數(shù)字圖書館數(shù)據(jù)容災(zāi)中的應(yīng)用。
[關(guān)鍵詞]CDP技術(shù);數(shù)據(jù)容災(zāi);存儲技術(shù);數(shù)字圖書館
[中圖分類號]G250 [文獻(xiàn)標(biāo)識碼]B [文章編號]1008-0821(2010)04-0070-03
Analysis of the CDP Technology Applications in Digital LibraryFu Wenhui Li Bing
(Library,Jiujiang University,Jiujiang 332005,China)
[Abstract]The thesis described the meaning,features,principles,control mechanisms and implementation modes of the CDP technology,and used the library of Jiujiang university as an example,to briefly describe how to apply it in the data disaster recovery of the digital library.
[Keywords]CDP technology;data disaster recovery;storage technology;digital library
1 問題的提出隨著數(shù)字圖書館建設(shè)快速的發(fā)展,數(shù)據(jù)保護(hù)變得越來越重要。一些圖書館每天在凌晨時進(jìn)行一次增量備份,每周末凌晨進(jìn)行全備份,這種方法存在的問題是,一旦出現(xiàn)了數(shù)據(jù)災(zāi)難,圖書館館可以恢復(fù)到某天的數(shù)據(jù),在最壞的情況下可能丟失整整一天的數(shù)據(jù);有的圖書館采用每半天進(jìn)行一次增量備份,但是在數(shù)據(jù)量備份很大的情況下,備份時間窗口很大,需要業(yè)務(wù)系統(tǒng)停機(jī)很長時間才能做到;有的圖書館為了確保數(shù)據(jù)的更高安全性,采用在線系統(tǒng)實行在線實時復(fù)制,盡可能多地采用磁盤管理技術(shù)維持?jǐn)?shù)據(jù)的高可用性,但這樣勢必增加很大一部分投資。在一些關(guān)鍵應(yīng)用中,幾個小時的停機(jī),或幾個小時的數(shù)據(jù)丟失將造成巨大的損失。如何有效地保護(hù)數(shù)據(jù),提供24小時不間斷的服務(wù)成為圖書館界一個重要問題。傳統(tǒng)的數(shù)據(jù)保護(hù)技術(shù)逐漸難以保證靈活的目標(biāo)恢復(fù)點(diǎn)及較快的目標(biāo)恢復(fù)時間。為了滿足圖書館對數(shù)據(jù)進(jìn)行連續(xù)保護(hù),以便在災(zāi)難發(fā)生后能以最快的速度恢復(fù)到距故障點(diǎn)最近時刻的需求,CDP技術(shù)應(yīng)運(yùn)而生。
2 CDP技術(shù)概述
2.1 CDP技術(shù)了解CDP是Continuous Data Protection縮寫,即持續(xù)數(shù)據(jù)保護(hù)。根據(jù)SNIA數(shù)據(jù)保護(hù)論壇(DMF)對CDP的定義是:“CDP是一套方法,它可以捕獲或跟蹤數(shù)據(jù)的變化,并將其在生產(chǎn)數(shù)據(jù)之外獨(dú)立存放,以確保數(shù)據(jù)可以恢復(fù)到過去的任意時間點(diǎn)。持續(xù)數(shù)據(jù)保護(hù)系統(tǒng)可以基于塊、文件或應(yīng)用實現(xiàn),可以為恢復(fù)對象提供足夠細(xì)的恢復(fù)粒度,實現(xiàn)幾乎無限多的恢復(fù)時間點(diǎn)。CDP技術(shù)是對傳統(tǒng)數(shù)據(jù)保護(hù)技術(shù)的一個重大突破,傳統(tǒng)的數(shù)據(jù)保護(hù)解決方案專注在對數(shù)據(jù)的周期性備份上,因此一直伴隨有備份窗口、數(shù)據(jù)一致性以及對工作系統(tǒng)的影響等問題。而CDP是在不影響主要數(shù)據(jù)運(yùn)行的前提下,可以實現(xiàn)持續(xù)捕捉或跟蹤目標(biāo)數(shù)據(jù)所發(fā)生的任何改變,并且能夠恢復(fù)到此前任意時間點(diǎn)的方法。CDP系統(tǒng)能夠提供塊級、文件級和應(yīng)用級的備份,以及恢復(fù)目標(biāo)的無限的任意可變的恢復(fù)點(diǎn)。從CDP持續(xù)數(shù)據(jù)保護(hù)的實現(xiàn)和目標(biāo)來看,CDP技術(shù)已經(jīng)將傳統(tǒng)的數(shù)據(jù)備份的認(rèn)知產(chǎn)生了質(zhì)的飛躍。
2.2 CDP技術(shù)特點(diǎn)CDP技術(shù)與傳統(tǒng)的災(zāi)難恢復(fù)技術(shù)相比,具有如下明顯的特點(diǎn)(如表1):表1 CDP與傳統(tǒng)數(shù)據(jù)保護(hù)技術(shù)在實施數(shù)據(jù)保護(hù)間隔比較
項 目保護(hù)間隔備份技術(shù)24小時快照技術(shù)1~3小時復(fù)制技術(shù)僅獲得最后一個數(shù)據(jù)狀態(tài)CDP技術(shù)無保護(hù)間隔
2.2.1 提高數(shù)據(jù)恢復(fù)時間周期由表1可以看出,備份技術(shù)實現(xiàn)的數(shù)據(jù)保護(hù)間隔一般為24小時,因此用戶會面臨數(shù)據(jù)丟失多達(dá)24小時的風(fēng)險;采用快照技術(shù),可以將數(shù)據(jù)的丟失風(fēng)險降低到幾個小時之內(nèi),而CDP能夠?qū)崿F(xiàn)的數(shù)據(jù)丟失量可以降低到幾秒。實際上,在傳統(tǒng)數(shù)據(jù)保護(hù)技術(shù)中采用的是對“單時間點(diǎn)(SPIT,Single Point-In-Time)”的數(shù)據(jù)拷貝進(jìn)行管理的模式,而CDP可以實現(xiàn)對“任意時間點(diǎn)(APIT,Any Point-In-Time)”的數(shù)據(jù)訪問。
2.2.2 數(shù)據(jù)備份安全可靠由表1還可以看出,雖然復(fù)制技術(shù)可以通過與工作數(shù)據(jù)的同步獲得數(shù)據(jù)的最新狀態(tài),但其無法規(guī)避由人為的邏輯錯誤或病毒攻擊所造成的數(shù)據(jù)丟失。當(dāng)數(shù)據(jù)由于以上原因?qū)е聰?shù)據(jù)遭到破壞時,例如數(shù)據(jù)被誤刪除,復(fù)制技術(shù)會將遭到破壞的數(shù)據(jù)狀態(tài)同步到后備數(shù)據(jù)存儲系統(tǒng),使后備數(shù)據(jù)也受到破壞。CDP系統(tǒng)可以使數(shù)據(jù)狀態(tài)恢復(fù)到數(shù)據(jù)遭到破壞之前的任意一個時間點(diǎn),也就可以消除前者具有的風(fēng)險。
期淺析CDP技術(shù)在數(shù)字圖書館中的應(yīng)用Apr.,2010Vol.30 No.43 CDP控制機(jī)制CDP的關(guān)鍵技術(shù)是對數(shù)據(jù)變化的記錄和保存,以便實現(xiàn)任意時間點(diǎn)的快速恢復(fù)。其工作原理有以下3種模式:
3.1 基準(zhǔn)參考數(shù)據(jù)模式其實現(xiàn)有3個關(guān)鍵步驟(1)建立供恢復(fù)時參考用的數(shù)據(jù)拷貝;(2)供參考的數(shù)據(jù)拷貝基礎(chǔ)上開始順序向前記錄數(shù)據(jù)差異事件日志;(3)恢復(fù)時,在供參考用的數(shù)據(jù)拷貝基礎(chǔ)上,依據(jù)數(shù)據(jù)差異事件日志進(jìn)行數(shù)據(jù)恢復(fù)。其原理簡單,實現(xiàn)起來比較容易,但由于數(shù)據(jù)恢復(fù)時,需要從最原始的參考數(shù)據(jù)開始逐步進(jìn)行數(shù)據(jù)恢復(fù),因而恢復(fù)時間比較長。
3.2 復(fù)制參考數(shù)據(jù)模式其實現(xiàn)也有3個關(guān)鍵步驟(1)供恢復(fù)參考數(shù)據(jù)拷貝實時與工作數(shù)據(jù)同步;(2)同步的同時,在當(dāng)前數(shù)據(jù)基礎(chǔ)上記錄數(shù)據(jù)的回退事件;(3)恢復(fù)時,在當(dāng)前數(shù)據(jù)基礎(chǔ)上,依據(jù)數(shù)據(jù)回退差異記錄日志將數(shù)據(jù)回退到過去任意時間點(diǎn)。它和基準(zhǔn)參考數(shù)據(jù)模式在實現(xiàn)原理上恰好相反。復(fù)制參考數(shù)據(jù)模式在數(shù)據(jù)恢復(fù)時,恢復(fù)的時間點(diǎn)越靠近當(dāng)前,所需要的恢復(fù)時間越短。但在數(shù)據(jù)的保存過程中,需要數(shù)據(jù)和日志記錄的同步進(jìn)行,需要較多的系統(tǒng)資源。
3.3 合成參考數(shù)據(jù)模式其實現(xiàn)有4個關(guān)鍵步驟(1)建立初始參考數(shù)據(jù)拷貝;(2)在供恢復(fù)參考數(shù)據(jù)拷貝基礎(chǔ)上開始向前記錄數(shù)據(jù)差異事件日志;(3)定期將初始參考數(shù)據(jù)向后移動;(4)如必要可重新解析合成參考數(shù)據(jù)時間點(diǎn)之前記錄。合成參考數(shù)據(jù)模式是前兩種模式的折衷,較好地實現(xiàn)了前兩種模式的妥協(xié),因此可得到較好的資源占用和恢復(fù)時間效果。但需復(fù)雜軟件管理和數(shù)據(jù)處理功能,實現(xiàn)起來比較復(fù)雜。
4 CDP技術(shù)實現(xiàn)模式根據(jù)保護(hù)對象的層次,CDP技術(shù)可分為基于應(yīng)用、基于文件、基于數(shù)據(jù)塊三類。
4.1 基于應(yīng)用的CDP對需要保護(hù)的關(guān)鍵應(yīng)用程序,可以在其中直接嵌入和運(yùn)行CDP功能。這種實現(xiàn)CDP的方式首先能夠和應(yīng)用進(jìn)行深度整合,確保應(yīng)用數(shù)據(jù)在持續(xù)保護(hù)中的一致性。CDP功能可以由軟件廠商將其直接嵌入在軟件產(chǎn)品中,也可以是軟件廠商提供API接口,由第三方軟件開發(fā)商來開發(fā)完成。基于應(yīng)用的CDP最大好處是與應(yīng)用程序結(jié)合緊密,管理也比較靈活,易于用戶部署和實施。目前基于應(yīng)用程序的CDP解決方案大部分是針對成熟的應(yīng)用開發(fā)的,如支持微軟公司的Office、Exchange、IBM的DB2,以及Oracle數(shù)據(jù)庫等。
4.2 基于文件CDP其功能作用在文件系統(tǒng)上。它可以捕捉文件系統(tǒng)數(shù)據(jù)或者元數(shù)據(jù)的變化事件(例如創(chuàng)建、修改、刪除等),并及時將文件的變動進(jìn)行記錄,以便將來實現(xiàn)任意時間點(diǎn)的文件恢復(fù),如IBM公司的VitalFile、Storactive公司的LiveBackup for Desktop/Laptops、TimeSpring公司的TimeData等產(chǎn)品。
4.3 基于數(shù)據(jù)塊的CDP基于塊的CDP功能直接運(yùn)行在物理的存儲設(shè)備或邏輯的卷管理器上,甚至也可以運(yùn)行在數(shù)據(jù)傳輸層上。當(dāng)數(shù)據(jù)塊寫入生產(chǎn)數(shù)據(jù)的存儲設(shè)備時,CDP系統(tǒng)可以捕獲數(shù)據(jù)的拷貝并將其存放在另外一個存儲設(shè)備中?;跀?shù)據(jù)塊的數(shù)據(jù)保護(hù)又有基于主機(jī)層、基于傳輸層和基于存儲層三類實現(xiàn)方式。
5 CDP在圖書館網(wǎng)絡(luò)中運(yùn)用九江學(xué)院圖書館是4校合并整合成立的,現(xiàn)形成以主校區(qū)圖書館為主和2個分校區(qū)圖書館為輔的藏書體系,另外主校區(qū)建設(shè)中的逸夫樓圖書館也將投入使用。各圖書館局域網(wǎng)絡(luò)之間通過專線進(jìn)行對接,中低端服務(wù)器設(shè)備7臺,存儲設(shè)備2臺,利用匯文集成管理系統(tǒng)進(jìn)行統(tǒng)一圖書集中業(yè)務(wù)管理。
5.1 設(shè)計要求根據(jù)圖書館網(wǎng)絡(luò)系統(tǒng)的現(xiàn)有模式,對圖書館數(shù)據(jù)保護(hù)利用CDP技術(shù)進(jìn)行初步方案設(shè)計,目的在于防止因系統(tǒng)崩潰及其它因素引起的系統(tǒng)宕機(jī)所帶來的關(guān)鍵業(yè)務(wù)數(shù)據(jù)的丟失;數(shù)據(jù)備份要求系統(tǒng)不停機(jī),能在數(shù)據(jù)庫服務(wù)器進(jìn)行雙機(jī)自動切換的同時響應(yīng)在線備份的要求,保護(hù)關(guān)鍵業(yè)務(wù)數(shù)據(jù);另外,可對圖書館之間實時異地復(fù)制和業(yè)務(wù)系統(tǒng)(包括數(shù)據(jù)庫和應(yīng)用軟件)的實時遠(yuǎn)程切換,實現(xiàn)了以主校圖書館服務(wù)器雙機(jī)熱備份為主,其它校區(qū)圖書館(可選任意一個)備份為輔的災(zāi)難恢復(fù)的構(gòu)建方案。
5.2 解決方案在圖書館中心機(jī)房設(shè)置2臺IP Stor管理器,提供本地各子系統(tǒng)統(tǒng)一存儲及其它服務(wù),同時利用CDP復(fù)制技術(shù)實現(xiàn)圖書館之間運(yùn)程異制服務(wù)。在另圖書館也建立一臺IP Stor管理器,通過校園網(wǎng)以IP方式連接,通過利用IP Stor的容災(zāi)技術(shù)移到容災(zāi)中心,中心機(jī)房業(yè)務(wù)系統(tǒng)備而不用的容災(zāi)中心成為第二中心機(jī)房,兩個機(jī)房數(shù)據(jù)互容。通過CDP技術(shù)與快照代理技術(shù)相結(jié)合,自動與系統(tǒng)數(shù)據(jù)庫溝通,以確??煺諘r間點(diǎn)數(shù)據(jù)的完整性,將備份應(yīng)用服務(wù)器的數(shù)據(jù)全部備份到IBM-FAStT700磁盤,以保存更長時間的歷史數(shù)據(jù)供日后的查閱。利用CDP提供的恢復(fù)系統(tǒng)為前提可保證完整保護(hù)系統(tǒng)運(yùn)行及數(shù)據(jù),通過服務(wù)器端的磁盤保護(hù)工具DiskSafe,即時的監(jiān)控服務(wù)器上所有系統(tǒng)和數(shù)據(jù)磁盤,記錄所有磁盤的變化,根據(jù)管理員設(shè)定的策略,將變化的磁盤區(qū)塊持續(xù)同步或定時復(fù)制到后端的數(shù)據(jù)保護(hù)器,24小時完整保護(hù)服務(wù)器的系統(tǒng)和數(shù)據(jù)。
5.3 效果評價通過CDP解決方案可以在服務(wù)器端快速轉(zhuǎn)換為快照磁盤,并瀏覽所有快照,利用內(nèi)置數(shù)據(jù)保護(hù)器所提供的IP及FC SAN連接,在1分鐘內(nèi)就檢查快照磁盤里的文件內(nèi)容,并直接加載數(shù)據(jù)庫系統(tǒng)進(jìn)行數(shù)據(jù)比對和還原驗證,完全不需要耗費(fèi)長時間的數(shù)據(jù)恢復(fù),或占用服務(wù)器本身的磁盤空間,影響系統(tǒng)運(yùn)行,同時快照磁盤也能應(yīng)用于快速準(zhǔn)備測試數(shù)據(jù)環(huán)境,提供關(guān)鍵應(yīng)用服務(wù),在最短的時間內(nèi)恢復(fù)正常運(yùn)行的能力。因此當(dāng)中心圖書館由于不可抗力造成系統(tǒng)完全癱瘓時,為保證業(yè)務(wù)的連續(xù)性,管理員可設(shè)定由最近或特定的快照時間點(diǎn)恢復(fù)系統(tǒng)運(yùn)行;當(dāng)服務(wù)器重新開機(jī),選擇由服務(wù)器所配置的 iSCSI HBA或FC HBA連接受保護(hù)的復(fù)制磁盤遠(yuǎn)程啟動操作系統(tǒng),不需事先恢復(fù),利用遠(yuǎn)程系統(tǒng)直接在分館運(yùn)行,應(yīng)用服務(wù)器就能回到快照時的正常工作狀態(tài)。保證圖書館業(yè)務(wù)管理不間斷運(yùn)行。
6 結(jié) 語數(shù)據(jù)保護(hù)已成為一種數(shù)字圖書館建設(shè)重中之重,而數(shù)據(jù)的保護(hù)也已經(jīng)從簡單備份發(fā)展到了采用鏡像、快照、遠(yuǎn)程復(fù)制等先進(jìn)技術(shù);而CDP技術(shù)的出現(xiàn)則為圖書館提供了一種全新的思路,它突破了傳統(tǒng)備份不可逾越的性能瓶頸,實現(xiàn)了連續(xù)性應(yīng)用可用性與不間斷業(yè)務(wù)的夢想,隨著CDP技術(shù)的應(yīng)用范圍的擴(kuò)大和深入,CDP數(shù)據(jù)技術(shù)將會成為在線數(shù)據(jù)的重要保護(hù)手段。
參考文獻(xiàn)
[1]宋.連續(xù)數(shù)據(jù)保護(hù)系統(tǒng)服務(wù)器軟件的設(shè)計與實現(xiàn)[D].清華大學(xué),2008.5.
[2]陳金蓮.分布式連續(xù)數(shù)據(jù)保護(hù)方案[D].中國地質(zhì)大學(xué),2008.12.
[3]美國飛康軟件公司[EB].http:∥www.falconstor.com.cn,2009-08-15.
[4]李兵,羅建軍.淺析合并高校圖書館遠(yuǎn)程容災(zāi)系統(tǒng)建設(shè)[J].江西圖書館學(xué)刊,2007.4:112-113.