王銀炎/浙江省檔案館災(zāi)備中心
黨的二十大報告指出,“以新安全格局保障新發(fā)展格局”,安全在發(fā)展中的作用愈發(fā)重要,隨著信息化建設(shè)的快速發(fā)展,電子文件規(guī)范管理與檔案信息安全已越來越受到各級黨委和政府的重視,特別是政府部門電子數(shù)據(jù)在不斷加速增長,服務(wù)經(jīng)濟社會的作用越來越大,加強電子數(shù)據(jù)的安全備份,對于確保政務(wù)服務(wù)系統(tǒng)安全穩(wěn)定,保障政務(wù)服務(wù)工作有效開展具有重要的現(xiàn)實意義。當(dāng)前檔案工作以“三個走向”為根本遵循,充分發(fā)揮檔案工作在“兩個先行”偉大征程中的基礎(chǔ)性支撐作用,切實把檔案保管好、利用好,記錄好、留存好,更好為黨和國家工作大局、為人民群眾服務(wù)。
以浙江省檔案館為例,2013—2022年浙江省電子政務(wù)數(shù)據(jù)災(zāi)難備份中心(以下簡稱“災(zāi)備中心”)接收備份的單位數(shù)量已超過150家,數(shù)據(jù)量超過150TB,其中數(shù)字化成果數(shù)據(jù)占80%,電子公文占4%,業(yè)務(wù)數(shù)據(jù)占16%,2018—2022年因各種原因?qū)е碌膫浞輪挝辉紨?shù)據(jù)未保存或缺失的單位有9家,通過災(zāi)備中心的備份數(shù)據(jù)恢復(fù)數(shù)據(jù)量超過8TB(以數(shù)字化成果數(shù)據(jù)和電子公文數(shù)據(jù)為主)。災(zāi)備中心是開展檔案安全工作重要載體,為新形勢下電子檔案數(shù)據(jù)保管工作提供了安全保障,隨著全省登記備份工作的持續(xù)推進,電子檔案數(shù)據(jù)的不斷產(chǎn)生,檔案登記備份工作的重要性也逐步體現(xiàn)出來,但隨之而來的問題也漸漸浮現(xiàn)。其中登記備份數(shù)據(jù)的備份和管理問題已直接影響當(dāng)前各地檔案館登記備份工作的開展。本文結(jié)合筆者工作實際,就如何對檔案登記備份數(shù)據(jù)(以下簡稱登記備份數(shù)據(jù))的備份和管理談幾點看法及建議。
以浙江省檔案館登記備份流程為例,各備份單位根據(jù)備份通知登錄檔案登記管理系統(tǒng),將本單位的檔案管理情況進行登記并提交上報。具體流程如圖1所示。
圖1 登記備份流程
備份數(shù)據(jù)流程結(jié)束后,登備數(shù)據(jù)接收及保管單位(以下簡稱備份中心)會將接收到的登備數(shù)據(jù)進行保存與管理,具體流程如圖2所示。
圖2 登記備份數(shù)據(jù)保存與管理流程
備份中心定期將登備數(shù)據(jù)備份到LTO磁帶或光盤(檔案存儲用藍光光盤),脫機備份信息記錄到登記備份管理系統(tǒng),磁帶或光盤脫機存放到載體管理庫房中。每年對存放超過2年的LTO磁帶或光盤載體進行抽樣檢測。備份中心制定登記備份管理制度,通過登記備份管理系統(tǒng)輔助,按照制度保存與管理登備數(shù)據(jù),定期進行數(shù)據(jù)的恢復(fù)和可用性測試。通過以上流程,備份中心會源源不斷地接收登備數(shù)據(jù),數(shù)據(jù)量會隨著時間的推移而不斷增加,隨之而來的問題也會逐步顯露出來。
登記備份工作開展至今已超過十個年頭,面對登記備份日漸增大的備份數(shù)據(jù)量,備份中心碰到的問題:
備份數(shù)據(jù)量飛速增加,存儲不夠用時擴容雖然能達到立竿見影的效果但卻只能解決燃眉之急。建設(shè)成本與擴容經(jīng)費投入的持續(xù)增加,配套系統(tǒng)和設(shè)備的運行維護費用和管理費用也會隨之增加,建設(shè)和管理成本與經(jīng)濟和社會效益之間的平衡、當(dāng)前財政信息化經(jīng)費的縮減、對信息化技術(shù)人員素養(yǎng)的要求等都是需要面對的問題。
一是數(shù)據(jù)使用安全,雖然在做備份數(shù)據(jù)的整理時會將涉密數(shù)據(jù)和非密數(shù)據(jù)分離開來,但很多檔案數(shù)據(jù)中都包含各個單位的內(nèi)部文件數(shù)據(jù),有的甚至還有涉密數(shù)據(jù)遺留混雜在其中。二是數(shù)據(jù)存儲的安全,當(dāng)前很多業(yè)務(wù)系統(tǒng)都遷移到了云計算平臺上,云平臺有其自身的優(yōu)點,但在數(shù)據(jù)安全和數(shù)據(jù)泄露上存在重大隱患。備份數(shù)據(jù)量越大、數(shù)據(jù)來源越廣泛、敏感信息越多數(shù)據(jù)安全問題所面臨的挑戰(zhàn)就越大。
檔案信息化技術(shù)力量本來就薄弱,技術(shù)型人才嚴重不足,檔案備份中心工作人員中有很大一部分并非信息化專業(yè)人員,大部分備份中心都沒有專業(yè)的信息化專業(yè)技術(shù)隊伍。尤其是當(dāng)前很多軟硬件平臺設(shè)備由國產(chǎn)化設(shè)備和平臺替代后,備份中心的建設(shè)、系統(tǒng)管理對人員的信息化技術(shù)素養(yǎng)要求更高。就算有了充足的資金和設(shè)備,沒有高素質(zhì)的技術(shù)人員來建設(shè)、管理和維護,備份中心也無法可持續(xù)發(fā)展。
尋找一個適合備份中心自身實際情況的平衡點,建立有效的登記備份機制和備份方法,可以考慮幾個方面:
當(dāng)前除了傳統(tǒng)的本地應(yīng)用系統(tǒng),很多業(yè)務(wù)系統(tǒng)都遷移到了云計算平臺(以下簡稱云平臺)上。本地應(yīng)用的備份形式有冷備份(離線備份)、熱備份(在線備份),云平臺則是云快照、云鏡像,一些主要針對數(shù)據(jù)庫系統(tǒng)的備份方式如按模式分類有邏輯備份、物理備份,按邏輯分類有全備份、增量備份、差異備份。
冷備份的優(yōu)點是操作非常便捷的備份方法(只需拷貝文件)、容易歸檔、容易恢復(fù)到某個時間點上、能與歸檔方法相結(jié)合、低度維護和高度安全。缺點是單獨使用時,只能提供到“某一時間點上”的恢復(fù)。在實時備份的全過程中,數(shù)據(jù)不能有變動,必須等待備份完成。占用存儲空間,只能拷貝到磁帶等其他外部存儲設(shè)備上,備份速度慢。恢復(fù)時需要中斷業(yè)務(wù)先導(dǎo)入備份數(shù)據(jù),因此恢復(fù)速度慢。熱備份的優(yōu)點則是備份速度快、恢復(fù)速度快、可以做到全自動接近無縫切換,缺點是維護困難、成本高、不能出錯,否則后果嚴重。云鏡像是在云端創(chuàng)建服務(wù)器數(shù)據(jù)副本,主要用于創(chuàng)建容錯和冗余服務(wù)器計算基礎(chǔ)架構(gòu)。云快照是一種基于時間點的數(shù)據(jù)拷貝技術(shù),記錄某一特定時刻的數(shù)據(jù)信息并加以保存,其分為物理拷貝和邏輯拷貝。云平臺的優(yōu)點是降低計算機成本、改進的性能、降低資源成本、優(yōu)化存儲、數(shù)據(jù)可靠性(數(shù)據(jù)在云中存儲是分節(jié)點存儲存在多副本多位置)、管理的便捷性(一個終端一條網(wǎng)一個賬戶就可以方便地進行管理),但針對敏感檔案數(shù)據(jù)而言存在幾個威脅最大的幾個問題:數(shù)據(jù)丟失與泄露、共享技術(shù)漏洞、云平臺供應(yīng)商可靠性不易評估、身份認證問題、透明度問題。云上云下如何選?可以對比以上優(yōu)缺點,再結(jié)合備份中心自身的業(yè)務(wù)需求來選擇。
數(shù)據(jù)在備份之前需要進行篩選整理,將備份數(shù)據(jù)格式按備份標準進行統(tǒng)一,再對統(tǒng)一格式后的數(shù)據(jù)打標簽形成標簽化的登備數(shù)據(jù),這是登記備份環(huán)節(jié)最重要也是目前登記備份工作中最具挑戰(zhàn)性的工作。無論是借助備份工具軟件執(zhí)行自動化備份或歸檔,還是利用信息化管理系統(tǒng)外加人員的半自動化備份,最終都需要對數(shù)據(jù)進行管理。做好數(shù)據(jù)管理,需要對數(shù)據(jù)分配身份,有了身份后再給每個有身份的數(shù)據(jù)賦予特定的屬性(唯一編號、來源、標題、內(nèi)容、數(shù)據(jù)包摘要或時間戳值、容量、格式、時間、關(guān)聯(lián)信息、外部依賴、有效期限、備份方式、分類級別、是否密級等),這就是數(shù)據(jù)標簽。其中有效期限也叫生命周期,在實際登記備份工作中這個屬性標簽大部分用默認標簽(永久或長期),那么這個標簽等于無效,起不到作用。備份數(shù)據(jù)不斷進來,備份中心照單全收,只要存儲夠用就不會去考慮數(shù)據(jù)清理,到了容量報警時再去補救,發(fā)現(xiàn)這個數(shù)據(jù)也不敢刪,那個數(shù)據(jù)也不敢刪,清理數(shù)據(jù)時沒人愿意簽字畫押,這樣重復(fù)和無用的數(shù)據(jù)就會越積越多。備份中心可以給出備份數(shù)據(jù)有效期限定義的標準和方法,如何定義登備數(shù)據(jù)的生命周期、制定和執(zhí)行數(shù)據(jù)過期策略、重復(fù)數(shù)據(jù)刪除等,這些工作都需要依賴于登備數(shù)據(jù)標簽。有了完善詳細的登備數(shù)據(jù)標簽才能方便且高效地管理登備數(shù)據(jù),做好登備數(shù)據(jù)生命周期管理才能有效降低備份中心的數(shù)據(jù)存儲及數(shù)據(jù)管理壓力。
執(zhí)行備份操作前需要先制定備份計劃,例如使用頻率極低的數(shù)字化成果以及敏感檔案數(shù)據(jù)的備份可以選擇在本地先歸檔再進行備份,因其存儲和管理更安全。對業(yè)務(wù)連續(xù)性要求高、數(shù)據(jù)變化量大的核心業(yè)務(wù)系統(tǒng)做好熱備份(至少是雙機熱備),再云平臺上的系統(tǒng)則可以利用云平臺做好快照和鏡像,碰到事故發(fā)生時可以在更短時間內(nèi)恢復(fù)業(yè)務(wù),縮短業(yè)務(wù)的中斷時間。除此外還需做好數(shù)據(jù)的容災(zāi)備份,雖然部分檔案數(shù)據(jù)使用頻率不高,有的甚至保存幾年也不會用到,但其數(shù)據(jù)的檔案屬性仍然存在,這些數(shù)據(jù)可以考慮先對其進行歸檔再對歸檔數(shù)據(jù)進行脫機離線備份(磁帶或光盤)來作為防災(zāi)級別的備份和長期保存。
備份策略制定可以參考已有的備份管理制度執(zhí)行。一般備份策略中先確定備份模式再確定備份周期和備份執(zhí)行時間,還需要依賴專業(yè)的備份軟件和信息系統(tǒng)來管理備份計劃、備份任務(wù)、備份執(zhí)行情況、備份數(shù)據(jù)的生命周期、定期巡檢、脫機載體、脫機備份頻次、載體檢測或抽檢等。備份模式可以分為完全備份、增量備份、差異備份,這幾種模式各自的特點:完全備份最慢但恢復(fù)最快、重復(fù)文件最多需要的空間也最多。增量備份最快但恢復(fù)最慢、備份使用空間最少。差異備份速度和備份容量介于完全和增量備份之間,但有也會產(chǎn)生大量重復(fù)文件。
登記備份的備份周期大多為周、月、季度、半年、一年,主要結(jié)合備份中心自身的情況、備份要求、經(jīng)濟、技術(shù)和人力等情況綜合考慮。一般全備份周期在半年或一年一次的頻率,增量備份則時間相對較短,可以選擇周或月度,差異備份則介于增量備和全備之間。完全備份操作簡單、恢復(fù)也方便快捷、簡單,缺點是浪費空間。
備份不一定都要采取高等級備份方式,在選擇備份方式時需要明確重心進行取舍和區(qū)別,要根據(jù)各備份中心實際情況制定計劃。
更具數(shù)據(jù)的應(yīng)用場景來選擇合適的軟件工具進行備份,例如對業(yè)務(wù)連續(xù)性要求高、數(shù)據(jù)變動頻繁的業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)庫、臨時表單附件等可以采用數(shù)據(jù)備份工具;對于變動頻率低的非結(jié)構(gòu)化數(shù)據(jù)文件,以小文件為主而文件數(shù)量龐大的檔案數(shù)據(jù)文件,如果直接使用備份軟件進行備份實際應(yīng)用中效率和管理上效果都不理想,可以使用歸檔軟件進行歸檔(形成歸檔包、iso格式等)后再進行備份。文件歸檔工具選擇范圍比較廣,考慮維護和兼容性為主,可以選擇支持標準格式和協(xié)議的歸檔軟件。備份工具對備份效率、可靠性、恢復(fù)速度要求比較高,但備份軟件都廠商有自己的文件格式兼容性低一般不對外開放,比如AnyBackup(愛數(shù),國產(chǎn)化備份系統(tǒng),支持國產(chǎn)化系統(tǒng)平臺)、VERITASNETBACKUP(簡稱NBU,跨平臺、功能強大,但價格昂貴、維護成本高、非國產(chǎn),不支持國產(chǎn)化系統(tǒng))、CommVault(康孚,目前只支持Windows平臺,漏洞多容易受到攻擊,功能有限,非國產(chǎn),不支持國產(chǎn)化系統(tǒng))等等。利用備份工具可以對備份數(shù)據(jù)進行系統(tǒng)化管理,備份的自動化運行,方便備份策略的定制等便利。通過備份工具備份的數(shù)據(jù)與備份工具的依賴性很強,例如脫離備份系統(tǒng)后數(shù)據(jù)能否正?;謴?fù)以及恢復(fù)需要的代價,備份系統(tǒng)本身的備份及安全問題,系統(tǒng)迭代升級后對老版本系統(tǒng)和數(shù)據(jù)的兼容支持情況及還原能力等。避免出現(xiàn)時間過去十幾年后當(dāng)初的備份數(shù)據(jù)無法還原或無法提取的狀況。
對數(shù)據(jù)進行定期脫機備份時需要考慮脫機備份載體的選擇,目前長期存放冷數(shù)據(jù)主要使用LTO磁帶、光盤存儲(檔案級藍光光盤)也逐步開始使用。對脫機載體需要按其載體特點和溫濕度要求存放專門的載體存放庫中,并定期對載體進行狀態(tài)檢查,例如LTO磁帶一般需要2年至少檢查一次。需要根據(jù)載體讀取設(shè)備的更新?lián)Q代對載體進行更新或重新備份,以防止使用備份數(shù)據(jù)時無可用的讀取設(shè)備而無法取出數(shù)據(jù),例如LTO類型磁帶一般只向下兼容兩代,兩代中最近的一代為讀寫兼容,之后為只讀兼容,速度仍然按照各個類型的速度,例如LTO8可以讀寫LTO7速度為300M/S,可以只讀LTO6的磁帶速度為160M/S,但已經(jīng)無法讀取LTO5及之前的磁帶。目前LTO9的單盤非壓縮容量為18TB,磁帶讀寫速度為400MB/s。光盤存儲的讀寫效率目前未能超越磁帶讀寫,單盤存儲容量較低(目前主流是100到300GB之間),但光盤對載體的保存環(huán)境要求比磁帶寬松,目前國產(chǎn)化產(chǎn)品也有可選余地。
除了備份工具外還需建議使用備份管理系統(tǒng)輔助備份工作的管理,例如一些審批和交接單據(jù)管理、備份數(shù)據(jù)屬性管理、載體存放信息管理、定期檢查或抽檢情況、數(shù)據(jù)調(diào)取及利用管理等。
數(shù)據(jù)備份進了存儲、卷了磁帶、存放到異地、進入了管理系統(tǒng),但數(shù)據(jù)備份工作還沒有全部完成。數(shù)據(jù)備份的最后一項工作就是數(shù)據(jù)的可用性驗證。數(shù)據(jù)的可用性可以從數(shù)據(jù)的一致性、準確性、完整性、時效性及實體同一性五個方面進行驗證。登備數(shù)據(jù)的可用性驗證可以通過:定期檢測載體、定期檢測數(shù)據(jù)包可用性、抽樣選取備份數(shù)據(jù)開展備份數(shù)據(jù)的定期恢復(fù)演練三種主要方式來保障數(shù)據(jù)的可用性。載體檢測和數(shù)據(jù)包檢測是通過技術(shù)手段,可以利用工具軟件達到目的?;謴?fù)演練是實戰(zhàn)方式的驗證,可靠性和信任度更高。