趙曉慧
當(dāng)今世界網(wǎng)絡(luò)、移動(dòng)設(shè)備、通信等各類現(xiàn)代信息技術(shù)高度發(fā)達(dá),在各行各業(yè)中的實(shí)際應(yīng)用中也逐步普及,應(yīng)該說(shuō)我們已然進(jìn)入大數(shù)據(jù)時(shí)代,隨之而來(lái)的各類數(shù)據(jù)集合也爆炸式增長(zhǎng)和高度復(fù)雜化。在此影響下,檔案數(shù)字信息海量增長(zhǎng)成為現(xiàn)實(shí)[1],因此檔案管理全面實(shí)現(xiàn)信息化不僅是一種趨勢(shì),還是檔案管理事業(yè)向信息化發(fā)展的一股強(qiáng)而有力的新動(dòng)力。然而由于信息技術(shù)的自身弱點(diǎn)、安全威脅類型多、來(lái)源多,檔案部門技術(shù)局限性等多種因素的影響,這些海量數(shù)字檔案信息的真實(shí)性、完整性、可靠性及長(zhǎng)期可讀性正面臨嚴(yán)重的安全威脅;虛擬化、大數(shù)據(jù)、云計(jì)算等發(fā)展趨勢(shì)使得電子文件備份在模式、技術(shù)、產(chǎn)品選擇等方面都將面臨巨大難題和全新的挑戰(zhàn)。
可靠的海量數(shù)據(jù)備份能力及技術(shù)方式是檔案信息化管理的基礎(chǔ)和保障,是確保檔案絕對(duì)安全,不斷提升檔案功能的重要策略,并且能夠深刻影響檔案信息化發(fā)展進(jìn)程[2]。就目前而言,檔案界針對(duì)海量數(shù)據(jù)備份技術(shù)方面的研究尚在探索與實(shí)踐過程中,本文將根據(jù)檔案信息自身特點(diǎn)及信息技術(shù)發(fā)展趨勢(shì),探析大數(shù)據(jù)環(huán)境下檔案信息數(shù)據(jù)備份技術(shù)的發(fā)展及應(yīng)用前景。
云備份是云計(jì)算、大數(shù)據(jù)等最新信息技術(shù)的融合或延伸發(fā)展,是超融合存儲(chǔ)架構(gòu),是通過整合虛擬化、集群應(yīng)用、網(wǎng)絡(luò)技術(shù)等各項(xiàng)現(xiàn)代信息技術(shù),通過建立云平臺(tái)將其集合起來(lái)協(xié)調(diào)工作,共同提供數(shù)據(jù)存儲(chǔ)和訪問功能的綜合系統(tǒng)。
將云備份技術(shù)應(yīng)用在檔案數(shù)據(jù)存儲(chǔ)與備份工作中,能夠有效解決檔案海量數(shù)據(jù)存儲(chǔ)問題,云存儲(chǔ)有儲(chǔ)存容量大、資源存取方便、成本低等特點(diǎn),隨時(shí)隨地可存儲(chǔ)、可訪問,打破了空間、時(shí)間、設(shè)備的限制,可為檔案信息化管理提供穩(wěn)定、可靠的存儲(chǔ)空間,更好地保護(hù)數(shù)據(jù)安全、規(guī)避安全風(fēng)險(xiǎn)和提供快捷海量數(shù)據(jù)查詢,并且能夠使檔案工作者打造高效的服務(wù)體系。云存儲(chǔ)通過云端可快速部署、自由拓展的特點(diǎn),便于檔案界信息化適應(yīng)信息技術(shù)發(fā)展,降低試錯(cuò)成本,同時(shí)也便于不同區(qū)域檔案管理者通過私有云整合優(yōu)勢(shì)資源,建立統(tǒng)一備份及利用平臺(tái),實(shí)現(xiàn)檔案信息資源實(shí)時(shí)共享和提升容災(zāi)備份能力。
傳統(tǒng)檔案數(shù)據(jù)備份模式重點(diǎn)關(guān)注數(shù)據(jù)的安全性、可恢復(fù)性、可用性,在現(xiàn)代信息技術(shù)發(fā)展趨勢(shì)下,特別是智能化備份模式的出現(xiàn),使我們?cè)诖嘶A(chǔ)上對(duì)海量數(shù)據(jù)備份的效率、方便性、自動(dòng)化、自適應(yīng)、兼容性、自治管理等方面有了更多期待,也正切合當(dāng)前人工智能發(fā)展理念。智能化備份核心理念是:通過對(duì)系統(tǒng)數(shù)據(jù)資源及設(shè)備進(jìn)行實(shí)時(shí)分析、監(jiān)控和數(shù)據(jù)挖掘,根據(jù)數(shù)據(jù)應(yīng)用特點(diǎn)結(jié)合使用者的行為模式,將備份數(shù)據(jù)進(jìn)行動(dòng)態(tài)智能化調(diào)整和配置,使備份模式達(dá)到最佳的運(yùn)行狀態(tài)。
在電子文件備份過程中,我們可以應(yīng)用智能化存儲(chǔ)數(shù)據(jù)挖掘技術(shù),把檔案數(shù)據(jù)的分類、整合、鑒定、編研等工作結(jié)合起來(lái)進(jìn)行知識(shí)化管理;并且通過智能化備份的信息資源,在進(jìn)行信息提取時(shí)將變得更為高效和準(zhǔn)確,減少人工干預(yù)。在智能數(shù)據(jù)處理平臺(tái)上也可以分析整理非結(jié)構(gòu)化信息(如各類網(wǎng)絡(luò)信息),有利于拓展檔案信息資源庫(kù)。
目前,存儲(chǔ)智能化在檔案及相關(guān)行業(yè)有所應(yīng)用,例如檔案信息自動(dòng)存儲(chǔ)分級(jí)(AST)在各種形式的磁盤存儲(chǔ)之間移動(dòng)數(shù)據(jù),數(shù)據(jù)卷大小自動(dòng)調(diào)整,文件系統(tǒng)自動(dòng)設(shè)置數(shù)據(jù)塊大小,數(shù)據(jù)自動(dòng)復(fù)制,數(shù)據(jù)診斷與自動(dòng)糾錯(cuò)等。但智能化在檔案行業(yè)整體應(yīng)用水平目前還很低,巨大容量、高性能、高可用性的存儲(chǔ)系統(tǒng)實(shí)現(xiàn)和管理仍然非常艱巨和復(fù)雜。
虛擬化備份是將物理服務(wù)器中的信息資源進(jìn)行虛擬化容災(zāi)備份的技術(shù)系統(tǒng),它能夠?qū)ξ锢矸?wù)器中的硬件配置、操作系統(tǒng)、數(shù)據(jù)庫(kù)、應(yīng)用軟件及文檔等數(shù)據(jù)通過VMware、Hyper-V、Hyper-V等虛擬化應(yīng)用系統(tǒng)進(jìn)行模擬,使原有數(shù)據(jù)資源脫離實(shí)際依存的軟硬件系統(tǒng)能夠原貌呈現(xiàn)或讀取,從而實(shí)現(xiàn)備份保護(hù)數(shù)據(jù)的目的。該項(xiàng)技術(shù)可以根據(jù)需求虛擬多個(gè)系統(tǒng)環(huán)境,并且每個(gè)系統(tǒng)都可以獨(dú)立運(yùn)算、存儲(chǔ)、提取,在執(zhí)行備份操作時(shí),根據(jù)設(shè)置的計(jì)劃任務(wù),可自動(dòng)完成信息資源的比對(duì)、差異、增量或完整備份。對(duì)于用戶來(lái)講,無(wú)需關(guān)心后臺(tái)存儲(chǔ)環(huán)境,信息資源在前臺(tái)與物理設(shè)備呈現(xiàn)的效果一樣。
現(xiàn)在虛擬備份技術(shù)發(fā)展較快,也較為成熟,由于其在應(yīng)用過程中操作簡(jiǎn)單、效率較高、兼容性好,能夠避免因硬件、操作系統(tǒng)、軟件或人為錯(cuò)誤而造成的數(shù)據(jù)丟失,并且虛擬化技術(shù)還可以降低軟硬件應(yīng)用成本和系統(tǒng)維護(hù)的費(fèi)用,因此當(dāng)前在各行業(yè)、各領(lǐng)域應(yīng)用十分流行。而這些特點(diǎn),也正切合當(dāng)下檔案工作中對(duì)于高度異構(gòu)化、復(fù)雜化電子文件存儲(chǔ)及備份要求,既可以脫離原生系統(tǒng)平臺(tái),又能原貌形式保存這些電子文件,符合確保電子文件長(zhǎng)期可用、可讀性需求,是電子文件海量數(shù)據(jù)存儲(chǔ)和備份的又一個(gè)重要發(fā)展方向。
檔案數(shù)據(jù)備份介質(zhì)隨信息設(shè)備發(fā)展不斷更新,從最初的軟盤、光盤、藍(lán)光光盤、光盤塔,到磁帶庫(kù)、磁盤陣列不斷涌現(xiàn),并在各個(gè)不同檔案業(yè)務(wù)工作場(chǎng)景不同時(shí)期得到應(yīng)用,一些介質(zhì),如軟盤、磁帶等,因其價(jià)格低廉、易用,在20世紀(jì)90年代十分普及,隨著光介質(zhì)的出現(xiàn),與光介質(zhì)相比,其支持機(jī)械元件的可靠性及讀寫速度有明顯劣勢(shì),因此此類介質(zhì)已經(jīng)被淘汰;隨著更新的存儲(chǔ)技術(shù)發(fā)展,目前光介質(zhì)在應(yīng)用和發(fā)展過程中也出現(xiàn)被易用的磁介質(zhì)逐步替代的趨勢(shì),但也不代表這些介質(zhì)已然被淘汰,需要我們根據(jù)具體需求而定,根據(jù)未來(lái)技術(shù)發(fā)展來(lái)選擇。就檔案?jìng)浞萁橘|(zhì)而言,檔案工作者一般注重存儲(chǔ)容量和長(zhǎng)期可用性,但隨著檔案數(shù)字業(yè)務(wù)規(guī)模逐步拓展、數(shù)據(jù)量的迅速積累,對(duì)介質(zhì)的存取效率、方便性有了更高的要求。目前,檔案界應(yīng)用較為廣泛的介質(zhì)是磁盤陣列、磁帶庫(kù)、虛擬磁帶庫(kù)等。
近年來(lái),固態(tài)硬盤(SSD,Solid State Disk)因其在存儲(chǔ)速度、抗摔性、傳輸速率、功耗等方面較傳統(tǒng)機(jī)械硬盤(HDD,Hard Disk Drive)有很大優(yōu)勢(shì),在系統(tǒng)應(yīng)用和存儲(chǔ)管理中得到快速的應(yīng)用和發(fā)展,大有替代傳統(tǒng)機(jī)械硬盤的趨勢(shì),但目前固態(tài)硬盤還存在多個(gè)缺點(diǎn),如價(jià)格相對(duì)高、不易數(shù)據(jù)恢復(fù)、讀寫抖動(dòng)性大等,而隨著技術(shù)的提升,這些問題也都在不斷改善和解決。就存儲(chǔ)取性能和數(shù)據(jù)備份安全性來(lái)看,機(jī)械硬盤是通過磁頭與盤片直接接觸尋道來(lái)讀取信息,在高速旋轉(zhuǎn)或運(yùn)輸過程中容易造成盤片的受損或數(shù)據(jù)的丟失,機(jī)械組件多而復(fù)雜,受自然環(huán)境中灰塵、溫濕度等影響極易受損;固態(tài)硬盤沒有實(shí)體盤片而由集成電路和存儲(chǔ)芯片制成,沒有機(jī)械運(yùn)動(dòng)部件,無(wú)需尋址,讀取速率快,體積小、重量輕,抗震性更好,對(duì)數(shù)據(jù)保護(hù)能力更強(qiáng),能夠適應(yīng)更廣的使用環(huán)境。因此,固態(tài)硬盤應(yīng)用于電子文件海量數(shù)據(jù)備份領(lǐng)域可以預(yù)期,我們應(yīng)該重點(diǎn)關(guān)注。
目前流行的備份技術(shù)有分布式存儲(chǔ)、智能存儲(chǔ)系統(tǒng)、數(shù)據(jù)網(wǎng)絡(luò)等,這些技術(shù)在各綜合檔案館備份存儲(chǔ)管理工作中有所研究和應(yīng)用。同時(shí),隨著虛擬化等新技術(shù)的快速普及、應(yīng)用呈現(xiàn)出的新特征,備份產(chǎn)品在保留了傳統(tǒng)的技術(shù)和新衍生云災(zāi)備等方案之外,又有一些技術(shù)已成為或者可能成為新的熱點(diǎn)[3],對(duì)于解決虛擬化和大數(shù)據(jù)存儲(chǔ)備份工作的數(shù)據(jù)管理難題有所幫助,在研究部署檔案?jìng)浞莶呗灾锌梢越梃b。
1.重復(fù)數(shù)據(jù)刪除。重復(fù)數(shù)據(jù)刪除是通過算法針對(duì)備份數(shù)據(jù)進(jìn)行壓縮或縮減的技術(shù)。海量數(shù)據(jù)備份過程中總是充斥著大量的冗余數(shù)據(jù),電子文件備份過程中也不例外,重復(fù)數(shù)據(jù)刪除技術(shù)為我們提供了解決方案。當(dāng)前主流重復(fù)數(shù)據(jù)刪除技術(shù)基本方法通常是基于散列(hash)的方法,通過類似SHA-1、MD-5算法來(lái)判斷數(shù)據(jù)是否已經(jīng)被備份;或是基于內(nèi)容識(shí)別記錄的數(shù)據(jù)格式,用內(nèi)嵌在備份數(shù)據(jù)中的元數(shù)據(jù)進(jìn)行差異備份。同時(shí),重復(fù)刪除技術(shù)結(jié)合數(shù)據(jù)壓縮技術(shù),來(lái)簡(jiǎn)化或壓縮大容量文件本身。我們對(duì)海量檔案信息進(jìn)行甄別篩選和對(duì)數(shù)據(jù)進(jìn)行多次備份后,剔除大量重復(fù)數(shù)據(jù)非常需要這種技術(shù)。該項(xiàng)技術(shù)可以幫助我們降低數(shù)據(jù)存儲(chǔ)量,提高存儲(chǔ)備份效率,節(jié)省成本等。數(shù)據(jù)重復(fù)刪除技術(shù)降低了備份所需的存儲(chǔ)空間,并實(shí)現(xiàn)了更快和更頻繁的備份,從而有利于電子文件長(zhǎng)期安全存儲(chǔ)。
2.即時(shí)恢復(fù)。即時(shí)恢復(fù)技術(shù)是指出現(xiàn)虛擬機(jī)宕機(jī)(丟失、不可用、災(zāi)害發(fā)生)時(shí),可以在備份存儲(chǔ)上即時(shí)恢復(fù)虛擬機(jī)運(yùn)行,從而實(shí)現(xiàn)數(shù)據(jù)的安全和業(yè)務(wù)的實(shí)時(shí)連續(xù)性。隨著越來(lái)越多重要的辦公業(yè)務(wù)系統(tǒng)對(duì)實(shí)時(shí)服務(wù)提出更高效的在線服務(wù)需求,當(dāng)災(zāi)害發(fā)生時(shí)需要實(shí)現(xiàn)數(shù)據(jù)的即時(shí)原貌恢復(fù),能夠有相同的虛擬機(jī)立即投入使用。當(dāng)前已出現(xiàn)基于持續(xù)數(shù)據(jù)保護(hù)(CDP)和快照等基礎(chǔ)備份功能的即時(shí)恢復(fù)方案,對(duì)于一些重要的業(yè)務(wù)系統(tǒng)中流轉(zhuǎn)的電子文件,我們可以應(yīng)用該項(xiàng)技術(shù)實(shí)現(xiàn)即時(shí)備份和恢復(fù),從而提高電子文件備份的安全性和有效性。
3.細(xì)粒度恢復(fù)。該技術(shù)是通過虛擬化平臺(tái)解析所備份的文件系統(tǒng),精準(zhǔn)恢復(fù)單個(gè)文件級(jí)的技術(shù)。通常在災(zāi)害發(fā)生時(shí),很大概率的故障原因?yàn)檐浌收?,即只有部分?jǐn)?shù)據(jù)受到損壞,例如單個(gè)配置文件、部分文件等,如果已經(jīng)備份好的海量數(shù)據(jù)整體恢復(fù)則需要大量人力、物力和時(shí)間,通過細(xì)粒度索引指針等技術(shù)方式,則無(wú)需恢復(fù)整個(gè)備份數(shù)據(jù),即可快速地訪問指定文件或者某個(gè)目錄文件,精確恢復(fù)數(shù)據(jù),能夠極大提升數(shù)據(jù)恢復(fù)效率。當(dāng)災(zāi)難發(fā)生時(shí),我們可以高效地進(jìn)行電子文件數(shù)據(jù)遷移和數(shù)據(jù)恢復(fù),可減小恢復(fù)整個(gè)備份數(shù)據(jù)時(shí)對(duì)生產(chǎn)環(huán)境、備份環(huán)境的運(yùn)行壓力,同時(shí)節(jié)省數(shù)據(jù)恢復(fù)成本,縮短業(yè)務(wù)中斷時(shí)間,盡快恢復(fù)業(yè)務(wù)運(yùn)行。
總之,檔案作為不可再生信息資源,是國(guó)家機(jī)構(gòu)、社會(huì)組織或個(gè)人在社會(huì)生活中直接形成的、有價(jià)值的、各種形式的歷史記錄,是人類社會(huì)重要的文化遺產(chǎn)。確保電子文件信息在當(dāng)前大數(shù)據(jù)環(huán)境下的可靠性和可用性,是當(dāng)前工作重點(diǎn)和重要研究方向。同時(shí),電子文件大數(shù)據(jù)備份是一項(xiàng)系統(tǒng)工程,要根據(jù)自身基礎(chǔ)設(shè)施、網(wǎng)絡(luò)系統(tǒng)、現(xiàn)有備份系統(tǒng)、電子文件處理系統(tǒng)、災(zāi)難恢復(fù)預(yù)案、運(yùn)維管理能力、未來(lái)可擴(kuò)展性、對(duì)效率要求以及技術(shù)支持能力等多方面綜合考慮。