文/喬麗 苑華偉
談檔案館數(shù)字檔案的存儲(chǔ)備份介質(zhì)及利用
文/喬麗 苑華偉
數(shù)字檔案館與傳統(tǒng)檔案館相比,有著豐富的檔案數(shù)字化資源、便捷的檢索、快速的傳輸、高度的開(kāi)放、信息共享等優(yōu)點(diǎn)。為適應(yīng)信息社會(huì)日益增長(zhǎng)的對(duì)檔案信息資源的利用需求,各級(jí)各類檔案館運(yùn)用現(xiàn)代科技手段對(duì)數(shù)字檔案信息進(jìn)行采集、加工、存儲(chǔ)、管理,并通過(guò)各種網(wǎng)絡(luò)平臺(tái)提供檔案信息服務(wù)。
以某檔案館為例,自2010年6月國(guó)家檔案局印發(fā)《數(shù)字檔案館建設(shè)指南》以來(lái),該館在原館藏檔案數(shù)字化的基礎(chǔ)上,加快了數(shù)字檔案館的建設(shè)工作。至今已完成館藏案卷級(jí)、文件級(jí)檔案四百余萬(wàn)條,掛接電子檔案1450萬(wàn)頁(yè),數(shù)據(jù)量達(dá)到了24TB。目前,館藏檔案數(shù)字化工作仍在繼續(xù)進(jìn)行,增量電子檔案接收工作同時(shí)也在穩(wěn)步開(kāi)展。
隨著館藏檔案數(shù)字化進(jìn)程的不斷加快,數(shù)據(jù)量的迅速增長(zhǎng),給檔案館數(shù)字檔案的存儲(chǔ)、備份及管理利用等方面帶來(lái)了很大的工作壓力。
目前,沒(méi)有任何一種存儲(chǔ)介質(zhì)可永久地保存數(shù)字檔案和數(shù)字信息資料。該館現(xiàn)保存有縮微膠片、光盤、磁帶、硬盤四種介質(zhì)的數(shù)字檔案。
1.四種介質(zhì)的比較。一是從容量上比較。磁盤陣列單盤可達(dá)8TB,目前最大;磁帶單盤可達(dá)2.5TB,壓縮后可達(dá)6.2TB;藍(lán)光光盤單盤可達(dá)100GB;縮微膠片最小。二是從速度上比較。硬盤速度最快,光盤次之,磁帶和縮微膠片需要依靠特殊的設(shè)備讀取,速度都較慢。三是從價(jià)格上比較。硬盤和光盤最經(jīng)濟(jì),縮微膠片和磁帶次之。四是從作用方面上比較??s微膠片與光盤的存儲(chǔ)占用空間小、保存時(shí)間長(zhǎng),易于交換與復(fù)制,有利于異地異質(zhì)備份。磁帶存儲(chǔ)發(fā)展雖然已有60余年,但對(duì)于海量數(shù)據(jù)來(lái)說(shuō),占用空間大,保存環(huán)境要求高。硬盤從價(jià)格及兼容性方面來(lái)說(shuō)都不是最好的選擇。
2.數(shù)字檔案存儲(chǔ)難題。在數(shù)字檔案館建設(shè)中,存儲(chǔ)系統(tǒng)通常以磁盤陣列作為核心存儲(chǔ)設(shè)備,利用磁帶進(jìn)行數(shù)據(jù)備份。這種存儲(chǔ)架構(gòu),能夠滿足很多行業(yè)的需求,但對(duì)檔案館這種特殊行業(yè),存在諸多問(wèn)題。磁盤陣列與磁帶均屬于磁性介質(zhì)存儲(chǔ),它們對(duì)設(shè)備的依賴性強(qiáng),必須依賴于指定的設(shè)備才能讀出。如設(shè)備發(fā)生故障、系統(tǒng)癱瘓、病毒干擾等,數(shù)字檔案就無(wú)法讀取。一是磁盤陣列雖然存儲(chǔ)量大,讀取速度、數(shù)據(jù)信息的備份與恢復(fù)性能快,但它的壽命有限。它采用驅(qū)動(dòng)器與存儲(chǔ)介質(zhì)一體化的形式,其機(jī)械故障易造成硬盤的整體更換,磁盤陣列的硬盤通常不能離線或移至其他磁盤陣列讀取。到一定時(shí)間后需花費(fèi)巨大的人力、財(cái)力進(jìn)行數(shù)據(jù)遷移。二是磁帶存儲(chǔ)的優(yōu)點(diǎn)是體積小、成本低、壽命較長(zhǎng),但可靠性差,需不定時(shí)進(jìn)行倒帶,存放磁帶的環(huán)境要求高,維護(hù)磁帶機(jī)的成本較高。它沒(méi)有統(tǒng)一國(guó)際標(biāo)準(zhǔn),必須使用指定品牌或型號(hào)的帶庫(kù),且它的兼容性不好。在國(guó)際上,磁帶的大小沒(méi)有統(tǒng)一標(biāo)準(zhǔn),不同品牌的磁帶機(jī)互不兼容,同品牌的磁帶機(jī)隔代也不兼容。要保證數(shù)字檔案數(shù)據(jù)的安全可靠,數(shù)據(jù)必須遷移,帶來(lái)很大的成本,也存在很大風(fēng)險(xiǎn)。三是光盤存儲(chǔ)伴隨科技的發(fā)展,它的容量已大大增加。它體積小、重量輕、價(jià)格低,穩(wěn)定性好,壽命較長(zhǎng),可達(dá)70-200年,且光盤中的數(shù)據(jù)一旦寫入將無(wú)法更改。四是縮微膠片優(yōu)點(diǎn)是性能穩(wěn)定,成本較低,密度大,攜帶方便,數(shù)據(jù)無(wú)法更改,壽命長(zhǎng),但檢索速度慢,查閱率低,用一件需要調(diào)一盒,保存條件要求高,需定期檢查防止粘連,易損壞,設(shè)備投資大。
3.安全問(wèn)題。利用磁性介質(zhì)存儲(chǔ)數(shù)字檔案信息,在數(shù)據(jù)安全性方面存在隱患。一是數(shù)據(jù)可修改、可刪除。二是計(jì)算機(jī)病毒、黑客,非法網(wǎng)絡(luò)入侵,造成的數(shù)據(jù)丟失或篡改。三是有意破壞存儲(chǔ)裝置,造成數(shù)據(jù)丟失或無(wú)法讀取,例如磁脈沖破壞、短期高溫等。四是人為或偶然事故造成的威脅。如工作人員操作失誤而產(chǎn)生的不可預(yù)知的事件、網(wǎng)絡(luò)系統(tǒng)軟件硬件的故障、電子系統(tǒng)故障引發(fā)的系統(tǒng)問(wèn)題等等。
4.存儲(chǔ)介質(zhì)規(guī)范化管理需要具備的條件。一是基于檔案的重要性,數(shù)字檔案信息存儲(chǔ)介質(zhì)需具備長(zhǎng)期的安全保存年限,應(yīng)有幾十年、百年甚至以上的壽命。二是長(zhǎng)期的兼容能力和持續(xù)發(fā)展能力,當(dāng)介質(zhì)升級(jí)時(shí)存儲(chǔ)系統(tǒng)能夠依然支持該存儲(chǔ)介質(zhì)。三是數(shù)據(jù)具有物理不可篡改的寫入方式,較低的環(huán)境保存風(fēng)險(xiǎn),較低的系統(tǒng)性、偶發(fā)性數(shù)據(jù)丟失風(fēng)險(xiǎn)。四是介質(zhì)可離線保存。五是數(shù)字檔案信息存儲(chǔ)格式需要符合國(guó)家標(biāo)準(zhǔn)的格式,選擇開(kāi)放格式或主流格式,滿足數(shù)據(jù)長(zhǎng)期存儲(chǔ)和讀取的兼容性要求。六是要求數(shù)字檔案信息存儲(chǔ)設(shè)備與存儲(chǔ)介質(zhì)需要較低的依賴性。
該館是根據(jù)上述原因綜合考慮取舍,將原有IT架構(gòu)即磁盤陣列+磁帶備份的老舊存儲(chǔ)架構(gòu)模式,變更為全新的基于磁盤陣列及光盤庫(kù)的分級(jí)存儲(chǔ)系統(tǒng),即“磁光混合分級(jí)存儲(chǔ)”來(lái)保存館藏?cái)?shù)字檔案信息,用以建設(shè)數(shù)字檔案館存儲(chǔ)系統(tǒng)。把全部數(shù)字檔案信息存放在光盤庫(kù)上,磁盤陣列作為輔助存儲(chǔ),將頻繁使用的部分?jǐn)?shù)據(jù),從光盤庫(kù)調(diào)入磁盤陣列,提高系統(tǒng)的響應(yīng)效率,滿足應(yīng)用的需要。
1.磁光混合的分級(jí)存儲(chǔ)模式。它由光盤庫(kù)設(shè)備及數(shù)據(jù)歸檔管理平臺(tái)軟件兩部分組成,結(jié)合已有館藏?cái)?shù)字檔案綜合管理系統(tǒng),及磁盤陣列設(shè)備形成完善的數(shù)字檔案管理、存儲(chǔ)、備份及利用解決方案。采用存儲(chǔ)集成方式,將館藏?cái)?shù)字檔案綜合管理系統(tǒng),與數(shù)據(jù)歸檔管理平臺(tái)進(jìn)行存儲(chǔ)集成?,F(xiàn)有館藏?cái)?shù)字檔案綜合管理系統(tǒng)與光存儲(chǔ)的數(shù)據(jù)歸檔管理平臺(tái),進(jìn)行接口集成實(shí)時(shí)的數(shù)據(jù)歸檔,以及實(shí)時(shí)調(diào)閱查詢利用。藍(lán)光存儲(chǔ)系統(tǒng)接收到數(shù)據(jù),寫入藍(lán)光存儲(chǔ)并在磁盤陣列中進(jìn)行緩存存儲(chǔ),根據(jù)設(shè)定自動(dòng)緩存策略進(jìn)行清理或近線離線回遷,管理系統(tǒng)向數(shù)據(jù)歸檔管理平臺(tái)發(fā)送調(diào)閱命令,平臺(tái)根據(jù)數(shù)據(jù)存儲(chǔ)位置,自動(dòng)將數(shù)據(jù)返回給管理系統(tǒng)完成調(diào)閱,實(shí)現(xiàn)快速便捷的館藏?cái)?shù)字檔案管理及利用服務(wù)?,F(xiàn)該館采用的分級(jí)存儲(chǔ)系統(tǒng),以光盤庫(kù)為核心存儲(chǔ),用于存儲(chǔ)全量數(shù)據(jù),同時(shí)起到數(shù)據(jù)稽核、備份、容災(zāi)的作用,用以滿足檔案數(shù)據(jù)安全、穩(wěn)定、長(zhǎng)期存儲(chǔ)備份及利用的需求,進(jìn)而降低數(shù)據(jù)存儲(chǔ)的購(gòu)置、維護(hù)及遷移成本。在線磁盤作為輔助存儲(chǔ),用于滿足高頻度訪問(wèn)需求或臨時(shí)存儲(chǔ)數(shù)據(jù)需求。存儲(chǔ)系統(tǒng)能夠綜合各類存儲(chǔ)的優(yōu)勢(shì),滿足不同要求數(shù)據(jù)的存儲(chǔ)、利用需求。同時(shí)系統(tǒng)提供數(shù)據(jù)在線、近線、離線的一體化分級(jí)存儲(chǔ)服務(wù)。能夠根據(jù)數(shù)據(jù)的特性,使用頻率及響應(yīng)要求自動(dòng)分級(jí)存儲(chǔ)。磁光混合存儲(chǔ),應(yīng)用光存儲(chǔ)實(shí)現(xiàn)數(shù)據(jù)長(zhǎng)期安全存儲(chǔ),應(yīng)用磁盤存儲(chǔ)滿足數(shù)據(jù)在線高效利用需求,實(shí)現(xiàn)不同特性存儲(chǔ)設(shè)備的最佳利用,為數(shù)字化檔案館提供穩(wěn)定、安全、高效、經(jīng)濟(jì)的存儲(chǔ)系統(tǒng)。
2.磁光混合分級(jí)存儲(chǔ)模式優(yōu)點(diǎn)。系統(tǒng)可按照法規(guī)、制度的要求,依據(jù)數(shù)據(jù)的重要程度、保存年限,采取不同的備份策略。一是支持短期備份,電子檔案數(shù)據(jù)的安全保存期限在5年以內(nèi)。二是支持長(zhǎng)期備份,存儲(chǔ)介質(zhì)具有較長(zhǎng)的壽命,電子檔案數(shù)據(jù)的安全保存期限達(dá)到十年、三十年及永久保存等多種長(zhǎng)期備份需求。三是支持多介質(zhì)備份。四是支持離線備份,并具有較好的離線管理功能。
3.分級(jí)存儲(chǔ)備份策略及恢復(fù)機(jī)制。備份和恢復(fù)技術(shù)是數(shù)據(jù)保護(hù)策略的基礎(chǔ),保障系統(tǒng)安全性、可用性,系統(tǒng)采用標(biāo)準(zhǔn)的數(shù)據(jù)庫(kù)備份管理策略,定期全備份,每日對(duì)系統(tǒng)進(jìn)行增量備份,保障系統(tǒng)運(yùn)行。作為數(shù)字檔案存儲(chǔ)的系統(tǒng),系統(tǒng)提供多種存儲(chǔ)數(shù)據(jù)容錯(cuò)機(jī)制。
4.光存儲(chǔ)多數(shù)據(jù)副本備份策略。一是副本備份機(jī)制。多份不同用途的副本的自動(dòng)生成,系統(tǒng)根據(jù)配置自動(dòng)生成不同用途的副本,副本用途支持查詢、備份、封存等多種用途管理。二是副本容錯(cuò)當(dāng)系統(tǒng)檢測(cè)光盤數(shù)據(jù)訪問(wèn)因灰塵等環(huán)境及人為原因造成數(shù)據(jù)異常時(shí)自動(dòng)發(fā)出提醒切換訪問(wèn)副本。
5.磁光備份機(jī)制。一是光備份機(jī)制。當(dāng)在線磁盤出現(xiàn)異常后或服務(wù)器出現(xiàn)嚴(yán)重故障可通過(guò)光盤數(shù)據(jù)完整恢復(fù)檔案信息。二是存儲(chǔ)逆向恢復(fù)機(jī)制。系統(tǒng)提供在服務(wù)器出現(xiàn)異常,造成檔案系統(tǒng)中數(shù)據(jù)丟失后的存儲(chǔ)數(shù)據(jù)恢復(fù)功能。系統(tǒng)可以自動(dòng)掃描光盤中數(shù)據(jù),恢復(fù)至系統(tǒng)中,繼續(xù)提供檔案利用服務(wù)。
6.磁盤陣列儲(chǔ)存?zhèn)浞莶呗?。根?jù)檔案數(shù)據(jù)變化的自身特點(diǎn),數(shù)據(jù)一旦存儲(chǔ),若干年內(nèi)只增不減,采用“完全備份加增量備份”的策略進(jìn)行磁盤陣列存儲(chǔ)備份。
(作者單位:長(zhǎng)春市二道區(qū)人民醫(yī)院吉林省檔案館)