蔣術 吳明霞
據(jù)悉,我國1982年第三次人口普查的原始數(shù)據(jù)因遭水淹99%已經(jīng)無法讀出,這些保存在磁帶上的數(shù)據(jù),涉及大約10億人口的基礎信息。1989年底,原民主德國群眾搶救了國家安全局9998盤計算機磁帶和883快老式硬盤。由于原民主德國使用的電子設備是華約國家格式,且使用了加密算法和已經(jīng)消失的計算機語言,到1999年,專家只識別出369盤計算機磁帶內(nèi)容。電子文件作為國家重要戰(zhàn)略資源,產(chǎn)生于社會生活的方方面面,其長期保存關乎人類文明的傳承,社會的發(fā)展。電子文件的長期保存至少包括兩個方面的內(nèi)容,即電子文件的長期存儲及可讀取、電子文件的真實性保證。電子文件長期保存的目標是:真實、永久、有效、安全、通用。本文將圍繞電子文件的存儲載體、保存格式和技術策略三個方面來探討電子文件的長期保存問題,在回顧相關研究的基礎上,給出電子文件長期保存的建議。
一、存儲載體
電子文件作為一種數(shù)字信息資源,其存儲載體可以分為三類,即磁存儲載體(包括硬盤、磁帶等)、光存儲載體(主要是光盤)和電存儲載體(U盤、數(shù)碼卡等)。2002年1月頒布的《電子文件歸檔與管理規(guī)范》(GB/T18894-2002)第7.5.2.3條對長期歸檔保存的數(shù)字檔案存儲介質進行了指導性推薦,按優(yōu)先順序依次為:只讀光盤、一次寫光盤、磁帶、可擦寫光盤、硬磁盤等。2013年6月1日實施的《電子文件管理系統(tǒng)通用功能要求》(GB/T29194-2012)第5.2.5.1條指出電子文件管理系統(tǒng)存儲介質理化性質應符合相關規(guī)范的要求,其中歸檔用光盤可參照DA/T 38-2008??梢姡獗P仍然是現(xiàn)階段歸檔電子文件長期保存的首選存儲介質。這主要是因為光盤的性價比高,與硬盤等存儲載體相比,存儲壽命較長。然而光盤存在存儲容量有限、易受周圍環(huán)境的影響、數(shù)據(jù)交換性差、質量差別大等缺點,在沒有更好的存儲載體出現(xiàn)前,光盤仍然是我國檔案檔案部門電子文件長期保存的不二之選。隨著互聯(lián)網(wǎng)的不斷發(fā)展,云存儲有望成為未來電子文件長期保存的主要方式。所謂的云存儲是通過集群應用、網(wǎng)絡技術或分布式文件系統(tǒng)等功能,將網(wǎng)絡中大量各種不同類型的存儲設備通過應用軟件集合起來協(xié)同工作,共同對外提供數(shù)據(jù)存儲和業(yè)務訪問功能的一個系統(tǒng)。它是的出現(xiàn)是為了解決云計算的海量數(shù)據(jù)的存儲難題,只要把數(shù)據(jù)放在“云端”,授權用戶便可以隨時隨地通過網(wǎng)絡從云端存取數(shù)據(jù)。云存儲技術提高了數(shù)據(jù)的存儲和訪問效率,減輕了本地的存儲壓力,節(jié)約了成本。但是云存儲也存在過分依賴云存儲服務提供商、安全性等問題,大規(guī)模的把檔案部門的電子文件遷移至云端,還需要時間來驗證云存儲的安全性及其自身一些技術問題的突破。就物理載體而言,云存儲仍然是把數(shù)字資源存儲在磁盤、磁帶等介質上,仍然會存在電子文件的格式轉化和遷移等問題,僅僅是提供了一種更為高效的數(shù)字服務方式。
二、存儲格式
電子文件大多以某種編碼形式存在,它的讀取依靠計算機軟硬件環(huán)境。一旦這些操作系統(tǒng)、應用軟件或存儲設備過時,這些文件將無法讀出,等同消失。在目前已知的技術更新頻率下,技術淘汰給電子文件帶來的威脅遠遠大于存儲載體的腐壞給其帶來的挑戰(zhàn)。也就是說,一般情況下電子文件存儲載體的壽命是大于讀取它的軟硬件生命周期的,與延長存儲載體的壽命相比,延長讀取電子文件的軟硬件技術壽命顯得更為重要。顏曉棟認為電子文件長期讀取的關鍵技術是文件格式技術。PDF格式因為具有跨平臺、良好的兼容性、安全控制并且算法、規(guī)范完全公開、免費,被王珠珠,吳凱媛、顏曉棟、劉家真、毛義春、徐義全、黃新榮,劉穎、劉國偉等推薦為電子文件長期存儲的首選格式。張文浩,通過對音頻文件格式的分析與論證,提出數(shù)碼錄音電子文件長期保存格式——FLAC文件格式。葉新明對圖像的長期保存格式分階段進行了分析,認為不同階段采取不同格式。馬春茂提出文本型電子文件歸檔時應采用基于XML格式和PDF格式同時歸檔的方式。仇立提出利用虛擬打印技術把眾多軟件產(chǎn)生的文件都轉化成電子文件的標準格式SDF(Standard Data Format)。綜述,大多數(shù)學者的文章主要集中在對特定類型的電子文件的格式推薦上,推薦的格式大多局限于一兩種,這是遠遠不夠的,多媒體文件、數(shù)據(jù)庫文件等并不能通過PDF存儲,電子文件的長期保存需要的是一個格式體系?!峨娮游募w檔與管理規(guī)范》(GB/T18894-2002)雖然給出了各種類型文件的推薦格式,但是該標準稍顯陳舊,對電子文件的長期可讀、真實性考慮不足。《版式電子文件長期保存格式需求》(DA/T 47-2009)雖然考慮了電子文件的長期保存,但是其僅僅針對版式文件,也沒有推薦具體的文件格式。我國亟需更新或頒布針對電子文件長期保存格式問題的規(guī)范或標準。統(tǒng)一格式標準,有利于把現(xiàn)階段正常使用未來可能淘汰的格式統(tǒng)一轉化為最新可讀取格式,統(tǒng)一格式也方便對電子文件進行管理,使用技術策略延長電子文件壽命時也更加的方便。
三、技術策略
電子文件的長期保存必須依賴相關的技術,主要有更新、遷移、仿真、硬拷貝、數(shù)字圖形輸入板、標準化、軟硬件檔案館等,見表1。
國內(nèi)外學者對上述電子文件長期保存技術進行了較為詳細的論述,主要包括這些技術的簡介、實施、優(yōu)缺點和適用原則等,其中遷移和仿真是中外檔案學者研究的熱點。代表性的觀點有:Jeff Rothenberg利用仿真技術進行實驗,表明仿真技術很好的再現(xiàn)了數(shù)字對象在原始平臺上所表現(xiàn)出來的行為特征和外觀。Hilde van Wijingaarden 詳細介紹了遷移和仿真策略。Gordon Hoke認為應該先確定可接受的風險等級,然后選取硬拷貝、遷移、標準格式等技術策略。張美芳從技術層面和管理層面提出了電子文件長期保存策略。針對遷移技術,張美芳論述了電子文件遷移的具體步驟、措施、方式及風險防范等,張照余等介紹了遷移的時機、原則和要求,劉家真闡述了更新和遷移實施過程中的風險管理問題。不可否認,電子文件遷移技術越來越受到學界和檔案部門的親睞,電子文件的遷移是電子文件自身“與時俱進”的過程,通過遷移,原來已經(jīng)淘汰的格式、損壞的載體等得到更新,適應了當前存儲的環(huán)境,延長了電子文件的壽命。但是電子文件的遷移工作并非易事,以檔案部門館藏的大量光盤為例,其實是很難檢測光盤當前狀況的。作者所在的數(shù)據(jù)工程與知識工程教育部重點實驗室(位于中國人民大學內(nèi)),雖然擁有一百多萬一臺的光盤檢測儀,但通過實驗發(fā)現(xiàn)其檢測效果不是很理想。盡管如此,高昂的成本使此類設備僅有少數(shù)幾個省級檔案部門擁有,其他檔案部門的館藏光盤一般堆放在檔案室內(nèi),不管不問,文件遷移工作任重而道遠!
四、電子文件長期保存的建議
1.基于系統(tǒng),前端控制,夯實基礎
中國人民大學信息資源管理學院“電子文件管理機制研究”課題組采取實地調查和問卷調查相結合的方式于2007年6-12月間對我國153家中央直屬機關、省級檔案機構、企事業(yè)單位的電子文件狀況進行了點面結合的系統(tǒng)調查,調查結果顯示:在中央機關及直屬企事業(yè)機構,電子文件生成量與歸檔量的比例遠遠低于傳統(tǒng)狀態(tài)。調查數(shù)據(jù)表明42.2%的電子文件沒有以任何方式留存,74.4%機構的沒有采用任何措施存留數(shù)據(jù)庫、電子郵件、多媒體文件、網(wǎng)頁文件等類型的電子文件,電子文件處于嚴重的流失狀態(tài)。電子文件的長期存儲必然依賴良好的電子文件管理系統(tǒng),國內(nèi)外電子文件管理系統(tǒng)建設狀況很不理想,基于元數(shù)據(jù)生成可信電子文件的系統(tǒng),可謂鳳毛麟角,調查發(fā)現(xiàn)只有2%的機構的電子文件管理系統(tǒng)(或模塊)具有元數(shù)據(jù)捕獲和對電子文件真實性的認證功能。各部門現(xiàn)階段的任務應該是建立可信的電子文件管理系統(tǒng),為電子文件的長期存儲做基礎,從源頭上規(guī)范電子文件的生成、流轉和存儲。做好頂層設計工作,合理規(guī)劃電子文件長期保存工作,處理好已有館藏電子文件管理與正在生成的館藏電子文件管理之間的關系。做好基礎性工作,借鑒行業(yè)領先單位的經(jīng)驗,盡快制定本單位的電子文件長期保存制度,樹立風險意識,確保館藏電子文件的長期可讀取。
2.充分利用現(xiàn)有的研究成果
電子文件的長期存儲研究雖然只有短短的十幾年時間,但是還是取得了一系列的成果,這些成果是不分國界的,我國完全可以“拿來主義”,根據(jù)實際情況加以改造。如安徽省電子文件中心的建立,它基于對VERS的研究,發(fā)布了三個標準:《文書電子文件元數(shù)據(jù)方案》(DA/T46-2009)、《版式電子文件長期保存格式需求》(DA/T47-2009)和《基于XML的電子文件封裝規(guī)范》(DA/T48-2009),很好的利用了國外的研究成果,節(jié)約了時間和成本,取得不錯的效果。然而,令人感到震驚的是2014年11月29-30日在中國人民大學召開的第五屆中國電子文件管理管理論壇上,很多檔案部門基層工作者竟然對“封裝”、“元數(shù)據(jù)”等術語一無所知。檔案部門一定要加強自身建設,關注國際前沿的同時,一定打好自己的基本功。同時,加強相關標準、規(guī)范的細化研究,以《電子文件管理系統(tǒng)通用功能要求》(GB/T29194-2012)為例,它不包括系統(tǒng)設計和實施的具體要求,不規(guī)定實現(xiàn)系統(tǒng)功能的平臺和具體技術,不規(guī)定詳細的實施細則,因此,雖然有了標準,但用其指導具體實踐工作,才剛剛開始,對國內(nèi)外標準規(guī)范的細化研究亟需改善。
3.制定電子文件長期保存政策
聯(lián)合國教育、科學及文化組織頒布的《數(shù)字遺產(chǎn)保護憲章》指出:“如果不著手解決目前所面臨的有關威脅,數(shù)字遺產(chǎn)將會迅速丟失,而且不可避免”。電子文件的長期保存問題關乎民族的記憶,國家的未來。隨著技術的發(fā)展,人類記錄信息形式逐步轉向數(shù)字文件,解決不掉數(shù)字資源的長期存儲問題,人類將面臨“失憶”的可能。電子文件的長期保存政策至少體現(xiàn)在兩個方面,一是電子文件國家戰(zhàn)略,另一個是電子文件長期保存合作機制建設。馮慧玲所著的《電子文件管理國家戰(zhàn)略》和《中國電子文件管理:問題與對策》從國家層面上較全面的構建了電子文件管理的機制、整體設計等基本思想??v觀電子文件長期保存項目,無一例外是多機構合作的產(chǎn)物。數(shù)字資源的長期保存研究主體包括圖書館、檔案館、政府機構等,我們要整合多方資源,通過合作攻克電子文件長期保存的瓶頸問題。不能局限在自己的狹小圈子里,要走出去,要跳出系統(tǒng)看系統(tǒng),借鑒其他領域的研究成果為電子文件長期保存所用。
4.通過遷移等技術策略做好現(xiàn)存電子文件的長期保存工作
我國有多少電子文件處于瀕危狀態(tài),我們不得而知。這就需要檔案工作者做好自己的本職工作,了解自己所管理的數(shù)字資源的生存狀況。按照相關要求對館藏資源進行抽檢,對“不良”電子文件進行及時的遷移,確保館藏資源的安全與長期可讀取。正是由于電子文件的易逝性,我國檔案部門一直保留著比較獨特的“雙套制”制度。殊不知澳大利亞和美國等國家已經(jīng)把無紙化辦公提升到國家戰(zhàn)略高度,并向世界宣稱其具體的實現(xiàn)時間。為此配套的電子文件長期保存項目如美國電子文件檔案館項目(ERA)等加快科研,為實現(xiàn)無紙化辦公、解決電子文件的長期保存難題做準備。這是一種積極的面對挑戰(zhàn)的方式,很值得我們學習。
(作者單位:中國華能集團有限公司)