劉宛珍
(周口師范學(xué)院圖書館,河南周口466000)
作為數(shù)字保存項目的核心,數(shù)字保存系統(tǒng)無疑應(yīng)當是數(shù)字保存項目的研究重點。然而國內(nèi)外的研究現(xiàn)狀表明,目前僅有幾個項目提出了“數(shù)字保存系統(tǒng)”概念并進行初步的系統(tǒng)實現(xiàn),對數(shù)字保存系統(tǒng)可能遇到的障礙及應(yīng)對策略進行研究的項目屈指可數(shù)[1]。數(shù)字保存系統(tǒng)實現(xiàn)數(shù)字資源長期保存的具體時間尚不明確,一般的理解是依據(jù)現(xiàn)有的技術(shù)和條件,能夠?qū)崿F(xiàn)的最長的時間。它要比單個存儲介質(zhì)或單個軟硬件或信息的存儲格式的壽命都要長[2]。因此,為了實現(xiàn)數(shù)字保存系統(tǒng)“長期保存”的目標,筆者總結(jié)出了數(shù)字保存系統(tǒng)的常見威脅因素,并提出應(yīng)對策略。
數(shù)字信息保存系統(tǒng)在技術(shù)上面臨三大威脅因素:一是存儲載體不耐久;二是讀寫信息的計算機軟硬件技術(shù)過時;三是數(shù)字信息的真實性[3]。
(1)存儲介質(zhì)易脆性。數(shù)字信息是存儲在各種類型的物理媒體上的。它既可以承載于磁盤和光盤,又可以存儲于網(wǎng)絡(luò)服務(wù)器。由于數(shù)字存儲介質(zhì)的物理特性天生不穩(wěn)定,如果沒有相適應(yīng)的存儲環(huán)境和正確的管理方法,會引起諸如磁盤損壞、脫機媒體損壞等暫時性的或永久性的故障。
(2)技術(shù)老化。數(shù)字信息的長期可用依賴相應(yīng)軟件,而這些軟件又依賴專門的操作系統(tǒng)甚至硬件系統(tǒng),一旦離開了軟硬件系統(tǒng),數(shù)字信息的使用價值也就結(jié)束了。然而近二十年來經(jīng)常性的技術(shù)變化引起了重大的技術(shù)變革,因此技術(shù)老化被大部分館藏管理者看作是對數(shù)字存儲的最大威脅[4]。
(3)內(nèi)容真實性。與紙質(zhì)環(huán)境相比,在數(shù)字環(huán)境中對存儲內(nèi)容進行改動顯得更加容易。不論是故意還是無意所致,辨別數(shù)字信息的真?zhèn)我殉蔀槟壳耙粋€比較棘手的問題。
環(huán)境威脅因素主要包括網(wǎng)絡(luò)環(huán)境、組織環(huán)境及自然環(huán)境[2]。
(1)網(wǎng)絡(luò)環(huán)境。主要指數(shù)字保存系統(tǒng)的外部網(wǎng)絡(luò)服務(wù)(包括域名及URL s)可能會遇到暫時性的或永久性的故障;在某特定時間段內(nèi),網(wǎng)絡(luò)可能會出現(xiàn)傳輸錯誤(傳輸失敗或部分傳輸);數(shù)字保存系統(tǒng)易遭受公網(wǎng)上的病毒攻擊。
(2)組織(機構(gòu))因素。組織機構(gòu)的解體、破產(chǎn)或使命改變可能導(dǎo)致數(shù)字保存系統(tǒng)的技術(shù)喪失。遇到此種威脅,要么有后繼組織接管,要么進行其他的合理處置。
(3)自然災(zāi)害。如洪水、火災(zāi)及地震等各種自然災(zāi)害都可能給數(shù)字保存系統(tǒng)帶來意外威脅。
其他威脅因素包括人為因素[2]、成本因素[2]及知識產(chǎn)權(quán)因素。
(1)人為因素。主要指計算機專家和操作人員兩方面。由于計算機專家經(jīng)常被授權(quán)訪問數(shù)字保存系統(tǒng),就算將系統(tǒng)與外部網(wǎng)絡(luò)隔離能夠防止外部病毒的襲擊,卻難抵御個別另有圖謀的計算機專家的內(nèi)部攻擊。操作人員的不良行為也可能造成暫時性的或永久性的系統(tǒng)故障。這種故障不僅可能發(fā)生在數(shù)字保存系統(tǒng)本身,而且也可能發(fā)生在操作系統(tǒng)、應(yīng)用程序、硬件設(shè)施及計算機網(wǎng)絡(luò)身上。
(2)成本因素。首先將數(shù)字保存成本與文獻數(shù)字化的成本區(qū)分開來,后者只是前者的一部分[5]。數(shù)字保存成本不僅大于文獻數(shù)字化成本,而且與保存紙質(zhì)文獻相比,更易受到經(jīng)費的影響;因為如耗電、帶寬、系統(tǒng)管理、域名注冊等一系列數(shù)字保存活動,都需要經(jīng)費作保障。
(3)知識產(chǎn)權(quán)。知識產(chǎn)權(quán)問題是數(shù)字保存面臨的重要挑戰(zhàn),從數(shù)字信息的收集開始,知識產(chǎn)權(quán)問題就出現(xiàn)了,而數(shù)字保存進程的每一個階段又都與此息息相關(guān),不可分割[6]28。但到目前為止,各個國家和地區(qū)都沒有完整的數(shù)字保存知識產(chǎn)權(quán)法律,這不能不說是影響數(shù)字保存的重要因素。
針對上述威脅,筆者提出了以下幾種可行的應(yīng)對策略。
復(fù)制/拷貝又稱數(shù)據(jù)更新,它是在原來的技術(shù)環(huán)境下實施重寫信息數(shù)據(jù),將數(shù)據(jù)流從舊存儲介質(zhì)轉(zhuǎn)移到新存儲介質(zhì)上,防止由于存儲介質(zhì)理化性能變化而引起的信息丟失[6]38。這種方法早就大量應(yīng)用于磁帶、磁盤、光盤的保存上。但這只是一項常規(guī)的管理工作,并不能真正解決由于計算機軟硬件過時引起的長期保存問題。再生性保護技術(shù)指將技術(shù)過時的數(shù)字信息實時轉(zhuǎn)移到縮微品或紙上。由于縮微膠片存儲量大、壽命長(其保存壽命理論值是500年,國際上已有100多年的實踐經(jīng)驗,國內(nèi)也有幾十年的實踐經(jīng)驗)、便于保管、不再使用計算機軟硬件技術(shù)讀取,因此,它為長期保存數(shù)字信息提供方便,并且可避免計算機軟硬件技術(shù)過時所帶來的任何麻煩。于是,筆者認為數(shù)字拷貝和保存縮微膠片的“雙套制”方案[7]為保存使用頻率較低的純文本信息(而不是聲音、超文本、多媒體信息),提供了一種最佳方案。隨著攝影技術(shù)和設(shè)備的發(fā)展,縮微膠片記錄的模擬信息將能進入計算機網(wǎng)絡(luò)系統(tǒng),不用擔(dān)心數(shù)字信息會失去它原有的數(shù)字風(fēng)格。
技術(shù)仿真策略是在實施拷貝保存數(shù)字信息內(nèi)容的同時,制造一種能運行過時軟硬件的軟件,在這種軟件中對某一過時的軟硬件進行模仿,使得保存的數(shù)字信息能在模擬的軟件上運行,這是一種延遲技術(shù)淘汰的方法[6]39。實際上這與“計算機技術(shù)檔案館”方法有關(guān),由于保存有關(guān)軟件版本和硬件設(shè)備的物理實體建立“計算機技術(shù)檔案館”對大多數(shù)保存機構(gòu)來說都不現(xiàn)實,因此人們更多的是詳細描述數(shù)字信息利用、各種技術(shù)參數(shù)和環(huán)境條件,以便未來計算機系統(tǒng)可以模仿原始系統(tǒng)環(huán)境來讀取和使用數(shù)字信息內(nèi)容。技術(shù)方針策略使我們可通過新的仿真器來仿真上一代仿真虛擬機,因此不必持續(xù)更新針對特定數(shù)字信息的定義語言、仿真說明、解釋器等。這從技術(shù)的角度來看是可行的,但在實踐中它的兼容性并不可靠,仿真器自身的耐用性不穩(wěn)定;所以筆者認為這不太可能是一直有效的方法,軟件制造商也可能會因為其兼容性差,而最終放棄某些軟件。
遷移是持續(xù)將數(shù)字信息從一種技術(shù)環(huán)境轉(zhuǎn)換到另一種技術(shù)環(huán)境,意味著基于字符的數(shù)據(jù)可以從一個存儲介質(zhì)轉(zhuǎn)移到另一個存儲介質(zhì)上,以便進行數(shù)字信息的長期保存;同時,也可以將原始數(shù)據(jù)格式轉(zhuǎn)換為獨立于具體原始軟硬件平臺的標準數(shù)據(jù)格式,由于這些原始數(shù)據(jù)格式的開放性和標準性,可以保證總有相應(yīng)軟硬件系統(tǒng)來處理這些數(shù)據(jù)[6]39。這種方法維護了數(shù)字對象的物理形體,也保護了其內(nèi)容存在,但其缺點是無法保證其外觀、功能和背景信息的完整等;因此限制遷移過程中的各種損失是采用這種方案的關(guān)鍵,它至少對于結(jié)構(gòu)簡單的單一文件是比較適用的。雖然很多機構(gòu)都采用數(shù)字遷移策略,但具體實施辦法又有所不同,有的是改變存儲媒體(如再生性保護技術(shù),筆者認為它是遷移策略的一種方法),主要用于保存使用頻率較低的數(shù)字信息;有的是格式遷移(也是狹義的遷移策略),適于保存使用頻率較高的數(shù)字信息。為了建立有效的數(shù)據(jù)格式遷移策略,需要對數(shù)字文獻格式進行標準化處理,如澳大利亞國家檔案館采用了規(guī)范化方法,就是將各種數(shù)字信息存檔為通用的XML格式,荷蘭國家圖書館(KB)僅接受PDF格式的數(shù)字信息[2]。
采用評估策略的原因有二:一是在獲取數(shù)字信息階段對獲取的數(shù)字信息進行評估以檢驗其真實性;二是對保存特色文獻的系統(tǒng)進行評估可以及時發(fā)現(xiàn)潛在故障,從而降低維修成本。評估方法主要有第三方評估和互評估。前者是一種常用的評估方法,是將被檢索系統(tǒng)里的內(nèi)容和摘要與保存在其他系統(tǒng)內(nèi)的內(nèi)容和摘要進行比較,它可以檢測系統(tǒng)是否具備端到端的檢測性能,不足之處是檢測內(nèi)容都以比特流的形式存在,可能會導(dǎo)致二者錯誤匹配?;ピu估方法的優(yōu)點是對原有信息不會產(chǎn)生風(fēng)險,并且不必向評估人員泄露信息內(nèi)容,不足之處是不能進行端到端的評估[2]。筆者認為,兩種方法各有千秋,如果二者能夠恰當結(jié)合,將會相得益彰,更有利于數(shù)字信息的長期保存。
保存數(shù)字信息要比保存紙質(zhì)文獻的成本高。數(shù)字保存系統(tǒng)的運作過程可分為獲取數(shù)字信息及其元數(shù)據(jù)、保存數(shù)字信息和發(fā)布數(shù)字信息三個階段,每個階段都有其成本構(gòu)成[2]。首先,獲取階段的成本由獲取數(shù)字信息的產(chǎn)權(quán)許可費用和獲取數(shù)字信息及其元數(shù)據(jù)的費用構(gòu)成;其次,保存階段的成本包括購買并持續(xù)更新軟硬件的費用、格式遷移成本及業(yè)務(wù)成本(如電力、帶寬、員工的時間及評估成本);最后,發(fā)布階段的成本由保存數(shù)字信息協(xié)議條款中規(guī)定的費用以及向授權(quán)用戶發(fā)布數(shù)字信息的費用兩部分構(gòu)成,前者主要指認證系統(tǒng)的管理成本,如引導(dǎo)用戶進入和退出系統(tǒng)及監(jiān)督有關(guān)出版機構(gòu)的管理費用,后者主要指操作w eb服務(wù)器和帶寬的花費,這筆費用一般不高。
根據(jù)以最小的投入獲得最大的收益這一經(jīng)濟學(xué)原理,數(shù)字保存系統(tǒng)的主辦機構(gòu)在經(jīng)費有限的情況下,就必須考慮以最小的成本投入保存更多的信息資源,并降低保存風(fēng)險。筆者所說的經(jīng)濟策略主要指降低獲取和保存階段的成本。主要措施有:保存本單位擁有版權(quán)的資源,健全版權(quán)許可法律體系等以降低產(chǎn)權(quán)許可費;通過對獲取過程及評估系統(tǒng)實施自動化管理來降低獲取數(shù)字信息的成本;通過采用機器自動生成元數(shù)據(jù),或在從數(shù)字信息創(chuàng)建者那里獲取數(shù)字信息時一起獲取元數(shù)據(jù)來降低獲取元數(shù)據(jù)的成本;由于對數(shù)字信息實施單獨管理或?qū)?shù)字保存系統(tǒng)與其他基礎(chǔ)設(shè)施集成管理降低業(yè)務(wù)成本的方案風(fēng)險性高,因此盡量讓操作人員參與系統(tǒng)操作;采用適當?shù)霓D(zhuǎn)移方法來降低格式遷移成本。
目前,一些傳統(tǒng)的圖書館、檔案館與其他文獻收藏部門都開始收藏數(shù)字文獻,并提供網(wǎng)上瀏覽與借閱,但這些傳統(tǒng)圖書館包括發(fā)達國家的數(shù)字圖書館,都沒有把數(shù)字信息長期保存納入其職能范圍之內(nèi)[8]。這樣,就使得一些在網(wǎng)上流動的、未被收容的、有價值的信息,在當前技術(shù)情況下無法長期保存。因此,有必要建立一個全國數(shù)字信息歸檔系統(tǒng),使之對全國文化、經(jīng)濟、科技、社會等領(lǐng)域數(shù)字信息的存貯和存取承擔(dān)管理責(zé)任,使之成為我國數(shù)字信息的資源基地。
法定保存是解決數(shù)字保存面臨的知識產(chǎn)權(quán)問題的首選方法,而且它為數(shù)字信息歸檔系統(tǒng)提供了強有力的資源保障。國外已有對數(shù)字信息采用多種方案進行法定保存的先例,如英國采用法律條文規(guī)定,澳大利亞采用法律覆蓋和自愿收集的混合法。筆者認為在我國建立數(shù)字信息呈繳本制度具有可行性,因為印刷文獻的呈繳本制度在各國已廣泛實施并成功地解決了印刷文獻長期保存的知識產(chǎn)權(quán)問題,對于人類文化遺產(chǎn)的長久傳承發(fā)揮了關(guān)鍵作用。雖然數(shù)字信息的真?zhèn)坞y辨會給其呈繳本制度的實施造成一定的難度,但在丹麥、芬蘭和挪威等少數(shù)國家已有先例,也就是說,我國不妨借鑒其成功經(jīng)驗進行嘗試。
每種新技術(shù)都是一把雙刃劍,所有的技術(shù)方案都不是盡善盡美的,只是解決了部分問題,因此,筆者建議選擇數(shù)字保存系統(tǒng)的風(fēng)險防范策略時,要根據(jù)選擇技術(shù)方案的要求和標準(保存什么、為誰保存及怎樣保存)[7]來選擇最理想的技術(shù)解決方案。
[1]張智雄,郭家義,吳振新,林穎.基于OA IS的主要數(shù)字保存系統(tǒng)研究[J].現(xiàn)代圖書情報技術(shù),2005(11):1-9.
[2]David S H,Rosenthal,Thomas Robertson,Tom Lipkis, Vicky Reich,Seth Morabito.Requirements for digital p reservation system s:a bottom-p app roach[J/OL].D-lib Magazine,2005(11)[2008-01-12].http://www.dlib.o rg/dlib/november05/rosenthal/11rosenthal.htm l.
[3]郭瑞華.數(shù)字信息長期存取策略研究[J].情報理論與實踐,2002(2):133-135.
[4]Hedstrom M,Montgomery S.Digital p reservation needs and requirements in RLG member institutions:a study commissioned by the research libraries group[M/OL].[2008-06-20].http://www.Rlg.org/p reserv/digp res.htm l.
[5]朱燁.數(shù)字保存中的技術(shù)、組織及法律因素分析[J].圖書館學(xué)研究,2005(4):36-38.
[6]宋顯彪.數(shù)字信息的長期保存[D].成都:四川大學(xué), 2005.
[7]顏曉棟.保存數(shù)字信息技術(shù)方案選擇與評價[J].檔案管理,2003(1):23-24.
[8]張紹武.數(shù)字信息長期保存的策略[J].現(xiàn)代情報,2002 (4):152-153.