摘要:分析網(wǎng)絡信息資源長期保存的難點,對網(wǎng)絡信息資源的采集策略進行了探討和比較,闡述了網(wǎng)絡信息資源長期保存的責任主體。
關鍵詞:網(wǎng)絡信息 長期保存 收集策略 責任主體
中圖分類號:F260文獻標志碼:A文章編號:1673-291X(2011)27-0191-02
相對于以紙張等載體存在的傳統(tǒng)信息資源,以數(shù)字介質為載體的網(wǎng)絡信息資源具有數(shù)量規(guī)模更加龐大、產(chǎn)生速度更快、獲取更加充分快捷等特色,從而為人們使用信息提供了極大的便利性。但是,網(wǎng)絡信息更新頻繁、生命周期短、不易永久保存的特點,使其在不知不覺中大量地流失。2001年和2002年,聯(lián)合國教科文組織(UNESCO)相繼發(fā)布《數(shù)字文化遺產(chǎn)保護綱領(草案)》、《數(shù)字文化遺產(chǎn)保護指導方針》兩份文件,旨在提供與數(shù)字文化遺產(chǎn)保護有關的重要步驟的參考,并指出網(wǎng)絡信息資源作為人類的重要文化遺產(chǎn)應當?shù)玫酵咨票4?。本文僅就網(wǎng)絡信息資源長期保存涉及的幾個問題作初步探討。
一、網(wǎng)絡信息資源長期保存的難點
1.對載體的壽命的依賴性。網(wǎng)絡信息長期存取是以磁介質為載體的軟盤、光盤、硬盤等,載體的壽命的長短決定著信息的可利用性。一方面,軟盤、光盤、硬盤等載體的壽命明顯短于紙質載體。據(jù)研究報道,9mm磁道磁帶使用壽命為一至二年,8mm磁道磁帶使用壽命為五至十年,4mm磁帶為十年,WORM光盤為一百年。另一方面,軟盤、光盤、硬盤等載體對保存環(huán)境條件要求較高,包括恒溫、無磁場、濕度合適、無灰塵、無強光照射等,載體容易受到物理因素的干擾而損壞、變質與滅失。
2.保存技術的過時換代性。用來保存網(wǎng)絡信息資源的技術不僅復雜,而且更新較快,這可能導致以舊的格式存儲的信息不再可用。美國數(shù)字信息歸檔特別工作組曾在有關報告中指出:盡管數(shù)據(jù)的丟失與存儲載體的變質有很大的關系,但主要問題是因軟件與硬件技術的迅速更新,當設再配套。有資料報道,在技術與市場的推動下,記錄與儲存數(shù)字資源的設備與軟件大約每二三年就完成一個更新周期。所以,相對于載體壽命,技術過時對于網(wǎng)絡信息資源長期保存是個更具有挑戰(zhàn)性的問題。
3.信息存儲格式的多樣性。網(wǎng)絡信息資源以多種格式存在,對其長期保存的不利影響主要體現(xiàn)在兩個方面。其一,信息存儲格式如果同保存單位的軟硬件條件不配套或不兼容,那么這些信息就無法得到長期保存。其二,保存網(wǎng)絡信息資源的格式極不統(tǒng)一,包括PDF格式、SGML格式、XML格式、WDL格式、REF格式、WORD格式、MPEG格式、HTML格式等,僅Raster影像掃描格式就達數(shù)十種之多。網(wǎng)絡信息資源的存儲格式越多,對保存設備和技術的要求就越高,保存的難度就會越大。
4.網(wǎng)絡信息的動態(tài)變化性。當信息以紙質載體得到固定后,就會固定不變,而網(wǎng)絡信息資源則不同,時刻處于動態(tài)的變化之中,這給捕捉和保存帶來了困難。比如,有學者運用“著錄中析出部分+出處部分”和“著錄析出部分+出處部分+引用日期”兩種形式隨機抽查了《中國圖書館學報》、《情報學報》、《The Library Quarterly》等十種中外圖書館學情報學期刊2002年第一期中的10條網(wǎng)絡引文,結果僅有4條能夠重現(xiàn)原文。在這之中,未能重現(xiàn)原文的情況也不盡相同,有連網(wǎng)頁都無法鏈接者;有所引文獻蕩然無存者。就是能查到所引文獻,也頗費周折。況且這些文獻的壽命如何是難以預料的。
5.信息保存的著作權問題。保存以紙質載體存在的文獻信息通常不受著作權的限制。因為,這種行為在各國著作權法中屬于合理使用。盡管出于保存目的而復制以數(shù)字載體存在的信息資源亦往往被法律認可,但是適用條件卻是不同的。其一,將網(wǎng)絡信息資源從舊的格式轉移到新的軟硬件環(huán)境之中時,可能會出現(xiàn)代碼、格式、結構、標記等的轉換和新的元數(shù)據(jù)的析取,出現(xiàn)外觀、感覺、功能、超文本甚至內容的缺失,從而涉及保護作品完整權、修改權、信息管理權等著作權問題。其二,對網(wǎng)絡信息資源保存的合理使用規(guī)則復雜而不確定,法律風險相對較大。
二、網(wǎng)絡信息資源長期保存的策略
1.完全性收集策略。完全性收集策略,又稱總括性收集策略,是對所有類型的網(wǎng)絡信息資源的全部收集,有人形象地比喻成“一網(wǎng)打盡”。由于通過人工對網(wǎng)絡信息資源進行全部收集是無法做到的,因此通??肯嚓P計算機軟件來自動完成。比如,爬蟲程序能把“爬”過的網(wǎng)絡文獻的每一頁都抓到服務器中,并且自動管理。采用完全性收集策略的網(wǎng)絡信息資源保存項目有瑞典的Kulturarw項目、奧地利的聯(lián)機歸檔系統(tǒng)(The Austrian Online,AOLA)以及美國國會的Internet檔案館協(xié)議項目等。完全性收集的特點是節(jié)省人力、效率高,收集到的信息的系統(tǒng)性、全面性較強。但是,完全性收集策略在很大程度上是迫于無法準確判斷信息價值大小的無奈選擇,所以可能收集到很多無用信息或者垃圾信息,并占用大量的存儲空間。同時,由于無法在收集信息前向每一位權利人取得授權,因此著作權限制問題會比較明顯。完全性收集策略對深層次的網(wǎng)頁信息、不可見網(wǎng)頁信息、動態(tài)信息的收集也具有局限性。
2.部分性收集策略。部分性收集策略,又稱選擇性收集策略。這種收集模式只收集某個學科、專業(yè),或者特定專題的網(wǎng)絡信息資源,針對性、實用性較強。采用部分性收集策略的代表項目如美國著名的NDIIPP項目、澳大利亞的PANDORA項目、英國的Britain on the web項目等。部分性收集策略建立在對網(wǎng)絡信息資源價值的判斷之上,因此“收集標準”的制定就成為影響這種策略實施效果最主要的問題。美國著名的NDIIPP項目對數(shù)字資源的選擇標準是:現(xiàn)在或將來,能夠滿足國會和研究者需求的信息;內容獨特的信息;具有學術內容的信息;處于喪失風險中的信息;流通的信息。在此標準下的數(shù)字資源的特性可以歸納為:有用性、唯一性/獨特性、學術性、風險性和流通性。部分性收集策略的不足是無法對網(wǎng)絡信息資源的未來價值作出準確預判,而且對特定網(wǎng)絡信息資源的發(fā)現(xiàn)、跟蹤、定位、調整也非易事,被收集到的信息的覆蓋率也往往不高。
3.兼顧性收集策略。兼顧性收集策略,又稱混合性收集策略。這種收集策略把完全性收集策略、部分性收集策略結合起來運用,做到優(yōu)勢互補、相得益彰。采用兼顧性收集策略的典型項目是丹麥的Web Archive計劃、捷克的Web Archive等。比如,丹麥的Web Archive計劃從2005年7月起,每年對丹麥的所有網(wǎng)站進行四次采集,同時還選擇80個左右的重點網(wǎng)站進行頻繁采集,每年還針對兩三個重要事件進行主題采集。屬于兼顧性收集策略的模式還有“優(yōu)先爬行”與“集中爬行”相結合、推送模型和拉取模型相結合等。
三、網(wǎng)絡信息資源長期保存的責任主體
1.圖書館。聯(lián)合國教科文組織的《數(shù)字文化遺產(chǎn)保護指導方針》指出:盡管數(shù)字保存必須在合作的基礎上進行,但是要有相應的機構承擔領導職責。還有的國際組織在文件中指出:國家圖書館是獲取和保存網(wǎng)絡信息資源的最佳場所。圖書館在各國網(wǎng)絡信息資源長期保存中的確發(fā)揮了主力和主導作用。比如,英國的CEDARS項目由JISC資助,牛津大學圖書館、劍橋大學圖書館、里茲大學圖書館參加,目的是研究數(shù)字信息長期存取的戰(zhàn)略框架與具體方法,建立分布式長期存儲系統(tǒng)。又比如,2004年6月啟動的英國網(wǎng)絡信息長期保存聯(lián)盟計劃(UKWAC)的合作單位由大英圖書館、威爾士圖書館、韋爾科姆圖書館等六個機構組成,旨在對英國網(wǎng)站信息進行選擇性地保存。還比如,美國數(shù)字圖書館聯(lián)合會(DLF)的組成單位包括大學圖書館、國會圖書館、加利福尼亞數(shù)字圖書館和洛杉磯國家試驗研究圖書館,目的是通過多種方式支持其他責任主體保存網(wǎng)絡信息資源的活動。
2.檔案館。相對于圖書館等文獻機構,檔案館的收藏更能反映歷史的完整性、原貌與發(fā)展軌跡。因此,檔案館在網(wǎng)絡信息資源長期保存中擔負著重要的職責。比如,1991年5月,瑞士、挪威、芬蘭、冰島等北歐國家檔案館就通過合作調研出版了《電子文件存取與保護》一書。有學者認為,這是對網(wǎng)絡信息資源合作保存的開端。又比如,1992年3月,澳大利亞舉辦了“澳大利亞已記錄的文化遺產(chǎn)的存取”的全國會議,組建了由澳大利亞國家檔案館、澳大利亞國家音像檔案館等組成的專題調查組(TF2001調研組),研究重點是數(shù)字信息的長期存取與保護。還比如,1996年,美國建立了Internet檔案館,收集和保存Web信息,容量每月增加10TB。2001年1月,美國國家檔案文件署(NARA)要求所有的聯(lián)邦機構對他們的公共站點進行快照。PRESTO項目由英國、意大利、法國的三家最大的廣播資料檔案館發(fā)起,目的是探討降低保存音視頻資料成本的方法。而在英國,95%的政府記錄以電子形式提供,這些原生記錄存儲和保存在國家檔案館。
3.其他主體。在實踐中,從事網(wǎng)絡信息資源長期保存的主體非常廣泛。其一,出版商。比如,牛津大學出版社、美國地球物理協(xié)會和美國物理協(xié)會出版社等都對自己出版的重要數(shù)字信息產(chǎn)品進行保存。其二,信息中心。比如,德國的Probado項目由幾所大學的信息中心聯(lián)合開發(fā),項目關注的領域是除文本文檔以外的復雜文檔,成果主要應用于音樂、3D圖形、多媒體學習等方向。其三,科研機構。比如,啟動于2001年11月的ERPANET項目,由來自英國、荷蘭、意大利與瑞士的科研機構合作,目的是建立一個可擴展并能自我持續(xù)發(fā)展的歐洲啟動項目,成為保存文化遺產(chǎn)和科學數(shù)字對象領域的虛擬數(shù)據(jù)交換中心與知識存儲庫。其四,高等學校。比如,CAMiLEON是英國利茲大學和美國密西根大學的合作項目,主要是對遷移技術和仿真技術進行比較研究。其五,學術團體。比如,美國網(wǎng)絡大學政治和社會研究協(xié)會(TCPSR)正在從事收集和保存經(jīng)濟調查的數(shù)據(jù)研究,美國天體物理研究中心開發(fā)了保存天體物理學數(shù)據(jù)的系統(tǒng)。此外,參與網(wǎng)絡信息資源長期保存的主體還有國家的商務部門、政策制定部門、企業(yè)、私人組織、數(shù)字產(chǎn)品經(jīng)銷商、基金會等等。
參考文獻:
[1]陳清文.網(wǎng)絡信息資源長期保存的采集策略與方法[J].情報探索,2006,(12):47-48.
[2]趙俊玲,盧振波.網(wǎng)絡信息保存的責任體系分析[J].大學圖書館學報,2006,(2):88-97.
[3]于映紅,張建華.數(shù)字資源長期保存的研究現(xiàn)狀及發(fā)展對策[J].蘭臺世界,2008,(2):66-67.
[4]周林興.Web Archive保存研究:現(xiàn)狀、意義與發(fā)展戰(zhàn)略[J].檔案管理,2009,(5):26-28.
[5]胡燕菘.國外數(shù)字資源保存政策對中國的啟示[J].圖書館雜志,2005,(6):26-38.
[責任編輯 吳迪]