董曉莉
〔摘 要〕數(shù)字資源長(zhǎng)期保存的可信性是一個(gè)圖書館開展數(shù)字資源長(zhǎng)期保存實(shí)踐的核心和基礎(chǔ)保障,目前的研究主要是基于數(shù)字倉(cāng)儲(chǔ)系統(tǒng)的可信性研究,尚未建立一套基于長(zhǎng)期保存體系的可信保障機(jī)制,仍屬于探索階段。本文在介紹數(shù)字資源長(zhǎng)期保存可信性基本概念的基礎(chǔ)上, 從技術(shù)角度著重分析了數(shù)字資源長(zhǎng)期保存可信性的流程和模型,并根據(jù)流程推出具體的實(shí)施方法。最后,對(duì)國(guó)內(nèi)外研究現(xiàn)狀和下一步需要做的工作進(jìn)行了分析。相信,對(duì)于“數(shù)字資源長(zhǎng)期保存可信性“的研究,將對(duì)數(shù)字圖書館長(zhǎng)期保存工作的開展起到拋磚引玉的作用。
〔關(guān)鍵詞〕長(zhǎng)期保存;數(shù)字圖書館;數(shù)字信息資源;可信性
1 概 述
數(shù)字資源長(zhǎng)期保存是指對(duì)數(shù)字資源長(zhǎng)期保存期間的保存管理,管理期間需要保持?jǐn)?shù)據(jù)的真實(shí)性、可獲取性和可理解性[1]。在數(shù)字信息無處不在的今天,20年前的數(shù)據(jù)我們?nèi)阅苡行ёx取嗎?即使能夠讀取,我們是否可以判斷該資源是否完整?是否被修改過?是否是贗品?毫無疑問,只有解決這些問題,才能在相當(dāng)長(zhǎng)的一段時(shí)間內(nèi),保證保存數(shù)字資源是安全、可信的,這也是數(shù)字資源長(zhǎng)期保存的意義所在。長(zhǎng)期保存的數(shù)字資源,在其保存生命周期內(nèi),必然會(huì)由于外部環(huán)境、用戶需求等方面的變化導(dǎo)致數(shù)字信息的不可靠。特別是隨著信息技術(shù)的不斷變革,我們不可避免地會(huì)采用相應(yīng)的長(zhǎng)期保存策略,如遷移、封裝等技術(shù)手段。因此,如何保證不穩(wěn)定的數(shù)字資源的可靠性、可用性以及數(shù)字資源的完整性,確保各種數(shù)字資源能隨時(shí)提取利用,以便為今后的數(shù)字信息提供保障,是國(guó)家數(shù)字圖書館當(dāng)前亟待解決的問題。
2 數(shù)字資源長(zhǎng)期保存可信性分析
數(shù)字資源長(zhǎng)期的可信性,涉及保證數(shù)字資源的生存能力、可呈現(xiàn)能力和可理解能力。數(shù)字資源的生存能力是指保持完整的數(shù)字位流文件;可呈現(xiàn)能力是指具有將數(shù)字位流文件轉(zhuǎn)換成人或機(jī)器可讀取的記錄資源;可理解能力是指保存的資源可以被用戶群體所理解。
2.1 數(shù)字資源長(zhǎng)期保存可信性研究中概念的界定
2.1.1 數(shù)字對(duì)象與表征信息
當(dāng)數(shù)字信息作為一個(gè)整體時(shí),它不可避免地需要采用不同的方法在不同的介質(zhì)上進(jìn)行呈現(xiàn),也就是說,它總是以某種形式的數(shù)字對(duì)象來表現(xiàn)。比如,數(shù)字信息可以存儲(chǔ)在光盤、磁盤等介質(zhì)上,但是,顯示這些信息會(huì)使用CRT或LCD等設(shè)備進(jìn)行呈現(xiàn);此外,數(shù)字信息通常以二進(jìn)制的形式被計(jì)算機(jī)系統(tǒng)存儲(chǔ)、傳輸和處理,人類通過某種編碼格式將其組合并呈現(xiàn)。因此,在長(zhǎng)期保存數(shù)字資源時(shí),不但需要記錄電子資源原始的基本特征,而且這些特征應(yīng)能充分表征這些記錄與其它記錄的區(qū)別,數(shù)字對(duì)象與表征信息共同構(gòu)成了信息對(duì)象的整體。劃分表征信息與數(shù)字對(duì)象,可以有效地幫助長(zhǎng)期保存工作者劃分保存資源的內(nèi)容和其相關(guān)描述信息,并通過信息封裝等技術(shù)手段完成數(shù)字信息的保存。
2.1.2 歸檔信息的表現(xiàn)信息與利用信息的表現(xiàn)信息
為了達(dá)到長(zhǎng)期保存的目的,需要維護(hù)信息資源的可用性,所以至少一個(gè)信息對(duì)象實(shí)體的特定版本中所涉及的所有文件均被標(biāo)識(shí)、存儲(chǔ)和維護(hù)。只有這樣,該信息對(duì)象才能被聚合并呈現(xiàn)給用戶。比如,一篇期刊文章可以由一個(gè)TIFF文件構(gòu)成;這構(gòu)成了一個(gè)信息對(duì)象的歸檔表現(xiàn)。另一篇文章可以由XML文件和一組圖象構(gòu)成,這3個(gè)文件共同構(gòu)成了一個(gè)信息對(duì)象的利用表現(xiàn)。不同的歸檔表現(xiàn)信息與利用表現(xiàn)信息并非僅存在于不同的數(shù)字記錄與數(shù)字文件中。一條歸檔信息可以通過不同形式,呈現(xiàn)出不同的表現(xiàn)信息加以利用。因此,歸檔信息對(duì)象的表現(xiàn)信息與利用信息的表現(xiàn)信息之間存在著一對(duì)一、一對(duì)多、多對(duì)一、多對(duì)多的情況。通常情況下,信息對(duì)象并非作為獨(dú)立完整單元進(jìn)行存儲(chǔ),它通常存儲(chǔ)在多個(gè)數(shù)字文件中,因此,可以通過數(shù)字對(duì)象和不同表現(xiàn)信息的組合,根據(jù)需求,表現(xiàn)出信息對(duì)象的不同呈現(xiàn)形式。這里區(qū)分歸檔信息的表現(xiàn)信息與利用信息的表現(xiàn)信息,其意義在于對(duì)長(zhǎng)期保存目標(biāo)進(jìn)一步的明確。比如,歸檔表現(xiàn)信息不對(duì)信息對(duì)象的排版、格式等利用表現(xiàn)信息的特征進(jìn)行保存;但對(duì)資源利用而言,其表現(xiàn)形式是非常重要的。長(zhǎng)期保存的任務(wù)是對(duì)知識(shí)內(nèi)容進(jìn)行保存,僅保存必要的表現(xiàn)形式,而并不關(guān)注內(nèi)容的外在形式。
2.1.3 數(shù)字資源長(zhǎng)期保存的可信性控制
數(shù)字信息在保存過程中要求保持信息的一致性和完整性,保證數(shù)字信息在其保存周期中的信息呈現(xiàn)形式不變,內(nèi)部結(jié)構(gòu)信息不變,元數(shù)據(jù)信息不變。也就是說,保存應(yīng)通過一系列的監(jiān)控技術(shù)手段,實(shí)現(xiàn)數(shù)字文獻(xiàn)的內(nèi)容、結(jié)構(gòu)、背景等方面的信息與原始狀況一致并無缺失,同時(shí)應(yīng)保證保存信息資源的可識(shí)別、底層存儲(chǔ)系統(tǒng)的可靠、載體完好并具有良好的兼容性。
當(dāng)數(shù)字信息從一個(gè)應(yīng)用環(huán)境遷移到另一個(gè)新的應(yīng)用環(huán)境,或者從一種遷移到另一種格式時(shí),要保證其內(nèi)容沒有改變,也就是保證數(shù)字信息的完整性和可識(shí)別性。影響長(zhǎng)期保存數(shù)字資源真實(shí)性的技術(shù)因素可分為宏觀層面和微觀層面。宏觀因素主要集中在系統(tǒng)間、子系統(tǒng)間或各應(yīng)用系統(tǒng)間交換數(shù)據(jù);微觀層面主要集中在信息拆分、重新組合等方面。信息遷移將涉及宏觀和微觀兩個(gè)層面。
保存控制是長(zhǎng)期保存資源可信性的關(guān)鍵技術(shù)因素,它應(yīng)貫穿于信息采集、信息存儲(chǔ)、信息利用等多個(gè)環(huán)節(jié),對(duì)保存的條件、相關(guān)約束信息等進(jìn)行控制。長(zhǎng)期保存控制,在信息資源的保存生命周期內(nèi),應(yīng)當(dāng)是有效的。因此,在執(zhí)行保存控制時(shí),不但要在宏觀層面做好數(shù)字信息的認(rèn)證工作,而且要在微觀層面做好數(shù)字信息的審記等方面的工作。
2.2 數(shù)字資源可信性長(zhǎng)期保存流程
2.2.1 數(shù)字資源保存通用模型
數(shù)字資源長(zhǎng)期保存流程已由OAIS(Open Archival Information System)參考模型定義。在OAIS模型中,包含人員、系統(tǒng)等各類因素,其目標(biāo)是保證長(zhǎng)期保存資源在目標(biāo)群體的可用性。
從宏觀層面上,數(shù)字資源的長(zhǎng)期保存涉及數(shù)字資源的生產(chǎn)者或擁有者(包括個(gè)人、機(jī)構(gòu)或系統(tǒng)),同時(shí)也是數(shù)字資源長(zhǎng)期保存提交方;管理者(包括最終保存機(jī)構(gòu)、歸屬系統(tǒng)、法律法規(guī)制定機(jī)構(gòu)等);用戶(包括個(gè)人、機(jī)構(gòu)或系統(tǒng),同時(shí)也是數(shù)字資源的最終使用者),如圖1所示。
從微觀層面上,從微觀技術(shù)層面上,電子出版物長(zhǎng)期保存涉及到電子出版物內(nèi)容存儲(chǔ)和有效使用的數(shù)據(jù)格式,包括相關(guān)的元數(shù)據(jù)、數(shù)字格式與處理方式的信息,關(guān)于編碼、格式、標(biāo)記、結(jié)構(gòu)、壓縮、加密的數(shù)據(jù),內(nèi)容校驗(yàn)、版本演變、知識(shí)產(chǎn)權(quán)管理等數(shù)據(jù)[2]。同時(shí),還涉及到保存的軟件、硬件環(huán)境等諸多方面。
綜上所述,數(shù)字資源的長(zhǎng)期保存既涉及宏觀管理層面,又涉及到具體技術(shù)層面。在數(shù)字環(huán)境下,傳統(tǒng)的以載體保護(hù)或技術(shù)控制為主的技術(shù)手段顯然已經(jīng)過時(shí),必須以貫穿保存系統(tǒng)內(nèi)的系統(tǒng)控制為主。
2.2.2 長(zhǎng)期保存可信性數(shù)字資源流程
(1)長(zhǎng)期保存數(shù)字資源可信性通用模型
數(shù)字資源長(zhǎng)期保存可信性模型主要用于長(zhǎng)期保存系統(tǒng)中對(duì)保存資源的系統(tǒng)控制。該模型是一個(gè)通用概念模型而非功能模型,主要描述長(zhǎng)期保存資源的過程,接收資源所需要的相關(guān)攝入過程、控制過程以及完成長(zhǎng)期保存所必要的機(jī)制和每個(gè)過程的輸出。該模型主要完成相關(guān)過程和實(shí)體的定義和數(shù)字資源長(zhǎng)期保存系統(tǒng)的資源保存過程,如圖2所示。
為保證長(zhǎng)期保存數(shù)字資源的可信性,在總體策略方面,我們需要考慮兩個(gè)方面,一方面我們需要考慮長(zhǎng)期保存的目標(biāo)和需求,這些需求包括長(zhǎng)期保存的原理、相關(guān)標(biāo)準(zhǔn)規(guī)范、以及各機(jī)構(gòu)的保存目標(biāo)和流程等諸多方面。另一方面,由于長(zhǎng)期保存數(shù)字資源需要依賴于外部系統(tǒng)環(huán)境因素,因此,受限于信息技術(shù)發(fā)展?fàn)顟B(tài)和系統(tǒng)的開放程度。在底層保障機(jī)制方面,我們需要考慮3個(gè)方面,一個(gè)是實(shí)際可信賴的信息技術(shù)和通信技術(shù),主要包括數(shù)字資源長(zhǎng)期保存過程中涉及的軟件、硬件、物理介質(zhì)等方面;數(shù)字資源的實(shí)際保存處理流程;以及相關(guān)機(jī)構(gòu)/用戶群體3個(gè)方面。在長(zhǎng)期保存數(shù)字資源記錄的過程中,有兩個(gè)主要的輸入,一個(gè)是對(duì)于長(zhǎng)期保存數(shù)字資源的傳輸,一個(gè)是對(duì)于已保存數(shù)字資源元數(shù)據(jù)或?qū)ο髷?shù)據(jù)的查詢,此外,還需要考慮對(duì)于長(zhǎng)期保存數(shù)字資源的相關(guān)環(huán)境信息的收集和保存,如設(shè)備信息、信息技術(shù)、相關(guān)設(shè)備等[3-4]。
(2)數(shù)字資源可信性管理
長(zhǎng)期保存數(shù)字資源須遵循OAIS參考模型,在統(tǒng)一的概念、屬性和框架下,進(jìn)行規(guī)劃和設(shè)計(jì)。在此基礎(chǔ)上,按照數(shù)字資源長(zhǎng)期保存信息生命周期的過程(即信息攝取、保存管理、信息管理、信息輸出),為長(zhǎng)期保存可信數(shù)字資源設(shè)計(jì)了主要的保存處理流程,如圖3所示。
①信息攝取
信息攝取的主要工作是根據(jù)保存管理設(shè)定的資源保存策略,從信息資源提供者處接收并傳輸資源,按照資源的原有組織形式生成提交信息包。該部分涉及資源獲取和合格信息包提交兩部分的內(nèi)容。此時(shí),我們?yōu)榱吮WC資源獲取的可信性,需要根據(jù)保存管理的長(zhǎng)期保存策略、方法等各類信息,對(duì)數(shù)字對(duì)象的獲取權(quán)限、數(shù)字對(duì)象的來源、正確性、完整性以及充分性等方面進(jìn)行控制。同時(shí),應(yīng)當(dāng)充分記錄數(shù)字對(duì)象獲取過程的所有操作記錄。
②保存管理
保存管理?yè)?dān)負(fù)著長(zhǎng)期保存數(shù)字資源的任務(wù),因此,長(zhǎng)期保存策略、方法和計(jì)劃是數(shù)字資源能否得到有效、可靠保存的基礎(chǔ)保障。在此,我們需要從保存方法是否可行、保存策略是否已經(jīng)過嚴(yán)格測(cè)試、保存計(jì)劃是否有嚴(yán)格的控制機(jī)制,并根據(jù)保存過程中的反饋信息及時(shí)進(jìn)行調(diào)整等方面進(jìn)行考察。
③信息管理
信息管理按照保存管理的要求,負(fù)責(zé)數(shù)據(jù)更新,并通過數(shù)據(jù)遷移、技術(shù)仿真等技術(shù)手段完成資源的存儲(chǔ)、保存和維護(hù)。同時(shí),負(fù)責(zé)完成對(duì)保存資源的提取,并傳輸給信息輸出模塊供外部使用。在此,我們不但需要完成對(duì)對(duì)象數(shù)據(jù)的管理,同時(shí)需要對(duì)與對(duì)象數(shù)據(jù)相關(guān)的元數(shù)據(jù),如描述元數(shù)據(jù)、與保存政策相關(guān)的元數(shù)據(jù)等進(jìn)行保存;對(duì)保存技術(shù)、程序、系統(tǒng)環(huán)境信息等進(jìn)行保存和考察。
④信息輸出
信息輸出負(fù)責(zé)為用戶或其它系統(tǒng)提供檢索和索取保存資源的平臺(tái),它可以提供檢索機(jī)制,同時(shí)承擔(dān)身份認(rèn)證和授權(quán)管理的功能。在此,我們需要對(duì)訪問、輸出等過程的策略是否合適、這些策略的使用情況、以及數(shù)字對(duì)象在傳
遞過程中的一致性等方面進(jìn)行考察。
(3)基礎(chǔ)設(shè)施及系統(tǒng)安全
可信的基礎(chǔ)設(shè)施和系統(tǒng)安全是實(shí)現(xiàn)數(shù)字資源可信保存的基礎(chǔ)和關(guān)鍵。以下我們主要從基礎(chǔ)設(shè)施和相關(guān)技術(shù)、系統(tǒng)操作和運(yùn)行的安全性兩個(gè)方面進(jìn)行考察。
①系統(tǒng)基礎(chǔ)設(shè)施和相關(guān)技術(shù)
在此,我們主要考察系統(tǒng)的基礎(chǔ)設(shè)施是否完善,是否有相應(yīng)的安全機(jī)制進(jìn)行保障,保存資源是否安全,并具有可操作、可信賴的管理機(jī)制。我們可以分別從操作系統(tǒng)、備份和保存條件、數(shù)據(jù)同步機(jī)制、差錯(cuò)校驗(yàn)機(jī)制等方面進(jìn)行考察。此外,數(shù)字資源保存的目的是為用戶群提供可信的數(shù)字資源服務(wù),因此,所提供的服務(wù)應(yīng)當(dāng)是方便、快捷、實(shí)效的。在此,我們需要考察是否具有適當(dāng)?shù)能洠布夹g(shù);是否對(duì)軟/硬件技術(shù)進(jìn)行定期評(píng)估并確定合適的遷移方案,以保證長(zhǎng)期保存資源的持續(xù)性。
②運(yùn)行的安全性
保存資源經(jīng)常受到內(nèi)外部不同風(fēng)險(xiǎn)的威脅,如自然災(zāi)害、人為因素、環(huán)境變換等,因此,維護(hù)系統(tǒng)的安全性是實(shí)施數(shù)字長(zhǎng)期保存的根本保障。此處,我們需要從安全因素、安全措施、容災(zāi)、備份/恢復(fù)計(jì)劃等方面進(jìn)行考察。主要涉及系統(tǒng)、人員、物理環(huán)境的全方位風(fēng)險(xiǎn)分析,是否有安全的離線數(shù)據(jù)監(jiān)管機(jī)制,以及是否有合理的備份和恢復(fù)計(jì)劃。
3 數(shù)字資源長(zhǎng)期保存可信性實(shí)現(xiàn)
可信數(shù)字資源的長(zhǎng)期保存會(huì)在其保存生命周期內(nèi)受到外部環(huán)境、用戶需求變化等各種因素的影響[5]。如果系統(tǒng)的耦合度過高,會(huì)給系統(tǒng)內(nèi)資源的審核、可信性驗(yàn)證等功能的優(yōu)化和改善以及新技術(shù)的應(yīng)用帶來極大的不便。同時(shí),數(shù)字資源長(zhǎng)期保存往往面對(duì)的是不同類型資源的海量增長(zhǎng),不同資源類型需要不同的驗(yàn)證手段,為此,也同樣需要系統(tǒng)具有良好的可擴(kuò)展性。因此,我們考慮采用微服務(wù)的方式實(shí)現(xiàn)系統(tǒng)內(nèi)保存資源可信性的驗(yàn)證。微服務(wù)是系統(tǒng)內(nèi)承擔(dān)簡(jiǎn)單任務(wù)且與其他微服務(wù)協(xié)作的獨(dú)立功能組件,系統(tǒng)復(fù)雜功能的實(shí)現(xiàn)依賴于微服務(wù)之間的組配。微服務(wù)之間通過標(biāo)準(zhǔn)化的接口進(jìn)行交互,這些接口采用中立的方式定義,獨(dú)立于實(shí)現(xiàn)服務(wù)的硬件平臺(tái)、操作系統(tǒng)和編程語(yǔ)言,它具有以下的特點(diǎn):
(1)松散耦合,各個(gè)微服務(wù)之間的依賴關(guān)系較少;
(2)標(biāo)準(zhǔn)化接口,遵守相同的通信協(xié)議;
(3)獨(dú)立性,每個(gè)微服務(wù)獨(dú)立對(duì)邏輯處理過程進(jìn)行封裝;
(4)復(fù)用性,可以多次使用。
微服務(wù)架構(gòu)的功能是在標(biāo)準(zhǔn)化接口的基礎(chǔ)上提供松散耦合的服務(wù),目標(biāo)是通過各種服務(wù)的適當(dāng)組合完成業(yè)務(wù)流程,提高系統(tǒng)的靈活性。我們可以根據(jù)需求,按照長(zhǎng)期保存可信性資源流程,結(jié)合保存生命周期,將信息攝取、保存管理、信息管理和信息輸出分別分成若干功能模塊,根據(jù)功能模塊劃分出不同的功能組件。微服務(wù)定義是基于長(zhǎng)期可信性數(shù)字資源流程的分析,將不同的工作流對(duì)應(yīng)多個(gè)微服務(wù)。以下所述的微服務(wù)僅涉及可信性保障的相關(guān)服務(wù)。
我們可以定義如下的微服務(wù):
(1)資源攝取的微服務(wù)構(gòu)成:
①系統(tǒng)接受SIP(Submission Information Package)信息包,并將其存儲(chǔ)到SIP臨時(shí)存儲(chǔ)區(qū)。該服務(wù)主要接收相關(guān)系統(tǒng)或人員遞交的傳送數(shù)據(jù)電子表單,按資源的不同分類,根據(jù)提交規(guī)則通過Web或?qū)S锰峤唤涌谕瓿蒘IP信息包的接收工作,并將其存入SIP臨時(shí)存儲(chǔ)區(qū)。
②掃描SIP中的所有文件。當(dāng)發(fā)現(xiàn)病毒或其他惡意軟件時(shí),該服務(wù)將SIP放到隔離區(qū),該SIP的所有處理過程停止。
③一旦攝入數(shù)據(jù)包,該服務(wù)為整個(gè)SIP信息包創(chuàng)建備份。完成對(duì)電子表單的檢查核對(duì),并根據(jù)預(yù)先制定的接收規(guī)則完成對(duì)應(yīng)SIP信息包的初步接收工作。
④系統(tǒng)驗(yàn)證SIP信息包是否符合系統(tǒng)過程所需的結(jié)構(gòu)。初步接收成功后,該服務(wù)完成對(duì)SIP信息包解包,并根據(jù)管理服務(wù)制定的SIP信息包的有效性和完整性規(guī)則完成對(duì)包內(nèi)相關(guān)元數(shù)據(jù)(描述元數(shù)據(jù)、結(jié)構(gòu)元數(shù)據(jù)、保存元數(shù)據(jù)、管理元數(shù)據(jù))的抽取以及對(duì)象數(shù)據(jù)的審核校驗(yàn)(主要包括數(shù)據(jù)完整性、是否重復(fù)、是否符合規(guī)則、病毒檢測(cè)、資源格式審核等方面)等工作。如發(fā)現(xiàn)與系統(tǒng)內(nèi)預(yù)定規(guī)則不符,則完成對(duì)SIP信息包的回退工作,并將錯(cuò)誤信息存儲(chǔ)同時(shí)返回提交方。
⑤為SIP的每個(gè)文件分配一個(gè)全局惟一標(biāo)識(shí)符和完整性校驗(yàn)碼。該服務(wù)提取SIP信息包中的惟一標(biāo)識(shí)符,并根據(jù)系統(tǒng)內(nèi)部標(biāo)識(shí)符生成規(guī)則生成系統(tǒng)內(nèi)部標(biāo)識(shí)符。
⑥為SIP的每個(gè)文件分配完整性校驗(yàn)碼。如果攝入的文件已經(jīng)包含一個(gè)校驗(yàn)文件,該微服務(wù)會(huì)檢驗(yàn)并確認(rèn)在傳遞到系統(tǒng)后,沒有文件被刪除或修改。
⑦抽取SIP包中的元數(shù)據(jù),如果SIP包元數(shù)據(jù)不完整,該服務(wù)將添加XML模板。
⑧補(bǔ)充元數(shù)據(jù),該服務(wù)可以讓用戶自己填寫域,這些值會(huì)作為系統(tǒng)創(chuàng)建的SIP的一部分上載到系統(tǒng)中。
⑨識(shí)別驗(yàn)證文件格式,從文件中抽取技術(shù)元數(shù)據(jù)。在成功接收合格的SIP信息包后,該服務(wù)根據(jù)預(yù)先定制的規(guī)則和策略對(duì)提交資源的相關(guān)元數(shù)據(jù)進(jìn)行抽取,并完成文件格式的驗(yàn)證。
⑩用戶審定SIP包,用戶可能會(huì)瀏覽SIP包,確定它是否符合提交協(xié)議,在這個(gè)服務(wù)中用戶可以刪除不需要的文件。與此同時(shí),刪除文件的日志會(huì)被添加到信息包中。
SIP包在預(yù)先設(shè)置的一段時(shí)間內(nèi)會(huì)放在臨時(shí)存儲(chǔ)區(qū)。如果需要,該服務(wù)可以提前將SIP包從臨時(shí)存儲(chǔ)區(qū)中移出。
該服務(wù)為新的SIP包生產(chǎn)者建立相應(yīng)的用戶賬號(hào)。
該服務(wù)將資源的表現(xiàn)信息、對(duì)象實(shí)體、以及元數(shù)據(jù)存儲(chǔ)到系統(tǒng)中,并完成新的實(shí)體資源的注冊(cè)。根據(jù)預(yù)先指定的策略,在忠實(shí)于原有信息包的情況下,將審核合格的資源表現(xiàn)信息、對(duì)象實(shí)體、以及元數(shù)據(jù)安全有效地更新到信息管理的存儲(chǔ)區(qū)中。
該服務(wù)從SIP存儲(chǔ)區(qū)中清除SIP包。
該服務(wù)為用戶反饋接受信息。
(2)信息管理的微服務(wù)構(gòu)成:
①該服務(wù)為每個(gè)攝入的文件編輯包含整套保存元數(shù)據(jù)的METS文件,該文件與AIP(Archival Information Package)中的原始文件一起打包。
②該服務(wù)為所有的AIP內(nèi)容產(chǎn)生SHA-1驗(yàn)證碼。
③通過技術(shù)分析服務(wù),該服務(wù)為信息包中增加新的文件。
④通過技術(shù)分析服務(wù),該服務(wù)為信息包中增加新的元數(shù)據(jù)。同時(shí)完成與AIP信息包相關(guān)的部分描述元數(shù)據(jù)、結(jié)構(gòu)元數(shù)據(jù)以及管理元數(shù)據(jù)信息、狀態(tài)信息以及保存元數(shù)據(jù)的入庫(kù)、更新等工作。
⑤更新表現(xiàn)信息。該服務(wù)完成與AIP信息包相關(guān)的表現(xiàn)信息的更新工作。
⑥根據(jù)打包規(guī)則完成AIP信息包的生成。在資源攝取成功后,根據(jù)預(yù)先定制AIP信息包封裝的規(guī)則和存儲(chǔ)策略,該服務(wù)對(duì)提交數(shù)據(jù)進(jìn)行重新組合打包。
⑦用戶審查AIP并批準(zhǔn)為檔案存儲(chǔ),該服務(wù)將該AIP移到與存儲(chǔ)系統(tǒng)同步的AIP存儲(chǔ)區(qū)下。根據(jù)系統(tǒng)管理服務(wù)制定的存儲(chǔ)策略,在忠實(shí)于原有信息包的情況下,將系統(tǒng)內(nèi)部的AIP信息包安全有效地保存。
(3)信息輸出的微服務(wù)構(gòu)成:
①用戶身份審計(jì)。該服務(wù)負(fù)責(zé)對(duì)用戶或外部系統(tǒng)的角色的識(shí)別和認(rèn)證等工作,有效地管理用戶、訪問權(quán)限等。
②該微服務(wù)將創(chuàng)建的獲取備份放在DIP(Dissemination Information Packages)存儲(chǔ)區(qū)中,同時(shí)元數(shù)據(jù)文件也添加到DIP中。
③對(duì)表現(xiàn)信息進(jìn)行鎖定和檢測(cè)。在資源使用前,該服務(wù)要對(duì)資源的使用權(quán)限等信息進(jìn)行確認(rèn),并檢查對(duì)象數(shù)據(jù)等各類信息。
④該服務(wù)獲取與對(duì)象數(shù)據(jù)相關(guān)的表現(xiàn)信息。
⑤該服務(wù)將審批通過的DIP上載到相應(yīng)的服務(wù)系統(tǒng)中。
⑥該服務(wù)提供查詢功能,包括元數(shù)據(jù)、對(duì)象數(shù)據(jù)和表現(xiàn)信息。
(4)保存管理的微服務(wù)構(gòu)成:
①數(shù)據(jù)檢測(cè)的功能分析與更新。該服務(wù)完成對(duì)存檔環(huán)境和數(shù)據(jù)的有效性監(jiān)控和數(shù)據(jù)流的維護(hù),出現(xiàn)問題時(shí)能及時(shí)有效地進(jìn)行處理。
②該服務(wù)完成對(duì)文件格式的分析。
③該服務(wù)更新文件格式注冊(cè)信息。
④分析信息包及其相關(guān)文件的關(guān)聯(lián)性。該服務(wù)根據(jù)已有的長(zhǎng)期保存標(biāo)準(zhǔn)和信息包的遷移目標(biāo),制定信息包模板、管理策略等。
⑤用戶管理服務(wù),該服務(wù)完成如新用戶生成、用戶更新、用戶刪除等。
⑥長(zhǎng)期保存規(guī)則管理,該服務(wù)完成如長(zhǎng)期保存規(guī)則的更新、建立、刪除等。
⑦建立長(zhǎng)期保存工作任務(wù)。根據(jù)系統(tǒng)內(nèi)反饋的策略執(zhí)行結(jié)果,以及用戶的保存需求,該服務(wù)制定保存方法和工作流程等。
⑧狀態(tài)監(jiān)控以及數(shù)據(jù)流的維護(hù)。根據(jù)保存策略,該服務(wù)完成對(duì)存檔環(huán)境和數(shù)據(jù)的有效性監(jiān)控和數(shù)據(jù)流的維護(hù),出現(xiàn)問題時(shí)能及時(shí)有效地進(jìn)行處理。
⑨信息包管理:根據(jù)已有的長(zhǎng)期保存策略和信息包的遷移目標(biāo),該服務(wù)制定信息包模板、管理策略等。
⑩保存需求管理:該服務(wù)對(duì)外部系統(tǒng)或用戶提出的保存需求進(jìn)行分析,并提取相關(guān)參數(shù)等信息,形成新的保存目標(biāo)。
保存策略管理:該服務(wù)完成對(duì)新制定的保存策略進(jìn)行分析,提取相關(guān)參數(shù)等信息。
4 國(guó)內(nèi)外研究現(xiàn)狀
早在2000年,研究圖書館協(xié)會(huì)(Research Libraries Group,RLG)與聯(lián)機(jī)計(jì)算機(jī)圖書館中心(Online Computer Library Center,OCLC)就在《可信賴數(shù)字倉(cāng)儲(chǔ):屬性與職責(zé)》的報(bào)告中對(duì)可信賴長(zhǎng)期保存系統(tǒng)的定義和特點(diǎn)做了詳細(xì)闡述,它指出可信賴長(zhǎng)期保存系統(tǒng)(Trusted Digital Repositories,TDR)的目的在于為目標(biāo)群體提供經(jīng)過管理的數(shù)字資源的長(zhǎng)期可靠的存取,包括現(xiàn)在的存取和未來的存取[6]。在此基礎(chǔ)上,一些機(jī)構(gòu)或組織開展了對(duì)長(zhǎng)期保存系統(tǒng)與服務(wù)可信度的認(rèn)證工作,并制定出具有普遍性或僅適合本機(jī)構(gòu)具體環(huán)境的認(rèn)證指標(biāo)體系。其中比較有代表性的指標(biāo)體系包括:RLG與美國(guó)國(guó)家檔案管理局(National Archives and Records Administration,NARA)根據(jù)不同國(guó)家對(duì)長(zhǎng)期保存系統(tǒng)加以審計(jì)或認(rèn)證的實(shí)踐,擬定了《可信賴倉(cāng)儲(chǔ)的審計(jì)及認(rèn)證:指標(biāo)與列表》(Trustworthy Repositories Audit & Certification:Criteria and Checklist,TRAC);德國(guó)網(wǎng)絡(luò)信息計(jì)劃(Deutsche Initiative für Netzwerkinformation,DINI)制定的《DINI文檔與出版物服務(wù)認(rèn)證》主要針對(duì)德國(guó)機(jī)構(gòu)倉(cāng)儲(chǔ)的開放存取,旨在為各大學(xué)機(jī)構(gòu)倉(cāng)儲(chǔ)間的標(biāo)準(zhǔn)化及基于互操作的信息服務(wù)與交流提供建議;由德國(guó)聯(lián)邦教育科研部(Federal Ministry of Education and Research,BMBF)資助的“德國(guó)數(shù)字資源的長(zhǎng)期存儲(chǔ)與長(zhǎng)期存取專業(yè)網(wǎng)絡(luò)”(Network of Expertise for Long-term Storage and Long-Term Availability of Digital Resources in Germany,nestor)下屬的可信賴倉(cāng)儲(chǔ)認(rèn)證工作組制定的《可信賴數(shù)字倉(cāng)儲(chǔ)的指標(biāo)體系》等。但是,目前的研究主要是基于數(shù)字倉(cāng)儲(chǔ)系統(tǒng)的可信性研究,尚未建立一套基于長(zhǎng)期保存體系的可信保障機(jī)制。
5 下一步要做的工作
為了保障數(shù)據(jù)信息的完整性,需要不斷審核保存資源。這說明在長(zhǎng)期保存體系中,需要結(jié)合數(shù)字資源的長(zhǎng)期保存生命周期,在其生命周期內(nèi),全方面地系統(tǒng)解決數(shù)據(jù)資源的可信性問題。具體來說,包括資源內(nèi)容的可信性,如系統(tǒng)程序錯(cuò)誤、誤操作和設(shè)備機(jī)械故障等因素導(dǎo)致二進(jìn)制數(shù)據(jù)的破壞,數(shù)字文件的質(zhì)量受到參數(shù)設(shè)置改變的影響等;參考信息的可信性和完整性,如其他相關(guān)文件的關(guān)系,或與數(shù)字環(huán)境(軟硬件環(huán)境)依賴性之間的關(guān)系,保存活動(dòng)沒有被完整記錄,來源信息不完整或不精確等;功能的完整性和可信性3個(gè)主要方面。由此可見,關(guān)于如何保存好數(shù)字簽名、保證數(shù)據(jù)資源內(nèi)容的可信性、保存相對(duì)固定的資源版本、保存好文獻(xiàn)的活性鏈接、保存好文獻(xiàn)來源等方面都是需要進(jìn)一步解決的技術(shù)問題。
未來,我們不但要建立一套適合中國(guó)國(guó)情的可信賴的數(shù)字資源長(zhǎng)期保存體系,同時(shí)要對(duì)可信資源保存的技術(shù)細(xì)節(jié)進(jìn)行進(jìn)一步的研究。
參考文獻(xiàn)
[1]Jones,M.and Beagrie,N.Preservation management of digital materials:a handbook.London,UK:British Library Publishing,2001.
[2]宛玲,張曉林.數(shù)字資源長(zhǎng)期保存中的知識(shí)產(chǎn)權(quán)問題研究[J].中國(guó)圖書館學(xué)報(bào),2005,(3):66-67.
[3]劉家真.標(biāo)準(zhǔn)化與數(shù)字信息的長(zhǎng)期存?。郏剩?圖書館雜志,2001,(9):6-9.
[4]張曉林.數(shù)字信息的長(zhǎng)期保護(hù)問題[J].圖書館,2005,(1):7-10.
[5]李文.試論數(shù)字資源的長(zhǎng)期保存問題[J].惠州學(xué)院學(xué)報(bào):社會(huì)科學(xué)版,2005,(2):103-106.
[6]Research Libraries Group.RLG/OCLC Trusted Digital Repositories:Attributes and Responsibilities[EB/OL].2007-12-10.
(本文責(zé)任編輯:王 涓)