董曉莉+龍偉
[摘要]本文在分析大數(shù)據(jù)環(huán)境下圖書館采用合作保存必要性的基礎(chǔ)上,探討了國際主流的數(shù)字資源保存合作模式,進(jìn)而提出目前我國圖書館應(yīng)采用的數(shù)字保存合作模式和資源存儲方式,最后設(shè)計了圖書館基于OAIS的數(shù)字資源長期保存協(xié)作保存平臺模型,并對該模型構(gòu)成、運(yùn)行模式以及主要功能進(jìn)行了深入的描述和分析。相信本研究將對合作模式下圖書館數(shù)字資源長期保存系統(tǒng)的建設(shè)起到拋磚引玉的作用。
[關(guān)鍵詞]圖書館;長期保存;數(shù)字資源;合作模式
大數(shù)據(jù)時代的到來,整個社會不可避免地被卷入數(shù)字洪流之中,如何保存人類社會的數(shù)字文明,圖書館的保存工作面臨著越來越多的挑戰(zhàn)和考驗。一方面要面對數(shù)字保存對象的不斷多元化和泛在化,另一方面要解決用戶與日俱增的數(shù)字資源長期保存需求和資源共享需求。在這種情況下,國際上很多數(shù)字文化遺產(chǎn)收藏機(jī)構(gòu)都開始積極采取合作的方式開展數(shù)字資源長期保存的研究與實踐,國際上也相繼出現(xiàn)多個跨地域、跨機(jī)構(gòu)的數(shù)字保存聯(lián)盟,如英國的數(shù)字保存聯(lián)盟(digital preservation coalition,簡稱DPC)以及協(xié)同化的國際合作項目,如歐洲的NEDLIB項目。目前,各國學(xué)者對采用合作方式開展數(shù)字資源長期保存的發(fā)展方向已有普遍共識。我國雖然諸如國家圖書館等個別機(jī)構(gòu)近年已著手采用獨(dú)立保存方式對機(jī)構(gòu)內(nèi)所藏數(shù)字資源實施保存,但是尚未形成成熟的合作保存體系,未建立一套統(tǒng)一的支持機(jī)構(gòu)間協(xié)作的合作保存網(wǎng)絡(luò),極易導(dǎo)致對重要資源內(nèi)容保存的遺漏;且資源的利用率不高,無法滿足大數(shù)據(jù)時代對圖書館數(shù)字資源收集、保存、維護(hù)、處理和利用的需求;特別是會由于重復(fù)存儲導(dǎo)致大量人力資源和物理資源的浪費(fèi)。因此,選擇合理的數(shù)字資源長期合作保存模式,選用靈活且適應(yīng)性強(qiáng)的數(shù)字保存合作策略,建設(shè)相對全面的數(shù)字資源長期保存協(xié)作平臺是目前大數(shù)據(jù)環(huán)境下國內(nèi)圖書館等文化資源保護(hù)機(jī)構(gòu)亟需考慮和解決的問題。
1大數(shù)據(jù)環(huán)境下圖書館采用合作保存的必要性
大數(shù)據(jù)環(huán)境下,數(shù)字內(nèi)容的體量飛速發(fā)展,用戶需求呈現(xiàn)出多元化的態(tài)勢。面對用戶不斷泛化的資源保存需求,圖書館對保存對象的定義也更加寬泛,數(shù)字對象的類型變得更加復(fù)雜,資源類型逐步由單一的圖像、文本類型向包括音視頻、網(wǎng)絡(luò)資源等在內(nèi)的結(jié)構(gòu)化與非結(jié)構(gòu)化多元類型拓展。同時,用戶發(fā)現(xiàn)、利用、反饋圖書館資源的信息,即圖書館用戶“大數(shù)據(jù)”也將作為一種重要的資源被納入到圖書館的保存對象范圍之中,保存對象的類型和結(jié)構(gòu)將變得更加復(fù)雜多樣,數(shù)字資源長期保存正經(jīng)歷著越來越嚴(yán)峻的挑戰(zhàn)。
同時,隨著社會數(shù)字化的不斷發(fā)展,社會經(jīng)濟(jì)和文化的發(fā)展對數(shù)字資源的依賴性更強(qiáng),各國保存機(jī)構(gòu)對數(shù)字資源長期保存可信賴性提出了更高的要求。面對更加艱巨的保存任務(wù)和更為復(fù)雜的保存環(huán)境,僅依賴于單一機(jī)構(gòu)已無法完成數(shù)字保存任務(wù),采用合作方式開展數(shù)字保存不但可以避免單一機(jī)構(gòu)實施保存所造成的單點(diǎn)故障,規(guī)避出現(xiàn)數(shù)字孤島的風(fēng)險,而且有利于集結(jié)多種類型的數(shù)字資源,實現(xiàn)不同內(nèi)容、不同類型資源的有機(jī)關(guān)聯(lián),進(jìn)而提高大規(guī)模數(shù)字資源保存的可增值性,改變原有保存機(jī)構(gòu)基于本地、私有、封閉的保存模式,打破機(jī)構(gòu)問資源保存與共享的諸多壁壘,實現(xiàn)資源保存與服務(wù)的有機(jī)結(jié)合。在此情況下,圖書館間合作構(gòu)建數(shù)字資源長期保存協(xié)作平臺形成數(shù)字資源協(xié)作保存網(wǎng)絡(luò)已成為圖書館等文化遺產(chǎn)保存機(jī)構(gòu)的必然選擇。
2大數(shù)據(jù)環(huán)境下圖書館數(shù)字資源合作保存模式分析
近年,在大數(shù)據(jù)環(huán)境下歐美等發(fā)達(dá)國家的圖書館、博物館、檔案館等數(shù)字文化遺產(chǎn)機(jī)構(gòu)紛紛探索多種合作模式,以期提升其在公共文化機(jī)構(gòu)中的地位,改善其現(xiàn)有的數(shù)字保存和服務(wù)現(xiàn)狀,更好地滿足越來越多的多樣化用戶需求。目前國際上主流合作模式主要包括集中分散、對等分散、高度整合等模式。其中,集中分散式即由一個機(jī)構(gòu)主導(dǎo),由其制定相關(guān)政策、方針、管理機(jī)制,并實施技術(shù)指導(dǎo),協(xié)助其他機(jī)構(gòu)解決長期保存中的實際問題,其他機(jī)構(gòu)作為合作參與方,承擔(dān)一定的保存責(zé)任并具有相應(yīng)的權(quán)利,如美國的NDIIPP項目、澳大利亞的PANDORA項目、美國阿拉巴馬州的ADPNet(the Alabama DigitalPreservation Network)等項目都屬于集中分散式的合作保存模式。對等分散式指參與數(shù)字資源長期保存合作的成員機(jī)構(gòu)在合作中所處的地位平等,且具有同等的責(zé)任和義務(wù),主要通過協(xié)商來完成相應(yīng)的保存任務(wù),如歐洲的NEDLIB合作項目。高度整合模式,是近兩年新興的一種合作模式,其一般由國家主導(dǎo),通過實施法令和制定政策,完成機(jī)構(gòu)間運(yùn)行機(jī)制和內(nèi)部結(jié)構(gòu)的重組,如挪威、新加坡、加拿大等國對圖書館、檔案館、博物館等機(jī)構(gòu)開展的機(jī)構(gòu)整合。
由于我國目前的數(shù)字資源長期保存政策和策略尚不完善,且機(jī)構(gòu)問在數(shù)字資源長期保存領(lǐng)域的研究與實踐工作缺乏有效的溝通和協(xié)調(diào),跨機(jī)構(gòu)、行業(yè)、區(qū)域的合作關(guān)系松散,缺乏統(tǒng)一規(guī)范的合作模式和制度,特別是各圖書館長期保存的技術(shù)能力參差不齊,因此在現(xiàn)有狀態(tài)下,圖書館長期保存合作模式可以考慮采用集中分散的模式,即由某一權(quán)威機(jī)構(gòu)作為合作保存的中心機(jī)構(gòu),由其主導(dǎo)并協(xié)調(diào)指導(dǎo)其他機(jī)構(gòu)共同完成保存任務(wù),該合作模式下的資源存儲方式可以考慮采用集中管理——分布存儲——集中整合的構(gòu)建模式。在該合作模式和存儲方式下,中心機(jī)構(gòu)負(fù)責(zé)完成保存政策、運(yùn)行機(jī)制、合作機(jī)制、保存策略等方面的全局性指導(dǎo),并通過共享基礎(chǔ)設(shè)施、功能設(shè)計標(biāo)準(zhǔn)框架等方式完成機(jī)構(gòu)問的共享與協(xié)作;在統(tǒng)一的資源采集政策下,各分支機(jī)構(gòu)獨(dú)立完成資源的收集、加工、審核、管理和存儲;利用分布式的保存策略和多副本安全策略,保證種類各異的資源分布式存儲于地理位置分散的各合作保存機(jī)構(gòu)內(nèi)部;通過規(guī)范的數(shù)據(jù)集中整合流程,保證資源保存形式的一致性,便于更新以及為用戶集中揭示資源,實現(xiàn)保存資源的全方位揭示。該模式通過機(jī)構(gòu)間的合作保存,有效規(guī)避了單機(jī)構(gòu)保存所造成風(fēng)險;通過共享基礎(chǔ)設(shè)施,降低開發(fā)成本;通過共享功能設(shè)計標(biāo)準(zhǔn)框架,有效降低管理成本;通過資源的多副本保存可以有效提高資源的安全性和完整性,降低昂貴的備份成本,如圖1所示。
圖書館數(shù)字資源的合作保存是以最終實現(xiàn)保存資源的長期存儲、管理和長效利用為導(dǎo)向,采用該合作模式,可以有效實現(xiàn)對聯(lián)盟內(nèi)保存資源的統(tǒng)一存儲、集中監(jiān)控和動態(tài)管理,從而保障數(shù)字信息資源的真實性和永久可獲得性;可以集結(jié)多種類型的資源,通過保存平臺實現(xiàn)對資源的有效關(guān)聯(lián)、整合、管理和利用,從而滿足大數(shù)據(jù)環(huán)境下,對更加龐大的異構(gòu)資源實現(xiàn)有效組織整合;通過將資源集中保存于數(shù)字保存合作平臺中,可以有效打破原有資源保存和共享的諸多壁壘,消除資源保存機(jī)構(gòu)的存儲孤島現(xiàn)象;通過跨系統(tǒng)、跨地域的合作保存,可以有效避免資源的重復(fù)存儲,解決目前普遍存在的基于本地的、私有的、封閉的保存模式,有利于合作機(jī)構(gòu)在指導(dǎo)機(jī)構(gòu)的統(tǒng)一管理下,完成對保存的資源統(tǒng)一處理和整合,保證對保存資源的持續(xù)性、系統(tǒng)性的維護(hù)和開發(fā)利用,為最終實現(xiàn)知識發(fā)現(xiàn)、體現(xiàn)數(shù)字資源長期保存意義提供重要保障。
3基于OAIS的數(shù)字資源長期保存協(xié)作平臺模型分析
基于以上合作模式,圖書館數(shù)字資源的合作保存可以通過建立基于OAIS的數(shù)字資源長期保存協(xié)作平臺而實現(xiàn),該協(xié)作平臺可由跨地域或跨機(jī)構(gòu)的多個機(jī)構(gòu)或長期保存系統(tǒng)耦合形成,共同創(chuàng)造一個協(xié)同保存的工作環(huán)境,以實現(xiàn)機(jī)構(gòu)或系統(tǒng)問的協(xié)同工作,完成對跨地域資源的統(tǒng)一協(xié)調(diào)、調(diào)度和管理,其不但可以有效節(jié)約資金、人力等物理資源,而且可以促進(jìn)溝通和交流,確保大數(shù)據(jù)環(huán)境下我國數(shù)字文化遺產(chǎn)得到長期存儲和有效保護(hù),方便獲取利用。
3.1大數(shù)據(jù)環(huán)境下圖書館合作保存對象需求
大數(shù)據(jù)背景下,數(shù)字資源總量呈指數(shù)級增長,資源構(gòu)成變得更為復(fù)雜,從資源結(jié)構(gòu)看,包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù),且數(shù)據(jù)與數(shù)據(jù)之間彼此交叉,彼此融合;從資源來源看,涉及同類型不同來源的資源、不同類型不同來源資源以及相同類型相同來源的資源,且資源的異構(gòu)性、碎片化、多維性等特點(diǎn)越來越突顯。同時,數(shù)據(jù)的保存環(huán)境變化加快,數(shù)據(jù)生命周期縮短、格式更新頻率加快,人類對數(shù)字資源長期保存的要求不斷提高,而保存環(huán)境卻日益惡化,因此大數(shù)據(jù)環(huán)境下,圖書館的數(shù)字保存對象應(yīng)達(dá)到以下要求:
真實性:數(shù)字對象文件應(yīng)可以通過評估身份信息和操作記錄的完整性進(jìn)行驗證,其驗證過程應(yīng)貫穿于系統(tǒng)的整個工作流程。在任何時候都能夠確定數(shù)據(jù)的內(nèi)容完整無缺、身份來源可靠、且未被非法更改,同時保證數(shù)據(jù)的創(chuàng)建時間、創(chuàng)建人員、創(chuàng)建模式等內(nèi)容明確,數(shù)字對象所參與的行為或事件有明確標(biāo)示,數(shù)字對象與其相關(guān)聯(lián)對象的關(guān)聯(lián)關(guān)系表達(dá)明確且相關(guān)附件信息完善。
位階完整性:數(shù)字對象的位級存儲可以確保提交的數(shù)據(jù)不發(fā)生任何變化,即每一位(bit)可保持原狀,持續(xù)維持原始位流的完整性和可讀性。
安全性:保證數(shù)字對象未被未經(jīng)授權(quán)的用戶訪問或更改。
可用性:保證數(shù)字對象的封裝、遷移、備份、交換、訪問、傳輸都是容易的,不會隨著保存環(huán)境的變化而產(chǎn)生改變。
要達(dá)到以上對數(shù)字保存對象的要求,協(xié)作平臺不但需要配置一系列的審計、校驗、身份認(rèn)證、信息跟蹤、格式監(jiān)測、統(tǒng)計報告、遷移等保存功能和策略,還應(yīng)支持靈活嵌入一系列的軟件和工具以完成對數(shù)字對象的持續(xù)存儲和管理,如為保證數(shù)字對象的真實性,在資源的攝入階段需要持續(xù)監(jiān)控整個攝入過程中數(shù)據(jù)內(nèi)容、結(jié)構(gòu)及其狀態(tài),因此需要嵌入AutoTODD等類別的攝取軟件;為保證平臺數(shù)據(jù)對象歸檔和保存階段所保存數(shù)據(jù)對象的完整性和正確性,平臺需要配備ACE(Audit Control Environment)等完整、系統(tǒng)的校驗機(jī)制(如奇偶校驗、指紋驗證等);為保證信息包的有效傳輸需要配備BaTIt等包處理工具,以實現(xiàn)對信息包的創(chuàng)建、操縱和校驗。同時還需要配備合理的數(shù)據(jù)處理軟件,通過獲取數(shù)字指紋、文件格式轉(zhuǎn)換、元數(shù)據(jù)抽取等功能完成對數(shù)字對象的完整傳輸,確保數(shù)字對象按原有的層次結(jié)構(gòu)復(fù)制和上載等,如Archive This!、WebIndexing Portal、E-PubsPortal等。此外,該平臺還應(yīng)支持靈活配置用于查詢定位的軟件如Lucene,用于病毒查驗的軟件等工具軟件。
同時,為滿足以上數(shù)據(jù)對象的保存需求,在進(jìn)行系統(tǒng)模型設(shè)計時,不但要考慮整個平臺的靈活擴(kuò)展能力,以能夠應(yīng)對不斷增加的資源類型和飛速增長的資源保存需求;同時要充分考慮到協(xié)作平臺對不同類型資源對象的處理能力和節(jié)點(diǎn)問的協(xié)同工作能力,使其在中心節(jié)點(diǎn)的統(tǒng)籌規(guī)劃下,充分利用每個分支機(jī)構(gòu)的資源處理能力,依據(jù)數(shù)據(jù)資源的內(nèi)容、結(jié)構(gòu)特征、質(zhì)量保證標(biāo)準(zhǔn)定制合理的保存工作策略和工作機(jī)制,有效保障資源的安全性、有效性,提高平臺資源的服務(wù)能力。
3.2系統(tǒng)平臺模型設(shè)計
OAIS模型作為數(shù)字資源長期保存領(lǐng)域的標(biāo)準(zhǔn),其提供了對數(shù)字資源長期保存系統(tǒng)的外部環(huán)境、功能模塊以及保存對象模型的定義。針對基于OAIS模型的分布式長期保存系統(tǒng)框架的討論最早始于2010年,由MetaArchiveCooperative,、Chronopolis和the Library of Congress共同發(fā)起討論。近兩年,隨著歐美等國家合作保存項目的發(fā)展,分布式長期保存體系框架逐漸受到各保存機(jī)構(gòu)的重視,其中比較有代表性項目包括Archivematica,Chronopolis,Data-PASS,the Danish Bit Repository,DuraCloud,InternetArchive,LOCKSS,MetaArchive Cooperative,and UC3 Merritt等。上述各項目的系統(tǒng)的實現(xiàn)方式各不相同,如LOCKSS分布式保存項目,其資源被重復(fù)保存在多個站點(diǎn)中,網(wǎng)絡(luò)中所有服務(wù)器在權(quán)利和職責(zé)方面都是對等;而Chronopolis項目采用了混合的協(xié)作模式,三個節(jié)點(diǎn)協(xié)同提供網(wǎng)格服務(wù),同時又有不同的分工,三個節(jié)點(diǎn)問通過GridFTP進(jìn)行網(wǎng)格中大規(guī)模的并行數(shù)據(jù)復(fù)制,每份資源都存在3個獨(dú)立管理的副本??梢钥闯觯鲜雒總€項目都根據(jù)項目的實際保存需求和機(jī)構(gòu)特點(diǎn)設(shè)計了不同的實現(xiàn)方式,且各有特色、各不相同。因此,圖書館基于OAIS的數(shù)字資源長期保存協(xié)作平臺模型的設(shè)計應(yīng)緊密結(jié)合集中分散的合作模式,充分利用現(xiàn)有的工具和成果,綜合考慮合作機(jī)構(gòu)所具有的不同職責(zé)、角色和能力,根據(jù)大數(shù)據(jù)環(huán)境下圖書館合作保存對象需求,以O(shè)AIS標(biāo)準(zhǔn)為基礎(chǔ),構(gòu)建一個具備協(xié)同工作能力、支持靈活、擴(kuò)展的協(xié)作、互聯(lián)、分布式的數(shù)字資源長期保存體系架構(gòu),如圖2所示。
該模型是一個包括協(xié)作、互聯(lián)、分布式的數(shù)字保存模型,模型由一個中心機(jī)構(gòu)和若干分支機(jī)構(gòu)共同組成基于OAIS的數(shù)字資源長期保存協(xié)作平臺,每個機(jī)構(gòu)都是協(xié)作平臺中的一個節(jié)點(diǎn),各個節(jié)點(diǎn)都根據(jù)預(yù)先制定的分工協(xié)作策略進(jìn)行協(xié)同工作,各節(jié)點(diǎn)均有分工,且彼此協(xié)作。模型中的中心節(jié)點(diǎn)和各個分支節(jié)點(diǎn)都遵循OAIS參考模型,且在中心節(jié)點(diǎn)的集中指導(dǎo)下獨(dú)立組織開發(fā)、維護(hù)并確保數(shù)據(jù)的完整性和有效性,其主要包括攝入模塊、保存計劃模塊、數(shù)據(jù)管理模塊、歸檔存儲模塊以及資源利用模塊。平臺中的每個節(jié)點(diǎn)均可根據(jù)本機(jī)構(gòu)所具有的不同職責(zé)、角色和能力進(jìn)行自治,獨(dú)立執(zhí)行保存功能,維護(hù)保存系統(tǒng),并提供服務(wù)。每個分支機(jī)構(gòu)的節(jié)點(diǎn)對等,各分支節(jié)點(diǎn)的關(guān)閉、停止、增加,并不影響整個平臺的正常運(yùn)行,平臺可以隨著資源規(guī)模的擴(kuò)大不斷增加分支節(jié)點(diǎn),有效保證了平臺的靈活性。采用該種模式不但可以有效簡化平臺管理和開發(fā)的復(fù)雜性,增強(qiáng)協(xié)作平臺的可擴(kuò)展性,而且可以允許各分支機(jī)構(gòu)根據(jù)自身需求,靈活配置存儲策略和工作流程,增強(qiáng)了整個平臺的包容性,有利于充分利用現(xiàn)有工作和研究成果。
該模型采用松耦合的工作模式,模型的中心節(jié)點(diǎn)負(fù)責(zé)對整個平臺的日常管理和監(jiān)控,各分支節(jié)點(diǎn)采用獨(dú)立運(yùn)行的管理機(jī)制,由于每個分支機(jī)構(gòu)具有很高的自治性,因此每個機(jī)構(gòu)可以在遵循一定的標(biāo)準(zhǔn)、政策的前提下,采用不同的系統(tǒng)、嵌入不同的保存工具,保存不同類型的數(shù)字對象,有效保證大數(shù)據(jù)環(huán)境下保存平臺的擴(kuò)展能力。在分布式架構(gòu)下,中心節(jié)點(diǎn)通過執(zhí)行日常管理和檢測,協(xié)調(diào)各分支節(jié)點(diǎn)獨(dú)立運(yùn)行,使該平臺可支持不同的保存功能,達(dá)到不同的保存目標(biāo)。平臺通過采用基于分布式的保存策略和多副本安全策略,將多個副本分布式地保存在地理位置分散的多個分支節(jié)點(diǎn)的歸檔存儲中,可以使得各分支節(jié)點(diǎn)資源互為備份和補(bǔ)充,共同完成資源保存,保證保存資源的多地多副本,最大限度的保障資源的安全性,避免因惡意攻擊、本地資源丟失等因素造成的資源受損。
中心節(jié)點(diǎn)負(fù)責(zé)平臺的統(tǒng)籌規(guī)劃和全局監(jiān)管,通過相應(yīng)的節(jié)點(diǎn)注冊機(jī)制完成對各分支節(jié)點(diǎn)信息的管理,利用資源提交機(jī)制接收各分支節(jié)點(diǎn)的數(shù)據(jù)和資源,其主要功能模塊包括系統(tǒng)管理(如各節(jié)點(diǎn)信息管理、備份管理、人員權(quán)限管理、各種報告管理等等)、長期保存(如保存規(guī)劃、環(huán)境監(jiān)測、策略評估等)、倉儲管理(如數(shù)據(jù)庫管理、唯一標(biāo)識符管理等)、歸檔存儲(如存儲系統(tǒng)管理、介質(zhì)管理、存儲機(jī)制管理等)、資源攝?。ㄈ绶种Ч?jié)點(diǎn)資源的接收、審核、AIP生成等)、資源利用(如DIP生成、資源呈現(xiàn)等)。中心節(jié)點(diǎn)的主要任務(wù)包括:①每個分支節(jié)點(diǎn)通過各自節(jié)點(diǎn)的資源利用模塊向中心節(jié)點(diǎn)提供信息,中心節(jié)點(diǎn)通過其攝入模塊完成資源的收集,并通過倉儲管理和歸檔存儲完成對平臺內(nèi)資源的組織和管理,平臺內(nèi)資源索引的整合與請求分發(fā)由倉儲管理模塊負(fù)責(zé)。②中心節(jié)點(diǎn)負(fù)責(zé)對所有分支節(jié)點(diǎn)內(nèi)容信息和保存管理信息的收集、組織,并完成對已解決版權(quán)資源的融合分析和統(tǒng)一揭示,保證在低成本的條件下實現(xiàn)數(shù)據(jù)的高效存儲和訪問。③各分支節(jié)點(diǎn)問可以在中心節(jié)點(diǎn)的管理下,完成對保存資源的遷移和備份,中心節(jié)點(diǎn)負(fù)責(zé)協(xié)作平臺內(nèi)資源備份遷移實施情況的統(tǒng)計。④中心機(jī)構(gòu)負(fù)責(zé)對分支機(jī)構(gòu)進(jìn)行檢查和審計,管理協(xié)作平臺內(nèi)部各節(jié)點(diǎn)的名稱、機(jī)構(gòu)性質(zhì)、保存資源的基本情況等信息。⑤中心節(jié)點(diǎn)負(fù)責(zé)完成對協(xié)作平臺內(nèi)保存資源的統(tǒng)計管理,匯集各分支節(jié)點(diǎn)的數(shù)據(jù)保存情況,各分支結(jié)構(gòu)可以通過向中心節(jié)點(diǎn)提交請求,系統(tǒng)了解協(xié)作保存平臺內(nèi)資源的保存情況。⑥中心節(jié)點(diǎn)負(fù)責(zé)提供協(xié)作平臺的保存規(guī)劃管理,在匯集各分支節(jié)點(diǎn)制定的保存規(guī)劃的基礎(chǔ)上,制定協(xié)作平臺的全局保存規(guī)劃和策略,以指導(dǎo)各分支機(jī)構(gòu)制定相應(yīng)的保存實施策略。⑦中心節(jié)點(diǎn)負(fù)責(zé)提供服務(wù)注冊機(jī)制,以靈活嵌入一系列的保存軟件和工具,完成對數(shù)字對象的持續(xù)存儲和管理,保證協(xié)作平臺內(nèi)部資源的安全性、完整性,各分支機(jī)構(gòu)可以通過服務(wù)調(diào)用或服務(wù)嵌入的方式,完成對所需軟件和工具的使用,保證機(jī)構(gòu)內(nèi)資源的有效性。
各分支節(jié)點(diǎn)可以通過向中心節(jié)點(diǎn)注冊,自主加入整個協(xié)作平臺中,其具備完整的保存功能,執(zhí)行機(jī)構(gòu)內(nèi)的資源攝入、存儲、管理、備份、利用等保存功能,是一個獨(dú)立的保存功能節(jié)點(diǎn)。各分支節(jié)點(diǎn)主要完成對保存對象的管理,并對數(shù)據(jù)安全提供保障。分支節(jié)點(diǎn)的主要任務(wù)包括:①負(fù)責(zé)對機(jī)構(gòu)內(nèi)保存資源對象內(nèi)容數(shù)據(jù)和元數(shù)據(jù)的監(jiān)控和管理,可通過嵌入相應(yīng)的校驗工具實現(xiàn)對保存?zhèn)}儲中數(shù)字對象進(jìn)行完整性校驗。②負(fù)責(zé)機(jī)構(gòu)內(nèi)保存資源的安全性和可靠性,配備一定的安全保障機(jī)制,如數(shù)據(jù)存儲狀態(tài)的審計、數(shù)據(jù)狀態(tài)的跟蹤機(jī)制、存儲介質(zhì)的安全保障機(jī)制等。③負(fù)責(zé)機(jī)構(gòu)內(nèi)保存資源的不變性檢查,定期檢查數(shù)據(jù)內(nèi)容是否未經(jīng)任何改變。④負(fù)責(zé)機(jī)構(gòu)內(nèi)保存資源信息的統(tǒng)計,完成對保存資源處理過程的追蹤和檢查,并生成報告。⑤提供資源對象遷移功能,即在中心節(jié)點(diǎn)的統(tǒng)一調(diào)配下,支持將對象從一個分支節(jié)點(diǎn)遷移到另一個分支節(jié)點(diǎn),或從一種媒介遷移到另一種媒介資源。⑥負(fù)責(zé)資源原始資源的攝入和清洗,即各分支節(jié)點(diǎn)的資源攝入模塊要面向資源提交者提供對原始提交信息的管理,如數(shù)據(jù)完整性檢查、數(shù)據(jù)內(nèi)容和元數(shù)據(jù)格式檢測、元數(shù)據(jù)抽取、格式轉(zhuǎn)換、病毒檢測、剔除噪聲數(shù)據(jù)、數(shù)據(jù)提取、有用數(shù)據(jù)提取,以及圖書館相關(guān)資源整合等功能。⑦各分支節(jié)點(diǎn)的輸出模塊主要完成向中心節(jié)點(diǎn)推送資源的功能,可以根據(jù)中心節(jié)點(diǎn)的攝入策略,進(jìn)行資源的主動推送,推送模式可采用實時、定時、觸發(fā)性推送以及手工推送等方式。
各分支節(jié)點(diǎn)可與中心節(jié)點(diǎn)協(xié)商,共同制定符合各分支節(jié)點(diǎn)自身技術(shù)能力和資源規(guī)模的資源復(fù)制策略和保存規(guī)劃,在最大限度保證資源安全性,確保數(shù)字對象長期可用的同時,有效平衡各分支機(jī)構(gòu)節(jié)點(diǎn)的獨(dú)立性,保障資源在協(xié)作平臺中的共享與協(xié)調(diào)。協(xié)作保存平臺中各節(jié)點(diǎn)都設(shè)置獨(dú)立的技術(shù)檢測機(jī)制作為其長期保存計劃的一部分,如攝入文件的格式、文件的完整性、存儲媒介的安全性等。各分支節(jié)點(diǎn)的保存計劃側(cè)重于對本中心內(nèi)部保存文件的日常檢測,而保存中心節(jié)點(diǎn)的保存規(guī)劃除包括對中心節(jié)點(diǎn)內(nèi)部文件的技術(shù)檢測外,還要指導(dǎo)平臺中各節(jié)點(diǎn)完成對其內(nèi)部存儲媒介的檢測。由于各分支節(jié)點(diǎn)所依賴的存儲單元不同,因此中心節(jié)點(diǎn)的保存計劃應(yīng)不但涵蓋其自身的內(nèi)部保存計劃還應(yīng)當(dāng)包括各分支節(jié)點(diǎn)的保存計劃,以指導(dǎo)各分支機(jī)構(gòu)用自己的技術(shù)檢測功能對他們使用的存儲媒介進(jìn)行檢測。
該模型的設(shè)計參考了Chronopolis項目區(qū)分主控節(jié)點(diǎn)和分支節(jié)點(diǎn)的分工協(xié)作模式,參考了LOCKSS項目的基于策略的存檔復(fù)制模式,使得整個模型既具有一定的獨(dú)立性又具有資源共享和易于擴(kuò)展的特點(diǎn)。模型設(shè)計的基本原則包括采用分布式架構(gòu),具有良好的可擴(kuò)展性、靈活性和安全性,數(shù)字資源的副本和原始版本可以分布在不同的地理位置,可以由多個機(jī)構(gòu)共同構(gòu)成,且由不同的管理員完成對系統(tǒng)平臺的分層管理和監(jiān)控,內(nèi)容可以進(jìn)行實況查詢,并定期檢查資源內(nèi)容的完整性及其他問題,通過這些原則的設(shè)定,可以保證大量副本分布在不同的地理位置上,最大程度地保障資源可以在大多數(shù)可預(yù)知的環(huán)境中保存下來。此外,由于該模型遵循節(jié)點(diǎn)自治原則,可以減少系統(tǒng)的維護(hù)和開發(fā)量,保證在不影響已運(yùn)行節(jié)點(diǎn)的情況下,實現(xiàn)多個分支節(jié)點(diǎn)的統(tǒng)一管理,實現(xiàn)保存協(xié)作平臺的可靈活擴(kuò)展。
4結(jié)語
大數(shù)據(jù)環(huán)境下,僅依靠單一機(jī)構(gòu)完成對形態(tài)各異資源的保存與保護(hù),已難以滿足圖書館數(shù)據(jù)服務(wù)對數(shù)據(jù)質(zhì)量、價值密度、可用性和可控性的需求。因此,面對更加艱巨的保存任務(wù)和更為復(fù)雜的保存環(huán)境,采用合作方式開展數(shù)字保存,打破機(jī)構(gòu)問資源保存與共享的諸多壁壘,實現(xiàn)資源保存與服務(wù)的有機(jī)結(jié)合,已成為目前眾多文化遺產(chǎn)機(jī)構(gòu)的必然選擇。圖書館采用集中分散的合作保存模式,依托集中管理——分布存儲——集中整合的資源存儲方式,構(gòu)建數(shù)字資源協(xié)作保存平臺,有利于協(xié)調(diào)和調(diào)度社會資源,共同分擔(dān)保存風(fēng)險和責(zé)任;有利于充分利用現(xiàn)有研究和實踐成果,發(fā)揮各保存機(jī)構(gòu)的數(shù)據(jù)保存優(yōu)勢;有利于實現(xiàn)對數(shù)字資源長期保存的統(tǒng)籌規(guī)劃、分工協(xié)作、分級管理的一體化運(yùn)行;有利于實現(xiàn)對資源對象實施不同層級的保存管理,保障數(shù)字對象的安全性、易控性和可用性;有利于圖書館長期保存角色的轉(zhuǎn)變,即從數(shù)據(jù)的被動存儲與保存,轉(zhuǎn)換到對資源的積極存儲、共享和利用;有利于節(jié)約資金、存儲資源以及人力資源;有利于實現(xiàn)對資源長期存儲、管理和應(yīng)用機(jī)制的不斷完善和優(yōu)化;有利于依據(jù)數(shù)據(jù)的類型、結(jié)構(gòu)特點(diǎn)、使用方向和存儲方式,通過在不同存儲節(jié)點(diǎn)問合理規(guī)劃存儲策略,實現(xiàn)資源的選擇性管理和存儲,保證數(shù)據(jù)在物理特性上安全、正確、完整、可控和可用;有利于保存資源在不同機(jī)構(gòu)的服務(wù)與應(yīng)用中的共享,避免數(shù)據(jù)內(nèi)容誤存和誤用。