劉曉英
(中南大學(xué)圖書館醫(yī)學(xué)分館 長沙 410013)
?
大數(shù)據(jù)時代圖書館數(shù)字資源長期保存問題研究*
劉曉英
(中南大學(xué)圖書館醫(yī)學(xué)分館長沙410013)
〔摘要〕大數(shù)據(jù)時代已經(jīng)到來,數(shù)據(jù)資源長期保存研究和實踐面臨諸多挑戰(zhàn)和問題,數(shù)據(jù)資源長期保存受人、財、技術(shù)、設(shè)備、制度等眾多因素的制約,其中保存對象、保存技術(shù)、保存標(biāo)準、保存時間、保存成本、保存管理、保存法律等問題都是數(shù)據(jù)資源長期保存關(guān)注的核心問題。
〔關(guān)鍵詞〕大數(shù)據(jù)數(shù)字資源圖書館長期保存
〔引用本文格式〕劉曉英:大數(shù)據(jù)時代圖書館數(shù)字資源長期保存問題研究[J].圖書館,2016(7):90-96
2000年以來,隨著信息基礎(chǔ)設(shè)施日益完善,移動互聯(lián)網(wǎng)、云計算、物聯(lián)網(wǎng)等現(xiàn)代信息技術(shù)迅猛發(fā)展,以及社交網(wǎng)絡(luò)、電子商務(wù)、手機客戶端和各種智能服務(wù)終端等迅速普及,數(shù)據(jù)量呈極速增長,“大數(shù)據(jù)時代”已經(jīng)來臨。
“大數(shù)據(jù)(Big Data)”這一術(shù)語最早可追溯至Nutch項目[1]。2008年9月,《Nature》發(fā)表了“Big Data: Science in the petabyte era”系列專題文章,正式提出“大數(shù)據(jù)”這一概念[2]。2011年,《Science》推出 “Dealing with Data”???],討論了大數(shù)據(jù)在科學(xué)研究中的應(yīng)用。隨后,世界各國相繼提出了大數(shù)據(jù)發(fā)展計劃和戰(zhàn)略,IBM、微軟、蘋果等IT巨頭也相繼實施了大數(shù)據(jù)計劃和項目,因而2012年被稱為世界“大數(shù)據(jù)年”。我國從2011年開始引入“大數(shù)據(jù)”,并將其上升為國家戰(zhàn)略。2013年7月習(xí)近平總書記在中國科學(xué)院考察時指出:“大數(shù)據(jù)是工業(yè)社會的‘石油’資源,誰掌握了數(shù)據(jù),誰就掌握了主動權(quán)?!保?]2013年11月,國家統(tǒng)計局與阿里、百度等11家企業(yè)簽署了大數(shù)據(jù)戰(zhàn)略合作框架協(xié)議,將大數(shù)據(jù)發(fā)展推向高峰[5]。2015年8月31日,國務(wù)院發(fā)布《促進大數(shù)據(jù)發(fā)展行動綱要》,對我國大數(shù)據(jù)發(fā)展戰(zhàn)略進行了國家層面的頂層設(shè)計和總體部署。2015年12月16日,國家主席習(xí)近平在第二屆世界互聯(lián)網(wǎng)大會開幕式上發(fā)表主旨演講時指出:“十三五”期間,中國將大力實施網(wǎng)絡(luò)強國戰(zhàn)略、國家大數(shù)據(jù)戰(zhàn)略、“互聯(lián)網(wǎng)+”行動計劃。目前大數(shù)據(jù)已經(jīng)廣泛應(yīng)用于政府管理、社會保障、醫(yī)療衛(wèi)生、食品安全、交通旅游、工業(yè)制造、基礎(chǔ)建設(shè)等領(lǐng)域[6]。
大數(shù)據(jù)(Big Data),或稱為海量數(shù)據(jù)、大規(guī)模數(shù)據(jù),是指數(shù)據(jù)量規(guī)模巨大到無法通過目前主流的軟件工具在合理的時間內(nèi)達到擷取、管理、處理并整理成為幫助企業(yè)經(jīng)營決策的資訊[7]。大數(shù)據(jù)是對通過各種設(shè)備和技術(shù)采集到的海量數(shù)據(jù)的總稱[8]。據(jù)估計,2020年全球數(shù)據(jù)總量約為40ZB[9-10]。
如此巨大的數(shù)據(jù)量給圖書館數(shù)字資源存儲和保存帶來了極為嚴峻的挑戰(zhàn)。哪些數(shù)據(jù)應(yīng)該保存?由誰來保存?如何保存?保存多久?這些問題成為圖書館數(shù)字資源長期保存研究中的焦點,引起了學(xué)術(shù)界和實務(wù)界的廣泛關(guān)注。中國工程院院士、國家科技文獻中心副理事長胡啟恒指出:從總體上講,我國還沒有建立起可靠的數(shù)字資源長期保存體系[11]。因此,國家圖書館總工程師孫衛(wèi)認為:解決電子數(shù)字文獻長期保存問題已刻不容緩[12]。
2.1數(shù)字資源
數(shù)字資源是指一切以數(shù)字形式將文字、圖像、聲音、動畫等存儲在光、磁等介質(zhì)中,通過網(wǎng)絡(luò)通信、計算機及其終端再現(xiàn)出來的信息[13]。是計算機技術(shù)、通信技術(shù)以及多媒體技術(shù)相互融合而成的以數(shù)字形式發(fā)布、存取和利用的信息資源總和[14]。數(shù)字資源具有存儲空間小、數(shù)量龐大、超越時空限制、擴展性強、存取便捷等優(yōu)勢,逐漸成為人們學(xué)習(xí)、生活、工作的主要信息來源。
數(shù)字資源從組織形式上來看有數(shù)據(jù)庫、電子期刊、電子圖書、網(wǎng)頁、多媒體資料等多種類型;從存儲介質(zhì)來看有磁介質(zhì)和光介質(zhì)兩種類型,其中磁介質(zhì)有軟盤、硬盤、磁盤陣列、活動硬盤、優(yōu)盤、磁帶等,光介質(zhì)有CD、DVD、LD等[15]。
隨著計算機技術(shù)和網(wǎng)絡(luò)技術(shù)的快速發(fā)展和廣泛應(yīng)用,特別是移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、智能終端等的日益普及,海量數(shù)字資源已經(jīng)累積成為大數(shù)據(jù)。數(shù)字資源急劇膨脹帶來的直接影響是其快速存取、長期保存和信息安全等問題。
2.2數(shù)字資源長期保存
1991年,耶魯大學(xué)圖書館在大批量數(shù)字化館藏可行性研究報告中首次提出“數(shù)字保存”這一術(shù)語[16]:“數(shù)字保存旨在保障數(shù)字資料可在所需時間段里被持續(xù)訪問的一系列必要的管理工作?!贝撕蟆皵?shù)字保存”逐漸成為科學(xué)研究、圖書情報、檔案管理、信息技術(shù)等領(lǐng)域的重要研究課題。因為數(shù)字資源保存“所需時間段”較長,故也稱“長期保存”(Long-term Preservation)[17]。
數(shù)字資源長期保存是指保證數(shù)字比特流(或數(shù)字資源)可長期維護和內(nèi)容可長期獲取必要的管理活動[18]。數(shù)字資源長期保存有兩層含意:一是長期可存儲(Storage),一是長期可獲?。ˋccess)。長期可獲取是長期存儲的目的,包括技術(shù)層面的可獲取和權(quán)利層面的可獲?。?9]。
大數(shù)據(jù)是現(xiàn)代信息技術(shù)高速發(fā)展的必然產(chǎn)物,它使人類置身于數(shù)字信息海洋卻又面臨前所未有的挑戰(zhàn)。因為數(shù)字資源本身及其存儲載體異常脆弱,具有易改變、易消失、易受環(huán)境影響、存儲載體不穩(wěn)定等特征,且現(xiàn)代信息技術(shù)的日新月異又使得數(shù)字資源的軟硬件載體、技術(shù)框架、數(shù)字化對象等都處于動態(tài)變化之中[20]。因此,大數(shù)據(jù),一方面使海量數(shù)字資源變得易于獲取,而另一方面又使海量數(shù)字資源保存面臨挑戰(zhàn)。
隨著大數(shù)據(jù)時代的到來,整個社會已不可避免地被卷入數(shù)字洪流,如何保存人類社會的數(shù)字文明,圖書館數(shù)字保存工作面臨著越來越多的挑戰(zhàn)和考驗[21]。這些挑戰(zhàn)和考驗不僅源于數(shù)字資源本身增長速度快、生命周期短、格式變化快、數(shù)據(jù)類型多樣、環(huán)境依存度高、載體不穩(wěn)定等特征[22]。還來自于圖書館內(nèi)部管理和外部環(huán)境的動態(tài)變化,如工作流程、管理制度、運行機制、政策法律、技術(shù)更新、資金約束、社會需求、合作協(xié)調(diào)等因素[17]。
數(shù)字資源長期保存是一項復(fù)雜的系統(tǒng)工程,是一個綜合性課題,受人、財、技術(shù)、設(shè)備、制度、法律、政策、管理等眾多因素制約。整體來看,數(shù)字資源長期保存涉及“保存什么”、“如何保存”、“誰來保存”、“保存多久”等一系列問題。具體來看,數(shù)字資源長期保存需要解決保存對象、保存成本、保存技術(shù)、保存期限、保存法律、保存標(biāo)準、保存管理等問題。“保存什么”主要是解決數(shù)字資源長期保存對象的選擇問題,并非所有的數(shù)字資源都需要長期保存且同等對待,因此,如何識別和鑒定數(shù)字資源的保存價值并合理制定分級保存策略才是關(guān)鍵。“如何保存”涉及保存技術(shù)、保存標(biāo)準、保存模式和保存策略等問題?!罢l來保存”涉及保存成本、保存管理和保存法律等問題,就是要確定數(shù)字資源長期保存的實施主體,即數(shù)字資源長期保存由誰來承擔(dān)和實施。數(shù)字資源長期保存并非某一機構(gòu)或組織能獨立完成,需要數(shù)字資源生產(chǎn)者、出版商、保存機構(gòu)、軟硬件開發(fā)者、非盈利組織和政府部門等系統(tǒng)通力合作,才能可持續(xù)發(fā)展。“保存多久”涉及保存期限和時間問題,不同的數(shù)字資源保存期限要求不同。在大數(shù)據(jù)環(huán)境下,圖書館作為數(shù)字資源長期保存的重要承擔(dān)者和實施者,要妥善解決這些問題,面臨著巨大的壓力和挑戰(zhàn)。
據(jù)PRWeb網(wǎng)站報道[23]:英國30余所高校組織了一項圖書館數(shù)字化保存和大規(guī)模數(shù)字化管理調(diào)查,調(diào)查內(nèi)容主要涉及,高校中哪些部門主要承擔(dān)了數(shù)據(jù)保存工作,數(shù)據(jù)保存的成本是多少,使用哪些軟件,有哪些困難,培訓(xùn)教職員工的模式,以及其他在大規(guī)模數(shù)據(jù)管理過程中出現(xiàn)的問題等。這些正是各類數(shù)字資源長期保存承擔(dān)者和實施主體所面臨的重要問題。
在圖書館數(shù)字資源長期保存所面臨的主要問題上,眾多專家學(xué)者都認為,技術(shù)問題(存儲介質(zhì)、數(shù)據(jù)格式、數(shù)據(jù)恢復(fù)、數(shù)據(jù)免疫、數(shù)據(jù)再生、技術(shù)更新、標(biāo)準與規(guī)范、模式與策略)、管理問題(法律法規(guī)、公共標(biāo)準、信息安全、組織機構(gòu)、運行機制、合作協(xié)調(diào))、經(jīng)濟問題(資金投入、運行費用、商業(yè)運作)和資源選擇問題(價值評估、內(nèi)容評價和資源選擇)等是主要挑戰(zhàn)[14, 24-33]。這些問題可大致歸結(jié)為規(guī)范、技術(shù)、管理三個維度,內(nèi)容、格式、載體、系統(tǒng)、安全五個方面。
在大數(shù)據(jù)背景下,由于數(shù)據(jù)總量以每年62%的速率按指數(shù)增長規(guī)律遞增,加上人們對數(shù)字資源長期保存的要求不斷提高(如要求數(shù)據(jù)存儲后不改變、不降低分辨率、不被污損、不消失且數(shù)據(jù)可恢復(fù)、可再生),而目前數(shù)據(jù)保存狀況正日益惡化[34],所以圖書館數(shù)字資源長期保存是一個極為困難而又日益迫切的問題。
圖書館數(shù)字資源長期保存首先解決的問題是要確定保存對象和范圍,即明確哪些數(shù)字資源需要長期保存[14]。在大數(shù)據(jù)環(huán)境下,圖書館要保存所有數(shù)字資源是不現(xiàn)實的,因為圖書館數(shù)字資源長期保存受經(jīng)濟、技術(shù)、設(shè)備、法律、政策等多種外部條件制約,既然不能全部保存,那就應(yīng)該有所選擇,因而哪些數(shù)字資源需要長期保存就成為數(shù)字保存關(guān)注的首要問題。所以,圖書館應(yīng)該制訂數(shù)字資源鑒別與選擇標(biāo)準,將具有保存價值的數(shù)字資源挑選出來長期保存[24]。
數(shù)字資源作為保存對象,因其在存在形式、依附載體以及擁有者等方面具有多樣性,所以如何根據(jù)數(shù)字資源的特點、載體、需求、服務(wù)對象以及經(jīng)費等因素確定數(shù)字保存對象和階段性保存目標(biāo)至關(guān)重要[27]。面對大數(shù)據(jù),圖書館既無能力,也無必要,更沒有充足的資源保存所有數(shù)字信息,關(guān)鍵問題在于,圖書館如何從內(nèi)容繁雜、質(zhì)量參差的龐大數(shù)字資源中確定數(shù)字資源保存和選擇標(biāo)準,并對數(shù)字資源進行價值評估,依此確定圖書館數(shù)字資源長期保存的范圍和程度[35]。
圖書館數(shù)字資源長期保存對象的選擇包括資源選擇和媒體選擇。專家指出[24,27,35]:在資源選擇上應(yīng)該首先保存容易丟失、與未來有關(guān)聯(lián)且有重要價值的數(shù)字資源。而媒體選擇涉及磁、光等存儲介質(zhì)的選擇及其組合(如只讀式光盤、一次寫入光盤、可擦式光盤、硬磁盤、縮微膠卷、光盤與磁盤陣列等)。世界各國的數(shù)字資源保存機構(gòu)和保存項目都對長期保存對象進行了不同的規(guī)定,做出了不同的選擇。如,美國NDIIPP項目的長期保存對象基本上包含了Web信息、視頻、音頻、數(shù)字期刊、電子圖書、數(shù)字電視等資源[36]。德國國家科技圖書館的TIB致力于科學(xué)原始數(shù)據(jù)的保存與訪問。DARIAH則專注于所有歐洲數(shù)字化人文和文化遺產(chǎn)信息保存。上海圖書館則重點實現(xiàn)了館藏文化遺產(chǎn)的長期保存[27]。
數(shù)字資源長期保存的經(jīng)濟問題主要涉及資金投入、維護費用、商業(yè)模式等問題。隨著海量數(shù)字資源的急劇增長,數(shù)字資源長期保存的資金投入越來越大,維護成本和費用也越來越高,就像滾雪球一樣,不斷放大。數(shù)字資源長期保存的巨額投資該由誰來承擔(dān)?是由國家統(tǒng)籌規(guī)劃,還是由各保存機構(gòu)自籌,亦或兩者共同承擔(dān),能否通過商業(yè)化運作模式解決數(shù)字資源長期保存的資金來源、維護費用和可持續(xù)投資?這些經(jīng)濟問題引起了圖書館數(shù)字資源長期保存界的廣泛關(guān)注,并嘗試用不同的方式和途徑來解決數(shù)字資源長期保存的經(jīng)濟問題。
英國教育部、文化和科技部聯(lián)手資助的Testbed 計劃研究了數(shù)字資源長期保存的成本影響因素,設(shè)計了數(shù)字保存成本模型,并將其分為五個方面[37]:①數(shù)字存儲系統(tǒng)的花費。包括:物理空間:服務(wù)器存放空間和辦公空間;數(shù)字存儲庫硬件:服務(wù)器、光盤、磁帶和其他存儲媒介、備份系統(tǒng)和網(wǎng)絡(luò)連接;數(shù)字存儲庫軟件:操作系統(tǒng)、數(shù)據(jù)庫、安全系統(tǒng)、記錄管理軟件、通訊軟件,軟件測試和評估;軟件保存系統(tǒng):仿真保存已有軟件和新軟件的應(yīng)用環(huán)境、測試和評估軟件保存。②員工花費。③開發(fā)軟件和記錄保存方法的花費。④實施保存行動的花費。⑤其他影響總開銷的因素。這一模型為我們確定數(shù)字資源長期保存的資金投入量提供了依據(jù)。
目前我國圖書館進行數(shù)字資源長期保存實踐所需的經(jīng)費主要是由上級單位撥款和圖書館自籌,而由國家或政府部門專項投資或其他機構(gòu)贊助的極少,可持續(xù)性難以保證。據(jù)調(diào)查,在我國圖書館數(shù)字資源長期保存的經(jīng)費來源中,上級部門撥款占68.42%,圖書館自籌占32.89%,國家或政府部門直接投資僅占15.79%,出版商或用戶贊助十分稀少[38]。
圖書館在數(shù)字資源長期保存規(guī)劃時,要充分考慮到可持續(xù)發(fā)展問題,應(yīng)該尋求多方資金支持,只有逐步形成多元化的資金投入體系,才能獲得持續(xù)的經(jīng)費來源。專家認為,應(yīng)該按照共同投入、共同開發(fā)和共同受益的原則,大力鼓勵企業(yè)、社會團體、基金會和個人投資,并且多渠道、多形式地尋求多方資金支持,這樣才可能在一定程度上緩解數(shù)字資源長期保存資金的窘?jīng)r。美國和歐洲的一些數(shù)字資源長期保存項目開始嘗試采用商業(yè)化運作模式解決巨額資金投入問題[39]??梢酝ㄟ^出租存儲空間、委托存儲等模式實現(xiàn)數(shù)字資源長期保存的可持續(xù)發(fā)展。
數(shù)字資源長期保存的技術(shù)問題是長期保存的核心問題,是重中之重,而關(guān)鍵技術(shù)、存儲載體、硬件平臺、軟件系統(tǒng)、實現(xiàn)工具、格式變化、技術(shù)更新等技術(shù)因素則是數(shù)字資源長期保存面臨的最嚴峻挑戰(zhàn)[14]。因此,張曉林指出:目前我國圖書館數(shù)字資源長期保存面臨嚴重的技術(shù)危機[11]。
在技術(shù)問題中,長期保存技術(shù)、長期保存系統(tǒng)和長期保存策略倍受關(guān)注。
(1)長期保存技術(shù)
數(shù)字資源長期保存面臨兩大技術(shù)難題[14]:一是防止數(shù)字資源變更和破壞?!懊襟w的腐壞與脆化會帶來信息的丟失,即使保存條件再好,數(shù)字媒體的保存壽命也是有限的?!遍L期保存中的數(shù)字資源會隨外界環(huán)境變化而不斷變化,因此,需要在其生命周期中經(jīng)歷多次遷移,包括硬件、軟件、格式、版本、訪問點、載體等多種遷移。一是維護數(shù)字資源的長期真實性和可獲得性。由于數(shù)字資源載體極易受外界環(huán)境和條件影響,因此,必須對保存的數(shù)字資源進行定期檢測,以保證數(shù)據(jù)真實和完整。為了防止數(shù)字資源在長期保存過程中變更和被破壞,并保證其長期真實性和可獲得性,衍生出一系列數(shù)字資源長期保存技術(shù)。
數(shù)字資源長期保存涉及多項關(guān)鍵技術(shù),但根據(jù)其特點大體可分為遷移和仿真兩大類[40]。數(shù)字資源長期保存中常見的技術(shù)有拷貝、仿真、遷移、封裝、風(fēng)干、標(biāo)準化、復(fù)制(數(shù)據(jù)備份)、計算機博物館(技術(shù)保存)、通用計算機虛擬(UVC)、數(shù)字再造技術(shù)(數(shù)據(jù)恢復(fù)、數(shù)據(jù)考古)、再生性保護、數(shù)據(jù)抽取、更新、轉(zhuǎn)換、自動存儲、數(shù)字圖形輸入板、數(shù)據(jù)檢測等技術(shù)[21,24]。每種技術(shù)和方法都各有優(yōu)劣,應(yīng)根據(jù)圖書館數(shù)字資源長期保存的需要、目標(biāo)、資源特點等進行綜合選擇。
此外,數(shù)字資源長期保存技術(shù)還面臨系統(tǒng)異構(gòu)挑戰(zhàn),包括網(wǎng)絡(luò)協(xié)議異構(gòu)(如http、ftp、GridFTP、SOAP)、遠程執(zhí)行方案異構(gòu)(如Web services、RMI、CORBA)、用戶平臺異構(gòu)(如操作系統(tǒng)異構(gòu))以及認證機制異構(gòu)(如Kerberos、GSI)等[41]。如何實現(xiàn)這些異構(gòu)系統(tǒng)之間交互通信和訪問也成為數(shù)字資源長期保存面臨的技術(shù)難題之一。
(2)長期保存系統(tǒng)
隨著數(shù)字資源長期保存的不斷發(fā)展和完善,歐美等發(fā)達國家產(chǎn)生了一批數(shù)字資源長期保存系統(tǒng),如LOCKSS、DSpace、DAITSS、Fedora、DIAS、PANDAS、EPrint、PAWN和NEDLIB等。這些系統(tǒng)基于OAIS模型和開源代碼,多方式、多層次地開展了數(shù)字資源長期保存實踐。其中LOCKSS、DSpace、DAITSS、PAWN 和NEDLIB等長期保存系統(tǒng)影響力較大且日益成熟,并得到了廣泛應(yīng)用。中國科學(xué)院國家科學(xué)圖書館就是采用Fedora作為底層存儲系統(tǒng),構(gòu)建了電子期刊長期保存系統(tǒng)(CASE-Journal Archiving System)[42-44]。
(3)長期保存策略
數(shù)字資源長期保存過程涉及多種技術(shù)、系統(tǒng)和工具,而每種技術(shù)、系統(tǒng)和工具都有其優(yōu)缺點及適用性,因此需要采用一定的策略與方案對長期保存技術(shù)、系統(tǒng)和工具進行選擇和組合。
在數(shù)字資源長期保存策略中,技術(shù)方案是基礎(chǔ)。而技術(shù)方案又取決于被選擇保存的資源對象及其技術(shù)特征。目前有多種技術(shù)方案和數(shù)據(jù)標(biāo)準模型可供選擇,技術(shù)方案有遷移、仿真、UVC、封裝、技術(shù)保存、數(shù)據(jù)再造等,數(shù)據(jù)開放描述與標(biāo)準化模型有元數(shù)據(jù)、永久標(biāo)識符或唯一資源標(biāo)識符、文件格式注冊、OAIS模型等[26]。不同的保存策略原理不同,適用于不同的資源對象和保存需求,成本相差也很大。重用和開源是目前長期保存技術(shù)、系統(tǒng)和工具的兩大特點,大量保存系統(tǒng)和工具以及模塊都以開源形式發(fā)布和共享,間接地降低了保存成本,提升了投資價值[24]。
數(shù)字資源長期保存涉及眾多的法律問題,而法律問題本身是一個十分復(fù)雜和棘手的問題。不同的國家有不同的法律,不同的資源對象有不同的法律問題,不同的承擔(dān)和實施主體也有不同的法律問題,但目前國內(nèi)外還沒有出臺專門針對數(shù)字資源長期保存的法律法規(guī)??傮w來看,目前數(shù)字資源長期保存主要涉及版權(quán)、安全、隱私等法律問題。這些法律問題主要源自兩個方面:一是數(shù)字資源及軟件本身涉及的版權(quán)、許可協(xié)議、采購合同、呈繳制等法律問題,數(shù)字資源又包括商業(yè)數(shù)據(jù)庫和網(wǎng)絡(luò)公開數(shù)字資源;一是長期保存行為涉及的保存權(quán)、復(fù)制權(quán)、隱私權(quán)、使用權(quán)、安全風(fēng)險等法律問題。
圖書館數(shù)字資源長期保存中涉及的法律問題不可小覷,一點疏忽就可能危及數(shù)字資源長期保存全局。目前數(shù)字資源所有者主要通過“許可”模式授權(quán)合法用戶使用數(shù)字資源[14]。也就是說圖書館所購數(shù)字資源并未獲得所有權(quán),而只能以獲取得“使用權(quán)”的方式利用數(shù)字資源[26]。數(shù)字版權(quán)和許可協(xié)議禁止圖書館復(fù)制或存儲數(shù)字資源,如果圖書館希望長期保存這些數(shù)字資源,就需要獲得“永久使用權(quán)”,就必須在許可協(xié)議中增加“永久保存”條款,或者利用圖書館復(fù)制權(quán)例外解決數(shù)字資源長期“保存權(quán)”問題[45]。也有不少學(xué)者呼吁國家出臺相應(yīng)的政策和法律法規(guī),要求信息生產(chǎn)者和出版商將數(shù)字資源保存權(quán)轉(zhuǎn)讓給圖書館,或建立相應(yīng)的數(shù)字資源長期保存機制,確定數(shù)字資源長期保存中的權(quán)利和責(zé)任,如建立數(shù)字資源呈繳制度,將一些數(shù)字資源保存權(quán)轉(zhuǎn)移或授權(quán)給其他機構(gòu)(如圖書館、檔案館),或國家指定的機構(gòu)保存[19]。
在大數(shù)據(jù)和互聯(lián)網(wǎng)+環(huán)境下,因特網(wǎng)數(shù)字資源長期保存法律問題尤其引人關(guān)注,眾多機構(gòu)在缺乏嚴密的授權(quán)機制下自行大量采集全球公開網(wǎng)頁并加以保存,圖書館也積極參與其中。這是否會引起數(shù)字資源版權(quán)糾紛,是否會侵犯隱私和商業(yè)秘密,或者導(dǎo)致保存權(quán)之爭?如英國數(shù)個圖書館聯(lián)手開展了一項歷史資料保存計劃,12個月時間就保存了10億網(wǎng)頁資料[48]。這些公開的網(wǎng)頁資料是否需要授權(quán)才能長期保存?又應(yīng)該由誰授權(quán)?如何授權(quán)?授權(quán)長期保存的數(shù)字資源存在的安全風(fēng)險由誰承擔(dān)?如何防范人為破壞?這些都是數(shù)字資源長期保存急需要研究和解決的法律問題。
我們知道有些數(shù)字資源需要長期保存,甚至永久保存。但并非所有數(shù)字資源需要保存的期限一樣,用戶需求不同、內(nèi)容價值不同、存儲介質(zhì)不同保存期限長短也會不同。“長期保存”的“長期”應(yīng)該是多久?這是一個難以確定的問題,也沒有明確統(tǒng)一的標(biāo)準。
長期保存期限主要受數(shù)字資源內(nèi)容價值、用戶需求和存儲介質(zhì)三大因素制約。
首先從內(nèi)容價值和用戶需求來看,不同類型的數(shù)字資源因價值不同、用戶需求不同,保存期限差異巨大。例如,美國職業(yè)安全與衛(wèi)生管理局(OSHA)要求每一事故文檔記錄至少保留30年;美國健康保險便利轉(zhuǎn)移和責(zé)任法案(HIPAA)規(guī)定:數(shù)字醫(yī)療記錄至少保留7年,而少年患者醫(yī)療記錄需要保留至他們21歲之后再延長7年,慢性病或需要以后處理的病歷,數(shù)字數(shù)據(jù)必須保存幾十年;有些類型的數(shù)字數(shù)據(jù)需要保存很長時間,以備查用,如建筑圖紙(在樓房、橋梁、大壩、水渠等修理或翻新中相當(dāng)重要)、工程圖紙、計算結(jié)果、設(shè)計、原始資料編碼和歷史記錄等[34]。
其次從存儲介質(zhì)來看,數(shù)字資源以各種格式存儲在磁、光等存儲介質(zhì)上,使用壽命完全依賴于其讀取數(shù)據(jù)所需的軟硬件更新?lián)Q代速度和存儲介質(zhì)壽命,也就是說,數(shù)字資源長期保存期限取決于存儲介質(zhì)及其利用環(huán)境的整體壽命[49]。我們知道,石頭和粘土可以保存記錄幾百年甚至幾千年,羊皮紙和紙張如能精心保管,可以保存100多年,而賽璐珞照片、醫(yī)療記錄、電影膠片和縮微膠片等在氣候條件控制良好的環(huán)境中也能大約保存100年。但在計算機和數(shù)字化存儲技術(shù)高度發(fā)達的大數(shù)據(jù)時代,數(shù)字資源保存時長卻不容樂觀。磁介質(zhì)數(shù)據(jù)每2-3年要重寫一次,否則會因輻射、氧化和退化等造成數(shù)據(jù)損壞。即使是光盤,雖然其保存壽命可達50年,但一旦寫入數(shù)據(jù),其壽命就會縮減至5年。目前還沒有哪種數(shù)字存儲媒介在結(jié)構(gòu)上能使數(shù)字數(shù)據(jù)安全保存幾年以上。所以,數(shù)字資源長期保存需要建立一種長期保存機制,采用一定的技術(shù)手段和管理措施,使數(shù)字資源在軟硬件環(huán)境不斷變化的情況下,能夠真實、完整地保存(至少 5 年以上),并能夠得到有效利用[17]。
數(shù)字資源長期保存時間還需要綜合考慮存儲介質(zhì)和保存成本。不同的存儲介質(zhì)保存時長不一,成本差異巨大,而且很多存儲介質(zhì)由于各種原因不適合于長期保存。從保存時長來看,在現(xiàn)有的存儲介質(zhì)中,最適合于長期保存的是特殊光盤,其后依次為磁帶、一般光盤和磁盤陣列,單體硬盤則最不適合于長期保存。而從保存成本來看,磁盤陣列成本最高,磁帶和光盤居中,且能脫機保存,而磁盤陣列則不能長期脫機運行[14]。綜合考慮保存期限和成本等因素,特殊光盤和專業(yè)磁帶最適合于長期保存,可以保存30-50年。如中國國家圖書館數(shù)字資源長期保存就是根據(jù)這些因素確定了數(shù)字館藏分級保存策略[12]。
標(biāo)準與規(guī)范是數(shù)字信息資源長期保存各個環(huán)節(jié)之間互操作的基礎(chǔ),貫穿于其生命周期的全過程,對長期保存系統(tǒng)建設(shè)意義重大[50]。因此,劉家真指出[51]:創(chuàng)建與使用有利于數(shù)字信息資源長期存取的標(biāo)準與規(guī)范是管理數(shù)字文獻的一項首要工作??梢哉f,數(shù)字資源長期保存標(biāo)準與規(guī)范問題既是一個技術(shù)和管理問題,但又超越了技術(shù)和管理的范疇。數(shù)字資源長期保存涉及數(shù)據(jù)存取規(guī)范、數(shù)據(jù)共享和互訪標(biāo)準、數(shù)據(jù)安全和認證等問題,是長期保存實現(xiàn)的基礎(chǔ)問題。
數(shù)字資源長期保存實踐與研究始于20世紀90年代,長期保存技術(shù)系統(tǒng)和實踐項目在經(jīng)歷初期的自行建設(shè)、各自為政、重復(fù)建設(shè)、資源浪費等失敗之后,逐步發(fā)展為跨領(lǐng)域、跨行業(yè)、跨系統(tǒng)、跨區(qū)域的合作與共享,目前已積累形成了一些成熟的國際標(biāo)準和規(guī)范,這些標(biāo)準與規(guī)范是開展數(shù)字資源長期保存活動的指南和基礎(chǔ)。有METS(Metadata Encoding &Transmission Standard,元數(shù)據(jù)編碼傳輸標(biāo)準)、PREMIS(Preservation Metadata Implementation Strategies,保存元數(shù)據(jù)實施策略)等保存元數(shù)據(jù)標(biāo)準,有ISO14721數(shù)字資源長期保存系統(tǒng)核心標(biāo)準,有開放檔案信息系統(tǒng)(Open Archival Information System,OAIS)參考模型,有數(shù)字資源長期保存指南文件ISO/TR18492和數(shù)字資源長期保存格式標(biāo)準ISO19005-1:2005[14,19,24]。我國也于2002 年 10 月由中國科技信息研究所、中國科學(xué)院文獻情報中心和中國國家圖書館聯(lián)合發(fā)起《我國數(shù)字圖書館標(biāo)準與規(guī)范建設(shè)》項目[52]。
除標(biāo)準與規(guī)范之外,合作與共享是長期保存領(lǐng)域的永恒主題,涉及地域間、機構(gòu)間、學(xué)科間、集合間、系統(tǒng)間等的協(xié)作與共享,以及合作與共享策略、技術(shù)、工具、平臺、元數(shù)據(jù)等問題。其中數(shù)據(jù)互操作是長期保存活動中實現(xiàn)數(shù)據(jù)共享和互訪的重要問題[27]。數(shù)據(jù)共享和訪問主要集中在互操作、統(tǒng)一存儲格式、研發(fā)數(shù)據(jù)訪問和提供開放接口等方面[21]。隨著長期保存系統(tǒng)的不斷發(fā)展,數(shù)據(jù)、系統(tǒng)及服務(wù)可信度日益受到關(guān)注,數(shù)據(jù)認證和系統(tǒng)安全問題也不容忽視[53]。
數(shù)字資源長期保存活動是一項復(fù)雜的系統(tǒng)管理工程,需要合理有效的管理來保障其正常、正確、有序地實施。管理是一個綜合性課題,包含多項管理要素。在影響數(shù)字資源長期保存的各種因素中,組織和管理要素最為關(guān)鍵。組織要素包括職能聲明、業(yè)務(wù)連續(xù)性保障、組織機構(gòu)與人員設(shè)置、資金保障等,管理要素包括業(yè)務(wù)連續(xù)性計劃、業(yè)務(wù)流程管理(工作流程和操作規(guī)范)、風(fēng)險控制、合同許可義務(wù)、質(zhì)量管理、文檔管理等。
從廣義來講,標(biāo)準、規(guī)范、法律、法規(guī)、政策、制度、機制、組織、安全、風(fēng)險、資源等都屬于管理問題。從狹義來看,數(shù)字資源長期保存的管理問題涉及質(zhì)量識別、風(fēng)險防范(安全策略、責(zé)任機制)、運行機制(分級存儲、分層管理、可擴展、監(jiān)控、生命周期、遺忘管理)、資源配置(人、財、物保障)、業(yè)務(wù)流程(工作流程和操作規(guī)范)、人員培訓(xùn)、組織機構(gòu)、數(shù)據(jù)監(jiān)管等一系列具體問題。隨著全球數(shù)字資源長期保存項目和系統(tǒng)的部署與運行,數(shù)字資源種類不斷增加和長期保存規(guī)模不斷擴大以及數(shù)字資源監(jiān)控需求不斷增強,數(shù)據(jù)監(jiān)管成為長期保存研究的重要領(lǐng)域。
具體到某個機構(gòu)或系統(tǒng)來說,數(shù)字資源長期保存涉及資源層、實施層和應(yīng)用層的有效管理。資源層涉及保存對象和保存資源(實施保存中涉及的資金、技術(shù)、系統(tǒng)、人員和機構(gòu)等)的管理。實施層的重點是工作流程,包括工作流程設(shè)計、工作流程自動化和工作流程管理。定義清晰、權(quán)責(zé)明確的工作流程對降低成本、及時發(fā)現(xiàn)錯誤、保障長期保存系統(tǒng)的正常運轉(zhuǎn)十分關(guān)鍵,工作流程管理貫穿數(shù)字資源長期保存的整個生命周期。而數(shù)據(jù)、系統(tǒng)與服務(wù)的可信度以及使用過程中的權(quán)益管理是應(yīng)用層管理的重心,關(guān)系到整個保存體系的安全和可信賴程度[53]。
數(shù)字資源長期保存是一個復(fù)雜的系統(tǒng)工程,涉及人員、資金、技術(shù)、設(shè)備、政策、法律、制度、管理等諸多要素,是一項長期艱巨的任務(wù)。隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)資源長期保存研究和實踐面臨諸多挑戰(zhàn)和問題,任重道遠。數(shù)字資源長期保存不僅是一個技術(shù)難題,更是一個管理難題,需要統(tǒng)籌規(guī)劃、協(xié)調(diào)合作,并建立有效的管理體制、運行機制、政策法規(guī)、標(biāo)準規(guī)范以及人才、資金、技術(shù)等資源綜合保障體系,才能有效實現(xiàn)。早在1996 年,美國研究圖書館協(xié)會(Research Library Group,RLG) 發(fā)表的《數(shù)字信息保存》報告中就已經(jīng)提到[53]:保存數(shù)字資源會比保存紙本相似物需要更大的責(zé)任、更好的技術(shù)和更多的資源,僅僅由保存機構(gòu)自己宣稱可以保存數(shù)字資源是不可靠的,需要一種公開和公共機制來證明保存機構(gòu)確實有能力勝任數(shù)字資源長期保存任務(wù)。但愿圖書館界能勇于迎接挑戰(zhàn),早日攻克這一難題。
(來稿時間:2016年4月)
參考文獻:
1.編輯部.大數(shù)據(jù)(Big Data)[J].中國無線電,2014(9):43
2. Nature. Big Data [EB/OL].[2016-03-10].http://www.nature. com/news/specials/big data/index.html
3. Science. special online collection: Dealing with data [EB/ OL].[2016-03-10].http://www.science mag.org/site/special/data/2011
4. 郭華東,王力哲,陳方,等.科學(xué)大數(shù)據(jù)與數(shù)字地球[J].科學(xué)通報,2014(4):1047-1054
5.周寶曜,劉偉,范承工.大數(shù)據(jù)戰(zhàn)略·技術(shù)·實踐[M].北京:電子工業(yè)出版社,2013
6.習(xí)近平在第二屆世界互聯(lián)網(wǎng)大會開幕式上的講話[EB/ OL].[2016-04-10].新華網(wǎng). http://news.xinhuanet.com/video/2015 -12/16/c_1117481089.htm
7.百度百科.大數(shù)據(jù)[EB/OL].[2015-04-08].http://baike. baidu.com/link?url=aCqG1nPdBCxi0BxfSn
8. ACCA 中國事務(wù)總監(jiān) 梁淑屏. 大數(shù)據(jù),大挑戰(zhàn)[N]. 中國會計報/2014 年/1 月/10 日/第 007 版
9. Gantz J,Reinsel D. The Digital Universe In 2020: Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East[M]. Framingham: IDC Analyze the Future,2012
10.(英)維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時代:生活、工作與思維的大變革[M].盛楊燕,周濤, 譯.杭州:浙江人民出版社,2013
11.劉瑞英. 國內(nèi)外數(shù)字資源長期保存實踐項目綜述[J].光盤技術(shù),2009(10):7-8
12.《國家圖書館學(xué)刊》記者.解決電子數(shù)字文獻長期保存問題刻不容緩——國家圖書館孫衛(wèi)總工程師專訪之三[J].國家圖書館學(xué)刊,2006(3):52-55
13.張小芳.數(shù)字信息資源長期保存體系研究[J].四川圖書館學(xué)報,2011(5): 44-46
14.邢軍.國家圖書館數(shù)字資源長期保存現(xiàn)狀與研究[J].數(shù)字與縮微影像, 2011(4):18-22
15.何雪英.數(shù)字資源長期保存研究[J].圖書館學(xué)研究,2009(9):81-83,86
16.Digital Preservation Coalition. Preservation Management of Digital Materials: The Handbook.[EB/OL]. [2016-03-06].http:// www.dpconline.org/component/docman/doc_download/299-digitalpreservation-handbook
17.劉越男, 劉語葉, 李雪君, 等. 電子文件的長期保存:多維互動的領(lǐng)域——第四屆中國電子文件管理論壇綜述[J].檔案學(xué)研究,2014(4):56-60
18. RLG. Trusted Digital Repositories: Attributes andResponsibilities[EB/OL].[2016-03-05]. http://www.rlg.org/ longterm/repositories.pdf
19.旻蘇,李景,殷立新, 等. 數(shù)字資源長期保存的標(biāo)準與法律問題綜述[J]. 標(biāo)準科學(xué), 2009(5):46-47, 53-57
20.郭紅梅,張智雄.歐盟數(shù)字化長期保存研究態(tài)勢分析[J].中國圖書館學(xué)報,2014(2):120-127
21.吳振新,付鴻鵠,李文燕, 等.第10屆數(shù)字對象長期保存國際會議(IPRES2013)綜述[J].圖書情報工作,2014(4):127-133
22.王志庚,肖紅.全球圖書館自動化系統(tǒng)發(fā)展綜述[J].圖書館建設(shè),2012(7):85-87,91
23.學(xué)術(shù)圖書館數(shù)據(jù)保存實踐國際調(diào)查報告發(fā)布[EB/ OL]. [2016-03-10]. http://www.csstoday.net/xueshuzixun/ jishizixun/82681.html
24.張杰,伍若梅.我國數(shù)字資源長期保存策略研究綜述[J].圖書館學(xué)刊,2013(4):135-138
25.宛玲,張長安. 我國高校數(shù)字資源長期保存權(quán)交易現(xiàn)狀的調(diào)研[J].圖書館雜志,2013(1):51-55, 105
26.宛玲,吳振新,郭家義.數(shù)字資源長期戰(zhàn)略保存的管理與技術(shù)策略——中歐數(shù)字資源長期保存國際研討會綜述[J].現(xiàn)代圖書情報技術(shù),2005(1):56-60
27.吳振新,劉建華,張玫, 等. 數(shù)字資源長期保存:當(dāng)前進展和最佳實踐——2007年數(shù)字資源長期保存國際會議(IPRES2007)綜述[J]. 現(xiàn)代圖書情報技術(shù),2007(11):1-6
28.劉家真. 技術(shù)更新與數(shù)字信息長期保存調(diào)研紀要[J].檔案管理,2004(1):18-20
29.劉家真.數(shù)字信息保存的策略[J].情報學(xué)報,2000 (4):349-353
30.劉家真,許杰.影響我國數(shù)字信息長期保存的問題與解決方案[J].檔案學(xué)研究,2008(4):50-55
31.趙成軍.數(shù)字信息長期保存面臨的挑戰(zhàn)與發(fā)展策略[J].綏化化學(xué)學(xué)報,2011(1):169-170
32.柯燕紅. 試論我國數(shù)字信息長期保存的挑戰(zhàn)及策略[J].新世紀圖書館,2013(5):62-65
33.周玲玲. 數(shù)字資源長期保存在歐盟的戰(zhàn)略部署[J].情報理論與實踐,2010(3):125-128
34.張進京.數(shù)字數(shù)據(jù)的長期保存[EB/OL]. [2016-04-05]http://blog.sina.com.cn/s/blog_4843fbb101016xfm.html
35.徐寬,任河. 數(shù)字資源長期保存的內(nèi)容價值判斷依據(jù)研究[J].圖書情報工作,2013(7):72-75, 100
36. Parochial Libraries Act1708[EB/OL]. [2016-03-20]. http://www·statutelaw·gov·uk/content·aspx? LegType= All+P rimary&PageNumber=1&NavFrom=2&parentActiveTextDocId=151 6319&ActiveTextDocId=1516319&filesize=15263
37.蘇小波,常娥.數(shù)字資源長期保存的成本影響因素分析[J].圖書與情報,2011(1):20-24, 44
38.王若琳,燕輝,黃輝,等. 我國圖書館數(shù)字資源長期保存策略運用現(xiàn)狀調(diào)查分析[J].圖書館,2014(2):56-59
39.張艷敏,馬秀峰.中外數(shù)字資源長期保存策略比較研究[J].圖書館學(xué)研究,2009(6):29-32
40.王小林. 數(shù)字資源長期保存技術(shù)綜述[J]. 數(shù)字與縮微影像,2011(3):31-35
41.白如江,冷伏海.“大數(shù)據(jù)”時代科學(xué)數(shù)據(jù)整合研究[J].情報理論與實踐,2014(1):94-99
42.張莉.圖書館在操作系統(tǒng)中實現(xiàn)數(shù)字信息長期保存的技術(shù)探討[J]. 圖書館理論與實踐,2010(12):69-72
43.吳振新,向菁.開源長期保存系統(tǒng)DAITSS研究[J].現(xiàn)代圖書情報技術(shù),2009(7):18-22
44.田碩,黃國彬.近十年國外數(shù)字資源長期保存研究綜述[J].圖書館雜志,2011(7):8-13
45.黃國彬.復(fù)制權(quán)例外對圖書館數(shù)字資源長期保存的影響剖析[J].圖書情報工作,2012(1):47-50,54
46.楊梅玲.淺談圖書館數(shù)字資源的建設(shè)[J].南昌教育學(xué)院學(xué)報,2011(8):194-196
47.鐘源,吳振寰,劉燦姣.數(shù)字資源長期保存館社合作模式調(diào)查分析[J].圖書情報工作,2014(1):91-95
48.英國圖書館:12個月保存了10億網(wǎng)頁資料[EB/OL].[2016-04-10]. http://www.199it.com/archives/110284.html
49.李菲菲,周文云,王喜.數(shù)字資源長期保存項目接口的技術(shù)難點分析[J].情報探索,2013(7):103-105
50.郭家義.數(shù)字信息資源長期保存系統(tǒng)的標(biāo)準體系研究[J]. 現(xiàn)代圖書情報技術(shù),2006(4):14 -18
51.劉家真.標(biāo)準化與數(shù)字信息的長期存?。跩].圖書館雜志,2001(9):6-9
52.中國數(shù)字圖書館標(biāo)準規(guī)范建設(shè)項目[EB/OL].[ 2016-03-20].http://cdls.nstl.gov.cn
53.吳振新. 數(shù)字資源長期保存可信賴認證研究發(fā)展綜述[J].中國圖書館學(xué)報,2015(3):114-126
*本文湖南省圖書館學(xué)會項目“數(shù)字時代的圖書館績效評價研究”(項目編號:XHYB1030)、湖南省高校圖工委項目“網(wǎng)絡(luò)環(huán)境下的圖書館評價研究”(項目編號:2015L003)成果之一。
〔分類號〕D913
〔作者簡介〕劉曉英(1975-),女,碩士,中南大學(xué)圖書館醫(yī)學(xué)分館副研究館員。
Long-term Preservation of Library Digital Resources in Big-data Age
Liu Xiaoying
( Library of Center South University )
〔Abstract〕The With the advent of big-data long-term preservation research and practice of digital resources face many problems and challenges. Long-term Preservation of digital resources are conditioned by many factors, such as person,money, technology, equipment and regime, and so on. And the core problems are preservation object, technology, standard,term, cost, management and law.
〔Keywords〕Big-dataDigital resourcesLibraryLong-term preservation.