(中國(guó)科學(xué)技術(shù)信息研究所)
我國(guó)電子出版物呈繳標(biāo)準(zhǔn)體系構(gòu)建研究
劉春燕(中國(guó)科學(xué)技術(shù)信息研究所)
當(dāng)前我國(guó)電子出版物呈繳標(biāo)準(zhǔn)還只是針對(duì)具體數(shù)字對(duì)象,分階段制定相關(guān)的具體技術(shù)標(biāo)準(zhǔn),各個(gè)標(biāo)準(zhǔn)之間缺乏體系化考慮和戰(zhàn)略化決策。為確保我國(guó)電子出版物呈繳系統(tǒng)的高效性、長(zhǎng)期性、共享性和互操作性,本文在考慮電子出版物整個(gè)生命周期的基礎(chǔ)上,深入分析國(guó)內(nèi)外電子出版物呈繳應(yīng)用技術(shù)環(huán)境、關(guān)鍵技術(shù)標(biāo)準(zhǔn)和業(yè)務(wù)活動(dòng)實(shí)踐等因素,構(gòu)建了我國(guó)電子出版物呈繳標(biāo)準(zhǔn)體系框架。我國(guó)電子出版物呈繳標(biāo)準(zhǔn)需要形成以保存為基礎(chǔ),以內(nèi)容編碼、元數(shù)據(jù)及元數(shù)據(jù)互操作、統(tǒng)計(jì)與績(jī)效管理為核心的技術(shù)標(biāo)準(zhǔn)體系,而且,最佳實(shí)踐研究是我國(guó)電子出版物呈繳標(biāo)準(zhǔn)體系構(gòu)建應(yīng)用效果的重要保證。
電子出版物;呈繳;標(biāo)準(zhǔn)體系;構(gòu)建
20世紀(jì)80年代后,信息化使單一傳統(tǒng)出版物向數(shù)字化文本、圖像、音視頻和其他機(jī)讀格式的“電子出版物”分化,紙質(zhì)出版物呈繳運(yùn)行框架已不適于以電子格式生產(chǎn)、發(fā)布、存儲(chǔ)和使用的電子出版物,標(biāo)準(zhǔn)和技術(shù)規(guī)范成為電子出版物呈繳制度實(shí)施以及管理的技術(shù)支撐。
電子出版物呈繳全生命周期的標(biāo)準(zhǔn)化需求是完善電子出版物呈繳標(biāo)準(zhǔn)體系的基礎(chǔ)和關(guān)鍵因素,歐盟數(shù)字復(fù)本的國(guó)家戰(zhàn)略由國(guó)家記憶機(jī)構(gòu)或公共機(jī)構(gòu)在政府直接領(lǐng)導(dǎo)下制定,國(guó)家戰(zhàn)略框架包括法定呈繳及公共文件、出版領(lǐng)域等(特別是原生數(shù)字資源)。ISO/TC46在其2010年商業(yè)計(jì)劃[1]中,對(duì)其所歸口的圖書館、檔案館、出版商、博物館等文獻(xiàn)信息領(lǐng)域標(biāo)準(zhǔn)化的市場(chǎng)環(huán)境和相關(guān)利益方進(jìn)行了描述,指出文獻(xiàn)信息領(lǐng)域既包括盈利機(jī)構(gòu)(如商業(yè)組織、系統(tǒng)商和出版商等),也包括非盈利機(jī)構(gòu)(如圖書館、文獻(xiàn)中心、檔案館等)。信息與文獻(xiàn)業(yè)務(wù)活動(dòng)中的相關(guān)利益方涉及信息創(chuàng)建者、信息發(fā)布或提供者、信息管理者、信息保存者、信息系統(tǒng)或服務(wù)提供者及用戶等。
隨著信息與文獻(xiàn)領(lǐng)域的技術(shù)發(fā)展、環(huán)境變化和市場(chǎng)需求,及參考信息與文獻(xiàn)領(lǐng)域標(biāo)準(zhǔn)化需求,我國(guó)電子出版物呈繳全生命周期的標(biāo)準(zhǔn)化需求特點(diǎn)主要包括:①?gòu)募埍境世U出版物或離線呈繳出版物標(biāo)準(zhǔn)化對(duì)象向非受控的電子化和網(wǎng)絡(luò)化信息創(chuàng)建、分發(fā)和保存標(biāo)準(zhǔn)化對(duì)象轉(zhuǎn)換;②多種媒體類型的資源對(duì)象融合,使電子出版物呈繳在創(chuàng)建、生產(chǎn)、組織和保存信息變得日益復(fù)雜;③遠(yuǎn)程學(xué)習(xí)和機(jī)器學(xué)習(xí)環(huán)境下需要考慮增加電子出版物呈繳標(biāo)準(zhǔn)信息發(fā)布的新機(jī)制;④對(duì)網(wǎng)絡(luò)標(biāo)準(zhǔn)的依賴和融合使電子出版物呈繳標(biāo)準(zhǔn)在借鑒國(guó)際標(biāo)準(zhǔn)化組織標(biāo)準(zhǔn)外,還要考慮相關(guān)的網(wǎng)絡(luò)事實(shí)型標(biāo)準(zhǔn);⑤在新媒體標(biāo)準(zhǔn)和音頻標(biāo)準(zhǔn)未成為國(guó)際標(biāo)準(zhǔn)和國(guó)家標(biāo)準(zhǔn)的形式前,電子出版物呈繳相關(guān)標(biāo)準(zhǔn)化最佳實(shí)踐指南將與紙質(zhì)國(guó)際標(biāo)準(zhǔn)一起,成為電子出版物呈繳標(biāo)準(zhǔn)領(lǐng)域的新需求。
當(dāng)前,我國(guó)電子出版物呈繳范圍主要為實(shí)體電子出版物,2008年發(fā)布的《電子出版物出版管理規(guī)定》,[2]規(guī)定電子出版物包括只讀光盤、一次寫入光盤、可擦寫光盤、軟磁盤、硬磁盤、集成電路卡等,以及新聞出版署認(rèn)定的其他媒體形態(tài)。其中,連續(xù)型出版物指有固定名稱,用卷、期、冊(cè)或者年、月順序編號(hào),按照一定周期出版的電子出版物。近年來(lái),隨著國(guó)內(nèi)外連續(xù)出版物(如純網(wǎng)絡(luò)期刊)出版形態(tài)的發(fā)展,我國(guó)新聞出版廣電總局也開始試行對(duì)網(wǎng)絡(luò)版連續(xù)出版物頒發(fā)國(guó)內(nèi)統(tǒng)一連續(xù)出版物號(hào)(CN號(hào))。如,2015年8月13日國(guó)家新聞出版廣電總局文關(guān)于同意出版《知識(shí)管理論壇(網(wǎng)絡(luò)版)》網(wǎng)絡(luò)連續(xù)型出版物的批復(fù)(新廣出審[2015]885號(hào))中指出:根據(jù)《出版管理?xiàng)l例》《互聯(lián)網(wǎng)出版管理暫行規(guī)定》相關(guān)規(guī)定和總局開展網(wǎng)絡(luò)連續(xù)型出版物規(guī)范管理試點(diǎn)的有關(guān)精神,同意互聯(lián)網(wǎng)出版單位《圖書情報(bào)工作》雜志社出版《知識(shí)管理論壇(網(wǎng)絡(luò)版)》網(wǎng)絡(luò)連續(xù)型出版物,新編國(guó)內(nèi)統(tǒng)一連續(xù)出版物號(hào)CN11-6036/C,中文,雙月刊,公開發(fā)行。而在呈繳方面,由于網(wǎng)絡(luò)出版物呈繳在我國(guó)沒有明確規(guī)定,網(wǎng)絡(luò)出版物的呈繳目前“只有少數(shù)幾家出版機(jī)構(gòu)自發(fā)提交在線數(shù)字出版物目錄及鏈接地址,做存檔處理?!保?]因此,為了確保網(wǎng)絡(luò)出版物呈繳的可利用性和長(zhǎng)期保存性,附有元數(shù)據(jù)的標(biāo)準(zhǔn)化呈繳平臺(tái)是必備條件和必然趨勢(shì)。
1.2 出版物呈繳接收機(jī)構(gòu)對(duì)統(tǒng)一的、全流程的電子出版物呈繳技術(shù)標(biāo)準(zhǔn)體系的需求
目前,網(wǎng)絡(luò)電子出版物呈繳在我國(guó)還處于探索階段,沒有成熟的業(yè)務(wù)流程和實(shí)際成果,也沒有用于數(shù)字出版物呈繳的統(tǒng)一平臺(tái)。盡管如此,我國(guó)出版物呈繳接收機(jī)構(gòu)對(duì)網(wǎng)絡(luò)電子出版物呈繳在制度、技術(shù)等方面都給予了極大的關(guān)注。國(guó)家圖書館早在2003年就啟動(dòng)了網(wǎng)絡(luò)信息資源采集與保存WICP試驗(yàn)項(xiàng)目和網(wǎng)絡(luò)數(shù)據(jù)庫(kù)導(dǎo)航ODBN項(xiàng)目。[4]WICP對(duì)100家政府網(wǎng)站、100家電子期刊網(wǎng)站、100家大學(xué)網(wǎng)站、100家企業(yè)網(wǎng)站、100家其他網(wǎng)站(門戶網(wǎng)站,媒體網(wǎng)站——報(bào)紙、電臺(tái)、電視臺(tái)網(wǎng)站等)通過(guò)網(wǎng)絡(luò)機(jī)器人進(jìn)行收集,并對(duì)收集數(shù)據(jù)進(jìn)行了MARC編目和DC編目。國(guó)家圖書館出版物繳送國(guó)外相關(guān)進(jìn)展主要介紹了英、法等國(guó)網(wǎng)絡(luò)電子出版物的動(dòng)態(tài)。[5]我國(guó)另一個(gè)法定呈繳機(jī)構(gòu)——中國(guó)版本圖書館2012年征繳離線數(shù)字出版物與出版量趨于一致,基本達(dá)到有效征繳目標(biāo)。但在線數(shù)字出版呈繳受困于制度、呈繳范圍、信息化支撐環(huán)境、后期數(shù)字資源長(zhǎng)期保存等因素,目前只有幾家出版機(jī)構(gòu)自發(fā)提交的在線數(shù)字出版物目標(biāo)及鏈接地址。[6]鑒于網(wǎng)絡(luò)電子出版物呈繳的數(shù)字資源特征和多方協(xié)作的復(fù)雜業(yè)務(wù)流程,統(tǒng)一的、全流程的電子出版物呈繳技術(shù)標(biāo)準(zhǔn)體系可對(duì)該項(xiàng)業(yè)務(wù)工作的可操作性、可持續(xù)性和質(zhì)量控制目標(biāo)等加以保證。
1.3 電子出版物呈繳標(biāo)準(zhǔn)體系的選擇和制定順應(yīng)當(dāng)前電子出版物呈繳和服務(wù)的新環(huán)境
網(wǎng)絡(luò)電子出版物作為一種數(shù)字資源,其呈繳和服務(wù)方式受數(shù)字資源保存和服務(wù)發(fā)展的影響。當(dāng)前我國(guó)數(shù)字資源保存正在倡議“國(guó)家保存”模式,2009年國(guó)家科學(xué)圖書館與施普林格簽訂了數(shù)字資源長(zhǎng)期保存協(xié)議,對(duì)我國(guó)信息文獻(xiàn)機(jī)構(gòu)從國(guó)外引進(jìn)資源的長(zhǎng)期保存模式具有開創(chuàng)性意義。2015年9月,在國(guó)家科技圖書文獻(xiàn)中心NSTL的倡議下,國(guó)家圖書館、中科院文獻(xiàn)情報(bào)中心、北京大學(xué)圖書館等60個(gè)文獻(xiàn)信息機(jī)構(gòu)集體簽署了《數(shù)字文獻(xiàn)資源長(zhǎng)期保存共同聲明》,[7]宣布圖書館支持國(guó)家建立數(shù)字文獻(xiàn)資源長(zhǎng)期保存系統(tǒng),將委托其長(zhǎng)期保存自己所采購(gòu)的數(shù)字文獻(xiàn)資源。同時(shí),希望國(guó)家將數(shù)字文獻(xiàn)資源長(zhǎng)期保存系統(tǒng)作為重要的國(guó)家公共基礎(chǔ)設(shè)施,予以長(zhǎng)期穩(wěn)定的支持和規(guī)范可靠的管理。順應(yīng)這一發(fā)展,我國(guó)網(wǎng)絡(luò)電子出版物呈繳也即將面臨相應(yīng)的技術(shù)標(biāo)準(zhǔn)選擇和體系規(guī)劃。
隨著技術(shù)和業(yè)務(wù)的發(fā)展,近年來(lái)電子出版物呈繳的關(guān)注重心已從電子出版物收集獲取向電子出版物長(zhǎng)期保存轉(zhuǎn)變,而廣泛使用國(guó)際的、開放的標(biāo)準(zhǔn)是促進(jìn)互操作和長(zhǎng)期保存的先決條件。20年前,數(shù)字保存研究集中于圖書館和檔案領(lǐng)域,主要研究定義、基本模型和概念等,數(shù)字化對(duì)象主要為政府文件。近年來(lái),相關(guān)研究已從單個(gè)文獻(xiàn)的保存和數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)向復(fù)雜資源,如關(guān)聯(lián)對(duì)象、元數(shù)據(jù)和短期數(shù)據(jù)等轉(zhuǎn)變,集中于支持?jǐn)?shù)字保存的技術(shù)框架和工具的研究。
“保存(Preservation)”這個(gè)概念在數(shù)字資源領(lǐng)域有兩個(gè)含義,一個(gè)是數(shù)字化保存,還有一個(gè)是保存的數(shù)字化,對(duì)電子出版物呈繳活動(dòng)來(lái)說(shuō),保存是指數(shù)字化保存,即“以長(zhǎng)期獲取為目的的數(shù)字對(duì)象的保藏和維護(hù)”。Adrienne Muir[8]認(rèn)為,法定呈繳的目的是確保國(guó)家智力和文化遺產(chǎn)的保存和獲取,數(shù)字出版物呈繳是全球趨勢(shì),印本環(huán)境下的出版、出版商、出版地和版次等在數(shù)字出版物呈繳環(huán)境下有新的含義,有些可能并不適用。在數(shù)字環(huán)境下,具有呈繳功能的圖書館與外界通過(guò)元數(shù)據(jù)、定義和標(biāo)準(zhǔn)等進(jìn)行業(yè)務(wù)交互,法定呈繳每個(gè)業(yè)務(wù)過(guò)程都涉及法律、經(jīng)濟(jì)、技術(shù)和組織管理問題,網(wǎng)絡(luò)技術(shù)的優(yōu)勢(shì)使得圖書館在獲得一份數(shù)字呈繳出版物后能夠廣泛復(fù)制,從而與出版商產(chǎn)生經(jīng)濟(jì)利益之爭(zhēng)。數(shù)字出版物呈繳的業(yè)務(wù)過(guò)程包括識(shí)別(Identification)、選擇(Selection)、獲?。–apture/Deliver)、處理或編目或保存(Processing or Cataloguing or Storing)、獲?。ˋccess)五個(gè)過(guò)程,而保存(Preservation)貫穿于這五個(gè)過(guò)程中。在業(yè)務(wù)流程梳理方面,英國(guó)數(shù)字保存中心在其數(shù)字保存生命周期模型中定義了數(shù)字保存的邏輯/迭代順序:概念化、創(chuàng)建、獲取和使用、評(píng)價(jià)和選擇、處理、攝取、保存活動(dòng)、存儲(chǔ)、獲取和再利用、轉(zhuǎn)換,這些業(yè)務(wù)模塊分別涉及相應(yīng)的具體技術(shù)標(biāo)準(zhǔn)。
國(guó)內(nèi)外電子出版物呈繳應(yīng)用較多的保存標(biāo)準(zhǔn)框架是OAIS(開放檔案信息系統(tǒng)),該標(biāo)準(zhǔn)是由空間數(shù)據(jù)系統(tǒng)在1999年制定的國(guó)際標(biāo)準(zhǔn)ISO 14721,OAIS定義了數(shù)字資源長(zhǎng)期保存和獲取的功能,包括獲得和處理、檔案化保存、獲取、數(shù)據(jù)管理和檔案管理等。
近年來(lái),數(shù)字資源長(zhǎng)期保存成為我國(guó)圖書館界的研究和實(shí)踐熱點(diǎn)。王樂春等[9]指出,超大規(guī)模、多數(shù)據(jù)類型的數(shù)字資源長(zhǎng)期保存和有效讀取是國(guó)際圖書館界的熱點(diǎn)問題,而數(shù)據(jù)組織標(biāo)準(zhǔn)的研究制定更是長(zhǎng)期保存必須優(yōu)先研究的問題。他們認(rèn)為,目前真正面向長(zhǎng)期保存工作的國(guó)際標(biāo)準(zhǔn)只有OAIS。我國(guó)國(guó)家圖書館數(shù)字資源長(zhǎng)期保存的核心標(biāo)準(zhǔn)體系框架包括:指導(dǎo)長(zhǎng)期保存體系整體建設(shè)的相關(guān)標(biāo)準(zhǔn);數(shù)字資源信息打包和編碼相關(guān)標(biāo)準(zhǔn);數(shù)字資源內(nèi)容和格式相關(guān)標(biāo)準(zhǔn),包括元數(shù)據(jù)格式、對(duì)象數(shù)據(jù)格式;存檔系統(tǒng)數(shù)字資源標(biāo)識(shí)相關(guān)標(biāo)準(zhǔn);存檔系統(tǒng)數(shù)字資源信息,包括提交和發(fā)布方法相關(guān)標(biāo)準(zhǔn);不同單位的存檔系統(tǒng)間互操作接口標(biāo)準(zhǔn);用于存儲(chǔ)的物理媒介相關(guān)標(biāo)準(zhǔn);數(shù)據(jù)在介質(zhì)和格式遷移方面的相關(guān)標(biāo)準(zhǔn);存檔系統(tǒng)質(zhì)量評(píng)估相關(guān)標(biāo)準(zhǔn)等(見下圖)。
電子出版物長(zhǎng)期保存在電子出版物呈繳系統(tǒng)中具有重要的地位。李英等[10]認(rèn)為,電子出版物呈繳制度運(yùn)行機(jī)制是電子出版物制度良好運(yùn)行的重要保障,其基本框架包括法律機(jī)制、組織管理機(jī)制、經(jīng)濟(jì)補(bǔ)償機(jī)制和長(zhǎng)期保存機(jī)制。另外,長(zhǎng)期保存本身就是一個(gè)復(fù)雜系統(tǒng),劉春燕等[11]認(rèn)為,電子出版物呈繳系統(tǒng)信息資源長(zhǎng)期保存所涉及的問題本身就是一個(gè)既包括了宏觀管理(規(guī)劃涉及、需求分析、建設(shè)設(shè)施和符合性評(píng)估等),又包含有具體技術(shù)操作層面(元數(shù)據(jù)、數(shù)據(jù)格式、編目、標(biāo)記、結(jié)構(gòu)、壓縮、加密等)的系統(tǒng)性問題,其長(zhǎng)期保存系統(tǒng)應(yīng)重點(diǎn)考慮元數(shù)據(jù)支持整個(gè)管理流程并記錄各實(shí)體之間的關(guān)系,以及與相關(guān)業(yè)務(wù)進(jìn)行關(guān)聯(lián)。電子出版物呈繳系統(tǒng)信息資源長(zhǎng)期保存系統(tǒng)需求應(yīng)在滿足通用系統(tǒng)需求基礎(chǔ)上,考慮元數(shù)據(jù)需求、功能需求、選擇性需求和非功能性需求。
圖電子出版物呈繳標(biāo)準(zhǔn)體系框架
當(dāng)前國(guó)內(nèi)外電子出版物呈繳積極采用相關(guān)國(guó)際標(biāo)準(zhǔn)和國(guó)外先進(jìn)標(biāo)準(zhǔn)。如我國(guó)國(guó)家圖書館WICP項(xiàng)目采用了ISO 28500 WARC文件格式標(biāo)準(zhǔn);加拿大圖書和檔案館在對(duì)法定呈繳電子出版物的識(shí)別、獲取、管理、分發(fā)等業(yè)務(wù)處理過(guò)程中,采用了ISO 14721 OAIS標(biāo)準(zhǔn)、元數(shù)據(jù)收割標(biāo)準(zhǔn)METS和保存元數(shù)據(jù)標(biāo)準(zhǔn)PREMIS等通用型國(guó)際和區(qū)域標(biāo)準(zhǔn)。Greg Bak[12]指出,加拿大圖書和檔案館被法律賦予數(shù)字保存的職責(zé),包括要求法定電子出版物呈繳。其數(shù)字對(duì)象除了文獻(xiàn)類型的數(shù)字對(duì)象外,還包括數(shù)字照片和藝術(shù)、數(shù)字多媒體和音像制品、地理信息、數(shù)字技術(shù)和建筑繪畫、廣播數(shù)字內(nèi)容。這些數(shù)字資產(chǎn)包括各個(gè)領(lǐng)域,通過(guò)各自的元數(shù)據(jù)和保存標(biāo)準(zhǔn),在各自的保存環(huán)境,通過(guò)不同的渠道去獲取,這直接導(dǎo)致相關(guān)費(fèi)用的高居不下和用戶獲取的不便。為此,LAC通過(guò)多年的研究項(xiàng)目,在OAIS基礎(chǔ)上建立了數(shù)字倉(cāng)庫(kù)服務(wù)。加拿大數(shù)字文獻(xiàn)遺產(chǎn)“書目、檔案和文章”能被識(shí)別、獲取、管理、分發(fā)。書目和檔案描述元數(shù)據(jù)通過(guò)MODS的XML基礎(chǔ)的元數(shù)據(jù)標(biāo)準(zhǔn)來(lái)實(shí)現(xiàn)。GOOGLE也采用Fedsearch系統(tǒng)中的MODES標(biāo)識(shí)GOOGLE SCHOLAR中的元數(shù)據(jù)。這些全球通用標(biāo)準(zhǔn)的應(yīng)用確保了其電子出版物呈繳資源的穩(wěn)定性、開放性和互操作性。
根據(jù)國(guó)內(nèi)外電子出版物呈繳的研究和實(shí)踐,電子出版物呈繳涉及的相關(guān)關(guān)鍵技術(shù)標(biāo)準(zhǔn)主要涉及元數(shù)據(jù)、數(shù)字保存、統(tǒng)計(jì)與績(jī)效管理等方面。
(1)電子出版物呈繳相關(guān)內(nèi)容標(biāo)識(shí)標(biāo)準(zhǔn)研究。為了獲取資源,必須對(duì)呈繳的電子出版物進(jìn)行標(biāo)識(shí)。Webb[13]曾建議法定呈繳條文中要求所有出版商標(biāo)識(shí)他們呈繳的所有出版物,由于網(wǎng)絡(luò)“出版”的巨量而不具有可操作性。在印本環(huán)境下,國(guó)際標(biāo)準(zhǔn)化組織ISO/TC46制定了國(guó)際標(biāo)準(zhǔn)書號(hào)ISBN、國(guó)際標(biāo)準(zhǔn)連續(xù)出版物號(hào)ISSN、國(guó)際標(biāo)準(zhǔn)錄音號(hào)ISRC、國(guó)際標(biāo)準(zhǔn)視頻號(hào)ISAN、數(shù)字對(duì)象唯一標(biāo)識(shí)符DOI等標(biāo)識(shí)圖書、連續(xù)出版物、音頻資源、視頻資源、數(shù)字資源等描述對(duì)象的國(guó)際標(biāo)準(zhǔn)。另外,互聯(lián)網(wǎng)URL是當(dāng)前事實(shí)型的資源標(biāo)識(shí)符標(biāo)準(zhǔn),加拿大LAC在電子出版物呈繳中采用的Archival Resource Key(ARK)永久性標(biāo)識(shí)符就是一種能描述任何類型信息對(duì)象的多功能標(biāo)識(shí)符。由于同一資源對(duì)象可能有幾個(gè)不同粒度的標(biāo)識(shí)號(hào),或有的資源粒度應(yīng)當(dāng)有標(biāo)識(shí)符而沒有(如科學(xué)數(shù)據(jù)),電子出版物呈繳內(nèi)容標(biāo)識(shí)更關(guān)鍵的是選擇合適的標(biāo)識(shí)符標(biāo)準(zhǔn),以便實(shí)現(xiàn)不同資源標(biāo)識(shí)符之間的互操作和共享。
(2)電子出版物呈繳相關(guān)元數(shù)據(jù)標(biāo)準(zhǔn)研究。元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù),是描述對(duì)象數(shù)據(jù)的數(shù)據(jù)。根據(jù)其功能不同,元數(shù)據(jù)分為描述型元數(shù)據(jù)、結(jié)構(gòu)型元數(shù)據(jù)、管理型元數(shù)據(jù)、保存型元數(shù)據(jù)等。當(dāng)前描述型元數(shù)據(jù)相關(guān)國(guó)際標(biāo)準(zhǔn)主要有ISO 15836都柏林核心元數(shù)據(jù)、ISO 19115地理信息元數(shù)據(jù)等。目前電子出版物呈繳相關(guān)描述型元數(shù)據(jù)、結(jié)構(gòu)型元數(shù)據(jù)、管理型元數(shù)據(jù)已有比較成熟的研究和實(shí)踐成果。保存型元數(shù)據(jù)作為電子出版物呈繳的重要元數(shù)據(jù)類型也取得了很大進(jìn)展,2004年Gavin[14]通過(guò)文獻(xiàn)調(diào)研得出當(dāng)前有來(lái)自出版領(lǐng)域的保存元數(shù)據(jù)和來(lái)自圖書館領(lǐng)域的保存元數(shù)據(jù)方案,他認(rèn)為,為了對(duì)呈繳電子資源進(jìn)行保存,描述內(nèi)容、來(lái)源、技術(shù)環(huán)境和保存操作等類型的元數(shù)據(jù)應(yīng)系統(tǒng)收集和管理,用于圖書商業(yè)交換的ONIX具有改造后滿足電子出版物呈繳元數(shù)據(jù)框架的功能。
在實(shí)踐上,為解決數(shù)字資源長(zhǎng)期保存元數(shù)據(jù)的可實(shí)施性,OCLC與RLG組建了PREMIS工作組,計(jì)劃在OCLC/RLG基礎(chǔ)上開發(fā)元數(shù)據(jù)核心元數(shù)據(jù),為保存系統(tǒng)元數(shù)據(jù)的利用提供指導(dǎo),并于2005年發(fā)布了PREMIS數(shù)據(jù)字典,其數(shù)據(jù)元包括核心元素、語(yǔ)義單元名稱、定義、應(yīng)用對(duì)象層次、包含原理、示例、創(chuàng)建和應(yīng)用說(shuō)明、使用說(shuō)明、是否可重復(fù)、必要性及可選性等。2015年6月,PREMIS保存元數(shù)據(jù)字典3.0[15]發(fā)布,對(duì)對(duì)象(Object)、事件(Event)、代理(Agent)、權(quán)限(Right)等實(shí)體的屬性及語(yǔ)義關(guān)系進(jìn)行描述。由于其對(duì)象的明確性和可操作性,在元數(shù)據(jù)互操作標(biāo)準(zhǔn)和協(xié)議方面,METS和PREMIS等全球通用協(xié)議已在中國(guó)、英國(guó)、加拿大、澳大利亞等國(guó)家得到廣泛應(yīng)用。我國(guó)國(guó)家圖書館數(shù)字資源長(zhǎng)期保存標(biāo)準(zhǔn)原則上確定為遵循OAIS框架標(biāo)準(zhǔn),借鑒PREMIS+METS方案,兼容PREMIS數(shù)據(jù)詞典提供的核心保存元數(shù)據(jù)集,兼容METS給出的基于XML的通用數(shù)據(jù)對(duì)象的封裝和交換框架。[9]
(3)電子出版物呈繳相關(guān)統(tǒng)計(jì)與績(jī)效標(biāo)準(zhǔn)研究。R Williamson[16]對(duì)電子出版物的附加價(jià)值進(jìn)行了分析,提出了一致性(如標(biāo)識(shí)符等與內(nèi)容的一致性)、完整性(如包含電子出版物的修訂版和修改版)和及時(shí)性(如定期更新和維護(hù))三個(gè)增值指標(biāo)。國(guó)際標(biāo)準(zhǔn)化組織ISO/TC46/SC8在制定ISO 2789《國(guó)際圖書館統(tǒng)計(jì)》、ISO 11620《圖書館績(jī)效指標(biāo)》、ISO/TR 28118《國(guó)家圖書館績(jī)效指標(biāo)》、ISO 16439《圖書館影響力評(píng)價(jià)的方法和程序》等圖書館業(yè)務(wù)管理國(guó)際標(biāo)準(zhǔn)的基礎(chǔ)上,針對(duì)近年來(lái)圖書館法定呈繳業(yè)務(wù)向網(wǎng)絡(luò)資源延伸的新形式,于2013年發(fā)布了ISO/TR 14873《網(wǎng)絡(luò)保存的統(tǒng)計(jì)和質(zhì)量評(píng)估》國(guó)際標(biāo)準(zhǔn)。[17]Clement[18]認(rèn)為,音視頻等離線電子出版物呈繳可通過(guò)類型和容量來(lái)進(jìn)行統(tǒng)計(jì)和評(píng)價(jià),而網(wǎng)絡(luò)保存統(tǒng)計(jì)與質(zhì)量評(píng)價(jià)主要有兩個(gè)難點(diǎn),一是缺乏成熟的概念,如對(duì)網(wǎng)絡(luò)保存新工具和新過(guò)程的概念統(tǒng)一,由網(wǎng)絡(luò)爬蟲開展的網(wǎng)頁(yè)復(fù)制版是稱網(wǎng)頁(yè)“抓?。–apture)”、網(wǎng)頁(yè)“版本(Version)”,還是網(wǎng)頁(yè)“存檔(Archive)”;二是網(wǎng)上文獻(xiàn)的復(fù)雜粒度的統(tǒng)一,如網(wǎng)站可以作為一個(gè)呈繳文獻(xiàn)單元,但有時(shí)機(jī)構(gòu)只選取網(wǎng)頁(yè)部分內(nèi)容或單獨(dú)網(wǎng)頁(yè)作為呈繳內(nèi)容。下表是根據(jù)ISO/TR 14873的技術(shù)內(nèi)容,歸納出的網(wǎng)絡(luò)出版物呈繳相關(guān)統(tǒng)計(jì)及質(zhì)量評(píng)估指標(biāo)。
開展電子出版物呈繳標(biāo)準(zhǔn)體系最佳實(shí)踐研究的首要原因是技術(shù)標(biāo)準(zhǔn)不能脫離相關(guān)的業(yè)務(wù)環(huán)境。早在1986年,英國(guó)國(guó)家圖書館與商業(yè)和工業(yè)部資助的知識(shí)倉(cāng)庫(kù)項(xiàng)目[18]就開始鼓勵(lì)英國(guó)呈繳電子出版物通過(guò)郵件方式提交給知識(shí)倉(cāng)庫(kù)項(xiàng)目,知識(shí)倉(cāng)庫(kù)對(duì)技術(shù)質(zhì)量、一致性和整體性提出相應(yīng)的標(biāo)準(zhǔn),呈繳者和知識(shí)倉(cāng)庫(kù)通過(guò)法律合同確定關(guān)于呈繳出版物提交的相關(guān)事項(xiàng),主要對(duì)相關(guān)方(出版物呈繳方和知識(shí)倉(cāng)庫(kù))、呈繳出版物、呈繳權(quán)利義務(wù)(知識(shí)倉(cāng)庫(kù)必須保存和以電子形式出版提交的知識(shí)產(chǎn)品,確保保存數(shù)據(jù)的一致性和安全性,沒有相關(guān)授權(quán)不能發(fā)布任何存儲(chǔ)產(chǎn)品的拷貝件,建立索引等)等相關(guān)條款進(jìn)行規(guī)定。英國(guó)同時(shí)從技術(shù)角度對(duì)用戶獲取資源情況進(jìn)行監(jiān)控,如,英國(guó)2013年出版物呈繳規(guī)定要求“法定呈繳圖書館必須確保只有一個(gè)計(jì)算機(jī)終端能被讀者獲取相關(guān)的呈繳資源”,這是為了在同一時(shí)間保證在一個(gè)法定呈繳圖書館只有一個(gè)用戶在呈繳系統(tǒng)平臺(tái)上。而用戶不能對(duì)電子呈繳出版物進(jìn)行拷貝,只能打印恰當(dāng)比例的呈繳作品,用于非盈利性研究或其他規(guī)定目的。這些電子出版物呈繳的標(biāo)準(zhǔn)化環(huán)境,將影響著通用關(guān)鍵技術(shù)標(biāo)準(zhǔn)具體條款的修改,同時(shí)催生一些具體的業(yè)務(wù)標(biāo)準(zhǔn)。
表網(wǎng)絡(luò)出版物呈繳相關(guān)統(tǒng)計(jì)和質(zhì)量評(píng)價(jià)指標(biāo)
加強(qiáng)電子出版物呈繳標(biāo)準(zhǔn)體系最佳實(shí)踐方式是通過(guò)業(yè)務(wù)場(chǎng)景來(lái)選擇、驗(yàn)證、優(yōu)化和合理使用相關(guān)的技術(shù)標(biāo)準(zhǔn)。當(dāng)前我國(guó)已為開展電子出版物呈繳相關(guān)標(biāo)準(zhǔn)的最佳實(shí)踐打下了很好的基礎(chǔ)。姚曉霞等[19]認(rèn)為,國(guó)家圖書館、國(guó)家科學(xué)圖書館和國(guó)家科技文獻(xiàn)中心等已在數(shù)字資源長(zhǎng)期保存系統(tǒng)的可信賴工作流程、政策與機(jī)制、法律與權(quán)益管理、數(shù)字知識(shí)倉(cāng)儲(chǔ)建設(shè)、網(wǎng)絡(luò)信息資源的采集與保存等方面進(jìn)行了比較系統(tǒng)的研究和實(shí)踐,對(duì)全國(guó)數(shù)字資源保存活動(dòng)具有積極的示范作用。在具體操作層面,王樂春等[9]認(rèn)為,數(shù)字資源長(zhǎng)期保存封裝規(guī)范在遵循與METS綱要的兼容大方向下,必須以國(guó)圖自身的應(yīng)用場(chǎng)景為基礎(chǔ)。其中,對(duì)于SIP封裝規(guī)范要適應(yīng)國(guó)圖多種途徑獲得數(shù)字資源的格式需求,AIP信息封裝包的封裝規(guī)范可基于METS,確定國(guó)圖AIP包結(jié)構(gòu)的限定和擴(kuò)展,對(duì)于DIP信息包應(yīng)統(tǒng)籌考慮國(guó)圖服務(wù)對(duì)象特定需求和館際交流的需要來(lái)確定封裝規(guī)范。
在國(guó)際電子出版物呈繳標(biāo)準(zhǔn)最佳實(shí)踐研究方面,Antonella Fersa等[20]指出,歐盟不同國(guó)家,不同行業(yè)和機(jī)構(gòu)在數(shù)字內(nèi)容管理和保存等方面存在不同的政策和指南,這直接導(dǎo)致了數(shù)字保存費(fèi)用居高不下,歐洲博物館、檔案館和圖書館在未來(lái)十年里數(shù)字化費(fèi)用預(yù)計(jì)約1億歐元,平均每年約1000萬(wàn)歐元。為此,2014年歐盟開展了文化信息/電子檔案保存格式PREFORMA計(jì)劃,致力于采用高質(zhì)量的文件格式標(biāo)準(zhǔn)實(shí)現(xiàn)長(zhǎng)期保存數(shù)字內(nèi)容需求。PREFORMA項(xiàng)目基于當(dāng)前“長(zhǎng)期保存標(biāo)準(zhǔn)模型OAIS通過(guò)包含數(shù)據(jù)和元數(shù)據(jù)的信息包進(jìn)行傳輸和保存業(yè)務(wù),數(shù)據(jù)具有文檔、圖像、音頻、視頻等文件格式,這些格式來(lái)自于不同供應(yīng)商的軟件,其應(yīng)用效果依賴于不同軟件而不受信息生產(chǎn)者和信息保存者的控制”的實(shí)際,研究保存過(guò)程中的標(biāo)準(zhǔn)應(yīng)用質(zhì)量關(guān)鍵因素,力圖建立一個(gè)包含各類實(shí)踐工具,各利益相關(guān)方的長(zhǎng)期可持續(xù)性生態(tài)系統(tǒng)。PREFORMA項(xiàng)目認(rèn)為,作為概念模型,OAIS標(biāo)準(zhǔn)不提供具體的實(shí)施方法和特定設(shè)計(jì),需要標(biāo)準(zhǔn)使用者在分析業(yè)務(wù)過(guò)程后提出自己的實(shí)施方案來(lái)滿足OAIS功能,在實(shí)施過(guò)程中由于缺乏數(shù)字化保存(遷移、仿真)的獨(dú)立功能模塊,保存功能只能與其他幾個(gè)功能交叉。為此,PREFORMA希望能在OAIS的接收(Ingest)功能中,反映數(shù)字保存的第一步。在接收(Ingest)準(zhǔn)備階段,可考慮信息產(chǎn)生者和存儲(chǔ)者的標(biāo)準(zhǔn)化交流、支持生成和傳輸元數(shù)據(jù)的工具、用于自動(dòng)或半自動(dòng)評(píng)估數(shù)據(jù)工具的三個(gè)不同標(biāo)準(zhǔn)化任務(wù)。在數(shù)字對(duì)象接收(Ingest)階段,由于需要將數(shù)字對(duì)象傳輸?shù)酱鎯?chǔ)庫(kù)中,則涉及文件格式和元數(shù)據(jù)完整性等相關(guān)標(biāo)準(zhǔn)化任務(wù)。而對(duì)于文件格式來(lái)說(shuō),PDF/A作為ISO國(guó)際標(biāo)準(zhǔn)受多個(gè)計(jì)算機(jī)軟件(OpenOffice.org,Microsoft Word 2007)支持,但受“嵌入PDF文件的語(yǔ)義信息有時(shí)只能被特定用戶讀取,一些字體不能使用需要特定允許條件等”因素影響,PDF/A文檔存儲(chǔ)在實(shí)踐中還依賴于軟件和供應(yīng)商。圖像格式TIFF標(biāo)準(zhǔn)在實(shí)際使用中則缺乏管理元數(shù)據(jù)和技術(shù)元數(shù)據(jù),視頻格式當(dāng)前越來(lái)越多存儲(chǔ)機(jī)構(gòu)采用MXF格式。PREFORMA計(jì)劃開發(fā)開源工具,對(duì)需要長(zhǎng)期保存的數(shù)字文件進(jìn)行一致性測(cè)試,測(cè)試內(nèi)容包括:①檢查文檔是否由標(biāo)準(zhǔn)化文件格式生成;②檢測(cè)文檔是否符合長(zhǎng)期保存要求;③自動(dòng)對(duì)偏差元數(shù)據(jù)進(jìn)行修正,同時(shí)確保數(shù)據(jù)對(duì)象不受影響。
[1]ISO/TC46,ISO/TC 46 Business Plan 2010[EB/OL].[2015-10-10].http://isotc.iso.org/livelink/livelink/.
[2]百度百科.電子出版物出版管理規(guī)定[EB/OL].[2015-11-20].http://baike.baidu.com/link?url=eq.
[3]尚瑩瑩,鄧千紅.數(shù)字出版物呈繳現(xiàn)狀及對(duì)策[J].出版參考,2013(11):23-24.
[4]陳力,等.網(wǎng)絡(luò)信息資源的采集與保存——國(guó)家圖書館的WICP和ODBN項(xiàng)目介紹[J].國(guó)家圖書館學(xué)刊,2014(1):2-6.
[5]中國(guó)國(guó)家圖書館.出版物繳送[EB/OL].[2015-10-10].http://www.nlc.gov.cn/dsb_footer/dsb_zcwm/.
[6]尚瑩瑩,鄧千紅.數(shù)字出版物呈繳現(xiàn)狀及對(duì)策——以中國(guó)版本圖書館為例[J].國(guó)家圖書館學(xué)刊,2004(1):2-6.
[7]中華人民共和國(guó)科學(xué)技術(shù)部.?dāng)?shù)字文獻(xiàn)資源長(zhǎng)期保存共同聲明發(fā)布[EB/OL].[2015-10-08].http: //www.1633.com/news/html/201510/news_18183410_1.
[8]AdrienneMuir.Legal deposit and preservationof digital publications:a review of research and development activity[J].Journal of Documentation,2001,57(5): 652-682.
[9]王樂春,等.超大型數(shù)據(jù)資源長(zhǎng)期保存系統(tǒng)數(shù)據(jù)組織標(biāo)準(zhǔn)研究[J].標(biāo)準(zhǔn)科學(xué),2012(8):12-15.
[10]李英,等.電子出版物呈繳制度運(yùn)行機(jī)制研究[J].圖書館工作與研究,2011(10):67-69.
[11]劉春燕,等.電子出版物呈繳系統(tǒng)信息資源長(zhǎng)期保存標(biāo)準(zhǔn)化框架研究[J].情報(bào)雜志,2011,30(9):164-168.
[12]Greg Bak,Pam Armstrong.Points of convergence: Seamless long-term access to digital publicaions and archival records at libaray and archives Canada[J]. ArcSci,2008(8):279-293.
[13]Webb,C.Long-term management and preservation of publications on CD-ROMs and floppy disks:technical issure[EB/OL].[2015-09-24].http: //www.nla.gov.au/niac/meetings/tech.html.
[14]Gavin Brindley Adrienne Muir Steve Probets.Provision of digital preservation metadata:A role for ONIX?[J].Program,2004,38(4):240-250.
[15]Preservation metadata maintenance activity.PREMIS DataDictionaryforPreservationMetadata,Version3.0[EB/OL].[2015-09-29].http://www.loc.gov/standards/premis/v3/.
[16]Williamson R.The Knowledge Warehouse:Legal and commercial issues[J].The Electronic Library,1998, 6(1):10-16.
[17]ISO/TC46/SC8.Information and documentation Statisticsandqualityissuesforwebarchiving[S].
[18]Clement Oury Roswitha Poll.Counting the uncountable:Statistics for web archives[J].Performance Measurement and Metrics,2013,14(2):132-141.
[19]姚曉霞,陳凌.CALIS數(shù)字資源保存的現(xiàn)狀和發(fā)展策略[J].圖書情報(bào)工作,2010,54(7):68-71.
[20]Antonella Fresa,et al.Digital curation and quality standards for memeory institutions:PREFORMA research project[J].Arch Sci,2015(15):191-216.
Research on the Construct of Standard System for Electronic Publication Deposit in China
Liu Chun-yan
At present,the national e-pub deposit standards are object-specific,stage-specific and lack of systematic and strategic design.In order to ensure the high efficiency,longevity,sharing and interoperability of national e-pub deposit system,this article makes an in-depth analysis on the technology environment,key technologies and real practices of worldwide e-pub deposit,and constructs a standard system for domestic e-pub deposit.It suggests the system shall be based on long-term preservation with the interoperability between content code and metadata,statistics and performance management as the core of technical standard system.The best practice research is an important guarantee for the construction of the standard system of e-pub in China.
Electronic Publication(E-pub);Deposit;Standard System;Construct
G253.1
:A
:1005-8214(2016)12-0001-06
版日益增多使我國(guó)
物呈繳呈現(xiàn)必然趨勢(shì),出版機(jī)構(gòu)需要標(biāo)準(zhǔn)化的呈繳平臺(tái)
劉春燕(1974-),女,博士,中國(guó)科學(xué)技術(shù)信息研究所副研究館員,研究方向:信息資源管理、信息與文獻(xiàn)標(biāo)準(zhǔn)化。
2016-05-27[責(zé)任編輯]菊秋芳
本文系2010年社科基金項(xiàng)目“建立健全中國(guó)電子出版物呈繳制度研究”(項(xiàng)目編號(hào):10BTQ013)研究成果之一。