郭麗霞,童忠勇
(國家圖書館,北京 100081)
數(shù)字圖書館是信息時代的產(chǎn)物。隨著計算機和互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,信息資源共享的方式和手段也在不斷地發(fā)展和提高[1],信息資源的傳播和交換不再受到時間、空間、機構(gòu)和文化差異等傳統(tǒng)限制,實現(xiàn)了真正意義上的隨時隨地資源共享,極大地提高了人們信息獲取的效率。
數(shù)字資源具有有機生命體的典型特征,其生命周期過程經(jīng)歷采集、制作、存儲、管理、發(fā)布與服務(wù)等不同的管理階段。資源建設(shè)的最終目的是服務(wù)讀者。數(shù)字資源發(fā)布與服務(wù)是數(shù)字資源生命周期的最后一個環(huán)節(jié),也是直接服務(wù)于大眾的環(huán)節(jié)。發(fā)布與服務(wù)是一個有機整體,但也可以拆分為發(fā)布與服務(wù)兩個環(huán)節(jié),發(fā)布是服務(wù)的前提,服務(wù)是發(fā)布的目的,二者互相依賴,互相影響[2]。
從技術(shù)上講,數(shù)字資源發(fā)布是將組織整理好的元數(shù)據(jù)和對象數(shù)據(jù),根據(jù)需要,通過數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)封裝、數(shù)據(jù)索引等處理手段,發(fā)布可直接提供服務(wù)的數(shù)據(jù)。數(shù)字資源服務(wù)是對已發(fā)布的數(shù)據(jù)提供資源服務(wù),根據(jù)讀者或外系統(tǒng)的數(shù)字資源服務(wù)請求,返回所需要的結(jié)果。圖書館的數(shù)字資源種類繁多,來源廣泛,所以在數(shù)字資源的發(fā)布與服務(wù)中,對數(shù)據(jù)進行統(tǒng)一預(yù)處理和封裝就非常重要,讓用戶不必關(guān)心數(shù)據(jù)的格式和來源,對其進行一致化訪問。在數(shù)據(jù)的具體發(fā)布過程中,可以對數(shù)據(jù)進行詳細分類,例如圖書、期刊、報紙、圖片、音頻、視頻等,根據(jù)不同類別建立相應(yīng)的專題庫,對不同類型數(shù)字資源進行完整的信息封裝,實現(xiàn)各類資源的統(tǒng)一發(fā)布和服務(wù)。
發(fā)布與服務(wù)系統(tǒng)不是獨立的,離不開其他系統(tǒng)的支持和交互。在數(shù)據(jù)層面,需要數(shù)字資源組織系統(tǒng)、長期保存系統(tǒng)、知識組織系統(tǒng)的數(shù)據(jù)、知識庫的支持以及數(shù)據(jù)管理;在中間層面,需要與統(tǒng)一用戶系統(tǒng)、唯一標識符系統(tǒng)以及版權(quán)信息系統(tǒng)進行交互,實現(xiàn)用戶信息、唯一標識信息和版權(quán)信息的獲取和更新;在用戶層面,可以為搜索系統(tǒng)和讀者門戶系統(tǒng)提供信息支持和交互。
發(fā)布與服務(wù)系統(tǒng),目的在于實現(xiàn)對專題庫的定義、創(chuàng)建和管理等,對來自數(shù)字資源組織系統(tǒng)的數(shù)據(jù)進行轉(zhuǎn)換、整合處理、入庫以實現(xiàn)數(shù)字資源發(fā)布的功能;面向各類讀者為各種專題數(shù)字資源提供檢索、展現(xiàn)(權(quán)限控制機制下的)以實現(xiàn)數(shù)字資源服務(wù)的功能。總體而言數(shù)字圖書館資源發(fā)布與服務(wù)系統(tǒng)一般包括數(shù)字資源發(fā)布、數(shù)字資源服務(wù)、后臺支持與管理、門戶,分為讀者門戶、元數(shù)據(jù)檢索、元數(shù)據(jù)展現(xiàn)、對象數(shù)據(jù)展現(xiàn)、后臺支持等功能模塊。圖1說明了數(shù)字資源發(fā)布與服務(wù)系統(tǒng)中各子系統(tǒng)的功能切分以及和外系統(tǒng)的接口關(guān)系。
圖1 數(shù)字圖書館資源發(fā)布與服務(wù)系統(tǒng)一致化模型
(1)元數(shù)據(jù)檢索:發(fā)布與服務(wù)系統(tǒng)支持基于專題庫的元數(shù)據(jù)檢索功能。包括條件檢索、分類導(dǎo)航檢索和元數(shù)據(jù)檢索結(jié)果展現(xiàn)。
(2)元數(shù)據(jù)詳細信息展現(xiàn):元數(shù)據(jù)詳細信息展現(xiàn)模塊能基于元數(shù)據(jù)的相關(guān)信息完成對單條元數(shù)據(jù)的詳細信息的展示,如書目詳細信息、圖片詳細信息、視頻詳細信息等。具體功能包括元數(shù)據(jù)展現(xiàn)模塊定制、詳細信息展現(xiàn)以及資源關(guān)聯(lián)關(guān)系揭示,此外提供元數(shù)據(jù)訪問接口服務(wù),便于與其他系統(tǒng)和應(yīng)用的對接。
(3)對象數(shù)據(jù)展現(xiàn):提供數(shù)字對象的展現(xiàn)功能,基于已發(fā)布出來的對象數(shù)據(jù)庫,對授權(quán)讀者提供文檔、圖片等資源的下載和閱讀,音頻和視頻流媒體的播放。功能包括資源訪問控制、資源加密、資源下載、計費、客戶端揭示,以及對象數(shù)據(jù)訪問接口服務(wù)等。
(4)發(fā)布與服務(wù)后臺支持與管理:發(fā)布與服務(wù)后臺支持與管理對發(fā)布服務(wù)系統(tǒng)起了支撐作用,對系統(tǒng)的日常運行和維護非常重要。其主要功能如下所示:
專題庫定義、創(chuàng)建與管理。提供專題庫的定義其及屬性管理功能,專題庫屬性包括名稱、說明、限制范圍、條件字段屬性、檢索結(jié)果展示屬性、索引、狀態(tài)等;提供專題庫屬性接口訪問功能;提供基于專題庫信息的對物理專題庫的管理功能,包括物理專題庫的創(chuàng)建、索引建立、刪除等。
數(shù)據(jù)接收處理。對各種文獻類型的數(shù)字資源進行相應(yīng)的數(shù)據(jù)接收處理。包括數(shù)據(jù)接收方式和數(shù)據(jù)格式約定、數(shù)據(jù)檢查、數(shù)據(jù)處理和入庫、對象數(shù)據(jù)優(yōu)化管理等。
數(shù)據(jù)處理后臺支持工具。數(shù)字資源發(fā)布后臺支持工具用于支撐數(shù)字資源接收、處理和發(fā)布過程中的數(shù)據(jù)整合功能,起到后臺數(shù)據(jù)整合中間件的作用,通過該工具,可以快速定制面向特定資源的數(shù)據(jù)整合處理組件。
流程管理。數(shù)據(jù)接收和發(fā)布流程管理功能用于對發(fā)布和服務(wù)工作以任務(wù)的方式進行有效的管理、監(jiān)視和控制,以方便發(fā)布工作的管理,并提高數(shù)據(jù)發(fā)布處理效率。
用戶管理。發(fā)布與服務(wù)系統(tǒng)的各主要模塊,包括元數(shù)據(jù)檢索、詳細信息展現(xiàn)、對象數(shù)據(jù)展現(xiàn)等模塊,都應(yīng)提供用戶登錄入口。用戶登錄時,通過統(tǒng)一用戶管理系統(tǒng)的認證服務(wù)功能進行統(tǒng)一認證并獲取返回的當(dāng)前用戶信息。
授權(quán)管理。系統(tǒng)應(yīng)能根據(jù)資源授權(quán)訪問策略, 提供授權(quán)管理功能。
基于資源發(fā)布與服務(wù)系統(tǒng)的一致化模型,數(shù)字資源的一致化封裝在數(shù)字資源的發(fā)布流程中占有很大比重。在實際發(fā)布過程中,數(shù)字資源來源不同,結(jié)構(gòu)不同,在一致化模型的框架下,需要人工干預(yù),進行數(shù)據(jù)的識別和整理,從而實現(xiàn)資源的一致化封裝。下文描述資源的發(fā)布與服務(wù)的一致化流程。
圖2 元數(shù)據(jù)整理流程
3.1 元數(shù)據(jù)的一致化封裝
雖然數(shù)據(jù)的來源可以多種多樣,例如,比較常見的數(shù)據(jù)類型是EXCEL和MARC格式,為了實現(xiàn)資源的一致化封裝,通常將來源不同的元數(shù)據(jù)進行處理,整理成一致化的格式,例如XML格式作為統(tǒng)一出口。將圖書館大量的書目數(shù)據(jù)從MARC格式轉(zhuǎn)換為XML可以解決MARC類型標識、字段標識和子字段標識的問題,從而將MARC數(shù)據(jù)從嚴格復(fù)雜的規(guī)范流格式數(shù)據(jù)轉(zhuǎn)換成機器可讀的XML結(jié)構(gòu)化數(shù)據(jù),實現(xiàn)MARC書目數(shù)據(jù)庫和Internet上的非書目數(shù)據(jù)的集成,從而使得現(xiàn)有的大量MARC格式書目數(shù)據(jù)能方便地在數(shù)字圖書館中加以利用,提供面向WWW的MARC信息,這在當(dāng)前數(shù)字圖書館建設(shè)中具有重要意義[3]。在實際工作中,元數(shù)據(jù)整理的類型通常有整合、排序、過濾等,將不同文件中的元數(shù)據(jù)按照唯一ID進行合并,實現(xiàn)元數(shù)據(jù)信息的完整描述。在進行元數(shù)據(jù)整理過程中可以借助一些專業(yè)軟件,例如etl工具kettle,實現(xiàn)批量元數(shù)據(jù)信息的整合處理工作[4]。圖2展示了元數(shù)據(jù)整理流程。在實際工作中,需要對元數(shù)據(jù)進行識別,挑選出兩個或多個元數(shù)據(jù)來源中的唯一ID,然后根據(jù)唯一ID進行信息合并。此外,在元數(shù)據(jù)的一致化封裝過程中,為了實現(xiàn)發(fā)布過程中元數(shù)據(jù)和對象數(shù)據(jù)的對接,在數(shù)據(jù)整理過程中,需要考慮對象數(shù)據(jù)和對象文件的命名方式。
在發(fā)布工作之前,除了進行元數(shù)據(jù)的一致化封裝之外,還要對對象數(shù)據(jù)進行一致化的預(yù)處理,例如格式轉(zhuǎn)換、像素轉(zhuǎn)換等等,使得對象數(shù)據(jù)符合發(fā)布系統(tǒng)的要求。在對象數(shù)據(jù)處理過程中,需要對數(shù)據(jù)類型進行分析,并對結(jié)果數(shù)據(jù)進行校驗,保證數(shù)據(jù)質(zhì)量和數(shù)量。由于對象數(shù)據(jù)的預(yù)處理一般是批量進行,往往需要較長時間。此外,圖書館數(shù)字資源種類繁多、數(shù)據(jù)量龐大,文件多且細碎,需優(yōu)化管理海量對象數(shù)據(jù)文件,以提高整個系統(tǒng)的效能,如通過將多個JPG或者PDF等文件拼成一個文件并能對文件包內(nèi)的文件進行定位的策略以減少所處理文件的數(shù)量。
基于一致化模型的數(shù)據(jù)發(fā)布任務(wù)可以包括多個處理階段和狀態(tài),如初始、校驗、轉(zhuǎn)換處理、入庫、完成、取消等。系統(tǒng)支持為不同的資源種類定義不同的狀態(tài)集,支持在任務(wù)流程中加入人工處理環(huán)節(jié)和程序自動處理環(huán)節(jié)。對于需要人工處理的環(huán)節(jié)(如審核等),系統(tǒng)需要提供任務(wù)分派和權(quán)限控制功能。
可以根據(jù)來自組織系統(tǒng)的數(shù)據(jù)提交單自動創(chuàng)建發(fā)布任務(wù),也可以手動創(chuàng)建發(fā)布任務(wù);支持任務(wù)的分配、審核、處理記錄、關(guān)閉、取消等;提供任務(wù)的條件查詢、分類統(tǒng)計。通過發(fā)布任務(wù)的流程管理功能,可以查詢和統(tǒng)計數(shù)據(jù)提交、接收方面的管理信息。
對于基于數(shù)據(jù)提交單自動發(fā)起的發(fā)布任務(wù),系統(tǒng)能分析提交單的類別,進入相應(yīng)種類數(shù)字資源的發(fā)布處理流程;系統(tǒng)能記錄數(shù)據(jù)接收、檢查、入庫等管理信息;處理完成后系統(tǒng)能向提交者反饋數(shù)據(jù)接收結(jié)果,對接收失敗的情況同時反饋錯誤原因。
任務(wù)在自動運行時,可以通過用戶界面顯示任務(wù)狀態(tài)、進度和處理日志,讓使用者了解任務(wù)進度,判斷任務(wù)是否正常。對于處于程序自動執(zhí)行階段的任務(wù),用戶可以隨時暫停、停止、啟動、繼續(xù)任務(wù),以觀察任務(wù)記錄,判斷是否有錯誤。任務(wù)在運行過程中,系統(tǒng)應(yīng)提供界面反映該攝入任務(wù)處理的當(dāng)前進度和狀態(tài);處理過程出現(xiàn)錯誤,界面須返回錯誤詳情;提交成功后需返回本次任務(wù)的統(tǒng)計信息。整個任務(wù)結(jié)束后應(yīng)向提交方反饋處理結(jié)果信息。
數(shù)據(jù)發(fā)布并向讀者提供服務(wù)后,數(shù)據(jù)有可能存在沒有發(fā)現(xiàn)的錯誤(如元數(shù)據(jù)描述信息存在問題、對象數(shù)據(jù)存在錯誤等),發(fā)布服務(wù)系統(tǒng)的前臺展示模塊應(yīng)提供數(shù)據(jù)錯誤報告入口,以方便用戶報告服務(wù)數(shù)據(jù)中存在的錯誤。系統(tǒng)支持數(shù)據(jù)錯誤報告的流程化管理。
發(fā)布與服務(wù)的一致化流程的實現(xiàn)離不開標準規(guī)范的支撐,無論是數(shù)據(jù)的組織還是服務(wù)的對接,標準規(guī)范給出了統(tǒng)一和可持續(xù)發(fā)展的思路。標準規(guī)范是發(fā)布與服務(wù)一致化實現(xiàn)的基本保障,也是保證發(fā)布與服務(wù)可利用、可互操作和可持續(xù)發(fā)展的基礎(chǔ)。在具體實施時,主要有元數(shù)據(jù)標準、對象數(shù)據(jù)標準、唯一標識符標準、版權(quán)相關(guān)法規(guī)和標準等。目前這些相關(guān)規(guī)范比較多,例如元數(shù)據(jù)標準中,通用的圖書類業(yè)界標準包括CNMARC、DC等。對于每一類文獻的元數(shù)據(jù),還需要落實各自的數(shù)字資源專門元數(shù)據(jù)標準,包括圖書、圖片、音視頻、古籍、拓片、輿圖等,標準規(guī)范的選擇顯得尤為重要。國家圖書館立足于國內(nèi)外已有標準規(guī)范成果,結(jié)合國家數(shù)字圖書館建設(shè)經(jīng)驗,構(gòu)建了國家數(shù)字圖書館工程標準規(guī)范體系,圍繞數(shù)字資源生命周期為主線,主要包括數(shù)字內(nèi)容創(chuàng)建、數(shù)字對象描述、數(shù)字資源組織管理、數(shù)字資源服務(wù)、數(shù)字資源長期保存五個環(huán)節(jié)[5]。數(shù)字資源發(fā)布與服務(wù)是生命周期的重要一環(huán),其建設(shè)需要跟其他環(huán)節(jié)呼應(yīng)和合作,標準規(guī)范的選擇需要從全局出發(fā)考慮總體性,所以在搭建服務(wù)時可以依賴于國家圖書館標準規(guī)范體系。
隨著計算機和互聯(lián)網(wǎng)的飛速發(fā)展,圖書館數(shù)字資源的種類和數(shù)量飛速增長,圖書館數(shù)字資源環(huán)境逐步向分布式、異構(gòu)和開放等方向發(fā)展,如何將這些資源進行一致化封裝和發(fā)布成為數(shù)字圖書館發(fā)展面臨的重要問題[6]。數(shù)字圖書館資源發(fā)布與服務(wù)系統(tǒng)一致化模型給出了數(shù)字資源的統(tǒng)一發(fā)布思路和實踐方式,在保證適用性和可擴性的基礎(chǔ)上,實現(xiàn)了各種類型數(shù)字資源(例如:圖書、圖片、音視頻等)的統(tǒng)一批量發(fā)布。然而,對于數(shù)據(jù)量龐大的數(shù)字資源,發(fā)布起來往往需要較長時間,因此,數(shù)字資源的高效發(fā)布也是非常重要的,在保證數(shù)據(jù)質(zhì)量的情況下,提高數(shù)據(jù)發(fā)布效率是數(shù)字圖書館資源統(tǒng)一發(fā)布中需要考慮的問題。