葉 青 劉洪輝 易 娟 陳 瑩 黃浩波
(1.廣西醫(yī)科大學(xué)圖書館 廣西南寧 530021;2.廣東省立中山圖書館 廣東廣州 510110)
數(shù)字信息資源整合是依據(jù)一定的需要,利用數(shù)字資源整合技術(shù)、網(wǎng)絡(luò)技術(shù)和其它相關(guān)技術(shù),對(duì)分布式、異構(gòu)條件下各個(gè)相對(duì)獨(dú)立關(guān)系的數(shù)字信息資源進(jìn)行融合、類聚和重組,將它們重新構(gòu)建為一個(gè)信息無(wú)縫透明鏈接而效能更高的新數(shù)字信息資源檢索系統(tǒng)。經(jīng)過整合的數(shù)字資源檢索系統(tǒng)具有集成檢索功能,是跨平臺(tái)、跨數(shù)據(jù)庫(kù)、跨內(nèi)容的新型數(shù)字信息資源體系,有以下幾種技術(shù)類型:
XML是一種可以對(duì)信息進(jìn)行自我描述的語(yǔ)言,它有使用普通文本、自定義復(fù)雜的標(biāo)記結(jié)構(gòu)以及跨平臺(tái)的優(yōu)點(diǎn)。〔1〕當(dāng)用戶需獲取來(lái)自不同來(lái)源、不同格式的數(shù)據(jù)時(shí),用戶就通過XML與這些數(shù)據(jù)庫(kù)進(jìn)行交互,收到經(jīng)過XML中間件處理的統(tǒng)一格式的數(shù)據(jù)。
SFX是一個(gè)基于開放的統(tǒng)一資源定位器(Open URL)標(biāo)準(zhǔn)而實(shí)現(xiàn)不同數(shù)據(jù)庫(kù)之間上下文互連的參考鏈接系統(tǒng),它能把不同通信協(xié)議和不同數(shù)據(jù)庫(kù)系統(tǒng)來(lái)源的信息融合,實(shí)現(xiàn)不同類型、不同格式的數(shù)字信息資源無(wú)縫鏈接。
Web Service是為實(shí)現(xiàn)基于web無(wú)縫集成目標(biāo)而提出的一個(gè)全新概念,主要是為了使原來(lái)各孤立站點(diǎn)之間的信息能夠相互通信、共享而提出的一種接口?!?-3〕
DOI技術(shù)是為數(shù)字環(huán)境中的圖書、期刊等數(shù)字資源對(duì)象分配唯一的、永久性的含有出版商本身DOI前綴的DOI標(biāo)識(shí)碼,方便對(duì)數(shù)字資源的管理和使用。
除上述數(shù)字資源整合關(guān)鍵技術(shù)外,還有CGI、ODBC、JDBC、ASP技術(shù)、JSP技術(shù)和地域性索引服務(wù)平臺(tái)技術(shù)等在數(shù)字資源整合中應(yīng)用。
為使讀者快速檢索到所需信息,筆者提出以下七點(diǎn)整合策略:
導(dǎo)航整合策略是一種簡(jiǎn)單的數(shù)字資源著錄整合,通過導(dǎo)航引導(dǎo)進(jìn)入某個(gè)具體的數(shù)字資源庫(kù)進(jìn)行單庫(kù)檢索。該策略可用SFX整合技術(shù)實(shí)現(xiàn),但整合程度較低。
OPAC策略依托OPAC系統(tǒng)的功能,通過對(duì)系統(tǒng)功能擴(kuò)展實(shí)現(xiàn)對(duì)圖書館各種數(shù)字資源的整合。該策略技術(shù)實(shí)現(xiàn)較容易,整合質(zhì)量也較高,但由于很多數(shù)字資源無(wú)法提供獨(dú)立的URL,且有些數(shù)字資源鏈接的IP地址常發(fā)生變化而造成數(shù)據(jù)的不能正常訪問,系統(tǒng)需進(jìn)行長(zhǎng)期不間斷的維護(hù)。
數(shù)字圖書館應(yīng)用系統(tǒng)整合策略是指進(jìn)行數(shù)字圖書館系統(tǒng)設(shè)計(jì)時(shí)利用跨庫(kù)檢索技術(shù)建立一跨庫(kù)檢索平臺(tái),〔4〕然后利用這一平臺(tái)的支持分布式系統(tǒng)操作、數(shù)據(jù)無(wú)縫交換及信息共享的功能,來(lái)構(gòu)建數(shù)字信息資源邏輯上的集成信息服務(wù)機(jī)制,并根據(jù)其邏輯關(guān)系把它們組織成相互聯(lián)系的立體網(wǎng)絡(luò)資源系統(tǒng)。
跨庫(kù)檢索整合策略是指建立實(shí)現(xiàn)多個(gè)數(shù)據(jù)庫(kù)同時(shí)檢索的跨庫(kù)檢索平臺(tái)?!?〕跨庫(kù)檢索具有使用方便、操作快捷的優(yōu)點(diǎn),避免了單庫(kù)檢索需掌握多種檢索方法和重復(fù)輸入檢索條件的麻煩。但它整合的一般只是同一系統(tǒng)中數(shù)據(jù)結(jié)構(gòu)相似而文獻(xiàn)類型不同的數(shù)據(jù)庫(kù),并非異地、異平臺(tái)的異構(gòu)數(shù)據(jù)庫(kù)。
基于鏈接系統(tǒng)的整合策略是指依靠網(wǎng)絡(luò)的超文本鏈接功能將存在于異構(gòu)數(shù)據(jù)源的虛擬信息與真實(shí)信息實(shí)體的內(nèi)在關(guān)系進(jìn)行整合。該策略實(shí)現(xiàn)較為容易,但只有簡(jiǎn)單的鏈接功能,沒有檢索功能。
元數(shù)據(jù)的整合策略是對(duì)多個(gè)異構(gòu)、不同標(biāo)準(zhǔn)的原始數(shù)據(jù)源采用同一標(biāo)準(zhǔn)標(biāo)引建成一個(gè)按數(shù)據(jù)庫(kù)方式儲(chǔ)存的元數(shù)據(jù)集,通過Web Service發(fā)布系統(tǒng)與客戶端進(jìn)行信息交換。它是目前應(yīng)用較多的跨平臺(tái)系統(tǒng)。但是,在原始數(shù)據(jù)源的集成過程中容易造成命名、模式結(jié)構(gòu)等沖突而導(dǎo)致元數(shù)據(jù)與原文數(shù)據(jù)源之間同步性差的現(xiàn)象。
數(shù)據(jù)倉(cāng)庫(kù)整合策略是指將異地、異構(gòu)數(shù)據(jù)庫(kù)系統(tǒng)中分散、不一致的數(shù)據(jù)進(jìn)行整合建成一個(gè)集成同構(gòu)的數(shù)據(jù)倉(cāng)儲(chǔ)集合并提供統(tǒng)一的檢索。〔6〕該策略對(duì)硬件設(shè)備要求較高。
筆者現(xiàn)結(jié)合廣西醫(yī)科大學(xué)圖書館(以下簡(jiǎn)稱“廣醫(yī)館”)數(shù)字資源的異構(gòu)特征,并提出相應(yīng)的整合策略。
廣醫(yī)館現(xiàn)有文獻(xiàn)數(shù)字資源庫(kù)共29個(gè),這些數(shù)字資源的異構(gòu)特征表現(xiàn)在四個(gè)方面:一是數(shù)據(jù)模型的異構(gòu):有層次、網(wǎng)狀、關(guān)系和面向?qū)ο?種;二是數(shù)據(jù)結(jié)構(gòu)有的用0ralce結(jié)構(gòu),有的則用Sybase數(shù)據(jù)結(jié)構(gòu),或是半結(jié)構(gòu)或非結(jié)構(gòu)的;三是系統(tǒng)控制方式的不同,該館數(shù)字資源有的采用集中式系統(tǒng)控制,有的則采用分布式系統(tǒng)控制;四是通信協(xié)議和通信結(jié)構(gòu)模式的不同:有Z39.50通信協(xié)議、HTTP標(biāo)準(zhǔn)和非標(biāo)準(zhǔn)通信協(xié)議;通信結(jié)構(gòu)模式有主從結(jié)構(gòu)、瀏覽器/服務(wù)器模式和客戶服務(wù)器模式。
通過對(duì)數(shù)字資源整合技術(shù)和整合策略的對(duì)比研究,結(jié)合廣醫(yī)館數(shù)字資源的異構(gòu)特征和學(xué)校資金能力,采用基于OpenURL協(xié)議與XML Schema的元數(shù)據(jù)整合策略建立廣西醫(yī)科大學(xué)統(tǒng)一檢索平臺(tái)。一是借鑒丹麥的MARCXchange模式結(jié)構(gòu),對(duì)ISO2709基本組成部分進(jìn)行相應(yīng)的處理,建立用于描述CNMARC和UNMARC格式的XML Schema文檔。數(shù)字文獻(xiàn)信息資源整合由Wrappers模型結(jié)構(gòu)來(lái)實(shí)現(xiàn)中間件框架與XML Schema結(jié)合的中間件技術(shù),并通過保留和建立語(yǔ)義約束對(duì)不同結(jié)構(gòu)文獻(xiàn)庫(kù)中的元數(shù)據(jù)進(jìn)行提取、轉(zhuǎn)化和合并來(lái)實(shí)現(xiàn)圖書館數(shù)字信息資源庫(kù)的半自動(dòng)化整合。二是統(tǒng)一檢索平臺(tái),建立以IPAC檢索頁(yè)面為中心的一站式數(shù)字資源鏡像地址的檢索和鏈接服務(wù),滿足OpenURL協(xié)議的鏡像地址動(dòng)態(tài)修改的需求。平臺(tái)還以HORIZONIPAC檢索頁(yè)面為嵌入對(duì)象,重新構(gòu)建添加了新的鏈接信息的IPAC檢索頁(yè)面,即讀者輸入檢索信息后,返回的檢索結(jié)果頁(yè)面顯示檢索命中該館所擁有的資源類型(圖書、期刊論文、學(xué)位論文或會(huì)議論文等)及記錄數(shù),另外還顯示對(duì)這些命中數(shù)字資源記錄的鏈接。
通過制訂數(shù)據(jù)庫(kù)結(jié)構(gòu)等數(shù)字資源相關(guān)國(guó)家標(biāo)準(zhǔn),讓數(shù)字資源數(shù)據(jù)庫(kù)系統(tǒng)建設(shè)有章可循,數(shù)據(jù)互相兼容、方便移植,使不同的數(shù)字信息資源真正實(shí)現(xiàn)無(wú)縫、透明地鏈接,實(shí)現(xiàn)一站式檢索目的,節(jié)省用戶的檢索時(shí)間,提高檢索效率和信息資源的利用率,從而提高圖書館的服務(wù)水平。
美國(guó)Dialog系統(tǒng)、德日兩國(guó)合建的STN系統(tǒng)以及法國(guó)的QuesteloOrbit系統(tǒng)是數(shù)字信息資源整合的典范,可同時(shí)在幾個(gè)甚至幾十個(gè)數(shù)據(jù)庫(kù)中進(jìn)行跨庫(kù)檢索,是科技信息資源收藏、傳播、共享和利用最重要的方式和手段。因此,可借鑒國(guó)際聯(lián)機(jī)檢索系統(tǒng)的經(jīng)驗(yàn),研發(fā)符合我國(guó)國(guó)情的科技信息國(guó)際聯(lián)機(jī)檢索系統(tǒng),提高我國(guó)數(shù)字資源的整合能力和水平。
目前我國(guó)的數(shù)字資源的整合研究雖然取得了一些成果,也有了不小的進(jìn)展。但起步較晚,經(jīng)濟(jì)技術(shù)相對(duì)落后,國(guó)家和各級(jí)政府應(yīng)該在政策和資金等方面給予鼓勵(lì)和支持,加強(qiáng)數(shù)字信息資源整合的理論和應(yīng)用研究,不斷探索新的整合技術(shù)和研究新的整合策略以提高我國(guó)數(shù)字信息資源的整合能力和水平,加強(qiáng)圖書館數(shù)字信息資源的開發(fā)利用。
1.柏永斌等.基于XML和WebService的異構(gòu)數(shù)據(jù)整合技術(shù)應(yīng)用研究.電腦知識(shí)與技術(shù),2009,5(8):1796 -1797
2.Tsalgatidou Aphrodite,Athanasopoulos George,Pantazoglou Michael.Interoperability Among Heterogeneous Services:The case of Integration of P2P Services with Web Services.International Journal of Web Services Research,2008,5(4):79 -110
3.Yunk,Liuw,Zhou A.A framework ofWeb service composi- tion for distributed XML query evaluation.APWeb 2005,WebTechnologiesResearch and Development.Springer,LNCS3399.2005.572 -578
4.Hao Ding,Solvberg,Ingeborg T.Semantic Data Integration Framework in Peer-to-Peer based Digital Libraries.Journal of Digital Information Management,2005,3(2):71 -75
5.翟?shī)檴櫍愖咳?,夏立新.基于OGSA的數(shù)字圖書館跨庫(kù)檢索平臺(tái)構(gòu)建.情報(bào)科學(xué),2011(2):294-297
6.Tseng,F(xiàn)rank S.C,Chia - Wei Chen.Integrating heterogeneous data warehouses using XML technologies.Journal of Information Science,2005,31(3):209 -229