張宏偉 齊明明 史 磊 李 楊
(黑龍江中醫(yī)藥大學(xué)圖書館,黑龍江 哈爾濱 150040)
統(tǒng)一檢索也叫異構(gòu)數(shù)據(jù)源整合檢索,是以多個分布式異構(gòu)數(shù)據(jù)源為對象的檢索系統(tǒng)[1],可以實現(xiàn)不同規(guī)模、不同類型資源庫的資源整合與一站式檢索服務(wù),實現(xiàn)檢索結(jié)果的統(tǒng)一展現(xiàn)和知識關(guān)聯(lián)發(fā)現(xiàn)。系統(tǒng)向用戶提供統(tǒng)一的檢索接口,將用戶的檢索要求轉(zhuǎn)化為不同數(shù)據(jù)源的檢索表達式,并發(fā)地檢索廣域網(wǎng)上和圖書館本地的多個分布式異構(gòu)數(shù)據(jù)源,并對檢索結(jié)果加以整合,在經(jīng)過去重和排序等操作后,以統(tǒng)一的格式將結(jié)果呈現(xiàn)給用戶[2]。
統(tǒng)一檢索系統(tǒng)是針對圖書館內(nèi)部來源不同的數(shù)字資源進行數(shù)據(jù)整合與檢索的一站式搜索與知識發(fā)現(xiàn)服務(wù)系統(tǒng)[3]?;谠獢?shù)據(jù)倉儲的統(tǒng)一檢索系統(tǒng)除具備異構(gòu)數(shù)據(jù)源檢索分發(fā)、結(jié)果頁面分析、結(jié)果去重合并、結(jié)果集統(tǒng)一和分類展示等功能外,其重大改進在于實現(xiàn)多數(shù)據(jù)源的元數(shù)據(jù)本地化采集、存儲和管理,實現(xiàn)基于本地元數(shù)據(jù)倉儲的資源整合檢索與全文獲取服務(wù)[4]。因此,基于元數(shù)據(jù)倉儲的統(tǒng)一檢索系統(tǒng)不僅僅是一種統(tǒng)一檢索系統(tǒng),更是一種本地化的知識發(fā)現(xiàn)與服務(wù)系統(tǒng)[5]。
元數(shù)據(jù)倉儲平臺是實現(xiàn)圖書館數(shù)字資源整合與利用的最有效手段,它的主要工作是采集各異構(gòu)數(shù)據(jù)源的元數(shù)據(jù)信息,構(gòu)建的難點在于元數(shù)據(jù)的采集、存儲管理及數(shù)據(jù)同步。
建成一個良好的元數(shù)據(jù)倉儲,是信息服務(wù)的基礎(chǔ),只有擁有規(guī)范的、高質(zhì)量的元數(shù)據(jù),才有可能建成靈活實用的資源服務(wù)體系。元數(shù)據(jù)采集設(shè)計示例如圖1所示。
圖1 元數(shù)據(jù)采集設(shè)計示例
2.1.1 采集對象分析
元數(shù)據(jù)采集的主要對象為能夠提取元數(shù)據(jù)信息的數(shù)據(jù)庫。一般有本地自建數(shù)據(jù)庫、分布式自建數(shù)據(jù)庫以及外購數(shù)據(jù)庫。
2.1.2 本地自建數(shù)據(jù)庫
本地自建數(shù)據(jù)庫是圖書館對內(nèi)部資源進行加工整理而形成的專題或特色數(shù)據(jù)庫,其表結(jié)構(gòu)等數(shù)據(jù)庫詳細信息均可獲得,因此對于該部分?jǐn)?shù)據(jù)庫的元數(shù)據(jù)獲取相對容易。
行業(yè)數(shù)據(jù)庫的建設(shè)應(yīng)遵循一定的指導(dǎo)原則,應(yīng)具有可使用性、互操作性和可持續(xù)性。這樣在后期的使用、升級或者構(gòu)建其他服務(wù)時才能順利進行。
2.1.3 分布式自建數(shù)據(jù)庫
分布式自建數(shù)據(jù)庫為其他機構(gòu)建立的數(shù)據(jù)庫,其對象數(shù)據(jù)不在本地。這部分?jǐn)?shù)據(jù)與行業(yè)數(shù)據(jù)庫類似,可以抽取出元數(shù)據(jù)信息,但是其數(shù)據(jù)庫不在本地,所以其對象數(shù)據(jù)調(diào)用服務(wù)過程與行業(yè)數(shù)據(jù)庫會有所不同。
當(dāng)用戶向本地Web服務(wù)器發(fā)送檢索請求時,查找到自己想要信息并調(diào)用其詳細內(nèi)容時,如果對象數(shù)據(jù)在本地,則直接在本機構(gòu)內(nèi)數(shù)據(jù)庫中獲取數(shù)據(jù)返回到發(fā)布頁面;如果不在本地的話,可以直接從異地數(shù)據(jù)庫中取回數(shù)據(jù)返回到本地發(fā)布端,此過程并不會把異地數(shù)據(jù)庫中的數(shù)據(jù)取回來放在自己的服務(wù)器上,而是同步顯示在發(fā)布端。
2.1.4 外購數(shù)據(jù)庫
外購數(shù)據(jù)庫一般都是封裝好的,我們無法獲得其元數(shù)據(jù)信息。但是對于少數(shù)可以提供其元數(shù)據(jù)信息表的,我們提供導(dǎo)入工具。
數(shù)據(jù)庫可以按照特定格式導(dǎo)出數(shù)據(jù)庫內(nèi)容。對于不同性質(zhì)的數(shù)據(jù)庫,如圖書、期刊數(shù)據(jù)庫,可以分別按照其元數(shù)據(jù)必備字段要求導(dǎo)出,支持的格式包括xls、txt、dbf、xml等,但是建議最好是xml文件,這樣易于統(tǒng)一管理。
對于外購電子資源,根據(jù)電子資源供應(yīng)商提供的服務(wù)方式,可以通過開放Z39.50協(xié)議、Web Service接口、相關(guān)API接口等獲取該電子資源供應(yīng)商授權(quán)的元數(shù)據(jù)信息。
2.2.1 元數(shù)據(jù)存儲架構(gòu)
數(shù)字圖書館需要整合大量的館藏資源、外部電子資源與網(wǎng)絡(luò)資源。因此,從數(shù)據(jù)存取效率和存儲安全性方面考慮,建議元數(shù)據(jù)倉儲采取架構(gòu)在多個物理服務(wù)器之上的分布式服務(wù),支持?jǐn)?shù)據(jù)分布以及負載均衡兩種基本分布方式,并支持兩種方式的組合運用。
方式一是根據(jù)數(shù)據(jù)分類、功能不同,把內(nèi)容分開存儲。將整個元數(shù)據(jù)倉儲的數(shù)據(jù)根據(jù)內(nèi)容不同分為兩類,分別存放于數(shù)據(jù)庫(a)和數(shù)據(jù)庫(b)中,(a)(b)內(nèi)容不同。
方式二是內(nèi)容相同,數(shù)據(jù)不分開,只是每套數(shù)據(jù)分別存儲在不同的數(shù)據(jù)庫中,數(shù)據(jù)庫(a)和數(shù)據(jù)庫(b)內(nèi)都存放全部元數(shù)據(jù)倉儲內(nèi)容,(a)(b)內(nèi)容相同。
資源調(diào)度服務(wù)器分發(fā)任務(wù)的方式可以根據(jù)網(wǎng)絡(luò)流量、檢索并發(fā)或者來訪IP地址來進行任務(wù)分發(fā)。
元數(shù)據(jù)倉儲數(shù)據(jù)庫集群系統(tǒng)服務(wù)模式如圖2所示。當(dāng)用戶向元數(shù)據(jù)倉儲平臺Web服務(wù)器發(fā)送檢索請求時,其請求可能會被資源調(diào)度服務(wù)器分配到檢索集群中的任意一個檢索服務(wù)器,如分配給(a),(a)檢索后并從原數(shù)據(jù)庫中取回檢索結(jié)果,資源調(diào)度服務(wù)器在發(fā)布集群中選擇一個發(fā)布服務(wù)器,如(b),則(b)選擇接受數(shù)據(jù),并返回結(jié)果,將結(jié)果頁面以一定方式顯示給用戶。
圖2 數(shù)據(jù)庫集群服務(wù)模式
2.2.2 元數(shù)據(jù)庫管理
構(gòu)建元數(shù)據(jù)庫倉儲一樣要有很好的維護性。元數(shù)據(jù)倉儲管理重點在于其中的數(shù)據(jù),所以當(dāng)數(shù)據(jù)有了新的變化,增加或減少,元數(shù)據(jù)倉儲管理端都應(yīng)該能夠方便地進行處理。
①當(dāng)自建原數(shù)據(jù)庫內(nèi)數(shù)據(jù)發(fā)生變化時,元數(shù)據(jù)庫需要隨之變化。②當(dāng)增加新的自建數(shù)據(jù)庫時,元數(shù)據(jù)庫需要增加同步的數(shù)據(jù)庫量。③數(shù)據(jù)庫增加新內(nèi)容或者增加新的數(shù)據(jù)庫,由于網(wǎng)絡(luò)環(huán)境不能實現(xiàn)同步,可通過表單提交元數(shù)據(jù)信息。
元數(shù)據(jù)同步更新可以分為實時和非實時。非實時同步可以通過查看數(shù)據(jù)庫表的關(guān)系得到。其操作步驟一般為:①查看數(shù)據(jù)庫表的關(guān)系;②在源機器上根據(jù)表的關(guān)系導(dǎo)出數(shù)據(jù);③在目標(biāo)機器上根據(jù)表的關(guān)系使用命令刪除數(shù)據(jù);④在目標(biāo)機器上根據(jù)表的關(guān)系使用命令導(dǎo)入數(shù)據(jù)。
但是這種方式有很大的時間損耗,數(shù)據(jù)不能實時更新,因此我們采用實時同步的方式。元數(shù)據(jù)實時同步分為兩種方式,一種為主動的,一種為被動的。主動的元數(shù)據(jù)同步:元數(shù)據(jù)庫服務(wù)器定時查找對象數(shù)據(jù)庫是否有更新,如果有更新,則進行增量同步。被動的元數(shù)據(jù)同步:對象數(shù)據(jù)庫更新后,定期上傳更新數(shù)據(jù)到元數(shù)據(jù)服務(wù)器。
由于機構(gòu)內(nèi)各個專題庫數(shù)據(jù)庫結(jié)構(gòu)各異,如果要設(shè)定數(shù)據(jù)庫對元數(shù)據(jù)倉儲服務(wù)器的自動上傳,需要對每個數(shù)據(jù)庫進行改造,因此我們采用主動的元數(shù)據(jù)同步方式,由元數(shù)據(jù)服務(wù)器定期檢測對象數(shù)據(jù)庫,進行增量同步。
檢索服務(wù)是統(tǒng)一檢索系統(tǒng)的主要功能。為了具備更好的用戶體驗,采用簡潔的檢索入口(類似Baidu的一框式搜索),通過元數(shù)據(jù)內(nèi)容全文索引來檢索和返回結(jié)果,對結(jié)果進行合并、排重、排序等處理,并通過全文調(diào)度引擎分析全文鏈接,提供全文獲取服務(wù)?;谠獢?shù)據(jù)倉儲統(tǒng)一檢索系統(tǒng)架構(gòu)如圖3所示。
圖3 基于元數(shù)據(jù)倉儲統(tǒng)一檢索系統(tǒng)架構(gòu)
統(tǒng)一檢索系統(tǒng)為用戶提供簡單檢索入口。用戶在檢索前,可以選擇資源類型進行檢索,如期刊、圖書、學(xué)位論文、會議、報紙等。每種資源類型還可以選擇相應(yīng)的元數(shù)據(jù)字段,以進一步縮小檢索范圍。用戶也可以直接輸入檢索詞進行檢索,系統(tǒng)默認(rèn)在所有資源元數(shù)據(jù)中進行檢索。
系統(tǒng)將用戶的檢索請求轉(zhuǎn)化為統(tǒng)一的檢索表達式,并發(fā)送到本地的元數(shù)據(jù)倉儲中,根據(jù)檢索范圍分發(fā)到對應(yīng)的元數(shù)據(jù)庫索引中進行檢索。檢索結(jié)果通過處理引擎進行合并、排重、排序等操作后,以統(tǒng)一的格式將結(jié)果呈現(xiàn)給用戶。
統(tǒng)一檢索提供一站式的檢索入口和檢索結(jié)果展現(xiàn),能夠減輕用戶學(xué)習(xí)檢索不同數(shù)據(jù)源的負擔(dān);采用多元數(shù)據(jù)庫分布式全文檢索,能夠有效提升檢索效率,節(jié)省用戶檢索時間;檢索結(jié)果合并,為用戶呈現(xiàn)格式統(tǒng)一、分類聚合、多種排序的檢索結(jié)果,大大方便用戶的瀏覽和選擇。
統(tǒng)一檢索系統(tǒng)提供高級檢索功能。用戶可以對選中的多個數(shù)字資源同時進行檢索,可以輸入復(fù)雜的組合檢索條件來提高檢索精度,包括組配檢索、日期限制、排序限制以及字段內(nèi)部的截詞和邏輯檢索等。
統(tǒng)一檢索系統(tǒng)提供統(tǒng)一的檢索結(jié)果展現(xiàn)方式,包括檢索結(jié)果概覽和細覽,用戶可以在一個頁面中瀏覽不同資源庫中檢索出的結(jié)果信息。可以瀏覽每條結(jié)果的詳細信息,甚至直接下載全文。
檢索結(jié)果概覽支持多庫結(jié)果的統(tǒng)一展現(xiàn),同時提供不同資源庫的檢索結(jié)果集分類和分面展現(xiàn)。這些展現(xiàn)方式都可以在一個頁面上集中體現(xiàn),方便用戶根據(jù)自己的需要選擇性查看。
結(jié)果細覽頁面提供該檢索結(jié)果的全文獲取方式。不同資源類型所提供的全文獲取服務(wù)不同,從總體上來看,資源全文獲取服務(wù)可以包括以下幾部分。
①電子資源服務(wù),包括電子資源全文下載和電子資源在線閱覽。電子資源全文下載需具有電子資源訪問權(quán)限。電子資源在線閱覽分為兩種,一種為常見的非結(jié)構(gòu)化文檔,如Word、PDF、PPT、Excel、HTML、圖片等,可以提供格式轉(zhuǎn)換和在線查看;另一種為電子資源。
②館藏服務(wù),查看各個參與圖書館的館藏信息,并提供圖書館藏狀態(tài)查看、預(yù)借、續(xù)借服務(wù)(需要與圖書館OPAC系統(tǒng)集成)。一般顯示3個有此館藏的圖書館名稱,點擊“更多”可以展開該頁面,顯示全部有此館藏的圖書館列表(需要與館際互借和文獻傳遞系統(tǒng)集成)。
③互聯(lián)網(wǎng)服務(wù),互聯(lián)網(wǎng)公共搜索引擎,如百度新聞、百度文庫、豆瓣書評等,需要進行統(tǒng)一檢索配置?;ヂ?lián)網(wǎng)專業(yè)搜索引擎,如國家知識產(chǎn)權(quán)局專利檢索、標(biāo)準(zhǔn)技術(shù)網(wǎng)標(biāo)準(zhǔn)搜索等,需要進行統(tǒng)一檢索配置。
④文獻傳遞服務(wù),虛擬參考咨詢要與本館虛擬參考咨詢系統(tǒng)集成,館際互借要與館際互借和文獻傳遞系統(tǒng)集成。
文獻資源的檢索與利用是科研工作的重要組成部分,基于元數(shù)據(jù)倉儲的統(tǒng)一檢索系統(tǒng)能夠整合圖書館現(xiàn)有數(shù)據(jù)庫資源、外購的各種數(shù)據(jù)資源以及互聯(lián)網(wǎng)搜索引擎資源,提供資源的一站式檢索與服務(wù)。可以實現(xiàn)不同規(guī)模、多種資源庫的資源整合與檢索,實現(xiàn)檢索結(jié)果統(tǒng)一展現(xiàn),縮短了讀者查找文獻的時間,延長了讀者科研的壽命。
[1]徐榮華.基于元數(shù)據(jù)倉儲的資源整合應(yīng)用[J].圖書館雜志,2012(4):67-73.
[2]李洪梅.數(shù)字圖書館異構(gòu)資源統(tǒng)一檢索研究[J].圖書館學(xué)刊,2013(2):49-53.
[3]葛川,陳洪梅,劉嵐.數(shù)字資源統(tǒng)一檢索系統(tǒng)的設(shè)計與實現(xiàn)[J].現(xiàn)代情報,2011(4):49-52.
[4]蔣繼平,姚倩.文獻資源整合中的統(tǒng)一檢索系統(tǒng)應(yīng)用研究[J].大學(xué)圖書館學(xué)報,2011(1):72-76.
[5]鄧曉音.統(tǒng)一檢索平臺評價標(biāo)準(zhǔn)及比較研究——以CALIS“外文期刊網(wǎng)”及交大圖書館“思源探索”檢索平臺為例[J].情報科學(xué),2012(12):1844-1848.