〔摘 要〕數(shù)字圖書館現(xiàn)有的檢索引擎和檢索技術(shù)由于無(wú)法提供上下文的語(yǔ)義信息,已經(jīng)無(wú)法滿足用戶的檢索需求。語(yǔ)義網(wǎng)技術(shù)可以很好的表達(dá)數(shù)字圖書館的內(nèi)容,因此將語(yǔ)義網(wǎng)相關(guān)技術(shù)引入數(shù)字圖書館檢索可以提高檢索的精度。雖然數(shù)字圖書館的信息資源利用元數(shù)據(jù)表達(dá)并可以通過(guò)OAI-PMH進(jìn)行訪問(wèn),但是仍有很大部分需要語(yǔ)義網(wǎng)組件進(jìn)行完善。在此基礎(chǔ)上,提出了一個(gè)面向數(shù)字圖書館的通用模型的語(yǔ)義框架,這個(gè)框架可以滿足用戶高度個(gè)性化的信息需求。
〔關(guān)鍵詞〕數(shù)字圖書館;信息管理;語(yǔ)義網(wǎng)
DOI:10.3969/j.issn.1008-0821.2010.12.004
〔中圖分類號(hào)〕G250.76 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2010)12-0015-03
Research on the Faceted Infrastructure for Semantic Digital LibrariesXi Caili1 Li Ying2
(1.Library,HuaiHai Institute of Technology,Lianyungang 222005,China;
2.Institute of Agricultural Resources and Regional Planning of Jilin Province,Changchun 130062,China)
〔Abstract〕Search engines and search techniques have fallen short of user expectations as they do not give context based retrieval.Deploying semantic web technologies would lead to efficient and more precise representation of digital library content and hence better retrieval.Though digital libraries often have metadata of information resources which can be accessed through OAI-PMH,much remains to be accomplished in making digital libraries semantic web compliant.This paper presented a semantic infrastructure for digital libraries,that will go a long way in providing them and web based information services with products highly customized to users needs.
〔Keywords〕digital library;information management;semantic web
數(shù)字圖書館是以知識(shí)概念為支撐的一種信息服務(wù)和知識(shí)服務(wù)環(huán)境。從用戶的需求來(lái)看,希望數(shù)字圖書館系統(tǒng)能靈活地處理信息、提煉知識(shí),通過(guò)圍繞用戶信息活動(dòng)和用戶信息系統(tǒng)來(lái)有效地組織集成數(shù)字信息資源和信息服務(wù),從而方便、快捷、有效地支持用戶檢索、處理、利用各類信息資源[1]。因此,用戶評(píng)價(jià)數(shù)字圖書館的重要指標(biāo)就是其能否有效地提供知識(shí)檢索服務(wù)。早期的數(shù)字圖書館所提供的知識(shí)檢索工具是通過(guò)檢索自身的書目數(shù)據(jù)庫(kù)或鏈接互聯(lián)網(wǎng)搜索引擎來(lái)發(fā)現(xiàn)知識(shí)。但是這種傳統(tǒng)的檢索引擎和技術(shù)無(wú)法提供基于內(nèi)容的信息檢索,因此很少能滿足用戶的需求。將語(yǔ)義網(wǎng)(Semantic web)引入數(shù)字圖書館可以更精確、更有效地表達(dá)數(shù)字圖書館的內(nèi)容,從而也有利于信息查詢。
出現(xiàn)在語(yǔ)義網(wǎng)上的信息種類是多種多樣的,包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),如何將它們映射成數(shù)據(jù)庫(kù)或其他存儲(chǔ)機(jī)制的數(shù)據(jù)實(shí)體,是語(yǔ)義網(wǎng)要解決的重要問(wèn)題。元數(shù)據(jù)的出現(xiàn)為其提供了良好的解決途徑。數(shù)字圖書館中元數(shù)據(jù)的功能是用來(lái)表述書目數(shù)據(jù)的信息內(nèi)容。雖然可以通過(guò)OAI-PMH獲得數(shù)字?jǐn)?shù)圖書館里信息的元數(shù)據(jù),但是如何使語(yǔ)義網(wǎng)和元數(shù)據(jù)兼容還有許多工作需要完成。本文嘗試提供一個(gè)面向數(shù)字圖書館的通用模型的語(yǔ)義架構(gòu)。分面本體只是其中的一個(gè)方式,利用這種模型可以通過(guò)不同的方式來(lái)構(gòu)建本體以提高數(shù)字圖書館的檢索效率。
1 元數(shù)據(jù)標(biāo)準(zhǔn)
元數(shù)據(jù)(Metadata)最簡(jiǎn)明抽象的定義就是“關(guān)于數(shù)據(jù)的數(shù)據(jù)”(data about data),用于描述載有信息的實(shí)體的相關(guān)特征,以便標(biāo)識(shí)、發(fā)現(xiàn)、評(píng)價(jià)和管理被描述的這些實(shí)體[2]。在數(shù)字圖書館中,元數(shù)據(jù)是查找信息資源的有力工具。為了方便討論,這里我們把元數(shù)據(jù)粗略劃分為兩類:書目元數(shù)據(jù)和非書目元數(shù)據(jù)。書目元數(shù)據(jù)是建立在圖書館傳統(tǒng)書目數(shù)據(jù)基礎(chǔ)上的數(shù)據(jù);非書目元數(shù)據(jù)可以是任何名詞,如,人、組織、機(jī)構(gòu)或商品等等。在本文中,我們把討論集中在書目元數(shù)據(jù)。
目前已投入使用的書目元數(shù)據(jù)標(biāo)準(zhǔn)較多,如MARC21[3]、UNIMARC[4]、DC[5]等,不同的標(biāo)準(zhǔn)導(dǎo)致元數(shù)據(jù)的不同標(biāo)注和不同理解。這里我們選用使用比較廣泛、具有代表性的DC作為本文的元數(shù)據(jù)標(biāo)準(zhǔn)。DC具有15個(gè)既可選擇又可重復(fù)的核心元素,可被用于簡(jiǎn)單或復(fù)雜的元數(shù)據(jù)描述,以創(chuàng)建任何搜索引擎和數(shù)據(jù)庫(kù)結(jié)構(gòu)可用的元數(shù)據(jù)。其目的是提供能被用于任何應(yīng)用軟件、數(shù)據(jù)格式或者主題領(lǐng)域的字段和描述,是適合于任何Web資源、任何標(biāo)準(zhǔn)的元數(shù)據(jù)[6]。
網(wǎng)絡(luò)的出現(xiàn)意味著元數(shù)據(jù)標(biāo)準(zhǔn)必須通過(guò)一種語(yǔ)言可以被瀏覽器、搜索引擎或其他基于Web的互聯(lián)網(wǎng)信息工具使用。這導(dǎo)致了例如可擴(kuò)展標(biāo)記語(yǔ)言(XML)元數(shù)據(jù)等等的應(yīng)用。
2 語(yǔ)義網(wǎng)相關(guān)技術(shù)
2.1 語(yǔ)義網(wǎng)技術(shù)
網(wǎng)絡(luò)上存在著海量的信息,這些信息對(duì)于大多數(shù)用戶都是有用的,惟一的問(wèn)題是不能在正確的時(shí)間以正確的方法提供給正確的用戶。這個(gè)問(wèn)題產(chǎn)生的原因在于現(xiàn)有的搜索引擎沒(méi)有關(guān)注到用戶查詢的內(nèi)容含義。隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,現(xiàn)在網(wǎng)絡(luò)信息的交流已經(jīng)是“人——人”的交流,而不是“人——機(jī)器——人”的交流。如果網(wǎng)絡(luò)上的信息是機(jī)器可以理解和處理的內(nèi)容,那么檢索將更有意義或更“語(yǔ)義的”,這就導(dǎo)致語(yǔ)義網(wǎng)的出現(xiàn)。語(yǔ)義網(wǎng)的目標(biāo)是將人類知識(shí)編織成一個(gè)巨大的網(wǎng)絡(luò),并以機(jī)器處理的方式來(lái)實(shí)現(xiàn)。其中各種自動(dòng)化服務(wù)將幫助用戶以機(jī)器可理解的格式訪問(wèn)和提供信息,并使得計(jì)算機(jī)自動(dòng)化處理過(guò)程和Web信息集成更為方便[7]。
W3C已經(jīng)批準(zhǔn)了一系列網(wǎng)絡(luò)描述語(yǔ)言用來(lái)表述網(wǎng)絡(luò)上的信息資源。這一系列描述語(yǔ)言利用結(jié)構(gòu)化的方式來(lái)表達(dá)網(wǎng)絡(luò)信息,在處理語(yǔ)義時(shí)利用不同的層次來(lái)進(jìn)行描述。這一系列描述語(yǔ)言由XML、XML Schema、RDF、RDF Schema、OWL以及SKOS組成。
2010年12月第30卷第12期面向數(shù)字圖書館的分面語(yǔ)義架構(gòu)研究Dec2.2 XML和特定域標(biāo)記
雖然圖書館界發(fā)展元數(shù)據(jù)標(biāo)準(zhǔn)較晚,但是XML最初的應(yīng)用之一就是描述圖書館數(shù)據(jù),數(shù)字圖書館的書目數(shù)據(jù)和記錄,可以很容易地在XML中代表。然而由于元數(shù)據(jù)標(biāo)準(zhǔn)較多、形式多樣的因素,基于XML的元數(shù)據(jù)集在實(shí)際檢索中產(chǎn)生了更多的問(wèn)題。如果為了實(shí)現(xiàn)高效和精確的檢索,描述性的元數(shù)據(jù)是無(wú)法滿足需要的,這種情況下,必須在基于元數(shù)據(jù)描述概念的基礎(chǔ)上對(duì)元數(shù)據(jù)進(jìn)行語(yǔ)義編碼,這種語(yǔ)義不僅僅為人類所認(rèn)知,同時(shí)也應(yīng)該被機(jī)器理解。這就使得圖書館的工作焦點(diǎn)轉(zhuǎn)移到基于主題索引技術(shù)使用受控詞表發(fā)現(xiàn)知識(shí),而不是僅僅部署圖書資源。這些工作在網(wǎng)絡(luò)上就是通過(guò)資源描述框架(RDF)和Web本體語(yǔ)言(OWL)表示編碼的概念以及概念之間的關(guān)系來(lái)實(shí)現(xiàn)。
2.3 SKOS(簡(jiǎn)單知識(shí)組織系統(tǒng))
SKOS(Simple Knowledge Organization Systems)是目前正在發(fā)展的簡(jiǎn)單知識(shí)組織描述語(yǔ)言,以RDF Schema設(shè)計(jì)方式來(lái)展現(xiàn)與分享控制的詞匯[8],例如:索引典、分類系統(tǒng)、主題標(biāo)目表、分類法、術(shù)語(yǔ)典、詞匯表以及其他型式可以運(yùn)用在語(yǔ)義網(wǎng)絡(luò)架構(gòu)的控制詞匯??商峁┮砸环N機(jī)器可以理解的(machine-understandable)方式表達(dá)他們?cè)~匯的結(jié)構(gòu)與概念,以供交換和再使用。SKOS Core(SKOS核心詞匯規(guī)格),提供以核心集的模式來(lái)表達(dá)概念體系的基本結(jié)構(gòu)與內(nèi)容。
雖然這些語(yǔ)義網(wǎng)的描述語(yǔ)言之間有不同,但是每一種描述語(yǔ)言都可以在一定程度上提高我們分析網(wǎng)絡(luò)信息語(yǔ)義的能力。如圖1所示。在準(zhǔn)確描述網(wǎng)絡(luò)信息語(yǔ)義的基礎(chǔ)上,利用推理引擎可以獲得用戶所需要的信息。推理的精度依賴于選擇何種層次的描述語(yǔ)言。
圖1 語(yǔ)義表達(dá)演化示意圖
3 面向數(shù)字圖書館的分面語(yǔ)義架構(gòu)系統(tǒng)模型
3.1 模型描述
數(shù)字圖書館的重要功能之一是提供知識(shí)組織和服務(wù)。在語(yǔ)義數(shù)字圖書館中的知識(shí)結(jié)構(gòu)都有其對(duì)應(yīng)的語(yǔ)義框架,這種語(yǔ)義框架相當(dāng)于一個(gè)個(gè)主題的抽象或概括。主題是以等級(jí)樹的形態(tài)組織,每個(gè)主題屬于一個(gè)分面。分面包含了主題等級(jí)表,分面內(nèi)的主題通常以等級(jí)的方式組織,及被分為類和子類。分面是對(duì)象或概念賴以描述的基本范疇,很多這樣的分面共同構(gòu)成一個(gè)主題域。同時(shí),這種語(yǔ)義框架的實(shí)現(xiàn)需要依賴于本體,因此,分面本體成為語(yǔ)義數(shù)字圖書館實(shí)現(xiàn)的基礎(chǔ)。
本體作為共享的和通用的領(lǐng)域知識(shí),可被視為具有明確語(yǔ)義信息且能被機(jī)器處理的數(shù)據(jù)。因此,作為語(yǔ)義數(shù)字圖書館中心概念的分面本體可以通過(guò)接口服務(wù)層提供語(yǔ)義服務(wù)。在此基礎(chǔ)上,我們提出一個(gè)面向數(shù)字圖書館的分面語(yǔ)義架構(gòu)系統(tǒng)模型。(如圖2所示)圖2 面向數(shù)字圖書館的分面語(yǔ)義架構(gòu)系統(tǒng)模型
3.2 主要模塊功能描述
3.2.1 語(yǔ)義倉(cāng)庫(kù)
語(yǔ)義倉(cāng)庫(kù)對(duì)應(yīng)著有關(guān)數(shù)字圖書館領(lǐng)域的語(yǔ)義分類內(nèi)容方面的知識(shí)數(shù)據(jù)庫(kù)。語(yǔ)義倉(cāng)庫(kù)里主要是主題詞的編碼、同義詞的編碼、詞語(yǔ)變化的編碼、語(yǔ)言線索的編碼等等。
3.2.2 知識(shí)結(jié)構(gòu)
知識(shí)結(jié)構(gòu)是表達(dá)每一個(gè)語(yǔ)義分面的正式的概念層次結(jié)構(gòu)。每一個(gè)主題域都是由這些語(yǔ)義分面有序組織形成的,這些語(yǔ)義分面可以通過(guò)個(gè)體、動(dòng)作以及特性進(jìn)行區(qū)別。如圖3所示。
圖3 知識(shí)結(jié)構(gòu)示意圖
3.2.3 表面結(jié)構(gòu)和主題表征
盡管語(yǔ)義分面是主題域的清晰分類,每個(gè)內(nèi)面包含主題域的一個(gè)概念,但是表達(dá)主題內(nèi)容,需要按照一定的規(guī)則生成表面字符串。這些字符串代表了分面的概念內(nèi)容,可以追蹤特定主題域的內(nèi)容或變化。
這些表面字符串可以通過(guò)系統(tǒng)內(nèi)的規(guī)則表達(dá)它們之間如何進(jìn)行聯(lián)系的。如圖4所示,我們?cè)跀?shù)字圖書館里利用基于分面本體產(chǎn)生的表面字符串來(lái)顯示“2009年中國(guó)小麥的收獲”這一主題特征。
小麥∷收獲∷中國(guó)∷2009
收獲∷小麥∷中國(guó)∷2009
中國(guó)∷小麥∷收獲∷2009
2009∷小麥∷收獲∷中國(guó)圖4 主題特征例圖
3.2.4 推理
推理模塊的推理機(jī)制是在用戶信息需求的基礎(chǔ)上生成服務(wù)列表。系統(tǒng)接收到用戶的查詢,分析查詢語(yǔ)言并進(jìn)行標(biāo)準(zhǔn)化處理。在理論上,系統(tǒng)可以給出用戶查詢請(qǐng)求的所有的可能路徑。在系統(tǒng)提供的建議基礎(chǔ)上,用戶可以自由修改或重新制定查詢請(qǐng)求。接下來(lái),推理機(jī)制對(duì)用戶的查詢請(qǐng)求進(jìn)行匹配和提煉,通過(guò)與語(yǔ)義倉(cāng)庫(kù)中相關(guān)知識(shí)域的匹配,最終將用戶的查詢請(qǐng)求匹配為相關(guān)的語(yǔ)義分面。
3.2.5 服務(wù)
在這一步中,系統(tǒng)可以依據(jù)用戶的要求和實(shí)際情況生成最終的服務(wù)結(jié)果。這一階段的基礎(chǔ)是互動(dòng)性,通過(guò)互動(dòng)可以更好地進(jìn)行判斷,同時(shí)為推理機(jī)制采取合理的查詢路徑。
4 結(jié) 語(yǔ)
數(shù)字圖書館的自然屬性與語(yǔ)義網(wǎng)很接近,數(shù)字圖書館是語(yǔ)義網(wǎng)技術(shù)應(yīng)用的最佳對(duì)象。這是因?yàn)?,?shù)字圖書館的結(jié)構(gòu)化數(shù)據(jù)有利于實(shí)現(xiàn)語(yǔ)義網(wǎng)遠(yuǎn)景;同時(shí),數(shù)字圖書館是由元數(shù)據(jù)授權(quán)形成海量信息數(shù)據(jù),而元數(shù)據(jù)在Web上仍是稀缺資源。此外,數(shù)字圖書館的內(nèi)容一般都有特定的范圍,因此它更容易構(gòu)建包含分面本體的語(yǔ)義網(wǎng)系統(tǒng)。
基于語(yǔ)義網(wǎng)的數(shù)字圖書館是未來(lái)的發(fā)展趨勢(shì),但是這其中也有許多關(guān)鍵技術(shù)需要解決,其中突出的問(wèn)題是如何對(duì)數(shù)字圖書館中的知識(shí)數(shù)據(jù)庫(kù)進(jìn)行語(yǔ)義描述,達(dá)到語(yǔ)義互聯(lián)和語(yǔ)義互操作;另外,如何有效的利用元數(shù)據(jù)等知識(shí)標(biāo)注語(yǔ)言對(duì)數(shù)據(jù)資源進(jìn)行語(yǔ)義描述,通過(guò)單一語(yǔ)義映像和多層語(yǔ)義互聯(lián),將知識(shí)庫(kù)群從多個(gè)不同類型的語(yǔ)義空間變換并整合到一個(gè)統(tǒng)一的資源空間等等都是以后需要迫切解決的問(wèn)題。
參考文獻(xiàn)
[1]劉柏嵩.ODL:一種新型基于本體的數(shù)字圖書館[J].大學(xué)圖書館學(xué)報(bào),2005,(3):11-15.
[2]常娥,何琳,侯漢清.元數(shù)據(jù)自動(dòng)生成技術(shù)研究[J].情報(bào)理論與實(shí)踐,2006,(5):608-612.
[3]MARC 21 concise format for bibliographic data[EB/OL].http:∥www.loc.gov/marc/bibliographic,2010-06-12.
[4]UNIMARC-a brief overview[EB/OL].http:∥www.unimarc.net/brief-overview.html,2010-06-12.
[5]Dublin Core Metadata Initiative:Dublin Core Metadata Element Set,Version 1.1[EB/OL].http:∥dublincore.org/documents/dces,2010-06-12.
[6]陳虹濤,李志?。獢?shù)據(jù)的標(biāo)準(zhǔn)規(guī)范及其互操作性[J].情報(bào)雜志,2005,(7):93-95.
[7]張鼐.本體在語(yǔ)義Web中的應(yīng)用研究[J].情報(bào)科學(xué),2007,(8):1240-1243.
[8]SKOS Simple Knowledge Organization System Reference[EB/OL].http:∥www.w3.org/TR/2009/REC-skos-reference-20090818,2010-06-12.
[9]Jingna Li,Jingsha He.A User-Centric Model for Supporting Web Services[A].International Multi-Conference on Computing in the Global Information Technology(ICCGI07),2007.