〔摘 要〕本文對(duì)敘詞表向本體的轉(zhuǎn)換做了綜合性的討論,并提出了一種基于概念的敘詞表轉(zhuǎn)換方法,從而實(shí)現(xiàn)敘詞表的RDF/OWL描述。
〔關(guān)鍵詞〕敘詞表;本體;RDF;OWL
〔中圖分類號(hào)〕G254.1 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2009)01-0038-04
Study on the Conversion from Thesaurus to Ontology
Mi Jia
(Library,Heibei University,Baoding 071002,China)
〔Abstract〕Thesauri provides a hierarchically structured set of terms about which a community has reached consensus.After discussing thesaurus,ontology and the relationship between them,this article put forward a concept-based method for converting existing thesauri and related resources from their native format to RDF(S) and OWL.
〔Key words〕thesaurus;ontology;RDF;OWL
1 敘詞表和本體
1.1 敘詞表簡(jiǎn)介
敘詞表是指在特定的領(lǐng)域中專業(yè)詞匯的受控集合,這些詞匯之間具有層次、關(guān)聯(lián)以及相關(guān)關(guān)系。根據(jù)國(guó)家標(biāo)準(zhǔn)GB13190-91,敘詞表的定義為:“將文獻(xiàn)、標(biāo)引人員或用戶的自然語(yǔ)言轉(zhuǎn)換成規(guī)范化語(yǔ)言的一種術(shù)語(yǔ)控制工具;它是概括各門或某一學(xué)科領(lǐng)域并由語(yǔ)義相關(guān)、族性相關(guān)的術(shù)語(yǔ)組成的可以不斷補(bǔ)充的規(guī)范化的詞表”。敘詞表也稱為主題詞表,可用于檢索時(shí)的后控制和標(biāo)引時(shí)的自動(dòng)或輔助選擇索引詞,對(duì)提高查全率和查準(zhǔn)率、實(shí)現(xiàn)多語(yǔ)種檢索和智能化概念檢索起到很大的作用[1]。
由于敘詞表適合于學(xué)科和專業(yè)性質(zhì)較強(qiáng)的文獻(xiàn)組織,因此許多典型的敘詞表都是面向某個(gè)學(xué)科或?qū)I(yè)的。各學(xué)科領(lǐng)域基本都有本專業(yè)的敘詞表,如《美國(guó)國(guó)會(huì)圖書館標(biāo)題表》(LCSH),《醫(yī)學(xué)主題詞表》(MeSH),《藝術(shù)和建筑敘詞表》(AAT)以及我國(guó)的《漢語(yǔ)主題詞表》等。在這些敘詞表的基礎(chǔ)上目前已經(jīng)建立了很多的手工檢索工具,并進(jìn)一步發(fā)展成數(shù)據(jù)庫(kù)檢索系統(tǒng),如三大索引以及各種專業(yè)的數(shù)據(jù)庫(kù)等。
1.2 敘詞表的結(jié)構(gòu)
追本溯源,很多(但不是全部)敘詞表的結(jié)構(gòu)來(lái)源于ISO2788以及ANSI/NISO Z39.19標(biāo)準(zhǔn)。敘詞表的術(shù)語(yǔ)由敘詞和非敘詞組成,敘詞是在文獻(xiàn)標(biāo)引與檢索中用以表達(dá)文獻(xiàn)的主題而規(guī)范化的詞,可以用于索引,非敘詞是敘詞的同義詞或準(zhǔn)同義詞,在敘詞表中規(guī)定不能用于檢索和標(biāo)引,只起指引作用。敘詞的最高上位詞稱為族首詞(Top Term),族首詞揭示了其下方的所有下位概念,外延范圍最大。ISO2788和ISO5964定義了被稱為“用、代、屬、分、參”等5種標(biāo)準(zhǔn)關(guān)系。敘詞(也稱作描述符)通過(guò)代(Use for)與非敘詞相聯(lián)系。USE用是這種關(guān)系的逆關(guān)系。敘詞間的關(guān)系有3種:上位、下位以及相關(guān)。上位、下位分別對(duì)應(yīng)屬、分關(guān)系,指概念內(nèi)涵相同、外延范圍大小不同詞匯之間的關(guān)系,參(相關(guān)關(guān)系)對(duì)應(yīng)敘詞之間屬、分以外的相互關(guān)系,是敘詞概念內(nèi)涵之間語(yǔ)義聯(lián)系的詞間關(guān)系。此外范圍定義(Scope Note)用于限制敘詞范圍。圖1表示的是敘詞間的基本關(guān)系,表1列出了敘詞的語(yǔ)義參照系統(tǒng)。
從上面的介紹可以看出,敘詞表結(jié)構(gòu)簡(jiǎn)單,具有很高的靈活性、可擴(kuò)展性(分面組配)和集成性(分類主題一體化),因此成為主題詞表的發(fā)展主流,并成為圖書情報(bào)領(lǐng)域非常重要的一種傳統(tǒng)的信息資源管理的知識(shí)組織工具。但是敘詞表中知識(shí)點(diǎn)的分布是線性、一維的,在網(wǎng)絡(luò)環(huán)境下就顯得過(guò)于單調(diào),無(wú)論從概念的語(yǔ)義及關(guān)系描述上來(lái)說(shuō),還是從推理功能上來(lái)說(shuō),都不能滿足未來(lái)語(yǔ)義網(wǎng)環(huán)境下對(duì)網(wǎng)絡(luò)信息資源的語(yǔ)義要求,這就需要引入本體的概念。
1.3 本體概述
本體(ontology)的概念起源于哲學(xué),用于描述客觀現(xiàn)實(shí)的抽象本質(zhì)。后來(lái)此概念被人工智能界引入并賦予了新的內(nèi)容。本體最流行的定義是1998年德國(guó)的Studer總結(jié)前人說(shuō)法提出的:“本體是共享概念模型的明確的形式化規(guī)范說(shuō)明”。這個(gè)定義包含4層含義:概念模型、明確、形式化和共享。
Perez等人用分類法組織了本體并歸納出5個(gè)基本的建模元語(yǔ):類或概念、關(guān)系、函數(shù)、公理和實(shí)例[2]。從語(yǔ)義上講本體中基本的關(guān)系共有4種:part-of、kind-of、instance-of和attribute-of。
在圖書情報(bào)領(lǐng)域,本體概念等同于人工智能領(lǐng)域,它強(qiáng)調(diào)相關(guān)領(lǐng)域的本質(zhì)概念,同時(shí)強(qiáng)調(diào)這些概念之間的關(guān)聯(lián)。本體可以有效地表達(dá)知識(shí)和知識(shí)之間的關(guān)系,基于本體的知識(shí)庫(kù)系統(tǒng)可以建立有效的知識(shí)表達(dá)體系,揭示知識(shí)之間的內(nèi)在關(guān)系。
1.4 本體描述語(yǔ)言
本體描述語(yǔ)言是用來(lái)描述本體的,它讓用戶可以為領(lǐng)域模型編寫清晰、形式化的概念描述。本體可以用自然語(yǔ)言描述,也可以用框架、語(yǔ)義網(wǎng)絡(luò)或邏輯語(yǔ)言描述和表示。據(jù)統(tǒng)計(jì),主要的本體表示語(yǔ)言有28種,常見(jiàn)的也有10余種[3]。目前,W3C推薦的與本體語(yǔ)言相關(guān)的標(biāo)準(zhǔn)有3個(gè):XML、RDF/RDFS、OWL。
1.4.1 XML
XML(eXxtensible Markup Language,可擴(kuò)展標(biāo)記語(yǔ)言)是一系列由W3C組織批準(zhǔn)并推薦的相關(guān)協(xié)議的集合。它涵蓋了從網(wǎng)絡(luò)底層的數(shù)據(jù)表示、數(shù)據(jù)顯示、數(shù)據(jù)的處理、交換和消息的傳遞等各個(gè)層次的Web應(yīng)用。XML基于純文本,具有自描述能力,能夠自我解釋數(shù)據(jù)的結(jié)構(gòu),有良好的可擴(kuò)展性,并且實(shí)現(xiàn)數(shù)據(jù)內(nèi)容與表現(xiàn)格式相分離,因而成為新一代的數(shù)據(jù)交換格式[4]。
XML文檔通過(guò)DTD和XML Schema 2種方式將文檔的內(nèi)容、結(jié)構(gòu)和表現(xiàn)分開定義。利用DTD或XML Schema與本體相關(guān)聯(lián),然后再利用XML文檔結(jié)構(gòu)與XML內(nèi)容之間的關(guān)系將XML內(nèi)容與本體相關(guān)聯(lián),從而提供對(duì)數(shù)據(jù)內(nèi)容的語(yǔ)義描述。
但是用DTD表示本體存在一些局限性,如DTD難以表示繼承,kind-of、instance-of等關(guān)系也難以用DTD表示,因此在DTD和XML Schema的基礎(chǔ)之上,W3C提出了采用RDFS來(lái)描述簡(jiǎn)單的本體。
1.4.2 RDF/RDFS
RDF(Resource Description Framework,資源描述框架)為基于元數(shù)據(jù)的語(yǔ)義表示提供了基礎(chǔ)。為了描述機(jī)器可處理的數(shù)據(jù)的語(yǔ)義,RDF定義了一個(gè)基本的數(shù)據(jù)模型,其包含3種對(duì)象類型[6]:
(1)資源:一個(gè)資源可以是一個(gè)完整或部分的網(wǎng)頁(yè)、網(wǎng)頁(yè)集合或者不需通過(guò)web訪問(wèn)的任意對(duì)象。通常資源用URI(Uniformed Resource Identifier)來(lái)命名。URI是RDF的關(guān)鍵技術(shù)之一,它是Web資源的惟一標(biāo)識(shí),URI通常描述下面的內(nèi)容:訪問(wèn)資源的方法;資源所在機(jī)器;機(jī)器上資源的特定名稱。它是更常用的統(tǒng)一資源定位符URL的超集。在RDF中,資源無(wú)所不在,資源的屬性是資源,屬性的值可以是資源,甚至于一個(gè)陳述也可以是資源,也就是說(shuō),所有這些都可以用URI標(biāo)識(shí),可以再用RDF來(lái)描述[5]。
(2)屬性:屬性用來(lái)描述資源的一個(gè)特定方面、特征、品質(zhì)及關(guān)系等。
(3)聲明:一個(gè)RDF的聲明是一個(gè)特定資源和一個(gè)被命名的屬性加上這個(gè)屬性的取值形成的集合。1個(gè)聲明由3個(gè)部分組成:主語(yǔ)(一項(xiàng)特定的資源)、謂語(yǔ)(一個(gè)被命名的屬性)、賓語(yǔ)(在該資源中該屬性的取值)。
從其核心來(lái)看,RDF定義了一個(gè)“對(duì)象——屬性——取值”三元組作為其基本的建模原語(yǔ)并在其之上引入了一套標(biāo)準(zhǔn)的語(yǔ)法,來(lái)描述網(wǎng)絡(luò)上的各種資源。但是,RDF提供的建模原語(yǔ)非?;A(chǔ),只是提供了一個(gè)模型,因此需要對(duì)其作進(jìn)一步擴(kuò)展。
RDF Schema在RDF基礎(chǔ)上增加了許多語(yǔ)義原語(yǔ),用來(lái)更進(jìn)一步增加對(duì)資源語(yǔ)義上的描述能力,如類、屬性、類和屬性之間的隸屬關(guān)系等[7]。
RDF Schema機(jī)制提供了RDF模型中使用的一個(gè)基本類型系統(tǒng),但是RDFS的表達(dá)能力仍然非常有限。針對(duì)RDFS在語(yǔ)義表示方面的不足,一些研究人員提出了其它一些不同的網(wǎng)絡(luò)環(huán)境下的本體描述語(yǔ)言,最突出的就是在DAML+OIL上發(fā)展起來(lái)的OWL。
1.4.3 OWL
OWL(Web Ontology Language)是一種用于在語(yǔ)義Web上發(fā)布和共享本體的語(yǔ)義置標(biāo)語(yǔ)言,由W3C的本體工作組開發(fā),2004年2月10日成為W3C正式推薦標(biāo)準(zhǔn),作為語(yǔ)義網(wǎng)(Semantic web)的核心技術(shù)之一,OWL是一種能夠用于描述Web文檔和應(yīng)用中固有的類和類之間的關(guān)系的語(yǔ)言。
相對(duì)于XML、RDF和RDF Schema,OWL擁有更多的機(jī)制來(lái)表達(dá)語(yǔ)義而又與它們兼容。OWL語(yǔ)言提供3種表達(dá)能力依次增強(qiáng)的子語(yǔ)言,即OWL Lite、OWL DL和OWL Full。
OWL Lite是表達(dá)能力最弱的子語(yǔ)言,它是OWL DL的一個(gè)子集,它通過(guò)降低OWL DL中的公理約束,保證了迅速高效的推理。OWL Lite支持集的約束時(shí),它只允許集的值為0或者1,支持的用戶是那些需要一個(gè)分類體系和簡(jiǎn)單約束功能的人。
OWL DL(Description Logic,描述邏輯)將可判定推理能力和較強(qiáng)表達(dá)能力作為首要目標(biāo),而忽略了對(duì)RDFS的兼容性。OWL DL包括了OWL語(yǔ)言的所有語(yǔ)言成分,但使用時(shí)設(shè)置了許多約束,適用于那些需要在推理系統(tǒng)上進(jìn)行最大程度表達(dá)的用戶,這里的推理系統(tǒng)能夠保證計(jì)算完全性和可判定性。
OWL Full包含OWL的全部語(yǔ)言成分并取消了OWL DL中的限制,它將RDFS擴(kuò)展為一個(gè)完備的本體語(yǔ)言,支持那些不需要計(jì)算性保證但需要最強(qiáng)表達(dá)能力和完全自由的RDFS用戶。在OWL Full中,一個(gè)類能同時(shí)作為對(duì)象的集合,它本身也可以作為一個(gè)對(duì)象,也就是說(shuō)可以被同時(shí)表達(dá)為許多個(gè)RDF。由于OWL Full取消了基數(shù)限制中對(duì)可傳遞性質(zhì)的約束,它允許在一個(gè)本體在預(yù)定義的(RDF、OWL)詞匯表上增詞匯,因此不能保證可判定推理,任何推理軟件都不可能支持OWL Full的每個(gè)功能。
OWL Full是對(duì)RDFS的擴(kuò)展,而OWL Lite和OWL Full可以看成是一個(gè)約束化的RDF的擴(kuò)展。所有的OWL文檔(Lite,DL,F(xiàn)ull)都是一個(gè)RDF文檔; 只有一部分RDF文檔是一個(gè)合法的OW LLite和OWLDL文檔。在表達(dá)含義和語(yǔ)義方面,OWL比RDF(S)有更多的表達(dá)手段。因此在Web上表達(dá)機(jī)器可理解內(nèi)容的能力也比RDF(S)強(qiáng)一些[8-9]。
2 敘詞表向本體的轉(zhuǎn)換
2.1 敘詞表和本體的聯(lián)系與區(qū)別
通過(guò)上面對(duì)敘詞表和本體的介紹可以看出,本體和敘詞表有著很多的共同點(diǎn):
敘詞表與本體兩者的目的相同,都是試圖通過(guò)詞匯概念來(lái)描述某一領(lǐng)域的復(fù)雜知識(shí)關(guān)系,從而簡(jiǎn)化不同用戶知識(shí)共享的方法;兩者都包含人工語(yǔ)言,依靠概念系統(tǒng)規(guī)則表示高度復(fù)雜的知識(shí);都涉及使用某一專業(yè)領(lǐng)域的大范圍的概念系統(tǒng),以及術(shù)語(yǔ)間的語(yǔ)義關(guān)系;都使用上下位等級(jí)關(guān)系來(lái)表示知識(shí)的分類體系;都可以用于信息編目和信息組織;都可以用于手工和機(jī)器的標(biāo)引與檢索;都是先進(jìn)行構(gòu)建,然后作為一種標(biāo)準(zhǔn)規(guī)范,被相關(guān)部門利用;都需要進(jìn)行維護(hù)和修訂工作[10]。
因此有研究者認(rèn)為:敘詞表在本質(zhì)上是一種知識(shí)組織體系,具有層次結(jié)構(gòu)和分類等級(jí),所以敘詞表本身是輕量級(jí)本體。
但是,敘詞表和本體之間的區(qū)別也很明顯,主要體現(xiàn)在:
(1)敘詞表中的術(shù)語(yǔ)均是規(guī)范的科學(xué)語(yǔ)言,而本體中的概念、術(shù)語(yǔ)可以用自然語(yǔ)言和半自然語(yǔ)言來(lái)表達(dá)。
(2)大多數(shù)敘詞表只有有限的對(duì)外界知識(shí)的表達(dá)性,無(wú)相應(yīng)的軟件實(shí)現(xiàn)功能;而本體維護(hù)工具則提供了強(qiáng)有力的知識(shí)表示語(yǔ)言,并可對(duì)知識(shí)進(jìn)行核對(duì),對(duì)新知識(shí)進(jìn)行推理,可以表達(dá)豐富的概念屬性,可與用戶進(jìn)行良好的人機(jī)交互。
(3)敘詞表中知識(shí)點(diǎn)的分布是線性的、一維的,而本體中概念的分布是網(wǎng)狀的、多維的。敘詞表著重描述“詞匯”之間的關(guān)系,而本體則側(cè)重于描述“概念”或“對(duì)象”之間的關(guān)系。
(4)本體和敘詞表隨著學(xué)科領(lǐng)域的更新和發(fā)展都可以進(jìn)行更新。但是本體作為一個(gè)開放集成的體系,它的底層知識(shí)庫(kù)與概念集可以隨時(shí)進(jìn)行修正和更新,而敘詞表的更新速度和更新的頻率比較緩慢。
(5)敘詞表中只包含“用、代、屬、分、參”這樣的簡(jiǎn)單的語(yǔ)義關(guān)系;而本體中概念間的關(guān)系,則被描述得更為廣泛、深入、細(xì)致和全面。這是兩者的最主要區(qū)別。
(6)敘詞表是一個(gè)詞匯庫(kù)(語(yǔ)料庫(kù))但不是知識(shí)庫(kù),它只有概念和概念間的關(guān)系,缺乏形式本體所要求的函數(shù)、公理和實(shí)例。而本體不僅僅是概念集、語(yǔ)料庫(kù),還可以構(gòu)建知識(shí)庫(kù)。
(7)敘詞表的學(xué)科分類體系相對(duì)穩(wěn)定,結(jié)構(gòu)保守而單一。而本體系統(tǒng)的集成性和開放性則保證了它的知識(shí)庫(kù)和概念集的更新。
此外,從用戶角度看,敘詞表主要面向人的使用,由領(lǐng)域?qū)<掖_定使用人群。而本體主要為知識(shí)代理間的知識(shí)共享的開發(fā),可同時(shí)用于人和機(jī)器。
本體和敘詞表相比,盡管二者存在一些區(qū)別,但是這些區(qū)別主要體現(xiàn)在表達(dá)上的深入程度,二者不存在本質(zhì)上的區(qū)別。本體具有敘詞表所無(wú)可比擬的優(yōu)越性,與基于詞表的查詢方式相比,本體是一個(gè)自備知識(shí)底層的、完備的知識(shí)組織體系,具有智能查詢、機(jī)器翻譯、預(yù)測(cè)知識(shí)增長(zhǎng)點(diǎn)等卓越的功能。敘詞表中有完整的術(shù)語(yǔ)和格式化的、簡(jiǎn)單的語(yǔ)義關(guān)系,可以為本領(lǐng)域本體中概念的創(chuàng)建和屬性、實(shí)例以及關(guān)系的創(chuàng)建提供線索和指導(dǎo)。將敘詞表中有的知識(shí)體系轉(zhuǎn)化到本體中,既是對(duì)已有知識(shí)的科學(xué)利用,也保持了科學(xué)的延續(xù)和繼承性,是敘詞表的發(fā)展方向之一。
2.2 敘詞表向本體的轉(zhuǎn)換項(xiàng)目
自語(yǔ)義網(wǎng)提出之后,國(guó)內(nèi)外很多學(xué)術(shù)團(tuán)體相繼開展了利用現(xiàn)有的敘詞表建立本體的嘗試,比較著名的項(xiàng)目有:
(1)聯(lián)合國(guó)糧農(nóng)組織(FAO)利用RDFS將Agrovoc敘詞表轉(zhuǎn)換為農(nóng)業(yè)本體;
(2)阿姆斯特丹大學(xué)的Wielinga等將藝術(shù)和建筑敘詞表(AAT)轉(zhuǎn)換為本體;
(3)加州環(huán)境資源評(píng)估系統(tǒng)(CERES)和國(guó)家生物信息基礎(chǔ)工程(NBII)聯(lián)合開發(fā)的基于RDF格式集成的有關(guān)環(huán)境的敘詞表和敘詞網(wǎng)絡(luò)工具。
從敘詞表到本體的轉(zhuǎn)換方法,總結(jié)起來(lái)有以下幾種[11]:
(1)用XML Schema構(gòu)建敘詞標(biāo)記語(yǔ)言,如澳大利亞的M.Lee等所開發(fā)的敘詞標(biāo)記語(yǔ)言(TML),構(gòu)建了敘詞描述本體的框架。
(2)用RDF Schema表示敘詞內(nèi)容和關(guān)系,大多數(shù)敘詞表采用的是這種方式轉(zhuǎn)換,典型的是類似AAT的分面形式的敘詞表,可以將敘詞表某個(gè)子集作為本體某一類屬性的值直接引入。
(3)用DAML+OIL、OWL表示敘詞關(guān)系。
從XML Schema、RDF Schema到本體描述語(yǔ)言O(shè)WL,語(yǔ)言的表述能力不斷增加。XML Schema語(yǔ)義描述能力過(guò)于單薄,OWL語(yǔ)言具有很強(qiáng)的描述能力,但是描述起來(lái)過(guò)于復(fù)雜,成本過(guò)高。RDF Schema雖然在表達(dá)能力和邏輯嚴(yán)格性方面不如OWL語(yǔ)言,但是用來(lái)描述敘詞關(guān)系也可以勝任,因而應(yīng)用于大多數(shù)敘詞表的轉(zhuǎn)換。
3 一種基于概念的本體轉(zhuǎn)換方法
根據(jù)現(xiàn)有的ISO標(biāo)準(zhǔn),敘詞表到本體的轉(zhuǎn)換是基于術(shù)語(yǔ)的,也就是說(shuō)術(shù)語(yǔ)之間直接相聯(lián)。本文提出一種基于概念的轉(zhuǎn)換方法,根據(jù)此方法,術(shù)語(yǔ)只同它所表示的概念相關(guān)聯(lián)。基于概念的轉(zhuǎn)換方法更為清晰且易于維護(hù)。本方法分為3個(gè)步驟:敘詞表分析,語(yǔ)法轉(zhuǎn)換,語(yǔ)義轉(zhuǎn)換。
3.1 敘詞表分析
敘詞表分析包含以下內(nèi)容[12]:
(1)明確原始文檔的含義,如果感覺(jué)含義模糊,應(yīng)聯(lián)系敘詞表的原作者以確認(rèn);
(2)分析敘詞表的模型作為轉(zhuǎn)換的背景知識(shí);
(3)分析概念模型和數(shù)字模型之間的關(guān)系。
3.2 語(yǔ)法轉(zhuǎn)換
本步的重點(diǎn)是語(yǔ)法的轉(zhuǎn)換。通過(guò)這一步轉(zhuǎn)換,可以將原始的文本格式、關(guān)系數(shù)據(jù)庫(kù)或者XML的表示形式轉(zhuǎn)化為RDF(S)。
3.2.1 在保持結(jié)構(gòu)的基礎(chǔ)上進(jìn)行語(yǔ)法翻譯
從源格式到RDF格式的翻譯要保持結(jié)構(gòu)不變,源格式中所有的語(yǔ)義相關(guān)的元素都被翻譯成RDF。
在翻譯過(guò)程中,要注意以下幾點(diǎn):
(1)翻譯過(guò)程中應(yīng)當(dāng)使用RDF(S)的基礎(chǔ)構(gòu)件。只使用定義類、子類、屬性(不包括域和范圍)的構(gòu)件,使用可讀的rdfs:labels用于類和屬性名以及XML的數(shù)據(jù)類型。這是定義概念模型RDF表示的基本部分。其余的RDF(S)和OWL的構(gòu)件在語(yǔ)義轉(zhuǎn)換中用到。
(2)使用XML的數(shù)據(jù)類型支持,比如xsd:date以及xsd:integer,不要使用自定義的XML Schema數(shù)據(jù)類型。
(3)盡量保持原始的實(shí)體名,這樣轉(zhuǎn)換更加清晰,而且易于追蹤。類或者屬性的含義可以通過(guò)增加rdfs:comment來(lái)詳細(xì)說(shuō)明。最好包括源文檔的定義,如果源文檔可以在線閱讀,通過(guò)rdfs:SeeAlso或者rdfs:isDefinedBy之類的陳述就可以鏈接到原始的文檔或定義。
(4)將三元或多元關(guān)系翻譯為帶有空節(jié)點(diǎn)的結(jié)構(gòu)。三元或多元關(guān)系不能直接翻譯成RDF屬性,如果關(guān)系的參數(shù)互相獨(dú)立,則建立這樣一個(gè)結(jié)構(gòu):它包含鏈接源實(shí)體到空節(jié)點(diǎn)(代表關(guān)系)的屬性(與源關(guān)系同名),關(guān)系的變量鏈接到一個(gè)空節(jié)點(diǎn)上,每個(gè)變量附有一個(gè)附加的屬性。
(5)不要翻譯無(wú)關(guān)語(yǔ)義的順序信息。
(6)要避免冗余信息。如果資源的惟一標(biāo)示符(UI)已經(jīng)在rdf:ID里面記錄過(guò),那么就不要包含同樣記錄惟一標(biāo)示符的屬性了,這樣就保持了結(jié)構(gòu)的清晰和易維護(hù)性。
(7)避免直接翻譯。在對(duì)原始資源進(jìn)行翻譯的過(guò)程中(也就是說(shuō)無(wú)法找到原始文檔)一定要小心,如果翻譯錯(cuò)誤會(huì)導(dǎo)致不一致或不精確的轉(zhuǎn)換。盡量使用現(xiàn)有的敘詞Schema(如SKOS)而不是建立一個(gè)新Schema(比如敘詞元模型),SKOS已經(jīng)定義了“概念”、“上位”這些定義,這比先建立一個(gè)Schema然后映射成SKOS要簡(jiǎn)單。
3.2.2 對(duì)語(yǔ)法進(jìn)行詳細(xì)描述,也就是詳細(xì)解釋源文件信息的深層含義
例如,藝術(shù)和建筑敘詞表(AAT)雖然使用節(jié)點(diǎn)標(biāo)簽(在AAT中稱為指導(dǎo)詞),但是在AAT的源數(shù)據(jù)中,這些詞同普通詞匯的區(qū)別不過(guò)是加了個(gè)尖括號(hào),因此可以為這一信息建立形如rdfs:subClassOf的類用來(lái)詳細(xì)說(shuō)明,并將此類分配給所有帶尖括號(hào)的詞匯。
3.3 語(yǔ)義轉(zhuǎn)換
在語(yǔ)義轉(zhuǎn)換過(guò)程中,需要使用更多的RDFS和OWL構(gòu)件進(jìn)行語(yǔ)義說(shuō)明。如,上位詞屬性轉(zhuǎn)換為owl:TransitiveProperty,相關(guān)詞轉(zhuǎn)換為owl:SymmetricProperty??梢詫⒛承傩远x為專門詞匯或者RDFS的預(yù)定義屬性,如rdfs:label和rdfs:comment。例如,如果nameof這個(gè)屬性很明確地指示了資源的標(biāo)簽,那么就可以將此屬性定義為rdfs:label的子屬性,RDFS工具可以將nameof翻譯成想要的格式。
通過(guò)語(yǔ)義轉(zhuǎn)換,此時(shí)敘詞表就已經(jīng)轉(zhuǎn)化成了可在網(wǎng)上發(fā)布的RDF/OWL格式。
4 結(jié) 語(yǔ)
敘詞表和本體的形式相近,功能基本相同,都是用來(lái)描述特定學(xué)科知識(shí)都可以用作特定學(xué)科信息(知識(shí))的組織工具,都包含對(duì)概念及概念屬性和概念之間關(guān)系的語(yǔ)義描述。利用敘詞表構(gòu)建本體是本體建設(shè)的重要方法。但是在敘詞表向本體的轉(zhuǎn)換過(guò)程中,還存在一些問(wèn)題,如敘詞表轉(zhuǎn)換質(zhì)量的保證,多語(yǔ)種敘詞表的轉(zhuǎn)換,不符合ISO或ANSI標(biāo)準(zhǔn)的敘詞表映射方式等,都需要進(jìn)一步研究解決。
參考文獻(xiàn)
[1]孫倩,李景.敘詞表與本體的區(qū)別與聯(lián)系[J].中國(guó)圖書館學(xué)報(bào),2004,30(1):36-39.
[2]Asuncion Gomez Perez.Overview of Knowledge Sharing and Reuse Components:Ontologies and Problem-Solving Methods[C].Proceedings of the IJCAI299 work-shop on Ontologies and Problem-Solving Methods,1999.
[3]李景.本體理論在文獻(xiàn)檢索系統(tǒng)中的應(yīng)用研究[D].博士學(xué)位論文.北京:中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心,2004.
[4]Extensible Markup Language[EB].http:∥www.w3.org/TR/2000/REC-xml-20001006/
[5]毛軍.基于RDF的敘詞表研究[J].情報(bào)學(xué)報(bào),2003,22(2):163-168.
[6]Resource Description Framework[EB].http:∥www.w3.org/RDF/
[7]RDF Vocabulary Description Language[EB].http:∥www.w3.org/TR/rdf-schema/
[8]OWL Web Ontology Language Overview[EB].http:∥www.w3.org/TR/owl-features/
[9]OWL Web Ontology Language Guide[EB].http:∥www.w3.org/TR/owl-guide/
[10]張繼東.利用敘詞表構(gòu)建本體的方法研究[J].圖書情報(bào)知識(shí),2006,(4):82-85.
[11]唐靜.敘詞表轉(zhuǎn)換為Ontology的研究[J].信息系統(tǒng),2004,(6):642-645.
[12]Mark van Assem.A Method for Converting Thesauri to RDF/OWL[C].ISWC,2004.