[摘 要] 概述本體相關(guān)理論,在分析本體對(duì)實(shí)現(xiàn)數(shù)字內(nèi)容有效組織、語(yǔ)義檢索、語(yǔ)義導(dǎo)航和個(gè)性化服務(wù)等的重要作用基礎(chǔ)上,綜合現(xiàn)有本體構(gòu)建方法構(gòu)建一個(gè)書店本體,以供后續(xù)研究者參考。
[關(guān)鍵詞] 數(shù)字內(nèi)容 按需獲取 本體 數(shù)字出版
[中圖分類號(hào)] G237 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 1009-5853 (2013) 05-0079-06
數(shù)字內(nèi)容的爆炸式增長(zhǎng)已將我們卷入“信息過(guò)載”的時(shí)代,海量的數(shù)字信息滿足了普通大眾的信息需求,但同時(shí)它的龐雜、無(wú)序以及缺乏機(jī)器可以理解的語(yǔ)義,又極大地限制了人們對(duì)自己真正需要的知識(shí)的快速獲取。實(shí)現(xiàn)異構(gòu)信息的互操作,無(wú)序信息的序化,以及數(shù)字內(nèi)容語(yǔ)義拆分、動(dòng)態(tài)重構(gòu)和語(yǔ)義檢索等是數(shù)字內(nèi)容按需獲取的前提,而基于本體的數(shù)字技術(shù)以其日益顯現(xiàn)的突出能力,成為解決上述問(wèn)題的基礎(chǔ)之一。
1 本體理論概述
本體是一套得到大多數(shù)人認(rèn)同的關(guān)于概念體系的明確的、形式化的規(guī)范說(shuō)明[1]。它對(duì)概念體系的規(guī)范和說(shuō)明建立在類(或概念)、屬性、實(shí)例、關(guān)系、公理等基本元素之上。其中,類是構(gòu)成本體概念模型的主要部分,類與類之間蘊(yùn)含著復(fù)雜的語(yǔ)義關(guān)系。通過(guò)對(duì)類添加不同的屬性,以及由屬性構(gòu)造公理和約束,能對(duì)類進(jìn)行明確的描述和定義,并描述類與類之間的關(guān)系,進(jìn)而將不同的類連接成一個(gè)復(fù)雜的概念網(wǎng)絡(luò)。
本體對(duì)概念的定義能力以及對(duì)概念關(guān)系的描述能力,使得它成為一種強(qiáng)大的知識(shí)表示方法和語(yǔ)義分析基礎(chǔ),在諸如機(jī)器翻譯、智能檢索、異構(gòu)信息處理、自動(dòng)問(wèn)答、跨語(yǔ)種檢索等方面都能夠發(fā)揮重要作用,因此有著廣泛的應(yīng)用前景。近幾年,出版業(yè)也開(kāi)始引入本體思想與技術(shù),并借鑒圖書情報(bào)、人工智能領(lǐng)域業(yè)已取得的成果,以探索本體在數(shù)字出版領(lǐng)域的應(yīng)用。國(guó)際上,牛津大學(xué)研究小組開(kāi)發(fā)的一種引文類型本體,微軟針對(duì)Word 2007開(kāi)發(fā)的本體插件[2],都嘗試將本體技術(shù)引入出版的不同環(huán)節(jié)。在國(guó)內(nèi),人民教育出版社組織開(kāi)發(fā)的“人民金典”語(yǔ)義搜索系統(tǒng)[3],其底層語(yǔ)義模型運(yùn)用了本體方法論作為指導(dǎo)。此外,研究人員也開(kāi)始研究將本體引入方正科技等互聯(lián)網(wǎng)出版機(jī)構(gòu)的知識(shí)組織系統(tǒng)中。
2 本體的作用
數(shù)字內(nèi)容按需獲取的最終實(shí)現(xiàn)需要從兩方面來(lái)綜合考慮:一是數(shù)字內(nèi)容本身;二是用戶。在數(shù)字內(nèi)容方面,必須解決的問(wèn)題是實(shí)現(xiàn)數(shù)字內(nèi)容的有效組織,解決方案是構(gòu)建數(shù)字出版內(nèi)容知識(shí)庫(kù)——將各種加工好的數(shù)字內(nèi)容系統(tǒng)地組織并存儲(chǔ)起來(lái),實(shí)現(xiàn)對(duì)數(shù)字出版資源的初次優(yōu)化。這也是實(shí)現(xiàn)數(shù)字內(nèi)容語(yǔ)義分析和動(dòng)態(tài)重組的基礎(chǔ)。在用戶方面,必須解決的問(wèn)題是方便快捷地提供用戶所需的數(shù)字內(nèi)容,這可以通過(guò)兩種途徑來(lái)實(shí)現(xiàn):一是在用戶檢索時(shí),系統(tǒng)需要根據(jù)用戶需求高效、快捷地從知識(shí)庫(kù)中獲取所需資源,并重新組織成滿足用戶需要的數(shù)字內(nèi)容;二是系統(tǒng)根據(jù)用戶的瀏覽習(xí)慣、個(gè)人背景信息等主動(dòng)向用戶提供個(gè)性化服務(wù)和信息導(dǎo)航。本體技術(shù)為這兩方面問(wèn)題的解決提供了很好的基礎(chǔ)。
2.1 數(shù)字內(nèi)容的有效組織
當(dāng)前,從文獻(xiàn)層面對(duì)數(shù)字出版內(nèi)容進(jìn)行組織的主要方法有分類法、主題法、分類主題一體化法三種。如中國(guó)知網(wǎng)綜合運(yùn)用了這幾種方法對(duì)其數(shù)據(jù)庫(kù)文獻(xiàn)進(jìn)行組織,取得了不錯(cuò)的效果[4]。但是,它們無(wú)法實(shí)現(xiàn)對(duì)知識(shí)內(nèi)容本身的有效管理[5],尤其在面對(duì)信息過(guò)載的網(wǎng)絡(luò)環(huán)境時(shí),會(huì)導(dǎo)致科研人員淹沒(méi)在大量無(wú)關(guān)信息之中。因此,知識(shí)信息組織從物理層次的文獻(xiàn)單元向認(rèn)知層次的知識(shí)單元轉(zhuǎn)變、增加知識(shí)的關(guān)聯(lián)度以及實(shí)現(xiàn)異構(gòu)信息的互操作都是亟待解決的問(wèn)題。本體則為解決這些問(wèn)題提供了有效機(jī)制。
一方面,可以先在領(lǐng)域?qū)<业膮f(xié)助下構(gòu)建領(lǐng)域本體,同時(shí)從領(lǐng)域文獻(xiàn)中抽取領(lǐng)域特征詞集,使用基于領(lǐng)城本體的空間向量模型方法建立領(lǐng)域特征詞集與本體概念之間的映射,采用這種方法對(duì)領(lǐng)域文檔進(jìn)行語(yǔ)義標(biāo)注,從而將文檔隱含的語(yǔ)義信息明確地表達(dá)和揭示出來(lái);然后,借助信息抽取技術(shù)從文獻(xiàn)中抽取由特定語(yǔ)義和語(yǔ)用約束的知識(shí)片——知識(shí)元,并在此基礎(chǔ)上構(gòu)建基于知識(shí)元的數(shù)字內(nèi)容本體知識(shí)庫(kù),由此實(shí)現(xiàn)由文獻(xiàn)單元向知識(shí)單元的語(yǔ)義拆分;最后,根據(jù)用戶需求,實(shí)現(xiàn)知識(shí)單元級(jí)別的數(shù)字內(nèi)容動(dòng)態(tài)重組,以滿足用戶個(gè)性化的知識(shí)需求。
另一方面,由于本體代表一種用機(jī)器可以理解的語(yǔ)言和邏輯建立的對(duì)信息資源的結(jié)構(gòu)化描述規(guī)范,它為不同的系統(tǒng)建立了能夠共同理解并使用的術(shù)語(yǔ)?;谝粋€(gè)共同的本體進(jìn)行語(yǔ)義標(biāo)注可以提供共同的框架來(lái)集成異構(gòu)數(shù)據(jù)源中的信息,可以滿足智能主體(Agent)對(duì)使用不同操作系統(tǒng)、應(yīng)用語(yǔ)言和網(wǎng)絡(luò)協(xié)議的文獻(xiàn)資源進(jìn)行有效檢索和訪問(wèn),實(shí)現(xiàn)信息資源在語(yǔ)義層次上的全方位互聯(lián),并在此基礎(chǔ)上實(shí)現(xiàn)更高層次的、基于知識(shí)的智能應(yīng)用[6]。
2.2 數(shù)字內(nèi)容的語(yǔ)義檢索
傳統(tǒng)的檢索系統(tǒng)工作原理為:對(duì)采集來(lái)的信息資源進(jìn)行分析,得到信息資源所對(duì)應(yīng)的關(guān)鍵詞集合,然后將這些信息資源和關(guān)鍵詞集合存儲(chǔ)在數(shù)據(jù)庫(kù)中;當(dāng)用戶進(jìn)行檢索時(shí),系統(tǒng)就會(huì)將用戶的查詢?cè)~與數(shù)據(jù)庫(kù)中存儲(chǔ)的關(guān)鍵詞或者信息資源本身進(jìn)行字符串匹配,只要查詢?cè)~與關(guān)鍵詞或信息資源中的內(nèi)容相同,就將包含此詞的信息資源檢索出來(lái)[7]。顯然,這種基于字符串的機(jī)械匹配模式并沒(méi)有考慮信息中的語(yǔ)義,因此檢索效率很低。一方面,它無(wú)法將語(yǔ)義相同,但查詢?cè)~不同的信息檢索出來(lái),比如在中國(guó)知網(wǎng),用關(guān)鍵詞查詢法分別輸入“番茄”和“西紅柿”時(shí),檢索結(jié)果差別很大。另一方面,它無(wú)法將字符串相同,但語(yǔ)義不同或者相關(guān)度很低的信息排除在外,因此檢索結(jié)果中混雜著很多無(wú)效信息。
基于本體的語(yǔ)義檢索則從語(yǔ)義理解的角度分析信息對(duì)象與檢索請(qǐng)求,是一種基于概念及其關(guān)系的檢索匹配機(jī)制[8]。它通過(guò)理解和分析用戶用自然語(yǔ)言表述的檢索需求,構(gòu)造更為科學(xué)的查詢表達(dá)式,并將之與同樣用本體組織良好的知識(shí)庫(kù)中的數(shù)字內(nèi)容索引庫(kù)進(jìn)行語(yǔ)義推理和語(yǔ)義匹配,這樣檢索出來(lái)的結(jié)果在準(zhǔn)確率和周全度上相較于傳統(tǒng)檢索模式都會(huì)有很大提高,因此更符合用戶按需獲取的最終目的。
2.3 個(gè)性化服務(wù)和語(yǔ)義導(dǎo)航
信息爆炸給用戶帶來(lái)了“信息迷航”的困擾,并促使用戶個(gè)人信息需求越來(lái)越個(gè)性化和碎片化。此外,用戶由于自身知識(shí)結(jié)構(gòu)的缺陷、語(yǔ)義理解的主觀性等原因,并不總能清楚地意識(shí)到自己所需要的信息到底是什么。個(gè)性化服務(wù)和信息導(dǎo)航都是在應(yīng)對(duì)這些問(wèn)題中產(chǎn)生的對(duì)策。數(shù)字出版業(yè)已經(jīng)在信息導(dǎo)航和個(gè)性化服務(wù)方面做了一些工作:信息導(dǎo)航方面,大多數(shù)在線數(shù)據(jù)庫(kù)在檢索界面中都提供簡(jiǎn)單的分類或者主題層次結(jié)構(gòu),以方便用戶分類檢索或?yàn)g覽;個(gè)性化服務(wù)方面,個(gè)性化訂閱和個(gè)性化推薦已成為重要的研究課題。但目前的信息導(dǎo)航服務(wù)所提供的分類或者主題結(jié)構(gòu)過(guò)于簡(jiǎn)單,用戶并不能從中獲取粒度較小的語(yǔ)義理解支持;而采用關(guān)鍵詞法、向量空間法和分類法構(gòu)建的用戶興趣模型(個(gè)性化推薦服務(wù)的核心技術(shù))則存在維度過(guò)粗、語(yǔ)義缺失、語(yǔ)義關(guān)聯(lián)能力不足等問(wèn)題。本體技術(shù)能夠?yàn)檫@些問(wèn)題的解決提供很好的支持。
本體是由領(lǐng)域概念及其關(guān)系構(gòu)成的復(fù)雜的網(wǎng)狀結(jié)構(gòu),它不僅能夠?qū)崿F(xiàn)基于語(yǔ)義的分類、主題概念的無(wú)縫組合,還能支持概念屬性、概念實(shí)例層級(jí)的知識(shí)表示,因此領(lǐng)域知識(shí)之間的豐富語(yǔ)義關(guān)聯(lián)通過(guò)本體能夠以網(wǎng)狀結(jié)構(gòu)圖形詳細(xì)地、可視化地表現(xiàn)出來(lái),從而為用戶提供上下文相關(guān)知識(shí),方便用戶根據(jù)瀏覽意圖的不同,自主選擇不同粒度的檢索問(wèn)題。
在用戶興趣模型的構(gòu)建過(guò)程中,可以將用戶的特征詞集合與領(lǐng)域本體進(jìn)行語(yǔ)義映射,建立用戶的語(yǔ)義空間,進(jìn)而借助領(lǐng)域本體這一中介建立信息源和用戶之間的統(tǒng)一語(yǔ)義模型。由于本體自身突出的知識(shí)表示能力,基于本體的用戶語(yǔ)義模型能夠根據(jù)用戶背景提供遠(yuǎn)比目前方法更為精準(zhǔn)的主動(dòng)信息服務(wù),甚至激發(fā)用戶潛在的興趣點(diǎn)。
3 本體構(gòu)建方法與流程:以書店本體構(gòu)建為例
實(shí)現(xiàn)本體在數(shù)字出版方面應(yīng)用的前提是必須有可用的、構(gòu)建良好的領(lǐng)域本體。本體之于上文所述的功能實(shí)現(xiàn),就如同建房子時(shí)必須建立框架,然后才能在此基礎(chǔ)上添磚加瓦,進(jìn)而裝修成美麗的居室。當(dāng)前經(jīng)典的本體構(gòu)建方法有IDEF5法[9]、Mike Uschold & King的骨架法[10]、Gruninger & Fox的評(píng)價(jià)法(又稱TOVE法)[11]、KACTUS工程法[12]、METHONTOLOGY法[13]、SENSUS法[14]、斯坦福大學(xué)醫(yī)學(xué)院的“七步法”[15]等幾種。它們?yōu)楸倔w的構(gòu)建提供了很好的方法論基礎(chǔ)。綜合上述方法的優(yōu)點(diǎn),本文構(gòu)建一個(gè)書店本體案例。在整個(gè)流程方面,主要借鑒IDEF5法、骨架法、METHONTOLOGY法;在具體建模階段,主要參考斯坦福大學(xué)醫(yī)學(xué)院的“七步法”,并根據(jù)需要作了相應(yīng)調(diào)整??傮w過(guò)程包括:準(zhǔn)備階段、本體建模階段、本體形式化階段、本體維護(hù)和進(jìn)化階段四個(gè)階段。
3.1 準(zhǔn)備階段
(1)構(gòu)建目的及領(lǐng)域范圍
本體的構(gòu)建不是無(wú)的放矢,只有明確了構(gòu)建目的和領(lǐng)域范圍,我們才知道本體中大概需要哪些概念,哪些屬性,以及本體的粒度大小,即本體將在哪一層級(jí)終止。書店本體的構(gòu)建旨在把我國(guó)不同類型書店的概念體系本體化地表示出來(lái),為我國(guó)書店系統(tǒng)提供共享的知識(shí)基礎(chǔ),以方便了解各種書店之間的關(guān)系,以及各書店自身的所有制性質(zhì)、經(jīng)營(yíng)規(guī)模、資本形態(tài)、經(jīng)營(yíng)形態(tài)等屬性。其領(lǐng)域范圍為:我國(guó)的書店體系。為進(jìn)一步明確,可以列出所構(gòu)建本體將要回答的一些問(wèn)題和預(yù)備實(shí)現(xiàn)的功能。作為自備知識(shí)庫(kù),書店本體的預(yù)期目標(biāo)是能夠回答諸如這樣一些問(wèn)題:
a50380c1bf8bbd89ad544b0dc41695961)我國(guó)古籍書店、外文書店、二手書店……有哪些?都在什么地方?
2)三聯(lián)書店是國(guó)有的還是民營(yíng)的?是綜合書店還是專業(yè)書店?主要銷售什么品類的圖書?
作為語(yǔ)義分析、標(biāo)引和智能推理的基礎(chǔ),它必須能夠在檢索系統(tǒng)中輔助完成諸如以下情況的任務(wù):當(dāng)一個(gè)檢索者需要檢索我國(guó)民營(yíng)書業(yè)發(fā)展?fàn)顩r時(shí),它必須準(zhǔn)確提供有關(guān)民營(yíng)書業(yè)相關(guān)情況的文獻(xiàn),而不會(huì)將國(guó)有書業(yè)狀況的文獻(xiàn)也一起提供給檢索者;它必須將記載我國(guó)書業(yè)發(fā)展?fàn)顩r的文獻(xiàn)中有關(guān)民營(yíng)書業(yè)的部分單獨(dú)抽取出來(lái),而不是整篇提供給檢索者。
此外,需要說(shuō)明的是,本文所構(gòu)建的書店本體并不試圖厘清我國(guó)書店系統(tǒng)復(fù)雜的內(nèi)部結(jié)構(gòu),因此該部分概念及關(guān)系將不在本文書店本體中涉及。
(2)考慮可復(fù)用的現(xiàn)有本體
本體提供了領(lǐng)域共享的知識(shí)基礎(chǔ),本體的復(fù)用是構(gòu)建本體的固有目標(biāo)之一。在本體建模開(kāi)始之前,考慮復(fù)用現(xiàn)有本體將極大地簡(jiǎn)化本體構(gòu)建過(guò)程。出版領(lǐng)域目前并沒(méi)有本體構(gòu)建的具體案例可供參考,因此并無(wú)現(xiàn)成的本體可以作為我們構(gòu)建本體的基礎(chǔ)。但凝結(jié)著領(lǐng)域?qū)<抑腔鄣囊延蓄I(lǐng)域文獻(xiàn)、詞典可以為本體構(gòu)建工作提供一定參考。本部分主要以武漢大學(xué)編纂的出版發(fā)行詞典中關(guān)于書店系統(tǒng)的相關(guān)概念及其定義作為參考。該出版發(fā)行詞典由武漢大學(xué)出版發(fā)行系的專家及教授共同編纂,具有相當(dāng)?shù)臋?quán)威性,因此可以作為書店本體概念分類及概念描述的基礎(chǔ)。
3.2 本體建模階段
(1)列出書店本體的核心概念和術(shù)語(yǔ)
識(shí)別本體的構(gòu)建目標(biāo)、范圍后,就要按照它們確定所需的核心概念,以便建立領(lǐng)域知識(shí)概念模型。結(jié)合書店本體構(gòu)建的目標(biāo)和范圍,以上述出版發(fā)行詞典為基礎(chǔ),在領(lǐng)域?qū)<业膮⑴c下,經(jīng)過(guò)頭腦風(fēng)暴法確定書店本體的潛在核心概念,然后通過(guò)識(shí)別、分析最終確定了“書店”“書店描述”“出版物”“出版物描述”四個(gè)核心概念。其中“書店”類下面包含我國(guó)各種類型的書店子類,它是書店本體中最為核心的概念;“書店描述”類為描述和定義“書店”類中各種類型書店而存在,它是本體化表示“書店”類概念的重要部分。書店是銷售出版物的商店,不同類型書店的劃分很大程度上是根據(jù)書店所售出版物的種類、形態(tài)等的不同而進(jìn)行的,因此,“出版物”類也是書店本體中不可或缺的核心類;與“書店描述”類同樣,“出版物描述”類為描述和定義“出版物”類中各種類型出版物而存在,它是本體化表示“出版物”類概念的重要部分。這四大類核心概念基本上可以涵蓋根據(jù)上文書店本體構(gòu)建目標(biāo)和范圍所確定的主要領(lǐng)域概念。
(2)建立概念層次結(jié)構(gòu)
確定核心概念后,在此基礎(chǔ)上建立概念的層次結(jié)構(gòu),即完成本體概念層級(jí)模型的構(gòu)建。本部分工作是本體建模階段最為重要的一環(huán)。類的等級(jí)體系取決于本體的可能用途、應(yīng)用需要細(xì)化的程度、個(gè)人偏好以及有時(shí)候需要結(jié)合考慮與其他本體模型的兼容性[16]。根據(jù)上文所確定的構(gòu)建目的和領(lǐng)域范圍,書店本體最大的概念為“書店”,最小的粒度(即實(shí)例)將是我國(guó)現(xiàn)實(shí)的書店體系中的各個(gè)書店。因此,根據(jù)需要,書店實(shí)驗(yàn)性本體的主要概念層級(jí)結(jié)構(gòu)是一個(gè)兩層結(jié)構(gòu),部分概念將會(huì)涉及三層以及更多層次,其主要的最上兩層等級(jí)體系如圖1所示:
有兩點(diǎn)需要說(shuō)明:第一,在學(xué)術(shù)研究中,我國(guó)的書店體系可以按照不同標(biāo)準(zhǔn)進(jìn)行劃分,比如按所有制屬性可以劃分為國(guó)有書店、民營(yíng)書店、集體書店、混合所有制書店;按出版物內(nèi)容可以粗略劃分為兒童書店、教育書店、民族書店、學(xué)術(shù)書店、生活書店、工具書書店,等等。而在本文所構(gòu)建的書店本體中,筆者并沒(méi)有將“書店”類進(jìn)行這樣的劃分,這是因?yàn)椋浩湟?,并沒(méi)有一種分類標(biāo)準(zhǔn)能夠完全概括所有不同的書店類型,不同分類標(biāo)準(zhǔn)之間存在著很多交叉重復(fù),比如一個(gè)現(xiàn)實(shí)中的書店可能既是國(guó)有書店也是教育書店,因此在本體構(gòu)建中,這樣的分類并沒(méi)有很大必要;其二,現(xiàn)實(shí)中,并不存在“按所有制劃分的書店”“按出版物內(nèi)容劃分的書店”這樣的書店類型,因此將它作為“書店”類的下位類概念也并無(wú)實(shí)際意義;其三[17],本體概念模型的可用性、可理解性和表達(dá)精確性是一個(gè)兩難選擇,現(xiàn)實(shí)中往往并不需要一個(gè)復(fù)雜且精確的概念模型來(lái)描述一個(gè)希望被大多數(shù)人理解和重用的本體,一個(gè)簡(jiǎn)單清晰的模型更適合項(xiàng)目的實(shí)際需要?!俺霭嫖铩鳖惢陬愃圃?,也沒(méi)有進(jìn)行過(guò)于復(fù)雜的劃分。
第二,在建模時(shí)的困難之一是決定何時(shí)建一個(gè)新類或者何時(shí)通過(guò)不同的屬性值來(lái)描述區(qū)別。在書店實(shí)驗(yàn)性本體中,“書店描述”類和“出版物描述”類分別作為描述和定義“書店”類、“出版物”類的類別而存在。它們?cè)炯瓤梢宰鳛轭愐部梢宰鳛閷傩灾刀嬖?,本文的書店本體之所以分別為它們創(chuàng)建類,是因?yàn)榭紤]到一個(gè)把過(guò)多信息放在屬性中而類別過(guò)少的、過(guò)于扁平的概念體系是難以操縱的。
(3)定義概念、屬性
概念的層次結(jié)構(gòu)只是為本體搭建了一個(gè)框架模型,只有類的體系語(yǔ)義信息太過(guò)簡(jiǎn)單,根本不足以提供解決問(wèn)題所需的答案信息以及作為語(yǔ)義分析和智能處理的基礎(chǔ)。因此確定了概念的層次結(jié)構(gòu)之后,還必須描述概念間的內(nèi)在結(jié)構(gòu),即對(duì)概念本身以及概念之間除了層級(jí)關(guān)系以外的其他復(fù)雜語(yǔ)義關(guān)系進(jìn)行明確定義。結(jié)合書店本體的需要,筆者確定了三類屬性:第一類用來(lái)定義和描述各種類型的書店,包括“所有制”“規(guī)?!薄百Y本形態(tài)”“地點(diǎn)”“職能”“經(jīng)營(yíng)方式”“形態(tài)”等。例如,確定了“所有制”屬性,就可以對(duì)“國(guó)有書店”類進(jìn)行定義,即國(guó)有書店是所有制屬性為“國(guó)有”的書店。第二類用來(lái)定義和描述各種類型的出版物,包括“形式”“載體”“語(yǔ)言”“內(nèi)容類別”“閱讀對(duì)象”“售價(jià)”等。例如,對(duì)“兒童出版物”類添加“閱讀對(duì)象”屬性并指定該屬性值為“兒童”,就可以對(duì)兒童出版物進(jìn)行這樣的定義:兒童出版物是供兒童閱讀的出版物。第三類屬性主要描述的是“書店”類和“出版物”類的關(guān)系,主要屬性是一對(duì)互逆的屬性,即“銷售”和“被銷售”。例如通過(guò)“銷售”屬性可以建立“兒童書店”類和“兒童出版物”類的關(guān)系,即兒童書店是主要銷售兒童出版物的書店。
(4)創(chuàng)建實(shí)例
對(duì)本體中的概念及屬性進(jìn)行定義之后,本體概念模型就可以宣告構(gòu)建完畢,是否要對(duì)其進(jìn)行實(shí)例化是由實(shí)際需要決定的:當(dāng)所構(gòu)建的本體僅僅是為領(lǐng)域提供共享的概念基礎(chǔ)時(shí),就不必對(duì)其進(jìn)行具體的實(shí)例化;當(dāng)所構(gòu)建的本體是面向具體應(yīng)用目的時(shí),根據(jù)需要對(duì)其實(shí)例化則是重要的一環(huán)。根據(jù)書店本體所擬定的構(gòu)建目的以及預(yù)計(jì)功能可知,書店本體側(cè)重于信息描述(實(shí)例表現(xiàn)),對(duì)其進(jìn)行實(shí)例化是十分必要的。實(shí)例化的工作包括實(shí)例聲明、實(shí)例描述和關(guān)系關(guān)聯(lián)三個(gè)部分[18]。以實(shí)例描述為例,假定已經(jīng)聲明“天津古籍書店”是“古籍書店”的實(shí)例,雖然在“古籍書店”類中已經(jīng)定義了古籍書店是銷售古籍出版物的書店,這個(gè)屬性可以為“天津古籍書店”自動(dòng)繼承,但“天津古籍書店”的“所有制”“地點(diǎn)”“有無(wú)實(shí)體”等屬性則需要在實(shí)例描述環(huán)節(jié)作進(jìn)一步描述。可以看出,在面向具體應(yīng)用的本體構(gòu)建中,本體的實(shí)例化是非常繁瑣的一個(gè)環(huán)節(jié)。
3.3 本體編碼階段
本體編碼階段即用本體描述語(yǔ)言將本體建模階段的成果規(guī)范地、形式化地表示出來(lái),以便計(jì)算機(jī)能夠處理。由于本體編碼過(guò)程的繁瑣性以及人工編碼的易錯(cuò)性,國(guó)內(nèi)外眾多機(jī)構(gòu)研究開(kāi)發(fā)了不少本體開(kāi)發(fā)平臺(tái)軟件,通過(guò)這些軟件能夠直接用自然語(yǔ)言編輯本體,而不需要掌握具體的本體描述語(yǔ)言,大大簡(jiǎn)化了本體編碼過(guò)程。在這些軟件中,斯坦福大學(xué)醫(yī)學(xué)院信息化研究小組開(kāi)發(fā)的Prot€間€槿砑19]因其在多方面的優(yōu)勢(shì)成為應(yīng)用最為廣泛的本體編輯軟件。因此,在書店本體編碼過(guò)程中,本文選用Prot€間€楸咎灞嗉砑ㄖ嚀宓謀嗦?tīng)─做桼員咎迨道嗉?給出了上文提到的“天津古籍書店”實(shí)例描述在Prot€間€槿砑械謀嗉緱妗?
Prot€間€槿砑幸桓鎏乇鸕撓諾閌俏募涑齦袷嬌梢遠(yuǎn)ㄖ啤?梢越玃rot€間€櫚哪誆勘硎咀懷啥嘀中問(wèn)降奈謀頸硎靖袷劍╔ML、RDF(S)、OIL、DAML、DAML+OIL、OWL等系列語(yǔ)言。在目前眾多可用的本體表示語(yǔ)言中,OWL語(yǔ)言因其在豐富的語(yǔ)義表達(dá)能力和良好的邏輯推理之間找到了很好的平衡,成為使用最為廣泛的本體描述語(yǔ)言,因此書店本體擬采用的文件輸出格式是OWL語(yǔ)言。將Prot€間€?軟件編輯好的本體導(dǎo)出OWL文本,仍然以上面的“天津古籍書店”實(shí)例描述為例,導(dǎo)出的OWL文本片段用IE瀏覽器打開(kāi)后截圖見(jiàn)圖3。
該段OWL文本用自然語(yǔ)言描述是:古籍書店的實(shí)例天津古籍書店,所有制為國(guó)有,是實(shí)體書店,地處北京。
3.4 本體維護(hù)和進(jìn)化階段
本體構(gòu)建后,需要對(duì)構(gòu)建的本體進(jìn)行維護(hù)和改進(jìn),以保證已構(gòu)建本體的可用性。從功能角度來(lái)看,這一過(guò)程包括邏輯檢測(cè)、本體評(píng)價(jià)和本體進(jìn)化等階段。
由于本體構(gòu)建的復(fù)雜性以及過(guò)程的繁瑣性,很難保證所構(gòu)建的本體沒(méi)有邏輯錯(cuò)誤,因此在本體形式化編輯完成之后對(duì)本體進(jìn)行邏輯檢測(cè)是十分必要的。書店本體采用德國(guó)弗朗茲公司(Franz Inc.)開(kāi)發(fā)的Racer推理機(jī)[20],對(duì)概念進(jìn)行一致性和包涵性檢測(cè),對(duì)實(shí)例進(jìn)行沖突檢測(cè),以發(fā)現(xiàn)本體中概念、屬性、實(shí)例以及關(guān)系的邏輯不一致的情況,確保本體在邏輯上的正確性[21]。事實(shí)上,除邏輯檢測(cè)外,進(jìn)行本體推理還能夠?qū)⒈倔w中隱含的語(yǔ)義關(guān)系顯現(xiàn)地表示出來(lái),如在書店本體中,由于“天津古籍書店”的所有制屬性是“國(guó)有”,符合“國(guó)有書店”類的定義,盡管我們?cè)诰庉嬤^(guò)程中沒(méi)有指定“天津古籍書店”為“國(guó)有書店”類的實(shí)例,但當(dāng)推理機(jī)進(jìn)行推理后,“天津古籍書店”將會(huì)自動(dòng)歸類到“國(guó)有書店”類的實(shí)例中。
本體評(píng)價(jià)是對(duì)所構(gòu)建本體的正確性和有效性作出合理評(píng)估,主要看能否達(dá)成預(yù)期目標(biāo),評(píng)價(jià)標(biāo)準(zhǔn)是看所構(gòu)建的本體在具體應(yīng)用中所達(dá)到的效果。本體進(jìn)化是根據(jù)本體評(píng)價(jià)結(jié)果、具體應(yīng)用目的以及領(lǐng)域知識(shí)的變化更新而進(jìn)行有目的的、長(zhǎng)期的改進(jìn)工作,它是保證本體能夠適用于具體需要而采取的必要措施。因?yàn)楸疚乃鶚?gòu)建的書店本體只是一個(gè)本體案例,尚沒(méi)有在具體應(yīng)用中進(jìn)行檢驗(yàn),因此評(píng)價(jià)和進(jìn)化都不在本文的討論范圍之內(nèi)。
至此,一個(gè)從工程視角構(gòu)建本體的流程全部結(jié)束,將構(gòu)建好的本體結(jié)合相關(guān)數(shù)字技術(shù)運(yùn)用到前文所述的相關(guān)過(guò)程中去,就可以實(shí)現(xiàn)本體在數(shù)字內(nèi)容按需獲取方面的基礎(chǔ)性作用。
4 結(jié) 語(yǔ)
傳統(tǒng)出版向數(shù)字出版的轉(zhuǎn)型,其最為直接的表現(xiàn)是載體的改變,但更本質(zhì)的卻是知識(shí)組織方式、呈現(xiàn)方式、獲取方式的轉(zhuǎn)變。隨著數(shù)字出版產(chǎn)業(yè)的發(fā)展,數(shù)字出版機(jī)構(gòu)已經(jīng)由傳統(tǒng)的內(nèi)容提供商向知識(shí)服務(wù)商轉(zhuǎn)變,數(shù)字內(nèi)容組織由傳統(tǒng)靜態(tài)的文獻(xiàn)單元向動(dòng)態(tài)的“流內(nèi)容”轉(zhuǎn)變,而支持這些轉(zhuǎn)變的是數(shù)字技術(shù)及其思想。隨著數(shù)字技術(shù)及數(shù)字出版理念的不斷進(jìn)步、成熟,當(dāng)前的數(shù)字出版活動(dòng)也逐漸由簡(jiǎn)單的數(shù)字化向定制化、語(yǔ)義化出版方向發(fā)展。本體理論以及基于本體理論的一系列技術(shù)很好地契合了語(yǔ)義出版、按需出版等新的數(shù)字出版形態(tài)的內(nèi)在要求,已經(jīng)開(kāi)始為數(shù)字出版業(yè)所關(guān)注和重視,其應(yīng)用前景十分廣闊。但因?yàn)槠鋸?fù)雜性,目前底層技術(shù)還不成熟,比如基于本體的語(yǔ)義標(biāo)注技術(shù)、知識(shí)元抽取技術(shù)以及本體自身的自動(dòng)構(gòu)建、映射、匹配、集成等眾多技術(shù)還是研究的難點(diǎn),還處于不斷探索和完善的階段。本文主要分析了本體在數(shù)字內(nèi)容按需獲取方面的作用,結(jié)合目前廣泛應(yīng)用的本體構(gòu)建方法和流程構(gòu)建了一個(gè)書店本體案例,以供后續(xù)研究者參考,其可行性和有效性還必須經(jīng)過(guò)實(shí)踐檢驗(yàn),這也是后續(xù)研究需要逐步解決的問(wèn)題。
注 釋
[1]Gruber,T.R.A Translation Approach to Portable Ontology Specification[J].Knowledge Acquisition,1993(5):199-220
[2]徐麗芳,叢挺.數(shù)據(jù)密集、語(yǔ)義、可視化與互動(dòng)出版:全球科技出版發(fā)展趨勢(shì)研究[J].出版科學(xué), 2012(4):73-80
[3]王洪俊,黃翬.“人民金典”語(yǔ)義檢索系統(tǒng)實(shí)現(xiàn)方法和技術(shù)[J].中國(guó)傳媒科技, 2011(4):74-77
[4]馬捷,劉小樂(lè),鄭若星.中國(guó)知網(wǎng)知識(shí)組織模式研究[J].情報(bào)科學(xué),2011(6):843-846
[5]文庭孝,羅賢春,劉曉英,張蕊.知識(shí)單元研究述評(píng)[J].中國(guó)圖書館學(xué)報(bào),2011(5):75-86
[6]王亞斌.基于本體的語(yǔ)義標(biāo)注研究[D].蘭州:蘭州理工大學(xué),2010:1
[7]劉金桂.基于本體的信息資源組織[D].南京:南京航空航天大學(xué),2006:1
[8]焦玉英,張璐.基于ontology的語(yǔ)義檢索模型架構(gòu)[J].山東圖書館季刊,2006(3):10-14
[9]IDEF Family of Methods A Structured Approach to Enterprise Modeling and Analysis [OL].[2007-11-15].http://www.idef.com/
[10]Uschold M.Ontologies Principles,Methods and Applications[J].Knowledge Engineering Review,1996,11(2):56-57
[11]Gruninger M,F(xiàn)ox M S.Methodology for the Design and Evaluation of Ontologies.Workshop on Basic Ontological Issues in Knowledge Sharing[M],IJCAI-95,Montreal,1995
[12]Berbaras A,Laresgoiti I,Corera J.Building and reusing ontologies for electrical network applications[M].In:Proc of European Conf on Artificial Intelligence,1996:298-302
[13]Fernandez M,Gomez-Perez A,Juristo N. Methodology:From Ontological Art Towards Ontological Engineering[M].AAAI-97 Spring Symposium on Ontological Engineering,Stanford University,1997
[14]Ontology Creation and Use:SENSUS[OL].[2007-11-15].http://www.isi.edu/natural-language/resource/sensus.html
[15][16]Natalya F.Noy,Deborah L.McGuinness.Ontology Development 101:A Guide to Creating Your First ontology[OL].[2002-10-12].http://Prot€間€?stanford.edu/publications/ontology_development /ontologyl0l.pdf
[17][18][21]董慧.本體與數(shù)字圖書館[M].武漢:武漢大學(xué)出版社,2008:278-284
[19]Welcome to Prot€間€閇OL].[2007-11-22].http://Protege.stanford.edu
[20]Racer(Renamed Abox and Concept Expression Reasoner)[OL].[2007-11-5].http://www.racer-systems.com/products/racerpro/users-guide-1-9.pdf
(收稿日期:2013-03-21)