王衛(wèi)東,張琳
(上海海事大學(xué),上海 262500)
基于本體的旅游產(chǎn)品映射的應(yīng)用研究
王衛(wèi)東,張琳
(上海海事大學(xué),上海262500)
近年來(lái),線下旅游與線上旅游相互交融旅游行業(yè)信息大量分散的遍布在網(wǎng)絡(luò)中,使得傳統(tǒng)的旅游行業(yè)也得到了快速的發(fā)展。"傳統(tǒng)+聯(lián)網(wǎng)”模式的飛速發(fā)展,隨著阿里去啊、上海真旅、去哪兒、不夜城、美團(tuán)及中國(guó)旅游信息網(wǎng)等旅游門戶網(wǎng)站的不斷發(fā)展,通過(guò)在各大旅游網(wǎng)站上進(jìn)行需求搜索成為旅客獲得旅游信息的主體方式。然而大量網(wǎng)站在信息構(gòu)建都是基于傳統(tǒng)的方式,已有的信息無(wú)法很好地實(shí)現(xiàn)共享和重用,計(jì)算機(jī)無(wú)法智能地識(shí)別網(wǎng)絡(luò)中的信息使得用戶在搜索旅游信息時(shí)不易及時(shí)找到自己想要的信息。由于本體論在解決信息交互和共享方面具有明顯的優(yōu)勢(shì),本體相關(guān)技術(shù)在實(shí)現(xiàn)旅游信息共享和重用方面也得到的大量研究者的重視。
本體(ontology)最初是指對(duì)事物本質(zhì)研究的一種存在論,在計(jì)算機(jī)中用來(lái)表示將信息形式概念化的,用來(lái)表示領(lǐng)域知識(shí)中對(duì)象,概念和和各個(gè)實(shí)體間的關(guān)系[1]。隨著互聯(lián)網(wǎng)時(shí)代的到來(lái)和不斷成長(zhǎng),本體己有由原來(lái)的哲學(xué)領(lǐng)域知識(shí)運(yùn)用到計(jì)算機(jī)領(lǐng)域來(lái)領(lǐng)域如人工智能、電子工程、遠(yuǎn)程教育、電子商務(wù)等。本體論在信息領(lǐng)域一直沒(méi)有一個(gè)明確的規(guī)定,比較有代表的是Borst指出的:“本體是共享概念模型的形式化規(guī)范的說(shuō)明”[2]。這個(gè)定義從以下四個(gè)方面來(lái)完善了本體在計(jì)算機(jī)科學(xué)領(lǐng)域的定義[3]:
①概念模型(Conceptualization):通過(guò)抽象出客觀世界中事物具有的共同特征得到的一些抽象模型,概念模型表達(dá)的信息和實(shí)際的狀態(tài)信息有直接的關(guān)聯(lián)。
②明確化(Explicit):所使用的概念信息都具有明確的約束和完備性。
③形式化(Formal):本體化的信息能被計(jì)算機(jī)智能化獲取和處理。
④共享(Share):本體化得到的信息是可以被相關(guān)領(lǐng)域人士所認(rèn)可的,可實(shí)現(xiàn)重用的。
(1)旅游業(yè)為游客提供旅程中的各種服務(wù),隨著生活質(zhì)量的不斷提高,人們對(duì)于旅游要求的多樣性和各大旅游網(wǎng)站針對(duì)個(gè)性化旅游路線的推出,這些服務(wù)涉及到不同行業(yè)。通過(guò)在網(wǎng)絡(luò)上搜索和“2014-2018年中國(guó)網(wǎng)上旅行預(yù)訂行業(yè)未來(lái)發(fā)展及投資研究報(bào)告”得到,旅游本體大概可以分為如下幾類:旅行路線、旅客概況,住宿、交通、飲食、景點(diǎn)、購(gòu)物等,旅游本體庫(kù)如圖1:
圖1 旅游本體庫(kù)
在構(gòu)建本體過(guò)程中不同的時(shí)刻有著不同的需求,導(dǎo)致在相同領(lǐng)域內(nèi)存在許多構(gòu)建在不同技術(shù)上的本體。由此導(dǎo)致了在同一個(gè)領(lǐng)域中存在多個(gè)本體的現(xiàn)象,使得在實(shí)現(xiàn)不同本體間相互重用產(chǎn)生許多問(wèn)題[4]:(1)用不同的名稱代表相同意義的信息,即同義異音,以及不同含義的信息用相同的名稱來(lái)表示,即同音異義;(2)在構(gòu)建本體時(shí)不同的本體表達(dá)形式,造成本體數(shù)據(jù)的沖突;(3)不同的需求導(dǎo)致在創(chuàng)建本體是導(dǎo)致不同本體的層次沖突。
為了實(shí)現(xiàn)異構(gòu)本體間的復(fù)用,在解決上述提到的三個(gè)導(dǎo)致不同本體沖突問(wèn)題主要采用以下三種方法[5]:
(l)在異構(gòu)本體間建立從屬關(guān)系,使得源本體包含目標(biāo)本體。這種方法的缺點(diǎn)是在修改源本體信息后需要重新建立從屬關(guān)系。
(2)將源本體和目標(biāo)本體進(jìn)行合成形成一個(gè)大型的公用本體,但是由于不同本體技術(shù)構(gòu)建得到的本體不一樣使得合成后的本體實(shí)用性差,而且不宜于修改和維護(hù)。
(3)在異構(gòu)本體間通過(guò)相似度計(jì)算的橋梁實(shí)現(xiàn)異構(gòu)本體的映射,實(shí)現(xiàn)源本體到目標(biāo)本體的轉(zhuǎn)換。
本體映射是一種常用的解決本體異構(gòu)的方法。在旅游本體中對(duì)于不同時(shí)間不同地點(diǎn)等要求本體需要對(duì)應(yīng)的修改,將異構(gòu)本體進(jìn)行合成使得合成后的大型本體不宜于修改和維護(hù),所以基于相似度計(jì)算實(shí)現(xiàn)本體間重用是一種相對(duì)較好的方式。在本體映射相似度計(jì)算過(guò)程中,不同領(lǐng)域的本體有著不同的一些特性,對(duì)于旅游領(lǐng)域的本體,對(duì)于時(shí)間、數(shù)字、地點(diǎn)等要求都嚴(yán)格,所以在進(jìn)行相似度計(jì)算過(guò)程中不能只考慮單一的相似度計(jì)算方面,采用一種綜合的方法進(jìn)一步改善計(jì)算的過(guò)程,從本體概念名稱、屬性、實(shí)例、結(jié)構(gòu)等方面計(jì)算概念的相似度,尋找更加有效的概念相似度計(jì)算方法。通過(guò)將一個(gè)國(guó)內(nèi)和一個(gè)國(guó)際的旅游本體進(jìn)行相似度計(jì)算得到的結(jié)果和人們的主觀得到的結(jié)果相近。證明了綜合相似度計(jì)算的實(shí)際可用性。
層次聚類也稱為樹聚類,通過(guò)一定的準(zhǔn)則將信息對(duì)象劃分到不同的組之中。同一組內(nèi)的信息有著較高的相似度和相關(guān)度。不同組之間關(guān)聯(lián)性小。將數(shù)據(jù)對(duì)象進(jìn)行數(shù)據(jù)結(jié)構(gòu)上的分解合并形成一個(gè)樹結(jié)構(gòu),在樹結(jié)構(gòu)中每個(gè)節(jié)點(diǎn)與其父節(jié)點(diǎn)、孩子節(jié)點(diǎn),和兄弟節(jié)點(diǎn)存在一定的相似性。從而形成層次樹的結(jié)構(gòu)。一般來(lái)說(shuō),有兩種類型的層次聚類算法[7]:
凝聚的層次聚類:通過(guò)自下而上將每個(gè)數(shù)據(jù)作為一個(gè)節(jié)點(diǎn),然后合并節(jié)點(diǎn)從而形成一個(gè)節(jié)點(diǎn)組。
分裂的層次聚類:通過(guò)自上而下的方法,首先將所有的節(jié)點(diǎn)至于一個(gè)節(jié)點(diǎn)組中,通過(guò)閾值的選定將一個(gè)節(jié)點(diǎn)組分裂成為幾個(gè)內(nèi)部高度相似度的小節(jié)點(diǎn)組。
在層次聚類中確定兩個(gè)節(jié)點(diǎn)組距離有以下四種方法[8~9]:
(1)最小距離:指兩個(gè)節(jié)點(diǎn)組中所有節(jié)點(diǎn)最近距離表示兩個(gè)節(jié)點(diǎn)組的最小距離:
(2)最大距離:指兩個(gè)節(jié)點(diǎn)組中所有節(jié)點(diǎn)最近距離表示兩個(gè)節(jié)點(diǎn)組的最大距離:
(3)平均值距離:指兩個(gè)節(jié)點(diǎn)組中所有節(jié)點(diǎn)中兩個(gè)中心節(jié)點(diǎn)表示兩個(gè)節(jié)點(diǎn)組的距離:
(4)平均距離:指兩個(gè)節(jié)點(diǎn)組中所有節(jié)點(diǎn)距離的平均值所表示的距離:
其中aibj分別表示a,b兩個(gè)節(jié)點(diǎn)組中的節(jié)點(diǎn)。
(1)基于聚類的的概念相似度計(jì)算方法
目前在不同本體間相似度的計(jì)算大多是通過(guò)一種綜合的相似度計(jì)算方法如通過(guò)計(jì)算概念名稱的相似度、概念屬性的相似度、概念實(shí)例的相似度等通過(guò)加權(quán)的方法得到最終的結(jié)果,在和采用單一的計(jì)算方法上有了很大的提高。但是在這其中無(wú)法避免計(jì)算量的增大,而且整個(gè)過(guò)程中聯(lián)系在一起,使得計(jì)算過(guò)程十分的復(fù)雜。
針對(duì)上述提到的問(wèn)題,提出了一種基于聚類的概念相似度計(jì)算方法,在計(jì)算本體相似度時(shí),通過(guò)聚類算法將本體O1中的數(shù)據(jù)進(jìn)行劃分得到幾個(gè)數(shù)據(jù)樹,在進(jìn)行與本體O2的概念B進(jìn)行相似度計(jì)算映射時(shí),如果O1中的A與其的相似度大于給定的閾值,則認(rèn)為A所在的數(shù)據(jù)樹所有信息與B的相似度大,可以將A所在組的信息所為相似度計(jì)算的候選集合,如果小于給定的閾值則在計(jì)算機(jī)計(jì)算過(guò)程中忽略不考慮兩者的相似度將其過(guò)濾掉。最終可以得到一個(gè)完整的相似度計(jì)算候選集合,通過(guò)相似度計(jì)算中用候選集合來(lái)進(jìn)行計(jì)算減少本體映射過(guò)程的計(jì)算量。
通過(guò)確定一個(gè)閾值,將本體O1中的概念o和O2中的得到的一組過(guò)濾后得到的概念組進(jìn)行比較計(jì)算。過(guò)濾后得到的概念組通過(guò)概念名稱的相似度進(jìn)行判斷。假設(shè)本體O1中的概念是X,本體O2中的概念是Y,若果得到的結(jié)果sim(Xname,Yname)大于閾值則X所在的節(jié)點(diǎn)組就成為相似度計(jì)算的候選集合,概念X、Y名字相似性度量公式為:
概念名稱相似度:概念的名稱相似度是最能直接反應(yīng)概念結(jié)構(gòu)也是最基本的方法之一,但是這種方法僅僅作用在字符串上不能很好地將概念的語(yǔ)義信息考慮進(jìn)去,將名稱按照字符串來(lái)計(jì)算相似度。常用的方法有Edit Distance,通過(guò)計(jì)算一個(gè)字符串到另一個(gè)需要經(jīng)過(guò)的插入和刪除等步驟[10]。
其中ci和cj分別表示O1和O1的概念集合,最終的名稱相似度可表示為:
概念屬性相似度:概念屬性在一定層次上決定了概念的內(nèi)在結(jié)構(gòu),在進(jìn)行相似度計(jì)算過(guò)程中是不能忽略的一部分。而屬性的語(yǔ)義貼近度反映了屬性值之間的相似程度,。屬性x,y的類型相似度記為sp(x,y),它滿足以下三個(gè)基本條件[11]:(1)sp(x,y)=1;(2)sp(x,y)=sp(y,x);(3)0≤sp(x,y)≤1。如果兩個(gè)屬性的類型相同則相似度較高,類型不同的相似度較小。不同屬性值類型的類型相似度可根據(jù)表1結(jié)果來(lái)計(jì)算。
表1
如不同本體概念A(yù),B分別有多個(gè)屬性。要計(jì)算A,B的之間的屬性相似度,首先要通過(guò)屬性的類型進(jìn)行類型匹配進(jìn)行屬性的相似度計(jì)算。把可比較的屬性對(duì)匹配記為(x1,y1),(x2,y2),…,(xk,yk)(k≤(m,n))。設(shè)A有m個(gè)屬性,B有n個(gè)屬性,則A與B的屬性相似度計(jì)算公式如下[11]:
概念實(shí)例相似度:進(jìn)行概念的實(shí)例相似度計(jì)算過(guò)程中有以下理論:一個(gè)孩子概念的實(shí)例也是其父概念和祖先概念的實(shí)例。如果概念所具有的實(shí)例全部都相同,那么這兩個(gè)概念可能是相同的;如果兩個(gè)概念具有相同實(shí)例的比重是相同的,那么這兩個(gè)概念可能是相似的。用具體實(shí)例來(lái)計(jì)算概念C1和C2的相似度,記為:
基于實(shí)例的相似度計(jì)算是一種建立在機(jī)器學(xué)習(xí)的基礎(chǔ)上實(shí)現(xiàn)的。本體Wi中的實(shí)例集合用Ui表示,N(Ui)表示實(shí)例集中的實(shí)例個(gè)數(shù)。用表示既屬于A又屬于B的實(shí)例個(gè)數(shù)。以P(A,B)為計(jì)算用例,有以下六個(gè)步驟[12]:
(1)用U1表示本體W1的全部實(shí)例集,分別用和表示屬于A概念的實(shí)例集和不屬于A的實(shí)例集;
(3)用U2表示本體W2的全部實(shí)例集,分別用和表示屬于B概念的實(shí)例集和不屬于B的實(shí)例集;
(5)將兩個(gè)本體W1,W2進(jìn)行位置的互換,重復(fù)(1)(2)(3)(4)四個(gè)步驟,最終得到p(A,B)和
(6)求得N(U1),N(U2),求得p
采用同樣的方式求得:
然后用公式(3)計(jì)算A,B的實(shí)例相似度siminstance(A,B)。
概念關(guān)系相似度:在相似度計(jì)算過(guò)程中概念的類型關(guān)系和名稱關(guān)系具有重要的作用是不能忽視的。由于類型關(guān)系和名稱關(guān)系都是用字符串來(lái)表示的在類型相似度上唯一,所以可以用字符串匹配直接計(jì)算[13]。
其中w1,w2表示權(quán)值,表示關(guān)系和名稱在關(guān)系相似度中起到的作用大小w1+w2=1。
設(shè)概念A(yù)和概念B之間共計(jì)算出n個(gè)RSim(Si,Tj),權(quán)值為Wi,所以A和B的關(guān)系相似度可有下公式求得,表示為:
綜合相似度:將上述四個(gè)相似度進(jìn)行合并求和結(jié)果相似度時(shí)子相似度的權(quán)值時(shí)隨著子子相似度的變化而變化,合并公式如下:
其中 Xi分別表示 simname(A,B),simproperty(A,B),siminstance(A,B),simrelation(A,B)概念結(jié)構(gòu)的相似度。其中δ表示權(quán)值由函數(shù)sigmoid[14]得到的:
在運(yùn)用一個(gè)國(guó)際旅游本體和國(guó)內(nèi)旅游本體上對(duì)該方法進(jìn)行了實(shí)驗(yàn):第一組測(cè)試數(shù)據(jù)是源本體,該數(shù)據(jù)本體旅游產(chǎn)品針對(duì)國(guó)內(nèi)旅游進(jìn)行了描述,第二組測(cè)試數(shù)據(jù)是目標(biāo)本體,該數(shù)據(jù)本體旅游產(chǎn)品針對(duì)國(guó)際旅游進(jìn)行了描述。實(shí)驗(yàn)是使用Java語(yǔ)言基礎(chǔ)上在Eclipse IDE環(huán)境和Protege工具軟件完成。將實(shí)驗(yàn)結(jié)果得到的結(jié)果和旅游領(lǐng)域?qū)<抑饔^得到的相似度進(jìn)行對(duì)比如表2。
表2 實(shí)驗(yàn)結(jié)果
文中源本體和目標(biāo)本體分別是國(guó)內(nèi)旅游和國(guó)外旅游的本體。由實(shí)驗(yàn)數(shù)據(jù)結(jié)果可知通過(guò)相似度計(jì)算和權(quán)值的設(shè)定得到源本體的概念映射到目標(biāo)本體計(jì)算出概念相似度的表現(xiàn)力較強(qiáng),具有較好的分辨能力,實(shí)驗(yàn)表明,本算法在計(jì)算概念間相似度方面得到的結(jié)果比較理想。和通過(guò)旅游領(lǐng)域?qū)<业玫降慕Y(jié)果相近。本體的引入為解決旅游產(chǎn)品過(guò)程中的知識(shí)交互、共享混亂等問(wèn)題提供了新的思路。將旅游產(chǎn)品只是共享融入本體相關(guān)技術(shù),使現(xiàn)有知識(shí)、經(jīng)驗(yàn)知識(shí)等共享與重用得到進(jìn)一步的發(fā)展。
[1]鄧志鴻,唐世渭,張銘,等.Ontology研究綜述[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2002,38(5):730~738
[2]鄭麗萍.本體映射的研究[D].濟(jì)南:山東科技大學(xué),2005
[3]Perez G A,Benjamins R V.Overview of Knowledge Sharing and Reuse Components:Ontologies and Problem-Solving Methods[A].In:Stockholm V R,Benjamins B,Chandrasekaraneds.Proceedings of the IJCAI-99 Workshop on Ontologies and Problem-Solving Methods (KRRS),1999:1~15
[4]史忠植.Ontology科技譯名[J].科學(xué)術(shù)語(yǔ)研究(季刊),2004,6(4):13~14
[5]鄧志鴻,唐世渭,張銘,等.Ontology研究綜述[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2002,38(5):730~738
[6]Jiawei Han,Micheline Kamber著.數(shù)據(jù)挖掘概念與技術(shù).范明,孟小峰等譯.北京:機(jī)械工業(yè)出版社,2004.1~262
[7]張承立.基于語(yǔ)義網(wǎng)的語(yǔ)義相似度算法改進(jìn)[J].計(jì)算機(jī)工程與應(yīng)用,2006,42(17):165~166
[8]朱俊武.面向企業(yè)本體復(fù)用的語(yǔ)義貼近度算法[J].計(jì)算機(jī)應(yīng)用研究,2006(10):46~49
[9]朱莉.基于SVM和sigmoid函數(shù)的字符識(shí)別自適應(yīng)學(xué)習(xí)算法[J].電子技術(shù)應(yīng)用,2006(4)
[10]Alexnader Meadehe,Boris Motik.Ontologies for Enterpeise Knowledge Management[J].IEEE Intelligent Systemes,2003:26~33
Ontology;Tourism;Ontology Mapping;Similarity
Research on the Application of Tourism Product Mapping Based on Ontology
WANG Wei-dong,ZHANG Lin
(Shanghai Marititme University,Shanghai 262500)
1007-1423(2015)17-0054-05
10.3969/j.issn.1007-1423.2015.17.012
王衛(wèi)東(1990-),男,安徽黃山人,碩士研究生,研究方向?yàn)楸倔w映射在旅游品產(chǎn)中相似度的計(jì)算
2015-04-14
2015-05-25
目前旅游信息量大,且在網(wǎng)絡(luò)在分布不均勻。這就導(dǎo)致信息架構(gòu)方法的多樣化,計(jì)算機(jī)不能很好自動(dòng)識(shí)別旅游信息,使得旅游業(yè)在信息的分享和重用上遇到各式各樣的問(wèn)題。旅游業(yè)是對(duì)信息及時(shí)性和可靠性有著高度的依賴行業(yè)。在分析領(lǐng)域需求和旅游信息的基本需求后建立本體,通過(guò)一種選取候選集合實(shí)現(xiàn)本體映射相似度計(jì)算的方法在減少計(jì)算量的前提下實(shí)現(xiàn)不同本體間的共享和復(fù)用。通過(guò)一個(gè)國(guó)內(nèi)和國(guó)際的本體進(jìn)行映射得到的結(jié)果和人們主觀上的結(jié)果相近,驗(yàn)證這種綜合本體映射相似度在旅游本體上映射的正確性和有效性。
本體;旅游;本體映射;相似度
張琳(1973-),女,博士,副教授,碩士生導(dǎo)師,研究方向?yàn)楦酆叫畔⒒夹g(shù)、智能信息處理、信息檢索、本體與知識(shí)工程等
At present,tourism information of the network and large amount of distributed,heterogeneous computer knowledge,can't understand the semantic information,a large amount of information to achieve better sharing and reuse.The tourism industry is highly depended on the information industry.The establishment of the basic functions of tourism ontology based ontology modeling and analysis of tourism information,by means of an ontology mapping similarity calculation to realize comprehensive sharing and reuse between different ontology.Finally by the domestic and international ontology,the mapping results and effectiveness of the integrated ontology mapping similarity in ontology mapping of tourism.