亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于領域本體映射的綜合相似度計算方法

        2017-07-18 11:48:45金海濤張琳
        現(xiàn)代計算機 2017年14期
        關鍵詞:度值裝箱異構

        金海濤,張琳

        (上海海事大學信息工程學院,上海 201306)

        基于領域本體映射的綜合相似度計算方法

        金海濤,張琳

        (上海海事大學信息工程學院,上海 201306)

        領域本體為知識的共享和重用提供重大作用。本體映射是在異構本體間建立語義映射關系,解決本體異構的重要途徑。針對目前本體映射中相似度計算存在的不足,提出一種綜合的相似度計算方法,即先依據(jù)知網(wǎng)知識詞典并考慮未登錄詞分詞后詞性的作用,計算出本體元素的概念相似度;再分析本體的層次關系計算其結構相似度;通過加權綜合得到本體的綜合相似度;最后構建兩個異構航運本體,設計實驗來驗證改進后算法的正確性和有效性,實驗表明所提出的方法具有較高準確率。

        領域本體;本體映射;本體異構;知網(wǎng);相似度計算

        0 引言

        隨著語義Web的迅速發(fā)展,越來越多的人加入了對本體應用的研究,大量的本體在語義Web中被創(chuàng)建,由于不同的人在創(chuàng)建本體時,所采用的描述語言、描述方式等可能不同,使得即使對相同領域的建模,也會構造出具有一定差異的本體,這嚴重影響了本體間知識的共享與重用。本體映射是解決本體之間異構問題的有效途徑[1],充分實現(xiàn)本體間的互操作,而本體間的相似度計算是本體映射最關鍵的技術。

        目前,在一些本體映射系統(tǒng)中,本體間的相似度計算存在計算量較大、計算準確率較低和映射效率不高等問題,著重體現(xiàn)在:在計算兩個本體的相似度時,需要考慮它們的概念、屬性、實例等,因此會產(chǎn)生大量的計算,然而,并不是所有的概念、屬性、實例都存在一定的相似,它們間可能完全不相似,所以根本不需要計算其相似度;本體映射中計算相似度的方法有很多,例如基于概念名稱的方法[2]、基于信息流的方法以及基于結構的相似度計算方法[3]等,但這些算法普遍存在算法單一、映射效率不高的問題,導致查詢的準確率不高。

        針對上述提到的本體映射中相似度計算存在的問題,本文提出一種基于HowNet和本體結構的綜合相似度計算方法,首先,引入了知網(wǎng)及其知識詞典,在知網(wǎng)中,概念具有一定的結構,它可由義原描述,通過義原樹和義原層次體系結構計算義原相似度,然后根據(jù)文中方法計算本體元素的概念相似度;再考慮本體的結構信息,分析本體結構樹,計算本體間的結構相似度;最后通過加權計算得到一個綜合的本體相似度值,從而提高本體相似度計算的準確率。

        1 本體映射相關知識

        1.1 本體定義

        本體最先起源于哲學,在哲學中,本體是對世界上任何真實存在的事物所做出的客觀描述。隨后,本體被引入到計算機領域的人工智能界,隨著人工智能的快速發(fā)展,R.Neches等是最早提出本體相關定義的人。后來越來越多的學者在信息系統(tǒng)等各個領域開始研究本體,并提出了很多不同的關于的本體定義。Gruber提出的本體定義:“本體是概念模型的明確的規(guī)范說明”[4]。Borst將本體定義為“共享概念模型的形式化規(guī)范說明”[5]。之后,Studer等人提出了更加具體的本體定義,即:“本體是共享概念模型的明確的形式化規(guī)范說明”[6]。

        本文采用Perez等人提出的本體定義形式,即本體為五元組[7],可由公式(1)表示。

        其中,C表示類(概念)的集合,用于描述事物對象的集合,c表示概念(c∈C),指任何事物,例如行為、描述和推理過程等,它們通常構成一個分類層次;R為定義在概念集合上的關系集合,表示概念間的相互作用,形式化上將其定義成n維笛卡爾積的子集:R:C1×C2×…×Cn,r表示關系(r∈R);F表示為概念集合上的函數(shù)集合,是一種特殊的關系,形式化定義為:F:C1×C2×…×Cn-1→Cn;A表示為公理集合,代表永真斷言;I代表概念的實例集合,i代表實例(i∈I),表示某個概念類中的元素。

        1.2 本體映射

        所謂本體映射,就是指在異構的本體之間建立聯(lián)系,使得異構本體達成對相同事物的一致性理解,它能夠確定不同的本體之間如何被映射或相互關聯(lián)。實際上,本體映射就是通過在異構本體間建立映射規(guī)則,把兩個異構的本體作為輸入,之后將兩個本體元素之間的語義映射關系輸出,映射函數(shù)表示為:

        給定兩個異構的本體O1和O2,從O1到O2的本體映射是指在本體O1中的每個本體元素,在本體O2中可以找到與之相對應的元素,并確定他們之間存在的對應關系。其中,本體O1為源本體,本體O1為目標本體。這里ei1∈O1,ei2∈O2且{ei1}→map{ei2}。{ei1}和{ei2}都表示元素集合(元素為本體中的概念、關系等)。f可以是一種映射類型(subclass、superclass、disjointwith等)或者為null。當f為null時,表示{ei1}和{ei2}之間沒有對應關系。

        語義間存在的映射關系一般由它們的相似度來決定。相似度定義為sim(ei1,ei2)∈[0,1],其中,ei1和ei2分別表示本體O1和O2的兩個元素。文獻[8]提出了一種形式化的本體映射函數(shù):

        map(ei1)=ei2,如果sim(ei1,ei2)>μ,μ作為閾值,μ∈[0,1],當ei1與ei2的相似度大于閾值μ時,說明它們之間存在語義映射關系,將映射ei1到ei2。

        2 本體相似度計算

        2.1 概念相似度計算

        本文引入知網(wǎng)(HowNet)進行本體的概念相似度計算,根據(jù)文獻[9]中的方法進行改進,通過義原樹以及義原層次結構對義原之間的語義相似度進行計算,并綜合考慮了義原在樹中所處的層次深度因素;利用改進后的方法對義原描述式進行分類并計算其相似度;對于知網(wǎng)沒有收錄的概念,采用逆向最大匹配法進行相似度的計算。

        (1)義原語義相似度計算

        對處于同一棵義原分類樹上的節(jié)點,為了降低算法的空間復雜度,可以使義原分類樹通過一定的規(guī)則轉換成二叉樹的形式,并采用二叉樹的鏈式存儲方式,最后利用二叉樹節(jié)點距離計算公式得到義原間的語義距離,進而通過公式(4)計算得到義原之間的語義相似度。

        對位于不同義原分類樹上的義原節(jié)點,本文采用知網(wǎng)中義原層次體系中義原的上下位語義距離關系并引入深度因素來計算。在義原分類樹中,若兩對義原路徑距離相同,位于層次深度越高的義原,其語義距離相對越小。

        其中,A和B是兩個義原,分子中的Psp(A,B)表示兩個義原重合路徑,即相同信息,分母中的Dis(A,B)表示兩個義原的路徑距離,即相異信息。β是一個與義原深度有關的參數(shù),它的值域為[0,1]。

        在知網(wǎng)中,義原的描述方式可以用一個特征結構來表示,其包括以下四個特征[10]:第一基本義原描述、其他基本義原描述、關系義原和關系符號描述四個方面,若本體中的元素被知網(wǎng)收錄,則可由公式(6)計算其概念相似度。

        其中,βi(1≤i≤4)是權重,且有:β1+β2+β3+β4=1,β1≥β2≥β3≥β4。后者表明了Sim1(A,B)到Sim4(A,B)在計算總體相似度時的比重依次降低。由于概念的最主要特征在于第一基本義原描述,所以一般將其所占的權重設為0.5以上。

        因為第一基本義原相似度對其他義原相似度具有一定的制約作用,所以將基于知網(wǎng)的概念相似度記為:

        (2)未登錄詞的相似度計算

        由于知網(wǎng)中不可能收錄所有的詞匯,所以有些詞匯在知網(wǎng)中沒有相應的語義描述,因此無法對未登錄詞進行相似度計算,這時就需要對未登錄詞進行中文分詞,將未登錄詞轉化為知網(wǎng)可以理解的形式。

        本文采用逆向最大匹配法作為分詞算法,所謂逆向最大匹配是從詞語的最右邊開始匹配,在知網(wǎng)知識字典中查找能夠匹配成功的最長的單詞。逆向最大匹配后,將未登錄詞分解為多個知網(wǎng)中存在的詞。由于分解后不同詞語的詞性對相似度計算具有一定的影響,所以本文將動詞、名詞、代詞作為核心詞,其所占的權重較大。未登錄詞相似度算法如下:

        (1)對未登錄詞A和B進行切分,得到未登錄詞的切分集合M和N;

        (2)對集合M、N進行詞性標注,并按照詞性分別劃分為集合M1、M2和N1、N2,其中m1和N1包含了集合M和N中所有的核心詞,M2和N2包含了剩余的其他詞語;

        (3)分別計算M1和N1、M2和N2的語義相似度。假設len(M1)

        (4)加權求和得到Sim(A,B)的值,未登錄詞不一定都有集合M1和N1、M2和N2,因此未登錄詞相似度的公式可記為:

        其中,μ和η為不同的詞集所占的權重,μ+η=1,μ>η。

        2.2 結構相似度計算

        在計算本體元素的綜合相似度時將本體的結構信息作為相似度計算的一部分,提出一種基于結構的本體相似度計算方法:先將本體結構圖轉化為一種樹狀關系,接著在兩個本體結構樹之間構造一個共有的父節(jié)點把兩個本體樹合并為一個樹,再將本體元素之間的語義關系轉換為本體樹中兩個元素的路徑距離p,取一個語義半徑r,在路徑距離p≤r情況下,查找該范圍內(nèi)所有鄰居元素,得到一個鄰居元素集合,這樣兩個異構本體的元素即可得到兩個與之相關的集合,再根據(jù)公式(9)求得本體的結構相似度SimStr(A,B)。

        在計算本體的結構相似度時,參照以下規(guī)則:

        (1)在本體樹中,如果兩個元素節(jié)點同屬于一個父節(jié)點,則這兩個元素節(jié)點可能是相似的;

        (2)如果兩個元素節(jié)點是相似的,則它們的子節(jié)點也可能相似;

        (3)如果兩個元素節(jié)點是相似的,則它們的鄰居節(jié)點也可能相似;

        依據(jù)上述規(guī)則,將結構相似度計算定義為公式:

        其中,A和B分別為本體O1和O2中的元素,Simp(A,B)表示元素A和B最近的公共父節(jié)點之間的相似度;Sims(A,B)表示元素A和B子節(jié)點集的相似度;Simb(A,B)表示元素A和B兄弟節(jié)點集的相似度,Ns(A)和Ns(B)分別表示A和B的子節(jié)點集合,Nb(A)和Nb(B)分別表示A和B的兄弟節(jié)點集合。α、β、γ為權重因子,且α+β+γ=1,由于在本體結構樹中,父、子、兄弟節(jié)點對其相似度的計算具有不同的影響,其中,父節(jié)點的影響較大,所以設定α≥β≥γ≥0。

        2.3 綜合相似度計算

        為基于HowNet、本體結構等方面計算所得的相似度分別分配一個權值,得到綜合相似度為:

        其中,ω1,ω2是兩種相似度計算方法所占的權重且ω1+ω2=1(ω1,ω2>0),具體值可以根據(jù)具體分析和實際需要來選取。

        3 實驗及分析

        為了驗證改進后算法的有效性,本文通過爬取“中國港口網(wǎng)”中航運、集裝箱等文本數(shù)據(jù),通過分詞方法對文本數(shù)據(jù)進行分詞,得到航運領域的相關術語,分析術語間的關系,通過本體構建方法,使用基于OWL語言描述的本體構建工具Protege4.3構建兩個異構航運本體O1和O2。

        圖1 異構航運本體O1和O2

        由于目前還沒有專門評估相似度算法質量的專用數(shù)據(jù)集,本文抽取本體中部分元素作為實驗數(shù)據(jù)進行相似度計算并與傳統(tǒng)方法計算結果進行對比。

        在計算概念相似度時,首先判斷概念是否在知網(wǎng)知識詞典中收錄,如果概念存在,則直接進行計算,否則,需要先進行中文分詞,再計算分詞后兩兩詞語之間的相似度,最后利用本文方法得出兩個航運本體的概念相似度。

        例如:在表1中,計算“裝箱單”和“裝箱信息”的概念相似度時,知網(wǎng)的知識詞典中沒有收錄這兩個詞語,但收錄了“裝箱”、“信息”和“單”這幾個詞語。所以,首先分別計算“裝箱”和“裝箱”,“裝箱”和“信息”的相似度,由于“單”不是核心詞,因此本文不需要計算“單”和“裝箱”,“單”和“信息”的相似度,最后,通過相似度值的加權求和得到概念相似度?!把b箱單”和“裝箱信息”的相似度計算如下:Sim(裝箱,裝箱)=1.0,Sim(裝箱,信息)=0.056,因此SimHow(裝箱單,裝箱信息)=0.528,對于分詞后得到的概念個數(shù)較多的情況,同樣采用本文方法對各部分概念相似度求和,再取平均值,從而得到航運領域專有術語的概念相似度值。

        僅通過概念相似度計算得出的結果并不能精準地確定異構航運本體之間的語義關系,因此,本文通過分析異構航運本體的結構信息,并根據(jù)2.2節(jié)介紹的方法計算兩個異構航運本體間的結構相似度。

        例如:計算“貨船名”和“船名”的結構相似度為:由于“貨船名”和“船名”沒有子元素,所以使用的是父元素和兄弟元素的概念相似度作為兩個元素的結構相似度,其中α≥β≥γ≥0,α+β+γ=1且β=0,根據(jù)多次實驗結果,設定權重α=0.82,γ=0.18,得出SimStr(貨船名,船名)=0.885。

        根據(jù)文獻[2]與文獻[4]中提出的本體相似度計算方法對構建的異構航運領域本體進行相似度的計算,并統(tǒng)計計算結果與本文算法的部分實驗結果對比。其中,本文的實驗結果為等權值分配得到的本體綜合相似度值。

        表3 實驗結果對比

        圖2 實驗結果對比

        結果分析:

        由表3和折線圖可以看出,通過傳統(tǒng)單一方法計算得到的相似度值比較粗糙、片面,不同的方法計算出的相似度值可能存在很大差別,進而得到不同的映射關系。然而,基于本文方法計算得到的綜合相似度值相比于文獻[2]和文獻[4]計算得到的結果具有較高的準確性,進行本體映射時更具參考性,它首先利用HowNet計算本體元素的概念相似度,由此細化每個本體元素之間的關系,其次,由本體結構的相似度計算可以得到兩個本體在總的結構上的相似程度,最后結合細化的本體元素相似度和概括的本體結構相似度得到綜合的相似度值,根據(jù)綜合的相似度值使得航運本體元素之間的映射更加準確。

        4 結語

        隨著現(xiàn)代航運業(yè)的迅速發(fā)展,信息共享已逐漸成為航運業(yè)的必然趨勢,信息表示的標準化已成為解決信息共享的重要手段。本文提出了一種基于HowNet和本體結構的綜合相似度計算方法,實驗結果表明,改進后的算法相對于傳統(tǒng)單一算法具有較高的準確率,能有效提高本體映射的效率,實現(xiàn)航運本體資源的共享和重用。

        然而,由于本文方法很多地方采用人工分配權值的方式,因此,主觀因素在一定程度上影響了實驗結果,所以在以后的研究中,可以考慮根據(jù)本體元素在領域中的重要性自動分配權值,同時考慮概念的屬性、實例等因素的影響,從而使得異構領域本體之間的映射更加準確和高效。

        [1]Ding Ying,F(xiàn)oo S.Ontology Research and Development:Part2-A Review of Ontology Mapping and Evoling[J].Journal of Information Science,2002,28(5):375-388.

        [2]何娟,高志強,陸青健等.基于詞匯相似度的元素級本體匹配[J].計算機工程,2006,32(16):185-187.

        [3]周栩,劉磊,范任宏.基于模式結構分類的本體映射方法[J].電子學報,2011,39(4):882-886.

        [4]Gruber T.Ontolingua:A translation Approach to Portable Ontology Specifications,Knowledge Acquisition,1993,5(2):199-220.

        [5]Borst P,Akkermans H,Top J.Engineering Ontologies,International Journal of Human-Computer Studies,1997,46(2-3):365-406.

        [6]Studer R,Benjamins V R,F(xiàn)ensel D.Know ledge Engineering:Principles and Methons,Data&Knowledge Engineering,1998,25(1-2):161-197.

        [7]A.G.Perez,V.R.Benjamins.Overview of Knowledge Sharing and Reuse Components:Ontologies and Problem-Solving Methons[C].In Proceedings of the IJCAI299 workshop on ontologies and Problem-Sovling Methons.deAgosto,Estocolmo,1999,1-15.

        [8]黃鑫.本體驅動的語義智能系統(tǒng)的研究[D].重慶師范大學,2009.

        [9]劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計算[A].第三屆漢語詞匯語義學研討會論文集[C].臺北,2002:59-76.

        [10]魏凱斌,冉延平,余牛.語義相似度的計算方法研究與分析[J].計算機技術與發(fā)展,2010,20(7):102-105.

        Integrated Sim ilarity Calculation Method Based on Domain Ontology Mapping

        JIN Hai-tao,ZHANG Lin

        (College of Information Engineering,ShanghaiMaritime University,Shanghai 201306)

        Domain ontology plays a vital role in the sharing and reuse of knowledge.Ontologymapping is an effectiveway to solve semanticmapping between heterogeneous ontologies.Aiming at the disadvantages of the similarity calculation in ontology mapping,proposes a comprehensive similarity calculation method,which is based on the knowledge dictionary and considering the role of the word after the word,and calculates the similarity of the ontology element.Finally,designs two heterogeneous shipping ontologies and design experiments to verify the correctness and validity of the improved algorithm.Experiments show that the proposed method has higher accuracy.

        金海濤(1992-),男,安徽淮南人,碩士研究生,研究方向為模式識別與智能信息處理

        2017-02-16

        2017-05-10

        1007-1423(2017)14-0034-06

        10.3969/j.issn.1007-1423.2017.14.007

        張琳(1973-),女,博士,副教授,碩士生導師,研究方向為港航信息化技術、智能信息處理、信息檢索、本體與知識工程等

        Domain Ontology;Ontology Mapping;Ontology Heterogeneous;HowNet;Similarity Calculation

        猜你喜歡
        度值裝箱異構
        探討公路項目路基連續(xù)壓實質量檢測技術
        試論同課異構之“同”與“異”
        電機裝箱設計系統(tǒng)解決方案和應用
        overlay SDN實現(xiàn)異構兼容的關鍵技術
        電信科學(2016年11期)2016-11-23 05:07:56
        無線傳輸中短碼長噴泉碼的度分布優(yōu)化算法*
        電訊技術(2016年8期)2016-11-02 05:40:50
        微博網(wǎng)絡較大度值用戶特征分析
        科技傳播(2016年17期)2016-10-10 01:46:58
        LTE異構網(wǎng)技術與組網(wǎng)研究
        三維貨物裝箱問題的研究進展
        基于三維模型的可視化裝箱系統(tǒng)
        河南科技(2015年2期)2015-02-27 14:20:23
        在新興異構SoCs上集成多種系統(tǒng)
        99精品久久精品一区| 久久精品无码一区二区三区蜜费| 国产在线欧美日韩精品一区二区| 在线观看国产av一区二区| 激情精品一区二区三区| 蜜桃日本免费看mv免费版| 中文在线а√天堂官网| 麻豆国产VA免费精品高清在线| 亚洲国产精品久久久婷婷| 国内少妇毛片视频| 亚洲国产精品特色大片观看完整版 | 人人做人人妻人人精| 韩日无码不卡| 青青草手机在线免费视频| 天天做天天爱夜夜爽女人爽| 久久中文字幕无码专区| 亚洲中文字幕巨乳人妻| 在线亚洲妇色中文色综合| 一个人看的www片免费高清视频| 狠狠色噜噜狠狠狠888米奇视频| 国产精品18久久久久久不卡中国| 亚洲av国产精品色a变脸| 色翁荡息又大又硬又粗视频| 国产影片中文字幕| 极品诱惑一区二区三区| av天堂手机在线看片资源| 欧美成人www在线观看| 免费做爰猛烈吃奶摸视频在线观看 | 亚洲国产精品嫩草影院久久| 精品国产97av一区二区三区| 变态另类人妖一区二区三区| 久久无码专区国产精品s| 久久久久久中文字幕有精品| 精品久久精品久久精品| 视频一区视频二区制服丝袜| 亚洲国产另类久久久精品黑人| 日本香蕉久久一区二区视频| 久久国产精品色av免费看| 熟妇熟女乱妇乱女网站| 欧美精品黄页在线观看视频| 色噜噜精品一区二区三区 |