亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        人工智能在本體映射中的應(yīng)用

        2015-03-11 03:24:24苗永昌
        艦船電子工程 2015年7期
        關(guān)鍵詞:異構(gòu)實(shí)例本體

        苗永昌

        (92349部隊(duì) 淄博 255178)

        ?

        人工智能在本體映射中的應(yīng)用

        苗永昌

        (92349部隊(duì) 淄博 255178)

        本體映射被認(rèn)為是異構(gòu)信息集成的關(guān)鍵,研究者們提出了很多本體映射的方法,論文主要從三個方面說明人工智能思想在本體映射中的應(yīng)用。 1) 基于元素文本相似度計(jì)算的方法,往往會借助于自然語言處理技術(shù),對文本進(jìn)行相關(guān)處理。 2) 本體映射問題本質(zhì)上是一個二元分類問題,可以借助于機(jī)器學(xué)習(xí)的方法提高本體映射的質(zhì)量。 3) 利用聚類算法將本體分塊,從而將大規(guī)模本體映射任務(wù)劃分成若干個子任務(wù),有效地解決了大規(guī)模本體映射的挑戰(zhàn)。

        本體映射; 自然語言處理; 機(jī)器學(xué)習(xí); 聚類

        Class Number TP399

        1 引言

        信息和通信技術(shù)的快速發(fā)展導(dǎo)致越來越多的異構(gòu)信息充斥著互聯(lián)網(wǎng),面對信息的海洋,如何組織、管理、維護(hù)、共享這些分布異構(gòu)的信息顯得越來越困難。本體作為一種能在語義和知識層次上描述信息系統(tǒng)的概念模型建模工具[1],已經(jīng)廣泛應(yīng)用于語義信息集成、數(shù)據(jù)交換、Web服務(wù)自動組合等領(lǐng)域,被認(rèn)為是異構(gòu)信息集成的基礎(chǔ)。然而由于Web本身的分布性和自發(fā)性,不同的領(lǐng)域甚至是同一領(lǐng)域的不同組織,必然會定義不同的本體,這時本體自身就是異構(gòu)的。因此,為了實(shí)現(xiàn)語義信息共享,首先必須建立異構(gòu)本體中元素(概念、關(guān)系、實(shí)例等)之間的映射關(guān)系,這個過程稱之為本體映射[2]。

        目前,本體映射已經(jīng)成為了語義Web中的研究熱點(diǎn),相關(guān)領(lǐng)域研究者進(jìn)行了大量研究,提出了很多方法,概括起來可以分為:基于相似度的方法[3]、基于機(jī)器學(xué)習(xí)的方法[4]、基于邏輯推理的方法[5]以及基于背景知識的方法[6]。本體映射的綜述請參見文獻(xiàn)[7~8]。

        人工智能是研究理解和模擬人類智能、智能行為及其規(guī)律的一門學(xué)科[9],因此可以利用人類進(jìn)行本體映射的思想,為自動本體映射服務(wù)。本文將從以下三個方面說明人工智能在本體映射中的應(yīng)用。

        1) 基于自然語言處理的本體元素文本預(yù)處理;

        2) 基于分類的本體映射方法;

        3) 基于聚類的大規(guī)模本體映射。

        2 本體及本體映射

        為了便于表述,本節(jié)將有關(guān)術(shù)語定義如下。

        1) 本體

        本體的形式化定義有很多,但都離不開幾個關(guān)鍵的概念,即類、屬性、關(guān)系、實(shí)例以及公理,可形式化為

        O={C,P,R,I,Ao}

        其中,C為類集合,P為屬性集合,R為關(guān)系集合,I為實(shí)例集合,Ao為公理的集合。為便于表述,本文將本體中的類和屬性統(tǒng)稱為元素。

        2) 本體映射

        給定兩個本體O1和O2,本體映射就是建立這兩個異構(gòu)本體的元素之間的語義關(guān)系,如圖1所示。在這個過程中,還有一些可選的輸入,例如已有的映射結(jié)果、外部資源、參數(shù)等。

        圖1 本體映射過程

        本體映射的輸出是一系列匹配元素對的集合,其中每一項(xiàng)為一個四元組:

        M=〈e,e′,r,n〉

        其中e和e′分別為O1和O2中的元素,r表示e和e′之間的語義關(guān)系(等價、包含等),n為e與e′之間關(guān)系r的置信度,通常取值為[0,1]。同大多數(shù)研究一樣,本文只考慮一對一的等價映射。

        3 基于自然語言處理的本體元素文本預(yù)處理

        在基于相似度的本體映射方法中,最重要的一類就是利用本體元素的文本特征計(jì)算相似度,從而得到映射。本體元素的文本特征包括id、label、comment以及其他描述性信息。提取出兩個本體對應(yīng)元素的文本特征后,如果直接對這些文本進(jìn)行相似度計(jì)算,則可能準(zhǔn)確度不高,因此一般會對文本進(jìn)行一些預(yù)處理,包括:

        1) 托肯化。利用空格、下劃線、“駝峰式拼寫法”等特征,將字符串劃分成托肯集,例如,對“programCommittee”進(jìn)行托肯化后得到單詞集{“program”,“Committee”}。

        2) 正規(guī)化。消除大小寫、拼寫等文本風(fēng)格上的差異,形成統(tǒng)一規(guī)范。

        3) 提取詞干。語法上單詞存在各種變形,例如名詞復(fù)數(shù)、動詞的過去分詞等??梢岳煤芏喾椒?例如Porter stemming算法)提取單詞的詞干。例如“matched”和“matching”提取詞干后都為“match”。

        4) 去除停用詞。有很多單詞是非常常見的,對于整個文本的含義不起關(guān)鍵作用的,可以去除。例如“has”、“the”等。

        5) 同義詞擴(kuò)展。利用WordNet獲取單詞的同義詞,進(jìn)行補(bǔ)充。例如“contribution”與“paper”。

        文獻(xiàn)[10]對本體映射常用的文本預(yù)處理策略進(jìn)行了大量的實(shí)驗(yàn)對比,發(fā)現(xiàn)常用的預(yù)處理策略并沒有較大程度上提高本體映射的質(zhì)量。并且不難猜想,預(yù)處理策略消耗了更多時間,例如查詢WordNet數(shù)據(jù)庫會消耗較長時間。因此,這些預(yù)處理策略應(yīng)根據(jù)實(shí)際應(yīng)用情況進(jìn)行合理選取。

        4 基于分類的本體映射方法

        本體映射的過程,實(shí)質(zhì)上就是遍歷兩個本體的元素,然后判斷兩個元素是否存在語義聯(lián)系,即“等價(+1)”或者“不等價(-1)”。因此,本體映射問題可以轉(zhuǎn)換為一個二元分類問題:

        m(e,e′,r)→{+1,-1}

        其中,e和e′分別為O1和O2中的元素,r為e和e′之間的語義關(guān)系,此處為“等價”。因此,運(yùn)用機(jī)器學(xué)習(xí)的方法,利用已有的本體映射結(jié)果訓(xùn)練一個本體映射分類器,當(dāng)面臨新的未知的本體映射任務(wù)時,可以很簡單地對本體映射的結(jié)果進(jìn)行分類,如圖2所示。

        需要說明的幾點(diǎn)是:

        1) 訓(xùn)練集的獲取。一種是采用專家驗(yàn)證的方法,此過程需要消耗較長時間,并且準(zhǔn)確度達(dá)不到100%。另外一種是利用公開的數(shù)據(jù)集,例如每年的OAEI本體映射競賽都提供了很多公開的、已知結(jié)果的本體映射數(shù)據(jù)集。但是,很多數(shù)據(jù)集都是關(guān)于某一領(lǐng)域的,利用一個領(lǐng)域的數(shù)據(jù)集訓(xùn)練的分類器,是否在另外一個領(lǐng)域的本體映射任務(wù)上達(dá)到很高的分類效果,值得進(jìn)一步研究。

        2) 特征的提取??梢蕴崛『芏啾倔w自身的特征,例如托肯比率、是否都為葉子節(jié)點(diǎn)等等;也可以直接利用各種相似度計(jì)算方法(matcher),例如編輯距離等。有興趣的讀者請參見文獻(xiàn)[11],該研究利用了相似度特征、本體特征、文本特征、結(jié)構(gòu)特征,最后對這些特征進(jìn)行了對比實(shí)驗(yàn),并指出相似度值對于分類效果有反作用。

        圖2 基于分類的本體映射方法

        3) 分類器的選擇?;旧蠞M足二元分類要求的分類器都可以使用,文獻(xiàn)[12]通過實(shí)驗(yàn)對比了SVM、KNN、DT、AdaBoost等分類器,發(fā)現(xiàn)效果相當(dāng)。

        5 基于聚類的大規(guī)模本體映射

        隨著本體應(yīng)用的越來越廣泛,本體的規(guī)模越來越大,并且往往涉及多個領(lǐng)域,逐漸向通用本體發(fā)展。例如AGROVOC本體[13]包含28439個概念,涉及農(nóng)業(yè)、森林、漁業(yè)、食品、環(huán)境等多個領(lǐng)域。

        基于相似度的本體映射方法是目前最普遍的方法,在映射過程中對兩個本體的每一對元素對進(jìn)行考慮,當(dāng)面臨大規(guī)模的本體映射任務(wù)時,不僅會消耗大量的時間,占用大量的內(nèi)存,并且映射的質(zhì)量也會有所影響。因此,大規(guī)模本體映射是目前本體映射研究的一個挑戰(zhàn)[7]。

        基于聚類的大規(guī)模本體映射采用了“分治法”的思想,如圖3所示,其基本過程為:首先將本體轉(zhuǎn)換成有向無環(huán)圖,然后給出本體內(nèi)元素間相似度計(jì)算公式,并以此為基礎(chǔ)構(gòu)造簇內(nèi)凝聚度和簇間耦合度的計(jì)算方法,然后利用層次聚類方法(包括凝聚的層次聚類方法和分裂的層次聚類方法)將本體劃分成若干個大小合適的塊,并利用特定的方法找出兩個本體之間相似的塊,最后對這些塊對進(jìn)行通用的本體映射。

        圖3 基于聚類的大規(guī)模本體映射方法

        文獻(xiàn)[14]利用了改進(jìn)的ROCK聚類算法,基于結(jié)點(diǎn)的結(jié)構(gòu)相似度將本體的元素分成若干個塊,然而不是直接對相似的塊進(jìn)行映射,而是利用“RDF語句”重構(gòu)RDF片段,然后進(jìn)行映射,有效地解決了“空白結(jié)點(diǎn)”的問題。文獻(xiàn)[15]利用了AHSCAN聚類算法,它是一種社會網(wǎng)絡(luò)結(jié)點(diǎn)聚類算法,主要利用了結(jié)點(diǎn)之間的聯(lián)系,算法達(dá)到了O(n)的時間復(fù)雜度。

        基于聚類的分塊思想,有效地解決了大規(guī)模本體映射的難題,但是劃分使得本體元素間的語義關(guān)系被強(qiáng)行地分割開來,映射結(jié)果的質(zhì)量必然會有所影響,如何消除這些影響有待進(jìn)一步研究。

        6 相關(guān)研究

        本體映射相關(guān)綜述參見文獻(xiàn)[7~8]。根據(jù)研究策略的不同,可以將本體映射相關(guān)研究分為基于相似度計(jì)算的方法、基于機(jī)器學(xué)習(xí)的方法、基于背景知識的方法和基于邏輯推理的方法。

        6.1 基于相似度計(jì)算的本體映射

        基于相似度計(jì)算的本體映射方法的基本思想是:本體O1和O2之間的映射發(fā)現(xiàn)問題可以分解為:對于O1中的每一個元素e,搜索其在O2中最相似的元素e′。根據(jù)使用特征的不同,又可以分為基于語言的策略、基于結(jié)構(gòu)的策略、基于實(shí)例的策略。

        基于語言的策略利用元素(及其鄰近元素)的描述性信息計(jì)算兩個對應(yīng)元素的相似度,例如文獻(xiàn)[16]提出了“虛擬文檔”的概念,實(shí)際上就是一系列帶加權(quán)的托肯集,然后利用TF/IDF以及向量空間模型計(jì)算文檔間相似度。

        基于結(jié)構(gòu)的策略利用利用本體內(nèi)元素之間的聯(lián)系,計(jì)算兩個對應(yīng)元素的相似度。例如similarity flooding算法[17]是一種通用的圖匹配算法,通過建立相似度傳播圖,在每次迭代過程中,每對結(jié)點(diǎn)的相似度都將一部分傳遞給其鄰近的結(jié)點(diǎn)對,當(dāng)達(dá)到穩(wěn)定的狀態(tài)或最大迭代次數(shù)后,停止迭代,并獲得相似度。

        基于實(shí)例的策略的基本思想是,如果兩個對應(yīng)元素共有的實(shí)例越多,則它們越相似。這里共有的實(shí)例不一定完全相等,也可以是滿足一定相似度條件下的實(shí)例。文獻(xiàn)[18]分析了五種不同的實(shí)例相似度計(jì)算方法,并做了大量實(shí)驗(yàn)對比,最后發(fā)現(xiàn)Jaccard方法效果最好。

        6.2 基于機(jī)器學(xué)習(xí)的方法

        基于機(jī)器學(xué)習(xí)的本體映射方法將映射問題轉(zhuǎn)換成分類問題,為某個元素選擇最優(yōu)映射的問題就轉(zhuǎn)換成對其進(jìn)行分類的問題。通常利用已知映射結(jié)果的數(shù)據(jù)集訓(xùn)練分類器,當(dāng)面臨新的映射任務(wù)時,對每對元素是否匹配進(jìn)行預(yù)測。

        GLUE[4]系統(tǒng)通過學(xué)習(xí)實(shí)例的聯(lián)合概率分布發(fā)現(xiàn)映射關(guān)系,文獻(xiàn)[19]利用各種相似度學(xué)習(xí)映射過程,并建立實(shí)例間的映射關(guān)系(本體映射的一種),文獻(xiàn)[20]通過機(jī)器學(xué)習(xí)的方法解決了多語言和不同語言間本體映射的問題。文獻(xiàn)[21]還研究了跨領(lǐng)域?qū)W習(xí)和分類的效果。

        6.3 基于背景知識的方法

        基于背景知識的方法利用其他的、通用的或領(lǐng)域內(nèi)的知識,發(fā)現(xiàn)映射關(guān)系。例如利用上層通用本體,這些本體逐漸成為了領(lǐng)域的標(biāo)準(zhǔn),比如Gene本體、UMLS本體等。

        文獻(xiàn)[6]利用Google搜索引擎模擬元素之間的相似度,并建立映射關(guān)系。文獻(xiàn)[22]利用DBpedia發(fā)現(xiàn)模式映射。

        6.4 基于邏輯推理的方法

        基于邏輯推理的方法往往作為一種輔助方法,事先定義好一系列規(guī)則,在得到初步映射之后,對映射結(jié)果進(jìn)行邏輯推理,如果發(fā)現(xiàn)矛盾,則給出相應(yīng)的解決方案,從而提高映射結(jié)果的質(zhì)量。

        文獻(xiàn)[23]基于描述邏輯公式發(fā)現(xiàn)映射中的不一致性,并自動刪除錯誤的映射,并且該文章作者還開發(fā)了基于邏輯推理的開源API[24]。文獻(xiàn)[5]不僅能夠發(fā)現(xiàn)矛盾,并且能夠驗(yàn)證正確的映射。

        7 結(jié)語

        在當(dāng)前信息要求高度共享的條件下,異構(gòu)信息集成顯得越來越重要,在語義Web環(huán)境下,本體映射被認(rèn)為是解決語義異構(gòu)問題的關(guān)鍵。人工的建立映射耗時而且容易出錯,因此,人工智能思想必然可以為本體映射服務(wù)。本文首先介紹了本體及本體映射相關(guān)定義,然后從三個方面詳細(xì)說明了人工智能思想在本體映射中的應(yīng)用,同時也給出了下一步研究方向,最后對本體映射相關(guān)研究進(jìn)行了綜述。

        [1] 鄧志鴻,唐世渭,張銘,等.Ontology研究綜述[J].北京大學(xué)學(xué)報(自然科學(xué)版),2002,38(5):730-738.

        [2] 仲茜,李涓子,唐杰,等.基于數(shù)據(jù)場的大規(guī)模本體映射[J].計(jì)算機(jī)學(xué)報,2010,33(6):955-965.

        [3] 蔣湛,姚曉明,林蘭芬.基于特征自適應(yīng)的本體映射方法[J].浙江大學(xué)學(xué)報(工學(xué)版),2014,48(1):76-84.

        [4] Doan A H, Madhavan J, Dhamankar R, et al. Learning to match ontologies on the semantic web[J]. The VLDB Journal—The International Journal on Very Large Data Bases,2003,12(4):303-319.

        [5] Jean-Mary Y R, Shironoshita E P, Kabuka M R. Ontology matching with semantic verification[J]. Web Semantics: Science, Services and Agents on the World Wide Web,2009,7(3):235-251.

        [6] Gligorov R, ten Kate W, Aleksovski Z, et al. Using Google distance to weight approximate ontology matches[C]//Proceedings of the 16th international conference on World Wide Web. ACM,2007:767-776.

        [7] Shvaiko P, Euzenat J. Ontology matching: state of the art and future challenges[J]. IEEE Transactions on Knowledge and Data Engineering,2013,25(1):158-176.

        [8] Shvaiko P, Euzenat J. A survey of schema-based matching approaches[C]//Journal on Data Semantics IV. Berlin: Springer Heidelberg,2005:146-171.

        [9] 賁可榮,張彥鐸.人工智能[M].第2版.北京:清華大學(xué)出版社,2013.

        [10] Cheatham M, Hitzler P. String similarity metrics for ontology alignment[C]//The Semantic Web-ISWC 2013. Berlin: Springer Heidelberg,2013:294-309.

        [11] Eckert K, Meilicke C, Stuckenschmidt H. Improving ontology matching using meta-level learning[M]. Semantic Web: Research and Applications. Heidelbery: Springer,2009:158-172.

        [12] Nezhadi A H, Shadgar B, Osareh A. Ontology alignment using machine learning techniques[J]. International Journal of Computer Science & Information Technology,2011,3(2):139-150.

        [13] http://www.fao.org/aims/ag_intro.htm[EB/OL].

        [14] Hu W, Qu Y, Cheng G. Matching large ontologies: A divide-and-conquer approach[J]. Data & Knowledge Engineering,2008,67(1):140-160.

        [15] Algergawy A, Massmann S, Rahm E. A clustering-based approach for large-scale ontology matching[C]//Advances in Databases and Information Systems. Springer Berlin Heidelberg,2011:415-428.

        [16] Qu Y, Hu W, Cheng G. Constructing virtual documents for ontology matching[C]//Proceedings of the 15th international conference on World Wide Web. ACM,2006:23-31.

        [17] Melnik S, Garcia-Molina H, Rahm E. Similarity flooding: A versatile graph matching algorithm and its application to schema matching[C]//Data Engineering, 2002. Proceedings. 18th International Conference on. IEEE,2002:117-128.

        [18] Isaac A, van der Meij L, Schlobach S, et al. An Empirical Study of Instance-Based Ontology Matching[J]. The Semantic Web,2008:253-266.

        [19] Rong S, Niu X, Xiang E W, et al. A machine learning approach for instance matching based on similarity metrics[C]//The Semantic Web-ISWC 2012. Springer Berlin Heidelberg,2012:460-475.

        [20] Spohr D, Hollink L, Cimiano P. A machine learning approach to multilingual and cross-lingual ontology matching[C]//The Semantic Web-ISWC 2011. Springer Berlin Heidelberg,2011:665-680.

        [21] Mao M, Peng Y, Spring M. Ontology mapping: as a binary classification problem[J]. Concurrency and Computation: Practice and Experience,2011,23(9):1010-1025.

        [22] Gillani S, Naeem M, Habibullah R, et al. Semantic Schema Matching Using DBpedia[J]. International Journal of Intelligent Systems and Applications(IJISA),2013,5(4):72-80.

        [23] Meilicke C, Stuckenschmidt H, Tamilin A. Repairing ontology mappings[C]//Proceedings of the 22nd national conference on Artificial intelligence-Volume 2. AAAI Press,2007:1408-1413.

        [24] Meilicke C. Alignment incoherence in ontology matching[D]. Mannbeim: University Mannheim,2011.

        Application of Artificial Intelligence in Ontology Matching

        MIAO Yongchang

        (No. 92349 Troops of PLA, Zibo 255178)

        Ontology matching is considered as the key to heterogeneous information integration, and researchers have proposed many approaches of ontology matching. This paper mainly illustrates the application of the artificial intelligence idea in the ontology matching process from three aspects. First, the elements text based similarity computing approach often process of related text with the help of natural language processing technology. Second, the nature of ontology matching problem is one of the binary classification problems, which can use machine learning methods to improve the quality of ontology matching. Third, the ontology partition method based on clustering algorithm, which divides a large-scale ontology matching task into several sub-tasks, effectively solves the problem of large-scale ontology matching challenge.

        ontology matching, nature language processing, machine learning, clustering

        2015年1月11日,

        2015年2月13日 作者簡介:苗永昌,男,工程師,研究方向:信息保障等。

        TP399

        10.3969/j.issn1672-9730.2015.07.019

        猜你喜歡
        異構(gòu)實(shí)例本體
        Abstracts and Key Words
        試論同課異構(gòu)之“同”與“異”
        對姜夔自度曲音樂本體的現(xiàn)代解讀
        overlay SDN實(shí)現(xiàn)異構(gòu)兼容的關(guān)鍵技術(shù)
        LTE異構(gòu)網(wǎng)技術(shù)與組網(wǎng)研究
        《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
        在新興異構(gòu)SoCs上集成多種系統(tǒng)
        完形填空Ⅱ
        完形填空Ⅰ
        Care about the virtue moral education
        卷宗(2013年6期)2013-10-21 21:07:52
        人妻丰满熟妇av一区二区| 国产成人精品无码一区二区老年人 | 中文字幕国产亚洲一区| 亚洲国产成人精品无码区在线秒播| 欧美熟妇色ⅹxxx欧美妇| 亚洲欧美另类精品久久久| 国产精品午夜福利天堂| 白嫩人妻少妇偷人精品| 人妻激情另类乱人伦人妻| 91国视频| 日本精品一区二区三区在线播放| 娇妻粗大高潮白浆| 日本精品中文字幕人妻| 亚洲av无码专区在线| 色翁荡息又大又硬又粗又视频图片| 就国产av一区二区三区天堂| 丰满人妻被公侵犯的视频| 日韩视频在线观看| 真实国产乱啪福利露脸| 亚洲精品国产二区三区在线| 日韩一级精品视频免费在线看| 欧美乱大交xxxxx潮喷| 又爽又黄禁片视频1000免费| 一区二区三区不卡免费av| 亚洲网站一区在线播放| 欧美又大又色又爽aaaa片| 精品视频入口| 国产精品高清一区二区三区人妖| 日本强伦姧人妻一区二区| 99精品免费久久久久久久久日本| 亚洲乱码少妇中文字幕| 日本中文字幕乱码中文乱码| 亚洲精品无码高潮喷水a片软| 亚洲视频在线看| 久久99精品免费国产| 亚洲丁香婷婷久久一区二区| 131美女爱做视频| 无码三级国产三级在线电影| 久久99热只有频精品8国语| 亚洲人成无码网站在线观看| 97在线视频免费|