亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于英、維匹配技術(shù)的跨語言領(lǐng)域本體構(gòu)建方法研究

        2018-07-05 04:32:36庫都來提阿布都熱合曼哈妮克孜伊拉洪艾斯卡爾艾木都拉新疆大學(xué)新疆烏魯木齊830046
        計算機(jī)應(yīng)用與軟件 2018年6期
        關(guān)鍵詞:概念研究

        庫都來提·阿布都熱合曼 哈妮克孜·伊拉洪 艾斯卡爾·艾木都拉(新疆大學(xué) 新疆 烏魯木齊 830046)

        0 引 言

        本體在信息科學(xué)領(lǐng)域和人工智能領(lǐng)域中的作用越來越顯著。本體是共享概念模型的形式化規(guī)范說明[1]。本體用來研究領(lǐng)域或更廣范圍的知識對象、分類和屬性以及它們之間的關(guān)系,從而描述領(lǐng)域知識,本體中的所有的概念的定義必須明確且無歧義[2]。作為專業(yè)性較強(qiáng)的領(lǐng)域本體,其描述的是特定領(lǐng)域中的概念和概念之間的關(guān)系。在本體構(gòu)建方面,國內(nèi)外的文獻(xiàn)中出現(xiàn)了一些較成熟的方法。文獻(xiàn)[3]提出TOVE法是先建立本體的非形式化描述 后將這種描述形式化。文獻(xiàn)[4]提出 METHONTOLOGY方法支持在知識的層次上完成本體構(gòu)建。國內(nèi)用的較多的本體構(gòu)建方法是基于虛詞表的方法,如唐愛民[5]提出了一種基于敘詞表構(gòu)建領(lǐng)域本體原型的方法。李景[6]提出的大規(guī)模本體開發(fā)環(huán)境原型系統(tǒng)(LODE)以農(nóng)業(yè)敘詞表為中心知識庫基礎(chǔ)。

        而維吾爾語中本體的研究相對于英語和中文開始的比較晚,領(lǐng)域本體構(gòu)建方法的研究也相對較少[7]。朱昊天等[8]提出基于跨語言本體轉(zhuǎn)換的維吾爾語輿情本體。因此,本文的研究目的是通過提出一種新的維吾爾語領(lǐng)域本體構(gòu)建方法來豐富維吾爾語中本體的研究及應(yīng)用。

        1 概念及重用本體集合

        1.1 基本概念

        本文在領(lǐng)域本體構(gòu)建過程中主要基于概念、關(guān)系以及實例層次的構(gòu)建?;驹乜梢杂霉奖硎綶9]:

        O=〈C,R,A,I〉

        (1)

        式中:O表示本體,C表示概念或者類的集合,R表示關(guān)系集合,I表示實例的集合。概念Concept或者類Classes在本體中意思相同,可以通用。

        (1) 概念和類用來描述知識。任何知識都能夠用概念具體化。一個本體通常由多個概念組成,形成概念集合。

        (2) 關(guān)系Ralations用來定義概念之間的聯(lián)系。關(guān)系分為等級關(guān)系和非等級關(guān)系。表1是幾種常見的基本關(guān)系。

        表1 本體中基本關(guān)系

        (3) 公理Axioms。無需證明的不隨時間變化而發(fā)生結(jié)論變化的概念、關(guān)系之間的關(guān)系描述。公理是構(gòu)建本體模型的基礎(chǔ)。

        (4) 實例Instances是抽象類的具體實物。實例和類的區(qū)別并不明顯。在構(gòu)建本體層次模型時,最底層的抽象類充當(dāng)實例的角色。當(dāng)對最底層的抽象類進(jìn)一步細(xì)分時,實例充當(dāng)類的角色。實例的角色有新的最底層類充當(dāng)。類和實例的角色是可以互換的。

        (5) 三元組是一種信息的表達(dá)方式。一個三元組可表示為T={A,R,B}。在本研究中,A和B可以理解為兩個不同的概念或?qū)嵗?,R同式(1)。

        1.2 重用本體集合

        概念在多語種環(huán)境下所表達(dá)的內(nèi)涵是一致的[10]。司莉等[11]在論文中實驗驗證了跨語言本體技術(shù)在研究信息檢索模型領(lǐng)域中的作用。因此在本文中,使用本體研究技術(shù)較成熟的英語領(lǐng)域本體進(jìn)行重用來彌補(bǔ)維吾爾語中本體構(gòu)建研究的不足。本研究所選擇的領(lǐng)域為旅游領(lǐng)域,通過互聯(lián)網(wǎng)等途徑,收集構(gòu)建維吾爾語領(lǐng)域本體所使用的英文領(lǐng)域本體集合EO。EO的公式如下:

        EO={EO1,EO2,…,EOi,…,EOn}

        (2)

        每一個選擇本體EOi都表示旅游領(lǐng)域中的部分知識庫。其中需包含式(1)中所包含的概念、關(guān)系、實例,同時都體現(xiàn)旅游領(lǐng)域知識。本研究充分利用每一個選擇的本體所體現(xiàn)的領(lǐng)域知識,將其中所包含的領(lǐng)域知識結(jié)合并進(jìn)行處理。

        2 領(lǐng)域本體構(gòu)建模型

        2.1 領(lǐng)域本體構(gòu)建模型

        構(gòu)建維吾爾語領(lǐng)域本體的過程中,將該方法的實現(xiàn)分階段進(jìn)行。因此,構(gòu)造出領(lǐng)域本體構(gòu)建模型如圖1所示。

        圖1 領(lǐng)域本體構(gòu)建模型

        領(lǐng)域本體自動構(gòu)建主要按圖1模型進(jìn)行,主要分為三個步驟。

        首先是收集領(lǐng)域本體,收集的本體必須包含所研究領(lǐng)域的知識。以三元組為單位,使用Apache Jena開源工程自動提取本體集合中的三元組[12]。

        其次對提取到的三元組進(jìn)行維吾爾語三元組匹配和整理操作。

        最后基于處理后的維吾爾語三元組庫進(jìn)行領(lǐng)域本體的實現(xiàn)。完成領(lǐng)域本體的構(gòu)建后,對構(gòu)建的領(lǐng)域本體進(jìn)行評價并完善。

        2.2 領(lǐng)域本體的收集

        研究中在Protege Ontology Library[13]與Swoogle[14]等互聯(lián)網(wǎng)途徑收集了3種不同的英語旅游本體。它們分別是:ETP-tourism.owl、Travel-ontology-ontologies.owl與TravelOntology.owl。雖然這些本體知識庫都代表英語旅游領(lǐng)域種的知識,但是這些本體的領(lǐng)域側(cè)重點也有所差異。如ETP-tourism.owl中類個數(shù)較多,而TravelOntology.owl中對象屬性和實例個數(shù)較多。因此,通過對這些本體重用來構(gòu)建的維吾爾語領(lǐng)域本體結(jié)構(gòu)有所區(qū)別并規(guī)模也會較大,因此需要進(jìn)一步處理并完善。

        2.3 提取三元組集合及數(shù)據(jù)處理

        2.3.1 Apache Jena

        Apache Jena是目前已經(jīng)被廣泛運用于語義網(wǎng)應(yīng)用[10]。Jena提供以下6個功能:

        (1) 以XML、N-triples和Turtle格式讀入、處理、存儲RDF數(shù)據(jù)的API。

        (2) 處理OWL和RDFS本體的API[15]。

        (3) 基于規(guī)則的推理引擎,用于推薦RDF和OWL數(shù)據(jù)。

        (4) 高效存儲大規(guī)模RDF三元組到硬盤的功能。

        (5) 基于三元組SPARQL的查詢服務(wù)。

        (6) 將RDF數(shù)據(jù)發(fā)布到其他應(yīng)用程序的功能。

        利用Jena提供的API能夠訪問RDF三元組。該研究的算法實現(xiàn)部分就利用Jena這一優(yōu)勢,對在三元組層面上對其進(jìn)行研究。而且構(gòu)建的實驗平臺可移植性高,可以運用到其他系統(tǒng)平臺或其他領(lǐng)域。

        2.3.2 構(gòu)建三元組庫ET

        關(guān)系在領(lǐng)域本體中的重要性毋庸置疑,也是在本體構(gòu)建過程中難度最大的[16]。在領(lǐng)域本體構(gòu)建過程中,如果只收集領(lǐng)域知識中的概念,仍然無法知道這些概念之間的關(guān)聯(lián)關(guān)系,也無法更好地表示該領(lǐng)域知識。如表2所示,在三元組庫中主要有2種關(guān)系,等級關(guān)系與非等級關(guān)系。等級關(guān)系比較單一,表示包含與被包含關(guān)系。在本研究中使用概念和屬性的等級關(guān)系。而非等級關(guān)系比較復(fù)雜,非等級關(guān)系是指除了等級關(guān)系之外的其他所有領(lǐng)域概念之間的關(guān)系。本研究主要選擇3種非等級關(guān)系。

        表2 三元組分類表

        確定要提取的三元組形式之后,使用已收集的領(lǐng)域本體集合進(jìn)行三元組自動提取并構(gòu)建英語領(lǐng)域本體三元組庫ET。表3是集合ET種概念等級關(guān)系的部分顯示。構(gòu)建的領(lǐng)域本體集合需保存三元組的來源與三元組本身,這樣便于最后的結(jié)果分析。

        表3 英語概念等級關(guān)系三元組庫ET

        2.3.3 元素匹配

        在構(gòu)建英文三元組庫ET之后,對該集合的每一個三元組中的每一個元素進(jìn)行維漢匹配。其中,在對英語本體三元組進(jìn)行維吾爾語元素匹配過程中,需使用英語、維吾爾語詞匯庫。將英文三元組通過匹配轉(zhuǎn)換成維吾爾語三元組并構(gòu)建維吾爾語三元組庫UT,此庫中包含的三元組類型與ET中相似。需要說明的是,為了使用Protégé 5.0工具驗證構(gòu)建的領(lǐng)域本體的語法規(guī)則,在對維吾爾語三元組庫中概念和屬性的等級關(guān)系三元組在匹配時,只對概念詞進(jìn)行匹配,對關(guān)系詞不需要匹配。但是,對非等級關(guān)系進(jìn)行匹配時不僅對概念詞進(jìn)行匹配,同時也對關(guān)系詞進(jìn)行匹配。圖2是元素匹配中等級關(guān)系匹配過程。C1與C2是英文概念,且C1是C2的子集。子集關(guān)系在Protégé 5.0工具中用Subclass_of來表達(dá)。C1通過利用英語、維吾爾語詞匯庫匹配來獲取概念C1對應(yīng)的維吾爾語概念UyC1,同理獲取概念C2對應(yīng)的UyC2。完成匹配之后將匹配后的三元組放入到UTi中。

        圖2 三元組等級關(guān)系匹配

        3 基于三元組的本體構(gòu)建

        3.1 領(lǐng)域本體構(gòu)建模型

        本研究選擇的領(lǐng)域是旅游領(lǐng)域,因此在本研究中使用的重用本體均表示旅游領(lǐng)域知識。它們的規(guī)模較小,所表示的領(lǐng)域知識不能完全涵蓋這個領(lǐng)域。其中大部分都是該領(lǐng)域較頂端的領(lǐng)域知識。因此重用的本體出現(xiàn)了領(lǐng)域知識部分重疊等現(xiàn)象。表4為構(gòu)建的部分維吾爾語三元組庫。

        表4 維吾爾語概念等級關(guān)系三元組庫UT

        可以發(fā)現(xiàn),這些重疊的部分在三元組集合中的表現(xiàn)為:一些三元組會重復(fù)的出現(xiàn)。因此,需對三元組集合UT進(jìn)行進(jìn)一步處理。具體方法是:將重復(fù)出現(xiàn)的三元組關(guān)系刪除,并將不符合維吾爾語語言規(guī)則的三元組進(jìn)行修改或刪除,提高三元組集合的精準(zhǔn)度最終得到三元組集合UT*如表5所示。

        表5 維吾爾語概念等級關(guān)系三元組庫UT

        3.2 構(gòu)建維吾爾語領(lǐng)域本體

        為了創(chuàng)建維吾爾語旅游領(lǐng)域本體UyTravelOntology,需使用處理過的三元組集合UT*,基于相同關(guān)系類型的三元組逐步擴(kuò)充領(lǐng)域本體。其中概念詞或?qū)傩栽~為節(jié)點,關(guān)系為連接關(guān)系構(gòu)建維吾爾語領(lǐng)域本體。如圖3所示,將表示相同概念的節(jié)點相互連接,最終實現(xiàn)規(guī)模較大的領(lǐng)域本體。

        圖3 維吾爾語本體構(gòu)建過程

        3.3 構(gòu)建維吾爾語領(lǐng)域本體

        在完成維吾爾語領(lǐng)域本體之后,通過Protégé 5.0工具對所構(gòu)建的領(lǐng)域本體進(jìn)行及基本語法驗證[17]。圖4為維吾爾語領(lǐng)域本在Protégé 5.0工具中的部分圖的顯示。從圖中可以看出,構(gòu)建的維吾爾語領(lǐng)域本體通過了Protégé 5.0工具的語法檢測。之后再對構(gòu)建的領(lǐng)域本體進(jìn)行數(shù)據(jù)統(tǒng)計如表6所示。從表6中可以看出,構(gòu)建的領(lǐng)域本體類、對象屬性、數(shù)據(jù)屬性與實例的總數(shù)為506大于任何一個收集的英語領(lǐng)域本體的總數(shù)。說明不僅完成了領(lǐng)域本體構(gòu)建工作,同時也擴(kuò)大了領(lǐng)域本體。此外,收集的領(lǐng)域本體中類總數(shù)為318,而構(gòu)建的領(lǐng)域本體中類個數(shù)為278,說明領(lǐng)域本體中出現(xiàn)了重復(fù)的類節(jié)點。

        圖4 維吾爾語領(lǐng)域本體

        表6 領(lǐng)域本體構(gòu)建結(jié)果對照表

        4 結(jié) 語

        本文通過英文本體重用的方法來構(gòu)建了維吾爾語領(lǐng)域本體,并提出了基于跨語言本體重用的維語本體構(gòu)建方法,擴(kuò)充了維文本體構(gòu)建領(lǐng)域,實現(xiàn)了對重用的本體三元組提取。使用Jena開源工程搭建了領(lǐng)域本體構(gòu)建平臺,并證明了該平臺的可用性和高效性。在接下來的研究中,主要是完善理論知識和領(lǐng)域本體構(gòu)建的模型框架。通過擴(kuò)充重用的本體集合,進(jìn)一步研究提高所構(gòu)建領(lǐng)域本體的規(guī)模。

        [1] Studer R, Benjamins V R, Fensel D. Knowledge engineering: principles and methods[J]. Data & Knowledge Engineering, 1998, 25(1- 2):161- 197.

        [2] Trinkunas J, Vasilecas O. Building ontologies from relational databases using reverse engineering methods[C]// International Conference on Computer Systems and Technologies. ACM, 2007:13.

        [3] Tham K D, Fox M S, Gruninger M. A cost ontology for enterprise modelling[C]// The Workshop on Enabling Technologies: Infrastructure for Collaborative Enterprises. IEEE, 1994:197- 210.

        [4] Fernández-López M, Gómez-Pérez A, Juristo N. METHONTOLOGY: from ontological art towards ontological engineering[C]// Proceedings of the Ontological Engineering AAAI-97 Spring Symposium Series. 1997.

        [5] 唐愛民, 真溱, 樊靜. 基于敘詞表的領(lǐng)域本體構(gòu)建研究[J]. 現(xiàn)代圖書情報技術(shù), 2005, 21(4):1- 5.

        [6] 李景.領(lǐng)域本體的構(gòu)建方法與應(yīng)用研究[D].北京:中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,2009.

        [7] Hankiz Y, Seyyare I, Askar H. A Mixed Method for Building the Uyghur and Chinese Domain Ontology[C]// China Conference on Knowledge Graph and Semantic Computing. Springer Singapore, 2016:124- 129.

        [8] 朱昊天. 基于跨語本體轉(zhuǎn)換的維吾爾文輿情本體構(gòu)建研究[D]. 新疆大學(xué), 2015.

        [9] Perez A G, Benjamins V R. Overview of Knowledge Sharing and Reuse Components: Ontologies and Problem-Solving Methods[C]//Proceedings of the 16th International Joint Conference on Artificial Intelligence (IJCAI’99) Workshop KRR5: Ontologies and Problem-Solving Methods: Lesson Learned and Future Trends.1999.

        [10] 吳丹, 王惠臨. 本體在跨語言信息檢索中的應(yīng)用機(jī)制研究[J]. 圖書情報工作, 2006, 50(9):10- 13.

        [11] 司莉, 陳雨雪, 曾粵亮. 基于多語言本體的中英跨語言信息檢索模型及實現(xiàn)[J]. 圖書情報工作, 2017,61(1):100- 108.

        [12] Benafia A, Mazouzi S, Benafia S. Building Ontologies from Text Corpora[C]// The International Conference on Engineering & Mis. ACM, 2015:28.

        [13] Search travel ontology [EB/OL]. [2017- 04- 05]. http://swoogle.umbc.edu/2006/.

        [14] Search tourism ontology [EB/OL]. [2017- 04- 05]. https://protegewiki.stanford.edu/wiki/Protege_Ontology_Library.

        [15] 向陽, 王敏, 馬強(qiáng). 基于Jena的本體構(gòu)建方法研究[J]. 計算機(jī)工程, 2007, 33(14):59- 61.

        [16] Kavalec M, Vojtech S V. A Study on Automated Relation Labelling in Ontology Learning[C]// Ontology Learning from Text: Methods, Evaluation and Applications. IOS. 2005:44- 58.

        [17] 李連倍, 劉勝全, 劉艷,等. 基于跨語本體重用的維語本體構(gòu)建方法[J]. 計算機(jī)工程與應(yīng)用, 2015, 51(11):104- 108.

        猜你喜歡
        概念研究
        FMS與YBT相關(guān)性的實證研究
        Birdie Cup Coffee豐盛里概念店
        2020年國內(nèi)翻譯研究述評
        遼代千人邑研究述論
        幾樣概念店
        視錯覺在平面設(shè)計中的應(yīng)用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        EMA伺服控制系統(tǒng)研究
        學(xué)習(xí)集合概念『四步走』
        聚焦集合的概念及應(yīng)用
        新版C-NCAP側(cè)面碰撞假人損傷研究
        无码av专区丝袜专区| 亚洲女同一区二区久久| 国产精品丝袜美女久久| 在线观看av网站永久| 麻豆精品久久久久久久99蜜桃 | 久久不见久久见免费影院国语| 亚洲碰碰人人av熟女天堂| 欧洲人体一区二区三区| 一本色道久久88加勒比综合| 亚洲va韩国va欧美va| 最近中文字幕完整版| 国产午夜精品久久久久| 野花视频在线观看免费| 国产精品vⅰdeoxxxx国产| 国产日韩网站| 亚洲区1区3区4区中文字幕码| 一本色道久久88—综合亚洲精品| 人妻少妇精品中文字幕av| 一本久道久久综合久久| 亚洲一区二区三区一区| 亚洲国产婷婷六月丁香| 亚洲精品无码成人片久久不卡| 日本高清不在线一区二区色| 亚洲白嫩少妇在线喷水| 亚洲乱亚洲乱妇无码麻豆| 久久99国产乱子伦精品免费| 久久视频在线视频精品| 亚洲中文字幕在线综合| 中文字幕有码在线亚洲| 疯狂做受xxxx国产| 精品推荐国产精品店| 中文字幕一区二区三区.| 中文字幕精品一区久久| 欧美艳星nikki激情办公室| 久久久久99精品成人片试看| 蜜桃视频在线免费观看完整版| 亚洲精品国产av成人精品| 国产美女自慰在线观看| 人妻有码中文字幕在线不卡| 少妇又骚又多水的视频| 免费在线黄色电影|