亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

藏文語義本體中的上下位關(guān)系模式匹配算法

2011-06-28 06:27:08邱莉榕趙小兵

中文信息學(xué)報 2011年4期

邱莉榕，翁彧，趙小兵

(1. 中央民族大學(xué) 信息工程學(xué)院,北京 100081;2. 國家語言資源監(jiān)測與研究中心少數(shù)民族分中心,北京 100081)

1 前言

藏文顯示技術(shù)、藏文編碼技術(shù)以及藏文輸入技術(shù)得到了較好的解決[1]。藏文信息處理在字處理、詞和短語處理方面已經(jīng)陸續(xù)取得了相對突破，句處理階段的攻關(guān)已經(jīng)開始。在句處理階段，句法知識、語義知識、語用知識的基礎(chǔ)理論研究是亟待解決的關(guān)鍵性問題。

詞典中定義的概念本身并沒有二義性，它能唯一地、準(zhǔn)確地指向現(xiàn)實世界中的實體或?qū)ο?。但在句處理中，句中的概念是由詞表示的。例如概念詞“木馬”在下面三個句子中至少可以表示三種概念：

(1) 木馬是一種玩具。

(2) 木馬是一種運動器械。

(3) 木馬是一種病毒。

因此所謂概念二義性，就是由于一個概念詞可以表示多個概念引起的。而藏語也會因為上下文語境的不同，其漢語有不同譯文：

同學(xué)們正在學(xué)習(xí)。

圣人的如釋迦牟尼。

語言文字本身存在的語義模糊性和歧義性增加了機器分析的難度。文字(對于計算機而言就是二進制數(shù)據(jù))僅僅是傳達語義的媒介，而語義的表達才是交流的核心和關(guān)鍵。

對具有某種知識水平的人來說，可以根據(jù)句子的語境理解概念要傳達的明確語義。例如：如果“木馬”同“計算機”“程序”等詞同時在文中出現(xiàn)的話，那么可以根據(jù)已有知識，得到此處的“木馬”應(yīng)該指“木馬”病毒的可能性最大。

知網(wǎng)(HowNet)的作者董振東先生提出“自然語言處理系統(tǒng)最終需要更強大的知識庫的支持”[2]。語義的核心是知識，語義本體就是共享概念模型顯示的形式化規(guī)范說明[3]，用于描述(特定領(lǐng)域的)知識。

我們可以創(chuàng)建計算機領(lǐng)域本體，如果這個領(lǐng)域本體中包含了“木馬、計算機、程序”等概念，并定義了這些概念之間的關(guān)系，那么計算機在使用這個本體的時候，就相當(dāng)于有了這些儲備知識。

藏語的語義本體的創(chuàng)建研究在以下問題解決上，具有突出意義：

(1) 有助于擴大詞典規(guī)模：當(dāng)前已經(jīng)手工建立了許多詞典用于自然語言處理，但是詞典的容量畢竟是有限的，不可能包含所有的詞，特別是未登錄詞。本體中的上下位關(guān)系定義了概念和概念之間的層次，基于這種上下位關(guān)系，可以獲得更多語義新詞。

(2) 支持進一步的高層(語義級、知識級)智能應(yīng)用：語義本體的最終目標(biāo)是將雜亂無章的信息源轉(zhuǎn)變?yōu)橛行蛞子玫闹R源，通過語義本體的描述，可以整合浩如煙海且瞬息萬變的信息，從中發(fā)現(xiàn)、選擇和組織有用的信息和知識，傳遞給需要的人或需要的系統(tǒng)，從而支持進一步的高層(語義級、知識級)智能應(yīng)用。

(3) 緩解民族語言數(shù)據(jù)稀疏問題：雖然藏文是少數(shù)民族語言中使用人口較多的語言，但相對于漢語和英語來說，藏文語言資源相對匱乏，特別是帶標(biāo)注文本和雙語對齊的文本稀少，這對藏文的信息處理帶來不利影響。利用本體中詞的語義關(guān)系，可以減少數(shù)據(jù)稀疏的影響，大大提高藏語信息處理精度。

本文首先介紹了藏文語義本體的創(chuàng)建過程，詳細描述藏文語義本體創(chuàng)建的各個步驟。然后針對上下位這種基礎(chǔ)的語義關(guān)系，提出了藏文上下位關(guān)系模式，以及基于這種模式的匹配算法。

2 相關(guān)工作

20世紀(jì)90年代初期，國際計算機界舉行了多次關(guān)于本體的專題研討會，本體成為包括知識工程、自然語言處理和知識表示在內(nèi)的諸多人工智能研究團體的熱門課題，其主要原因在于本體使人與人、人與機器、機器與機器之間的交流建立在共識知識的基礎(chǔ)上。

目前中英文自然處理領(lǐng)域，已經(jīng)有很多語義本體的研究成果，其中最突出的是WordNet和HowNet。

英文本體WordNet[4]的詞匯包括名詞、動詞、形容詞、副詞和功能詞。每個詞(更確切地說是詞的一條意項)是一個網(wǎng)絡(luò)節(jié)點。節(jié)點之間通過“同義關(guān)系”、“反義關(guān)系”、“上位關(guān)系”、“下位關(guān)系”、“部分—整體關(guān)系”、“形態(tài)關(guān)系”等聯(lián)系在一起。

中文本體HowNet[5]是揭示概念與概念之間以及概念所具有屬性之間的關(guān)系為基本內(nèi)容的常識知識庫，從1996年研發(fā)至今，已有漢語詞項96 744條，多家科研單位研發(fā)基于HowNet知識表示的信息處理技術(shù)。

在藏語的語義層面的研究中，一些工作對藏語句法行為的規(guī)律性進行了研究，有些研究者利用句法和語義信息將詞劃分成類別，從而更細致全面地反映各種類型藏語句式的語法結(jié)構(gòu)框架，如句子的語序、詞格標(biāo)記和句法助詞，并對藏語從句行為進行了分析[6]。多杰卓瑪給出了基于框架的藏語詞語語義研究[7]，通過對框架進行結(jié)構(gòu)信息的描述增加語義信息。龍從軍研究了藏語名詞語義關(guān)系，提出組織名詞的基本單位是義類，聯(lián)系名詞與名詞、名詞與其他詞之間的關(guān)系是語義關(guān)系[8]。

但目前，查新還沒有查到藏文語義本體表示層面的藏文處理相關(guān)研究內(nèi)容?；谡Z義的本體庫在文本處理、信息抽取、基于文本的數(shù)據(jù)挖掘、自動翻譯中都有廣泛的應(yīng)用，合適的本體庫將成為文本自動處理中的一個重要環(huán)節(jié)。

3 本體創(chuàng)建過程

語義本體的創(chuàng)建是耗時耗力的艱苦工作，需要語言學(xué)家、知識工程師和信息處理人員合作完成。目前的語義本體的創(chuàng)建，有手工創(chuàng)建和自動生成兩種策略。完全手工創(chuàng)建的本體一般規(guī)模較小，無法應(yīng)付海量的知識源。自動策略一般采用有監(jiān)督或無監(jiān)督的機器學(xué)習(xí)技術(shù)從文本語料中自動獲取概念和關(guān)系，人工干預(yù)程度較低。但自然語言處理的語義表達的復(fù)雜性和模糊性，完全的自動處理精度太低，處理結(jié)果的可用性很差。況且針對藏語來說，不同于英語和漢語具有大規(guī)模的標(biāo)注語料和現(xiàn)有的語義詞典，藏語語義本體建設(shè)可用的藏語資源很有限。

基于此，本文采用半自動本體創(chuàng)建策略，第一步，由知識工程師和語言專家手工建立上層本體，利用電子詞典進行同義詞擴充后，在多語言本體庫(漢英語言創(chuàng)建的本體)中根據(jù)對應(yīng)的上下位關(guān)系模式進行基于模式匹配的詞匯擴充和翻譯。第二步，根據(jù)本體概念和對應(yīng)的上下位關(guān)系，在已標(biāo)注語料或電子詞典中查找近義詞，并基于詞匯語義相似度算法進行相似度從高到低的排序。知識工程師對排序結(jié)果進行修訂，編輯本體。

采用半自動本體創(chuàng)建策略，如圖所示，分以下步驟展開：

(1) 由知識工程師和語言專家手工編輯建立基于HowNet的上位本體，并研究藏語上下位關(guān)系的模式表示方法；

(2) 上位本體中出現(xiàn)的概念，利用電子詞典的釋義，創(chuàng)建概念的同義詞詞匯集；

(3) 在多語言本體庫(漢英語言創(chuàng)建的本體)中進行概念的上下位關(guān)系模式匹配，擴充本體概念層次；

(4) 本體概念和抽取的上下位關(guān)系模式匹配，在已標(biāo)注語料或電子詞典中查找近義詞；

(5) 基于詞匯語義相似度算法進行相似度從高到低的排序[9]；

(6) 知識工程師對排序結(jié)果進行修訂、編輯本體。

在整個本體創(chuàng)建過程中，上下位關(guān)系是確定本體中概念分層的語義因素。上下位關(guān)系的模式可以輔助進行概念擴充，也可以作為建立和維護本體的輔助工具，這在一定程度上降低了創(chuàng)建和維護本體的成本。

4 上下位模式及匹配算法

首先，我們借鑒劉磊博士的博士學(xué)位論文[10]，給出上下位關(guān)系的定義。

定義1上下位關(guān)系, Hyponymy：如果給定概念C1和C2，C1的同義集合為{C1,C1′, …}，C2的同義集合為{C2,C2′, …}，若C2的外延包含C1的外延，則認(rèn)為C1和C2具有上下位關(guān)系，其中C1稱為C2的下位概念(hyponym)，C2稱為C1的上位概念(hypernym)，記作hr(C1,C2)。判斷hr(C1,C2)是否成立的簡單方法是看句子： “C1是一種/類/個C2”是否可以接受。

上下位關(guān)系模式學(xué)習(xí)主要包括三個問題：

1) 種子上下位關(guān)系的選取；

2) 模式的獲取算法——模式自動生成器的構(gòu)造問題；

3) 獲取模式分類和評價。

4.1 上下位模式

(1) 單對單模式：只提取一個下位概念C1和一個上位概念C2，組成一個上下位關(guān)系hr(C1,C2)。如：

【是一種】

{冰箱}C1【是一種】{電器}C2。

hr(冰箱，電器)

(2) 多對單模式：多對單模式提取多個下位概念C1, C2, …, Cm和一個上位概念 Cm+1，組成一組上下位關(guān)系hr(C1, Cm+1), hr(C2, Cm+1), …, hr(Cm, Cm+1)。如：

.、..【等】.

衣柜里面有{上衣}C1、{褲子}C2、{袍子}C3【等】很多{服裝 }C4

hr(上衣,服裝)，hr(褲子,服裝)，hr(袍子,服裝)

(3) 單對多模式：單對多模式提取一個下位概念C1和多個上位概念C2, C3, …, Cm，組成一組上下位關(guān)系hr(C1, C2), hr(C1, C3), …, hr(C1, Cm)。如：

.【即是】..【又是】.

{扎西}C1【即是】{老師的一個好{學(xué)生}C2}【又是】媽媽的乖{兒子}C3

hr(扎西,學(xué)生)，hr(扎西,兒子)

(4) 多對多模式：多對多模式提取多個下位概念C1, C2, …, Cm和多個上位概念Cm+1, Cm+2, …, Cm+n，組成一組上下位關(guān)系hr(C1, Cm+1), hr(C2, Cm+1), …, hr(Cm, Cm+1), …, hr(C1, Cm+2), hr(C2, Cm+2), …, hr(Cm, Cm+2), …, hr(C1, Cm+n), hr(C2, Cm+n), …, hr(Cm, Cm+n)。如：

.<、>..【既是】..【又是】.

{卓瑪}C1、{格桑}C2【既是】校醫(yī)院的{大夫}C3【又是】醫(yī)學(xué)院的{老師}C4

(5) 多層次模式：多層次模式可以提取一組概念C1, C2, C3。使得hr(C1, C2)，hr(C2, C3)多層上下位關(guān)系成立，如：

.【是所有】..【中】.

{次央}C1【是所有】{服務(wù)員}C2【中】文化程度最高的{人}C3

提取關(guān)系： hr(次央, 服務(wù)員)，hr(服務(wù)員, 人)

4.2 模式匹配算法

模式匹配問題可以描述為：上下位關(guān)系模式集合P={p1,p2, …,pm}，語料庫G，G中含有句子集合S={s1,s2, …,sn}，對任意s∈S，若通過模式匹配算法得到p1,p2, …,pk(pi∈P,i=1, 2, …k)與s匹配，記作(s, {p1,p2, …,pk})，若不存在模式與s相匹配，則記作(s, ?)。

模式匹配算法步驟如下：

上下位關(guān)系模式匹配算法

輸入：上下位關(guān)系模式集合P，語料庫G，

輸出：模式匹配結(jié)果

Step 1: 預(yù)處理，將語料G分割轉(zhuǎn)換為句子序列S={s1,s2, …,sn}；

Step 2: 若S不為空，對每一個句子s∈S，執(zhí)行Step3-Step5；

Step 3: 對s先進行分詞處理；

Step 4: 在P中搜索s所滿足的上下位關(guān)系模式，得到s所滿足上下位關(guān)系模式p1,p2, …,pk(pi∈P,i=1, 2, …，k)；

Step 5: 根據(jù)p1,p2, …,pk中每個模式的上位概念域和下位概念域?qū)傩蕴崛?yīng)的上位概念部分和下位概念部分；

Step 6: 輸出所有匹配結(jié)果。

例句s：

衣柜里面有上衣、褲子、袍子等很多服裝。

模式p：

Defpattern 上下位關(guān)系模式 //定義一個多對一模式

{

基本模式：

.、..【等】.

下位概念域：

下位變量項：，和

下位概念個數(shù)：多個，和單個

下位概念位置：右，和右

上位概念域：

上位變量項：

上位概念個數(shù)：單個

上位概念位置：右

}

模式匹配結(jié)果：

衣柜里面有/上衣/、/褲子/、/袍子/等很多服裝。

提取上位概念部分和下位概念部分：

下位概念域 =衣柜里面有上衣、褲子

下位概念域 =袍子

上位概念域 =服裝

候選上下位關(guān)系：

hr(上衣、褲子, 服裝)

hr(袍子, 服裝)

正確上下位關(guān)系：

hr(上衣,服裝)

hr(褲子,服裝)

hr(袍子,服裝)

5 總結(jié)

語義本體是共享概念模型的顯示的形式化規(guī)范說明，其目標(biāo)是將雜亂無章的信息源轉(zhuǎn)變?yōu)橛行蛞子玫闹R源。目前語義本體還主要依賴于手工創(chuàng)建模式。上下位關(guān)系是一種基本的語義關(guān)系，常用于語義本體中概念的自動獲取和驗證。本文首先描述了藏語語義本體的創(chuàng)建方法，進而給出了藏文中的上下位關(guān)系模式以及模式匹配算法。

后續(xù)的工作包括用于上下位關(guān)系驗證的概念空間構(gòu)造方法研究、模式匹配驗證算法、基于概念空間的上下位關(guān)系迭代概念學(xué)習(xí)算法等。

[1] 江荻，龍從軍.藏文字符研究—字母、讀音、編碼、排序、圖形、拉丁字母轉(zhuǎn)寫規(guī)則研究[M].北京：社會科學(xué)文獻出版社.2010.

[2] 董振東，董強，郝長伶.知網(wǎng)的理論發(fā)現(xiàn)[J].中文信息學(xué)報，2007，21(4)： 3-9.

[3] R. Studer, V. R. Benjamins, and D. Fensel. Knowledge engineering: Principles and methods[J]. Data and Knowledge Engineering, 1998，25(1-2):161-197.

[4] WordNet[OL]，http://wordnet.princeton.edu/wordnet/.

[5] HowNet[OL]， http://www.keenage.com/.

[6] 江荻.現(xiàn)代藏語動詞的句法語義分類及相關(guān)語法句式[J].中文信息學(xué)報，2006，20(1)： 37-43.

[7] 龍從軍，周學(xué)文.藏語名詞語義關(guān)系研究. http://d.g.wanfangdata.com.cn/Conference_7143464.aspx.

[8] 多杰卓瑪.藏語語義框架的理解與描述[J].西北民族大學(xué)學(xué)報，2009，30(74)： 17-21.

[9] 劉群, 李素建. 基于《知網(wǎng)》的詞匯語義相似度計算[C]//第三屆漢語詞匯語義學(xué)研討會,中國臺北, 2002.

[10] 劉磊，概念和上下位關(guān)系的獲取理論和方法研究[D].中科院計算所博士論文，2007.