包曉榮,華沙寶,達(dá)胡白乙拉
(內(nèi)蒙古大學(xué) 蒙古學(xué)學(xué)院,內(nèi)蒙古 呼和浩特010021)
從語言信息處理整體的視角來看,語義角色標(biāo)注是對自然語言理解的一個有益的探索。在自然語言理解系統(tǒng)中,不但要識別文本中的實體,而且還需要做語義分析。語義分析是自然語言理解的根本性問題,也是自然語言處理的難點和熱點問題。語義分析包括淺層語義分析和深層語義分析。
語義角色標(biāo)注是淺層語義分析的一種簡化形式的實現(xiàn)方式,具有定義清晰、評測容易等特點,它是目前的研究熱點。語義角色標(biāo)注綜合利用了分詞、詞性標(biāo)注等底層的語言信息,以及高層的句法分析,命名實體識別等信息,人們從這些信息中可以挖掘各種特征,再利用各種機(jī)器學(xué)習(xí)算法,做到自動的語義角色標(biāo)注,因此,它會促進(jìn)機(jī)器學(xué)習(xí)研究的發(fā)展。在淺層語義分析的基礎(chǔ)上,進(jìn)行深層的語義分析將成為未來研究的重點。
蒙古文信息處理研究工作從20世紀(jì)80年代著手建立語料庫開始,基本完成了字處理、詞處理階段的工作,現(xiàn)在全面開展句子處理階段的工作。語義分析是句子處理階段的重要任務(wù)之一。
從蒙古語信息處理的實際需求出發(fā),為蒙古語信息處理研究提供一個系統(tǒng)化、形式化的蒙古語語義標(biāo)注體系和一個規(guī)模相當(dāng)?shù)恼Z義角色標(biāo)注語料資源是蒙古語信息處理基礎(chǔ)研究和應(yīng)用研究的基礎(chǔ)之一。建立蒙古語語義角色標(biāo)注體系和蒙古語語義角色標(biāo)注語料資源是蒙古文信息處理事業(yè)走向自然語言理解最終目標(biāo)的必經(jīng)之路,無論從理論意義還是從應(yīng)用需求來講,它的研究價值都非常重要。
蒙古語淺層語義分析,是一項開拓性的研究工作。本工作不會僅僅停留在基礎(chǔ)理論和方法論的抽象層面上,而由它產(chǎn)生的標(biāo)注語料資源和語義角色特征描述,將對多義詞的語義識別、確定短語結(jié)構(gòu)關(guān)系、指定詞語語義搭配提供有效的可操作信息,對開發(fā)研制蒙古語信息檢索、指代消解、機(jī)器翻譯中的蒙古語語句自動分析和自動生成等應(yīng)用系統(tǒng)都有直接的應(yīng)用價值。
要進(jìn)行語義角色標(biāo)注,相應(yīng)的標(biāo)注體系是必需的。在國內(nèi)外眾多相關(guān)研究項目中,都分別制定了相應(yīng)語言的語義角色標(biāo)注體系。但是,由于各種語言的情況不同,各個標(biāo)注系統(tǒng)的出發(fā)點和著眼點不同,各個語義角色標(biāo)注系統(tǒng)所制定的標(biāo)注體系也可以互不相同。下面比較Prop Bank和北京大學(xué)中文網(wǎng)庫的語義角色分類和標(biāo)記。
Prop Bank的語義角色是編了號的原型角色,是中觀層次上基于特定動詞的角色。Prop Bank包括論元角色標(biāo)注集和標(biāo)注語料庫。在Prop Bank中出現(xiàn)的語義角色分為核心論元和非核心論元兩大類。核心論元可分施事、受事、與事等多種論元,非核心論元又可以按照功能分出小類。具體來看,主要有:ARG0,ARG1,ARG2,ARG3,ARG4,ARG5,ARGM-ASP,ARGM-BNF,ARGM-CND,ARGMCRD,ARGM-DGR,ARGM-DIR,ARGM-DIS,ARGMEXT,ARGM-FRQ,ARGM-LOC,ARGM-MNR,ARGM-PRD,ARGM-PRP,ARGM-TMP,ARGMTPC,ARGM-ADV,TBERR 等23個小類。其中ARG0-ARG5是核心論元,其他都屬于非核心論元[1]。
北京大學(xué)中文網(wǎng)庫是漢語的真實文本上進(jìn)行多層次的語義關(guān)系標(biāo)注的語料庫[2]。中文網(wǎng)庫的語義角色是屬于所謂中觀層級的語義角色。北京大學(xué)中文網(wǎng)庫的語義角色分為必有論元和非必有論元兩大類。必有論元再分A.主體論元:(1)施事A(2)感事Se(3)經(jīng)事Ex(4)致事Cau(5)主事Th;B.客體論元:(1)受事P(2)與事D(3)結(jié)果R(4)對象Ta(5)系事Re。非必有論元再分為 A.憑借論元:(1)工具I(2)材料 Ma(3)方式 M (4)原因 Rn(5)目的Ai。B.環(huán)境論元:(1)時間T(2)處所L(3)源點So(4)終點Go(5)路徑Pa(6)范圍Ra(7)量幅EXT 等22個小類[3]。
語言都有共性,所以其他語言的語義角色分類對我們制定基于依存于法的蒙古語語義角色分類有很大的參考價值。
蒙古語在傳統(tǒng)研究和信息處理研究中,也注意到了語義角色研究的必要性。蒙古語語義角色分類及標(biāo)記方面的研究有:
蒙古語傳統(tǒng)研究進(jìn)行句子研究和語義研究當(dāng)中注意到了語義角色研究的重要性。具有代表性的有,寶·哈斯巴根[4]提出的施事、當(dāng)事等10個類的分類,德力格爾瑪[5]提出的施事、受事等10個分類,特圖克[6]提出的主體、受體等6大類42個小類的分類,其木格[7]提出的主題格、客體格、領(lǐng)體格、工具格等8大類14個小類。
蒙古文信息處理工作進(jìn)行句子分析和語義分析的時候注意到語義角色標(biāo)注的重要性。從蒙古語信息處理角度:額爾敦朝魯[8]根據(jù)內(nèi)蒙古大學(xué)編撰的《蒙漢詞典》,《蒙古語語法信息詞典》以及100萬詞級現(xiàn)代蒙古語語料庫,對蒙古語動詞做了語義分類,劃分為5個大類121個小類。其中,根據(jù)動詞的不同特點,有些類細(xì)劃分為2層,有些劃分為3層,還有劃分為4層的。海銀花[9]根據(jù)《蒙古語語法信息詞典》的名詞分庫,對14 105條名詞做了語義分類,大體上分7個大類,根據(jù)不同情況再細(xì)分,細(xì)分層次最多有8層。德·薩日娜[10]根據(jù)對初中語文第一冊的分析,提出了一套蒙古語語義角色分類,第一層分4個大類,第二層分28個小類,第三層再分39個細(xì)分類。富濤[11]從26萬詞規(guī)模的語料庫抽取2 602個例句,經(jīng)過實例分析,提出了一套針對蒙古語簡單謂動句的語義角色分類,大體上分3個層次,只是對第三層次的用具類和位置類進(jìn)一步做了3個細(xì)分類和4個細(xì)分類。
蒙古語語義角色分類和標(biāo)記研究在傳統(tǒng)語言學(xué)和信息處理研究方面進(jìn)行過,還取得一定的成果。但是,這些研究成果還存在一些問題。因為,有的分類只是針對詞的語義特征的而不是對句子語義單位之間的語義關(guān)系的;有的雖然是針對語義角色的,但依據(jù)的語料有一定的局限性或者針對的題材單一;語義角色的名稱和種類不統(tǒng)一,命名過于隨意;劃分顆粒度過分粗或者過分細(xì),沒有經(jīng)過語義角色標(biāo)注實際操作檢驗。關(guān)于蒙古語語義角色的研究成果是我們制定基于依存語法的語義角色分類的著重參考點。
內(nèi)蒙古大學(xué)在國家自然科學(xué)基金資助下構(gòu)建了50萬詞級的蒙古語依存句法分析樹庫。為建立該樹庫,借鑒了其他語言依存樹庫的成功經(jīng)驗,并針對蒙古語自身特點,把蒙古語語義關(guān)系分為4大類,設(shè)立了包含17種依存關(guān)系的蒙古語依存關(guān)系標(biāo)記集,用有向弧表示從屬詞和支配詞之間的依存關(guān)系,對句子的核心詞以及上述17種語義關(guān)系的標(biāo)注和插入句的處理都給出了詳細(xì)的標(biāo)注規(guī)范,用了括弧形式和樹形形式兩種標(biāo)注形式[12]。
蒙古語依存關(guān)系標(biāo)記集的規(guī)模和所包含的依存類型是合理的,它覆蓋了蒙古語所有的依存現(xiàn)象,并且用該標(biāo)記集標(biāo)注的蒙古語依存句法分析樹庫包含了豐富的句法結(jié)構(gòu)信息??偟膩碚f,蒙古語依存句法分析樹庫的建立,對制定蒙古語語義角色標(biāo)注體系和標(biāo)注規(guī)范提供了重要參考依據(jù),對建立蒙古語語義角色標(biāo)注語料資源提供了可操作的基礎(chǔ)條件。
基于依存語法的語義角色標(biāo)注方法是通過挖掘句子中單詞或短語之間存在的依存關(guān)系得出句子中成分的角色。蒙古語語義角色分類基于依存句法樹的話,不但可以利用單詞之間的依存特征,而且也可以預(yù)測與目標(biāo)謂詞有依存關(guān)系的短語為某種語義角色。我們對一定數(shù)量的標(biāo)注依存關(guān)系的蒙古語語料進(jìn)行基于依存語法的蒙古語語義角色手工標(biāo)注,分析了依存關(guān)系和語義角色的對應(yīng)關(guān)系。例如,依存關(guān)系“SUBJ”對應(yīng)“施事”、“當(dāng)事”、“存在”、“主題”等語義角色,有些被動句中對應(yīng)“使動”的語義角色。
基于依存語法的蒙古語語義角色標(biāo)注研究中直接引用上述有關(guān)蒙古語語義的分類和標(biāo)記仍然存在一定的問題。
目前,我們對蒙古語依存句法分析樹庫的5 000個句子進(jìn)行語義角色手工標(biāo)注實驗,考慮基于依存語法語義角色的手工標(biāo)注和自動標(biāo)注,初步制定了包括主體、客體、領(lǐng)體、修飾4大類,施事、當(dāng)事等24個細(xì)分類的語義角色分類及標(biāo)記。具體分類及其標(biāo)記如表1所示。
表1 蒙古語語義角色分類及其標(biāo)記
其中,標(biāo)記代碼采用了語義角色蒙古語名稱的前三個字母,發(fā)生重復(fù)時從后續(xù)字母中選擇一個合適的字母,調(diào)整了代碼標(biāo)記的第三個位置。
經(jīng)過一定數(shù)量的蒙古語真實語料的驗證,基于依存語法的蒙古語語義角色分類基本覆蓋蒙古語語義角色現(xiàn)象。這表明基于依存語法的蒙古語語義角色分類是合理的,科學(xué)的。
標(biāo)注依存關(guān)系的蒙古語語料庫是進(jìn)行語義角色標(biāo)注研究的語料資源,蒙古語依存句法分析樹庫有樹形形式和文本形式,同樣基于依存語法的蒙古語語義角色標(biāo)注也有樹形形式和文本形式。標(biāo)記依存關(guān)系的蒙古語句子語料上進(jìn)行語義角色手工標(biāo)注的句子實例如下。
文本形式:
注:括弧內(nèi)是蒙古語拉丁轉(zhuǎn)寫和漢語翻譯。
單詞后面第一個括弧內(nèi)的標(biāo)記表示依存關(guān)系,第二個括弧內(nèi)的標(biāo)記表示語義角色。樹形形式:注:大寫標(biāo)記表示依存關(guān)系,小寫標(biāo)記表示語義角色。
圖1 蒙古語語義角色標(biāo)注實例
總括,本文從蒙古文信息處理的角度出發(fā),對基于依存語法的5 000個蒙古語句子進(jìn)行語義角色手工標(biāo)注,制定了蒙古語語義角色分類和標(biāo)注體系。我們將以手工標(biāo)注語料為基礎(chǔ),通過機(jī)器學(xué)習(xí)的方法,研制一個蒙古語語義角色自動標(biāo)注系統(tǒng),建立蒙古語語義角色標(biāo)注的語料資源。
[1]Dowty D.Thematic Proto-Role and Argnment Selection[J].Lauguage,1991,(3):547-561.
[2]楊敏;常寶寶.基于北京大學(xué)中文網(wǎng)庫的語義角色分類[J].中文信息學(xué)報,2011,25(2):3-8.
[3]袁毓林.語義角色的精細(xì)等級及其在信息處理中的應(yīng)用[J].中文信息學(xué)報,2007,21(4):10-20.
[4]寶哈斯巴根.現(xiàn)代蒙古語動詞研究[M].北京:民族出版社,1995.
[5]德力格爾瑪.蒙古語語義研究[M].沈陽:遼寧民族出版社,2001.
[6]特圖克.蒙古語句子語義學(xué)結(jié)構(gòu)[J].中國蒙古學(xué),2008,1:1-7.
[7]其木格.蒙漢語常用語義格對比研究[D].中央民族大學(xué):中央民族大學(xué)碩士學(xué)位論文,2008.
[8]額爾敦朝魯.面向信息處理的蒙古語動詞語義研究[D].內(nèi)蒙古大學(xué):內(nèi)蒙古大學(xué)博士學(xué)位論文,2005.
[9]海銀華.面向信息處理的蒙古語名詞語義研究[D].內(nèi)蒙古大學(xué):內(nèi)蒙古大學(xué)博士學(xué)位論文,2010.
[10]薩日娜.蒙古語格框架的研究[D].內(nèi)蒙古大學(xué):內(nèi)蒙古大學(xué)博士學(xué)位論文,2006.
[10]王步康,王紅玲,袁曉虹,等.基于依存句法分析的語義角色標(biāo)注[J].中文信息學(xué)報,2010,24(1):25-29.
[11]富濤.面向信息處理的蒙古語簡單句謂動句句模研究[D].內(nèi)蒙古大學(xué):內(nèi)蒙古大學(xué)博士學(xué)位論文,2011.
[12]馮文賀;姬東鴻.命題庫:分析與展望[J].外語電化教學(xué),2010,6:25-32.
[13]斯·勞格勞.現(xiàn)代蒙古與依存句法自動分析研究[D].內(nèi)蒙古大學(xué)博士學(xué)位論文,2011.