夏吾吉,華卻才讓
XIAWuji1,2,HUAQUE Cairang1
1.青海師范大學 藏文信息處理教育部重點實驗室,西寧 810008
2.青海師范大學 民族師范學院,西寧 810008
1.Tibetan Information Processing Key Laboratory of Ministry of Education,Qinghai Normal University,Xining 810008,China
2.Normal College for Nationalities,Qinghai Normal University,Xining 810008,China
指代是自然語言中一種復雜的語言現(xiàn)象,是文本處理和信息抽取不可或缺的重要組成部分[1],指代消解在文本處理和信息抽取中起著重要的作用,并已成為文本摘要、機器翻譯、多語言信息處理、語義分析、問答系統(tǒng)等應用的關鍵問題[2]。近五十年來,國外對主流語言指代消解問題的研究比較深入,提出了各種消解方法[3],并且許多重要的會議都設立了指代消解的專題會議(比如:1997年的EACL、MUC和1999年的ACL等)[4]。隨著網(wǎng)絡和計算機技術的快速發(fā)展,近期國內研究者對中文指代消解問題的研究也取得了很大的進步,也有不少相關的研究論文和成果[5-10]。
以計算機科學技術為核心的信息化時代,在信息界的相關研究者對藏語言文字進行了分詞、詞性標注、命名實體識別[11]、詞法分析、分句、句法分析等研究工作,對今后的藏文信息處理發(fā)展奠定了堅實的基礎,而對藏文進行指代消解也是藏文通過分詞標注和命名實體識別后需要解決的一項重要工作。目前還未見到對藏文進行指代消解的相關文獻和報道。因此,本文將英文和中文的指代消解研究作為參考,采用規(guī)則、最大熵模型和規(guī)則與最大熵模型相結合等三種方法對藏文人稱代詞進行指代消解研究。
藏文中的人稱代詞同漢文一樣有三種:第一人稱代詞、第二人稱代詞和第三人稱代詞,每個人稱代詞都有單復數(shù)之分,并且其表達方式豐富多樣;根據(jù)藏文自身的特點和表達方式的多樣性,在漢文中表示第一人稱代詞的單數(shù)“我”和復數(shù)“我們”,表示第二人稱代詞的單數(shù)“你(您)”和復數(shù)“你們(您們)”以及表示第三人稱代詞的單數(shù)“他、她”和復數(shù)“他們、她們”在藏文中分別可以表示成:“ ??? ??? ???????? ???? ?????? ????? ?????? ???????? ??????? ???? ?? ??? ?? ??? ?? ? ?????? ???? ? ? ? ? ? ? ”、“ ??? ??? ? ??? ????? ??? ??? ? ?? ???? ? ??? ????? ?? ???? ? ??? ??? ? ? ? ? ? ??? ??? ? ???? ??? ??? ??? ???????? ???? ? ???? ??? ???? ? ? ? ? ???? ??? ???? ? ? ?”以及“???? ???? ???? ?????? ?? ?????? ?? ???? ???? ???? ????? ? ?????????????? ???????????? ??????????? ”等。
分詞標注和命名實體識別是對代詞進行指代消解的關鍵問題,本文針對表示同一人名實體的名詞和代詞進行分析,采取了三種特征屬性和規(guī)則進行消解。
在藏文中,人稱代詞的單復數(shù)有很多種不同的表達形式:第一人稱的單、復數(shù)形式“??(我)”和“?????(我們)”可以表示成“??? ???????? ???? ?????? ????? ?????? ???????? ??????? ???? ?? ??? ?? ??? ????????????? ??????”等,第二人稱的單、復數(shù)形式“??? ?????????? ?????(你和您)”和“??? ?????????????? ????????? (你們和您們)”可以表示成“??? ?????? ???????? ???? ? ?? ???? ? ??? ??? ? ???? ??? ???????? ??? ?????? ????? ??? ???? ????? ??? ???? ???????? ??? ???????”等,第三人稱的單、復數(shù)形式“??????????????? (他和她)”和“??????????????????????? (他們和她們)”可以表示成“???????? ???????? ???? ???????? ??????????? ???????????? ??????????? ????????? ”等;在藏語語法中,名詞和代詞所對應的單復數(shù)有非常嚴格的要求,具體如下。
3.1.1名詞短語作主語的情況
若主語是由幾個單一名詞通過連接詞“??(?和)”連接而成的名詞短語時,對應的代詞為復數(shù)。比如:“??????? ??? ? ?? ??? ? ?? ????? ? ?? ????? ??? ???? ??? ?????????? ? ?? ???? ???? ????? ? ??? ????? ? ? ? ? ?? ? ? ? ??? ”,其 中“ ???????”是復數(shù),指代的是“???????????????? ??? ????”。
3.1.2名詞作主語的情況
(1)若主語為單獨的人名時,對應的代詞為單數(shù)。比 如 :“?? ??????????? ??????????? ? ??? ???????? ??? ? ? ? ????? ? ?? ???? ??????? ???? ???? ????? ? ?? ??????? ??? ??? ”,其 中“???????”是單數(shù),指代的是“???????”。
(2)若主語為表示人的群體的單一名詞+“????? ??????”等數(shù)詞時,對應的代詞為復數(shù)。比如:“????????????? ??????????????? ??????????????? ????? ???? ????? ??????? ?????? ???? ????????????????? ??????????????????????????????? ??????????? ????????? ??????????????? ”,其中“???????”是復數(shù),指代的是“????????????? ??”。
根據(jù)上述可以看出,在藏語中人稱代詞的單復數(shù)有著很嚴格的界限,即表示單、復數(shù)的名詞一定與表示單、復數(shù)的代詞一一對應,因此命名實體和人稱代詞的單復數(shù)一致性作為代詞消解的條件,并對單復數(shù)屬性制定以下規(guī)則。
規(guī)則1若人稱代詞是單數(shù),則找到表示單獨人名的名詞;若人稱代詞是復數(shù),則找到連接詞“???(和)”連接而成的名詞短語或表示人的群體的單一名詞+“?? ??? ??????”等數(shù)詞的命名實體;否則不予消解。
無論是藏語、漢語還是英語在表達上對人名都有性別之分,藏語中用“???(他)”表示男性,用“???????或???(她)”表示女性;在漢語和英語中的用法也相類似,用“他(he)”表示男性,用“她(she)”表示女性,用“它(it)”表示不知性別的人或物。在藏語中人名的結構成分復雜多樣,最短兩個音節(jié)和最長八九個音節(jié)及其以上,比如:“??? ?????? ???”、“????? ????????????? ??????????? ?????? ??????? ?????”。通過對安多藏區(qū)典型的常用人名進行搜集,除了宗教人士以外的人名大部分都是由二到四個音節(jié)組成,并且性別有明顯的界限區(qū)分,在兩個音節(jié)組成的藏語人名是從自身可以區(qū)分性別的,一般像“??? ?????? ??? ??? ????? ?? ???????? ”等都是典型的男性名字,而“???? ?????? ?? ???????? ???? ?? ????? ”等都是典型的女性名字;三個音節(jié)組成的藏語人名由最后一個音節(jié)來區(qū)分性別,最后的音節(jié)為“???????? ??? ”等的是屬于男性名字,最后的音節(jié)為“????? ???????? ”等的是屬于女性名字,而最后的音節(jié)為“????? ????? ???? ”等是屬于不知性別的人的名字;四個音節(jié)組成的藏語人名由后兩個音節(jié)來區(qū)分性別,后兩個音節(jié)為“????????? ?? ??????? ????????????? ”等的是屬于男性名字,后兩個音節(jié)為“????????? ????? ???????? ????????? ”等的是屬于女性名字,而后兩個音節(jié)為“??????????? ”等的是屬于不知性別的人的名字。不知性別的主要由其前面的音節(jié)來區(qū)分性別,如果其前面的音節(jié)是兩個音節(jié)組成的典型的男性名字,則屬于男性,否則就屬于女性(本文針對除了宗教人士以外的安多藏區(qū)常用人名以及所對應的代詞進行指代消解)。
根據(jù)上述可以看出,由“???(他)”和“???????(他們)”來指代人名為男性的命名實體,而“???????(她)”和“???????????(她們)”來指代人名為女性的命名實體。
規(guī)則2若人稱代詞為“???(他)”和“???????(他們)”,則找到表示男性的人名進行消解;若人稱代詞為“???????(她)”和“???????????(她們)”,則找到表示女性的人名進行消解;否則不予消解。
在語言學中用代詞來指代前文內容的現(xiàn)象是很常見的,但代詞在指代命名實體時對不同句子指代的距離值不同[12],通過對大量的藏文語料和各種類型的句子分析發(fā)現(xiàn),代詞所指代的內容一般都是離代詞很近的內容,而且距離值越小的句子內容越容易看懂,被代詞指代的概率也就越大。根據(jù)上述可以對距離屬性制定以下規(guī)則。
規(guī)則3本文將指代的距離限制在小于等于4的范圍內,并且距離值越小時命名實體被指代時的權重就越大[13]。
具體的消解流程如圖1所示。
圖1 基于規(guī)則的指代消解流程圖
圖1中,運用青海師范大學分詞標注工具,對包含2 306個待消解對的藏文句子集進行了分詞、詞性標注,并采用文獻[11]的命名實體識別方法對藏文句子中的命名實體進行自動識別后,對分詞標注和命名實體識別錯誤部分進行了手動修改,最后通過上述三種規(guī)則對句子中的人稱代詞進行了指代消解。
最大熵模型的基本思想是只掌握關于未知分布部分信息的前提下,選取符合這些信息且熵值最大的概率分布[14]。在最大熵模型訓練中,信息一般是以特征的形式進行表達,假設存在n個特征 fi()i=1,2,…,n ,那么定義{0,1}域上一個二值函數(shù)來表示一個特征:
對于每一個特征F(a,b),模型P的熵函數(shù)為:
其條件概率的最大熵模型為:
其中C表示滿足限制條件下的模型集合。
對于藏文人稱代詞的指代消解,最大熵模型訓練是可以通過 p(b|a)的計算來判斷待消解對(a1,a2)是否指向同一實體,其中,a為特征向量,是通過對待消解對(a1,a2)的特征屬性進行比較而得到的,a1表示候選先行詞,即名詞、命名實體和名詞短語;a2表示代詞,是一個二值屬性,若待消解對(a1,a2)指向同一實體,則F值等于1,否則等于0。p(b|a)表示特征向量a條件下計算指向同一實體的條件概率[15]。
通過大規(guī)模的相關藏文文本語料以及對藏文的語法和句法進行分析發(fā)現(xiàn),在藏文中指代同一實體的候選先行詞(名詞、命名實體和名詞短語)和代詞具有三種相同的特征屬性。
該屬性是個二值函數(shù),對兩個待消解項的單復數(shù)屬性值進行比較,若兩個屬性值一致,則其特征值為1;否則為0。
以上函數(shù)中,a表示測試語料中的候選先行詞,b表示測試語料中的代詞。例如:(1)“????????/nr?????/uu??????/rr????? ???? /nt?????/gz??? ??????/nn????? ?/up?/gl? ????????/rr??? ???????? ????/nv? ?/gl?? ??????? ?/dc????/ad? ”;(2)“??????????/nr???/cd??? ??? ?????/nr??? ?????/mj??? ??????? ?????/nn??????/up?/gl? ????????/rr?????/gz???? ???????/nn?????/dc????/ad? ”。經(jīng)過規(guī)則預處理以上兩個句子(1)、(2)中可以提取候選先行詞和待消解的詞對有:(???????? ,???????? )和(???????????????? ??? ????? ,???????? ),其中(???????? ,???????? )的屬性值相同(都屬于單數(shù)),所以其函數(shù)值為 F1(???????? ,???????? )=1,(???????????????? ??? ????? ,???????? )的屬性值相同(都屬于復數(shù)),因此其函數(shù)值為 F1(???????????????? ??? ????? ,???????? )=1。
該屬性是個二值函數(shù),對兩個待消解項的性別屬性值進行比較,若兩個待消解項的性別一致,則其特征值為1;否則為0。
比如,4.1節(jié)中的句子(1)經(jīng)過規(guī)則預處理后發(fā)現(xiàn)其中的待消解對(???????? ,???????? )的性別一致(都屬于女性),因此其函數(shù)值為 F2(???????? ,???????? )=1。
該屬性是個多值函數(shù),對兩個待消解項的文本距離進行考查,其取值為它們所屬句子的編號之差的絕對值。根據(jù)上一章的規(guī)則集(3.3節(jié)中的規(guī)則3),本文將指代的距離限制在小于等于4的范圍內。因此,若兩個待消解項處在同一句中,則其特征值為4;若它們之間相差一句,則其特征值為3;若它們之間相差兩句,則其特征值為2;若它們之間相差三句,則其特征值為1;否則為0。
例如:“??????????/nr??/gl????? ??/nn???????/up??/gx?/rr??/gx???? ???/nn??/gl????/rr??/gl?? ???????/nn?? ?/ux? lz?????? ??/nn?? ????/gx???/rr??/gl?/rr?/gl?? ? ???/nn ?? ????/rz? ????/vt?? ?/gl? ?? ?/vt?? ???? ?/tt?? ???? ?/mj? ?/gl???/rr?????/gz? ? ?/nn??/gx??/rr??/gl??/nn????????/ry?????/df??? ???/vi??/gl?? ??? ??/nn??? ?????/gx???? ??/vt? lz ???/rr?????/gz???/nn??/gx?? ??/cj??/rr??/gl??? ???????????/nv?? ?/vt? lz”經(jīng)過規(guī)則與處理,在本例中提取的候選先行詞和待消解的詞對及其函數(shù)值分別為:F4-1(??????????,第一句中的???)=4,F(xiàn)4-2(??????????,第二句中的???)=3,F(xiàn)4-3(??????????,第三句中的???)=2,F(xiàn)4-4(??????????,第四句中的???)=1。
根據(jù)以上特征,具體的消解流程如圖2所示。
圖2 基于統(tǒng)計的指代消解流程
本文所使用的混合策略方法是規(guī)則和最大熵模型相結合的方法,首先對語料進行分詞、詞性標注、命名實體識別后對代詞進行過濾,找出能夠用規(guī)則的方法進行消解的代詞并進行消解;如果在消解后的語料中出現(xiàn)沒有進行指代消解的名詞和代詞,將把它們提取出來組成待消解對候選集,再利用統(tǒng)計的方法進行消解。具體流程如圖3所示。
圖3 混合策略的指代消解流程圖
從圖3中可以看到,基于混合策略的方法主要有規(guī)則預處理、代詞過濾、基于規(guī)則的消解和基于統(tǒng)計的消解等四部分。
本文的訓練語料和測試語料取材于藏文小說、新聞、童話等。對這些取材進行切分標注和命名實體后,經(jīng)手動修改其中出現(xiàn)錯誤的切分標注,精選了包含2 306個待消解對的藏文句子進行測試,并采用了自然語言處理中常用的三個評測指標:準確率(P)、召回率(R)和F值進行實驗分析。各個指標的定義如下:
其中,w是召回率和準確率的相對權重,本文中w取為0.5。實驗結果如表1、表2所示。
表1 三個人稱代詞實驗結果對比%
表2 三種方法的實驗結果對比 %
實驗結果表明,基于規(guī)則、統(tǒng)計和規(guī)則與統(tǒng)計相結合的方法對藏文人稱代詞指代消解研究的效果較好,但仍然未能達到很理想的效果,主要原因有兩方面。一方面,如果在一個句子當中出現(xiàn)兩種不同的人稱代詞,而只有一個人名,比如 4.3 節(jié)中的藏文句子“??????????/nr??/gl????? ??/nn???????/up??/gx?/rr??/gx???? ???/nn??/gl????/rr??/gl?? ???????/nn?? ?/ux ? lz? ? ? ? ?? ? ?/nn ?? ????/gx ???/rr? ?/gl?/rr?/gl?? ? ???/nn ?? ????/rz? ????/vt?? ?/gl??? ?/vt ?? ?????/tt?? ?????/mj??/gl???/rr?????/gz???/nn??/gx??/rr??/gl??/nn????????/ry?????/df??? ???/vi??/gl?? ??? ??/nn??? ?????/gx? ??? ? ?/vt? lz ???/rr?????/gz???/nn? ?/gx?? ??/cj??/rr??/gl??? ???????????/nv?? ?/vt? lz”中人名只有“??????????/nr”一個,而人稱代詞有第一人稱代詞“?/rr”和第三人稱代詞“???/rr”兩種,因此在消解過程中人稱代詞未能正確找出所對應的人名,導致消解錯誤。另一方面,藏文復數(shù)形式的人稱代詞不僅形式復雜多樣,而且指代情況千差萬別,導致在指代過程復雜多變,影響了實驗結果。
本文根據(jù)藏族人名和藏文人稱代詞的構詞規(guī)律和形態(tài)特征,制定了三類消解規(guī)則,并設計了相應的統(tǒng)計特征,最后采用基于規(guī)則、最大熵和規(guī)則與最大熵模型相結合的方法研究了藏文人稱代詞指代消解。經(jīng)實驗,對于藏文人稱代詞指代消解研究問題,采用基于混合策略(規(guī)則和最大熵模型相結合)的方法為較好的一種消解方法,基于最大熵模型的方法為其次,基于規(guī)則的方法相對差一些。后續(xù)工作中,將借助于藏語句法和藏語語義的研究,分析影響實驗結果的復數(shù)形式人稱代詞,以改善指代消解任務。
參考文獻:
[1]Morton T S.Coreference for NLP applications[C]//Proc of ACL,2000:173-180.
[2] 孔芳,周國棟.指代消解綜述[J].計算機工程,2010,36(8):33-36.
[3]王厚峰.指代消解的基本方法和實現(xiàn)技術[J].中文信息學報,2002,16(6):9-17.
[4]王海東,胡乃全.指代消解中語義角色特征的研究[J].中文信息學報,2009,23(1):23-29.
[5]孔祥勇,張冬茉.一種信息抽取系統(tǒng)中漢語指代消解算法[J].計算機工程,2003,29(16):76-78.
[6]周俊生,黃書劍.一種基于圖劃分的無監(jiān)督漢語指代消解算法[J].中文信息學報,2007,21(2):76-82.
[7]金可佳.統(tǒng)計與規(guī)則相結合的指代消解[D].武漢:武漢科技大學,2009.
[8]孔芳,朱巧明,周國棟.中英文指代消解中待消解項識別的研究[J].計算機研究與發(fā)展,2012(5):1072-1085.
[9]奚雪峰,周國棟.基于Deep Learning的代詞指代消解[J].北京大學學報:自然科學版,2014,50(1):100-109.
[10]周炫余,劉娟,羅飛,等.中文指代消解模型的對比研究[J].計算機科學,2016,43(2):31-34.
[11]華卻才讓,姜文斌,趙海興,等.基于感知機模型藏文命名實體識別[J].計算機工程與應用,2014,50(15):172-176.
[12]張文艷,李存華.結合規(guī)則與語義的中文人稱代詞指代消解[J].數(shù)據(jù)采集與處理,2017,32(1):149-156.
[13]李國臣,羅云飛.采用優(yōu)先選擇策略的中文人稱代詞的指代消解[J].中文信息學報,2005,19(4):24-30.
[14]宗成慶.統(tǒng)計自然語言處理[M].2版.北京:清華大學出版社,2013:122-124.
[15]鐘丹,朱倩,李梅,等.人稱名詞短語單復數(shù)信息和最大熵模型的指代消解[J].江南大學學報:自然科學版,2009,8(6):666-669.