夏吾吉,華卻才讓
XIAWuji1,2,HUAQUE Cairang1
1.青海師范大學(xué) 藏文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,西寧 810008
2.青海師范大學(xué) 民族師范學(xué)院,西寧 810008
1.Tibetan Information Processing Key Laboratory of Ministry of Education,Qinghai Normal University,Xining 810008,China
2.Normal College for Nationalities,Qinghai Normal University,Xining 810008,China
指代是自然語言中一種復(fù)雜的語言現(xiàn)象,是文本處理和信息抽取不可或缺的重要組成部分[1],指代消解在文本處理和信息抽取中起著重要的作用,并已成為文本摘要、機(jī)器翻譯、多語言信息處理、語義分析、問答系統(tǒng)等應(yīng)用的關(guān)鍵問題[2]。近五十年來,國外對主流語言指代消解問題的研究比較深入,提出了各種消解方法[3],并且許多重要的會議都設(shè)立了指代消解的專題會議(比如:1997年的EACL、MUC和1999年的ACL等)[4]。隨著網(wǎng)絡(luò)和計(jì)算機(jī)技術(shù)的快速發(fā)展,近期國內(nèi)研究者對中文指代消解問題的研究也取得了很大的進(jìn)步,也有不少相關(guān)的研究論文和成果[5-10]。
以計(jì)算機(jī)科學(xué)技術(shù)為核心的信息化時(shí)代,在信息界的相關(guān)研究者對藏語言文字進(jìn)行了分詞、詞性標(biāo)注、命名實(shí)體識別[11]、詞法分析、分句、句法分析等研究工作,對今后的藏文信息處理發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ),而對藏文進(jìn)行指代消解也是藏文通過分詞標(biāo)注和命名實(shí)體識別后需要解決的一項(xiàng)重要工作。目前還未見到對藏文進(jìn)行指代消解的相關(guān)文獻(xiàn)和報(bào)道。因此,本文將英文和中文的指代消解研究作為參考,采用規(guī)則、最大熵模型和規(guī)則與最大熵模型相結(jié)合等三種方法對藏文人稱代詞進(jìn)行指代消解研究。
藏文中的人稱代詞同漢文一樣有三種:第一人稱代詞、第二人稱代詞和第三人稱代詞,每個(gè)人稱代詞都有單復(fù)數(shù)之分,并且其表達(dá)方式豐富多樣;根據(jù)藏文自身的特點(diǎn)和表達(dá)方式的多樣性,在漢文中表示第一人稱代詞的單數(shù)“我”和復(fù)數(shù)“我們”,表示第二人稱代詞的單數(shù)“你(您)”和復(fù)數(shù)“你們(您們)”以及表示第三人稱代詞的單數(shù)“他、她”和復(fù)數(shù)“他們、她們”在藏文中分別可以表示成:“ ??? ??? ???????? ???? ?????? ????? ?????? ???????? ??????? ???? ?? ??? ?? ??? ?? ? ?????? ???? ? ? ? ? ? ? ”、“ ??? ??? ? ??? ????? ??? ??? ? ?? ???? ? ??? ????? ?? ???? ? ??? ??? ? ? ? ? ? ??? ??? ? ???? ??? ??? ??? ???????? ???? ? ???? ??? ???? ? ? ? ? ???? ??? ???? ? ? ?”以及“???? ???? ???? ?????? ?? ?????? ?? ???? ???? ???? ????? ? ?????????????? ???????????? ??????????? ”等。
分詞標(biāo)注和命名實(shí)體識別是對代詞進(jìn)行指代消解的關(guān)鍵問題,本文針對表示同一人名實(shí)體的名詞和代詞進(jìn)行分析,采取了三種特征屬性和規(guī)則進(jìn)行消解。
在藏文中,人稱代詞的單復(fù)數(shù)有很多種不同的表達(dá)形式:第一人稱的單、復(fù)數(shù)形式“??(我)”和“?????(我們)”可以表示成“??? ???????? ???? ?????? ????? ?????? ???????? ??????? ???? ?? ??? ?? ??? ????????????? ??????”等,第二人稱的單、復(fù)數(shù)形式“??? ?????????? ?????(你和您)”和“??? ?????????????? ????????? (你們和您們)”可以表示成“??? ?????? ???????? ???? ? ?? ???? ? ??? ??? ? ???? ??? ???????? ??? ?????? ????? ??? ???? ????? ??? ???? ???????? ??? ???????”等,第三人稱的單、復(fù)數(shù)形式“??????????????? (他和她)”和“??????????????????????? (他們和她們)”可以表示成“???????? ???????? ???? ???????? ??????????? ???????????? ??????????? ????????? ”等;在藏語語法中,名詞和代詞所對應(yīng)的單復(fù)數(shù)有非常嚴(yán)格的要求,具體如下。
3.1.1名詞短語作主語的情況
若主語是由幾個(gè)單一名詞通過連接詞“??(?和)”連接而成的名詞短語時(shí),對應(yīng)的代詞為復(fù)數(shù)。比如:“??????? ??? ? ?? ??? ? ?? ????? ? ?? ????? ??? ???? ??? ?????????? ? ?? ???? ???? ????? ? ??? ????? ? ? ? ? ?? ? ? ? ??? ”,其 中“ ???????”是復(fù)數(shù),指代的是“???????????????? ??? ????”。
3.1.2名詞作主語的情況
(1)若主語為單獨(dú)的人名時(shí),對應(yīng)的代詞為單數(shù)。比 如 :“?? ??????????? ??????????? ? ??? ???????? ??? ? ? ? ????? ? ?? ???? ??????? ???? ???? ????? ? ?? ??????? ??? ??? ”,其 中“???????”是單數(shù),指代的是“???????”。
(2)若主語為表示人的群體的單一名詞+“????? ??????”等數(shù)詞時(shí),對應(yīng)的代詞為復(fù)數(shù)。比如:“????????????? ??????????????? ??????????????? ????? ???? ????? ??????? ?????? ???? ????????????????? ??????????????????????????????? ??????????? ????????? ??????????????? ”,其中“???????”是復(fù)數(shù),指代的是“????????????? ??”。
根據(jù)上述可以看出,在藏語中人稱代詞的單復(fù)數(shù)有著很嚴(yán)格的界限,即表示單、復(fù)數(shù)的名詞一定與表示單、復(fù)數(shù)的代詞一一對應(yīng),因此命名實(shí)體和人稱代詞的單復(fù)數(shù)一致性作為代詞消解的條件,并對單復(fù)數(shù)屬性制定以下規(guī)則。
規(guī)則1若人稱代詞是單數(shù),則找到表示單獨(dú)人名的名詞;若人稱代詞是復(fù)數(shù),則找到連接詞“???(和)”連接而成的名詞短語或表示人的群體的單一名詞+“?? ??? ??????”等數(shù)詞的命名實(shí)體;否則不予消解。
無論是藏語、漢語還是英語在表達(dá)上對人名都有性別之分,藏語中用“???(他)”表示男性,用“???????或???(她)”表示女性;在漢語和英語中的用法也相類似,用“他(he)”表示男性,用“她(she)”表示女性,用“它(it)”表示不知性別的人或物。在藏語中人名的結(jié)構(gòu)成分復(fù)雜多樣,最短兩個(gè)音節(jié)和最長八九個(gè)音節(jié)及其以上,比如:“??? ?????? ???”、“????? ????????????? ??????????? ?????? ??????? ?????”。通過對安多藏區(qū)典型的常用人名進(jìn)行搜集,除了宗教人士以外的人名大部分都是由二到四個(gè)音節(jié)組成,并且性別有明顯的界限區(qū)分,在兩個(gè)音節(jié)組成的藏語人名是從自身可以區(qū)分性別的,一般像“??? ?????? ??? ??? ????? ?? ???????? ”等都是典型的男性名字,而“???? ?????? ?? ???????? ???? ?? ????? ”等都是典型的女性名字;三個(gè)音節(jié)組成的藏語人名由最后一個(gè)音節(jié)來區(qū)分性別,最后的音節(jié)為“???????? ??? ”等的是屬于男性名字,最后的音節(jié)為“????? ???????? ”等的是屬于女性名字,而最后的音節(jié)為“????? ????? ???? ”等是屬于不知性別的人的名字;四個(gè)音節(jié)組成的藏語人名由后兩個(gè)音節(jié)來區(qū)分性別,后兩個(gè)音節(jié)為“????????? ?? ??????? ????????????? ”等的是屬于男性名字,后兩個(gè)音節(jié)為“????????? ????? ???????? ????????? ”等的是屬于女性名字,而后兩個(gè)音節(jié)為“??????????? ”等的是屬于不知性別的人的名字。不知性別的主要由其前面的音節(jié)來區(qū)分性別,如果其前面的音節(jié)是兩個(gè)音節(jié)組成的典型的男性名字,則屬于男性,否則就屬于女性(本文針對除了宗教人士以外的安多藏區(qū)常用人名以及所對應(yīng)的代詞進(jìn)行指代消解)。
根據(jù)上述可以看出,由“???(他)”和“???????(他們)”來指代人名為男性的命名實(shí)體,而“???????(她)”和“???????????(她們)”來指代人名為女性的命名實(shí)體。
規(guī)則2若人稱代詞為“???(他)”和“???????(他們)”,則找到表示男性的人名進(jìn)行消解;若人稱代詞為“???????(她)”和“???????????(她們)”,則找到表示女性的人名進(jìn)行消解;否則不予消解。
在語言學(xué)中用代詞來指代前文內(nèi)容的現(xiàn)象是很常見的,但代詞在指代命名實(shí)體時(shí)對不同句子指代的距離值不同[12],通過對大量的藏文語料和各種類型的句子分析發(fā)現(xiàn),代詞所指代的內(nèi)容一般都是離代詞很近的內(nèi)容,而且距離值越小的句子內(nèi)容越容易看懂,被代詞指代的概率也就越大。根據(jù)上述可以對距離屬性制定以下規(guī)則。
規(guī)則3本文將指代的距離限制在小于等于4的范圍內(nèi),并且距離值越小時(shí)命名實(shí)體被指代時(shí)的權(quán)重就越大[13]。
具體的消解流程如圖1所示。
圖1 基于規(guī)則的指代消解流程圖
圖1中,運(yùn)用青海師范大學(xué)分詞標(biāo)注工具,對包含2 306個(gè)待消解對的藏文句子集進(jìn)行了分詞、詞性標(biāo)注,并采用文獻(xiàn)[11]的命名實(shí)體識別方法對藏文句子中的命名實(shí)體進(jìn)行自動識別后,對分詞標(biāo)注和命名實(shí)體識別錯(cuò)誤部分進(jìn)行了手動修改,最后通過上述三種規(guī)則對句子中的人稱代詞進(jìn)行了指代消解。
最大熵模型的基本思想是只掌握關(guān)于未知分布部分信息的前提下,選取符合這些信息且熵值最大的概率分布[14]。在最大熵模型訓(xùn)練中,信息一般是以特征的形式進(jìn)行表達(dá),假設(shè)存在n個(gè)特征 fi()i=1,2,…,n ,那么定義{0,1}域上一個(gè)二值函數(shù)來表示一個(gè)特征:
對于每一個(gè)特征F(a,b),模型P的熵函數(shù)為:
其條件概率的最大熵模型為:
其中C表示滿足限制條件下的模型集合。
對于藏文人稱代詞的指代消解,最大熵模型訓(xùn)練是可以通過 p(b|a)的計(jì)算來判斷待消解對(a1,a2)是否指向同一實(shí)體,其中,a為特征向量,是通過對待消解對(a1,a2)的特征屬性進(jìn)行比較而得到的,a1表示候選先行詞,即名詞、命名實(shí)體和名詞短語;a2表示代詞,是一個(gè)二值屬性,若待消解對(a1,a2)指向同一實(shí)體,則F值等于1,否則等于0。p(b|a)表示特征向量a條件下計(jì)算指向同一實(shí)體的條件概率[15]。
通過大規(guī)模的相關(guān)藏文文本語料以及對藏文的語法和句法進(jìn)行分析發(fā)現(xiàn),在藏文中指代同一實(shí)體的候選先行詞(名詞、命名實(shí)體和名詞短語)和代詞具有三種相同的特征屬性。
該屬性是個(gè)二值函數(shù),對兩個(gè)待消解項(xiàng)的單復(fù)數(shù)屬性值進(jìn)行比較,若兩個(gè)屬性值一致,則其特征值為1;否則為0。
以上函數(shù)中,a表示測試語料中的候選先行詞,b表示測試語料中的代詞。例如:(1)“????????/nr?????/uu??????/rr????? ???? /nt?????/gz??? ??????/nn????? ?/up?/gl? ????????/rr??? ???????? ????/nv? ?/gl?? ??????? ?/dc????/ad? ”;(2)“??????????/nr???/cd??? ??? ?????/nr??? ?????/mj??? ??????? ?????/nn??????/up?/gl? ????????/rr?????/gz???? ???????/nn?????/dc????/ad? ”。經(jīng)過規(guī)則預(yù)處理以上兩個(gè)句子(1)、(2)中可以提取候選先行詞和待消解的詞對有:(???????? ,???????? )和(???????????????? ??? ????? ,???????? ),其中(???????? ,???????? )的屬性值相同(都屬于單數(shù)),所以其函數(shù)值為 F1(???????? ,???????? )=1,(???????????????? ??? ????? ,???????? )的屬性值相同(都屬于復(fù)數(shù)),因此其函數(shù)值為 F1(???????????????? ??? ????? ,???????? )=1。
該屬性是個(gè)二值函數(shù),對兩個(gè)待消解項(xiàng)的性別屬性值進(jìn)行比較,若兩個(gè)待消解項(xiàng)的性別一致,則其特征值為1;否則為0。
比如,4.1節(jié)中的句子(1)經(jīng)過規(guī)則預(yù)處理后發(fā)現(xiàn)其中的待消解對(???????? ,???????? )的性別一致(都屬于女性),因此其函數(shù)值為 F2(???????? ,???????? )=1。
該屬性是個(gè)多值函數(shù),對兩個(gè)待消解項(xiàng)的文本距離進(jìn)行考查,其取值為它們所屬句子的編號之差的絕對值。根據(jù)上一章的規(guī)則集(3.3節(jié)中的規(guī)則3),本文將指代的距離限制在小于等于4的范圍內(nèi)。因此,若兩個(gè)待消解項(xiàng)處在同一句中,則其特征值為4;若它們之間相差一句,則其特征值為3;若它們之間相差兩句,則其特征值為2;若它們之間相差三句,則其特征值為1;否則為0。
例如:“??????????/nr??/gl????? ??/nn???????/up??/gx?/rr??/gx???? ???/nn??/gl????/rr??/gl?? ???????/nn?? ?/ux? lz?????? ??/nn?? ????/gx???/rr??/gl?/rr?/gl?? ? ???/nn ?? ????/rz? ????/vt?? ?/gl? ?? ?/vt?? ???? ?/tt?? ???? ?/mj? ?/gl???/rr?????/gz? ? ?/nn??/gx??/rr??/gl??/nn????????/ry?????/df??? ???/vi??/gl?? ??? ??/nn??? ?????/gx???? ??/vt? lz ???/rr?????/gz???/nn??/gx?? ??/cj??/rr??/gl??? ???????????/nv?? ?/vt? lz”經(jīng)過規(guī)則與處理,在本例中提取的候選先行詞和待消解的詞對及其函數(shù)值分別為:F4-1(??????????,第一句中的???)=4,F(xiàn)4-2(??????????,第二句中的???)=3,F(xiàn)4-3(??????????,第三句中的???)=2,F(xiàn)4-4(??????????,第四句中的???)=1。
根據(jù)以上特征,具體的消解流程如圖2所示。
圖2 基于統(tǒng)計(jì)的指代消解流程
本文所使用的混合策略方法是規(guī)則和最大熵模型相結(jié)合的方法,首先對語料進(jìn)行分詞、詞性標(biāo)注、命名實(shí)體識別后對代詞進(jìn)行過濾,找出能夠用規(guī)則的方法進(jìn)行消解的代詞并進(jìn)行消解;如果在消解后的語料中出現(xiàn)沒有進(jìn)行指代消解的名詞和代詞,將把它們提取出來組成待消解對候選集,再利用統(tǒng)計(jì)的方法進(jìn)行消解。具體流程如圖3所示。
圖3 混合策略的指代消解流程圖
從圖3中可以看到,基于混合策略的方法主要有規(guī)則預(yù)處理、代詞過濾、基于規(guī)則的消解和基于統(tǒng)計(jì)的消解等四部分。
本文的訓(xùn)練語料和測試語料取材于藏文小說、新聞、童話等。對這些取材進(jìn)行切分標(biāo)注和命名實(shí)體后,經(jīng)手動修改其中出現(xiàn)錯(cuò)誤的切分標(biāo)注,精選了包含2 306個(gè)待消解對的藏文句子進(jìn)行測試,并采用了自然語言處理中常用的三個(gè)評測指標(biāo):準(zhǔn)確率(P)、召回率(R)和F值進(jìn)行實(shí)驗(yàn)分析。各個(gè)指標(biāo)的定義如下:
其中,w是召回率和準(zhǔn)確率的相對權(quán)重,本文中w取為0.5。實(shí)驗(yàn)結(jié)果如表1、表2所示。
表1 三個(gè)人稱代詞實(shí)驗(yàn)結(jié)果對比%
表2 三種方法的實(shí)驗(yàn)結(jié)果對比 %
實(shí)驗(yàn)結(jié)果表明,基于規(guī)則、統(tǒng)計(jì)和規(guī)則與統(tǒng)計(jì)相結(jié)合的方法對藏文人稱代詞指代消解研究的效果較好,但仍然未能達(dá)到很理想的效果,主要原因有兩方面。一方面,如果在一個(gè)句子當(dāng)中出現(xiàn)兩種不同的人稱代詞,而只有一個(gè)人名,比如 4.3 節(jié)中的藏文句子“??????????/nr??/gl????? ??/nn???????/up??/gx?/rr??/gx???? ???/nn??/gl????/rr??/gl?? ???????/nn?? ?/ux ? lz? ? ? ? ?? ? ?/nn ?? ????/gx ???/rr? ?/gl?/rr?/gl?? ? ???/nn ?? ????/rz? ????/vt?? ?/gl??? ?/vt ?? ?????/tt?? ?????/mj??/gl???/rr?????/gz???/nn??/gx??/rr??/gl??/nn????????/ry?????/df??? ???/vi??/gl?? ??? ??/nn??? ?????/gx? ??? ? ?/vt? lz ???/rr?????/gz???/nn? ?/gx?? ??/cj??/rr??/gl??? ???????????/nv?? ?/vt? lz”中人名只有“??????????/nr”一個(gè),而人稱代詞有第一人稱代詞“?/rr”和第三人稱代詞“???/rr”兩種,因此在消解過程中人稱代詞未能正確找出所對應(yīng)的人名,導(dǎo)致消解錯(cuò)誤。另一方面,藏文復(fù)數(shù)形式的人稱代詞不僅形式復(fù)雜多樣,而且指代情況千差萬別,導(dǎo)致在指代過程復(fù)雜多變,影響了實(shí)驗(yàn)結(jié)果。
本文根據(jù)藏族人名和藏文人稱代詞的構(gòu)詞規(guī)律和形態(tài)特征,制定了三類消解規(guī)則,并設(shè)計(jì)了相應(yīng)的統(tǒng)計(jì)特征,最后采用基于規(guī)則、最大熵和規(guī)則與最大熵模型相結(jié)合的方法研究了藏文人稱代詞指代消解。經(jīng)實(shí)驗(yàn),對于藏文人稱代詞指代消解研究問題,采用基于混合策略(規(guī)則和最大熵模型相結(jié)合)的方法為較好的一種消解方法,基于最大熵模型的方法為其次,基于規(guī)則的方法相對差一些。后續(xù)工作中,將借助于藏語句法和藏語語義的研究,分析影響實(shí)驗(yàn)結(jié)果的復(fù)數(shù)形式人稱代詞,以改善指代消解任務(wù)。
參考文獻(xiàn):
[1]Morton T S.Coreference for NLP applications[C]//Proc of ACL,2000:173-180.
[2] 孔芳,周國棟.指代消解綜述[J].計(jì)算機(jī)工程,2010,36(8):33-36.
[3]王厚峰.指代消解的基本方法和實(shí)現(xiàn)技術(shù)[J].中文信息學(xué)報(bào),2002,16(6):9-17.
[4]王海東,胡乃全.指代消解中語義角色特征的研究[J].中文信息學(xué)報(bào),2009,23(1):23-29.
[5]孔祥勇,張冬茉.一種信息抽取系統(tǒng)中漢語指代消解算法[J].計(jì)算機(jī)工程,2003,29(16):76-78.
[6]周俊生,黃書劍.一種基于圖劃分的無監(jiān)督漢語指代消解算法[J].中文信息學(xué)報(bào),2007,21(2):76-82.
[7]金可佳.統(tǒng)計(jì)與規(guī)則相結(jié)合的指代消解[D].武漢:武漢科技大學(xué),2009.
[8]孔芳,朱巧明,周國棟.中英文指代消解中待消解項(xiàng)識別的研究[J].計(jì)算機(jī)研究與發(fā)展,2012(5):1072-1085.
[9]奚雪峰,周國棟.基于Deep Learning的代詞指代消解[J].北京大學(xué)學(xué)報(bào):自然科學(xué)版,2014,50(1):100-109.
[10]周炫余,劉娟,羅飛,等.中文指代消解模型的對比研究[J].計(jì)算機(jī)科學(xué),2016,43(2):31-34.
[11]華卻才讓,姜文斌,趙海興,等.基于感知機(jī)模型藏文命名實(shí)體識別[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(15):172-176.
[12]張文艷,李存華.結(jié)合規(guī)則與語義的中文人稱代詞指代消解[J].數(shù)據(jù)采集與處理,2017,32(1):149-156.
[13]李國臣,羅云飛.采用優(yōu)先選擇策略的中文人稱代詞的指代消解[J].中文信息學(xué)報(bào),2005,19(4):24-30.
[14]宗成慶.統(tǒng)計(jì)自然語言處理[M].2版.北京:清華大學(xué)出版社,2013:122-124.
[15]鐘丹,朱倩,李梅,等.人稱名詞短語單復(fù)數(shù)信息和最大熵模型的指代消解[J].江南大學(xué)學(xué)報(bào):自然科學(xué)版,2009,8(6):666-669.