王榮波,孫小雪,黃孝喜,劉和平
(1.杭州電子科技大學(xué) 計算機(jī)學(xué)院,浙江 杭州 310018;2.浙江大學(xué) 軟件學(xué)院,浙江 杭州 310000)
基于指代消解的漢語句群自動劃分方法
王榮波1,孫小雪1,黃孝喜1,劉和平2
(1.杭州電子科技大學(xué) 計算機(jī)學(xué)院,浙江 杭州 310018;2.浙江大學(xué) 軟件學(xué)院,浙江 杭州 310000)
漢語句群自動劃分是將篇章劃分成包含不同主題的文本片段,在信息提取、文摘生成、語篇理解及其他多個領(lǐng)域有著極為重要的應(yīng)用。指代消解是識別篇章中先行詞和照應(yīng)詞關(guān)聯(lián)起來的過程,消解不同表達(dá)是自然語言理解的基礎(chǔ)之一。針對目前的句群劃分工作的重點在于劃分出主題之間的邊界而較少利用其本身指代關(guān)系來進(jìn)行語言理解,或者因指代模糊而得到錯誤的劃分結(jié)果的問題,提出了一種基于指代消解的句群自動劃分方法。該方法從對篇章的指代情況消解出發(fā),利用適合中文的多層過濾指代消解方法得到指代鏈信息,以消除不同名詞代表相同實體、代詞指代不明的問題。結(jié)合指代鏈信息,并同時考慮篇章銜接詞因素,設(shè)計并進(jìn)行了基于多元判別分析(Multiple Discriminate Analysis,MDA)的一組評價函數(shù)J評價句群劃分驗證實驗。實驗結(jié)果表明,所提出的方法能夠有效地進(jìn)行句群自動劃分,統(tǒng)計正確分割平均Pμ提高了7%左右。
句群劃分;指代消解;多層過濾;多元判別分析
在中文信息處理技術(shù)的發(fā)展過程中,人們發(fā)現(xiàn)傳統(tǒng)的中文語法單位“詞語”、“句子”能夠承載的信息量太小,而“段落”、“篇章”承載的信息量又太大。根據(jù)漢語本身的意合特點,語義相關(guān)的內(nèi)容通常會出現(xiàn)在同一片段內(nèi),要完全理解一個句子的含義往往需要充分利用其上下文信息[1],因而將篇章段落劃分為不同的句群是篇章理解的重中之重。自然語言中還存在大量的指代現(xiàn)象,篇章理解的另外一個工作就是指代消解,指代消解可以有效避免“一詞多義”和“多詞同義”的問題。指代消解連接了指代詞和先行語,明確了代詞以及有歧義的名詞指向,句群為其內(nèi)的句子提供了可靠的上下文語境,句群劃分結(jié)合指代消解在篇章分析、機(jī)器翻譯、自動文摘領(lǐng)域有重要作用[2-3]。
漢語句群自動劃分是將篇章劃分成包含不同主題的文本片段,指代消解是將篇章中的先行詞和照應(yīng)詞關(guān)聯(lián)起來的過程,消解不同表達(dá)是自然語言理解的基礎(chǔ)之一。目前漢語句群的自動劃分方法研究主要分為兩種:基于規(guī)則的漢語句群劃分方法和基于文本信息的句群劃分方法。研究者對句群這一語法單位的相關(guān)研究比較少,也不夠深入,相比較而言,他們更加注重句子、段落這種存在天然分割點的語法單位,或者是在研究句群劃分時忽略了語言本身的指代結(jié)構(gòu)、關(guān)聯(lián)詞等問題,從而得到不夠準(zhǔn)確的句群劃分。
張全等[4]根據(jù)漢語篇章句群本身的語義關(guān)聯(lián)性和接應(yīng)、組合規(guī)律制定了句群劃分的相關(guān)規(guī)則;在概念層次網(wǎng)絡(luò)(HNC)語境觀的指導(dǎo)下,通過對領(lǐng)域句類知識的研究,闡述了一種新型的句群處理方法[5]。韋向峰等[6]根據(jù)HNC理論,認(rèn)為句群領(lǐng)域分析是句群分析的關(guān)鍵,通過研究自動獲取句群的領(lǐng)域或語境信息得到句群。但是上述基于HNC概念的研究工作會受到相對固定的領(lǐng)域知識或者判定規(guī)則的限制。
句子完整含義的理解需要有較為全面的上下文。陳怡疆等[1]認(rèn)為,如果上下文信息量太少,那么很多有用的信息就會丟失,將得不到句子全部的含義,但是如果信息量太大,又會造成搜索空間過大和數(shù)據(jù)稀疏問題,因而表示這個合適的大小不是句子或者段落,而是句群,是包含一個意義完整的主題的一組句子。他們提出了一種利用局部重現(xiàn)度較高的詞作為特征的層次聚類算法,將篇章表示成一棵句群樹,葉子節(jié)點為單個句子,內(nèi)部節(jié)點就是一個多重句群,但是并未考慮篇章指代詞的作用。李杰等[7]提出一種基于多元判別分析的漢語句群自動劃分方法,是一種明確可計算的模型。算法通過Skip-Gram Model獲取句子的特征向量,與傳統(tǒng)VSM相比,減少了數(shù)據(jù)稀疏,再考慮句群內(nèi)部距離、句群間距離、切分片段長度和篇章銜接詞等因素,設(shè)計基于MDA方法的評價函數(shù)J,通過比較J的值獲得句群劃分結(jié)果,但僅僅考慮了句首指代詞。
針對現(xiàn)有的句群劃分缺少指代消解的情況,在已有基于多元判別分析(MDA)的句群劃分方法的基礎(chǔ)上,通過引入指代消解來優(yōu)化漢語句群的自動劃分?;静襟E為:利用適合中文的多層過濾指代消解模型獲取中文語料指代消解的結(jié)果[8];通過Skip-Gram Model獲取句子的特征向量;設(shè)計明確可計算的基于MDA的評價函數(shù)J,加入指代因素、考慮關(guān)聯(lián)詞的作用,實現(xiàn)對段落的切分并對所有的劃分結(jié)果進(jìn)行評價;評價值最高的句群劃分序列為該段落的最佳句群劃分結(jié)果。實驗結(jié)果表明,加入指代消解后指代鏈信息提高了句群劃分的效果,與傳統(tǒng)MDA方法的結(jié)果對比,Pu提升約9%,WindowDiff降低約1%;與未加入指代消解的相同方法相比Pu提升約7%。
2.1 指代消解的處理
中文指代消解的研究發(fā)展較為緩慢,主流方法主要有三類:基于無監(jiān)督的方法、基于有監(jiān)督的方法和基于規(guī)則的層次過濾的方法。因為基于無監(jiān)督的指代消解方法不依賴標(biāo)注好的語料庫,所以一度盛行。隨著中文語料庫的發(fā)展,基于有監(jiān)督的指代消解方法以其較高的消解準(zhǔn)確率取得一席之地。然而,基于有監(jiān)督的指代消解方法在提取的特征向量中存在一些消解正確率較低的特征,該類特征會覆蓋消解正確率較高的特征,從而影響模型的消解正確率?;谝?guī)則的層次過濾模型不需要標(biāo)注好的語料庫,而且模型的各個層次按照消解精度從高到低排列,不會出現(xiàn)消解正確率低的特征覆蓋消解正確率高的特征的現(xiàn)象,因此該方法會獲得更好的消解效果,也比較適合中文的指代消解[9]。
按照基于規(guī)則的層次過濾指代消解的思想,該模塊的系統(tǒng)框架分為三部分:預(yù)處理、待消解項識別、指代消解處理[10-11]。
(1)預(yù)處理:對語料進(jìn)行分詞,詞性標(biāo)注,命名實體識別和句法分析,句法分析結(jié)果由Stanford Parser處理得到。根據(jù)相應(yīng)的語言學(xué)規(guī)則從句法分析結(jié)果抽取出候選待消解項,包括名詞、名詞短語和代詞。
(2)待消解項識別:待消解項識別的精度對整個指代消解模型的精度產(chǎn)生了極大影響,并且丟失待消解項比錯分指代鏈更影響消解模型的精度。待消解項識別分為兩部分:擴(kuò)充階段,提取所有的名詞和名詞短語,盡量保證不會丟失待消解項;過濾階段,去除一些無需消解的停用詞,沒有意義的時間,數(shù)詞,金錢等詞匯,過濾重復(fù)詞,在保證一定召回率的同時,提高待消解項識別的正確率[12]。
(3)指代消解處理:字符串完全匹配,別名匹配和同位語對名詞短語的指代消解貢獻(xiàn)達(dá)到了97%[13],而代詞指代消解是篇章指代消解的一個關(guān)鍵。因此,設(shè)置四個層次,將各個過濾層次按照消解正確率從高到低排列,名詞短語和代詞通過層次過濾尋找其先行語。各個層次過濾模塊如表1所示。
●完全字符串匹配。
若兩個字符串完全相同,則認(rèn)為這兩個名詞短語指向同一個實體。該層的準(zhǔn)確率最高。
表1 指代消解各層過濾模塊
●別名匹配。
若一個字符串是另外一個的子串或抽取子串,則說明它們之間有別名關(guān)系,是指向的同一個實體。例如:“普京”是“弗拉基米爾·弗拉基米羅維奇·普京”的子串,“中國”是“中華人民共和國”的抽取子串。
●同位語。
若兩個短語之間有同位語關(guān)系,則說明他們指向相同。同位語的定義是一個名詞(或其他形式)對另一個名詞或代詞進(jìn)行解釋或補(bǔ)充說明,這個名詞(或其他形式)就是同位語。
●代詞匹配層。
代詞指代是指代的重點和難點。這層是解決代詞和名詞或名詞短語之間是否具有指代關(guān)系,主要通過判斷單復(fù)數(shù)匹配關(guān)系、性別是否一致、有無生命,還有根據(jù)命名實體結(jié)果分為組織、地點、人名、雜項等的匹配。
基于指代消解的漢語句群劃分方法整體框架如圖1所示。
圖1 基于指代消解的漢語句群劃分方法整體框架圖
2.2 句群劃分模型
句群,顧名思義就是若干句子的組合,它們描述同一個中心,意義完整,句子的組合有一定的邏輯順序[14]。句群劃分主要依據(jù)語言本身的特點和組合規(guī)律。句群劃分實例如圖2所示。句群1中的“它”是一個指代詞,指代白楊樹,通過指代關(guān)系的確認(rèn)可以很好地消解詞語的二義性,對以后衡量類內(nèi)距離有重要作用;句群2揭示了其組合規(guī)律,用“難道”開頭的四個反問句表達(dá)了對北方軍民的贊頌,是一種遞進(jìn)關(guān)系,第④句中存在銜接詞“但是”,代表轉(zhuǎn)折關(guān)系,如果切分出來必然不合理,需要對這種切分結(jié)果進(jìn)行懲罰。
圖2 句群劃分實例
根據(jù)漢語表達(dá)習(xí)慣,一個句子可以獨立地表達(dá)一個完整的意思,相似的內(nèi)容一般出現(xiàn)在同一片段內(nèi),段落是一個意義完整性的天然分割點。但一個段落中可能包含不同的主題,所以句群的劃分以句子為基本單位進(jìn)行,在一個段落中劃分出不同主題的句子群。
MDA是一種獨立于具體領(lǐng)域的文本線性分割統(tǒng)計模型方法,可以通過定義評價函數(shù)實現(xiàn)對句群劃分的全局評價[15]。具體是對句子向量構(gòu)成的數(shù)據(jù)空間進(jìn)行劃分,考慮句群內(nèi)部距離、句群之間距離、切分片段長度、指代因素以及篇章銜接詞因素,設(shè)計基于MDA的評價函數(shù)J,使函數(shù)J值取得最大的劃分即為最優(yōu)劃分結(jié)果。
設(shè)最優(yōu)劃分結(jié)果為D,則:
(1)
其中,Sw為類內(nèi)離散矩陣;Sb為類間離散矩陣;SL為切分片段長度懲罰因子;Sc為指代因子;Sd為篇章銜接詞懲罰因子。
(1)句群內(nèi)部距離與句群間距離。
句群內(nèi)部的緊湊性和句群間的離散性是重要特點。類內(nèi)離散矩陣可用于衡量句群內(nèi)部的內(nèi)聚程度。
(2)切分片段長度因素。
當(dāng)劃分模式切分出連續(xù)的單句時,需要對結(jié)果進(jìn)行懲罰。
(3)指代因素。
消除代詞的指代不明和實體的不同名詞短語表達(dá)問題是計算機(jī)理解自然語言的基礎(chǔ)。這里將指代消解后的指代鏈信息加入評價函數(shù)J。
(4)篇章銜接詞因素。
句子之間在表達(dá)形式上也會顯示出其連貫性。建立篇章銜接詞表Dict,包含“而”、“并且”等詞。
3.1 實驗語料與測評
(1)語料設(shè)置。
目前還沒有一個公開、通用的中文句群劃分評測語料,為了驗證指代消解對句群劃分的影響,取與文獻(xiàn)[7]相同的實驗語料—《讀書》雜志(1979-1983),共50期,人工標(biāo)注了其劃分結(jié)果,分割片段的平均句子數(shù)為3,段落的平均句子數(shù)為9,文獻(xiàn)作者通過計算Kappa值說明了語料的相對一致可靠性。
首先對原語料進(jìn)行指代消解處理,得到指代鏈信息,對位于同一指代鏈上的名詞、名詞短語或者代詞進(jìn)行一定規(guī)則的替換。之后進(jìn)行句群自動劃分的處理,分詞后使用詞向量訓(xùn)練工具word2vec獲取詞語在低維空間中的向量表示,再對形成的數(shù)據(jù)空間進(jìn)行劃分,通過評價函數(shù)J得到最優(yōu)劃分結(jié)果。
(2)測評指標(biāo)。
傳統(tǒng)的評價方式(準(zhǔn)確率和召回率)主要是考慮絕對匹配的情況,而在句群劃分中,這一評價方式不再適合。為此,采用文本分割中常用的Pu[16]和WindowDiff[17]評價方法。
Pu通過計算任意兩個句子是否被算法正確劃分為同一片段的概率,分割點距離正確的分割點越近,Pu評價值越高。計算公式如下:
(2)
WindowDiff對不正確的分割點做出懲罰,即“正錯誤”和“負(fù)錯誤”。“正錯誤”是指在實驗中多做了分割,“負(fù)錯誤”是指在實驗中遺漏了分割。WindowDiff值越小,說明分割結(jié)果越好。計算公式如下:
b(hypi,hypi+k)|>0)
(3)
其中,b(i,j)為相應(yīng)劃分模式下位置i和位置j直接的切分點的數(shù)量;k為平均切分片段句子數(shù)的1/2。
3.2 實驗結(jié)果及分析
(1)實驗結(jié)果。
指代消解性能見表2。其中,P(正確率)=正確識別的個體數(shù)/識別出的個體總數(shù);R(召回率)=正確識別的個體總數(shù)/測試集中存在的個體總數(shù);F=準(zhǔn)確率*召回率*2/(準(zhǔn)確率+召回率)。
表2 基于層次過濾的指代消解性能
表3展示了對文本進(jìn)行指代消解后的句群劃分在不同維度下評價函數(shù)J的實驗結(jié)果,統(tǒng)計正確分割的平均Pu值為91.26%,統(tǒng)計錯誤分割的平均WindowDiff值為27.26%,從100~300維,Pu值略有提升、WindowDiff值下降,而在400維,Pu下降、WindowDiff上升。
表3 不同維度下評價函數(shù)J的實驗結(jié)果 %
表4展示了加入指代消解和未加入指代消解的基于MDA的漢語句群自動劃分方法的比較結(jié)果,Pu提升約7%,WindowDiff提升約2%。
表4 加入和未加入指代消解的基于MDA的漢語句群自動劃分方法對比 %
表5展示了文中方法與傳統(tǒng)MDA方法的結(jié)果對比,Pu提升9%,WindowDiff降低1%。其中傳統(tǒng)MDA方法的評價函數(shù)J'通過衡量類內(nèi)離散矩陣、類間離散矩陣和切分片段長度得到。實驗結(jié)果表明,指代因素Sc和篇章銜接詞因素Sd起到了一定的作用。
表5 文中方法與傳統(tǒng)MDA方法的比較 %
(2)實驗分析。
加入指代消解后,顯著提高了句群劃分的效果,統(tǒng)計平均正確分割Pu有一定程度的提升,統(tǒng)計錯誤的平均分割WindowDiff有所下降。對句群劃分加入指代消解的處理消除了代詞指代不明、不同名字實則相同實體的情況,是篇章理解的重要因素,在后續(xù)衡量句群內(nèi)部的緊湊性和句群之間的離散性中發(fā)揮了重要作用。漢語篇章表述中,代詞指代是文本中數(shù)量較多的指代形式,而另外三種指代形式則出現(xiàn)較少,所以代詞指代對句群劃分的貢獻(xiàn)度最大,而因為完全字符串匹配、別名匹配、同位語匹配這三層準(zhǔn)確率達(dá)到97%左右,因此也很好地涵蓋了其他形式的指代情況。
通過Skip-Gram Model訓(xùn)練大規(guī)模語料獲取詞語在低維實數(shù)空間向量表示,通過挖掘深層語義信息獲取文本表面的聯(lián)系,通過表3說明并不是維度越高越好,Pu值與維度并不是線性關(guān)系。
由表4知,加入指代消解較未加入指代消解的Pu值提升明顯,說明加入指代消解后劃分句群的算法得到的切割點較接近實際的切割點,而WindowDiff值也較未加入指代消解的大,WindowDiff是對“正錯誤”和“負(fù)錯誤”的衡量,說明分割算法在這方面是有缺陷的。
為了在篇章理解的基礎(chǔ)上優(yōu)化漢語句群自動劃分,提出一種基于指代消解的句群自動劃分方法。該方法在MDA句群劃分法的基礎(chǔ)上,從語料名詞、名詞短語、代詞的指代消解出發(fā),進(jìn)而實現(xiàn)漢語句群的自動劃分?;谠摲椒?gòu)建了自動劃分系統(tǒng),并實現(xiàn)了基于指代消解的句群劃分。實驗結(jié)果表明,與傳統(tǒng)MDA方法對比,Pu提升約9%,WindowDiff降低約1%;與未加入指代消解進(jìn)行對比,Pu提升約7%。表明該方法有效可行。
[1] 陳怡疆,史曉東,周昌樂.Automatic partition of Chinese sentence group[J].Journal of Donghua University:English Edition,2010,27(2):177-180.
[2] 劉福君.基于指代消解的自動文摘研究[D].合肥:安徽大學(xué),2012.
[3] 石 晶.文本分割綜述[J].計算機(jī)工程與應(yīng)用,2006,42(35):155-159.
[4] 吳 晨,張 全.自然語言處理中句群劃分及其判定規(guī)則研究[J].計算機(jī)工程,2007,33(4):157-159.
[5] 韋向峰,繆建明,張 全,等.基于概念基元的句群情景框架抽取研究[J].微計算機(jī)應(yīng)用,2010,31(4):21-24.
[6] 韋向峰,繆建明,張 全.漢語句群領(lǐng)域的自動抽取研究[J].計算機(jī)工程與應(yīng)用,2009,45(4):11-15.
[7] 王榮波,李 杰,黃孝喜,等.基于多元判別分析的漢語句群自動劃分方法[J].計算機(jī)應(yīng)用,2015,35(5):1314-1319.
[8] 周炫余,劉 娟,盧 笑.篇章中指代消解研究綜述[J].武漢大學(xué)學(xué)報:理學(xué)版,2014,60(1):24-36.
[9] 周炫余,劉 娟,羅 飛,等.中文指代消解模型的對比研究[J].計算機(jī)科學(xué),2016,43(2):31-34.
[10] Raghunathan K,Lee H,Rangarajan S,et al.A multi-pass sieve for coreference resolution[C]//Conference on empirical methods in natural language processing.Mit Stata Center,Massachusetts,USA:A Meeting of Sigdat,A Special Interest Group of the ACL,2010:492-501.
[11] Lee H,Peirsman Y,Chang A,et al.Stanford's multi-pass sieve coreference resolution system at the CoNLL-2011 shared task[C]//Proceedings of the fifteenth conference on computational natural language learning:shared task.[s.l.]:Association for Computational Linguistics,2011:28-34.
[12] 孔 芳,朱巧明,周國棟.中英文指代消解中待消解項識別的研究[J].計算機(jī)研究與發(fā)展,2012,49(5):1072-1085.
[13] 高俊偉,孔 芳,朱巧明,等.基于SVM的中文名詞短語指代消解研究[J].計算機(jī)科學(xué),2012,39(10):231-234.
[14] 梅漢成.現(xiàn)代漢語句群研究概述[J].鹽城師范學(xué)院學(xué)報:人文社會科學(xué)版,1996(3):35-37.
[15] 朱靖波,葉 娜,羅海濤.基于多元判別分析的文本分割模型[J].軟件學(xué)報,2007,18(3):555-564.
[16] Beeferman D,Berger A,Lafferty J.Statistical models for text segmentation[J].Machine Learning,1999,34(1-3):177-210.
[17] Pevzner L,Hearst M A.A critique and improvement of an evaluation metric for text segmentation[J].Computational Linguistics,2002,28(1):19-36.
An Automatic Partition Method for Chinese Sentences Group with Coreference Resolution
WANG Rong-bo1,SUN Xiao-xue1,HUANG Xiao-xi1,LIU He-ping2
(1.School of Computer,Hangzhou Dianzi University,Hangzhou 310018,China;2.School of Software,Zhejiang University,Hangzhou 310000,China)
Automatic Chinese sentence grouping is to divide the text into texts fragments with different theme and plays an important role in information extraction,summary generation,sentence comprehension and other fields.Coreference resolution is a procedure of recognizing antecedent and anaphora and associating them in the chapter.Resolution of the different expression is one of the basis of natural language understanding.Currently,focus of automatic Chinese sentences grouping is recognizing boundaries of different topics.Instead,the coreference relations of passage are rarely used for language comprehension,and inaccurate results are usually existed due to vagueness resolution.So an automatic Chinese sentences grouping method based on coreference resolution is proposed,which starts with resolution of the passages and get link of resolution with multi-layer filter resolution method to eliminate different terms referred to the same entity or to unknown.Besides,the cohesive markers of passages are taken into account.A group of evaluation functions are designed to evaluate sentences grouping and the experimental results show that it has improved the Chinese sentences grouping work,by which Pμ has increased about 7%.
sentences grouping;coreference resolution;multi-pass sieve;MDA
2016-09-14
2016-12-15 網(wǎng)絡(luò)出版時間:2017-07-05
國家自然科學(xué)基金資助項目(61202281,61103101);教育部人文社會科學(xué)研究項目青年基金(10YJCZH052,12YJCZH201)
王榮波(1978-),男,副教授,CCF會員(E200017318M),研究方向為自然語言處理、篇章分析。
http://kns.cnki.net/kcms/detail/61.1450.TP.20170705.1651.062.html
TP391
A
1673-629X(2017)08-0061-05
10.3969/j.issn.1673-629X.2017.08.013