張志昌,姚東任,劉 霞,陳松毅,魯小勇
(西北師范大學計算機科學與工程學院,蘭州730070)
融合句法結構變換與詞匯語義特征的文本蘊涵識別
張志昌,姚東任,劉 霞,陳松毅,魯小勇
(西北師范大學計算機科學與工程學院,蘭州730070)
傳統(tǒng)文本蘊涵識別方法僅停留在詞匯級的識別,無法涉及句法、語義等方面,造成識別結果的F值較低。針對該問題,提出一種將句法結構的變換和傳統(tǒng)詞匯語義特征結合的中文文本蘊涵識別方法。對文本進行基于句法分析樹變換的預處理,將句法分析中適用于文本蘊涵識別的特征加入到相關的統(tǒng)計和詞匯語義特征中,使用統(tǒng)計機器學習的方法對由文本片段T和假設的文本片段H組成的文本對進行蘊涵關系分類,并經(jīng)過語義規(guī)則的修正處理得到最終的識別結果。在NTCIR RITE3上的評測結果表明,與III&CYUT,Yam raj等相比,該方法能獲得較高的F值。
中文文本蘊涵;句法結構變換;詞匯語義特征;詞匯統(tǒng)計特征;統(tǒng)計機器學習
在自然語言處理的很多實際應用(如問答系統(tǒng)、多文檔自動摘要、信息抽取、機器翻譯評測等方面)中,經(jīng)常需要進行文本的相似匹配或者語義推斷。這些應用面臨的一個主要困難是自然語言表達形式上的歧義性(同義異形、同形異義)。為了能夠有效地解決在實際應用中進行文本語義推理所面臨的歧義現(xiàn)象,Dagan和G lickman在2004年提出[1]用文本蘊涵這一概念為這些歧義現(xiàn)象建立一種統(tǒng)一的模型和處理框架。
所謂文本蘊涵[2]是指一個文本H中的意思可以通過另一個文本T推斷得到。更確切地講,給定一個文本片段T和被稱為假設的文本片段H,根據(jù)T的上下文語境進行解釋時,H的含義可以從T的含義中推斷出來,則稱T蘊涵H,記做T=>H。例如:T:百度的總部在北京市海淀區(qū);H:百度的總部在中國。這樣,T=>H,但是H≠>T。
近年來,隨著人們對文本蘊涵重要性的認識,越來越多的學者加入到這個研究方向上來。已有的文本蘊涵識別方法主要有以下3種:
(1)基于邏輯推理解碼[3-5]的方法。將文本T和假設H轉化為邏輯表示形式ΦT和ΦH,然后利用公理證明引擎,借助各種蘊涵規(guī)則和知識B,判斷是否能從ΦT推出ΦH,即判斷是否(ΦT∧B)=>ΦH如果能夠推出,則蘊涵。該方法直觀、容易理解,但是如果沒有足夠的蘊涵規(guī)則和知識,則公理證明引擎很難從文本T的邏輯表示推出假設H的邏輯表示。
(2)在兩文本間進行對齊和相似度計算的方法。計算T(或其某個局部)和H(或其某個局部)的各種相似度,如果該值超過一定閾值,則認為T蘊涵H。相似度的計算大致可分為如下3種:1)詞匯層面,計算兩文本表層字符串相似度[6];2)句法層面,計算T和H句法分析樹的某2個子樹的樹相似度[7];3)在淺層語義的層面進行。即在計算T的某個局部和H之間的相似度時,結合兩者的語義角色標注信息[8]。另外,當T蘊涵H時,H中的詞匯在T中也并不一定連續(xù)出現(xiàn)。所以,將T和H相對應的詞匯進行對齊也可以視為相似度的一種度量[9]。這類方案不可避免地要應用到類義字典(知網(wǎng)、W ordNet等)、蘊涵規(guī)則等各種語言知識資源,而中文的資源又相對缺乏,導致這方面的研究受限。
(3)基于機器學習分類的方法[10]。判斷文本T和假設H之間是否存在蘊涵關系可視為二元分類問題,利用機器學習方法,在大量的已標注文本蘊涵對(就是文本T和假設H)語料上訓練得到分類模型。在需要識別新的文本蘊涵關系時,利用訓練到的模型進行分類。該類方法既需要有大量的已標注的正例和反例文本蘊涵對,在構造文本T和假設H的特征向量時,也需要有各種語言和世界知識資源。
在上述方法中,利用公理證明引擎或者規(guī)則推理的方案都需要大量的外部知識模式,但這些模式庫無法在短時間內構建起來。因此,將各種相似度計算的結果加入到特征向量,并利用已有的機器學習方法進行蘊涵關系識別的處理方式則成為文本蘊涵研究的主流方向。但隨之而來的問題是難以找到一種或幾種能夠有效表達兩文本之間蘊涵關系的特征。原因在于絕大多數(shù)特征選取的過程中并沒有將句法結構的信息融入進來,而缺少了句法信息的詞匯語義疊加和統(tǒng)計對于句子一級語義的歧義性判別十分有限,進而影響文本對之間的蘊涵關系識別。
針對已有方法的不足,本文在相關統(tǒng)計特征、詞匯語義特征的基礎上,將句法信息融合到淺層特征中。通過對句法分析樹的裁剪變換,最大程度保留與蘊涵判別相關的句法信息。通過現(xiàn)有的機器學習算法進行訓練、預測,并通過語義規(guī)則的修正處理得到最終的識別結果。
2.1 模型框架
本文所提出的蘊涵識別系統(tǒng),其模型由預處理、特征融合、分類器和修正模塊4個部分組成,具體的模型結構如圖1所示。
圖1 本文模型結構
預處理模塊的使用為文本的特征提取奠定了基礎。本文系統(tǒng)主要使用了哈工大的LTP語言云作為分詞和句法分析的工具,可以較好地完成預處理的相關工作。命名實體識別經(jīng)過比較后決定采用了Stanford的分析器作為本文的處理工具。
2.2 傳統(tǒng)特征集
本文使用統(tǒng)計機器學習方法對文本對進行分類時,利用了詞的統(tǒng)計和語義特征進行蘊涵關系判別。
2.2.1 統(tǒng)計特征
系統(tǒng)利用詞覆蓋度fOverlap來表示文本對中相同詞匯的重復率,采用如下公式:
長度差fLength的特征有助于系統(tǒng)利用文本的長度進行蘊涵方向的輔助判定,公式為:
如果將文本表示成向量的形式,利用向量的余弦相似度比較文本的相似程度。余弦相似度fWordSim的定義如下:
其中,向量Ti和Hi是由文本T和H生成的n維向量。
2.2.2 詞匯語義特征
本文系統(tǒng)使用基于《同義詞林(擴展版)》的語義相似度計算[11]的方法,通過式(4)來實現(xiàn)文本對中的詞匯語義的計算。式(4)的w1i和w2j表示T和H經(jīng)過分詞后的詞語,而simw(w1i和w2j)是w1i和w2j之間基于《同義詞詞林(擴展版)》的相似度。
通過使用互聯(lián)網(wǎng)上的反義詞詞典實現(xiàn)文本T和H中反義詞的統(tǒng)計,得到的數(shù)量差作為一個特征fA。同理通過遍歷2個文本對,得到否定詞的個數(shù),也作為一個特征fN加入到系統(tǒng)中。使用下式進行計算:
其中,c代表A或者N。
經(jīng)過觀察發(fā)現(xiàn),命名實體出現(xiàn)的次數(shù)能在一定程度上反應文本對之間的蘊涵關系。因此,使用式(6)實現(xiàn)命名實體重疊度的計算:
傳統(tǒng)的特征工程可以在一定程度上表達文本對之間的蘊涵關系,但是并沒有在句法結構和語義的層面解決這個問題。而所用的淺層詞匯特征經(jīng)常難以解釋文本間語義的蘊涵關系。因此,本文將句法分析的結果融合到特征提取的過程之中,以檢驗中文句法結構特征對中文文本蘊涵識別的效果。
2.3 基于句法結構變換的句法特征
如前文所述,傳統(tǒng)的特征工程是無法表達句法一級的蘊涵關系。下面的例子來自2014年NTCIRRITE3的測試語料:
一方面,這2句對話都擁有100%的字相似度,如果使用傳統(tǒng)的特征,均會被判別為存在蘊涵關系。而事實上,第一個文本對T和H之間是不存在蘊涵關系的。因此,對句子本身的主謂、并列、從屬等關系的獲取可以大大提升系統(tǒng)的蘊涵識別能力。
而另一方面,過多的句法特征雖然保證了句法結構的完整性,但是對于蘊涵問題本身的解決是沒有必要的。文本T蘊涵文本H意味著H中的全部信息一定可以在T中找到相同或近似的表述。因此,尋找2個文本中的公共字符串,不僅可以反映2個文本間信息的重疊程度,減少因中文分詞工具對未登錄詞識別方面的錯誤而帶來的對句子理解的影響,而且也可以減少需要處理的句法關系的數(shù)量。系統(tǒng)通過對句法分析后的節(jié)點進行聚合,將原本復雜的句法分析樹變換成只包含影響蘊涵關系判別的最小信息樹。
句法樹結構變換的核心思想是通過聚合句法分析樹的節(jié)點,將樹中無用信息節(jié)點刪除,生成2棵最小信息子樹。例如:
兩者的句法分析樹形如圖2所示。
圖2 實例的句法分析樹
SBV,VOB等是哈工大LTP語言云對語言單位內成分之間的依存關系的分析結果,由于篇幅原因,詳細內容請訪問語言云官網(wǎng)。
“營養(yǎng)及光線充足的環(huán)境”是2個句子中的公共字串。除了公共字串部分之外,作為實體的“水蘊草”在兩句均被錯分成了2個詞;左側的句法樹中“水蘊”、“草”、“適合”以及“生長”節(jié)點組成的子樹會與右側句法樹中由“適合”、“水蘊”、“草”以及“生長”節(jié)點組成的子樹進行近似子樹的判別。若經(jīng)過算法判定兩者相似度大于閾值,則將句法樹中的這些節(jié)點合并成一個節(jié)點,從而得到生成的最小信息樹,如圖3所示。
圖3 實例的最小信息樹
最小信息樹裁剪算法如下:
輸入 具有節(jié)點{ν1,ν2,…,νn}和{ν1′,ν2′,…,νn′}的句法樹T,H,以及保存有節(jié)點間依存句法關系的結構體
輸出 T,H生成的最小信息樹Ti,Hi,保留了T,H之間信息蘊涵部分,刪除原本2個句法樹中與文本蘊涵識別無關的語義信息,使得T,H之間相對復雜的蘊涵關系可以用Ti,Hi最小信息樹的方式表示
SteP1 令DT,DH為待處理節(jié)點集,其中,Di= ?。然后利用KMP算法來尋找T,H中全部公共字符串作為獨立子樹dij加入Di,i=T,H。
SteP2 以較小的樹為對象,尋找T,H所有的公共最大近似子樹(表述相似的字串)。其中,最大近似子樹的尋找采用字覆蓋度的計算將可能作為最大近似的子樹遍歷搜索出來。經(jīng)過反復人工調整、觀察,當最終字覆蓋度的值大于等于0.76時,利用式(2)進行判斷,將滿足最大近似子樹的節(jié)點按原樹Ti的組織形式diK加入到Di中;否則繼續(xù)尋找,直到遍歷完整個子樹。尋找最大近似子樹的節(jié)點不能涉及Step1中處理過的點。
SteP3 變換T和H,合并待處理Di中每個diχ所涉及的全部節(jié)點,新節(jié)點的位置由合并節(jié)點的最大父節(jié)點決定,選擇完后從Di中刪除。保留節(jié)點間的句法結構、節(jié)點到根節(jié)點的路徑以及路徑上的節(jié)點,直到Di為?。如果兩子樹中出現(xiàn)相同類型命名實體,即使不是同一個實體也保留其節(jié)點。
SteP4 刪除T和H中沒有處理過的節(jié)點,并輸出生成最終的最小信息樹Ti,Hi。
系統(tǒng)將2棵子樹的詞匯相似度定義為l,句法結構的相似度定義為s,相似度Sim的計算都采用式(7):
進而近似子樹的相似度Simt測量定義為:
其中,0≤α,β≤1,α+β=1,通過人工調試和觀察,當α=0.55,β=0.45時能相對較好地區(qū)別字符串是否近似。
最小信息樹雖然在原句法樹的基礎上節(jié)點數(shù)量已大大減少,但是最小信息樹本身依舊保留了一些語義特征。因此,對2個最小信息樹相似度的比較不應僅僅使用統(tǒng)計特征。本文采用式(8),最大程度使用最小信息樹中的特征進行相似度計算:
其中,INE表示命名實體判別結果,判別公式為:
SV是依存句法分析中主謂判斷,判別公式為:
通過上述方式將部分的句法分析結果作為特征加入到系統(tǒng)中,然后通過基于高斯混合分布的樸素貝葉斯和支持向量機(Support Vector Machine,SVM)算法進行分類。
2.4 修正模塊的介紹
2.4.1 數(shù)字歸一化處理
和實際的語言現(xiàn)象相同,在RITE3的評測語料中也存在有同一個數(shù)字多種不同表達形式的問題。例如:
第1個例子中出現(xiàn)的現(xiàn)象只需要進行相關數(shù)字表述的歸一化處理就可以判斷出兩句是不存在蘊涵關系的;第2個例子中,數(shù)字本身并沒有直接關系,因此,兩者蘊涵關系的識別需要進行簡單的語義推理。針對這類現(xiàn)象,將否定詞的出現(xiàn)作為對數(shù)字進一步處理的評判標準。
2.4.2 地點特征處理
對于地點特征的處理,僅僅依靠命名實體識別是無法滿足文本蘊涵判別的需求。例如:
這2個實例都滿足蘊涵關系,但中國和亞洲的上下位關系,以及夏威夷與它的別稱檀香山的識別,只有通過維基百科等這樣的世界知識才能夠進行相關內容的判別。利用詞條下的相關內容,根據(jù)關鍵字匹配,創(chuàng)建命名實體的等價或從屬關系,就可以進行蘊涵判別。
3.1 評測語料與評價標準
日本國立情報學研究所(National Institute of Informatics,NII)組織的NTCIR(NII Test Collection for IR Systems)在2011年開始了文本蘊涵識別(Recognizing Inference in Text,RITE)方面的評測工作[12]。RITE的目的是評測系統(tǒng)識別特定語句關系的能力。本文所述的系統(tǒng)參加了2014年NTCIR-11中文簡體RITE3任務,其中,用于訓練的文本對個數(shù)為581,測試語料的文本對個數(shù)為1 200。評測的文本包括歷史、政治、地理、體育等多種題材,覆蓋了推理、復述、從句等諸多語言現(xiàn)象,較為全面地評估了系統(tǒng)的蘊涵判別能力。
系統(tǒng)的整體性能對于具體的文本蘊涵關系的識別主要包括如下性能參數(shù),即準確率P(Precision)、召回率R(Recall)以及F值(F-measure),計算公式如下:
其中,文本之間的關系r包括蘊涵與不蘊涵2種情況。將準確率和召回率進行綜合考慮的F值是RITE3評測的首要標準。
3.2 結果分析
表1是參與NTCIR RITE3中文簡體蘊涵判別二分問題(蘊涵-不蘊涵)評測的系統(tǒng)中成績最好的一些系統(tǒng)的性能指標[13],其中,NWNU系統(tǒng)為使用本文方法實現(xiàn)的系統(tǒng)。4個評測指標中,Macro-F1表示系統(tǒng)平均F值;ACC使用式(15)表示系統(tǒng)正確識別的總數(shù),而不是2種關系判別的準確率的平均值;Y-F是系統(tǒng)關于存在蘊涵關系的文本對識別的F值;N-F則是系統(tǒng)針對不存在蘊涵關系的文本對識別的F值。
表1 NTCIR RITE3中文蘊涵識別評測結果%
可以看出,本文方法在Macro-F1,ACC,N-F均取得了不錯的分值,高出平均Macro-F1值的49.99%近10%。
為了分析不同特征對蘊涵分類性能的影響,本文從基本的特征開始,逐漸添加其他不同的特征,從而形成了不同的系統(tǒng)版本。將這些使用了不同特征的系統(tǒng)提交給評測組織方,得到了不同版本系統(tǒng)的性能評測結果。表2給出了系統(tǒng)性能在融合不同特征后的表現(xiàn)。前4個系統(tǒng)采用基于混合高斯分布的樸素貝葉斯(Naive Bayesian,NB)作為分類器,第5個使用基于徑向基函數(shù)的支持向量機作為分類器。表2中的Y-Prec,Y-Rec,N-Prec,N-Rec分別表示系統(tǒng)對存在蘊涵關系的文本對判別的準確率和召回率,以及系統(tǒng)對不存在蘊涵關系的文本對判別的準確率和召回率。
表2 不同特征對系統(tǒng)性能影響的評測結果%
由表2可知,NWNU-CS-SVBC-01系統(tǒng)僅僅使用了字覆蓋度作為特征,45.82%的Macro-F值反映了評測語料的判別難度。NWNU-CS-SVBC-02是將前文提到的統(tǒng)計特征和詞匯語義特征(包括詞匯覆蓋度、詞匯余弦相似度、文本H與T的長度差、基于《同義詞詞林(擴展版)》的詞匯相似度、否定詞與反義詞的數(shù)理差異等)加入之后得到的新系統(tǒng),在F值和準確率上都有5%左右的性能提升。NWNU-CSSVBC-03系統(tǒng)則是進一步加入了基于句法結構變換的最小信息樹特征fTree,該特征表現(xiàn)了部分句法結構信息對蘊涵關系識別的影響,系統(tǒng)的F值因而有了近7%的增長。NWNU-CS-SVBC-04和NWNU-CSSVBC-05系統(tǒng)將之前描述的修正模塊加入到系統(tǒng)中,但收效甚微。分析原因,一方面可能是語言的多樣性使修正模塊的普適性受到限制;另一方面,修正模塊最終處理的相關語料過少也影響了最終F值的提升。
從前2屆RITE的語料訓練結果來看,基于樸素貝葉斯的分類效果是所有統(tǒng)計機器學習算法中效果最好的,支持向量機則稍低于樸素貝葉斯的分類效果。但是當在NWNU-CS-SVBC-05系統(tǒng)中使用支持向量機作為分類器時卻得到了所有系統(tǒng)中最好的F值。
然而,本文系統(tǒng)還存在兩點不足。首先,由于不同類型語言現(xiàn)象對句法結構的依賴程度不同,因此本文對句法分析的統(tǒng)一處理必然會存在局限性,進而影響系統(tǒng)對蘊涵關系的識別。其次,系統(tǒng)對于推理和詞匯蘊涵類型的識別能力較弱,需要引入層次化更清晰的世界知識作為蘊涵識別的資源。
以NTCIR-11的RITE3為評測標準,本文設計并實現(xiàn)了面向中文文本的蘊涵識別系統(tǒng)。該系統(tǒng)將統(tǒng)計特征、詞匯語義特征,以及經(jīng)過了句法結構變換的句法特征作為分類特征向量,使用傳統(tǒng)機器學習算法實現(xiàn)蘊涵關系的判別。評測結果證明了其有效性。今后將嘗試針對不同語言表述現(xiàn)象進行蘊涵問題的分析和處理,通過建立適合蘊涵識別問題的規(guī)則和層次化的世界知識來增強蘊涵的自動推理能力。
[1] Dagan I,Glickman O.Probabilistic Textual Entailment:Generic Applied Modeling of Language Variability[C]// Proceedings of PASCAL Workshop on Learning Methods for Text Understanding and Mining.Grenoble,F(xiàn)rance:Association for Computational Linguistics,2004.
[2] 袁毓林,王明華.文本蘊涵的推理模型與識別模型[J].中文信息學報,2010,24(2):3-13.
[3] Tatu M,Moldovan D.COGEX at RTE 3[C]//Proceedings of ACL-PASCAL Workshop on Textual Entailment and Paraphrasing.Prague,Czech Republic:Association for Computational Linguistics,2007:22-27.
[4] Harmeling S.Inferring Textual Entailment with a Probabilistically Sound Calculus[J].Natural Language Engineering,2009,15(4):459-477.
[5] Bar-Haim R,Berant J,Dagan I.A Compact Forest for Scalable Inference over Entailment and Paraphrase Rules[C]// Proceedings of Conference on Empirical Methods in Natural Language Processing.Singapore:Association for Computational Linguistics,2009:1056-1065.
[6] Malakasiotis P,Androutsopoulos I.Learning Textual Entailment Using SVMs and String Similarity Measures[C]// Proceedings of ACL-PASCAL Workshop on Textual Entailment and Paraphrasing.Association for Computational Linguistics.Prague,Czech Republic:Association for Computational Linguistics,2007:42-47.
[7] Maytham A,Allan R.Natural Language Inference for Arabic Using Extended Tree Edit Distance with Subtrees[J]. Journal of Artificial Intelligence Research,2013,48(5):1-22.
[8] 吳曉鋒,宗成慶.基于語義角色標注的新聞領域復述句識別方法[J].中文信息學報,2010,24(5):3-9.
[9] Wang Xiaolin,Zhao Hai,Lu Baoliang.BCM I-NLP Labeled-alignment-based Entailment System for NTCIR-10 RITE-2 Task[C]//Proceedings of the 10th NTCIR Conference.Tokyo,Japan:National Institute of Informatics,2013:18-21.
[10] Galitsky B.Machine Learning of Syntactic Parse Trees for Search and Classification of Text[J].Engineering Applications of Artificial Intelligence,2013,26(3):1072-1091.
[11] 田久樂,趙 蔚.基于同義詞林的詞語相似度計算方法[J].吉林大學學報,2010,28(6):602-608.
[12] 劉茂福,李 妍,姬東鴻.基于事件語義特征的中文文本蘊涵識別[J].中文信息學報,2013,27(5):129-136.
[13] Suguru M,Yusuke M,Tomohide S,et al.Overview of the NTCIR-11 Recognizing Inference in Text and Validation(RITE-VAL)Task[C]//Proceedings of the 11th NTCIR Conference.Tokyo,Japan:National Institute of Informatics,2014:9-12.
編輯 劉 冰
Textual Entailment Recognition Fused with Syntactic Structure Transformation and Lexical Semantic Features
ZHANG Zhichang,YAO Dongren,LIU Xia,CHEN Songyi,LU Xiaoyong
(College of Computer Science and Engineering,Northwest Norm al University,Lanzhou 730070,China)
The traditional textual entailment recognition methods only stay at vocabulary level,not involving the influence of the syntactic and semantic aspects,and reduce the F value of the identification results.In order to solve this problem,a Chinese text recognition method is proposed which is fused with the transformation of syntactic structure and traditional lexical semantic characteristics.This method makes the text preprocessing based on syntax analysis tree transformation,adds the text contains identification features of syntactic analysis into related statistics and lexical semantic characteristics,uses the statistical machine learning methods to make entailment relationship classification of text T and assumptions text H,and gets the final recognition result through the correction processing of semantic rules.Evaluation results with NTCIR RITE3 show that compared with III&CYUT,Yam raj,etc,the method can obtain higher F value.
Chinese textual entailment;syntactic structure transformation;lexical semantic feature;lexical statistical feature;statistical machine learning
張志昌,姚東任,劉 霞,等.融合句法結構變換與詞匯語義特征的文本蘊涵識別[J].計算機工程,2015,41(9):199-204.
英文引用格式:Zhang Zhichang,Yao Dongren,Liu Xia,et al.Textual Entailment Recognition Fused with Syntactic Structure Transformation and Lexical Semantic Features[J].Computer Engineering,2015,41(9):199-204.
1000-3428(2015)09-0199-06
A
TP399
10.3969/j.issn.1000-3428.2015.09.037
國家自然科學基金資助項目(61163039,61163036,61363058);西北師范大學青年教師科研能力提升計劃基金資助項目(NWNULKQN-10-2,NWNU-LKQN-12-23)。
張志昌(1976-),男,副教授、博士,主研方向:自然語言處理,數(shù)據(jù)挖掘;姚東任、劉 霞、陳松毅,碩士研究生;魯小勇,工程師。
2014-11-19
2014-12-18 E-m ail:zzc@nw nu.edu.cn