?
一個面向信息抽取的中英文平行語料庫*
通信地址:215006 江蘇省蘇州市蘇州大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院Address:School of Computer Science & Technology,Soochow University,Suzhou 215006,Jiangsu,P.R.China
惠浩添,李云建,錢龍華,周國棟
(1.蘇州大學(xué)自然語言處理實驗室,江蘇 蘇州 215006;2.蘇州大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
摘要:除了機(jī)器翻譯,平行語料庫對信息檢索、信息抽取及知識獲取等研究領(lǐng)域具有重要的作用,但是傳統(tǒng)的平行語料庫只是在句子級對齊,因而對跨語言自然語言處理研究的作用有限。鑒于此,以O(shè)ntoNotes中英文平行語料庫為基礎(chǔ),通過自動抽取、自動映射加人工標(biāo)注相結(jié)合的方法,構(gòu)建了一個面向信息抽取的高質(zhì)量中英文平行語料庫。該語料庫不僅包含中英文實體及其相互關(guān)系,而且實現(xiàn)了中英文在實體和關(guān)系級別上的對齊。因此,該語料庫將有助于中英文信息抽取的對比研究,揭示不同語言在語義表達(dá)上的差異,也為跨語言信息抽取的研究提供了一個有價值的平臺。
關(guān)鍵詞:命名實體;語義關(guān)系;雙語映射;平行語料庫
1引言
信息抽取是指從自然語言文本中抽取出有用的實體、關(guān)系和事件等信息,并把它們存放到一個結(jié)構(gòu)化的數(shù)據(jù)庫中。根據(jù)ACE的定義[1],信息抽取包括三個主要任務(wù):命名實體識別(Named Entity Recognition)、實體關(guān)系抽取(Relation Extraction)和事件抽取(Event Extraction)等。信息抽取對問題回答、文本摘要、信息融合、知識獲取等自然語言處理應(yīng)用領(lǐng)域有著重要的研究意義。
主流的信息抽取研究都采用統(tǒng)計機(jī)器學(xué)習(xí)方法,因而語料庫的規(guī)模和質(zhì)量對信息抽取的性能至關(guān)重要,但是人工標(biāo)注大規(guī)模的語料庫是一件費時又費力的事情。另一方面,在自然語言處理中往往存在著多種語言的可比較或平行語料庫,有效利用這些多語言語料庫是提高信息抽取性能的途徑之一。Chen Y等[2]在中英文平行語料之間進(jìn)行命名實體的聯(lián)合識別和對齊,旨在同時提高兩種語言的命名實體識別性能。Kim S等[3]利用平行語料庫來實現(xiàn)從英文到韓文的跨語言關(guān)系抽取,即將源語言中識別出來的實體和關(guān)系映射到目標(biāo)語言中。Qian L等[4]利用機(jī)器翻譯的方法將中英文語料庫互相翻譯,并將一種語言的實體和關(guān)系映射到另一種語言中,從而同時促進(jìn)兩種語言中關(guān)系抽取的性能。
上述研究說明,平行語料庫對于提高跨語言信息抽取的性能具有重要的作用,但是目前的平行語料庫一般都在句子級對齊[5~7],并沒有實現(xiàn)在實體和關(guān)系級對齊,因而在實體和關(guān)系的雙語映射過程中存在著一定的錯誤。而在信息抽取中廣泛使用的ACE語料,盡管標(biāo)注了多語種的實體和關(guān)系,但并不是平行的。為了彌補(bǔ)現(xiàn)有平行語料庫中存在的不足,本文從OntoNotes中英文平行語料庫出發(fā),以ACE 2005中文語料庫的標(biāo)注規(guī)則為基本指南,通過自動抽取和手工標(biāo)注相結(jié)合的方法構(gòu)建了一個面向信息抽取的平行語料庫。盡管受OntoNotes語料庫的限制,該平行語料庫的規(guī)模比較小,我們?nèi)韵M撜Z料庫可以為揭示中英文語言表達(dá)上的差異和跨語言信息抽取的研究提供一個基準(zhǔn)的平臺。
2中英文平行語料庫的構(gòu)建
本節(jié)首先對標(biāo)注目標(biāo)和任務(wù)進(jìn)行說明,然后指出標(biāo)注過程中的挑戰(zhàn)以及解決辦法,接著詳細(xì)描述中文語料庫的構(gòu)建方法,最后評估語料庫的一致性。
本文的目標(biāo)是要構(gòu)建一個面向信息抽取(主要是實體和關(guān)系)的中英文平行語料庫,以便于中英文雙語實體識別和關(guān)系抽取的研究。該語料庫應(yīng)包含完整的中英文對齊的實體和關(guān)系標(biāo)注信息(目前還沒有考慮事件標(biāo)注信息)。實體標(biāo)注信息包括實體類型、指稱范圍、指稱級別和實體類別等;關(guān)系標(biāo)注信息包括關(guān)系類型、句法結(jié)構(gòu)、關(guān)系時態(tài)等。除此之外,還應(yīng)該實現(xiàn)指代鏈的標(biāo)注。下面是一對中英文平行句對:
(c1)[乍得]1-1新 [總統(tǒng)]2-2[依迪斯·代比]2-3十二日 到達(dá) [巴黎]3-4訪問 。[密特朗]4-5[總統(tǒng)]4-6同 [他]2-7進(jìn)行 了 半 小時 秘密 會談 。
(e1)[Chad]1-1's New [President]2-2[Idriss Deby]2-3arrived in [Paris]3-4on the 12th for a visit .[President]4-5[Mitterrand]4-6had a half-hour 's secret meeting with [him]2-7.
其中,方括號內(nèi)的內(nèi)容表示實體指稱,下標(biāo)表示其編號,而底劃線表示左面實體和右面實體具有一定的語義關(guān)系。該平行句對中包含7個實體指稱、4個實體(其中2-2、2-3和2-7是實體2的不同指稱,4-5和4-6是實體4的不同指稱),2個語義關(guān)系(實體1和實體2 之間具有ORG-AFF.Employment關(guān)系;而實體2和實體3之間具有PHYS.Located關(guān)系)。
一般而言,只要找到中英文平行語料庫,然后參考ACE的標(biāo)注規(guī)范分別進(jìn)行實體及其關(guān)系的標(biāo)注,最后將實體和關(guān)系對齊即可得到中英文平行語料庫。但是,這樣做需要大量的人力,花費的時間也很長。本文從下面四個方面來討論在標(biāo)注中遇到的關(guān)鍵問題及其解決方法。
傳統(tǒng)的面向機(jī)器翻譯的平行語料庫雖然數(shù)量很多,但均沒有在雙語上對齊的實體及關(guān)系標(biāo)注信息,將它們標(biāo)注成面向信息抽取的雙語平行語料庫工作量太大。本文選擇OntoNotes中的新華社中英文平行語料(共有325篇文章),它不僅具有較高的句子對齊率,而且也標(biāo)注了部分實體信息,這將顯著減輕標(biāo)注工作量。不過,即使是這樣,通過對已有標(biāo)注信息的觀察,我們發(fā)現(xiàn)還存在著以下的問題:
(1) 實體指稱類型單一:OntoNotes僅標(biāo)注了命名實體,即指稱級別為NAM的實體,所有的名詞性指稱(Nominal)和代詞指稱(Pronoun)均沒有標(biāo)注,這不符合一個面向信息抽取的語料庫的要求。
(2) 指代鏈未完全合并:雖然OntoNotes標(biāo)注了指代鏈信息,但不完整。比如句子“據(jù) [泰國] 官員 透露,1995年,緬 [泰] 兩 國 貿(mào)易 總額 超過 3億 美元 。”中的“泰”和“泰國”應(yīng)屬于同一個實體,但目前的標(biāo)注并沒有合并到同一個指代鏈中。
為了解決上述問題,同時減輕標(biāo)注工作量,本文遵循“自動+手工”的原則來構(gòu)建雙語平行語料庫,充分利用OntoNotes語料的平行句對和現(xiàn)有標(biāo)注信息,其主要步驟包括兩個方面:
(1) 中文語料的標(biāo)注:即從中文OntoNotes語料庫中產(chǎn)生已標(biāo)注的實體信息,調(diào)整中文實體標(biāo)注信息,標(biāo)注中文實體間語義關(guān)系;
(2) 英文語料的映射:即將中文的實體及其關(guān)系標(biāo)注信息映射到英文中,并調(diào)整英文的實體及關(guān)系標(biāo)注信息。
實體嵌套是一個比較普遍的現(xiàn)象,比如中文短語“[[寧波]國際發(fā)展信托投資公司]”中包含了兩個實體。在ACE的標(biāo)注規(guī)范中,為了簡化問題將它作為一個實體,即不考慮被嵌套的實體。這樣做的缺點是丟失了許多命名實體及其語義關(guān)系,因為嵌套的實體之間一般都存在語義關(guān)系,這將會對今后的命名實體識別及關(guān)系抽取任務(wù)造成一定的影響。本文考慮了中文的實體左嵌套現(xiàn)象和英文的左右嵌套現(xiàn)象,從而提高了語料中命名實體和實體關(guān)系的數(shù)量,同時也便于今后命名實體識別及關(guān)系抽取工作的進(jìn)行。
某些實體在不同的上下文中會呈現(xiàn)不同的角色,例如GPE類型的實體可以代表相應(yīng)的地區(qū)、組織或人物,在ACE的標(biāo)注規(guī)范中以角色來表明這種差別。我們發(fā)現(xiàn)另一個實體類型ORG也具有相似的特點,例如:
今天 在 [上海 國際 金融 學(xué)院] 正式 舉行 開學(xué) 典禮,參加 開學(xué) 典禮 的 有 [學(xué)院] [院長] …
其中,實體“上海國際金融學(xué)院”在前一子句中強(qiáng)調(diào)設(shè)施,因此具有FAC的角色,而在后一子句中則表示ORG本身。ACE標(biāo)注規(guī)范沒有區(qū)分這種差異,從而在某些情況下導(dǎo)致ORG和FAC類型出現(xiàn)混亂。為了解決這個問題,本文對ORG實體類型同樣引入了角色這個概念,它包含ORG和FAC兩種角色。
在某些情況下,區(qū)別實體關(guān)系類型變得很困難。在ACE2005的中文語料庫中,不同的標(biāo)注者對類似的語言表達(dá)式往往給出不同的語義類型,甚至同一個標(biāo)注者也會出現(xiàn)不一致的情況。為了提高標(biāo)注的一致性,本文整理了易混淆的關(guān)系類型對,并針對它們分別制定了可操作的標(biāo)注規(guī)則。表1列出了這些易混淆的關(guān)系類型對及其區(qū)分規(guī)則。
Table 1 Types of relation that are easy to be
注UOIM:全稱為User-Owner-Inventor-Manufacturer。
首先從OntoNotes中抽取中文實體標(biāo)注信息,但由于這些標(biāo)注信息極不完整,因此還需要手工調(diào)整實體標(biāo)注信息,并標(biāo)注實體間語義關(guān)系。
中文OntoNotes語料以嵌入標(biāo)記的形式標(biāo)注了文本中出現(xiàn)的命名實體和指代鏈,分別以后綴名name和coref存儲在兩個文件中,其中指代鏈中不僅標(biāo)明了實體的指代關(guān)系,也標(biāo)明了概念之間的指代關(guān)系。標(biāo)注信息的產(chǎn)生過程包括以下三個步驟:
(1) 從name文件中讀出實體標(biāo)注信息;
(2) 從coref文件中讀出實體的指代鏈信息;
(3) 將實體標(biāo)注信息和實體指代信息合并為統(tǒng)一的標(biāo)注信息。
為了方便快捷地標(biāo)注實體和關(guān)系信息,我們利用Java語言開發(fā)了專門的標(biāo)注工具,其主界面如圖1所示。它由左右兩個部分組成。左面是所有文件列表,右面是該文件所對應(yīng)的文本內(nèi)容,其中不同的前景色表示不同類型的實體,而兩個實體之間的底劃線表示它們之間存在語義關(guān)系。
當(dāng)要增加和修改實體指稱,進(jìn)入圖2a所示的實體標(biāo)注界面,標(biāo)注者可以調(diào)整實體類型、實體類別和指稱級別等信息。要增加和修改實體關(guān)系時,進(jìn)入圖2b所示的關(guān)系標(biāo)注界面,標(biāo)注者同樣可以修改關(guān)系的類型、句法結(jié)構(gòu)和時態(tài)等信息。
Figure 1 Main interface圖1 主界面
在中文實體和關(guān)系標(biāo)注完之后,就需要把這些信息映射到英文中,從而獲得英文的實體及關(guān)系標(biāo)注信息。這個映射分為三個步驟:句子對齊、實體映射和關(guān)系映射等。
OntoNotes語料庫雖然是中英文平行的,但它只提供了文件之間的對齊,并沒有提供句子之間的對齊關(guān)系,因此映射的第一步便是句子對齊工作??紤]到新華社新聞?wù)Z料的翻譯質(zhì)量較高,本文采用相似度計算方法來實現(xiàn)自動句子對齊,即逐個比較中英文句子之間的相似度,然后再人工調(diào)整對齊結(jié)果。
Figure 2 Interface of entity and relation annotation 圖2 實體和關(guān)系標(biāo)注界面
(1)句對相似度的計算。
在計算中英文句子之間的總體相似度時,考慮了表2所示的四種相似度,并對它們進(jìn)行加權(quán)平均,即:
其中ST為總體相似度,Si為某一個特征的相似度,wi為該相似度的權(quán)值,權(quán)值由實驗來確定。
(2)平行句對的產(chǎn)生。
得到中英文句子間的兩兩相似度后,就可以在此基礎(chǔ)上進(jìn)行句子對齊。平行句子的對齊方法有動態(tài)編程及分裂聚類策略[8]、基于詞匯的Champollion對齊方法[9,10]和針對非單調(diào)句子的半監(jiān)督對齊方法[11]??紤]到語料庫的質(zhì)量較好,中英文之間嚴(yán)格按照句子順序?qū)R,因此本文采用分段對齊法。其基本思想是首先找出相似度最高的句對作為平行句對,然后用該句對分隔句子范圍,再在各自范圍內(nèi)繼續(xù)匹配。具體算法如下:
Table 2 Similarity features of sentence alignment
算法1句子對齊
輸入:Sim[M][N],中英文句子間的兩兩相似度,M為中文句子數(shù),N為英文句子數(shù);
輸出:Pairs[]中英文平行句對集合。
初始化:Ranges([1,M][1,N]),中英文句子范圍;
步驟:
從Ranges中彈出句子范圍range;
在范圍range中根據(jù)找出相似度最高的句對(i,j);
將(i,j)加入到句對集合Pairs中;
將range按照(i,j)分隔成上下兩個范圍,各自加入到Ranges中;
直到為空;
需要說明的是,為了避免相似度過低的句對被識別為平行句對,本文設(shè)置了根據(jù)實驗獲得的最低閾值α=0.35,低于該閾值的不能作為平行句對。
(3)人工調(diào)整。
由于采用OntoNotes新華社新聞專線中的325篇平行語料,翻譯質(zhì)量較高,因而句子對齊率較高(約95%),人工調(diào)整并不需要消耗太多的時間和精力;而且其英文翻譯語法規(guī)范、句法結(jié)構(gòu)清晰,這將非常有利于實體和關(guān)系的映射。
在實體對齊之前,首先要進(jìn)行詞對齊。常用的詞對齊的算法有Brown P F等[12]提出的IBM模型和Vogel S等[13]提出的隱馬爾科夫模型。另外,F(xiàn)eng D等[14]提出了最大熵結(jié)合自舉算法進(jìn)行命名實體對齊。本文是將自動抽取及人工標(biāo)注的中文實體映射到英文中,因而先采用Giza++工具進(jìn)行詞對齊,然后再映射實體及人工調(diào)整??紤]到OntoNotes的平行語料庫規(guī)模不大,可能會影響到詞對齊效果,因此本文將OntoNotes語料和FBIS語料結(jié)合起來一起進(jìn)行詞對齊,最后再將其分離開單獨處理。對于詞對齊的效果,本文從中隨機(jī)抽取25句對進(jìn)行分析,這里以中文為源語言、英語為目標(biāo)語言,最終的詞對齊準(zhǔn)確率約為80%,召回率約為72%,造成召回率較低的原因主要是中英文語言的差異。
詞對齊完成后,接著便是實體對齊。由于并非所有的實體指稱都是單個詞次構(gòu)成,所以本文利用如下啟發(fā)式規(guī)則:
(1) 中文實體指稱的詞次連續(xù),則對應(yīng)英文實體指稱的詞次也必將連續(xù);
(2) 不存在多個中文實體指稱對應(yīng)一個英文實體指稱。
根據(jù)以上兩個啟發(fā)式規(guī)則,將中文中的實體盡可能地映射到英文中,就初步得到英文語料中的實體標(biāo)注信息。為了對實體對齊的正確率進(jìn)行分析,本文隨機(jī)抽取13篇文章進(jìn)行分析,發(fā)現(xiàn)實體對齊的準(zhǔn)確率約為79%,召回率約為73%,這與詞對齊的效果相差無幾。這說明基本上是詞對齊錯誤導(dǎo)致了實體的丟失。因此,下一步的工作是人工進(jìn)行進(jìn)一步調(diào)整,最終實體對齊率可以達(dá)到93%左右。
實體映射及其手工調(diào)整完成之后,接下來的關(guān)系映射就比較簡單,但也需要考慮以下三個問題:
(1) 關(guān)系實例的兩個論元必須處于一個句子中。由于平行句對中存在一對多的情況,原來中文中處于同一句的兩個實體有可能映射到兩句不同的英文中。在這種情況下,丟棄該關(guān)系實例。
(2) 關(guān)系實例的兩個論元的前后順序是否交換。如果交換了順序,則必須改變關(guān)系類型的正逆性。
(3) 關(guān)系映射后的句法結(jié)構(gòu)是否變換。由于中英文對同一語義關(guān)系的表達(dá)方式存在差異,因此關(guān)系實例的句法結(jié)構(gòu)可能會發(fā)生變化,并且也無法準(zhǔn)確預(yù)測新的句法結(jié)構(gòu),因此對關(guān)系實例的句法結(jié)構(gòu)有必要進(jìn)行人工調(diào)整。
至此,經(jīng)過中文語料標(biāo)注和英文語料的映射后,包括實體和關(guān)系對齊信息的中英文平行語料庫就全部構(gòu)建完畢。
語料標(biāo)注的一致性體現(xiàn)了標(biāo)注的難度和語料的質(zhì)量。為了保證標(biāo)注質(zhì)量,我們招募了兩名志愿者,分兩個階段標(biāo)注中文實體及其關(guān)系:
(1) 第一階段:兩名志愿者首先對25篇文章中的實體或關(guān)系進(jìn)行標(biāo)注,然后由一名仲裁者檢查標(biāo)注的差異,改正共同的錯誤,并允許存在有爭議的差異,最后計算兩名標(biāo)注者之間的一致性;
(2) 第二階段:兩名志愿者分別標(biāo)注剩下的300篇文章,每人大約標(biāo)注一半。
在衡量實體標(biāo)注的一致性時,只考慮實體指稱的中心詞和實體大類,采用常規(guī)的準(zhǔn)確率(P)、召回率(R)和調(diào)和平均(F1);在衡量關(guān)系標(biāo)注的一致性時,只考慮關(guān)系小類,同樣采用常規(guī)的準(zhǔn)確率(P)、召回率(R)和調(diào)和平均(F1)。表3列出了兩名標(biāo)注者在調(diào)整前后的實體和關(guān)系標(biāo)注的一致性指標(biāo)。
從表3中可以看出,調(diào)整前實體的召回率較低,這是因為兩位標(biāo)注者對實體標(biāo)注的某些要求(如實體類別等)不夠了解。而經(jīng)過調(diào)整后,無論是實體還是關(guān)系的一致性已達(dá)到可接受水平。
Table 3 Consistency of entity and relation annotation
3平行語料庫統(tǒng)計分析
為了更好地揭示中文和英文在表達(dá)實體、關(guān)系等方面的語言差異,本文分別就對齊率、實體指稱缺失情況、關(guān)系句法結(jié)構(gòu)的變化等三個方面進(jìn)行統(tǒng)計和分析。
為了考察在中文到英文的對齊過程中標(biāo)注信息的保留情況,表4統(tǒng)計了實體指稱、實體和關(guān)系在中文中的數(shù)量,對齊到英文后的數(shù)量以及對齊的百分比。由于在英文的翻譯過程中,很多文本標(biāo)題行被省略了,從而導(dǎo)致平行句對的丟失,因此為了分析標(biāo)注信息丟失的真正原因,表中也列出了在句子對齊情況下的統(tǒng)計數(shù)據(jù)。例如,“全部實體指稱”是指語料庫中標(biāo)注的所有實體指稱,而下面一行“全部實體指稱(句子對齊)”表示出現(xiàn)在平行句對中的實體指稱。
Table 4 Entity mentions and the total number of entities
從表4中可以看出:
(1) 實體對齊率最高,實體指稱對齊率次之,而關(guān)系對齊率最低。這是因為只要實體的任一個指稱能對齊,則實體就能對齊;而只有一個關(guān)系的兩個實體指稱都對齊,關(guān)系實例才能對齊。
(2) 無論對于何種統(tǒng)計指標(biāo),句子對齊情況下的對齊率均高于全部語料庫情況下的對齊率,并且對齊率均超過95%。這說明如果僅考慮平行句對中的對齊情況,那么可以認(rèn)為標(biāo)注信息的對齊是相當(dāng)成功的。因此,在后續(xù)表格中,本文丟棄非平行句對中的標(biāo)注信息,從而便于更準(zhǔn)確地分析語言之間的真正差別。
從表4中可以看到,在實體指稱映射中存在缺失現(xiàn)象,即一個中文實體指稱沒有對應(yīng)的英文實體指稱,從而影響到關(guān)系的對齊。表5把244個實體指稱的缺失原因進(jìn)行分類,并列出了各個原因所占的比例。
Table 5 Reasons for the absence of entity mentions
由表5可以發(fā)現(xiàn),約2/3的實體缺失是由于中英文語言差異造成的,而約1/3的實體缺失是由句法和翻譯問題所致,只有極少部分是由規(guī)則不允許中間嵌套造成的,具體為:
(1)語義缺失。語義缺失是指缺失的實體被本句中的其他指稱表述,并不需要再贅述;或者是本句中的某個實體可以暗含多個實體。例如,在(c2)句中,[中國]與[自己]為“中國”的不同指稱,而在(e2)句中,“中國”一詞的指稱,并未像中文句子中出現(xiàn)兩次,這是因為在英文中一個指稱完全可以表達(dá)句意。
(c2)[中國] 愿意 為 不斷 加深 這 種 友誼 作出 [自己] 的 努力 。
(e2)[China] is willing to make efforts to continually deepen this type of friendship .
(2)句法缺失。句法缺失是指由于中英文在詞法和句法上的差異而導(dǎo)致的實體指稱的丟失,約占到10%以上。分析表明,其原因有兩個方面:一是專有名詞縮寫,即中英文在某些專有名詞縮寫上具有一定的差異性,即某些中文名稱是從英文縮寫中翻譯過來的。例如,中文“ [聯(lián)合國] [安理會]” 中包含兩個實體,而其對應(yīng)的英文“ [UNSC]” 卻只有一個實體。二是HLS表述差異,所謂HLS引用類多集中在 “…個”“…的”“…家”“…之一”等詞,而在英文中并未有與“個”“的”“家”相對應(yīng)的詞。
(3)翻譯缺失。有將近1/3的實體缺失是由于翻譯原因而引起的,即英文中未將相應(yīng)的中文實體翻譯出來,而且并不能被其他實體的指稱所表述或暗含。例如,在(c3)中的[河南省] 并未在(e3)中出現(xiàn)。
(c3)記者 從 [[河南省] 文物 考古 研究所] …其中 有 肋骨 、 趾骨 等 。
(e3)This reporter has learnt from the [Archaeological Institute of Cultural Relics] ...such places as Hutou Hill,Yangcheng Township,Xixia county,etc .
(4)規(guī)則問題。為了盡可能多地標(biāo)注嵌套實體,同時也便于處理,我們規(guī)定對于中文實體只考慮左嵌套情況,而對于英文實體,左嵌套和右嵌套都要考慮,這就導(dǎo)致某些實體無法對齊。例如在“[[上海] 施貴寶]”中存在兩個實體,而在其英文“[Squibb 's-LRB-Shanghai-RRB-] ”中,由于“Shanghai”這個實體沒有出現(xiàn)在最右側(cè),因此不被標(biāo)注為一個實體。
分析中英文在實體關(guān)系語言表達(dá)方式上的句法差異對關(guān)系抽取研究具有很好的指導(dǎo)作用。表6統(tǒng)計了中文關(guān)系實例映射到英文關(guān)系實例時句法結(jié)構(gòu)發(fā)生變化的實例數(shù)量,其中行和列分別表示中英文句法結(jié)構(gòu)類型,需要注意的是英文比中文多出兩個句法結(jié)構(gòu)類型,即所有格和介詞。從表6中可以看出:
(1) 多于一半的中文前修飾結(jié)構(gòu)發(fā)生了變換,主要變換為介詞(約40%)以及所有格結(jié)構(gòu)(約11%),并且當(dāng)前者發(fā)生時,往往還伴隨著關(guān)系論元先后順序的交換。例如,中文中的“[外交部] [副部長]”,英文翻譯為[vice minister] of the [Ministry of Foreign Affairs],句法結(jié)構(gòu)由前修飾轉(zhuǎn)換為介詞。
(2) 中文的公式結(jié)構(gòu)映射到英文時,仍然為公式結(jié)構(gòu)。這是由于公式結(jié)構(gòu)通常都是新聞報道中的固定模式,即使翻譯成英文,也不會發(fā)生變化。
(3) 相當(dāng)一部分中文分詞結(jié)構(gòu)(超過40%)轉(zhuǎn)換為英文的介詞結(jié)構(gòu)。這是由于中文中前置的分詞結(jié)構(gòu)(如“駐”“在”“來自”和“遍布”等)在英文中往往被翻譯成后置的介詞結(jié)構(gòu)或分詞結(jié)構(gòu),因此兩個關(guān)系論元的位置也會發(fā)生變化。
(4) 在中文謂詞結(jié)構(gòu)中,也有少部分轉(zhuǎn)換為英文的介詞結(jié)構(gòu)(約7%)和分詞結(jié)構(gòu)(約7%)。例如,在(c4)-(e4)中,由謂詞結(jié)構(gòu)轉(zhuǎn)換為介詞結(jié)構(gòu)。而在(c5)-(e5)中,由謂詞結(jié)構(gòu)轉(zhuǎn)換為分詞結(jié)構(gòu)。
(c4)最后 一 批 俄羅斯 [軍隊] 撤離 [德國] 的 儀式 31日 在 柏林 舉行 。
(e4)The ceremony for the withdrawal of the last group of Russian [troops] from [Germany] was held in Berlin on the 31st .
(c5)[德國] 領(lǐng)土 上 存在 [占領(lǐng)軍] 的 狀態(tài) 行將 結(jié)束 。
(e5)The [occupying armies] existing in [German] territory will end soon .
最后一個值得注意的現(xiàn)象是,由于中文句法結(jié)構(gòu)到英文句法結(jié)構(gòu)的轉(zhuǎn)換在各個類型并不均勻,因而導(dǎo)致中英文關(guān)系實例中句法結(jié)構(gòu)的主導(dǎo)類型不同。在中文中,約65%的關(guān)系實例都是前修飾結(jié)構(gòu);而在英文中,前修飾結(jié)構(gòu)和介詞結(jié)構(gòu)的關(guān)系實例均占29%左右。不同的句法結(jié)構(gòu)可能會導(dǎo)致中英文關(guān)系抽取的難度不一樣。
Table 6 Syntactic structure transform from Chinese to English
4結(jié)束語
本文在已有的OntoNotes中英文平行語料庫基礎(chǔ)上,結(jié)合ACE實體和關(guān)系標(biāo)注中存在的問題,制定了一些額外的標(biāo)注原則,通過自動抽取和映射,再加人工調(diào)整的方法完成了一個包含實體和關(guān)系對齊信息的中英文平行語料庫,該語料庫具有較高的標(biāo)注一致性。通過對語料庫的統(tǒng)計表明,盡管從中文到英文的翻譯過程中存在著成分缺失的現(xiàn)象,但實體對齊率和關(guān)系對齊率均達(dá)到了95%以上,這說明平行句對之間的關(guān)系信息能基本保留;另一方面,中英文語言在表達(dá)語義關(guān)系的句法結(jié)構(gòu)上有一定差異,中文有65%以上都通過前修飾結(jié)構(gòu)來表達(dá),而英文則還通過介詞結(jié)構(gòu)來表達(dá)。
今后的工作,我們將利用本文構(gòu)建的實體關(guān)系平行語料庫,比較中英文關(guān)系抽取的差異性;還將利用該平行語料庫進(jìn)行跨語言信息抽取等方面的研究,如雙語協(xié)同訓(xùn)練、雙語主動學(xué)習(xí)等。
參考文獻(xiàn):
[1]Doddington G R,Mitchell A,Przybocki M A,et al.The automatic content extraction (ACE) program-tasks,data,and evaluation[C]∥Proc of LREC, 2004:837-840.
[2]Chen Y,Zong C,Su K Y.On jointly recognizing and aligning bilingual named entities[C]∥Proc of the 48th Annual Meeting of the Association for Computational Linguistics.Association for Computational Linguistics,2010:631-639.
[3]Kim S,Jeong M,Lee J,et al.Cross-lingual annotation projection for weakly-supervised relation extraction[J].ACM Transactions on Asian Language Information Processing (TALIP),2014,13(1):1-26.
[4]Qian L,Hui H,Hu Y,et al.Bilingual active learning for relation classification via pseudo parallel corpora[C]∥Proc of ACL, 2014:582-592.
[5]Xiao R.The babel English-Chinese parallel corpus[DB/OL].[2013-02-13].http:∥www.lancaster.ac.ukfassprojects/corpus/babel/babel.htm.
[6]Ma Xiao-yi.Hong Kong parallel text LDC2004T08[R].Philadelphia:Linguistic Data Consortium,2004.
[7]United States.Joint Publications Research Service,United States.Foreign Broadcast Information Service.JPRS Report:China[M].Washington DC:Foreign Broadcast Information Service,1993.
[8]Deng Y,Kumar S,Byrne W.Segmentation and alignment of parallel text for statistical machine translation[J].Natural Language Engineering,2007,13(3):235-260.
[9]Ma X.Champollion:A robust parallel text sentence aligner[C]∥LREC 2006:Fifth International Conference on Language Resources and Evaluation, 2006:489-492.
[10]Li P, Sun M, Xue P. Fast-Champollion:A fast and robust sentence alignment algorithm[C]∥Proc of the 23rd International Conference on Computational Linguistics:Posters.Association for Computational Linguistics,2010:710-718.
[11]Quan X,Kit C,Song Y.Non-monotonic sentence alignment via semisupervised learning[C]∥Proc of ACL, 2013:622-630.
[12]Brown P F,Pietra V J D,Pietra S A D,et al.The mathematics of statistical machine translation:Parameter estimation[J].Computational Linguistics,1993,19(2):263-311.
[13]Vogel S,Ney H,Tillmann C.HMM-based word alignment in statistical translation[C]∥Proc of the 16th Conference on Computational Linguistics,1996:836-841.
[14]Feng D,Lü Y,Zhou M.A new approach for English-Chinese named entity alignment[C]∥Proc of EMNLP’04,2004:372-379.
惠浩添(1991-),男,江蘇徐州人,碩士生,研究方向為信息抽取。E-mail:20134227019@stu.suda.edu.cn
HUI Hao-tian,born in 1991,MS candidate,his research interest includes information extraction.
李云建(1991-),男,江西撫州人,碩士生,研究方向為信息抽取。E-mail:20145227020@stu.suda.edu.cn
LI Yun-jian,born in 1991,MS candidate,his research interest includes information extraction.
錢龍華(1966-),男,江蘇蘇州人,博士,副教授,CCF會員(E200014271M),研究方向為自然語言處理。E-mail:qianlonghua@suda.edu.cn
QIAN Long-hua,born in 1966,PhD,associate professor,CCF member(E200014271M),his research interest includes natural language processing.
周國棟(1967-),男,江蘇常州人,博士后,教授,CCF會員(E200008769S),研究方向為自然語言處理。E-mail:gdzhou@suda.edu.cn
ZHOU Guo-dong,born in 1967,post doctor,professor,CCF member(E200008769S),his research interest includes natural language processing.
A Chinese-English parallel corpus for information extraction
HUI Hao-tian,LI Yun-jian,QIAN Long-hua,ZHOU Guo-dong
(1.Natural Language Processing Lab,Soochow University,Suzhou 215006;
2.School of Computer Science & Technology,Soochow University,Suzhou 215006,China)
Abstract:In addition to machine translation, parallel corpora play an important role in information retrieval, information extraction and knowledge acquisition, etc. However, traditional parallel corpora are aligned at sentence level, thus their significance for research on cross-language natural language processing is limited. In view of this, on the basis of the OntoNotes, we construct a high quality Chinese and English parallel corpus for information extraction by combining automatic extraction, automatic mapping and manual annotation. The corpus contains the entities and their mutual relations, and achieves the alignment between Chinese and English both on entity and relation levels. This corpus therefore can facilitate comparative study of information extraction in Chinese and English, reveal the difference of semantic expressions between languages, and also provide a valuable platform for research on cross-language information extraction.
Key words:named entity;semantic relation;bilingual mapping;parallel corpus
作者簡介:
doi:10.3969/j.issn.1007-130X.2015.12.021
中圖分類號:TP391
文獻(xiàn)標(biāo)志碼:A
基金項目:國家自然科學(xué)基金資助項目(61373096,90920004);江蘇省高校自然科學(xué)研究重大項目(11KJA520003)
收稿日期:修回日期:2015-10-21
文章編號:1007-130X(2015)12-2331-08