馮文賀 ,李艷翠,任 函,周國棟
(1. 廣東外語外貿大學 語言工程與計算實驗室,廣東 廣州 510006;2. 河南科技學院 中文系,河南 新鄉(xiāng) 453003;3. 河南科技學院 信息工程學院,河南 新鄉(xiāng) 453003;4. 蘇州大學 計算機學院,江蘇 蘇州 215006)
漢英篇章結構平行語料庫的對齊標注評估
馮文賀1,2,李艷翠3,任 函1,周國棟4
(1. 廣東外語外貿大學 語言工程與計算實驗室,廣東 廣州 510006;2. 河南科技學院 中文系,河南 新鄉(xiāng) 453003;3. 河南科技學院 信息工程學院,河南 新鄉(xiāng) 453003;4. 蘇州大學 計算機學院,江蘇 蘇州 215006)
漢英篇章結構平行語料庫是為漢英翻譯文本標注對齊篇章結構信息的語料庫,對齊標注是其核心工作,基本原則是“結構對齊、關系對齊”。該文基于所開發(fā)的對齊標注平臺,進行人工對齊標注實驗,提出切分對齊、結構對齊、關系對齊、連接詞對齊、關系角色與中心對齊等對齊標注任務的評估方法,并給出評估分析。實驗表明,對齊標注是構建漢英篇章結構平行語料庫的合理、有效工作方式。
篇章結構;平行語料庫;對齊標注;結構對齊;對齊評估
漢英篇章結構平行語料庫(Chinese-English discourse treebank,CEDT)是為漢英翻譯文本標注了對齊篇章結構信息的語料庫[1]。例1給出了一個漢英篇章結構對齊標注文本。
例1現(xiàn)在,我代表國務院,A//@[條件] 向大會做政府工作報告,B@/// [目的]請予審議,C@/@[并列] 并請全國政協(xié)各位委員提出意見。D(《中國政府工作報告》,2014年)
On behalf of the State Council,1//@[條件] I now present to you the report on the work of the government2@/// [目的]for your deliberation,3@/@[并列] and I welcome comments on my report from the members of the National Committee of the Chinese People’s Political Consultative Conference (CPPCC).4
(說明: 例1中上標的字母和數(shù)字分別表明漢英小句,“/”多少表明篇章結構層次高低,篇章關系用[ ]標記,連接詞用下劃線標記,@標明每一個關系中心項所在位置)
可以看出,這種對齊既要求語言單位對齊,也要求語言層次結構對齊。結構對齊是CEDT的核心理念,標注了結構對齊信息的雙語篇章結構語料庫可以為機器翻譯等提供較為直接的雙語篇章結構轉換知識。
現(xiàn)有漢英平行語料庫[2-4],一般僅進行段落、句子等語言單位對齊,并不提供雙語篇章結構等結構對齊信息。而現(xiàn)有篇章結構語料庫主要面向單語(如英語[5-6]、漢語[7-9])。這些工作篇章結構體系不盡一致,也沒有基于雙語文本,由此,難以提供直接的漢英篇章結構轉換知識。至今雙語篇章結構知識資源還相當匱乏,這直接制約著篇章機器翻譯等研究的進展。
結構對齊是漢英篇章結構平行語料庫的關鍵所在,然而由于雙語差異等,實踐漢英篇章結構對齊標注相當有挑戰(zhàn)性。漢英篇章結構對齊標注的可行性如何,還有待驗證評估。本文對漢英篇章結構對齊標注進行實驗評估研究。
在篇章結構模式上,CEDT采用連接依存樹模式[10],這種模式融合修辭結構[11]的層次化結構和賓州篇章模式的連接詞論元結構。連接依存樹的主要特征: 篇章結構為層次化結構,其中葉子節(jié)點為子句,內部節(jié)點為連接詞,連接詞通過其層級地位表示篇章層次結構,通過其語義表示篇章關系,連接詞所連接的篇章單位根據(jù)篇章整體意圖區(qū)分主次,又根據(jù)語義關系區(qū)分不同關系角色。該模式已成功應用于漢語篇章結構語料庫構建與分析技術研究[10-12]。
不過,CEDT并非各自獨立對漢英平行語料標注篇章結構。結構對齊是CEDT的核心思想,基本原則是“結構對齊,關系對齊”,基礎假設在于具有對譯關系的篇章,其內部的層次結構和關系也一一對應。本質上篇章結構是一種邏輯語義結構,對于一個優(yōu)質翻譯文本,源語的因果、轉折等邏輯語義關系必然在目的語中反映,而且關系的結構層級也會得到反映。“結構對齊、關系對齊”本質上是邏輯語義結構對齊。圖1是 例1的結構對齊圖。
圖1 例1的漢英篇章結構對齊標注實例注: 箭頭指向關系中心項,“*”表示無顯式連接詞
基于以上思想,形成漢英篇章結構的對齊標注任務及對齊標注策略,主要包括:
(1) 切分對齊標注: 雙語基本篇章單位(elementary discourse unit,簡稱EDU或子句)的對齊。如圖1所示,例1的漢英EDU對齊為: A-1、B-2、C-3、D-4。切分對齊標注的基本策略以漢語子句分析[13]為指導標準,對齊切分英語。
(2) 結構對齊標注: 雙語相應切分的層次結構對齊。如圖1所示,漢語層次結構與相應英語結構一一對應,即((A (B C))D) —— ((1 (2 3))4)。層次結構對齊標注的基本策略以英語為指導標準,對齊分析漢語。
(3) 關系對齊標注: 對于雙語對齊的層次結構,其相應篇章關系對齊。如圖1所示,漢語的層次結構關系與英語層次結構關系一一對應,即(并列(條件A (目的B C))D) —— (并列(條件1 (目的2 3))4)。篇章關系對齊標注的基本策略以英語為指導標準,對齊標注漢語。
(4) 連接詞對齊標注: 對于雙語對齊的層次結構,其相應的篇章連接詞對齊。如圖1所示,漢語的連接詞及其管轄與英語的層次結構及其管轄一一對應,即(并(*A (*B C))D) —— (and(*1 (for2 3))4)。連接詞對齊標注的基本策略以雙語對齊的結構層次為基礎,標注雙語實際相應的連接詞。
(5) 關系角色對齊標注: 對于雙語對齊的層次結構及關系,其相應的篇章關系角色項對齊。例1各關系的角色項對應的線性順序位置正好一致,而在另外情況下可能不一致,如因果關系,漢語可能為前因后果,相應英語卻前果后因。關系角色對齊標注的基本策略以漢語的關系角色位置分布常規(guī)為指導標準,標注雙語具體關系角色是否符合這一常規(guī)。
(6) 中心對齊標注: 對于雙語對齊的層次結構及關系,其中心項對齊。如圖1所示,目的關系中,雙語的“行為”均為中心項,而“目的”均為非中心項。中心對齊標注的基本策略以英語主從句等結構形式區(qū)分為指導,對齊標注具體關系的中心。
以上對齊標注策略中,子句對齊分析的漢語(源語)優(yōu)先策略保證對齊分析始終在篇章范疇內,又反映篇章單位對應句法結構等情況;結構與關系對齊分析的英語(目的語)優(yōu)先策略保證對齊結構是翻譯者構造的翻譯結構;連接詞、關系角色及中心的對齊標注策略,保證基于結構對齊準確,反映雙語的篇章語法形式差異。
CEDT的價值在于: 第一,不同于單語篇章結構分析,這種雙語篇章結構對齊分析,是一種反映了翻譯關系的篇章結構分析。對比例2的A、B及例1,其對于相同漢語語段,不同翻譯者有不同的結構理解,由此有不同的翻譯結構。本質上CEDT構造的對齊結構反映的是翻譯者的理解結構(源語)與翻譯結構(雙語)。由此,CEDT對于翻譯研究有更直接的價值。第二,不同于一般平行語料庫,CEDT既有單位對齊又有結構對齊,并且基于結構對齊,標注了雙語的連接詞、中心等重要語篇屬性。由此,CEDT可以提供更豐富的雙語篇章結構翻譯信息。具體而言,CEDT在篇章單位(含其主從地位)、篇章結構與關系(含關系角色順序)、連接詞等方面的漢英篇章結構翻譯等研究中起基礎性資源作用。
例2(A) 現(xiàn)在,我代表國務院,//@[條件] 向大會作政府工作報告,@///[目的]請各位代表審議,@/@ [并列]并請全國政協(xié)委員提出意見。(中國政府工作報告,2011)
On behalf of the State Council,1//@[條件] I now present to you my report on the work of the government2@///[目的]for your deliberation and approval.3@/@ [并列]I also invite the members of the National Committee of the Chinese People’s Political Consultative Conference (CPPCC) to submit comments and suggestions.4(2011譯)
(B) 現(xiàn)在,我代表國務院,/@ [條件]向大會報告政府工作,//@[目的] 請各位代表審議,@///@[并列] 并請全國政協(xié)委員提出意見。(中國政府工作報告,2012)
On behalf of the State Council,1/@ [條件]I now present to you my report on the work of the government2//@[目的] for your deliberation and approval3@///@[并列] and for comments and suggestions from the members of the National Committee of the Chinese People’s Political Consultative Conference (CPPCC).4(2012譯)
基于對齊標注任務和策略,開發(fā)了對齊標注平臺[1],以方便大規(guī)模語料庫的創(chuàng)建與應用。本文在標注平臺上進行人工對齊標注實驗,以考察這種對齊標注策略的可行性。
3.1 語料選擇
標注實驗語料為2014年《中國政府工作報告》(漢英雙語)的前半部分,共16 000多個字/詞。對于該語料,標注者A標注有效標注段落156個,共1 136個子句,816個關系;標注者B標注有效標注段落156個,共1 163個子句,819個關系。
語料選擇的主要考慮: 第一,政府公文及其英譯嚴謹規(guī)范,可以較好實現(xiàn)篇章結構的對齊標注;第二,語段的長度和深度具有代表性,包含7個左右子句,結構深度在3~4層,比較符合一般的段落長度和深度。
3.2 標注訓練
兩名中文系大四學生在項目導師指導下進行標注訓練,隨機從《中國政府工作報告》選擇十個平行段落標注訓練語料。標注訓練主要由三個階段構成: (1)導師示范標注兩個段落,講解主要標注策略及標注規(guī)范與標注平臺操作;(2)學生各自完成剩余八個段落的標注;(3)兩名學生各自與導師校對自行標注的八個段落,校對分三次完成,主要討論存在問題及校正與標注策略方法等。在此基礎上,兩名學生各自進行實驗語料標注。
3.3 對齊標注實現(xiàn)
對齊標注工作在對齊標注平臺上實現(xiàn),功能包括切分對齊標注、層次結構對齊標注、連接詞對齊標注、關系對齊標注、角色分布對齊標注、中心對齊標注。對齊標注主要操作規(guī)范: (1)從上到下,從左至右,雙語步步對齊分析;(2)雙語都是句群結構,以漢語分析對齊到英語分析,主要方便母語為漢語的標注者的理解分析,而雙語句群結構一般完全對應;(3)復句結構的對齊標注以英語分析為指導。主要考慮英語有較好形式標志,也從根本上反映翻譯結構。
3.4 標注結果
標注結果保存為XML格式,雙語標注結果各自獨立保存。漢英雙語的對齊關系可通過段落號(P ID)和段內關系號(R ID)體現(xiàn)。例1的部分對齊標注保存結果見圖2。
中文標注結果(限于篇幅僅給出第一層的關系,英文同):
標注一致性(consistency)是衡量語料庫標注質量的重要標準,也是衡量標注模式可行性的關鍵標準。不同理論下的篇章結構語料庫一致性評估內容有所差異,如針對修辭結構和賓州篇章模式的評估[5,9,13]。這些語料庫均為單語,還不涉及雙語結構對齊標注的評估。對CEDT的對齊標注評估,既要考慮篇章結構的獨特性,又要考慮雙語結構對齊的獨特性。
對兩名標注者A和B的共同標注語料進行標注一致性分析。根據(jù)CEDT的對齊標注任務,對雙語的切分、結構、關系、連接詞、關系角色、中心等對齊標注項目進行評估。其中結構對齊是基礎評估,關系、連接詞、關系角色、中心等的對齊評估在結構對齊基礎上進行評估。在每一個評估項目上,均考慮兩名標注者的漢語標注一致性、英語標注一致性、漢英混合標注一致性、漢英對齊標注一致性四個方面:
(1) 漢語標注一致性: 計算兩名標注者對相同漢語文本標注的一致性。
(2) 英語標注一致性: 計算兩名標注者對相同英語文本標注的一致性。
(3) 漢英混合標注一致性: 計算兩名標注者對所有漢語、英語文本標注的一致性。
(4) 漢英對齊標注一致性: 計算兩名標注者對相同文本的漢語標注一致且相應英語對齊文本標注也一致的一致性。
一致性評估主要計算標注一致率,即考察兩名標注者標注的一致內容與所有標注內容之比,一致率=A∩B/ AUB。對于不同的對齊標注任務,其計算內容根據(jù)具體情況有所不同。
另外,也對標注效率進行了評估。
4.1 切分對齊標注
4.1.1 評估方法
切分對齊即基本篇章單位(子句)對齊。評估方法有二。
切分對齊I: 計算所有可能切分的標注一致性。漢語子句的切分位置均有標點標記,對可能作為切分標記的標點進行切分與否的一致性計算。英語的子句切分并不一定以標點作為標記切分,形式上空格(實質是任意單詞或標點)均可做切分標記,對任一空格可否作為切分標記進行一致性計算。
切分對齊II: 計算不同標注者所有切分(AUB)中共同切分(A∩B)的一致性。對于句子位置SentencePosition="X1…X2|Y1…Y2",計算A、B標注切分位置相同的情況。
這里方法I考慮了所有可能的切分結果,可以反映切分的分析難度,并且該方法和自動切分過程一致,便于和自動切分結果對比。而方法II根據(jù)標注者的具體標注結果進行計算,可以準確反映標注者間的一致程度,并可統(tǒng)一漢英語的切分評估標準,便于跨語言比較。
4.1.2 結果與分析
表1顯示,切分對齊表現(xiàn)出較好的一致性,“漢語一致”可達0.971(共有需要判斷的標點位置700個,A、B均判斷切分395個,均不切分285個,A切分B不切分7個,A不切分B切分13個)/0.968(A、B共切分408個標點,A、B均切分395個),“英語一致”可達0.992(英文共有需要判斷的位置6 974個,A、B均切分514個,A、B均不切分6 403個,A切分B不切分 22個,A不切分B切分35個)/0.936(A、B共切分位置549個,A、B均切分514個),最嚴格情況下(“漢英對齊一致”)“切分對齊II”也可達到0.909的一致率。然而,“漢英對齊一致”還有待進一步提高,相比“漢語一致”(0.968)還有一定提高空間。漢英對齊一致切分制約著各項對齊工作的性能,其進一步提高具有重要性和必要性。
表1 漢英篇章結構的切分對齊標注一致率
值得注意,在“切分對齊I”下,“英語一致”好于“漢語一致”(0.992/0.943>0.971/0.941),而在“切分對齊II”下,“漢語一致”好于“英語一致”(0.968>0.936),這是因為在I中漢英一致性計算的基數(shù)不一致,漢語僅對有限標點符號計算,而英語卻對任一空格計算,由于空格不切分的情況較多且容易判斷,這就使得英語的切分一致性表現(xiàn)得好于漢語。
然而實際是漢語切分好于英語。這一結果可以在“切分對齊II”下得到顯示(0.968>0.936),此時雙語均采用同樣的對齊評估標準。漢語切分對齊好于英語,是因為漢語切分有標點做標記,相對容易;而英語切分并不以標點為標記,具體切分位置容易判斷錯誤。所以,相比“切分對齊I”,“切分對齊II”可以更準確地反映雙語對齊效果差異。
可從兩方面改善切分對齊標注: 第一,注意英語切分對齊標注的位置精準性。第二,進一步在漢語指導下,實現(xiàn)英語切分對齊,并從根本上提高漢英切分對齊一致的性能。
4.2 結構對齊標注
4.2.1 評估方法
對于結構對齊,采用三種方法進行評估。
篇章單位對齊: 計算不同標注者所標注語料中所有篇章單位的一致性。即對于一個標注切分SentencePosition=“X1…X2|Y1…Y2”,計算不同標注者所有標注切分中,任意一個切分塊“X1…X2”或“Y1…Y2”之間的一致性。這種算法的依據(jù)在于,不同層級上的篇章單位首尾跨度不同,所以篇章單位的跨度一致性一定程度上可以反映篇章結構對齊。
論元部分對齊: 對于一個相同的切分位置,計算不同標注者對于該切分的左論元或右論元的一致性。即對于一個標注切分SentencePosition=“X1…X2|Y1…Y2”,計算A=“X1…X2”=B,或A=“Y1…Y2”=B。與篇章單位對齊不同之處在于,這種對齊基于一個共同切分位置(X2|Y1),比對對象要求同時是該切分的左論元(“X1…X2”)或右論元(“Y1…Y2”)。相對于篇章單位對齊,論元部分對齊要求嚴格一些。
論元完全對齊: 對于一個相同的切分位置,計算不同標注者對于該切分的左論元和右論元的一致性。相比論元部分對齊,這種對齊要求同一個切分位置(X2|Y1)的左論元(X1…X2)和右論元(Y1…Y2)完全一致。對于一個切分或一個關系來說,這種對齊是完全對齊。
4.2.2 結果與分析
表2顯示,(1)“篇章單位對齊”一致率整體基本達到0.80以上,由于篇章單位有大有小,處于不同層級,這一效果顯示漢英篇章結構對齊呈現(xiàn)良好一致性。
表2 漢英篇章結構的層次結構對齊標注一致率
(2) 在切分位置對齊的情況下,論元部分對齊達到更好效果,整體平均約0.90(漢語共標注關系594個,論元部分對齊551個;英語標注關系605個,論元部分對齊533個),說明切分位置的準確把握,對于結構對齊是非常有幫助的。
(3) 論元完全對齊的效果基本可以,一致率整體為0.630~0.709(漢語標注關系594個,論元完全對齊421個;英語標注關系605個,論元完全對齊381個),但還不盡如人意。說明對每個關系的管轄范圍還不夠精準。其原因與結構理解歧義等有關。如例3的A、B,切分雖然完全一致,但由于英語的狀語管轄(On behalf of the State Council)歧義,A、B的論元完全對齊毫無一致。關于結構對齊困難見文獻[14]。
(4) 各種對齊的“英語一致”整體低于“漢語一致”,原因在于漢語切分有標點符號做標記,較易統(tǒng)一,而英語不以標點符號作標記,準確切分位置難于確定,導致錯誤和不一致。
結構對齊制約進一步的關系、連接詞、中心等對齊標注,還需提高結構對齊,特別是論元完全對齊的水平??蓮膬煞矫娓倪M結構對齊標注: 第一,針對英文,提高精確結構切分水平;第二,進一步提高切分點的對齊水平,從而以對齊切分點為基礎明確論元管轄。
以上評估沒有考慮句群結構和復句結構的不同,一般來說復句結構對齊標注難度大,但對于翻譯的指導意義更大。進一步的評估研究中,將考慮對句群和復句結構賦予不同權重。
例3(A) 現(xiàn)在,我代表國務院,///向大會做政府工作報告,//請予審議,/并請全國政協(xié)各位委員提出意見。(《中國政府工作報告》,2014年)
On behalf of the State Council,/// I now present to you the report on the work of the government//for your deliberation,/and I welcome comments on my report from the members of the National Committee of the Chinese People’s Political Consultative Conference (CPPCC).(2014譯)
(B)現(xiàn)在,我代表國務院,/向大會作政府工作報告,///請予審議,//并請全國政協(xié)各位委員提出意見。
On behalf of the State Council,/I now present to you the report on the work of the government///for your deliberation,//and I welcome comments on my report from the members of the National Committee of the Chinese People’s Political Consultative Conference (CPPCC).
4.3 關系對齊標注
4.3.1 評估方法
在結構對齊(論元完全對齊)基礎上,計算不同標注者關系類型*共設置并列、順承、選擇、遞進、對比、因果、假設、條件、目的、推斷、背景、轉折、讓步、解說、總分、例證、評價等共17個類,本語料涉及較多的類別主要有: 并列、解說、目的、因果、條件、評價等。的標注一致性。
4.3.2 結果與分析
表3顯示,關系對齊標注整體達到較高的一致率,其中最嚴格的“漢英對齊一致”可達0.835(A、B標注漢英結構位置都相同的有802個,其中關系相同的有670個)。同時顯示,“漢語一致”和“英語一致”的對齊情況接近(0.872|0.860)。英語關系形式(連接詞)標記多,易于判斷,對齊策略采用以英語為指導標準的關系對齊,評估顯示這種策略非常有效。
表3 漢英篇章結構的關系對齊標注一致率
關系對齊還有一定提高空間,對齊結果顯示,“英語一致”還略遜于“漢語一致”(0.860<0.872),說明英語的關系判定還有一些難點。根據(jù)分析[14],其難點在無關系詞、關系詞一詞多義、主從復句和句內關系等情況。
4.4 連接詞對齊標注
4.4.1 評估方法
連接詞對齊標注評估在結構對齊(論元完全對齊)的基礎上進行。從以下三個方面評估。
(1) 顯隱對齊: 同一結構下,對連接詞顯式、隱式的標注一致性計算。
(2) 顯式連接詞對齊: 同一結構下,對顯式連接詞的具體取值一致性進行計算。
(3) 全部連接詞對齊: 對于同一結構關系,對連接詞的具體取值進行比對計算。
4.4.2 結果與分析
表4顯示,顯隱對齊標注一致率非常高。其中,漢英混合一致率達0.974(A、B標注結構位置相同的有802個,顯隱關系相同的有781個)。
表4 漢英篇章結構的連接詞對齊標注一致率
表4又顯示,對于連接詞對齊標注,“英語一致”明顯高于“漢語一致”,特別表現(xiàn)在“連接詞對齊(顯式)”0.950 > 0.400(英語結構位置相同的顯式連接詞位置201個,其中連接詞相同的有191個;漢語結構位置相同的顯式連接詞位置有32個,其中連接詞相同的有13個)和“連接詞對齊(全部)”上0.690>0.278(英語結構位置相同的連接詞位置381個,其中連接詞相同的有263個;漢語結構位置相同的連接詞位置421個,其中連接詞相同的有117個)。這一結果不難理解,英語顯式連接詞多,且對于連接詞有比較共性的認識;漢語顯式連接詞少,且對于連接詞的認識分歧較大。這也證明在關系對齊標注時以英語為指導性標準的可靠性。
結果又顯示,“連接詞對齊(全部)”低于“連接詞對齊(顯式)”,這是因為我們?yōu)殡[式連接詞添加了可以表達該結構關系的連接詞,由于表達同一結構關系的連接詞可能有多個,比如表達“并列關系”的有“并且、同時”等,這就使得對齊較難統(tǒng)一。
可從兩方面改進連接詞對齊標注: 第一,進一步明確漢語連接詞的定義,從而增強漢語顯式連接詞的對齊標注效果;第二,規(guī)范隱式連接詞的添加,減少隱式連接詞添加的分歧。
4.5 關系角色與中心的對齊標注
4.5.1 評估方法
相對于一定的結構關系,對關系角色和中心的對齊標注的評估在結構對齊(論元完全對齊)的基礎上進行。
關系角色對齊: 對于相同的結構,計算不同標注者對于其關系角色的分布取值(“符合常規(guī)”和“不合常規(guī)”)的標注一致性。
關系中心對齊: 對于相同的結構,計算不同標注者對于其關系中心分布位置取值[(1)中心在前;(2)中心在后;(3)前后均為中心]的標注一致性。
4.5.2 結果與分析
表5中,關系角色對齊“漢英混合一致”、“漢語一致”和“英語一致”的一致率分別為0.961、0.957和0.966,其中,A、B標注漢英結構位置相同的有802個,角色相同的有771個;漢語結構位置相同的有421個,角色相同的有403個;英語結構位置相同的有381個,角色相同的有368個。
表5 漢英篇章結構的關系角色與中心對齊標注一致率
關系中心對齊“漢英混合一致”“漢語一致”“英語一致”均接近85%。其中,漢英結構位置相同的有802個,中心相同的有676個;漢語結構位置相同的有421個,中心相同的有355個;英語結構位置相同的有381個,中心相同的有321個。
表5顯示,漢語和英語的“關系角色對齊”“關系中心對齊”標注一致率整體較高。同時呈現(xiàn)兩個特點: 第一,兩種對齊水平基本相同,表現(xiàn)出語言平衡性;第二,兩種對齊一致率有差異,“關系角色對齊”高于“關系中心對齊”。前者的原因在于,這兩項對齊工作均采用同步對齊標注的策略,即對于同一個關系項一般總是同時應用于漢英雙語標注,所以表現(xiàn)出雙語對齊標注一致的平衡性。后者的原因在于,兩項對齊工作采用不同的對齊標注指導標準,“關系角色對齊”以漢語角色分布常規(guī)為標準,標準易于把握;而“關系中心對齊”主要以英語的主從句等形式為指導標準,對于沒有顯性形式的情況則難以把握。
改善中心對齊的關鍵是,對于英語沒有形式標記的情況,提出明確的中心判定標準。
4.6 標注效率
對標注效率進行評估。根據(jù)標注語料的時間屬性取值,計算每一個關系標注的耗費時間(秒/關系)。每一個關系標注,包含切分、結構、關系、連接詞、角色、中心等全部標注。表6中,“漢語關系”計算只考慮漢語 關系標注所用時間; “英語關系”計算只考慮英語關系標注所用時間; “漢英混合關系”對全部漢英關系標注所用時間計算; “漢英對齊關系”
表6 漢英篇章結構標注耗時分析(秒/關系)
計算對同一個關系,標注完漢語和所對齊的英語所用的時間。
表6顯示,篇章結構關系標注的效率較高,一個“漢英混合關系”的標注平均時間為30秒,一對“漢英對齊關系”標注平均耗時60秒。相比漢語,英語的標注效率更高(23<37;137<361;4<8)。這一方面與英語有較多形式標記容易判斷有關;另一方面可能也與理解和標注策略有關,標注者的母語是漢語,總是傾向于從漢語理解入手,初步理解后才進行英語分析及對齊標注。
漢英篇章結構平行語料庫對基于篇章結構的機器翻譯研究等起基礎性作用,其研制具有重要理論和實踐意義。結構對齊是漢英篇章結構平行語料庫的核心工作機制,本文在“結構對齊、關系對齊”的標注策略指導下,進行了漢英篇章結構的對齊標注實驗,提出了對齊標注的評估方法,并進行了實驗結果分析。實驗結果表明,漢英篇章結構的對齊標注在各個標注任務層面均取得較高一致率,具有可行性和可信性,也取得較高的標注效率。
下一步將對本研究所發(fā)現(xiàn)的一些對齊標注問題進行針對性研究,以改善對齊標注效果,還將改良評估方法,從而為最終提供良好質量的漢英篇章結構平行語料庫打下基礎。
[1] 馮文賀.漢英篇章結構平行語料庫的對齊標注研究[J].中文信息學報,2013(6): 158-165.
[2] 柏曉靜, 常寶寶, 詹衛(wèi)東, 等. 構建大規(guī)模的漢英雙語平行語料庫[C]. 黃河燕. 機器翻譯研究進展:2002年全國機器翻譯研討會論文集.北京:電子工業(yè)出版社,2002.
[3] 王克非. 雙語對應語料庫: 研制與應用[M].北京: 外語教學與研究出版社,2004.
[4] 劉澤權,田璐,劉超朋.《紅樓夢》中英文平行語料庫的創(chuàng)建[J]. 當代語言學, 2008, 10(4): 329-339.
[5] Carlson L, Marcu D, Okurowski M E. Building a discourse-tagged corpus in the framework of rhetorical structure theory [M]. Jan van Kuppevelt, Ronnie W.Smith (eds.),Current and New Directions in Discourse and Dialogue, Kluwer Academic Publishers,2003: 85-112.
[6] Prasad R, Dinesh N, Lee A,et al. The Penn Discourse Treebank 2.0[C]//Proceedings of the 6th International Conference on Language Resources and Evaluation,2008.
[7] 樂明. 漢語篇章修辭結構的標注研究[J]. 中文信息學報, 2008, 22(4): 19-23.
[8] ZhouY, Xue N. PDTB-style Discourse Annotation of Chinese Text[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, 2012: 69-77.
[9] 張牧宇,宋原,秦兵,等.中文篇章級句間語義關系體系及標注[J].中文信息學報,2014,(2): 28-36.
[10] Li Y, Feng W, Sun J, et al. Building Chinese discourse corpus with connective-driven dependency tree structure[C]//Proceedings of EMNLP 2014, 2014: 2105-2114.
[11] Mann W C, Thompson S A. Rhetorical structure theory: toward a functional theory of text organization[J]. Text, 1988, 8(3): 243-281.
[12] 李艷翠,馮文賀,周固棟,等. 基于逗號的漢語子句識別研究[J]. 北京大學學報(自然科學版), 2013,49(1): 7-14.
[13] Marcu D,Amorrortu E,Romera M.Experiments in constructing a corpus of discourse trees[C]//Proceedings of the ACL Workshop on Standards and Tools for Discourse Tagging,1999: 48-57.
[14] 馮文賀,李艷翠,周國棟.漢英篇章結構平行語料庫對齊標注的難點與對策[C]. 第十屆全國機器翻譯研討會,2014: 25-35.
EvaluationforAlignmentAnnotationofChinese-EnglishDiscourseTreebank
FENG Wenhe1,2,LI Yancui3,REN Han1, ZHOU Guodong4
(1. Laboratory of Language engineering and computing, Guangdong University of Foreign Studies, Guangzhou, Guangdong 510006,China; 2. Department of Chinese Language and Literature,Henan Institute of Science and Technology, Xinxiang ,Henan 453003, China; 3. School of Information Engineering, Henan Institute of Science and Technology, Xinxiang,Henan 453003,China; 4. Department of Computer Science and Technology, Soochow University, Suzhou,Jiangsu 215006,China)
Chinese-English discourse treebank (CEDT) is a parallel corpus annotated with alignment discourse structure information for Chinese and English. Its core task is alignment annotation supervised by the principle of structure and relation alignment. With the corresponding annotation platform, we manually annotate the corpus, propose the evaluation methods for the alignment annotation and give the evaluation analysis, including segmentation, structure, relation, connective, relation role and center alignment. Experimental results show that the alignment annotation strategy is a feasible and efficient method of building CEDT.
discourse structure;parallel corpus; alignment annotation; structural alignment;alignment evaluation
馮文賀(1976—),博士,博士后,碩士生導師,主要研究領域為理論語言學、計算語言學。
李艷翠(1982—),博士,主要研究領域為計算語言學。
任函(1980—),通信作者,博士,主要研究領域為計算語言學。
1003-0077(2017)03-0086-08
2014-12-05定稿日期: 2015-07-22
教育部人文社科項目(13YJC740022、15YJC740021);河南高校哲社基礎研究重大項目(2015-JCZD-022);中國博士后基金(2013M540594);國家自然科學基金(61402341,61502149,61273320);廣東外語外貿大學語言工程與計算實驗室2016年招標課題(LEC2016ZBKT001,LEC2016ZBKT002)
TP391
: A