成潔
摘 要: 誤差分析是衡量機(jī)器翻譯系統(tǒng)性能的重要手段。在從句復(fù)合模型的分析框架下,對(duì)從句復(fù)合級(jí)錯(cuò)誤進(jìn)行了分析,并從漢英語法差異的角度對(duì)錯(cuò)誤進(jìn)行了解釋。統(tǒng)計(jì)結(jié)果表明,復(fù)句級(jí)錯(cuò)誤發(fā)生的概率相對(duì)較高,而且錯(cuò)誤的發(fā)生在不同的體裁上是不同的,并且與復(fù)句的長(zhǎng)度呈正相關(guān)。
關(guān)鍵詞: 機(jī)器翻譯; 從句復(fù)雜度; 從句-復(fù)雜度級(jí)別錯(cuò)誤; 漢譯英
中圖分類號(hào): H315.9/TP391.2 ? ? ?文獻(xiàn)標(biāo)志碼: A
Abstract: Error analysis is an important method for performance estimationof machine translation systems. This article analyzes clause-level compound errors under the analysis framework of clause-complex model, and explains the errors from the perspective of differences between Chinese and English grammars. Statistical results show that the probability of complex sentence-level errors is relatively high, and that errors occur in different genres, and are positively related to the length of complex sentences.
Key words: machine translation; clause complex; clause-complex level errors; Chinese-English translation
0 引言
機(jī)器翻譯(MT)技術(shù)在過去幾十年里得到了長(zhǎng)足的發(fā)展。隨著機(jī)器翻譯的發(fā)展,機(jī)器翻譯輸出的評(píng)價(jià)方法也在不斷發(fā)展。在MT發(fā)展的早期,人工評(píng)價(jià)是主要的方法。然而,隨著機(jī)器翻譯統(tǒng)計(jì)方法的廣泛應(yīng)用,通過計(jì)算機(jī)器翻譯輸出和人工翻譯之間的相似度來進(jìn)行自動(dòng)評(píng)價(jià)的方法得到了廣泛的應(yīng)用[1-2]。盡管自動(dòng)評(píng)價(jià)是一種客觀的評(píng)價(jià)方法,提高了評(píng)價(jià)的效率,但自動(dòng)評(píng)價(jià)的結(jié)果能否正確反映機(jī)器翻譯輸出的質(zhì)量,并指出機(jī)器翻譯輸出錯(cuò)誤的原因,還是值得懷疑。同時(shí),雖然目前仍有人工評(píng)價(jià)的研究,但大多只是對(duì)機(jī)器翻譯錯(cuò)誤進(jìn)行分類,沒有詳細(xì)分析錯(cuò)誤產(chǎn)生的原因[3-4]。因此,本文旨在分析MT誤差產(chǎn)生的原因。
根據(jù)Halliday的理論[5],語言結(jié)構(gòu)涉及不同的層次,包括語素、詞、組/短語、從句、從句復(fù)合詞。不同的語言層次涉及不同的語境關(guān)系。由于跨語言從句復(fù)雜程度上的差異很大,而且涉及到遙遠(yuǎn)的語境關(guān)系,因此這種差異會(huì)給機(jī)器翻譯帶來更大的困難。所以,本文探討了漢英機(jī)器翻譯中的從句復(fù)合級(jí)錯(cuò)誤。
1 漢英復(fù)合從句
漢語從句復(fù)合體是基于命名共享關(guān)系和邏輯語義關(guān)系組合而成的標(biāo)點(diǎn)從句(p-子句)序列[6]。p-子句是由逗號(hào)、分號(hào)、句點(diǎn)、感嘆號(hào)或問號(hào)與周圍上下文分隔的文本段。下例說明子句的復(fù)雜度,如圖1所示。
p-子句中的一個(gè)組件可以由另一個(gè)p-子句解釋或斷言。前面的組件稱為命名,下面的p-子句稱為定語從句。示例1顯示了一個(gè)由4個(gè)p-子句組成的子句復(fù)合體,這些p-子句以換行縮進(jìn)模式表示。在本例中,帶下劃線的組件是名稱。冠名權(quán)上的成分、冠名權(quán)下和冠名權(quán)上的p-子句是它們的標(biāo)志。
對(duì)于英語從句復(fù)合句來說,它基本上是一個(gè)傳統(tǒng)的句子。在英語中,主語或名詞短語加上解釋或修飾后稱為命名。它的謂語,或者它的解釋或后修飾,被稱為它的定語。
2 從句-復(fù)雜級(jí)錯(cuò)誤
2.1 定義
從句復(fù)雜級(jí)錯(cuò)誤(clause-complex level errors, CC)是指在翻譯過程中,由于忽略了源語言的小句間關(guān)系而導(dǎo)致的錯(cuò)誤[7]。更具體地說,在漢英翻譯中,這些錯(cuò)誤是由于忽略了從句復(fù)合體中p-子句之間的關(guān)系而造成的。
應(yīng)該強(qiáng)調(diào)的是,在此只關(guān)注從句復(fù)雜度的錯(cuò)誤。在本研究中,將不標(biāo)記和分析非因忽略小句間關(guān)系而引起的錯(cuò)誤。具體演示如何識(shí)別CC級(jí)別的錯(cuò)誤,如圖2所示。
在圖2中,每個(gè)帶圓圈的數(shù)字表示一個(gè)錯(cuò)誤,其位置表示錯(cuò)誤發(fā)生的位置。中文原版、機(jī)器翻譯輸出版和修訂版中相同的數(shù)字表示機(jī)器翻譯輸出版中相同的錯(cuò)誤。帶圓圈數(shù)字右邊帶下劃線的部分是機(jī)器翻譯輸出中的錯(cuò)誤單詞或短語。如果一個(gè)帶圓圈的數(shù)字右邊沒有帶下劃線的部分,這意味著在這個(gè)位置的機(jī)器翻譯的輸出中有一些缺少的單詞。
雖然機(jī)器翻譯的輸出中總共有7個(gè)錯(cuò)誤,但只有錯(cuò)誤2和錯(cuò)誤6是CC級(jí)別的錯(cuò)誤。錯(cuò)誤2是因?yàn)榇宋恢萌鄙俣禾?hào)。在中文原句中,句子“為了給他醫(yī)病”是后面三句話的邏輯目的。但是沒有逗號(hào),邏輯目的就無法正確表達(dá)。錯(cuò)誤6對(duì)應(yīng)于第四個(gè)p-子句。在直譯方面,似乎第四個(gè)p-子句翻譯正確。然而,從漢語從句復(fù)合體的結(jié)構(gòu)來看,機(jī)器翻譯系統(tǒng)未能在基于共享命名的最后一個(gè)p-子句的翻譯中補(bǔ)充主語“她”。
其余5個(gè)錯(cuò)誤不是CC級(jí)錯(cuò)誤。錯(cuò)誤1是由于中文人名的不正確細(xì)分引起的。在錯(cuò)誤3中,中文短語“為了給他醫(yī)病”的結(jié)構(gòu)在輸出中未正確翻譯。發(fā)生錯(cuò)誤4是因?yàn)橹形摹芭鼙榱恕敝械膭?dòng)詞在翻譯中丟失了。錯(cuò)誤5是錯(cuò)誤的,因?yàn)橄到y(tǒng)無法補(bǔ)充副詞動(dòng)詞。錯(cuò)誤7是動(dòng)詞的錯(cuò)誤選擇。所有這5個(gè)錯(cuò)誤與其他p子句都不相關(guān),因此它們不是CC級(jí)錯(cuò)誤。
2.2 從句復(fù)雜級(jí)錯(cuò)誤的分類
通過誤差分析,發(fā)現(xiàn)CC級(jí)誤差可分為形態(tài)誤差、共享結(jié)構(gòu)誤差和邏輯關(guān)系誤差。每種類型的錯(cuò)誤都對(duì)應(yīng)于一種在機(jī)器翻譯輸出中沒有得到正確處理的子句間關(guān)系。
詞形錯(cuò)誤是指由于忽視小句之間的詞匯關(guān)系而導(dǎo)致動(dòng)詞、名詞或代詞詞形選擇錯(cuò)誤。當(dāng)命名和命名之間的語義關(guān)系在機(jī)器翻譯輸出中不恰當(dāng)?shù)爻尸F(xiàn)時(shí),就會(huì)出現(xiàn)共享結(jié)構(gòu)錯(cuò)誤。邏輯關(guān)系錯(cuò)誤是指影響子句之間邏輯關(guān)系的錯(cuò)誤。
形態(tài)錯(cuò)誤主要是由于漢語缺乏形態(tài)而引起的,這一點(diǎn)已被廣泛認(rèn)識(shí)。因此,在此著重研究后兩類錯(cuò)誤。
3 漢英機(jī)器翻譯輸出中的從句級(jí)錯(cuò)誤
本文分析了兩類錯(cuò)誤:共享結(jié)構(gòu)錯(cuò)誤和邏輯關(guān)系錯(cuò)誤。
3.1 共享結(jié)構(gòu)錯(cuò)誤
從錯(cuò)誤分析中可以看出,共有結(jié)構(gòu)錯(cuò)誤主要是由于中英文在共有層面上的語法差異,特別是漢語中缺乏形態(tài)結(jié)構(gòu)和相對(duì)較大的從句復(fù)雜度(CC-size是指一個(gè)復(fù)合從句中包含的p-子句的數(shù)量)。下面是共享結(jié)構(gòu)錯(cuò)誤的示例,說明這兩個(gè)特征的影響,顯示了缺乏形態(tài)形式的影響。如圖3所示。
中文和英文在語義角色形式上有所不同。 在中文中,不同的語義角色可以采用相同的形式。 在英語中,不同的語義角色對(duì)應(yīng)于不同的形式[8]。 因此,中文命名無需更改其形式即可在將其共享為命名的講述中承擔(dān)不同的語義角色。 在圖3的例子中,共享命名“她”在第一個(gè)p-子句中扮演屬性“自家生活條件”的持有者,在第二個(gè)p-子句中變成動(dòng)詞“收養(yǎng)”的代理,并成為主題 在最后一個(gè)p-子句中。 在機(jī)器翻譯輸出中,機(jī)器翻譯系統(tǒng)在第一子句中正確使用了所有格代詞她,但是它未能相應(yīng)地更改命名形式并為其他兩個(gè)敘述的翻譯補(bǔ)充它們。
顯示了大型從句復(fù)雜大小的影響,如圖4所示。
在中文中,從句復(fù)合句的大小可能多達(dá)數(shù)十個(gè)p-子句。 在一個(gè)大型的漢語從句復(fù)合句中,一個(gè)命名及其敘述很可能被許多p-子句分隔開,其中有些p-子句具有主謂結(jié)構(gòu)或以句號(hào)結(jié)尾。 在示例4中,最后一個(gè)用中文講的共享命名為“澳洲肺魚”,相距數(shù)個(gè)p-子句。 然而,機(jī)器翻譯系統(tǒng)僅復(fù)制了中文原件的結(jié)構(gòu),因此無法基于共享命名來補(bǔ)充主題的翻譯。 這也是錯(cuò)誤①,②,③和④的原因。
3.2 邏輯關(guān)系錯(cuò)誤
漢語和英語從句之間邏輯關(guān)系的表達(dá)方式是不同的。在機(jī)器翻譯輸出分析中發(fā)現(xiàn)了兩個(gè)特點(diǎn):連接詞的位置和省略。由于兩種語言之間的差異,機(jī)器翻譯系統(tǒng)很難在漢語原語中正確地呈現(xiàn)句間邏輯關(guān)系。如圖5所示。
在中文中,可以將連詞放在謂詞之前,以邏輯方式鏈接p-子句,但又不妨礙p-子句,尤其是后面帶有謂詞的p-子句可以共享命名。 但是,用英語來說,不能將從屬連詞直接置于謂詞之前而不將主語置于兩者之間。 因此,在機(jī)器翻譯輸出中,應(yīng)在位置1和3處補(bǔ)充對(duì)象。 另外,在中文中,不需要協(xié)調(diào)連詞來連接兩個(gè)共享邏輯連詞的p-子句。 但是,用英語來說,應(yīng)該使用一個(gè)協(xié)調(diào)連詞來連接兩個(gè)p-子句。 否則,這兩個(gè)部分的邏輯層次結(jié)構(gòu)將存在歧義。 因此,在位置2應(yīng)該補(bǔ)充連詞“和”。如圖6所示。
在中文中,省略連詞是很常見的。但是,在英語中,經(jīng)常需要使用連接詞來表示從句之間的邏輯關(guān)系。 在此示例中,第一個(gè)p-子句是第二個(gè)p-子句的條件,但是沒有用于指示邏輯關(guān)系的連詞。因此,系統(tǒng)將兩個(gè)p-子句都輸出為常規(guī)語句,而無法表達(dá)兩者之間的實(shí)際關(guān)系。
4 實(shí)驗(yàn)與數(shù)據(jù)分析
在本研究中,對(duì)463個(gè)漢語從句復(fù)合體的語料庫進(jìn)行了錯(cuò)誤分析,覆蓋了3種體裁。 每個(gè)條款復(fù)合體都輸入到4個(gè)在線機(jī)器翻譯系統(tǒng)中,這些系統(tǒng)在翻譯中采用了神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯技術(shù)[9]。在每個(gè)輸出中標(biāo)記,分析和計(jì)算CC級(jí)錯(cuò)誤。每個(gè)中文從句復(fù)合詞被視為從句復(fù)合詞的一種類型(CC類型),而4個(gè)機(jī)器翻譯系統(tǒng)的每個(gè)輸入都被視為從句復(fù)合詞的標(biāo)記(CC標(biāo)記)??倲?shù)為463 CC類型和1852 CC標(biāo)記。
4.1 錯(cuò)誤類型和錯(cuò)誤數(shù)量
表1顯示了共享結(jié)構(gòu)錯(cuò)誤和邏輯關(guān)系錯(cuò)誤的數(shù)量。在分析結(jié)果之前,應(yīng)說明兩點(diǎn)。首先,一些錯(cuò)誤被視為共享結(jié)構(gòu)錯(cuò)誤和邏輯關(guān)系錯(cuò)誤。這就是為什么表1中的總誤差大于表2和表3的誤差的原因。其次,這兩種類型的錯(cuò)誤都計(jì)入1391個(gè)標(biāo)記中(不包括具有太多復(fù)雜錯(cuò)誤且無法識(shí)別為CC級(jí)錯(cuò)誤的標(biāo)記和僅包含一個(gè)p-子句的標(biāo)記)。
在表1中,SP代表堆棧模式,NB表示新分支模式,BP代表后位置模式,IP表示流入模式。從表1中可以看出,在1 394個(gè)標(biāo)記中共有1 154個(gè)共享結(jié)構(gòu)錯(cuò)誤。共享結(jié)構(gòu)錯(cuò)誤可以根據(jù)錯(cuò)誤所在子句復(fù)合體的不同模式進(jìn)一步分為SP錯(cuò)誤,NB錯(cuò)誤,BP錯(cuò)誤,IP錯(cuò)誤和其他錯(cuò)誤。統(tǒng)計(jì)數(shù)據(jù)表明,共享結(jié)構(gòu)錯(cuò)誤的可能性很高,而堆棧模式錯(cuò)誤占共享結(jié)構(gòu)錯(cuò)誤的百分比最高。結(jié)果表明,現(xiàn)有的機(jī)器翻譯系統(tǒng)仍不能正確地將中文命名共享結(jié)構(gòu)轉(zhuǎn)換為英文命名結(jié)構(gòu)。
對(duì)于邏輯關(guān)系錯(cuò)誤,總錯(cuò)誤數(shù)為239,與共享結(jié)構(gòu)錯(cuò)誤的總數(shù)相比,這似乎是一個(gè)小數(shù)目。這是因?yàn)閮H計(jì)算帶有連詞的CC標(biāo)記中的錯(cuò)誤。因此,基于較小的計(jì)數(shù)范圍,邏輯關(guān)系錯(cuò)誤的可能性也較高。結(jié)果表明,表達(dá)漢英邏輯關(guān)系的不同方式也阻礙了機(jī)器翻譯系統(tǒng)產(chǎn)生高質(zhì)量的輸出。
4.2 不同大小從句復(fù)合詞的錯(cuò)誤分布
不同大小子句復(fù)合詞中錯(cuò)誤的分布,如表2所示。
由于268個(gè)只包含一個(gè)p-子句的子句復(fù)合體肯定沒有CC級(jí)別的錯(cuò)誤,因此CC的大小為1行的錯(cuò)誤總數(shù)和平均錯(cuò)誤數(shù)為零。
從表中可以看出,一般情況下,錯(cuò)誤數(shù)與從句復(fù)雜大小正相關(guān)。確實(shí)有一些上升和下降,特別是當(dāng)CC大小超過10。這是因?yàn)樽泳鋸?fù)合詞的出現(xiàn)次數(shù)與其大小呈負(fù)相關(guān)。因此,基于小樣本的統(tǒng)計(jì)在很大程度上受到偶然因素的影響。一個(gè)典型的例子是當(dāng)CC大小達(dá)到25。語料庫中只有一個(gè)這樣大小的從句復(fù)合類型,其結(jié)構(gòu)簡(jiǎn)單且偶然一致。4個(gè)翻譯輸出中,1個(gè)基本正確,3個(gè)翻譯錯(cuò)誤混雜無序。由于后三個(gè)譯本無法在現(xiàn)有的分析框架下進(jìn)行分析,因此它們被排除在統(tǒng)計(jì)范圍之外。因此,平均錯(cuò)誤數(shù)為0。
正相關(guān)可以從兩個(gè)方面來解釋。首先,當(dāng)漢語從句復(fù)合詞規(guī)模較大時(shí),其命名可能與某些主語相距甚遠(yuǎn),這些主語可以用句點(diǎn)或嵌套主語的主語與主語分開。在這種情況下,話語和命名之間的關(guān)系很難確定,因此無法在翻譯中呈現(xiàn)出來。其次,從句復(fù)雜度越大,它所涉及的邏輯關(guān)系就越復(fù)雜。由于漢英兩種語言表達(dá)邏輯關(guān)系的方式不同,在翻譯大型從句復(fù)合句時(shí)需要對(duì)結(jié)構(gòu)進(jìn)行更多的調(diào)整,這給機(jī)器翻譯帶來了困難。
4.3 不同體裁的錯(cuò)誤分布
通過統(tǒng)計(jì)發(fā)現(xiàn),CC級(jí)錯(cuò)誤在體裁上的分布是不同的。如表3所示。
從表3中可以看出不同體裁的錯(cuò)誤分布。百科全書中的平均錯(cuò)誤數(shù),無論是每個(gè)CC標(biāo)記的平均錯(cuò)誤數(shù)還是每個(gè)p-子句的平均錯(cuò)誤數(shù),都高于其他兩種類型。同時(shí),從最后一行的數(shù)據(jù)來看,百科全書體裁的平均復(fù)句長(zhǎng)度最大。因此,結(jié)果與表3中的統(tǒng)計(jì)數(shù)據(jù)相對(duì)應(yīng),表明在較大的子句復(fù)合詞中,CC級(jí)錯(cuò)誤的概率更高。
5 總結(jié)
本文以463個(gè)漢語小句復(fù)合詞為語料,采用4個(gè)機(jī)器翻譯系統(tǒng),分析了漢語小句復(fù)合詞的中心偏誤。將誤差分為形態(tài)誤差、共享結(jié)構(gòu)誤差和邏輯關(guān)系誤差,并對(duì)后兩類誤差進(jìn)行了詳細(xì)分析。錯(cuò)誤分析表明,漢英語法差異是造成這些錯(cuò)誤的主要原因。相關(guān)差異包括:1)語義角色的形式要求;2)大型從句復(fù)合句的結(jié)構(gòu);3)連詞的位置;4)連詞的省略等。
同時(shí),統(tǒng)計(jì)結(jié)果表明:1)共有結(jié)構(gòu)錯(cuò)誤和邏輯關(guān)系錯(cuò)誤的概率較高;2)共有結(jié)構(gòu)錯(cuò)誤和邏輯關(guān)系錯(cuò)誤的概率與從句復(fù)合詞的大小呈正相關(guān);3)不同體裁文本的錯(cuò)誤概率不同,與社會(huì)新聞和政治文本相比,百科全書體裁的錯(cuò)誤率更高。因此,認(rèn)為有必要對(duì)CC級(jí)錯(cuò)誤進(jìn)行研究,這將對(duì)提高M(jìn)T系統(tǒng)處理小句間關(guān)系的能力,從而產(chǎn)生更好的輸出帶來啟示。
參考文獻(xiàn)
[1] 王湘玲,王婷婷.人工翻譯與機(jī)器翻譯譯后編輯對(duì)比實(shí)證研究[J].外國語言與文化,2019,3(4):83-93.
[2] 黎亞飛,張瑞華.機(jī)器翻譯發(fā)展與現(xiàn)狀[J].中國輕工教育,2019(5):38-45.
[3] 孫瑞.基于英語翻譯應(yīng)用視角下的計(jì)算機(jī)智能校對(duì)系統(tǒng)開發(fā)研究[J].微型電腦應(yīng)用,2020,36(2):145-148.
[4] 李晗佶,陳海慶.翻譯技術(shù)研究現(xiàn)狀、問題與展望[J].北京科技大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2019,35(4):112-118.
[5] Castro C D, Halliday M A K. An Introduction to Functional Grammar[J]. Language, 1995, 71(4):831.
[6] 張會(huì)會(huì). 英語長(zhǎng)句機(jī)器漢譯的研究[D].濟(jì)南:山東師范大學(xué),2015.
[7] 左軍軍. 英漢機(jī)器翻譯中長(zhǎng)句分析技術(shù)的研究[D].沈陽:沈陽航空航天大學(xué),2013.
[8] 吳欣輝. 基于中英文主題向量空間的文本分類算法[D].合肥:中國科學(xué)技術(shù)大學(xué),2018.
[9] 李真,屈丹,高明霞,張文林,等.基于端到端的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯技術(shù)研究[J].信息工程大學(xué)學(xué)報(bào),2018,19(5):550-555.
(收稿日期: 2020.03.12)