亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

漢英機(jī)器翻譯中從句復(fù)雜度的錯(cuò)誤分析

2020-10-13 09:37:40成潔

微型電腦應(yīng)用 2020年9期

成潔

摘要：誤差分析是衡量機(jī)器翻譯系統(tǒng)性能的重要手段。在從句復(fù)合模型的分析框架下，對(duì)從句復(fù)合級(jí)錯(cuò)誤進(jìn)行了分析，并從漢英語法差異的角度對(duì)錯(cuò)誤進(jìn)行了解釋。統(tǒng)計(jì)結(jié)果表明，復(fù)句級(jí)錯(cuò)誤發(fā)生的概率相對(duì)較高，而且錯(cuò)誤的發(fā)生在不同的體裁上是不同的，并且與復(fù)句的長(zhǎng)度呈正相關(guān)。

關(guān)鍵詞：機(jī)器翻譯; 從句復(fù)雜度; 從句-復(fù)雜度級(jí)別錯(cuò)誤; 漢譯英

中圖分類號(hào)： H315.9/TP391.2 ? ? ?文獻(xiàn)標(biāo)志碼： A

Abstract： Error analysis is an important method for performance estimationof machine translation systems. This article analyzes clause-level compound errors under the analysis framework of clause-complex model， and explains the errors from the perspective of differences between Chinese and English grammars. Statistical results show that the probability of complex sentence-level errors is relatively high， and that errors occur in different genres， and are positively related to the length of complex sentences.

Key words： machine translation; clause complex; clause-complex level errors; Chinese-English translation

0 引言

機(jī)器翻譯（MT）技術(shù)在過去幾十年里得到了長(zhǎng)足的發(fā)展。隨著機(jī)器翻譯的發(fā)展，機(jī)器翻譯輸出的評(píng)價(jià)方法也在不斷發(fā)展。在MT發(fā)展的早期，人工評(píng)價(jià)是主要的方法。然而，隨著機(jī)器翻譯統(tǒng)計(jì)方法的廣泛應(yīng)用，通過計(jì)算機(jī)器翻譯輸出和人工翻譯之間的相似度來進(jìn)行自動(dòng)評(píng)價(jià)的方法得到了廣泛的應(yīng)用[1-2]。盡管自動(dòng)評(píng)價(jià)是一種客觀的評(píng)價(jià)方法，提高了評(píng)價(jià)的效率，但自動(dòng)評(píng)價(jià)的結(jié)果能否正確反映機(jī)器翻譯輸出的質(zhì)量，并指出機(jī)器翻譯輸出錯(cuò)誤的原因，還是值得懷疑。同時(shí)，雖然目前仍有人工評(píng)價(jià)的研究，但大多只是對(duì)機(jī)器翻譯錯(cuò)誤進(jìn)行分類，沒有詳細(xì)分析錯(cuò)誤產(chǎn)生的原因[3-4]。因此，本文旨在分析MT誤差產(chǎn)生的原因。

根據(jù)Halliday的理論[5]，語言結(jié)構(gòu)涉及不同的層次，包括語素、詞、組/短語、從句、從句復(fù)合詞。不同的語言層次涉及不同的語境關(guān)系。由于跨語言從句復(fù)雜程度上的差異很大，而且涉及到遙遠(yuǎn)的語境關(guān)系，因此這種差異會(huì)給機(jī)器翻譯帶來更大的困難。所以，本文探討了漢英機(jī)器翻譯中的從句復(fù)合級(jí)錯(cuò)誤。

1 漢英復(fù)合從句

漢語從句復(fù)合體是基于命名共享關(guān)系和邏輯語義關(guān)系組合而成的標(biāo)點(diǎn)從句（p-子句）序列[6]。p-子句是由逗號(hào)、分號(hào)、句點(diǎn)、感嘆號(hào)或問號(hào)與周圍上下文分隔的文本段。下例說明子句的復(fù)雜度，如圖1所示。

p-子句中的一個(gè)組件可以由另一個(gè)p-子句解釋或斷言。前面的組件稱為命名，下面的p-子句稱為定語從句。示例1顯示了一個(gè)由4個(gè)p-子句組成的子句復(fù)合體，這些p-子句以換行縮進(jìn)模式表示。在本例中，帶下劃線的組件是名稱。冠名權(quán)上的成分、冠名權(quán)下和冠名權(quán)上的p-子句是它們的標(biāo)志。

對(duì)于英語從句復(fù)合句來說，它基本上是一個(gè)傳統(tǒng)的句子。在英語中，主語或名詞短語加上解釋或修飾后稱為命名。它的謂語，或者它的解釋或后修飾，被稱為它的定語。

2 從句-復(fù)雜級(jí)錯(cuò)誤

2.1 定義

從句復(fù)雜級(jí)錯(cuò)誤（clause-complex level errors， CC）是指在翻譯過程中，由于忽略了源語言的小句間關(guān)系而導(dǎo)致的錯(cuò)誤[7]。更具體地說，在漢英翻譯中，這些錯(cuò)誤是由于忽略了從句復(fù)合體中p-子句之間的關(guān)系而造成的。

應(yīng)該強(qiáng)調(diào)的是，在此只關(guān)注從句復(fù)雜度的錯(cuò)誤。在本研究中，將不標(biāo)記和分析非因忽略小句間關(guān)系而引起的錯(cuò)誤。具體演示如何識(shí)別CC級(jí)別的錯(cuò)誤，如圖2所示。

在圖2中，每個(gè)帶圓圈的數(shù)字表示一個(gè)錯(cuò)誤，其位置表示錯(cuò)誤發(fā)生的位置。中文原版、機(jī)器翻譯輸出版和修訂版中相同的數(shù)字表示機(jī)器翻譯輸出版中相同的錯(cuò)誤。帶圓圈數(shù)字右邊帶下劃線的部分是機(jī)器翻譯輸出中的錯(cuò)誤單詞或短語。如果一個(gè)帶圓圈的數(shù)字右邊沒有帶下劃線的部分，這意味著在這個(gè)位置的機(jī)器翻譯的輸出中有一些缺少的單詞。

雖然機(jī)器翻譯的輸出中總共有7個(gè)錯(cuò)誤，但只有錯(cuò)誤2和錯(cuò)誤6是CC級(jí)別的錯(cuò)誤。錯(cuò)誤2是因?yàn)榇宋恢萌鄙俣禾?hào)。在中文原句中，句子“為了給他醫(yī)病”是后面三句話的邏輯目的。但是沒有逗號(hào)，邏輯目的就無法正確表達(dá)。錯(cuò)誤6對(duì)應(yīng)于第四個(gè)p-子句。在直譯方面，似乎第四個(gè)p-子句翻譯正確。然而，從漢語從句復(fù)合體的結(jié)構(gòu)來看，機(jī)器翻譯系統(tǒng)未能在基于共享命名的最后一個(gè)p-子句的翻譯中補(bǔ)充主語“她”。

其余5個(gè)錯(cuò)誤不是CC級(jí)錯(cuò)誤。錯(cuò)誤1是由于中文人名的不正確細(xì)分引起的。在錯(cuò)誤3中，中文短語“為了給他醫(yī)病”的結(jié)構(gòu)在輸出中未正確翻譯。發(fā)生錯(cuò)誤4是因?yàn)橹形摹芭鼙榱恕敝械膭?dòng)詞在翻譯中丟失了。錯(cuò)誤5是錯(cuò)誤的，因?yàn)橄到y(tǒng)無法補(bǔ)充副詞動(dòng)詞。錯(cuò)誤7是動(dòng)詞的錯(cuò)誤選擇。所有這5個(gè)錯(cuò)誤與其他p子句都不相關(guān)，因此它們不是CC級(jí)錯(cuò)誤。

2.2 從句復(fù)雜級(jí)錯(cuò)誤的分類

通過誤差分析，發(fā)現(xiàn)CC級(jí)誤差可分為形態(tài)誤差、共享結(jié)構(gòu)誤差和邏輯關(guān)系誤差。每種類型的錯(cuò)誤都對(duì)應(yīng)于一種在機(jī)器翻譯輸出中沒有得到正確處理的子句間關(guān)系。

詞形錯(cuò)誤是指由于忽視小句之間的詞匯關(guān)系而導(dǎo)致動(dòng)詞、名詞或代詞詞形選擇錯(cuò)誤。當(dāng)命名和命名之間的語義關(guān)系在機(jī)器翻譯輸出中不恰當(dāng)?shù)爻尸F(xiàn)時(shí)，就會(huì)出現(xiàn)共享結(jié)構(gòu)錯(cuò)誤。邏輯關(guān)系錯(cuò)誤是指影響子句之間邏輯關(guān)系的錯(cuò)誤。

形態(tài)錯(cuò)誤主要是由于漢語缺乏形態(tài)而引起的，這一點(diǎn)已被廣泛認(rèn)識(shí)。因此，在此著重研究后兩類錯(cuò)誤。

3 漢英機(jī)器翻譯輸出中的從句級(jí)錯(cuò)誤

本文分析了兩類錯(cuò)誤：共享結(jié)構(gòu)錯(cuò)誤和邏輯關(guān)系錯(cuò)誤。

3.1 共享結(jié)構(gòu)錯(cuò)誤

從錯(cuò)誤分析中可以看出，共有結(jié)構(gòu)錯(cuò)誤主要是由于中英文在共有層面上的語法差異，特別是漢語中缺乏形態(tài)結(jié)構(gòu)和相對(duì)較大的從句復(fù)雜度（CC-size是指一個(gè)復(fù)合從句中包含的p-子句的數(shù)量）。下面是共享結(jié)構(gòu)錯(cuò)誤的示例，說明這兩個(gè)特征的影響，顯示了缺乏形態(tài)形式的影響。如圖3所示。

中文和英文在語義角色形式上有所不同。在中文中，不同的語義角色可以采用相同的形式。在英語中，不同的語義角色對(duì)應(yīng)于不同的形式[8]。因此，中文命名無需更改其形式即可在將其共享為命名的講述中承擔(dān)不同的語義角色。在圖3的例子中，共享命名“她”在第一個(gè)p-子句中扮演屬性“自家生活條件”的持有者，在第二個(gè)p-子句中變成動(dòng)詞“收養(yǎng)”的代理，并成為主題在最后一個(gè)p-子句中。在機(jī)器翻譯輸出中，機(jī)器翻譯系統(tǒng)在第一子句中正確使用了所有格代詞她，但是它未能相應(yīng)地更改命名形式并為其他兩個(gè)敘述的翻譯補(bǔ)充它們。

顯示了大型從句復(fù)雜大小的影響，如圖4所示。

在中文中，從句復(fù)合句的大小可能多達(dá)數(shù)十個(gè)p-子句。在一個(gè)大型的漢語從句復(fù)合句中，一個(gè)命名及其敘述很可能被許多p-子句分隔開，其中有些p-子句具有主謂結(jié)構(gòu)或以句號(hào)結(jié)尾。在示例4中，最后一個(gè)用中文講的共享命名為“澳洲肺魚”，相距數(shù)個(gè)p-子句。然而，機(jī)器翻譯系統(tǒng)僅復(fù)制了中文原件的結(jié)構(gòu)，因此無法基于共享命名來補(bǔ)充主題的翻譯。這也是錯(cuò)誤①，②，③和④的原因。

3.2 邏輯關(guān)系錯(cuò)誤

漢語和英語從句之間邏輯關(guān)系的表達(dá)方式是不同的。在機(jī)器翻譯輸出分析中發(fā)現(xiàn)了兩個(gè)特點(diǎn)：連接詞的位置和省略。由于兩種語言之間的差異，機(jī)器翻譯系統(tǒng)很難在漢語原語中正確地呈現(xiàn)句間邏輯關(guān)系。如圖5所示。

在中文中，可以將連詞放在謂詞之前，以邏輯方式鏈接p-子句，但又不妨礙p-子句，尤其是后面帶有謂詞的p-子句可以共享命名。但是，用英語來說，不能將從屬連詞直接置于謂詞之前而不將主語置于兩者之間。因此，在機(jī)器翻譯輸出中，應(yīng)在位置1和3處補(bǔ)充對(duì)象。另外，在中文中，不需要協(xié)調(diào)連詞來連接兩個(gè)共享邏輯連詞的p-子句。但是，用英語來說，應(yīng)該使用一個(gè)協(xié)調(diào)連詞來連接兩個(gè)p-子句。否則，這兩個(gè)部分的邏輯層次結(jié)構(gòu)將存在歧義。因此，在位置2應(yīng)該補(bǔ)充連詞“和”。如圖6所示。

在中文中，省略連詞是很常見的。但是，在英語中，經(jīng)常需要使用連接詞來表示從句之間的邏輯關(guān)系。在此示例中，第一個(gè)p-子句是第二個(gè)p-子句的條件，但是沒有用于指示邏輯關(guān)系的連詞。因此，系統(tǒng)將兩個(gè)p-子句都輸出為常規(guī)語句，而無法表達(dá)兩者之間的實(shí)際關(guān)系。

4 實(shí)驗(yàn)與數(shù)據(jù)分析

在本研究中，對(duì)463個(gè)漢語從句復(fù)合體的語料庫進(jìn)行了錯(cuò)誤分析，覆蓋了3種體裁。每個(gè)條款復(fù)合體都輸入到4個(gè)在線機(jī)器翻譯系統(tǒng)中，這些系統(tǒng)在翻譯中采用了神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯技術(shù)[9]。在每個(gè)輸出中標(biāo)記，分析和計(jì)算CC級(jí)錯(cuò)誤。每個(gè)中文從句復(fù)合詞被視為從句復(fù)合詞的一種類型（CC類型），而4個(gè)機(jī)器翻譯系統(tǒng)的每個(gè)輸入都被視為從句復(fù)合詞的標(biāo)記（CC標(biāo)記）?？倲?shù)為463 CC類型和1852 CC標(biāo)記。

4.1 錯(cuò)誤類型和錯(cuò)誤數(shù)量

表1顯示了共享結(jié)構(gòu)錯(cuò)誤和邏輯關(guān)系錯(cuò)誤的數(shù)量。在分析結(jié)果之前，應(yīng)說明兩點(diǎn)。首先，一些錯(cuò)誤被視為共享結(jié)構(gòu)錯(cuò)誤和邏輯關(guān)系錯(cuò)誤。這就是為什么表1中的總誤差大于表2和表3的誤差的原因。其次，這兩種類型的錯(cuò)誤都計(jì)入1391個(gè)標(biāo)記中（不包括具有太多復(fù)雜錯(cuò)誤且無法識(shí)別為CC級(jí)錯(cuò)誤的標(biāo)記和僅包含一個(gè)p-子句的標(biāo)記）。

在表1中，SP代表堆棧模式，NB表示新分支模式，BP代表后位置模式，IP表示流入模式。從表1中可以看出，在1 394個(gè)標(biāo)記中共有1 154個(gè)共享結(jié)構(gòu)錯(cuò)誤。共享結(jié)構(gòu)錯(cuò)誤可以根據(jù)錯(cuò)誤所在子句復(fù)合體的不同模式進(jìn)一步分為SP錯(cuò)誤，NB錯(cuò)誤，BP錯(cuò)誤，IP錯(cuò)誤和其他錯(cuò)誤。統(tǒng)計(jì)數(shù)據(jù)表明，共享結(jié)構(gòu)錯(cuò)誤的可能性很高，而堆棧模式錯(cuò)誤占共享結(jié)構(gòu)錯(cuò)誤的百分比最高。結(jié)果表明，現(xiàn)有的機(jī)器翻譯系統(tǒng)仍不能正確地將中文命名共享結(jié)構(gòu)轉(zhuǎn)換為英文命名結(jié)構(gòu)。

對(duì)于邏輯關(guān)系錯(cuò)誤，總錯(cuò)誤數(shù)為239，與共享結(jié)構(gòu)錯(cuò)誤的總數(shù)相比，這似乎是一個(gè)小數(shù)目。這是因?yàn)閮H計(jì)算帶有連詞的CC標(biāo)記中的錯(cuò)誤。因此，基于較小的計(jì)數(shù)范圍，邏輯關(guān)系錯(cuò)誤的可能性也較高。結(jié)果表明，表達(dá)漢英邏輯關(guān)系的不同方式也阻礙了機(jī)器翻譯系統(tǒng)產(chǎn)生高質(zhì)量的輸出。

4.2 不同大小從句復(fù)合詞的錯(cuò)誤分布

不同大小子句復(fù)合詞中錯(cuò)誤的分布，如表2所示。

由于268個(gè)只包含一個(gè)p-子句的子句復(fù)合體肯定沒有CC級(jí)別的錯(cuò)誤，因此CC的大小為1行的錯(cuò)誤總數(shù)和平均錯(cuò)誤數(shù)為零。

從表中可以看出，一般情況下，錯(cuò)誤數(shù)與從句復(fù)雜大小正相關(guān)。確實(shí)有一些上升和下降，特別是當(dāng)CC大小超過10。這是因?yàn)樽泳鋸?fù)合詞的出現(xiàn)次數(shù)與其大小呈負(fù)相關(guān)。因此，基于小樣本的統(tǒng)計(jì)在很大程度上受到偶然因素的影響。一個(gè)典型的例子是當(dāng)CC大小達(dá)到25。語料庫中只有一個(gè)這樣大小的從句復(fù)合類型，其結(jié)構(gòu)簡(jiǎn)單且偶然一致。4個(gè)翻譯輸出中，1個(gè)基本正確，3個(gè)翻譯錯(cuò)誤混雜無序。由于后三個(gè)譯本無法在現(xiàn)有的分析框架下進(jìn)行分析，因此它們被排除在統(tǒng)計(jì)范圍之外。因此，平均錯(cuò)誤數(shù)為0。

正相關(guān)可以從兩個(gè)方面來解釋。首先，當(dāng)漢語從句復(fù)合詞規(guī)模較大時(shí)，其命名可能與某些主語相距甚遠(yuǎn)，這些主語可以用句點(diǎn)或嵌套主語的主語與主語分開。在這種情況下，話語和命名之間的關(guān)系很難確定，因此無法在翻譯中呈現(xiàn)出來。其次，從句復(fù)雜度越大，它所涉及的邏輯關(guān)系就越復(fù)雜。由于漢英兩種語言表達(dá)邏輯關(guān)系的方式不同，在翻譯大型從句復(fù)合句時(shí)需要對(duì)結(jié)構(gòu)進(jìn)行更多的調(diào)整，這給機(jī)器翻譯帶來了困難。

4.3 不同體裁的錯(cuò)誤分布

通過統(tǒng)計(jì)發(fā)現(xiàn)，CC級(jí)錯(cuò)誤在體裁上的分布是不同的。如表3所示。

從表3中可以看出不同體裁的錯(cuò)誤分布。百科全書中的平均錯(cuò)誤數(shù)，無論是每個(gè)CC標(biāo)記的平均錯(cuò)誤數(shù)還是每個(gè)p-子句的平均錯(cuò)誤數(shù)，都高于其他兩種類型。同時(shí)，從最后一行的數(shù)據(jù)來看，百科全書體裁的平均復(fù)句長(zhǎng)度最大。因此，結(jié)果與表3中的統(tǒng)計(jì)數(shù)據(jù)相對(duì)應(yīng)，表明在較大的子句復(fù)合詞中，CC級(jí)錯(cuò)誤的概率更高。

5 總結(jié)

本文以463個(gè)漢語小句復(fù)合詞為語料，采用4個(gè)機(jī)器翻譯系統(tǒng)，分析了漢語小句復(fù)合詞的中心偏誤。將誤差分為形態(tài)誤差、共享結(jié)構(gòu)誤差和邏輯關(guān)系誤差，并對(duì)后兩類誤差進(jìn)行了詳細(xì)分析。錯(cuò)誤分析表明，漢英語法差異是造成這些錯(cuò)誤的主要原因。相關(guān)差異包括：1）語義角色的形式要求;2）大型從句復(fù)合句的結(jié)構(gòu);3）連詞的位置;4）連詞的省略等。

同時(shí)，統(tǒng)計(jì)結(jié)果表明：1）共有結(jié)構(gòu)錯(cuò)誤和邏輯關(guān)系錯(cuò)誤的概率較高;2）共有結(jié)構(gòu)錯(cuò)誤和邏輯關(guān)系錯(cuò)誤的概率與從句復(fù)合詞的大小呈正相關(guān);3）不同體裁文本的錯(cuò)誤概率不同，與社會(huì)新聞和政治文本相比，百科全書體裁的錯(cuò)誤率更高。因此，認(rèn)為有必要對(duì)CC級(jí)錯(cuò)誤進(jìn)行研究，這將對(duì)提高M(jìn)T系統(tǒng)處理小句間關(guān)系的能力，從而產(chǎn)生更好的輸出帶來啟示。

參考文獻(xiàn)

[1] 王湘玲，王婷婷.人工翻譯與機(jī)器翻譯譯后編輯對(duì)比實(shí)證研究[J].外國語言與文化，2019，3（4）：83-93.

[2] 黎亞飛，張瑞華.機(jī)器翻譯發(fā)展與現(xiàn)狀[J].中國輕工教育，2019（5）：38-45.

[3] 孫瑞.基于英語翻譯應(yīng)用視角下的計(jì)算機(jī)智能校對(duì)系統(tǒng)開發(fā)研究[J].微型電腦應(yīng)用，2020，36（2）：145-148.

[4] 李晗佶，陳海慶.翻譯技術(shù)研究現(xiàn)狀、問題與展望[J].北京科技大學(xué)學(xué)報(bào)（社會(huì)科學(xué)版），2019，35（4）：112-118.

[5] Castro C D， Halliday M A K. An Introduction to Functional Grammar[J]. Language， 1995， 71（4）：831.

[6] 張會(huì)會(huì). 英語長(zhǎng)句機(jī)器漢譯的研究[D].濟(jì)南：山東師范大學(xué)，2015.

[7] 左軍軍. 英漢機(jī)器翻譯中長(zhǎng)句分析技術(shù)的研究[D].沈陽：沈陽航空航天大學(xué)，2013.

[8] 吳欣輝. 基于中英文主題向量空間的文本分類算法[D].合肥：中國科學(xué)技術(shù)大學(xué)，2018.

[9] 李真，屈丹，高明霞，張文林，等.基于端到端的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯技術(shù)研究[J].信息工程大學(xué)學(xué)報(bào)，2018，19（5）：550-555.

（收稿日期： 2020.03.12）

微型電腦應(yīng)用2020年9期

微型電腦應(yīng)用的其它文章: 人工智能在益智類計(jì)算機(jī)軟件開發(fā)中的應(yīng)用研究; 基于“雙態(tài)”業(yè)務(wù)的自動(dòng)化IT構(gòu)架關(guān)鍵技術(shù)的研究; 基于大數(shù)據(jù)的電能計(jì)量系統(tǒng)客戶用電規(guī)律研究; 多特征融合和機(jī)器學(xué)習(xí)算法的電子音樂分類模型; 基于改進(jìn)相似性度量的鄰近傳播聚類算法; 基于無線紅外熱成像儀的變電設(shè)備識(shí)別和檢測(cè)