亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        漢英機(jī)器翻譯中從句復(fù)雜度的錯(cuò)誤分析

        2020-10-13 09:37:40成潔
        微型電腦應(yīng)用 2020年9期

        成潔

        摘 要: 誤差分析是衡量機(jī)器翻譯系統(tǒng)性能的重要手段。在從句復(fù)合模型的分析框架下,對(duì)從句復(fù)合級(jí)錯(cuò)誤進(jìn)行了分析,并從漢英語法差異的角度對(duì)錯(cuò)誤進(jìn)行了解釋。統(tǒng)計(jì)結(jié)果表明,復(fù)句級(jí)錯(cuò)誤發(fā)生的概率相對(duì)較高,而且錯(cuò)誤的發(fā)生在不同的體裁上是不同的,并且與復(fù)句的長(zhǎng)度呈正相關(guān)。

        關(guān)鍵詞: 機(jī)器翻譯; 從句復(fù)雜度; 從句-復(fù)雜度級(jí)別錯(cuò)誤; 漢譯英

        中圖分類號(hào): H315.9/TP391.2 ? ? ?文獻(xiàn)標(biāo)志碼: A

        Abstract: Error analysis is an important method for performance estimationof machine translation systems. This article analyzes clause-level compound errors under the analysis framework of clause-complex model, and explains the errors from the perspective of differences between Chinese and English grammars. Statistical results show that the probability of complex sentence-level errors is relatively high, and that errors occur in different genres, and are positively related to the length of complex sentences.

        Key words: machine translation; clause complex; clause-complex level errors; Chinese-English translation

        0 引言

        機(jī)器翻譯(MT)技術(shù)在過去幾十年里得到了長(zhǎng)足的發(fā)展。隨著機(jī)器翻譯的發(fā)展,機(jī)器翻譯輸出的評(píng)價(jià)方法也在不斷發(fā)展。在MT發(fā)展的早期,人工評(píng)價(jià)是主要的方法。然而,隨著機(jī)器翻譯統(tǒng)計(jì)方法的廣泛應(yīng)用,通過計(jì)算機(jī)器翻譯輸出和人工翻譯之間的相似度來進(jìn)行自動(dòng)評(píng)價(jià)的方法得到了廣泛的應(yīng)用[1-2]。盡管自動(dòng)評(píng)價(jià)是一種客觀的評(píng)價(jià)方法,提高了評(píng)價(jià)的效率,但自動(dòng)評(píng)價(jià)的結(jié)果能否正確反映機(jī)器翻譯輸出的質(zhì)量,并指出機(jī)器翻譯輸出錯(cuò)誤的原因,還是值得懷疑。同時(shí),雖然目前仍有人工評(píng)價(jià)的研究,但大多只是對(duì)機(jī)器翻譯錯(cuò)誤進(jìn)行分類,沒有詳細(xì)分析錯(cuò)誤產(chǎn)生的原因[3-4]。因此,本文旨在分析MT誤差產(chǎn)生的原因。

        根據(jù)Halliday的理論[5],語言結(jié)構(gòu)涉及不同的層次,包括語素、詞、組/短語、從句、從句復(fù)合詞。不同的語言層次涉及不同的語境關(guān)系。由于跨語言從句復(fù)雜程度上的差異很大,而且涉及到遙遠(yuǎn)的語境關(guān)系,因此這種差異會(huì)給機(jī)器翻譯帶來更大的困難。所以,本文探討了漢英機(jī)器翻譯中的從句復(fù)合級(jí)錯(cuò)誤。

        1 漢英復(fù)合從句

        漢語從句復(fù)合體是基于命名共享關(guān)系和邏輯語義關(guān)系組合而成的標(biāo)點(diǎn)從句(p-子句)序列[6]。p-子句是由逗號(hào)、分號(hào)、句點(diǎn)、感嘆號(hào)或問號(hào)與周圍上下文分隔的文本段。下例說明子句的復(fù)雜度,如圖1所示。

        p-子句中的一個(gè)組件可以由另一個(gè)p-子句解釋或斷言。前面的組件稱為命名,下面的p-子句稱為定語從句。示例1顯示了一個(gè)由4個(gè)p-子句組成的子句復(fù)合體,這些p-子句以換行縮進(jìn)模式表示。在本例中,帶下劃線的組件是名稱。冠名權(quán)上的成分、冠名權(quán)下和冠名權(quán)上的p-子句是它們的標(biāo)志。

        對(duì)于英語從句復(fù)合句來說,它基本上是一個(gè)傳統(tǒng)的句子。在英語中,主語或名詞短語加上解釋或修飾后稱為命名。它的謂語,或者它的解釋或后修飾,被稱為它的定語。

        2 從句-復(fù)雜級(jí)錯(cuò)誤

        2.1 定義

        從句復(fù)雜級(jí)錯(cuò)誤(clause-complex level errors, CC)是指在翻譯過程中,由于忽略了源語言的小句間關(guān)系而導(dǎo)致的錯(cuò)誤[7]。更具體地說,在漢英翻譯中,這些錯(cuò)誤是由于忽略了從句復(fù)合體中p-子句之間的關(guān)系而造成的。

        應(yīng)該強(qiáng)調(diào)的是,在此只關(guān)注從句復(fù)雜度的錯(cuò)誤。在本研究中,將不標(biāo)記和分析非因忽略小句間關(guān)系而引起的錯(cuò)誤。具體演示如何識(shí)別CC級(jí)別的錯(cuò)誤,如圖2所示。

        在圖2中,每個(gè)帶圓圈的數(shù)字表示一個(gè)錯(cuò)誤,其位置表示錯(cuò)誤發(fā)生的位置。中文原版、機(jī)器翻譯輸出版和修訂版中相同的數(shù)字表示機(jī)器翻譯輸出版中相同的錯(cuò)誤。帶圓圈數(shù)字右邊帶下劃線的部分是機(jī)器翻譯輸出中的錯(cuò)誤單詞或短語。如果一個(gè)帶圓圈的數(shù)字右邊沒有帶下劃線的部分,這意味著在這個(gè)位置的機(jī)器翻譯的輸出中有一些缺少的單詞。

        雖然機(jī)器翻譯的輸出中總共有7個(gè)錯(cuò)誤,但只有錯(cuò)誤2和錯(cuò)誤6是CC級(jí)別的錯(cuò)誤。錯(cuò)誤2是因?yàn)榇宋恢萌鄙俣禾?hào)。在中文原句中,句子“為了給他醫(yī)病”是后面三句話的邏輯目的。但是沒有逗號(hào),邏輯目的就無法正確表達(dá)。錯(cuò)誤6對(duì)應(yīng)于第四個(gè)p-子句。在直譯方面,似乎第四個(gè)p-子句翻譯正確。然而,從漢語從句復(fù)合體的結(jié)構(gòu)來看,機(jī)器翻譯系統(tǒng)未能在基于共享命名的最后一個(gè)p-子句的翻譯中補(bǔ)充主語“她”。

        其余5個(gè)錯(cuò)誤不是CC級(jí)錯(cuò)誤。錯(cuò)誤1是由于中文人名的不正確細(xì)分引起的。在錯(cuò)誤3中,中文短語“為了給他醫(yī)病”的結(jié)構(gòu)在輸出中未正確翻譯。發(fā)生錯(cuò)誤4是因?yàn)橹形摹芭鼙榱恕敝械膭?dòng)詞在翻譯中丟失了。錯(cuò)誤5是錯(cuò)誤的,因?yàn)橄到y(tǒng)無法補(bǔ)充副詞動(dòng)詞。錯(cuò)誤7是動(dòng)詞的錯(cuò)誤選擇。所有這5個(gè)錯(cuò)誤與其他p子句都不相關(guān),因此它們不是CC級(jí)錯(cuò)誤。

        2.2 從句復(fù)雜級(jí)錯(cuò)誤的分類

        通過誤差分析,發(fā)現(xiàn)CC級(jí)誤差可分為形態(tài)誤差、共享結(jié)構(gòu)誤差和邏輯關(guān)系誤差。每種類型的錯(cuò)誤都對(duì)應(yīng)于一種在機(jī)器翻譯輸出中沒有得到正確處理的子句間關(guān)系。

        詞形錯(cuò)誤是指由于忽視小句之間的詞匯關(guān)系而導(dǎo)致動(dòng)詞、名詞或代詞詞形選擇錯(cuò)誤。當(dāng)命名和命名之間的語義關(guān)系在機(jī)器翻譯輸出中不恰當(dāng)?shù)爻尸F(xiàn)時(shí),就會(huì)出現(xiàn)共享結(jié)構(gòu)錯(cuò)誤。邏輯關(guān)系錯(cuò)誤是指影響子句之間邏輯關(guān)系的錯(cuò)誤。

        形態(tài)錯(cuò)誤主要是由于漢語缺乏形態(tài)而引起的,這一點(diǎn)已被廣泛認(rèn)識(shí)。因此,在此著重研究后兩類錯(cuò)誤。

        3 漢英機(jī)器翻譯輸出中的從句級(jí)錯(cuò)誤

        本文分析了兩類錯(cuò)誤:共享結(jié)構(gòu)錯(cuò)誤和邏輯關(guān)系錯(cuò)誤。

        3.1 共享結(jié)構(gòu)錯(cuò)誤

        從錯(cuò)誤分析中可以看出,共有結(jié)構(gòu)錯(cuò)誤主要是由于中英文在共有層面上的語法差異,特別是漢語中缺乏形態(tài)結(jié)構(gòu)和相對(duì)較大的從句復(fù)雜度(CC-size是指一個(gè)復(fù)合從句中包含的p-子句的數(shù)量)。下面是共享結(jié)構(gòu)錯(cuò)誤的示例,說明這兩個(gè)特征的影響,顯示了缺乏形態(tài)形式的影響。如圖3所示。

        中文和英文在語義角色形式上有所不同。 在中文中,不同的語義角色可以采用相同的形式。 在英語中,不同的語義角色對(duì)應(yīng)于不同的形式[8]。 因此,中文命名無需更改其形式即可在將其共享為命名的講述中承擔(dān)不同的語義角色。 在圖3的例子中,共享命名“她”在第一個(gè)p-子句中扮演屬性“自家生活條件”的持有者,在第二個(gè)p-子句中變成動(dòng)詞“收養(yǎng)”的代理,并成為主題 在最后一個(gè)p-子句中。 在機(jī)器翻譯輸出中,機(jī)器翻譯系統(tǒng)在第一子句中正確使用了所有格代詞她,但是它未能相應(yīng)地更改命名形式并為其他兩個(gè)敘述的翻譯補(bǔ)充它們。

        顯示了大型從句復(fù)雜大小的影響,如圖4所示。

        在中文中,從句復(fù)合句的大小可能多達(dá)數(shù)十個(gè)p-子句。 在一個(gè)大型的漢語從句復(fù)合句中,一個(gè)命名及其敘述很可能被許多p-子句分隔開,其中有些p-子句具有主謂結(jié)構(gòu)或以句號(hào)結(jié)尾。 在示例4中,最后一個(gè)用中文講的共享命名為“澳洲肺魚”,相距數(shù)個(gè)p-子句。 然而,機(jī)器翻譯系統(tǒng)僅復(fù)制了中文原件的結(jié)構(gòu),因此無法基于共享命名來補(bǔ)充主題的翻譯。 這也是錯(cuò)誤①,②,③和④的原因。

        3.2 邏輯關(guān)系錯(cuò)誤

        漢語和英語從句之間邏輯關(guān)系的表達(dá)方式是不同的。在機(jī)器翻譯輸出分析中發(fā)現(xiàn)了兩個(gè)特點(diǎn):連接詞的位置和省略。由于兩種語言之間的差異,機(jī)器翻譯系統(tǒng)很難在漢語原語中正確地呈現(xiàn)句間邏輯關(guān)系。如圖5所示。

        在中文中,可以將連詞放在謂詞之前,以邏輯方式鏈接p-子句,但又不妨礙p-子句,尤其是后面帶有謂詞的p-子句可以共享命名。 但是,用英語來說,不能將從屬連詞直接置于謂詞之前而不將主語置于兩者之間。 因此,在機(jī)器翻譯輸出中,應(yīng)在位置1和3處補(bǔ)充對(duì)象。 另外,在中文中,不需要協(xié)調(diào)連詞來連接兩個(gè)共享邏輯連詞的p-子句。 但是,用英語來說,應(yīng)該使用一個(gè)協(xié)調(diào)連詞來連接兩個(gè)p-子句。 否則,這兩個(gè)部分的邏輯層次結(jié)構(gòu)將存在歧義。 因此,在位置2應(yīng)該補(bǔ)充連詞“和”。如圖6所示。

        在中文中,省略連詞是很常見的。但是,在英語中,經(jīng)常需要使用連接詞來表示從句之間的邏輯關(guān)系。 在此示例中,第一個(gè)p-子句是第二個(gè)p-子句的條件,但是沒有用于指示邏輯關(guān)系的連詞。因此,系統(tǒng)將兩個(gè)p-子句都輸出為常規(guī)語句,而無法表達(dá)兩者之間的實(shí)際關(guān)系。

        4 實(shí)驗(yàn)與數(shù)據(jù)分析

        在本研究中,對(duì)463個(gè)漢語從句復(fù)合體的語料庫進(jìn)行了錯(cuò)誤分析,覆蓋了3種體裁。 每個(gè)條款復(fù)合體都輸入到4個(gè)在線機(jī)器翻譯系統(tǒng)中,這些系統(tǒng)在翻譯中采用了神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯技術(shù)[9]。在每個(gè)輸出中標(biāo)記,分析和計(jì)算CC級(jí)錯(cuò)誤。每個(gè)中文從句復(fù)合詞被視為從句復(fù)合詞的一種類型(CC類型),而4個(gè)機(jī)器翻譯系統(tǒng)的每個(gè)輸入都被視為從句復(fù)合詞的標(biāo)記(CC標(biāo)記)??倲?shù)為463 CC類型和1852 CC標(biāo)記。

        4.1 錯(cuò)誤類型和錯(cuò)誤數(shù)量

        表1顯示了共享結(jié)構(gòu)錯(cuò)誤和邏輯關(guān)系錯(cuò)誤的數(shù)量。在分析結(jié)果之前,應(yīng)說明兩點(diǎn)。首先,一些錯(cuò)誤被視為共享結(jié)構(gòu)錯(cuò)誤和邏輯關(guān)系錯(cuò)誤。這就是為什么表1中的總誤差大于表2和表3的誤差的原因。其次,這兩種類型的錯(cuò)誤都計(jì)入1391個(gè)標(biāo)記中(不包括具有太多復(fù)雜錯(cuò)誤且無法識(shí)別為CC級(jí)錯(cuò)誤的標(biāo)記和僅包含一個(gè)p-子句的標(biāo)記)。

        在表1中,SP代表堆棧模式,NB表示新分支模式,BP代表后位置模式,IP表示流入模式。從表1中可以看出,在1 394個(gè)標(biāo)記中共有1 154個(gè)共享結(jié)構(gòu)錯(cuò)誤。共享結(jié)構(gòu)錯(cuò)誤可以根據(jù)錯(cuò)誤所在子句復(fù)合體的不同模式進(jìn)一步分為SP錯(cuò)誤,NB錯(cuò)誤,BP錯(cuò)誤,IP錯(cuò)誤和其他錯(cuò)誤。統(tǒng)計(jì)數(shù)據(jù)表明,共享結(jié)構(gòu)錯(cuò)誤的可能性很高,而堆棧模式錯(cuò)誤占共享結(jié)構(gòu)錯(cuò)誤的百分比最高。結(jié)果表明,現(xiàn)有的機(jī)器翻譯系統(tǒng)仍不能正確地將中文命名共享結(jié)構(gòu)轉(zhuǎn)換為英文命名結(jié)構(gòu)。

        對(duì)于邏輯關(guān)系錯(cuò)誤,總錯(cuò)誤數(shù)為239,與共享結(jié)構(gòu)錯(cuò)誤的總數(shù)相比,這似乎是一個(gè)小數(shù)目。這是因?yàn)閮H計(jì)算帶有連詞的CC標(biāo)記中的錯(cuò)誤。因此,基于較小的計(jì)數(shù)范圍,邏輯關(guān)系錯(cuò)誤的可能性也較高。結(jié)果表明,表達(dá)漢英邏輯關(guān)系的不同方式也阻礙了機(jī)器翻譯系統(tǒng)產(chǎn)生高質(zhì)量的輸出。

        4.2 不同大小從句復(fù)合詞的錯(cuò)誤分布

        不同大小子句復(fù)合詞中錯(cuò)誤的分布,如表2所示。

        由于268個(gè)只包含一個(gè)p-子句的子句復(fù)合體肯定沒有CC級(jí)別的錯(cuò)誤,因此CC的大小為1行的錯(cuò)誤總數(shù)和平均錯(cuò)誤數(shù)為零。

        從表中可以看出,一般情況下,錯(cuò)誤數(shù)與從句復(fù)雜大小正相關(guān)。確實(shí)有一些上升和下降,特別是當(dāng)CC大小超過10。這是因?yàn)樽泳鋸?fù)合詞的出現(xiàn)次數(shù)與其大小呈負(fù)相關(guān)。因此,基于小樣本的統(tǒng)計(jì)在很大程度上受到偶然因素的影響。一個(gè)典型的例子是當(dāng)CC大小達(dá)到25。語料庫中只有一個(gè)這樣大小的從句復(fù)合類型,其結(jié)構(gòu)簡(jiǎn)單且偶然一致。4個(gè)翻譯輸出中,1個(gè)基本正確,3個(gè)翻譯錯(cuò)誤混雜無序。由于后三個(gè)譯本無法在現(xiàn)有的分析框架下進(jìn)行分析,因此它們被排除在統(tǒng)計(jì)范圍之外。因此,平均錯(cuò)誤數(shù)為0。

        正相關(guān)可以從兩個(gè)方面來解釋。首先,當(dāng)漢語從句復(fù)合詞規(guī)模較大時(shí),其命名可能與某些主語相距甚遠(yuǎn),這些主語可以用句點(diǎn)或嵌套主語的主語與主語分開。在這種情況下,話語和命名之間的關(guān)系很難確定,因此無法在翻譯中呈現(xiàn)出來。其次,從句復(fù)雜度越大,它所涉及的邏輯關(guān)系就越復(fù)雜。由于漢英兩種語言表達(dá)邏輯關(guān)系的方式不同,在翻譯大型從句復(fù)合句時(shí)需要對(duì)結(jié)構(gòu)進(jìn)行更多的調(diào)整,這給機(jī)器翻譯帶來了困難。

        4.3 不同體裁的錯(cuò)誤分布

        通過統(tǒng)計(jì)發(fā)現(xiàn),CC級(jí)錯(cuò)誤在體裁上的分布是不同的。如表3所示。

        從表3中可以看出不同體裁的錯(cuò)誤分布。百科全書中的平均錯(cuò)誤數(shù),無論是每個(gè)CC標(biāo)記的平均錯(cuò)誤數(shù)還是每個(gè)p-子句的平均錯(cuò)誤數(shù),都高于其他兩種類型。同時(shí),從最后一行的數(shù)據(jù)來看,百科全書體裁的平均復(fù)句長(zhǎng)度最大。因此,結(jié)果與表3中的統(tǒng)計(jì)數(shù)據(jù)相對(duì)應(yīng),表明在較大的子句復(fù)合詞中,CC級(jí)錯(cuò)誤的概率更高。

        5 總結(jié)

        本文以463個(gè)漢語小句復(fù)合詞為語料,采用4個(gè)機(jī)器翻譯系統(tǒng),分析了漢語小句復(fù)合詞的中心偏誤。將誤差分為形態(tài)誤差、共享結(jié)構(gòu)誤差和邏輯關(guān)系誤差,并對(duì)后兩類誤差進(jìn)行了詳細(xì)分析。錯(cuò)誤分析表明,漢英語法差異是造成這些錯(cuò)誤的主要原因。相關(guān)差異包括:1)語義角色的形式要求;2)大型從句復(fù)合句的結(jié)構(gòu);3)連詞的位置;4)連詞的省略等。

        同時(shí),統(tǒng)計(jì)結(jié)果表明:1)共有結(jié)構(gòu)錯(cuò)誤和邏輯關(guān)系錯(cuò)誤的概率較高;2)共有結(jié)構(gòu)錯(cuò)誤和邏輯關(guān)系錯(cuò)誤的概率與從句復(fù)合詞的大小呈正相關(guān);3)不同體裁文本的錯(cuò)誤概率不同,與社會(huì)新聞和政治文本相比,百科全書體裁的錯(cuò)誤率更高。因此,認(rèn)為有必要對(duì)CC級(jí)錯(cuò)誤進(jìn)行研究,這將對(duì)提高M(jìn)T系統(tǒng)處理小句間關(guān)系的能力,從而產(chǎn)生更好的輸出帶來啟示。

        參考文獻(xiàn)

        [1] 王湘玲,王婷婷.人工翻譯與機(jī)器翻譯譯后編輯對(duì)比實(shí)證研究[J].外國語言與文化,2019,3(4):83-93.

        [2] 黎亞飛,張瑞華.機(jī)器翻譯發(fā)展與現(xiàn)狀[J].中國輕工教育,2019(5):38-45.

        [3] 孫瑞.基于英語翻譯應(yīng)用視角下的計(jì)算機(jī)智能校對(duì)系統(tǒng)開發(fā)研究[J].微型電腦應(yīng)用,2020,36(2):145-148.

        [4] 李晗佶,陳海慶.翻譯技術(shù)研究現(xiàn)狀、問題與展望[J].北京科技大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2019,35(4):112-118.

        [5] Castro C D, Halliday M A K. An Introduction to Functional Grammar[J]. Language, 1995, 71(4):831.

        [6] 張會(huì)會(huì). 英語長(zhǎng)句機(jī)器漢譯的研究[D].濟(jì)南:山東師范大學(xué),2015.

        [7] 左軍軍. 英漢機(jī)器翻譯中長(zhǎng)句分析技術(shù)的研究[D].沈陽:沈陽航空航天大學(xué),2013.

        [8] 吳欣輝. 基于中英文主題向量空間的文本分類算法[D].合肥:中國科學(xué)技術(shù)大學(xué),2018.

        [9] 李真,屈丹,高明霞,張文林,等.基于端到端的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯技術(shù)研究[J].信息工程大學(xué)學(xué)報(bào),2018,19(5):550-555.

        (收稿日期: 2020.03.12)

        亚洲av丰满熟妇在线播放| 亚洲午夜无码视频在线播放| 亚洲色图视频在线播放| 无码国产精品一区二区免| 无码成人AV在线一区二区| 国产中文色婷婷久久久精品| 国产精品女同久久久久电影院 | 国产在线观看免费观看| 四虎影视国产884a精品亚洲| 日本一级三级在线观看| 国产精品永久在线观看| 亚洲熟妇无码av另类vr影视| 美女视频很黄很a免费国产| 美国黄色av一区二区| 精品久久久久久无码中文野结衣| 亚洲国产精品久久久久秋霞影院| 久久亚洲午夜牛牛影视| 青草草视频在线观看华人免费| 久久久久亚洲av成人网人人软件| 无码久久精品国产亚洲av影片| 国产96在线 | 免费| 日韩极品在线观看视频| 亚洲国产欧美在线观看| 狠狠爱无码一区二区三区| 亚洲一二三四五区中文字幕 | 日本黑人亚洲一区二区| 影音先锋女人aa鲁色资源| 国产91网址| 黑人一区二区三区高清视频| 一本色道久久婷婷日韩| aaa级久久久精品无码片| 亚洲va欧美va国产综合| 亚洲中文字幕不卡无码| 中文字幕一区在线直播| 消息称老熟妇乱视频一区二区| 最新无码国产在线播放| 国产女主播在线免费看| 亚洲天堂av中文字幕在线观看| 少妇aaa级久久久无码精品片 | 搡老熟女中国老太| 亚州综合激情另类久久久|