沈雪 潘正芹
(桂林電子科技大學(xué),廣西 桂林 541200)
對普通的文本,如說明書、宣傳手冊等,機(jī)器翻譯效果相當(dāng)成熟,但是在某些特殊方面或領(lǐng)域,機(jī)器翻譯還亟待提升。 雖然機(jī)器翻譯在詞語、句子和語篇三個層面的翻譯都得到了較大提升,但是罕見詞翻譯、長句翻譯和漏譯方面問題頻出[1]。 其次,現(xiàn)有翻譯軟件在特定領(lǐng)域詞匯翻譯、多重嵌套長句式理解、根據(jù)上下文語境確定詞義方面還存在較大問題[2]。 通過將人工翻譯和機(jī)器翻譯進(jìn)行分析對比,發(fā)現(xiàn)機(jī)器翻譯目前所做的還只能是語言符號之間的轉(zhuǎn)換,因此會造成各方面的錯誤[3]。 但總的來說,問題比較寬泛,沒有具體的、系統(tǒng)的描述,到底不佳在哪里? 為什么? 文章將更系統(tǒng)地探索機(jī)器翻譯對不同類型英語長難句的處理效果,并分析其中可能的原因。
傳統(tǒng)語法把英語長句大致劃分為復(fù)合句、復(fù)雜句和混合結(jié)構(gòu)句。 復(fù)合句是指由兩個或兩個以上簡單句構(gòu)成的句子。 復(fù)雜句是指至少由一個主句和一個從句構(gòu)成的句子。 混合結(jié)構(gòu)句子既包括復(fù)合句和復(fù)雜句,也包括以簡單句結(jié)構(gòu)為主干,通過介詞、副詞、非謂語動詞等附加不斷衍生的長句子。 也有人依據(jù)句子的長度來定義長句,如所謂英語長句,一般是指20 個詞左右的句子[4]。 如果以此為依據(jù),文章認(rèn)為長句不一定成為難句,長難句必須是既長又難,在長度和結(jié)構(gòu)上都有所體現(xiàn)。
文章將采用潘正芹[5]的分類方法,將其分主要分為以下10 類:
(1)偏正復(fù)句型(A):
偏正復(fù)句型是有主從狀語關(guān)系的長句,用于表達(dá)因果、條件、假設(shè)、轉(zhuǎn)折、讓步和目的等各種需要。
例1: While the debate over more but better policing drags on, there is little to suggest the reality on the ground will change anytime soon.
(2)首尾內(nèi)夾型(B):
首尾內(nèi)夾型為句子主干分置頭尾的長句,中間為延伸部分,結(jié)構(gòu)一目了然。
例2:Importing the grain, which would have been expensive and time consuming for the Dutch to have produced themselves, kept the price of grain low and thus stimulated individual demand for other foodstuffs and consumer goods.
(3)自然分蘗型(C):
主干在句首,后續(xù)句子按結(jié)構(gòu)自然展開。
例4:Some Parisian bakers expressed skepticism that the news on Wednesday would do much to alleviate their most pressing fear that the high costs of wheat and flour would continue to rise, forcing them to raise the price of the beloved bread sticks even further.
(4)主語分蘗型(D):
主語在句首,其后分蘗出限定修飾成分或插入語,致使主語到謂語之間距離較長。
例5:The full scale of the devastation caused by the twin 7.8 and 7.5 magnitude earthquakes that struck southern Türkiye and northern Syria on February 6th remains unknown.
(5)賓語分蘗型(E):
主干在句首,主干中賓語中的核心詞分蘗出限定修飾成分或插入語。
例6:The research could eventually make a difference for people with sickle cell disease, those who develop antibodies against most donor blood types, or those with genetic disorders in which their body can't make red blood cells or the blood cells they make don't work well.
(6)主賓分蘗型(F):
主干在句首,主語和賓語的核心詞都分蘗出限定修飾成分。
例7: The idea that life intimately influenced Earth's atmospheric chemistry became the basis for what Lovelock called his Gaia hypothesis, which he would go on to perfect with microbiologist Lynn Margulis throughout the 1970s.
(7)形式主語型(G):
形式主語型是主干在句首且主干主語是形式主語的長句,真主語為其后的同位語,同位語越長句子越長。
例8:It is hypothesized that the primordial cloud of dust and gas from which all the planets are thought to have condensed had a composition somewhat similar to that of Jupiter.
(8)形式賓語型(H):
形式賓語型是主干在句首且主干賓語是形式賓語的長句,真賓語為其后的同位語,是長句的主體。
例9;Their collective wisdom will make it clear whether it makes more sense to keep or lose AM radio in new cars.
(9)同位結(jié)構(gòu)型(I):
同位結(jié)構(gòu)型是主干在句首且同位語在主干之后的長句,同位語成分造就長句的形成。
例10:The incentive of the farmers who wish to conserve water is reduced by their knowledge that many of their neighbors are profiting by using great amounts of water, and in the process are drawing down the entire region's water supplies.
(10)介詞結(jié)構(gòu)型(J):
介詞結(jié)構(gòu)型是主干由介詞詞組結(jié)構(gòu)不斷展開的長句。 介詞在英語中作用頗多,如by, as 等介詞既能引導(dǎo)狀語從句,也能附加信息。
例11:Last year China was again Germany's top trading partner, for the seventh consecutive year, with combined exports and imports of more than $298bn($320bn), up by around 21% from 2021.
研究人員選用百度翻譯軟件,分別對以上類型的長句資料進(jìn)行翻譯實驗,分別從語序不當(dāng)(1)、搭配不當(dāng)(2)、成分殘缺或贅余(3)、結(jié)構(gòu)混亂(4)、表意不明(5)、不合邏輯(6)、誤譯(7)等幾方面展開評測,得出如下錯誤現(xiàn)象(圖1)。
圖1 機(jī)器翻譯長難句錯誤類型
然后再根據(jù)不同句型按照7 類錯誤進(jìn)行測試(表1),得出了以下相對的印象,其中的少、較少、中等和較多沒有具體數(shù)字,只是一個相對程度。
表1 實驗結(jié)果
表2 機(jī)器翻譯對嵌套定語從句的處理效果
對10 類長難句進(jìn)行了大量的測試,經(jīng)整合機(jī)器翻譯錯誤類型,發(fā)現(xiàn)錯誤類型由多到少分別為語序不當(dāng)、誤譯、表意不明、結(jié)構(gòu)混亂、不合邏輯、成分殘缺或贅余、搭配不當(dāng)。 由于篇幅有限,在這只能對一些典型錯誤展開分析。 機(jī)器翻譯出現(xiàn)問題的地方通過下劃線來顯示,Λ 代表遺漏。
例12:Telemedicine firms, which offer a wider range of services, have thrived as malaria has strained clinics capacity and put patients off in-person visits.
機(jī)器翻譯:遠(yuǎn)程醫(yī)療公司提供范圍更廣的服務(wù),隨著瘧疾導(dǎo)致診所容量緊張,并推遲患者上門就診,這些公司蓬勃發(fā)展。
人工翻譯:由于瘧疾致使患者數(shù)量超出了診所的接診能力,并因此取消了患者的當(dāng)面就診,提供更廣泛服務(wù)的遠(yuǎn)程醫(yī)療公司因此得以蓬勃發(fā)展。
該句為D 型長難句,該句主語“Telemedicine firms”位于句首,且分蘗出非限制性定語從句,隨后接謂語及其他成分,使得主語到謂語之間有一定的距離。 中文在敘事時先交代事件的時間背景信息,狀語在前;而英文則先強(qiáng)調(diào)事件本身,狀語在后。 機(jī)器譯文照搬原文語序,不符合中文表達(dá)習(xí)慣,導(dǎo)致結(jié)構(gòu)混亂,缺乏粘連。 根據(jù)原句語境,該句講述了遠(yuǎn)程醫(yī)療公司之所以得以蓬勃發(fā)展是因為瘧疾造成醫(yī)療資源緊缺。 因此,原句中的“as”引導(dǎo)原因狀語從句,句子主干表結(jié)果;而機(jī)器翻譯誤以為“as”表伴隨,導(dǎo)致譯文不合邏輯,前后不連貫。
例13:His findings make it clear that, though plants lack ears, the vibrations generated by the noise of traffic still bothers them enough to trigger potent stress responses that are not much different to those that would be found in plants exposed to drought, high salinity or heavy metals in their soil.
機(jī)器翻譯:他的發(fā)現(xiàn)清楚地表明,盡管植物沒有耳朵,但交通噪聲產(chǎn)生的振動仍然足以Λ引發(fā)強(qiáng)烈的應(yīng)激反應(yīng),這與暴露在干旱、高鹽度或土壤中重金屬環(huán)境中的植物沒有太大區(qū)別。
人工翻譯:他的研究清楚地表明,盡管植物沒有耳朵,但交通噪聲產(chǎn)生的振動仍足以困擾它們,引發(fā)強(qiáng)烈的應(yīng)激反應(yīng)。 而這些反應(yīng)與那些生長在干旱、高鹽或重金屬土壤中的植物所產(chǎn)生的應(yīng)激反應(yīng)別無二致。
該句為H 型長難句。 盡管機(jī)器翻譯能準(zhǔn)確翻譯句子主干,但由于真賓語過長且結(jié)構(gòu)復(fù)雜,機(jī)器翻譯對其處理就出問題了。 首先,機(jī)器譯文漏譯真賓語中的主謂成分——“bothers them”,導(dǎo)致表意不明。 其次,機(jī)器翻譯誤譯第二個定語從句中的修飾關(guān)系。 句中的“their”指代三種土壤,可以理解為“soil with drought, high salinity or heavy metals”;而機(jī)器翻譯認(rèn)為“their”僅指代最后一種土壤,即含有大量重金屬的土壤,導(dǎo)致修飾關(guān)系誤譯。 最后,機(jī)器翻譯誤譯第二個定語從句先行詞指代的對象。 我們可以發(fā)現(xiàn),兩個定語從句的先行詞,“stress response”和“those”實際上是對比關(guān)系,因此兩者指代的是同一種事物——應(yīng)激反應(yīng)。 而機(jī)器譯文中機(jī)器翻譯將“those”識別為“植物”,誤譯先行詞指代的對象,導(dǎo)致比較對象不一致。
通過整合各長句類型的錯誤,可以發(fā)現(xiàn)機(jī)器翻譯最易出現(xiàn)的兩種錯誤依次是語序不當(dāng)和誤譯。 鑒于此,下文將對比人工翻譯,著手探究導(dǎo)致機(jī)器翻譯出現(xiàn)上述幾個方面問題的原因。 原因主要分為兩類:機(jī)器翻譯語序不當(dāng)原因、機(jī)器翻譯定語從句誤譯原因。
英語原文結(jié)構(gòu)對譯文限制較大。 英語和漢語分屬不同的語言體系。 英語重形合,上下句之間常常通過各種連接詞銜接;漢語重意合,上下句之間往往不需要連接詞,常常通過隱性邏輯展開,而語序往往是中文行文邏輯的最好體現(xiàn)。 神經(jīng)機(jī)器翻譯模型是采用編碼器-解碼器(encoder-decoder)框架,是一種端到端模型[6]。 在神經(jīng)機(jī)器翻譯中,神經(jīng)機(jī)器翻譯模型將源語言句子看作字或詞的序列,而忽視了語言中固有的結(jié)構(gòu)信息[7]。 這就導(dǎo)致原文行文結(jié)構(gòu)對機(jī)器翻譯產(chǎn)生很大限制,機(jī)器翻譯囿于原句結(jié)構(gòu),亦步亦趨,輸入序列與輸出序列別無二致。 例如,英文為前重心語言,往往先果后因;而中文為后重心語言,往往先因后果。 機(jī)器翻譯因為模型規(guī)則和算法的限制,導(dǎo)致機(jī)器譯文只能按照原文輸入的語序輸出譯文,難以像人工翻譯一般根據(jù)英漢兩種語言的特點(diǎn)和差異,靈活調(diào)整語序。
英語為“后端重量”語言,在定語從句中主要表現(xiàn)為長定語從句以及多重嵌套式定語從句。 如今的機(jī)器翻譯基本上可以解決從句長度較短或是只有一個層次的定語從句,如果層次加深后,翻譯就出問題了。
例14:I am asking about the dog which is chasing the cat which is chasing the mouse which has a piece of cheese in its mouth.
其中which is chasing the cat 是第一層次的定語,which is chasing the mouse 是第二層次的定語,which has a piece of cheese in its mouth 是第三層次的定語。
參考翻譯:我在問那只正在追著貓的狗的情況,那只貓又正在追著一只老鼠,老鼠嘴里正叼著一塊奶酪。
文章用百度翻譯探究在層次不斷加深后的翻譯結(jié)果。 錯誤地方用?號表示。
通過觀察發(fā)現(xiàn),第二個層次之后開始出現(xiàn)問題,機(jī)器翻譯誤譯該層的定語從句,導(dǎo)致譯文嵌套關(guān)系不合邏輯。 出現(xiàn)該情況的原因可能是:若長句中包含多個嵌套式定語從句,機(jī)器翻譯難以正確切分各個語義單元,無法準(zhǔn)確識別出定語從句。 到了第三層次,邏輯也混亂了,機(jī)器翻譯將先行詞譯為“它”,容易引起歧義。 這一情況可能是因為機(jī)器翻譯缺乏對先行詞語義的理解和判斷。 人工翻譯不同在于,人能夠根據(jù)句子結(jié)構(gòu)內(nèi)部各個成分的語義關(guān)系,進(jìn)行合乎邏輯的切分和重組,機(jī)器目前還做不到。
綜合機(jī)器對英語長難句翻譯出現(xiàn)的錯誤來看,錯頻最高的是語序不當(dāng)和誤譯,其次是表意不明,再次是結(jié)構(gòu)混亂、不合邏輯、成分殘缺或多余,最后是搭配不當(dāng)。 導(dǎo)致機(jī)器翻譯產(chǎn)生邏輯語序不當(dāng)?shù)脑驗猷笥谠慕Y(jié)構(gòu)、受到語言模型規(guī)則約束;導(dǎo)致機(jī)器翻譯定語從句誤譯的原因為難以正確切分各個語義單元和缺乏對詞句語義的理解和判斷。 相比之下,人工翻譯可以克服這些問題,從句子結(jié)構(gòu)、語義邏輯關(guān)系、銜接與連貫等各方面綜合考慮,輸出忠實于原文信息而且符合漢語表達(dá)習(xí)慣的譯文。 因此,解決機(jī)器翻譯出現(xiàn)的這些問題將是未來機(jī)譯技術(shù)的努力方向,也是機(jī)譯后編輯的重點(diǎn)關(guān)注。