馬建軍 田思琪
關鍵詞:語義缺省;機器翻譯;世界知識
1引言
自然語言中存在無數(shù)被我們省略的背景知識,即存在語義缺省現(xiàn)象。語義缺省是一種特殊的省略現(xiàn)象,在形式上表現(xiàn)為語義空位。人類使用的大部分句子中都存在語義缺省,缺省的內(nèi)容就是人們熟知的世界知識。世界知識是在語言研究中,幫助讀者或聽眾解釋單詞和句子含義的非語言信息,也被稱為語言外知識。機器若要完全理解人類語言表達背后的意思,就必須以某種方式“發(fā)現(xiàn)”人們在語言交流中假定和省略的一切。
研究者一直以來從不同角度研究機器翻譯質(zhì)量和語義缺省。有學者聚焦機器訓練語料的數(shù)量對機器翻譯質(zhì)量的影響,也有學者從翻譯者的角度立足語用推理、語境分析等試圖通過譯后分析提高翻譯質(zhì)量,更有大量學者關注語義缺省的現(xiàn)象,分析語義缺省特別是文化上的語義缺省對譯員的影響,但幾乎沒有文章研究語義缺省現(xiàn)象對機器翻譯的影響。
因此,本文選擇語義缺省較多的新聞標題作為研究語料,以Jaszczolt的缺省語義學理論為指導,研究語義缺省現(xiàn)象對機器翻譯質(zhì)量的影響。研究進一步完善語義缺省框架;選擇百度翻譯作為機器翻譯系統(tǒng),比較加入世界知識前后的英文標題的機器翻譯結果來分析語義缺省對機器翻譯的影響:提出補充世界知識的方法,從而進一步提高機器翻譯質(zhì)量。
本研究旨在解決以下三個問題:(1)英語新聞標題中都存在哪些語義缺省?(2)語義缺省是否影響機器翻譯質(zhì)量?如果有影響,如何影響?(3)如何補充世界知識改善機器翻譯質(zhì)量?
2語義缺省理論框架
Jaszczolt把語義缺省區(qū)分為認知缺省和社會文化缺省兩種基本類型。認知缺省的信息是同一語言社團共享知識的默認值,當跨語言社團成員對同一概念的意義可能產(chǎn)生認知變異日寸,原文的缺省值需要在譯語中轉化為必要值。社會文化缺省是說話人在與其意向受眾交流時對雙方共有的相關文化背景知識的省略,但被隱去的語用值又可能是異域受體的期待信息。本文結合新聞語料以及Saba列舉的語義缺省的例子,在Jaszczolt的缺省語義學基礎上,根據(jù)引起語義缺省的因素,對認知缺省和社會文化缺省進一步分類。認知缺省從詞匯和句法兩個層面分析引起缺省的因素,而社會文化缺省則從詞匯和修辭兩個層面分析。對每一個層面都概括了引起語義缺省的主要因素,具體分類如圖1所示。
詞匯層面引起語義缺省的主要因素是多義詞:句法層面的主要因素包括隱藏關系和回指:而修辭層面的主要因素包括隱喻和轉喻[2]。各缺省因素具體定義如下。
多義詞:當一個詞或句子有一個以上的意義視為多義詞,主要是因為句子中的同一個詞有幾種不同的意義或理解而引起的。
隱藏關系:指隱藏的句法關系,包括并列、主謂、修飾和介詞短語附著等關系。并列關系指的是由連詞and或or等將兩個或兩個以上句子成分(如短語或小句)連接起來,這些句子成分在語法地位上沒有主次之分。
回指:一般情況下,如果同一個項目連續(xù)多次出現(xiàn),就用同一個代詞而不重復用同一個名詞來指代它。代詞一般代表名詞短語,但也可以代表動詞短語、整個句子或段落[3]。
暗喻:表示一種物體或概念的詞以及短語代替另一種物體或概念,以暗示它們之間的相似性或類比性。
轉喻:指一個事物或概念是由與該事物或概念密切相關的事物的名稱來指代。
3研究設計
3.1研究語料
考慮到新聞標題簡潔生動的特點,本文從《中國日報》中文版和英文版中選取平行語料。從2020年9月19日~ 2022年4月6日共有1067條雙語新聞標題,選擇英文標題做翻譯語料,其中中文標題作為參考來衡量機器翻譯的質(zhì)量。隨后,在清洗語料的過程中,刪除非平行語料新聞83條,不含缺省的新聞484條,最終得到含語義缺省的新聞標題對500條,缺省比例47%,如表1所列。新聞內(nèi)容主要涵蓋經(jīng)濟、政治等話題。
3.2數(shù)據(jù)分析
結合語義缺省理論框架(圖1)對語料中的語義缺省現(xiàn)象進行詳細分類[4]。為了盡量減少任意性的風險并保證結果的可靠性,項目組邀請了研究人員以外的第二位語料標注者對語料進行二次劃分,針對不一致的語料標注進行充分討論,最終得出相關分類結果。
之后,選擇目前國內(nèi)使用率較高的百度翻譯作為機器翻譯系統(tǒng),實驗方法是將英文標題原語(記為ST1)放人百度翻譯中得到第一版中文譯文(記為TT1),再將缺省的世界知識補充進原句中,將補充好世界知識的英文語料(記為ST2)再次放入機器翻譯中,得到第二版中文譯文(記為TT2),將加入世界知識前后的兩版機器翻譯結果與《中國日報》(雙語)中給出的中文標題(記為REF)進行對比,總結語料中世界知識的出現(xiàn)是否會影響機器翻譯質(zhì)量。語料統(tǒng)計結果使用SPSS 25.0中文版進行獨立T檢驗[5]。
4結果和討論
4.1新聞標題中的語義缺省類型
《中國日報》英文新聞標題中的語義缺省類型如表2所列。表2表明,語義缺省現(xiàn)象涵蓋各種類型。其中,認知缺省現(xiàn)象占比57%,而社會文化缺省占比43%。這說明認知缺省和社會文化缺省在新聞標題的缺省中具有同等研究地位,不可忽視[6]。
從影響缺省的因素來看,多義詞導致的缺省是最多的,共占比63%,其中多義詞導致的認知缺省占比26%,其導致的社會文化缺省占比37%。研究表明,多義詞導致認知缺省主要是由于絕大多數(shù)詞匯,尤其是名詞和動詞,都具有不止一個常用義項,而社會文化缺省中的多義詞主要在于新詞和社會機構縮略語。
其次是隱藏關系,占比23%。表3進一步分析了各種隱藏關系,其中主謂關系比例最高,占隱藏關系中的62%,其次是修飾關系,占比34%,而并列關系和介詞短語附著占比很低,各占比1%和3%。研究表明,為了以最少的篇幅傳遞最多的信息,新聞標題多用介詞和數(shù)詞,選擇省略部分動詞或者名詞,因此隱藏了主謂關系或修飾關系。比如,例1隱藏了并列關系,該句前后兩部分是并列關系,“and”被省略[7]。例1(并列關系):Young people spend so long staring atscreens(and) half may need glasses in 30 (2021-10-18)
占比較少的是回指、轉喻和隱喻,其中回指和轉喻分別占比7%和5%,而隱喻是最少的,僅占比1%。其主要原因是受限于新聞標題的體裁?;刂篙^少是由于新聞標題內(nèi)容精煉,一句話中需要反復提及同一個詞語的情況鮮少出現(xiàn):而隱喻和轉喻作為修辭手法,雖然生活中隨處可見,但是新聞標題講求高效客觀傳達信息,因此語料中也并不多見。比如,例2中“it”指前文描述的“藝術家攜款逃跑的現(xiàn)象”,而不是“money”。例2(回指):Danish artist takes museum'smoney and runs,
calls it(this phenomenon)
art( 2021-09-29)
4.2缺省世界知識對機器翻譯質(zhì)量的影響
通過比較加入世界知識前后譯文的質(zhì)量,可以分析語義缺省現(xiàn)象對機器翻譯質(zhì)量的影響。表4說明了加人世界知識前后譯文的翻譯正確率,TTI指的是ST1(缺省世界知識)的譯文,TT2則是ST2(補充世界知識)的譯文。統(tǒng)計結果顯示,兩版譯文有顯著差異(p=0.0009<0.05),表明補充世界知識和機器翻譯正確率之間的關系有統(tǒng)計學意義,即各類缺省中世界知識的補充都能提升機器翻譯質(zhì)量[8]。
表5詳細分析了補充世界知識對機器翻譯結果的影響情況,總體來看,通過補充世界知識,各類別機器翻譯錯誤情況都有所改觀,并且不存在加入世界知識后翻譯由正確變?yōu)殄e誤的情況。其中,42. 6%的語料在補充世界知識后機器翻譯結果從錯誤變成正確,說明這些語義缺省現(xiàn)象是影響機器翻譯質(zhì)量的主要原因:52.2%的語料在加人世界知識前后翻譯結果均正確,說明某些語義缺省現(xiàn)象并沒有影響機器翻譯結果:而仍有5.2%的語料在加人世界知識后翻譯結果仍然錯誤,說明影響機器翻譯的因素較為復雜,語義缺省可能不是唯一的影響因素。
4.3機器翻譯中對世界知識補充的建議
由于多義詞中的縮略語和回指導致的缺省,主謂關系中因果關系的缺省,修飾關系中數(shù)字后名詞的缺省和并列關系中中英文缺省習慣一致,同樣不需要額外補充世界知識也能得到準確翻譯[9-10]。
另外,在需要補充的各類缺省情況中,本文將從補充世界知識的難度的角度進行分類建議。對于機器來說,可以通過添加功能詞或者上下文實詞的搭配完成世界知識的補充。多義詞中的轉義詞特別是名詞可以通過添加上下義的名詞進行補充,從而明確詞義。而多義詞的其他情況、隱藏關系中主謂關系、修飾關系和介詞短語附著關系以及隱喻,由于補充的世界知識多為動詞名詞等實詞,需要總結推理才能得出結果,人工補充尚且有歧義,對于機器而言難度就更大。并且,多義詞引起的缺省占比最大,存在補充世界知識后機器翻譯的結果依然錯誤的情況。
5結束語
本文基于Jaszczolt對語義缺省的分類理論,結合基礎語法和Saba博士對于世界知識的舉例,進一步完善了語義缺省的框架,并針對英語新聞標題中的語義缺省以及世界知識的補充進行了討論。本文發(fā)現(xiàn),在各類缺省中,多義詞對機器翻譯的影響最為明顯,相比之下,其他類別的缺省基本都可以通過加入相應世界知識得到正確的翻譯。
對于機器翻譯由于缺省導致的多義詞現(xiàn)象,應加入范疇類或搭配類世界知識使含義顯性化:而對于句法中隱藏關系的缺省現(xiàn)象、介詞短語附著和回指,則應添加動詞分詞形式或不定式將隱藏的關系展現(xiàn)出來:修辭層面的轉喻和隱喻則應結合語境添加相應的名詞或者動詞分詞形式。還有一部分缺省,如并列,由于中英文缺省習慣一致,所以即使句子中存在缺省現(xiàn)象,也不影響機器翻譯結果。絕大多數(shù)機器翻譯不通順的句子在加人世界知識后都可以變得更加流暢通順,這是因為世界知識將相關詞匯更為明顯地連接了起來,使得原本隱藏在句子下的關系變得清晰透明。