亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

面向科普翻譯的語料庫建設(shè)與研究：應(yīng)用及展望

2022-10-13 03:06:02郭鴻杰

科普創(chuàng)作 2022年3期

郭鴻杰盧靜

（上海財經(jīng)大學(xué)外國語學(xué)院，上海 200433）

一、引言

科學(xué)往往是涉及艱澀的概念、術(shù)語、知識、信息等的結(jié)構(gòu)嚴謹?shù)闹R系統(tǒng)。把科學(xué)普及到社會大眾（popularization of science），從而促成“公眾理解科學(xué)”（public understanding of science），再拓展為科學(xué)傳播（science communication），由此來提升社會大眾的科學(xué)素養(yǎng)（scientific literacy），是信息時代的一件大事。當(dāng)今社會，大部分科學(xué)文獻是通過英語來完成的。因此，要創(chuàng)作更多適合本土文化的科普作品，我國的科學(xué)家和科普工作者仍任重道遠。事實上，從傳播的本質(zhì)來看，科普亦與翻譯有著內(nèi)在的相似性和相通性。近年來，國內(nèi)出版的科普譯作數(shù)量可觀，然而其翻譯質(zhì)量魚龍混雜，不少英語科普原著常常以“遇人不淑”終場。特別要指出的是，相比其他應(yīng)用翻譯研究，科普翻譯研究尚未真正形成體系，仍處于極度“欠發(fā)達”階段，這無疑是當(dāng)代翻譯理論研究的一大缺憾。

近年來，語料庫作為一種新的研究范式和研究手段廣泛應(yīng)用于語言學(xué)、翻譯學(xué)、文學(xué)、傳播學(xué)等諸多人文社科領(lǐng)域，且取得了重要的研究成果。筆者認為，語料庫對與科普翻譯相關(guān)的研究亦具有重要的理論意義和應(yīng)用價值?；谡Z料庫的科普翻譯研究涉及科普翻譯語料庫的建設(shè)、科普翻譯策略及其制約機制研究、科普話語特征研究，以及術(shù)語提取、機器翻譯訓(xùn)練、科普翻譯教學(xué)平臺建設(shè)等應(yīng)用研究。此外，基于語料庫的研究范式在很大程度上彌補了科普翻譯在定量研究方面的短板，推動了科普翻譯研究從規(guī)約性研究范式向描述性研究范式的轉(zhuǎn)變，拓寬了科普翻譯的研究空間和疆界。特別值得一提的是，值此中國科技蓬勃發(fā)展、科技文化蔚然成風(fēng)之際，推進中國科技“走出去”，向世界傳播中國科技文明，是時代所向。基于英漢科普平行語料庫的逆向檢索功能亦有助于我們熟悉西方的科技話語模式，從而借帆出海，提升中國科技外譯質(zhì)量，推動中國科技國際化。

二、科普翻譯語料庫建設(shè)概覽

廖七一指出，西方翻譯研究的理論突破往往伴隨著研究范式的變遷。數(shù)智時代下基于語料庫的科普翻譯研究呈現(xiàn)出強大的生命力。縱覽相關(guān)文獻，科普語料庫建設(shè)已成規(guī)模，業(yè)已公開的科普平行語料庫建設(shè)如表1所示。

表1 國內(nèi)外主要科普平行語料庫一覽表

總體上，國內(nèi)外知名科普語料庫因建庫目的不同，規(guī)模參差不齊，從數(shù)萬詞到近千萬詞不等，語料大多為單譯本。與之相應(yīng)，學(xué)界也開展了基于語料庫的科普翻譯研究。下文將簡要介紹一下筆者正在主持建設(shè)的英漢科普平行語料庫（English-Chinese Parallel Corpus of Popular Science，簡稱ECPCPS）。

第一，ECPCPS主要收集了20世紀80年代以來源自科普書籍和科普雜志的英漢雙語語料，其中包括2002年以來已評選11屆的吳大猷科普譯著獎中的英譯中作品，如《費馬最后定理》（上海譯文出版社1998年版）、《魔鬼出沒的世界》（吉林人民出版社1998年版）、《大崩壞：人類社會的明天》（時報文化出版有限公司2006年版）、《人類大歷史：從野獸到扮演上帝》（天下文化出版公司2014年版）等，以及《中國近代科學(xué)的文化史》（上海古籍出版社2009年版）、《萬物簡史》（接力出版社2005年版）、《數(shù)字生存》（海南出版社1997年版）等其他具有影響力的科普雙語文本，還包括《自然》）、《科學(xué)新聞》（）、《新科學(xué)家》（）、《科學(xué)美國人》（）等報紙雜志上登載的科普文章及漢語譯文。目前，科普語料庫仍在擴容，現(xiàn)已超過千萬字/詞，包括中國大陸、中國臺灣兩個子庫，有上千個英漢科普對應(yīng)文本，保證每個文本的語篇盡量完整，且單個英漢對應(yīng)語篇的字/詞數(shù)上限約為45000。

第二，對ECPCPS語料庫進行統(tǒng)計，結(jié)果顯示源語單詞和目標(biāo)語漢字的比例是1∶1.64。表2為我們所統(tǒng)計到的幾個大型平行語料庫的英語單詞、漢字數(shù)量對比結(jié)果。

表2 平行語料庫英語單詞、漢字數(shù)量對比

第三，語料庫加工采用了句對齊標(biāo)準，以英語源語句子為參照，分割標(biāo)記為句號、分號、問號、嘆號等。若英語句子為完整的語義單元，碰到破折號、冒號等也進行了斷句處理。王克非提到，“句子仍不失為翻譯的一個主要轉(zhuǎn)換單位，特別是除文學(xué)漢譯英之外的另三類翻譯，其1∶1的句對齊比例達到80%以上……英譯漢1∶1的語句對應(yīng)高于漢譯英，主要原因是漢語譯者翻譯時多參照原文的句式和標(biāo)點，特別是在比較嚴肅的文本中?！备鶕?jù)王克非的統(tǒng)計結(jié)果，文學(xué)類和非文學(xué)類英譯漢的句對齊比例分別為81.9%和84.7%。而我們的科普平行語料庫統(tǒng)計出1∶1的句對齊語料約為84%，數(shù)據(jù)基本接近。特別值得一提的是，鑒于科普翻譯具有較強的應(yīng)用性，翻譯過程中會出現(xiàn)不少改寫、編譯、創(chuàng)譯等，這對于句對齊語料加工是一項重要挑戰(zhàn)。

第四，ECPCPS主要收集了一對一類型的文本。鑒于某些出名的科普作品存在多個譯本的情況，如中國大陸版和中國臺灣版，ECPCPS中也收集了同一地域或不同時期的多個譯本。這不僅有利于基于平行語料庫的語言對比研究，而且有助于揭示翻譯模式以及影響翻譯策略的底層機制和動因。

三、語料庫在科普翻譯中的應(yīng)用

如前文所述，語料庫為科普翻譯研究提供了一個新視角，引起了科普翻譯研究范式的變化，拓展了科普翻譯研究的深度和廣度。下文將從科普語言特征、翻譯共性、翻譯策略、翻譯應(yīng)用四個方面介紹基于語料庫的科普翻譯研究現(xiàn)狀和未來前景。

首先，譯語語料庫海量的數(shù)據(jù)有助于高效準確地獲取一些語言特征的計量結(jié)果，在宏觀層面，包括詞單（word list）、關(guān)鍵詞單（keyword list）、詞頻分布（frequency profile）、詞頻譜（frequency spectra）、平均詞長（mean word length）、詞串（cluster）、詞覆蓋率（coverage）、詞匯密度（density）、平均句長（mean sentence length）等；在微觀層面，可以分析主題語氣詞、量詞、固定習(xí)語、句型、語用、隱喻、篇章等內(nèi)容。科普讀物為吸引大眾讀者，常常比科技文本寫得更為生動有趣，通俗易讀，從而讓讀者享受這種知性的樂趣。通過語料庫可以容易地捕捉到這些語言特征。比如，“摹聲詞”在科普讀物中的出現(xiàn)頻率是十分高的，略舉幾例如下：

They can snap，whistle，hum，vibrate，boom，and whine.

（羽毛）能發(fā)出啪嚓聲、哨笛聲、嗡嗡聲、顫動聲、隆隆聲與刺耳的尖銳聲。（《羽的奇跡》）

Tigers did not purr at all but instead emitted “a peculiar short snuffle，accompanied by the closure of the eyelids” when happy.

老虎完全不會發(fā)出呼嚕聲，不過開心的時候，會用鼻子發(fā)出“一種特別的短嗤聲，然后闔上雙眼”。（《動物也瘋狂》）

Sooner or later，there will be real human hardware，great whirring，clicking cabinets intelligent enough to read magazines and vote，able to think rings around the rest of us.

遲早有一天，會出現(xiàn)真正與人一樣的硬件，出現(xiàn)一些嗡嗡叫、嘁哩咔嚓響的聰明的大盒子，能讀雜志，能參加選舉，腦瓜轉(zhuǎn)得極快，快得我們沒法比。（《細胞生命的禮贊》）

大自然的神秘奇妙時時讓我們嘆為觀止。諸如“摹聲詞”之類的語言，生動貼切，能夠幫助讀者享受到閱讀之趣，感受到語言之美。徐彬、郭紅梅也提出，閱讀、翻譯當(dāng)代科普書籍，我們會越來越感覺許多一流的科普作品也是一流的科學(xué)散文作品。

其次，翻譯語言早就引起了學(xué)者的研究興趣。學(xué)界一般持兩種觀點。一種觀點認為翻譯文本是一種可預(yù)測的語言變體（variety），這歸因于受翻譯為媒介的間接語言接觸的影響。這種變體常被稱為“第三碼”（third code）。莫娜·貝克（Mona Baker）提到，在分析譯本語言時完全可以把源語拋開進行分析，并在此基礎(chǔ)上提出了翻譯共性假設(shè)（translation universals），即相對于源語和目標(biāo)語原創(chuàng)語言，譯文具有顯化（explicitation）、簡化（simplification）、消歧（disambiguation）、規(guī)范化（normalization）等特征。另外一種觀點認為翻譯語言偏離目標(biāo)語規(guī)則，被標(biāo)簽為“翻譯腔”，這是一種消極的語言觀。事實上，基于語料庫的翻譯語言計量分析結(jié)果有助于客觀地呈現(xiàn)這種“第三碼”的共性特征，而非一種“蝴蝶標(biāo)本式”的感性認識。譬如，分析翻譯語言特征的一個重要參數(shù)為詞覆蓋率，即在詞頻表中按次序選擇一定數(shù)量的單詞，計算這些單詞在總語料中所占的比例。ECPCPS中前50個常用詞的覆蓋率統(tǒng)計結(jié)果顯示，中國大陸譯本均高于中國臺灣譯本。由此推測，中國臺灣譯本用詞更富于變化。在此基礎(chǔ)上，我們將基于譯本的相關(guān)數(shù)據(jù)與漢語原創(chuàng)文本比較，結(jié)果見圖1。其中，原創(chuàng)文本的數(shù)據(jù)參照了彭臨桂有關(guān)兩岸小說譯本詞匯覆蓋率的數(shù)據(jù)。

圖1 兩岸科普和小說文體譯本詞匯覆蓋率差異

依上圖，4條折線呈現(xiàn)出三個分布趨勢：第一，無論是中國大陸譯本，還是中國臺灣譯本，小說譯本的詞匯覆蓋率顯著高于科普譯本，可見科普文本的詞匯變化更大；第二，詞匯覆蓋率的地域差異在小說文本中差異更加顯著，科普文本的詞匯覆蓋率特征比較穩(wěn)定；第三，相似之處是，兩種文體詞匯覆蓋率的差異在前300個常用詞最顯著，隨著詞頻的減少，差距越來越小。

再其次，基于語料庫的研究還有助于從語素、詞語、習(xí)語、隱喻等多個層面分析科普翻譯的策略和技巧。比如，一詞多譯是科普中常見的翻譯策略。海量的自然語言例證能更清楚地顯示該詞或詞語豐富的語義特征。下文將以語料庫中出現(xiàn)的development一詞為例來說明：

Also，the rise or origination of anything by natural development，as distinguished from its production by a specific act.

或者任何事物經(jīng)由自然演變的增長或初生，有別于經(jīng)由特定作為而產(chǎn)生。（《從達爾文到愛因斯坦》）

One of the principal benefits of the development of human intelligence is our ability to understand the true nature and import of dreams.

理解夢一般的生活實質(zhì)和含蓄的意思對了解人類智力進化是很有好處的。（《伊甸飛龍》）

On the other hand，the sun of Naples might be conducive to learning something about the biochemistry of the embryonic development of marine animals.

另一方面，那不勒斯的陽光倒可能有助于學(xué)習(xí)海洋動物胚胎發(fā)育生物化學(xué)。（《雙螺旋》）

These plants are threatened by lumbering，grazing，and development.

這些植物受到砍伐、放牧和開發(fā)的威脅。（《花朵的秘密生命》）

The development of a flower is one of the things we understand least about plants.

花的成長是我們對植物最不了解的部分之一。（《花朵的秘密生命》）

Drug development will change in two dramatic ways.

藥物的研制工作將在兩方面徹底改觀。（《細胞叛逆者：癌癥的起源》）

由此，不同主題內(nèi)容下的代表性例句，為分析一詞多譯現(xiàn)象提供了重要參照。此外，語料庫還會提供影響一詞多譯的其他語言因素或非語言因素。

一般說來，人們在理解抽象艱深的新理論或新概念時，常常會提取已存的認知基模做映射（mapping）。此類以一種具體熟悉的概念結(jié)構(gòu)來構(gòu)造另一種陌生抽象概念的現(xiàn)象被稱作隱喻（metaphor）。事實上，為吸引讀者注意并增進對新概念的理解，科普文本經(jīng)常使用隱喻。隱喻對形成科學(xué)觀念的重要性亦逐漸受到重視，隱喻翻譯研究也成了科普翻譯的重要話題。比如，以科普文本中英文植物詞或植物結(jié)構(gòu)習(xí)語及其漢譯為例，基于ECPCPS的研究結(jié)果顯示，英漢植物詞語義的異同可大致分為重疊、錯位和空缺三種情況，在此基礎(chǔ)上，其翻譯策略可歸納為直譯、意譯、替換三種手段等，詳見以下各例：

He recalled a child in Memphis who was an excellent student，got influenza，and became ‘a(chǎn) vegetable’.

他回想起孟菲斯的一個孩子，曾是一名優(yōu)秀的學(xué)生，患上流感之后卻變成了“植物人”。（《大流感》，直譯法）

Health inspectors were looking for cases among civilians“to nip the epidemic in the bud”.

衛(wèi)生檢查員正在尋找平民病例以便“將流行病扼殺在搖籃中”。（《大流感》，替換法）

But numbers do not fall ripe into our laps，someone has to find and fetch them; far easier，some feel，not to bother.

有用處的數(shù)字絕不會憑空而降，一定要有人去發(fā)現(xiàn)、獲得，但是有些人認為，別自找麻煩會比較好。（《如何用數(shù)字唬人》，意譯法）

英漢科普平行語料庫不僅為我們提供了有關(guān)英譯漢策略的數(shù)據(jù)支撐，而且其豐富的科普英語語料亦對漢譯英實踐提供了重要參考依據(jù)。譬如，以漢語成語的英譯為例，中文為母語的譯者可能十分熟悉漢語成語，但不一定有能力將其譯成地道的英文；而英文為母語的譯者往往只能在成語字典找到直譯、歷史典故或是冗長的解釋。如果從回譯（back translation）的視角來看，英漢平行語料庫的逆向搜索功能則在某種程度能夠彌補這種翻譯的缺憾。比如，以“生死攸關(guān)”這個成語為例，我們通過檢索漢語譯文，會發(fā)現(xiàn)其對應(yīng)的英語表達方式靈活多樣，結(jié)果見表3所示。

表3 部分科普作品中與“生死攸關(guān)”相關(guān)的英語表達

“生死攸關(guān)”的英語對應(yīng)形式包括單詞、習(xí)語、短語、復(fù)合詞等，而且語法功能也不完全能對號入座，包括名詞（短語）、表語性形容詞、描繪性形容詞等。顯而易見，英語表達靈活，追求變化，不拘泥于某一固定結(jié)構(gòu)。所以，雙語平行語料以及英語源語語料無疑對提高中譯英質(zhì)量具有一定的啟發(fā)意義和參考價值。

最后，從翻譯應(yīng)用來看，科普翻譯語料庫的價值主要體現(xiàn)在機助翻譯、機器翻譯、檢索平臺三個方面。加工好的句對齊語料除了用于構(gòu)建平行語料庫或檢索平臺外，還可以用作翻譯記憶庫（translation memeory），協(xié)助人機翻譯。ECPCPS語料庫主要分為五大子庫，即自然科學(xué)庫、生命醫(yī)學(xué)庫、地球環(huán)保庫、技術(shù)發(fā)明庫、科技教育庫。每個子庫下又分為若干小類。例如，自然科學(xué)包括化學(xué)能源、數(shù)學(xué)統(tǒng)計、物理機械、宇宙航空、信息智能等，這樣可以確保語料內(nèi)容豐富，包羅萬象，從而在借助Trados等機輔翻譯工具進行人機協(xié)同翻譯時，就可以根據(jù)翻譯的題材調(diào)取各個主題內(nèi)容下的翻譯記憶庫。因此，無論從主題相關(guān)性，還是儲存的高質(zhì)量句對齊語料來看，都會大大提升翻譯效率。

人工智能時代下數(shù)智技術(shù)應(yīng)用日益廣泛是科普翻譯無法回避的現(xiàn)實，機器翻譯已經(jīng)承擔(dān)了譯者以前大量重復(fù)枯燥的勞動。因此，機器學(xué)習(xí)或深度學(xué)習(xí)模型的應(yīng)用，將為科普翻譯提供另一種新視野，即呈現(xiàn)出更為細膩的數(shù)字信息，進而幫助識別大數(shù)據(jù)科普語料庫框架下科普翻譯的語義內(nèi)涵。而基于高質(zhì)量精準翻譯語料，借助于深度神經(jīng)網(wǎng)絡(luò)機器翻譯模型，可以訓(xùn)練機器翻譯的深度和精準度。

目前，我們已經(jīng)根據(jù)英漢科普平行語料庫，開發(fā)了網(wǎng)絡(luò)共享檢索平臺（SUFE-Corpus），為科普翻譯愛好者或者譯者提供瀏覽、檢索、統(tǒng)計等各項功能，深化智能化、專業(yè)性、共享型資源建設(shè)，如圖2所示。

圖2 SUFE-Corpus英漢科普翻譯檢索平臺

此外，科技術(shù)語是科普語篇進行敘述和描寫的重要手段。在技術(shù)層面，語料庫通過提取科普術(shù)語，建立術(shù)語庫，規(guī)范術(shù)語譯名，有助于訓(xùn)練機器翻譯，推動雙語科普術(shù)語庫的構(gòu)建，將實現(xiàn)術(shù)語查詢、歸類、對照、統(tǒng)計等功能；在語言層面上，基于對比短語學(xué)的理論框架，分析雙語術(shù)語在構(gòu)詞理據(jù)、形式結(jié)構(gòu)、功能關(guān)系、搭配句法、隱喻認知層面的異同，以及通用詞匯和科技術(shù)語的轉(zhuǎn)換機制；在翻譯層面上，探討術(shù)語翻譯策略選擇的國際化與民族化、術(shù)語譯名的規(guī)范化和本地化等。

在翻譯教育背景下，語料庫建設(shè)亦與翻譯教學(xué)存在天然契合。眾所周知，可比語料庫（comparable corpus）已經(jīng)應(yīng)用于翻譯教學(xué)。相比之下，平行語料庫應(yīng)用于翻譯培訓(xùn)的潛力尚未開發(fā)。事實上，越來越多的學(xué)者提出，平行語料庫可以應(yīng)用于開發(fā)翻譯教學(xué)案例庫，輔助教材編寫、詞典編纂等，從而解決資源短板和時效瓶頸等問題。另外，基于語料庫的定量研究結(jié)果對于翻譯質(zhì)量評估亦具有重要的借鑒意義。

四、結(jié)語

數(shù)智時代下的雙語語料庫建設(shè)在數(shù)字人文基礎(chǔ)建設(shè)中大有作為。構(gòu)建一個動態(tài)性、多維度、多層次的科普翻譯語料庫有助于把科普翻譯置于一個大歷史背景中去觀照，從而有助于準確把握科普翻譯與時代背景、意識形態(tài)、地域文化、譯者主體等社會因素之間的互動關(guān)系。這不僅有助于科普翻譯學(xué)科體系的建設(shè)，而且也有助于激發(fā)科普翻譯研究的多學(xué)科交叉與多元化突破?；谡Z料庫的科普翻譯研究方興未艾，將來可以在以下幾個方面繼續(xù)探索，如研發(fā)語料標(biāo)注系統(tǒng)（如翻譯策略的標(biāo)注、句法系統(tǒng)的標(biāo)注等）、術(shù)語抽取、機器翻譯訓(xùn)練的效率，科普翻譯在個別語言中呈現(xiàn)出何種異質(zhì)性，在跨語言中又呈現(xiàn)何種同一性，原創(chuàng)語言和翻譯語言的隱喻性表達差異，如何將可比語料庫和平行語料庫結(jié)合并更有效地應(yīng)用于“以譯者為中心”的翻譯教學(xué)模式，以及基于語料庫的翻譯質(zhì)量評估等方面。此外，科普翻譯語言會對科普原創(chuàng)語言乃至現(xiàn)代漢語的詞匯、構(gòu)詞，甚至句法帶來什么樣的影響等話題，也仍有十分廣闊的研究空間。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

面向科普翻譯的語料庫建設(shè)與研究：應(yīng)用及展望

一、引言

二、科普翻譯語料庫建設(shè)概覽

三、語料庫在科普翻譯中的應(yīng)用

四、結(jié)語

一、引言

二、科普翻譯語料庫建設(shè)概覽

四、結(jié)語