摘 要 平行語料庫除擁有普通語料庫的一些最基本的功能如詞頻統(tǒng)計(jì)、義項(xiàng)頻率統(tǒng)計(jì)、關(guān)鍵詞索引(KWIC)等之外,還應(yīng)有一些獨(dú)有的功能,如提供真實(shí)例證及譯文,提供確切的譯名等。這對于雙語詞典的修訂和新詞語詞典的編纂具有非常重要的作用。
關(guān)鍵詞 平行語料庫 雙語詞典編纂
語料庫已廣泛應(yīng)用于單語詞典編纂,但在雙語詞典的編纂中,語料庫的應(yīng)用還相對較少。筆者在詞典編纂實(shí)踐中發(fā)現(xiàn),現(xiàn)在廣為流行的普通單語語料庫對雙語詞典的編纂的作用是有限的,大量問題仍需通過查閱各種資料來解決。若利用平行語料庫(parallel corpora),則問題常??梢杂卸狻?/p>
平行語料庫是一種雙語或多語的語料庫,即庫中不但有源語文本,還有對應(yīng)的譯語文本。兩種或多種文本一般采用句子或段落對齊方式編排。計(jì)算機(jī)可以對源語文本和譯語文本進(jìn)行全文檢索,并提供對照顯示。常見的平行語料庫有以下幾種:
其一,由源語A的文本和譯語B(或C、D等)的對應(yīng)文本構(gòu)成的平行語料庫。其二,由源語A和源語B的文本及其相互的譯語文本構(gòu)成的平行語料庫。
其三,只有A、B或C等語言的譯語文本構(gòu)成的平行語料庫,源語文本不出現(xiàn)。[1]
簡單地說,第一種是從源語到譯語的單向語料庫,第二種是兩種語言的雙向語料庫,第三種是譯語語料庫(不含源語)。以英語和漢語為例;英漢語料庫屬第一種;英漢—漢英語料庫屬第二種;從同一源語文本分別翻譯成英語和漢語,則英漢兩種文本可構(gòu)成第三種語料庫。編纂不同的雙語詞典,應(yīng)該使用不同的語料庫。本文以英漢詞典編纂為例,探討基于平行語料庫的雙語詞典編纂,希望能給平行語料庫的建設(shè)和利用帶來一些啟迪。
一、平行語料庫的發(fā)展?fàn)顩r
目前世界上單語語料庫的發(fā)展十分迅猛,技術(shù)也已臻成熟。但平行語料庫的發(fā)展才剛剛起步,對平行語料庫的作用的認(rèn)識也有待深化。平行語料庫在機(jī)器翻譯中的作用已得到肯定,而在雙語詞典編纂中的應(yīng)用則尚處于初始階段。
筆者在因特網(wǎng)上搜索發(fā)現(xiàn),歐洲各種語言間的平行語料庫較多,英漢平行語料庫卻不多。英國建有蘭開斯特英漢平行語料庫,我國有北京外國語大學(xué)王克非等建的英漢平行語料庫??梢?,建設(shè)大型的平行語料庫在技術(shù)支持上已經(jīng)沒有多少障礙,上海世紀(jì)出版集團(tuán)與復(fù)旦大學(xué)、交通大學(xué)等單位合作建立的大型英漢雙語語料庫現(xiàn)在也已經(jīng)啟動。網(wǎng)上還有一些小型英漢語料庫,如互聯(lián)網(wǎng)上有中科院計(jì)算機(jī)研究所開發(fā)的“雙語句對數(shù)據(jù)庫”(http:∥mtgroupictaccn/corpus)和麓巍的“英漢雙語平行語料庫”檢索頁面(http:∥oechwxmueducn/hanyu/data/eccorpus/queryasp)。此外還有外語教師自建的小型英漢平行語料庫[2]。
二、平行語料庫建設(shè)的難點(diǎn)
與單語語料庫相比,建設(shè)平行語料庫存在兩個(gè)難題:一是雙語語料的收集,二是雙語語料的對齊處理( alignment)。
網(wǎng)絡(luò)上存在大量雙語文本,如雙語對照的新聞報(bào)道、法律文書、電影劇本、經(jīng)典著作和小說等。這些語料的優(yōu)點(diǎn)是更新快、數(shù)量大,可以從中采集到最新的語料,而且網(wǎng)上的電子文本可直接采用,節(jié)約掃描錄入等方面的工作量。網(wǎng)上語料的缺點(diǎn)是準(zhǔn)確率不高,譯文質(zhì)量良莠不齊,很難把握。
已出版的經(jīng)典著作譯本無疑是良好的雙語語料來源。然而,由于許多譯本沒有電子文本,可能需要掃描錄入。在這過程中難免有錯(cuò)誤發(fā)生。
英語口頭語料的采集、記錄、整理及翻譯,是平行語料庫建設(shè)的最大難題。這項(xiàng)工作在國內(nèi)是無法進(jìn)行的。但如果語料庫中沒有一定比例的口語資料,就無法全面反映語言的真實(shí)情況。一個(gè)可能的解決方法,是尋找電影對白、廣播電視節(jié)目等語料來替代。
語料的對齊處理,是指將源語文本和譯語文本按段落或按句一一對應(yīng)起來。段落對齊較容易實(shí)施,但句對齊的語料使用起來更便利,價(jià)值更大。平行語料的句子自動對齊,從總體上看,正確率尚不高。特別是有的譯文十分靈活,雙語之間的對應(yīng)并不嚴(yán)格。這樣,自動對齊之后,尚需人工審校。為此,中科院軟件研究所開發(fā)了“平行語料自動對齊軟件”和“平行語料對齊校對工具”。這些工具的準(zhǔn)確率較高,但仍需人工校對。
平行語料中的名詞術(shù)語也可以對齊,但工作量較大;由于譯法常存在差異,自動對齊的準(zhǔn)確率不一定會很高。語料中普通詞匯的對齊,則可行性和實(shí)用性都不大。
平行語料的其他處理,如題材分類、標(biāo)注、切分等,與單語語料的處理類似。一些單語語料庫使用的賦碼和檢索軟件,在雙語語料庫中同樣可以使用。
三、平行語料庫在雙語詞典編纂中的作用
平行語料庫擁有普通語料庫的一些最基本的功能,如詞頻統(tǒng)計(jì)、義項(xiàng)頻率統(tǒng)計(jì)、關(guān)鍵詞索引(KWIC)等。除此之外,還有一些獨(dú)有的功能。例如,在英漢平行語料庫中檢索英語關(guān)鍵詞,可以得到大量真實(shí)語例及其譯文;同樣,也可以檢索漢語關(guān)鍵詞,以獲取對應(yīng)的英語表達(dá)法。平行語料庫對于雙語詞典編纂至少有以下一些作用:
1.提供真實(shí)例證及譯文
現(xiàn)有雙語詞典中的例證基本來自已有的原文詞典藍(lán)本,有的甚至引自現(xiàn)有的雙語詞典。拿幾本詞典來稍作對比就可發(fā)現(xiàn),一般都是將比較經(jīng)典的例句進(jìn)行改頭換面,如“he”改為“she”,“1980”改為“2000”,“60歲”改為“70歲”,“紅色”改為“藍(lán)色”等。即使最具原創(chuàng)性的《英漢大詞典》,由編者自己采集的例證也不過十分之一。原因是顯而易見的,在沒有語料庫的情況下,若要編者自己采集大量例句,不僅時(shí)間不允許,質(zhì)量也無法保證。
根據(jù)用戶的關(guān)鍵詞檢索,平行語料庫能提供大量雙語對照的語言實(shí)例。在雙語詞典編纂中,藉此可以非常輕松地找到合適的例證。如在上文提到的麓巍的英漢雙語平行語料庫(僅1500個(gè)句對)檢索頁面中,輸入mind一詞,即可得到167個(gè)例句,涵蓋了mind的各個(gè)義項(xiàng)。從中還能找到make up one's mind,in(out of)one's mind,keep sth in one's mind,take sth off one's mind,set one's mind on,great minds think alike等習(xí)語。漢語譯法更是異彩紛呈,僅mind一詞的名詞意義在不同的語境中就有“腦子、腦海、腦袋、心、思想、頭腦、腦筋、品德、主意、注意力、決定、主見、見解”等不同譯法,比《英漢大詞典》mind條提供的譯法還要豐富。
在詞典編纂中,輸入詞目(或詞組)和與義項(xiàng)相配的漢語譯義等關(guān)鍵詞,即可得到較多的搜索結(jié)果,再從中選擇合適的例子即可。如果例句過長,還可以對其進(jìn)行縮減;也可以對原有的譯法作一些修正。
由此可見,平行語料庫可大幅度降低雙語詞典編纂對藍(lán)本的依賴性,充分體現(xiàn)“獨(dú)立研編”的思想。
2.提供確切的譯名
在雙語詞典的編纂過程中,一個(gè)常見的難題,是編者對詞目或例句中的某些人名、地名、商標(biāo)名、術(shù)語等的中文譯名不了解,而且這些詞一般詞典中也不收錄。有些譯名實(shí)際上是詞典編者杜撰的,離語言現(xiàn)實(shí)太遠(yuǎn),也不符合現(xiàn)代語言學(xué)的描寫主義思想。如《英漢大詞典》將walkman一詞譯為“步行者錄放機(jī)”,而其常用名為“隨身聽”。
有了大型的平行語料庫,尋找合適的譯名就非常便捷。但目前已有的小型平行語料庫尚難以提供這些譯名。筆者在修訂《英漢大詞典》的過程中,因?yàn)闆]有大型的平行語料庫,便只能在網(wǎng)上搜索一些雙語網(wǎng)頁,從中找到合適的譯名。這雖也能取得較好效果,但畢竟網(wǎng)上的內(nèi)容過于繁雜,有時(shí)為找到一個(gè)譯名,耗時(shí)甚多;對所找到的譯名的正確性也沒有把握,還要反復(fù)驗(yàn)證。
近來有學(xué)者認(rèn)為,平行語料庫可用于術(shù)語抽取以及術(shù)語詞典的編纂和自動生成。[3]但筆者認(rèn)為,編纂這樣的詞典,語料庫的主題與所編詞典必須有相當(dāng)大的學(xué)科關(guān)聯(lián)性,才有可能取得成功。
3.用于雙語詞典的修訂和新詞語詞典的編纂
新一代語料庫基本上都是開放性的,即新語料一直源源不斷地輸入庫中。這就是辛克萊爾教授提出的監(jiān)控語料庫(monitor corpus)的概念。大型平行語料庫同樣應(yīng)該是開放性的,不僅可以監(jiān)控源語的新變化,而且可以監(jiān)控譯語中新譯名的出現(xiàn)及舊譯名的變化。這樣將大大縮短詞典修訂和增補(bǔ)的周期,還可以為編寫新詞語詞典提供便利。在《英漢大詞典》的修訂中,筆者就曾根據(jù)新的雙語語料對一些英語新詞的譯名作了更改,如:
Euro歐元[原譯:歐羅(擬議中的歐洲通用貨幣單位)]
convenience store便利店[原譯:(經(jīng)特許延長營業(yè)時(shí)間的)方便小商店]
hedge fund對沖基金[原譯:有限合伙投機(jī)基金;投機(jī)性投資集團(tuán)]
Nicam麗音[《英漢大詞典補(bǔ)編》原譯:納坎系統(tǒng)][ZK)][T]
4.查尋經(jīng)典語句的經(jīng)典譯法
一些名著名篇,如《圣經(jīng)》、莎劇、著名演說等,可以全文收入語料庫,同時(shí)錄入經(jīng)典譯文。有的軟件系統(tǒng)還可以支持多種譯文。這樣我們就可以從平行語料庫中方便地查得一些經(jīng)典著作中的名句的譯法。
5.查尋超詞匯語言單位的譯法
語言中有些較大的語言單位在詞典中是查不到的,但在平行語料庫中檢索就非常便利。有時(shí)一些句子結(jié)構(gòu)的譯法也可以從中獲得參考。例如:
The bloody visions passed in and out of her mind那血淋淋的幻影在她腦海中時(shí)隱時(shí)現(xiàn)。
I have a bottomeddown mind我是個(gè)沒有多少獨(dú)到見解的人。
The last years passed from her mind過去的歲月從她的腦子中閃過。
It was borne in the latter with decent philosophy四鄰八舍對這件事都抱著相當(dāng)超然的態(tài)度。
No sooner had I entered the room than I noticed the smell not only of tobacco but of gas我一進(jìn)房間就注意到不僅有煙味還有煤氣味。
由此可見,英語中一些用法早已有了較貼切的漢語對應(yīng)譯法,后來的譯者不必再重復(fù)做同樣的工作。否則,不僅費(fèi)時(shí)費(fèi)力,而且往往還不如前人譯得好。
由上文的討論可以看出,在不遠(yuǎn)的將來,平行語料庫可能會成為雙語詞典編纂必不可少的工具,但這不是唯一的工具。平行語料庫可以與規(guī)模較大的詞典數(shù)據(jù)庫以及詞典編纂軟件聯(lián)合在一起,構(gòu)成一個(gè)詞典編纂平臺。在這樣的平臺上,詞典的編寫、修訂、簡縮都將非常便捷。由于國內(nèi)尚無較實(shí)用的大型英漢平行語料庫,我國英漢詞典的編纂、修訂在質(zhì)量和速度上均受到制約。以詞典編纂為目標(biāo)的英漢平行語料庫的建設(shè)非常迫切。
大型平行語料庫的建設(shè)需要語言專家、計(jì)算機(jī)專家的共同參與,耗資較大,立項(xiàng)時(shí)一定要慎重。語料庫的使用目的要明確,最好首先確定國內(nèi)是否已有現(xiàn)成的技術(shù)或同類的語料庫,盡可能避免重復(fù)建設(shè)。
附注
[1]Teubert WComparable or Parallel Corpora? International ournal of Lexicography,[WTBZ]1996(3)
[2]謝家成小型英漢平行語料庫的建立與運(yùn)用解放軍外語學(xué)院學(xué)報(bào),2004(3)
[3]孫樂,金友兵,等平行語料庫中雙語術(shù)語詞典的自動抽取中文信息學(xué)報(bào),2001(6)
(浙江萬里學(xué)院外語學(xué)院寧波315100)
(責(zé)任編輯陸嘉琦)