劉雨婷
(成都理工大學(xué) 外國語學(xué)院,四川 成都 610000)
簡言之,語料庫就是大量單個語料的處理整合。通過計算機語言分析,對語料進行標注解析而建成的大型電子文本語料庫。語料庫的語料收集也有相應(yīng)要求,第一,要為真實的實戰(zhàn)語言材料。第二,這些語料必須要經(jīng)過轉(zhuǎn)錄轉(zhuǎn)寫,加工處理,數(shù)據(jù)分析才能被使用,成為語料庫資源。
從出現(xiàn)開始,語料庫就一直在不斷的完善與發(fā)展,因為不同語言學(xué)家的認識和看法不同,導(dǎo)致語料庫的定義也不完全相同。如阿特金斯認為語料庫是“按照明確的設(shè)計標準,為某一具體目的而集成的大型文本庫”。赫努認為語料庫是“由大量收集的書面語或口頭語構(gòu)成,并通過計算機儲存和處理,用于語言學(xué)研究的文本庫”。分析不同學(xué)者的觀點可以看出,語料庫的作用在于語料的收集和整理,但是收集整合的標準和定義是不一樣的。赫努提出的計算機儲存與處理正是目前語料庫建設(shè)的技術(shù)特點。語料庫不是普通的電子文檔,它的建設(shè)對于語言的研究,以及實踐學(xué)習(xí)都意義重大。在搜集整理語料時,應(yīng)考慮到不同領(lǐng)域語料的抽樣,且不同類型材料的抽樣比應(yīng)相對平衡。
口譯實踐教學(xué)語料庫顧名思義是運用于口譯教學(xué)活動的實踐教學(xué)語料庫,依靠大數(shù)據(jù)時代,現(xiàn)代計算機技術(shù)的運用,依靠口譯教學(xué)理論為指導(dǎo),檢索應(yīng)用為一體的多功能口譯實踐教學(xué)資源庫??谧g實踐教學(xué)語料庫數(shù)據(jù)應(yīng)全部來自于真實的實戰(zhàn)口譯,用一線的實踐材料來進行教學(xué)。不管是對學(xué)生的口譯教學(xué)還是學(xué)生日常的口譯訓(xùn)練,最終的目的都是為了口譯實踐。
口譯實踐語料庫,可劃分為若干種不同的實戰(zhàn)情況。幫助學(xué)生提前在不同的場合,針對不同的對象,進行實戰(zhàn)口譯訓(xùn)練。時代在不斷進步,傳統(tǒng)的口譯教學(xué)模式已經(jīng)不能滿足學(xué)生的訓(xùn)練需求,建設(shè)口譯教學(xué)語料庫能讓學(xué)生快速有效的獲取實戰(zhàn)口譯資料,讓學(xué)生日常口譯訓(xùn)練貼近實戰(zhàn),更好更快融入口譯員的角色。在傳統(tǒng)的口譯學(xué)習(xí)教學(xué)中,老師的教學(xué)材料非常有限,同時學(xué)生使用的口譯訓(xùn)練材料也比較老舊,無法緊貼時事。書本中的口譯教學(xué)材料往往與實踐有較大差別,真實的口譯實踐活動更為復(fù)雜,情況也較為多變。
1.規(guī)模較小
現(xiàn)有的口譯語料庫都是小規(guī)模,專一性的語料庫,不具有普遍性,大數(shù)據(jù)的特點??谧g語料庫的建設(shè)與研究已有近二十年的歷史,因為口譯語料庫建設(shè)不足,所以運用不廣泛,已建投入使用的口譯語料庫很少,而口譯實踐教學(xué)語料庫更是寥寥無幾。已有的語料庫都較為單一且數(shù)據(jù)量不足。相較于筆譯語料庫,口譯語料庫的建設(shè)難度相對較大。且口譯語料庫的材料是將現(xiàn)場真實口譯活動的音頻或視頻,通過計算機程序進行轉(zhuǎn)化和標注制成,搜集和轉(zhuǎn)化的復(fù)雜程度都要高于筆譯語料庫。
2.技術(shù)局限
近年來,筆譯語料庫建設(shè)加快,很多計算機輔助翻譯技術(shù)應(yīng)運而生,但口譯語料庫發(fā)展仍然緩慢。筆譯語料庫可以做到句句對應(yīng),乃至字字對應(yīng),但對于口譯語料庫來說,做到信息對等即可。不能以建設(shè)筆譯語料庫的標準來要求口譯語料庫。再者,口譯語料庫的建設(shè)難度相對較大。譯員在口譯時,會出現(xiàn)大量語氣詞,停頓,口譯時還會對講話人的內(nèi)容進行重組、解釋、增補或省略。因此在建設(shè)口譯語料庫時,應(yīng)借鑒語言學(xué)對于信息單位的界定,處理口譯信息單位如何劃分的問題,從而實現(xiàn)口譯語料庫信息對等。
3.搜集困難
口譯語料庫數(shù)據(jù)搜集也相對困難,我們一般采用錄音、錄像等手段對口譯數(shù)據(jù)進行收集,這些數(shù)據(jù)往往較為零散,且質(zhì)量不穩(wěn)定,需要用技術(shù)手段對音頻進行處理。分析目前已有的口譯語料庫發(fā)現(xiàn),現(xiàn)有的語料庫還沒有做到有組織,規(guī)范的口譯語料數(shù)據(jù)收集。
以前的口譯語料庫多數(shù)只運用于研究,現(xiàn)在越來越多的機構(gòu)和公司,投入資金來研發(fā)研究與實踐運用型口譯語料庫,推動了口譯語料庫的發(fā)展。目前,國外研發(fā)較早且比較成熟的口譯語料庫有日本名古屋大學(xué)的英日雙語同傳語料庫(SIDB),但主要運用于英日和日英同傳,并不能服務(wù)于英中和中英的口譯活動。但它為口譯語料庫的發(fā)展開辟道路,具有引領(lǐng)作用。國內(nèi)較早進行研發(fā)的語料庫是上海交通大學(xué)的“漢英會議口譯語料庫”(CECIC),收集的語料都來源于一線口譯員的實踐口譯材料。還有兩會期間總理答記者問的漢英交替?zhèn)髯g語料庫(CEIPPC)。以上這些都是口譯語料庫,并不為口譯實踐教學(xué)活動而服務(wù),因此我們需要建設(shè)專門的語料庫,為口譯實踐教學(xué)服務(wù)。除此之外,國內(nèi)許多口譯語料庫來源并非來自于一線口譯人員的實戰(zhàn),而是搜集國內(nèi)一些英語考試的學(xué)生口譯,數(shù)據(jù)不夠真實與客觀。
不管是為了幫助英語口譯專業(yè)學(xué)生口譯學(xué)習(xí),還是提高翻譯效率,提升譯文準確性,增強檢索的針對性,語料庫的建設(shè)都必不可少,語料庫的發(fā)展也是大勢所趨。隨著“一帶一路”建設(shè)的推進,越來越多的譯者去到沿線國家,輔助工程,交通,醫(yī)療建設(shè),他們的語料是最新也是最與時俱進的。再者,越來越多的國際會議,我們聽到中國聲音,中國擔(dān)當,而這一切交流的基礎(chǔ)是語言。因此譯員作用體現(xiàn)明顯,而口譯員的語料對語言學(xué)研究,以及一代又一代高端語言人才培養(yǎng)提供助力??谧g領(lǐng)域?qū)嵺`范例正是口譯專業(yè)學(xué)生學(xué)習(xí)所缺乏的,也是口譯實踐語料研究所需要的。
1.分層原則
通過錄影或錄音搜集語料,隨后通過計算機對原語與譯語語料進行嚴格轉(zhuǎn)寫和標注,為后期語料制作做準備。分析現(xiàn)有的口譯語料庫發(fā)現(xiàn),已建的口譯語料庫涵蓋范圍較窄,一般只涵蓋一次活動,會議或?qū)n},且語料庫容量也大概在10 萬至20萬之間,研究與實踐教學(xué)價值有限。對于英語口譯專業(yè)實踐教學(xué)語料庫建設(shè),我們可以用圖表1,分層級的方法劃分口譯語料庫,不同層級的劃分與分類,方便語料庫整合的同時也方便口譯實踐教學(xué)分專題進行。
圖表1
用不同層級劃分語料庫,一方面有助于口譯實踐教學(xué),另一方面口譯信息存儲更加規(guī)范便捷,方便調(diào)取。
2.動態(tài)原則
動態(tài)搜集口譯語料庫數(shù)據(jù),是本語料庫極具挑戰(zhàn)的一部分,也是本英語口譯專業(yè)實踐口譯語料庫的一大特色。為實現(xiàn)動態(tài)原則,建立語料庫時需要每月搜集數(shù)據(jù)分析處理,對語料庫進行更新,這樣才能確保口譯實踐教學(xué)語料庫的時效性,突出口譯即時性的特點。幫助學(xué)習(xí)者動態(tài)接觸到真實翻譯活動中產(chǎn)出的口譯語料。
我們建設(shè)英語專業(yè)口譯實踐教學(xué)語料庫,那么英語專業(yè)口譯實踐教學(xué)語料庫則作為A 級總庫,再根據(jù)工作模式、專業(yè)領(lǐng)域、場合、語言層級、語種、時間、客戶等類別劃分B 級子庫,圖表2 是根據(jù)不同類別劃分出來的B 級子庫。類別選擇不同,那么所建立的B 級子庫也有所不同,如圖表2 所示:
圖表2
對B 級子庫進行劃分以后,我們還可以劃分出不同領(lǐng)域更小的分支,即C 級子庫。例如,專業(yè)領(lǐng)域類別中,B 級子庫-經(jīng)濟類,我們可以再細分為金融會議口譯語料、亞太經(jīng)合組織論壇語料、金磚國家論壇口譯語料、G20 峰會講話口譯語料、博鰲論壇講話口譯語料和世界貿(mào)組織口譯語料等,組成C 級子庫。
如此,對口譯實踐教學(xué)語料庫層層遞分,有助于我們將之前已有的口譯語料庫或零散的口譯語料庫進行分類分析,形成口譯實踐教學(xué)專用語料庫,同時也能推動口譯語料庫研究,對口譯語料庫建設(shè)做出貢獻。
本語料庫的建立不僅能幫助學(xué)習(xí)者從口譯實踐的角度來學(xué)習(xí)口譯,還能為實踐口語語料庫的應(yīng)用研究提供大量可靠數(shù)據(jù)。英語口譯實踐教學(xué)語料庫本身對口譯語料庫的建設(shè)也起到輔助作用,壯大口譯語料庫。通過口譯實踐教學(xué)語料庫,分析譯者口譯時所使用的單詞,短語,句子,甚至連接詞、語氣詞等,分析不同環(huán)境下口譯者所采用的翻譯方法與策略,研究口譯活動中語言與文化的發(fā)展規(guī)律。
語料庫建設(shè)任重而道遠,筆譯語料庫如此,口譯語料庫更甚??萍嫉倪M步和計算機技術(shù)的發(fā)展,都會加快語料庫的建設(shè)。目前,許多公司正對語料庫進行研發(fā)與建設(shè),例如,騰訊AI Lab,YiCAT 等。真實的口譯數(shù)據(jù)、不斷完善與進步的語料處理手段、縝密的設(shè)計標準,專業(yè)的分析軟件,都有助于英語口譯實踐教學(xué)語料庫的建設(shè)與發(fā)展。近年來,隨著課改的深入,中國對傳統(tǒng)的課堂教學(xué)模式進行改革,從傳統(tǒng)的老師掌控課堂,到現(xiàn)在以學(xué)生引領(lǐng)課堂開展教學(xué),新的課堂教學(xué)模式越來越傾向于學(xué)生的自主學(xué)習(xí)。與此同時,口譯實踐教學(xué)模式也在與時俱進,不斷發(fā)展的口譯語料庫,通過激發(fā)學(xué)生潛力,有助于他們創(chuàng)造性思維發(fā)展。不僅如此,口譯大數(shù)據(jù)給口譯學(xué)習(xí)者帶來更多學(xué)習(xí)便利的同時,也推動了學(xué)者們對口譯活動的深入研究。