周龍英,張莉洲
(九江學(xué)院 外國語學(xué)院,江西 九江332005)
面向雙語教學(xué)的平行語料庫構(gòu)建及應(yīng)用
周龍英,張莉洲
(九江學(xué)院 外國語學(xué)院,江西 九江332005)
本文的研究目標(biāo)是要建立一個專門面向雙語教學(xué),充分考慮學(xué)生和英語教師的需求的,以英語教材為主的雙語平行語料庫。在此基礎(chǔ)之上討論了該語料庫的構(gòu)建及其重點和難點工作。同時對語料庫的應(yīng)用進行了科學(xué)調(diào)研,明確了本次研究的價值所在。
雙語教學(xué);平行語料庫;可行性;應(yīng)用價值
語料庫(Corpus)是為了語言研究按照一定的原則收集和組織的真實的自然語言作品(書面的和口頭的)的集合。其中,以雙語(或多語)平行語料庫為基礎(chǔ)的應(yīng)用日益增多。憑借這種雙語語料庫,可以比較兩種語言的異同,利用它開展廣泛的雙語教學(xué)與研究、翻譯研究(包括自動翻譯)以及編撰雙語詞典,具有巨大的潛在研究價值。[1]
然而,為數(shù)不多的英雙語語料庫因受建庫目的和最終用戶類型等因素的影響,與單語語料庫相比,無論是在規(guī)模、質(zhì)量,還是加工深度都相差甚遠,僅用于語言學(xué)研究、法律、翻譯或詞典編纂等特定領(lǐng)域。雙語語料庫自身建設(shè)亦缺乏系統(tǒng)性。同時,在高校教學(xué)方面,由于大多數(shù)雙語教學(xué)的開設(shè)是選擇專業(yè)的主課程,所要求的語料各不相同,所以這些語料庫并不適合不同專業(yè)的雙語教學(xué)的語料要求,這就為雙語教學(xué)帶來了很多不便。
創(chuàng)建及應(yīng)用面向雙語教學(xué)的英漢平行語料庫,可以為學(xué)生實現(xiàn)自主化、個性化、立體化外語學(xué)習(xí)提供切實的保障,推動大學(xué)英語課程改革和專業(yè)雙語教學(xué)的具體實施。因此,本研究力圖建立一個專門面向雙語教學(xué),充分考慮學(xué)生和英語教師的需求的以大學(xué)英語教材為主的,英漢雙語平行語料庫。本研究的開展將把語料庫與英漢雙語教學(xué)有效地結(jié)合起來。
漢英/英漢平行語料庫的建設(shè)過程包括總體設(shè)計、數(shù)據(jù)庫框架設(shè)計、語料收集、語料導(dǎo)入、雙語句子對齊、雙語句子分詞、語料校對等步驟。在總體設(shè)計上,漢英/英漢平行語料庫包含若干??普Z料庫;在數(shù)據(jù)庫建設(shè)時,采用群組分布式操作模式和以句子為基本存儲單位的關(guān)系型數(shù)據(jù)庫;在語料導(dǎo)入時,語料將統(tǒng)一以txt文本形式進入數(shù)據(jù)庫;在對齊和分詞時,采用計算機程序運作與人工校對相結(jié)合的方法。借鑒語言學(xué)語料庫的檢索功能,設(shè)計了關(guān)鍵詞檢索、模糊檢索、搭配檢索、句型檢索、對譯詞詞頻統(tǒng)計、檢索結(jié)果自動排序等6項適用于雙語教學(xué)及研究的檢索項目。
(一)漢英/英漢平行翻譯語料庫的總體設(shè)計:
1.建庫目的:為面向雙語教學(xué)的研究和實踐提供實證支持。
2.語料庫規(guī)模:中小型的、開放式的,平行語料庫約100萬字詞,研究者可隨時根據(jù)需要添加英漢/漢英雙語對應(yīng)的語料。
3.選材規(guī)則:選材涉及各個領(lǐng)域,保證語料的均衡性。英語語料主要來源于大學(xué)英語(修訂本)、新編大學(xué)英語、21世紀(jì)大學(xué)英語、全新版大學(xué)英語等教材課文,漢語譯文來源于上述教材相對應(yīng)的教師參考書。
4.漢英比例:全庫包括漢語原文數(shù)據(jù)庫、英語譯文數(shù)據(jù)庫、英語原文數(shù)據(jù)庫和漢語譯文數(shù)據(jù)庫等文本庫,英譯漢和漢譯英語料各占全庫語料的50%。
5.子庫設(shè)置:啟動檢索平臺時,可根據(jù)研究需要調(diào)入不同的子庫文本。我們根據(jù)選材類別把語料存為獨立版本及各種層級相連的子庫:即設(shè)英文、中文兩個獨立版本的總庫;其中英文和中文總庫下各分設(shè):大學(xué)英語 (修訂本)、新編大學(xué)英語、二十一世紀(jì)大學(xué)英語、全新版大學(xué)英語四類教材一級子庫,各級子庫下面根據(jù)教材的第一、二、三、四冊再分為不同的二級子庫。同時添加網(wǎng)上能下載的雙語對照小說、雙語雜志、雙語新聞等雙語語料。[3]
(二)雙語平行語料庫數(shù)據(jù)組織模式選擇
1.EML標(biāo)記語言和群組分布式操作模式
用EML(Extend Marking Language)標(biāo)記語言,并且在此基礎(chǔ)上設(shè)計多用戶并發(fā)操作模式,即群組分布式操作模式。整個語料庫建設(shè)系統(tǒng)和使用系統(tǒng)由若干臺聯(lián)網(wǎng)計算機組成,其中一臺計算機充當(dāng)服務(wù)器,存儲大量的數(shù)據(jù),其余計算機通過局域網(wǎng)訪問服務(wù)器,通過訪問獲得需要加工的數(shù)據(jù)。群組分布式操作模式下,用戶或創(chuàng)建人員只要與服務(wù)器相連即可操作雙語語料庫。[4]
2.以句子為基本存儲單位
漢英/英漢平行語料庫由漢語和英語兩種語言組成,在數(shù)據(jù)庫研發(fā)階段,主要從語言學(xué)角度對這兩種語言進行對比和分析。在計算機處理語料時,要對漢語進行詞性標(biāo)注,對英語進行類符歸類識別。漢英/英漢平行語料庫宜采用基于句子的數(shù)據(jù)庫存儲,可將詞性標(biāo)注工作交給專門的分詞軟件進行處理,該項工作可在檢索平臺的建設(shè)階段完成。
3.采用關(guān)系型數(shù)據(jù)庫
目前關(guān)系型數(shù)據(jù)庫已經(jīng)成為數(shù)據(jù)庫的主流,關(guān)系型數(shù)據(jù)庫管理系統(tǒng)也層出不窮,比較著名的有SQL/DS、DBZ、Oracle、SQLServer、dBase等。SQLServer是具有客戶/服務(wù)器結(jié)構(gòu)的數(shù)據(jù)庫管理系統(tǒng),該軟件能快速處理龐大數(shù)據(jù)。因而本研究主要使用SQLServer數(shù)據(jù)庫管理系統(tǒng)。
(三)數(shù)據(jù)庫基本表
數(shù)據(jù)庫的最基本存儲單位是表,漢英/英漢平行語料庫的基本表包括兩大類:語料基本信息類表和對譯關(guān)系類表。語料基本信息類表主要用來詳細精確記錄文本的作者、作品名、譯者、章節(jié)、段落、句子編號等信息,語料基本信息類表包括原文句子表、譯文句子表、作品信息表、作者/譯者信息表等。
(一)語料預(yù)處理
語料預(yù)處理分兩個步驟,一是整理原始語料,是入庫的語料具有統(tǒng)一的格式和規(guī)范;二是語料分句導(dǎo)入,通過對標(biāo)點符號的判斷完成分句工作,繼而導(dǎo)入以句子為基本存儲單位的雙語語料庫。
(二)對齊與分詞處理
語料導(dǎo)入數(shù)據(jù)庫只是語料庫建設(shè)的初級階段,其工作量僅占整個語料庫建設(shè)的10%,而大量的工作,是語料的對齊與分詞。語料對齊是實現(xiàn)中英文雙語可鏈接式檢索的前提,分詞是進行詞頻統(tǒng)計或搜索對譯詞的關(guān)鍵。
1.句子對齊
在目前的計算機水平下,句子對齊要采用先計算機對齊后人工審核的方式。對齊順序:按照“作品一>篇章一>段落一>句子”的先后順序進行對齊。首先建立作品對應(yīng)關(guān)系,存入表articlRe;建立篇章對譯關(guān)系,存入表Ch即terR;建立段落對譯關(guān)系,存入表parRa;建立句子對譯關(guān)系,存入表esntenCeR,同時對原文和譯文基本屬性進行標(biāo)注,更新表sentenee_init和sentenee_trans。[5]
計算機自動對齊方法:以句子為基本單位,采用逐步順序基于原文譯文長度的對齊方法。計算機對齊只能作為輔助,更多的還需要依靠人工對齊。
2.句子分詞
本文借鑒其它研究成果,結(jié)合所設(shè)計的關(guān)系性雙語語料庫,提出基于詞和句子規(guī)則的詞語對齊方法。
分詞流程:
(1)讀入句子;
(2)對句子按照標(biāo)點符號進行初次分割,分割出子句;
(3)對子句做正向最大構(gòu)詞假設(shè),在詞典中搜索是否匹配(期間可利用子句結(jié)構(gòu)形式規(guī)則進行正向最大值的約束);
(4)無匹配,減小構(gòu)詞長度,并利用子句結(jié)構(gòu)形式規(guī)則進行正向最大值的約束,尋求詞典匹配;
(5)直到詞典匹配為止,將此詞作為已分詞語進行處理;
(6)該詞去掉后的子句,轉(zhuǎn)到步驟(3);
(7)無詞典匹配,則更新詞典,并將此次作為已分詞語進行處理。正反匹配所得的詞再進行匹配,能夠完全匹配才算成功,否則進行人工分詞。[6]
(三)語料庫管理
由于語料庫的數(shù)據(jù)處理往往達到海量(上百萬條記錄),數(shù)據(jù)的維護也是多層次的,往往是多人同時處理數(shù)據(jù),數(shù)據(jù)并發(fā)處理情況非常突出。所以要建立與數(shù)據(jù)維護相適應(yīng)的管理機制,具體包括:(1)創(chuàng)建數(shù)據(jù)維護日志,記錄語料庫操作信息;(2)對數(shù)據(jù)庫進行備份與恢復(fù);(3)在數(shù)據(jù)系統(tǒng)的安全性設(shè)置方面,對用戶操作進行加密處理,避免網(wǎng)絡(luò)攻擊,確保信息安全和數(shù)據(jù)不失真;(4)如果數(shù)據(jù)無法在一臺計算機上操作執(zhí)行,可以使用工作組機制,分布式操作。[7]
語料索引工具的資源共享,使我們能夠有效地利用語料庫進行英語教學(xué)和學(xué)習(xí)。目前,英語單語的共享索引工具有MicroConcord(Tim Johns&Mike Scott)、Wordsmith Tools(Mike Scott)、TACTWEB和Concordance 1.1.3(R.J.C.Watt)。它們的基本功能包括了詞表生成、語篇統(tǒng)計、“帶語境的關(guān)鍵詞”索引、排序、搭配詞統(tǒng)計、詞語形式統(tǒng)計、主題詞提取、詞叢統(tǒng)計、聯(lián)想詞統(tǒng)計及重組等。Paraconc(Michael Barlow)雙語索引工具具有漢英平行檢索和帶語境的關(guān)鍵詞檢索的功能。[8]
(一)英漢翻譯教學(xué)
雙語平行語料庫及其索引可提供句子及篇章級的英漢對譯,因此學(xué)生可以做各種英漢互譯練習(xí);低年級或基礎(chǔ)較差的學(xué)生可以借助漢語的解釋更好地理解英語課文;學(xué)生還可通過對英漢語篇的對比來加深對英語篇章的理解和認識等。[9]
(二)雙語情景教學(xué)
學(xué)生可以通過語料庫索引所提供的語境進行詞匯練習(xí),通過對大量的真實的語境的觀察,配合該詞或該語法規(guī)律的使用頻率,驗證詞典、語法書中所給的定義和語法規(guī)律,從而發(fā)現(xiàn)更為真實準(zhǔn)確的定義和規(guī)律,使學(xué)習(xí)的過程變成自我探索和自我發(fā)現(xiàn)的過程。而教師有了基于語料庫的詞頻統(tǒng)計,就可以知道哪些詞匯及其用法需要掌握,需要在教學(xué)中投入更多時間。在解釋詞或搭配的意義和用法時,可以借助語料庫檢索軟件在語料庫中尋找以該語言為母語的人對該詞的使用或搭配的生動、真實的例句。語料庫詞匯檢索還可以避免教師選擇過時的表達法。[10]
(三)雙語語言練習(xí)及測試
由于語料庫索引提供索引詞用法的真實語境、詞匯搭配及頻率信息,通過詞語索引可以開發(fā)出實時詞匯練習(xí)、同義詞比較、搭配詞組練習(xí)等。這樣便可以極大地減輕教師的工作量,并且使題目更具真實性和可靠性。
雙語平行語料庫和檢索工具對雙語教學(xué)起到了很大的促進作用。它在幫助學(xué)生自學(xué)英語,提高雙語能力方面是其它教科書和工具書所不能替代的。同時它又能幫助教師制作出準(zhǔn)確的詞匯教學(xué)大綱和詞表,編排科學(xué)的練習(xí)。大量例證已經(jīng)表明,雙語平行語料庫在大學(xué)語教學(xué)上有著廣闊的使用前景和潛在的開發(fā)價值。語料庫只是一個工具,對語料的收集、整理和使用都要求使用者具備語言學(xué)、外語教學(xué)等多方面知識。教師應(yīng)樹立實證思想,對英漢語義、語法、語篇對比、英漢雙語搭配、英漢互譯規(guī)律等有敏銳意識,經(jīng)常求證語料庫,以促進雙語教學(xué)。[11]
(注:本論文是九江學(xué)院校級課題《面向雙語教學(xué)的平行語料庫構(gòu)建及應(yīng)用研究》階段性成果之一。)
[1][3]王克非,等.雙語對應(yīng)語料庫:研制與應(yīng)用[M].北京:外語教學(xué)與研究出版社,2003.
[2][4][5][6]錢之瑩.漢英/英漢平行翻譯語料庫的設(shè)計及其在翻譯中的應(yīng)用[D].華東師范大學(xué)優(yōu)秀碩士論文,2005-04.
[7]常寶寶,等.雙語語料庫收集整理加工任務(wù)說明書以及相關(guān)規(guī)范[EB/ 0L].Http://www.icl.pku.edu.cn/icl-groups/parallel/workspace/973MT-specification-of-ParaCorpus-V1.0.Pdf,2002.
[8]鄧飛.向教學(xué)的英漢雙語平行語料庫的創(chuàng)建及其應(yīng)用[J].惠州學(xué)院學(xué)報(社會科學(xué)版),2005-08,25(4).
[9]王克非.雙語平行語料庫在翻譯教學(xué)上的用途 [J].外語電化教學(xué),2004,(6).
[10]Rundell M.The BNC-a spoken corpus[J].Modern English Teacher, 1995,(4):13-15.
[11]謝家成.小型英漢平行語料庫的建立與運用[J].解放軍外國語學(xué)院學(xué)報,2004-05,27(3).