■唐靜
淺談關(guān)于中國(guó)日語學(xué)習(xí)者的中日對(duì)譯語料庫(kù)構(gòu)建的研究
■唐靜
文章簡(jiǎn)述的是構(gòu)建中的外語學(xué)習(xí)者語料庫(kù)的一部分:中國(guó)日語學(xué)習(xí)者中日對(duì)譯語料庫(kù)的建設(shè)情況。介紹構(gòu)建學(xué)習(xí)者語料庫(kù)的四個(gè)主要階段,即語言資料的收集、各種工具的開發(fā)、語料庫(kù)的研制、語料庫(kù)的分析。
在開發(fā)計(jì)算機(jī)輔助語言教學(xué)系統(tǒng)(CALL System)的過程中,其準(zhǔn)備工作之一是語料庫(kù)的研制。語料庫(kù)可以分成兩種類型:母語語料庫(kù)和學(xué)習(xí)者語料庫(kù)(Learners Corpus)。其中學(xué)習(xí)者語料庫(kù)特別受到語言教學(xué)鄰域研究者的注目。目前,世界上的雙(多)語語料庫(kù)均為英語與其他語言的平行語料庫(kù),漢語與日語的平行語料庫(kù)開發(fā)較少。隨著信息社會(huì)的到來和中日交流的不斷擴(kuò)大,越來越多的語言研究者、教育者以及機(jī)器翻譯研究者急需一個(gè)大型的中日平行語料庫(kù)。為此,長(zhǎng)沙民政技術(shù)學(xué)院是于2008年9月開始著手構(gòu)建基于中國(guó)人日語學(xué)習(xí)者《中日對(duì)譯語料庫(kù)》建設(shè)的。這個(gè)項(xiàng)目是正在進(jìn)行中的長(zhǎng)沙民政職業(yè)技術(shù)學(xué)院外語學(xué)院外語學(xué)習(xí)者語料庫(kù)建設(shè)項(xiàng)目中的一部分。
本語料庫(kù)構(gòu)建的最終目的是用計(jì)算機(jī)同時(shí)檢索中日文語料中的信息,以有助于從語言學(xué)角度對(duì)中國(guó)學(xué)習(xí)者的日語語言應(yīng)用進(jìn)行分析。這些語言分析工作是語料庫(kù)建設(shè)的一個(gè)環(huán)節(jié),同時(shí)對(duì)日語教學(xué)實(shí)踐又有著直接的指導(dǎo)意義。
隨著全球范圍內(nèi)對(duì)日語學(xué)習(xí)的需求,至今人們已開發(fā)了許多類型的日語教學(xué)系統(tǒng)。但是,能夠認(rèn)識(shí)到學(xué)習(xí)者第一語言(L1)的不同,而考慮到學(xué)習(xí)者的母語和目的語的差異,從這個(gè)角度開發(fā)的教學(xué)系統(tǒng)現(xiàn)在還很少。在這種情況下,要開發(fā)適用于以漢語為第一語言、以日語為目的語的語言習(xí)者教學(xué)系統(tǒng),其初期工作就是首先構(gòu)建一個(gè)中國(guó)日語學(xué)習(xí)者語料庫(kù)。
對(duì)譯語料庫(kù)與單語語料庫(kù)相比,最大的特點(diǎn)是雙語性和平行性。利用對(duì)譯語料庫(kù)進(jìn)行各種目的的研究時(shí),應(yīng)該充分認(rèn)識(shí)并有效利用這一特點(diǎn)。根據(jù)我們的實(shí)踐體會(huì),合理的利用譯例,往往可以取得意想不到的效果。為此,對(duì)對(duì)譯語料需要加以分類后,按不同目的重新組合以有效地利用??紤]到以上情況,我們決定構(gòu)建一個(gè)以漢語為第一語言與以日語為目的語的中日雙語平行的大型語料庫(kù),而且為了從多方面對(duì)學(xué)習(xí)者的語言錯(cuò)誤進(jìn)行定量分析,我們使用獨(dú)自開發(fā)的工具來進(jìn)行賦碼操作。
1.語言資料的收集方法。首先構(gòu)建一個(gè)基于中國(guó)日語學(xué)習(xí)者的中日雙語平行的大型語料庫(kù),收錄至少有譯文的漢語和日語平行語料1000萬字,為兼顧多種研究目的,收錄的內(nèi)容以有研究?jī)r(jià)值的中日文學(xué)名著為主,兼收劇本、散文、政論文等其他文體的文章,原文和譯文全文收錄。為滿足文學(xué)和翻譯學(xué)學(xué)習(xí)者的需要,部分名著收錄多個(gè)譯本,語料錯(cuò)誤率確保在千分之五以內(nèi)。
2.編輯與電子化。編輯工作包括三個(gè)部分:(1)把手寫的譯文材料電子化,使其成為日中逐句對(duì)譯的文件形式。(2)在每個(gè)文件上附上該學(xué)習(xí)年齡、性別、出生地、日語學(xué)習(xí)經(jīng)歷等的基本者的信息。(3)原則上以益岡隆志、田洼行則編著《基本日本語文法》的語法體系為基準(zhǔn),并參考有關(guān)中國(guó)日語學(xué)習(xí)者誤用例的先行研究,來設(shè)計(jì)錯(cuò)誤碼的目錄,并用其進(jìn)行賦碼操作。
電子化過程,是為了便于進(jìn)行語料庫(kù)分析和處理,把編輯完的文件變成XML形式。
3.語料庫(kù)檢索工具的研制。一個(gè)高水平的語料庫(kù)需要一個(gè)高效率、多功能的檢索工具。中日對(duì)譯語料庫(kù)要求其檢索工具必須具備雙語平行檢索、關(guān)鍵詞檢索(KWIC)、句型搭配檢索、抽象的句型檢索等專用功能。為了滿足此需要,擬在探明中日文版WINDOWS95/98的內(nèi)碼基礎(chǔ)上,提出解決中日雙語同窗顯示和檢索問題的方案,并開發(fā)一個(gè)可掛接于中日對(duì)譯語料庫(kù)的雙語檢索工具。該檢索工具為窗口操作,界面友好;既對(duì)現(xiàn)有檢索工具的優(yōu)秀功能進(jìn)行必要的集成,又根據(jù)雙語語料庫(kù)的特點(diǎn)增添必要的功能。
4.語料庫(kù)的分析。中日對(duì)譯語料庫(kù)的研制是一項(xiàng)涉及語言學(xué)、翻譯學(xué)、信息工程學(xué)和計(jì)算機(jī)科學(xué)的跨學(xué)科綜合研究課題,其研究方法需要取自社會(huì)科學(xué)和自然科學(xué)。在選擇語料、文本對(duì)齊、語料檢索與標(biāo)注加工方面,我們主張首先對(duì)文本語言進(jìn)行深入研究,盡量吸收語言學(xué)、文學(xué)和翻譯學(xué)的最新成果;在運(yùn)用語料庫(kù)進(jìn)行語言研究方面,主張充分利用信息工程學(xué)的方法和計(jì)算機(jī)科學(xué)的最新技術(shù),以達(dá)到以往的研究方法所不能取得的研究效率和成果。
中國(guó)日語學(xué)習(xí)者中日對(duì)譯語料庫(kù)是長(zhǎng)沙民政職業(yè)技術(shù)學(xué)院外語學(xué)院外語學(xué)習(xí)者語料庫(kù)建設(shè)的一個(gè)重要組成部分。下階段,我們還會(huì)使用自然語言處理技術(shù),并在分析從本語料庫(kù)得出的學(xué)習(xí)者錯(cuò)誤趨向的基礎(chǔ)上,為中國(guó)日語學(xué)習(xí)者開發(fā)出能夠自動(dòng)生成學(xué)習(xí)菜單和教授信息的計(jì)算機(jī)輔助翻譯教學(xué)系統(tǒng)。
[1]徐一平,曹大峰主編.中日對(duì)譯語料庫(kù)的研制與應(yīng)用研究[M].外語教學(xué)與研究出版社,2002.
長(zhǎng)沙民政職業(yè)技術(shù)學(xué)院外語學(xué)院)