李丹
摘要:韓漢-漢韓平行語料庫是語料庫的一個重要類型, 可以在語言對比、翻譯研究、語言教學和詞典編纂方而發(fā)揮獨特作用。 該平行語料庫建庫的總體流程主要包括語料采集、整理和加工、存儲等籌劃,目前雖在設計上有突破,但還存在許多困難。
關鍵詞:中韓平行語料庫;語料采集;語料整理
中圖分類號:G648文獻標識碼:B文章編號:1672-1578(2018)03-0007-01
1.引言
近年來,平行語料庫正日益受到人們關注。平行語料庫是由源語文本原文及其平行對應的譯語文本構成的雙語或多語語料庫,其對齊程度有詞級、句級、段級和篇級幾種。平行語料庫按照翻譯方向的不同,可分為單向平行語料庫、雙向平行語料庫和多向平行語料庫。平行語料庫不僅可以廣泛運用于翻譯研究與培訓、雙語對比、雙語詞典編纂,還可用于外語教學和學生自主學習輔助平臺。在國內(nèi)許多學者開始嘗試西語語料庫的建設??梢哉f西語語料庫已經(jīng)初具規(guī)模,其中,北京外國語大學已建成了規(guī)模約2000萬字詞的英漢平行語料庫。
目前,國內(nèi)外平行語料庫的建設和發(fā)展已經(jīng)取得很大成就,特別是漢英或者英漢雙語平行語料庫的數(shù)量及種類較多,語料的規(guī)模和語料的選取具有科學性、語料標注具有規(guī)范性。中日,漢俄平行語料庫的建設由于有漢英平行語料庫作為參照,在語料規(guī)模、選材方法、標注規(guī)范和深度等方面,具有后發(fā)優(yōu)勢,而中韓平行語料庫建設和應用則剛剛起步,有待進一步探討和研究。
2.中韓雙語對譯平行語料庫的構建方案
2.1設計理念
2.1.1服務對象:為從事韓國語教學的教師、學習韓國語的學生以及譯者提供可檢索的翻譯網(wǎng)絡數(shù)據(jù)庫應用方面的服務;
2.1.2設計目的:應用于中韓語言對比研究、翻譯語言及規(guī)范研究;應用于中韓(韓中)翻譯研究;應用于中韓語言轉換規(guī)律的探討和韓國語外語教學、 雙語詞典編纂等;
2.1.3語庫規(guī)模: 先根據(jù)實際需要建立一個個小型語料庫,然后在小型語料庫基礎上逐步接近或達到千萬詞級,最后建立理想型的語料庫。
2.1.4韓漢比例:語料收集中,在涉及面廣的基礎上,不僅要收集韓文原文和中文原文還要收集韓文譯文和中文譯文。從數(shù)量上通常韓譯漢的原文和譯文要多于漢譯韓的原文和譯文。
2.1.5語料要求:以共時(現(xiàn)代韓語和現(xiàn)當代中文)書面語的語料為主,題材可按照正式公文、報刊雜志、文學作品、新聞消息、科學技術和經(jīng)濟貿(mào)易等,根據(jù)具體內(nèi)容分類采集或收集。
2.1.6標注加工:利用軟件操作,讓句子層級自動對齊。自動對齊后需要人工再次校對。此外,還可選用詞性標注半自動和人工相結合的方式)
2.1.7評價標準(通過搜索引擎或專家評判方式進行檢驗)。
2.2中韓平行語料庫的構建方案。中韓平行語料庫的建立和應用將語言學研究的客體對象定位于語料庫中的文本。也就是說,在語料庫的建設中,韓國語語料的選取、標注、存儲、管理等建設都要圍繞韓國語語料庫的文本進行。 此外,韓國語文本資料還是中韓平行語料庫的應用、中韓子語料庫的生成、語料的分析統(tǒng)計的基礎;也是構建中韓平行語料庫的基礎。其主要內(nèi)容包括語料的采集、語料的加工、語料庫的組織和網(wǎng)絡檢索平臺的更新。
2.2.1韓國語語料采集。韓國語語料的采集應盡量選用書面語文本,書面語越正式越好。之所以選用書面語文本,就是要考慮語言及其譯文的規(guī)范性。從可用性上來說,公文體文本的規(guī)范性最強,其次是其他正式文本包括新聞文本和文學文本。中韓語料庫后續(xù)建設方向包括采集標準和應用目標。其中采集標準是指語料的質量問題,在語言資料整理加工、收錄和保存過程中,要保證源語言本身的"質量"、翻譯質量和相應的規(guī)范性,避免亂碼現(xiàn)象;而應用目標是指應根據(jù)語料庫建設的近期目標和長遠目標,靈活安排語料的文本類型語料的內(nèi)容,注重原始語料中語言質量、翻譯質量及語料保存的規(guī)范性,以有助于翻譯教學為準則。
2.2.2子庫的組成
2.2.3語料的采集。首先,發(fā)揮團隊合作的精神,小組分工,廣泛應用計算機、互聯(lián)網(wǎng)、掃描儀等現(xiàn)代化科學技術,全面收集語料;通過和翻譯公司和旅游公司合作,將接手的翻譯項目完成之后,將語料進行整理、歸類; 通過互聯(lián)網(wǎng)和共同興趣的人交換語料;組織學生收集整理語料等方法建立漢韓雙語平行語料庫平臺。中韓平行語料庫書面語料采集應遵循權威性原則(原文應具有代表性,典型性,譯者應為該領域的權威)、共時性原則(只收錄現(xiàn)當代中韓文本,且同一子庫的韓國語、漢語文本是同時一代的)、科學性原則(選擇語料不要求全、求大,應科學抽樣,兼顧平衡)。然后,嘗試將中韓平行語料庫引入翻譯實踐與翻譯教學中,通過實驗探討在現(xiàn)有技術條件下中韓平行語料庫用于翻譯實踐可能產(chǎn)生的積極效果,并通過教案的形式,說明中韓平行語料庫在翻譯教學中的具體應用,旨在探討基于語料庫方法的翻譯教學模式。
中韓語料庫擬要收錄的主要文本,從類型上可以分為正式文檔 、新聞文檔和文學作品及評論。其中,正式文檔包括"政府、經(jīng)貿(mào)、科技、法律文本及白皮書";新聞文檔包括"時政要聞、述評";其他文檔包括教學文檔、文教類文檔。文檔收集應注重材料內(nèi)容的共時性,盡量收集現(xiàn)代或當代的文本資料,如正式文檔可收集近幾年的文本資料;新聞文檔可收集最能反映社會現(xiàn)實的文本資料;