張利峰
摘 要 目前蒙語授課學生的英語教學主要包括學前、小學、中學和大學等階段。在學前和小學階段的課外輔導主要靠家長和老師,而到了中學和大學后主要靠學生本人的自學能力。而無論是家長、老師或?qū)W生在輔導和學習過程中都會遇到生詞或找不到某些多意詞在句子中的確定含義,而此時查找詞典很難準確判斷其含義的,因為初學者很難把握某些單詞在句中的準確含義。另外,在進行例句翻譯時也會遇到使用哪個單詞更為準確,而不會超出大綱。因此,基于蒙英機器翻譯工具的蒙英雙語語料庫的建設尤為重要,本文主要闡述了蒙英雙語語料庫的設計與實現(xiàn)。
【關鍵詞】蒙英翻譯 雙語語料庫
1 軟件平臺的搭建
1.1 操作系統(tǒng)
蒙英雙語語料庫(以下稱語料庫)的設計與制作可在WindowsXP操作系統(tǒng)或Linix操作系統(tǒng)下進行。本設計是在WindowsXP操作系統(tǒng)下完成的,因為:
(1)WindowsXP操作系統(tǒng)使用廣泛、通用性強,操作簡練,功能完善強大;
(2)WindowsXP操作系統(tǒng)兼容性強,支持多種應用軟件,并且大多數(shù)蒙古文軟件、系統(tǒng)、輸入法是在WindowsXP操作系統(tǒng)下開發(fā)的。
1.2 應用軟件
制作語料庫的應用軟件使用了微軟公司Office2003系統(tǒng)中的Excel和蒙科立軟件公司開發(fā)的Mensoft Mongolian IME2012蒙古文輸入法。語料庫也可用TXT文本或其它類型的數(shù)據(jù)庫(Acesse、VFoxPro、SQLSever等)完成。
使用OfficeExcel設計制作雙語語料庫的原因是:
(1)Excel具有強大的編輯計算功能,操作易于掌握,并且使用廣泛,兼容性強。
(2)適用于簡單的數(shù)據(jù)格式設計,且本翻譯系統(tǒng)無需設定復雜的數(shù)據(jù)完整性,安全性與約束性。
采用Mensoft Mongolian IME2012蒙古文輸入法輸入蒙古文的原因是:
(1)支持國際通用編碼;
(2)將多種文字集成為一體(包括傳統(tǒng)蒙古文,回鶻蒙古文,滿文等)為一體的音碼智能輸入法,具有較強的集成編碼轉換工具;
(3)鍵盤布局實現(xiàn)了字母拼寫一音一鍵的計算機輸入目標;
(4)解決了有些蒙古文字用語言拼寫方法編碼的難題,如一字多型,多字同型文字的編碼等;
(5)輸入法具有較強的智能性,大大的提高了輸入速度,并且支持在蒙古文輸入法狀態(tài)下回車輸入英文;
(6)將字體清晰度做了進一步改進,并且在舊版本(2008版)的基礎上擴大了字體庫。
1.3 MensoftIME2012蒙古文輸入法與蒙古字體
蒙古文輸入法的安裝:
第一步:雙擊執(zhí)行安裝包MensoftIME2012(可從網(wǎng)上免費下載),出現(xiàn)安裝首頁界面。
第二步:點擊“”按鈕這時會彈出許可協(xié)議窗口。
第三步:認真閱讀完協(xié)議后,選擇“”項表示同意協(xié)議,之后點擊界面上的“”按鈕繼續(xù)安裝會彈出安裝窗口。
第四步:點擊“”按鈕會繼續(xù)安裝,將出現(xiàn)安裝結束窗口。
第五步:點擊“”按鈕將會完成安裝過程,點擊任務欄中的輸入法欄將會看到Mensoft Mongolian IME2012蒙古文輸入法。
第六步:第一次啟動輸入法時,系統(tǒng)將會自動彈出注冊界面。通過界面上的聯(lián)系方式獲得注冊碼,輸入注冊碼單擊“確定注冊”按鈕后便可正常使用輸入法。
2 蒙古文輸入法的使用
2.1 鍵盤布局
Mensoft Mongolian IME2012蒙古文輸入法的鍵位布局合理、易于掌握,其字母、符號布局如圖1所示。
2.2 蒙古文字的拼寫輸入
(1)蒙古文的基本輸入規(guī)則。由于蒙古文字中的部分發(fā)音與漢語拼音、英文字母的發(fā)音一樣或者相似相近,所以設計鍵盤布局時將發(fā)音相似或相近的字母放在了相應的鍵位上,例如:(發(fā)音為“和”)在“h”鍵上;(發(fā)音為“啊”)在“a”。有些特殊的蒙古文字母根據(jù)其使用頻率放在了相應的鍵位上,例如:在“c”鍵上;在“v”鍵上;多變體附加成(Tinyilgal,為介詞)放在數(shù)字鍵上,例如:在“1”鍵上選2,如圖2所示。
例:輸入,首先輸入的編碼“abv”將會出現(xiàn)如圖界面,選“1”或按空格鍵輸入后系統(tǒng)將會智能自動的彈出介詞的輸入界面,如圖所示,選“1”或按空格鍵輸入,之后再輸入編碼“haira”選“1”或按空格鍵可輸入,如圖2所示。
(2)高效輸入規(guī)則。高效輸入的規(guī)則是只輸入文字每個音節(jié)的首字母,省略其余字母的輸入。
例如:的輸入,可編碼為“abn”,如圖所示。但存在排位靠后或不在本候選頁需翻頁的問題,這時可補充編碼“a”,既輸入“abna”時的排位可為第一,如圖3所示。
(3)英文的快速輸入。由于Mensoft Mongolian IME2012蒙古文輸入法支持在蒙古文輸入法狀態(tài)下回車輸入英文,所以不需要頻繁的進行輸入法的切換,可以直接在蒙文輸入法的平臺下輸入英文。
(4)一字多型文字與多字同型文字的輸入。
2.3 字體的使用
字體Mensoft 是Mensoft Mongolian IME2012蒙古文輸入法的攜帶字體,使用時從字體庫中選擇即可,
2.3.1 雙語語料庫的格式設計
語料庫的數(shù)據(jù)格式設計較為簡單,無需定義復雜的數(shù)據(jù)字段以及數(shù)據(jù)的約束、安全性與完整性,只需定義相互對齊的英語句子字段和蒙古語句子字段即可。如圖4所示。
2.3.2 單詞、短語和句子的輸入整理
由于本翻譯系統(tǒng)采用的翻譯規(guī)則是基于統(tǒng)計的翻譯模型,所以在整理語料輸入時遵循以下原則:
(1)覆蓋面要全面,避免遺漏語料;
(2)無需單獨輸入單詞與短語,只輸入所有句子,句子中應包含所有單詞與短語;
(3)沒有在句子中出現(xiàn)的單詞與短語需單獨列出輸入;
(4)輸入在教材中出現(xiàn),但不屬教學內(nèi)容的語料,如:Read aloud,Look and tick,Listen and colour等。
參考文獻
[1]趙鐵軍.機器翻譯原理[M].哈爾濱:哈爾濱工業(yè)大學出版社,2000.
[2]姚天順.自然語言理解[M].北京:清華大學出版社,1998.
[3]清格爾泰.現(xiàn)代蒙古語語法[M].呼和浩特:內(nèi)蒙古人民出版社,1992.
[4]馮志偉.自然語言機器翻譯新論[M].北京:語文出版社,1994.
[5]敖其爾.從英文到蒙文的機器翻譯[J].內(nèi)蒙古大學學報(哲學版),1988(03):39-50.
[6]力提甫·托乎提.維吾爾語及其他阿爾泰語言的生成句法研究[M].北京:民族出版社,2001.
作者單位
內(nèi)蒙古師范大學青年政治學院 內(nèi)蒙古自治區(qū)呼和浩特市 010051