張帆
摘 要: 基于句法分析的英語機器翻譯方法無法解決智能識別技術中海量英語語言的部分結構歧義導致機器翻譯準確度低的問題。因此,在分析智能機器翻譯工具輔助英語翻譯應用的基礎上,設計與實現(xiàn)基于現(xiàn)代智能識別技術的英語機器翻譯模型。依據(jù)英文句子產(chǎn)生中文句子和對齊過程,基于英文句子獲取中文句子長度、首個中文詞串的鏈接位置,獲取總體中文句子以及機器翻譯對在句子中的次數(shù)。采用基于最大熵的統(tǒng)計機器翻譯方法,通過直接最大熵模型訓練得到相關參數(shù),獲取不同英語語言特征間的最佳組合方式,解決海量英語語言中的部分結構歧義問題,提高英語機器翻譯的準確度。實驗結果表明,所設計的英語機器翻譯模型,具有較高的翻譯準確度和穩(wěn)定性。
關鍵詞: 智能識別技術; 英語翻譯; 機器翻譯模型; 結構歧義; 最大熵; 翻譯準確度
中圖分類號: TN915?34; H319.3 文獻標識碼: A 文章編號: 1004?373X(2018)16?0151?04
Abstract: The English machine translation method based on syntactic analysis cannot resolve the problem existing in intelligent recognition technology for part of structural ambiguity in the massive English language, resulting in low accuracy of machine translation. Therefore, an English machine translation model based on modern intelligent recognition technology is designed and implemented on the basis of application analysis of intelligent machine translation tool assisted English translation. Chinese sentences and alignment process are generated based on English sentences, Chinese sentence lengths and the link position of the first Chinese word string are obtained based on English sentences, and the whole Chinese sentences and the number of machine translated sentences are obtained. The statistical machine translation method based on the maximum entropy is adopted. The best combination mode of different English language features is obtained after obtaining related parameters by means of direct maximum entropy model training, so as to resolve the problem of part of structural ambiguity in the massive English language, and improve the accuracy of English machine translation. The experimental results show that the designed English machine translation model has high translation accuracy and stability.
Keywords: intelligent recognition technology; English translation; machine translation model; structural ambiguity; maximum entropy; translation accuracy
由于全球化的高速發(fā)展,不同國家間的信息流動呈現(xiàn)高速性,英語成為當前國際間溝通的主要語言。當前智能識別技術在不同領域中的應用價值不斷提升,基于現(xiàn)代智能識別技術的英語機器翻譯模型,能夠提高英語機器翻譯效率和準確度,實現(xiàn)無障礙交流[1?2]。而傳統(tǒng)基于句法分析的英語機器翻譯方法,無法解決智能識別技術中的海量英語語言中的部分結構歧義問題,存在機器翻譯準確度低的問題。因此,本文設計基于現(xiàn)代智能識別技術的英語機器翻譯模型,通過直接最大熵模型,獲取復雜英語句子中不同特征間的最佳組合方式,消除部分結構歧義,提高英語機器翻譯的準確度[3?4]。
1.1 智能機器翻譯工具輔助英語機器翻譯的應用
隨著現(xiàn)代智能識別技術的發(fā)展,出現(xiàn)了較多的智能機器翻譯工具。當前的在線機器翻譯的機器翻譯結果還存在一定缺陷,尤其是全文范圍采用服務器對不同語言數(shù)據(jù)實施對比學習后,獲取各語言間的語法以及文字相關規(guī)律,存在機器翻譯效率低以及準確度低的弊端[5?6]。因此應采用其他現(xiàn)代智能識別技術實現(xiàn)英語的準確機器翻譯。
1.2 現(xiàn)代智能識別技術下的英語機器翻譯
若用戶不知道“匯率”一詞怎么機器翻譯,則依據(jù)經(jīng)驗可得該單詞內(nèi)會存在“rate”,則在搜索引擎(如Baidu:www.baidu.com,MSN Search:http://search.msn.com/)內(nèi)輸入“rate率”實施檢索,在檢索結果內(nèi)可獲取準確的機器翻譯:“匯率(exchange rate)”。
1.3 基于現(xiàn)代智能識別技術的英語機器翻譯模型
通過式(8)能夠?qū)嵤└佑行У臋z索,獲取高質(zhì)量的英語機器翻譯結果。
2.1 實驗一
實驗語料采用的是中君公司提供的586 538句對漢英平行語料,從中任意采集1 000句對當成測試語料,2 000句對當成開發(fā)語料,剩下的當成訓練語料。實驗基于句子長度將測試語料分割成簡單句子、一般句子以及復雜句子三種測試集,如表1所示。
采用本文方法和傳統(tǒng)句法分析機器翻譯方法,針對表1中的測試集運算BLEU值,結果如表2所示。其中,BLUE值是一種機器翻譯的自動評價方法,其值越高,說明機器翻譯的質(zhì)量越好。分析表2可得,機器翻譯簡單句子時,本文方法和傳統(tǒng)句法分析機器翻譯方法的BLEU值基本一致,而機器翻譯一般句子時,本文方法的BLEU略高于句法分析機器翻譯方法,特別是在機器翻譯復雜句子時,本文方法的BLEU遠遠高于句法分析機器翻譯方法。因此說明,本文方法的優(yōu)勢是機器翻譯復雜句子,復雜句子中存在大量的最高名詞短語,本文方法采用基于最大熵思想的統(tǒng)計機器翻譯方法,可獲取復雜句子中不同英語語言特征間的最佳組合方式,消除部分結構歧義,提高英語機器翻譯的準確度。
2.2 實驗二
實驗通過兩個圓形描述句法分析機器翻譯方法和實際機器翻譯結果的概率分布。圓形中的顏色越深則說明檢索范圍內(nèi)該處的準確機器翻譯結果概率越高,進而分析不同機器翻譯方法的解碼性能。
將不同方法獲得的概率結果映射到實際機器翻譯結果中,以實現(xiàn)對比不同方法的檢索范圍。將傳統(tǒng)句法分析機器翻譯方法、基于樹翻譯方法和基于森林翻譯方法與本文所提方法進行對比。得到如圖1~圖4的實驗結果。其中左側圓代表不同方法的準確翻譯概率結果,右側圓代表實際機器翻譯結果的概率分布。
由圖1可知,基于傳統(tǒng)句法分析機器翻譯方法檢索得到的最終概率在左下角,而實際機器翻譯結果概率在右上角,且該種方法無法映射到實際結果中,證明傳統(tǒng)方法的翻譯精度較差。
基于樹的機器翻譯方法內(nèi)句法分析獲取的點在實際機器翻譯結果的中不是概率最高的點,如圖2所示。基于樹的機器翻譯方法得到的結果概率雖然無法對應到實際機器翻譯結果,但其可以映射到其中,但映射范圍較小。
基于森林的機器翻譯方法內(nèi)句法分析獲取的森林能夠覆蓋句法分析機器翻譯中概率最高的范圍,可獲取更趨向?qū)嶋H機器翻譯結果的最優(yōu)位置的點,如圖3所示。圖3中,雖然該方法的映射范圍較大,但其映射準確度較低。
本文機器翻譯方法與實際機器翻譯結果的檢索范圍對比如圖4所示,能夠看出本文采用直接最大熵方法進行句法分析檢索獲取的最優(yōu)點是實際機器翻譯結果的最優(yōu)點,基本可以完全映射到實際機器翻譯結果中。實驗說明,傳統(tǒng)句法分析機器翻譯方法性能較差,不具有對比意義。而采用基于樹的機器翻譯方法、基于森林的機器翻譯方法以及本文方法的解碼性能逐步提升,如圖5所示。
從圖5中可以看出,三種方法的檢索范圍不斷提升,本文方法的BLEU值最高,獲取的規(guī)則數(shù)量高于傳統(tǒng)基于樹機器翻譯方法以及基于森林機器翻譯方法,具有較高的解碼檢索性能。
本文設計基于現(xiàn)代信息計算的英語機器翻譯模型,采用直接最大熵模型得到復雜英語句子內(nèi)不同特征間的最佳組合方式,解決海量英語語言中的部分結構歧義問題,提高英語機器翻譯的準確度。
[1] 趙靜.基于統(tǒng)計的漢英機器翻譯技術的研究[J].電子設計工程,2016,24(21):69?71.
ZHAO Jing. Research on the technology of C?E machine translation based on statistics [J]. Electronic design engineering, 2016, 24(21): 69?71.
[2] 宋柔,葛詩利.面向篇章機器翻譯的英漢翻譯單位和翻譯模型研究[J].中文信息學報,2015,29(5):125?135.
SONG Rou, GE Shili. English?Chinese translation unit and translation model for discourse?based machine translation [J]. Journal of Chinese information processing, 2015, 29(5): 125?135.
[3] 唐海慶,熊德意.基于選擇偏向性的統(tǒng)計機器翻譯模型[J].北京大學學報(自然科學版),2016,52(1):127?133.
TANG Haiqing, XIONG Deyi. A selectional preference based translation model for SMT [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2016, 52(1): 127?133.
[4] 楊呈永.物聯(lián)網(wǎng)虛假數(shù)據(jù)特征自適應檢測方法仿真[J].計算機仿真,2017,34(4):276?279.
YANG Chengyong. Simulation of false data feature adaptive detection in Internet of Things [J]. Computer simulation, 2017, 34(4): 276?279.
[5] HERMANTO A, ADJI T B, SETIAWAN N A. Recurrent neural network language model for English?Indonesian machine translation: experimental study [C]// Proceedings of International Conference on Science in Information Technology. Yogyakarta: IEEE, 2016: 132?136.
[6] ESCOLANO C, COSTA?JUSS? M R, FONOLLOSA J A R. The TALP?UPC neural machine translation system for German/Finnish?English using the inverse direction model in rescoring [C]// Proceedings of 2nd Conference on Machine Translation. Copenhagen: Association for Computational Linguistics, 2017: 283?287.
[7] BASTAN M, KHADIVI S, HOMAYOUNPOUR M M. Neural machine translation on scarce?resource condition: a case?study on Persian?English [C]// Proceedings of Iranian Conference on Electrical Engineering. Tehran: IEEE, 2017: 1485?1490.
[8] 胡濱.基于信息共享空間的科技博物館服務模式創(chuàng)新[J].科技通報,2015,31(11):277?282.
HU Bin. Innovation in service model of science and technology museum based on information commons [J]. Bulletin of science and technology, 2015, 31(11): 277?282.
[9] 何向真,萬福成,于洪志,等.基于藏語語義分析的機器翻譯技術研究[J].計算機工程與應用,2015,51(15):134?137.
HE Xiangzhen, WAN Fucheng, YU Hongzhi, et al. Machine translation technology based on Tibetan semantic parsing [J]. Computer engineering and applications, 2015, 51(15): 134?137.
[10] 高鵬,黃瑛.礦物加工工程英語的特征及翻譯[J].中國科技翻譯,2016,29(2):15?18.
GAO Peng, HUANG Ying. The characteristics and translation of mineral processing engineering English [J]. Chinese science & technology translators journal, 2016, 29(2): 15?18.