趙足娥 李培隆
摘 要: 針對(duì)傳統(tǒng)英文機(jī)器翻譯過(guò)于依賴專家總結(jié),而對(duì)弱化規(guī)則下英文翻譯誤差大的缺點(diǎn),提出一種基于弱化語(yǔ)法規(guī)則的英文機(jī)器翻譯優(yōu)化算法。該算法對(duì)英文的語(yǔ)法規(guī)則進(jìn)行分析,再對(duì)語(yǔ)義進(jìn)行高斯邊緣化獲取其矩形窗函數(shù),得到窗口特征向量,投影語(yǔ)義信息熵?cái)?shù)據(jù),并將語(yǔ)義關(guān)聯(lián)因素加入到文本的信息熵與信息增益中去,從而得到語(yǔ)義非線性譜特征。最終實(shí)現(xiàn)特征識(shí)別,解決了傳統(tǒng)英文機(jī)器翻譯誤差大的問(wèn)題。最后對(duì)提出的算法進(jìn)行仿真驗(yàn)證,結(jié)果表明使用該算法可以得到較好的英文翻譯效果,從而證明了該算法的發(fā)展空間較好。
關(guān)鍵詞: 英文機(jī)器翻譯; 弱化語(yǔ)法規(guī)則; 信息熵; 特征識(shí)別
中圖分類號(hào): TN911?34; TP393 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)22?0027?03
Abstract: An English machine translation optimization algorithm based on weakening grammar rules is proposed in this paper, which aims at the shortcomings of large error of English translation under weakening grammar rules and too much dependence on expert summary in traditional English machine translation methods. The English grammatical rules are analyzed with the algorithm. and then obtains the rectangular window function by Gaussian peripherization of the semantics is carried out to obtain the rectangular window function, window feature vector and project semantic information entropy data, and add the semantic association factor to the information entropy and information gain of the text. And the semantic non?linear spectrum feature is obtained, and the feature recognition is finally realized, which solves the problem of large error in traditional English machine translation. The simulation results of the proposed algorithm show that the algorithm can obtain better English translation effect, which proves that the proposed algorithm has better development space.
Keywords: English machine translation; weakening grammar rule; information entropy; feature recognition
早在20世紀(jì)40年代隨著計(jì)算機(jī)技術(shù)的發(fā)展出現(xiàn)了機(jī)器翻譯,其是以計(jì)算機(jī)為平臺(tái),將一種語(yǔ)言翻譯成另一種語(yǔ)言[1?3]。但傳統(tǒng)英文機(jī)器翻譯過(guò)于依賴專家總結(jié),而對(duì)弱化規(guī)則下英文翻譯存在誤差大的缺點(diǎn)[4?6]。為了對(duì)該種情況進(jìn)行改進(jìn),諸多文獻(xiàn)提出了解決方案[7?9],但大多存在擴(kuò)展性差、翻譯誤差大的缺點(diǎn)。本文基于對(duì)英文語(yǔ)法規(guī)則的分析,提出了一種基于弱化語(yǔ)法規(guī)則的英文機(jī)器翻譯優(yōu)化算法。該算法對(duì)語(yǔ)義進(jìn)行高斯邊緣化獲取其矩形窗函數(shù),得到窗口特征向量,投影語(yǔ)義信息熵?cái)?shù)據(jù),并將語(yǔ)義關(guān)聯(lián)因素加入到文本的信息熵與信息增益中去,從而得到語(yǔ)義非線性譜特征。最終實(shí)現(xiàn)特征識(shí)別,解決了傳統(tǒng)英文機(jī)器翻譯誤差大的問(wèn)題。
1 英文機(jī)器翻譯原理
英文機(jī)器翻譯首先需要對(duì)翻譯的源語(yǔ)句進(jìn)行語(yǔ)義分析,然后按照語(yǔ)法轉(zhuǎn)換規(guī)則對(duì)與源語(yǔ)句中短語(yǔ)相對(duì)應(yīng)的英文短語(yǔ)進(jìn)行連接,并選擇組合英文短語(yǔ)完成譯文輸出,即完成翻譯。其具體步驟如下:設(shè)源語(yǔ)句集合為T,Ti為切分后源語(yǔ)句,源語(yǔ)句短語(yǔ)可翻譯的種類為j,則源語(yǔ)句與譯文中短語(yǔ)鏈接為:
上述原理可以有效地完成英文翻譯,但大多數(shù)翻譯獲取語(yǔ)法規(guī)則過(guò)于依賴專家總結(jié),存在較大誤差。
2 弱化語(yǔ)法規(guī)則下英文機(jī)器翻譯改進(jìn)算法
2.1 語(yǔ)法特征選擇
對(duì)英文機(jī)器翻譯進(jìn)行優(yōu)化,先對(duì)英文語(yǔ)法規(guī)則進(jìn)行分析,并對(duì)語(yǔ)義進(jìn)行高斯邊緣化獲取其矩形窗函數(shù),得到窗口特征向量,然后投影語(yǔ)義信息熵?cái)?shù)據(jù),具體步驟如下:
設(shè)兩個(gè)語(yǔ)義特征轉(zhuǎn)換成的有向圖為G1和G2,兩者的交集為Gc,得到i時(shí)刻翻譯英文輸入變量,用{xi1, xi2,…,xim}表示,對(duì)應(yīng)的語(yǔ)句類型為yi,則英文翻譯整體準(zhǔn)則為:[zmar=max-yi?xi1,xi2,…,ximGc?G1,G2iZxyfy1,y2] (4)
式中:Zxy為句子之間的映射關(guān)系;f(y1,y2)為句子與句子之間的聯(lián)合概率密度函數(shù)。
將水平特征量聚點(diǎn)的思想融合進(jìn)去,構(gòu)建特征識(shí)別數(shù)學(xué)模型,用式(5)進(jìn)行表達(dá)。其是由中心語(yǔ)驅(qū)動(dòng)的,其中切分出來(lái)的短語(yǔ)不同時(shí)態(tài)的翻譯為f(x1,x2,…,
2.2 英文機(jī)器翻譯優(yōu)化endprint
基于弱化語(yǔ)法規(guī)則的英文機(jī)器翻譯優(yōu)化將語(yǔ)義關(guān)聯(lián)因素加入到文本的信息熵與信息增益中去,從而得到語(yǔ)義非線性譜特征,最終實(shí)現(xiàn)特征識(shí)別,具體步驟如下:
向量空間中的n維向量用di表示,文檔中出現(xiàn)詞語(yǔ)的次數(shù)用tf表示,idf為反文檔頻率,則語(yǔ)義的特征權(quán)值為式(9),文本中各信息增益為式(10)。
3 仿真證明
3.1 基于不同算法英文機(jī)器翻譯的準(zhǔn)確性
為了證明本文提出算法的有效性,基于Windows搭建翻譯平臺(tái),從《人民日?qǐng)?bào)》摘取800句中文語(yǔ)句作為測(cè)試數(shù)據(jù),并將機(jī)器翻譯結(jié)果與專業(yè)英語(yǔ)教師給出的譯文進(jìn)行比較。分別利用本文算法與文獻(xiàn)[9]中的算法進(jìn)行實(shí)驗(yàn)比較,翻譯結(jié)果的詞錯(cuò)誤率與切分錯(cuò)誤率如圖1、圖2所示。
3.2 基于不同算法英文機(jī)器翻譯的特征識(shí)別效果對(duì)比
比較本文算法與文獻(xiàn)[9]的算法翻譯結(jié)果的語(yǔ)義特征識(shí)別、分類效果,兩者的對(duì)比圖如圖3、圖4所示。
從圖1~圖4中可看出,本文提出的算法詞錯(cuò)誤率與切分錯(cuò)誤率均低于文獻(xiàn)[9]中的算法,特征識(shí)別與分類效果也優(yōu)于文獻(xiàn)[9],從而較好地證明了本文提出算法的整體有效性。
4 結(jié) 語(yǔ)
針對(duì)傳統(tǒng)英文機(jī)器翻譯過(guò)于依賴專家總結(jié),而對(duì)弱化規(guī)則下英文翻譯誤差大的缺點(diǎn),本文提出一種基于弱化語(yǔ)法規(guī)則的英文機(jī)器翻譯優(yōu)化算法。該算法對(duì)英文的語(yǔ)法規(guī)則進(jìn)行分析,再對(duì)語(yǔ)義進(jìn)行高斯邊緣化獲取其矩形窗函數(shù),得到窗口特征向量,投影語(yǔ)義信息熵?cái)?shù)據(jù),并將語(yǔ)義關(guān)聯(lián)因素加入到文本的信息熵與信息增益中去,從而得到語(yǔ)義非線性譜特征。最終實(shí)現(xiàn)特征識(shí)別,解決了傳統(tǒng)英文機(jī)器翻譯誤差大的問(wèn)題。本文最后對(duì)提出的算法進(jìn)行仿真驗(yàn)證,其結(jié)果表明使用該算法可得到較好的英文翻譯效果,從而證明本算法發(fā)展空間良好。
注:本文通訊作者為李培隆。
參考文獻(xiàn)
[1] 粟千.弱化語(yǔ)法規(guī)則下英文機(jī)器翻譯的優(yōu)化仿真[J].計(jì)算機(jī)仿真,2016,33(11):414?417.
[2] 趙丹培,肖騰蛟,史駿,等.基于顯著語(yǔ)義模型的機(jī)場(chǎng)與油庫(kù)目標(biāo)的識(shí)別方法[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2014,26(1):47?55.
[3] 張明,王燕,盧清.一種基于語(yǔ)義特征的快速人臉檢索方法[J].重慶工商大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,31(2):56?60.
[4] 劉琦,肖仰華,汪衛(wèi).一種面向海量中文文本的典型類屬關(guān)系識(shí)別方法[J].計(jì)算機(jī)工程,2015,41(2):26?30.
[5] 朱銘武,韓軍,陸冬明,等.自然場(chǎng)景中基于局部輪廓特征的對(duì)象識(shí)別方法[J].計(jì)算機(jī)工程與應(yīng)用,2016,52(1):162?167.
[6] 馬彬,洪宇,楊雪蓉,等.基于推理線索構(gòu)建的事件關(guān)系識(shí)別方法[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,50(1):133?141.
[7] 賈霞光.支持多語(yǔ)義層次的短文本特征提取及其分類技術(shù)[D].沈陽(yáng):東北大學(xué),2014.
[8] 王哲.特征空間互信息區(qū)域劃分語(yǔ)義離散度增強(qiáng)算法[J].計(jì)算機(jī)仿真,2015,32(5):266?269.
[9] 李朝印.基于本體的語(yǔ)義檢索技術(shù)研究與實(shí)現(xiàn)[D].西安:西安電子科技大學(xué),2014.endprint