王 雪,王 娟,胡仁青
(西安交通工程學院,陜西西安 710300)
隨著全球化進程的加快,智能翻譯技術的飛速發(fā)展,機器英語翻譯已漸漸取代人工英語翻譯[1-2]。機器英語翻譯需通過特征分析以及語義識別方式利用機器識別方法抽取英語語句前后文以及上下文語義信息,合理組織翻譯內容,獲取最終英語翻譯結果[3-4],令英語翻譯更加自動化以及智能化。近年來眾多研究學者致力于機器翻譯領域的研究[5-7],黨莎莎等人設計了基于改進GLR 算法的智能識別英語翻譯模型[8];陳祖君研究了基于神經(jīng)網(wǎng)絡機器翻譯模型的英文分詞[9],可完成英語翻譯,但翻譯結果的BLEU值較低,影響其應用性能。
為了挖掘語料內所包含的鄰域信息,提升平行語料的可利用性以及機器英語翻譯模型的適應力,提出了基于數(shù)據(jù)挖掘的機器英語翻譯模型,并對模型的性能進行了分析。
該文首要研究平行語料主題挖掘的語料聚類問題,通過挖掘文本中主題信息實現(xiàn)文本軟聚類目的[10]。將所挖掘主題信息的新短語翻譯加入到所建立的翻譯模型中,提升翻譯性能。LDA 模型是可挖掘大規(guī)模語料庫內蘊含主題信息的重要模型,該模型將文檔看作是包含很多數(shù)量的主題,主題通過詞表的多項式分布進行描述[11]。LDA 模型為包含三層內容的生成式概率模型,用dj表示語料庫內的文檔,利用該模型生成語料內各文本的步驟如下:
1)用θ-Dir(α)表示待選取主題的分布參數(shù);
2)用wji表示文檔中的詞時,需進行以下處理:
①選取topiczji-Multinomial(θ);
②選取詞wji于概率分布內,其中topiczji下的多項式概率分布為p,參數(shù)α的狄利克雷分布用Dir(α)表示,可得其概率密度函數(shù)如下:
分析以上過程可知,挖掘文本中主題信息首先需要判斷文檔集合內各文檔的不同主題所占比例,依據(jù)概率從主題分布內采樣其中的具體主題[12],抽樣該主題相應詞表的多項式分布,獲取具體單詞結果。
挖掘文本中主題信息的LDA 概率圖模型如圖1所示。
圖1 LDA概率圖模型
文檔中的單詞即可觀測變量,用w表示,其余均為隱含變量,矩形框以及框內字母表示重復采樣以及采樣次數(shù)[13]。文檔內各單詞均具有僅屬于自身的主題z,一篇文檔中包含單詞數(shù)量為N時,語料庫內包含文檔數(shù)量為D,α與β均為狄利克雷分布的先驗參數(shù),分別對應主題分布空間采樣獲取topic 分布和某個多項式分布從詞表采樣分布。θ與φ分別表示文檔內由參數(shù)所獲取的具體主題分布參數(shù)以及各主題內單詞分布參數(shù)[14]。
在上述分析的基礎上,該文基于所挖掘平行語料主題信息完成英語文章翻譯,利用極大似然估計方法處理目標語言單語語料,并將平行語料作為訓練目標,通過重要性采樣方法以及全概率公式估計目標語言單語語料似然建立機器英語翻譯模型[15]。
用X表示源語言空間,Y表示目標語言空間,將X作為輸入樣本,利用機器翻譯模型將輸入樣本X映射至Y內。利用條件概率分布Pθ(y|x)表示機器翻譯模型,其中θ表示模型參數(shù)。設標準監(jiān)督訓練中存在具有N個句子對的平行語料,用B=(x(n),y(n))表示,n=1,2,…,N??傻美米畲蠡叫姓Z料似然學習獲取的機器翻譯模型如下:
最大化單語數(shù)據(jù)樣本似然是常應用于機器學習中的單語數(shù)據(jù)樣本處理方法,將該方法應用于半監(jiān)督機器翻譯中。設平行語料中包含目標語言句子的單語語料M=ys,s=1,2,…,S,可同時最大化單語語料以及平行語料的似然,并其作為機器翻譯的訓練目標,如式(4)所示:
式中,Ls(θ)表示目標函數(shù),第一項以及第二項分別為平行語料似然以及目標語言端單語語料似然,λ表示平衡似然函數(shù)的超參數(shù)。
全概率公式如下:
引入機器翻譯模型對式(4)進行轉換,得到目標訓練公式如下:
計算單語語料M內隨機句子y的期望值,優(yōu)化訓練目標,在全部搜索空間內利用蒙特卡洛方法采樣樣本近似估計期望值。對P(x)進行采樣,獲取的句子數(shù)量為K,此時可得期望值的經(jīng)驗估計計算結果為
利用反向機器翻譯模型P(x|y)獲取相關源語言語句x,在Pθ(y|x)值為最大的條件下獲取單語語料似然的估計項在訓練目標中較為有效。
式(7)將系數(shù)與Pθ(y|x)相乘,將分布P(x)采樣利用分布P(x|y)采樣代替,該過程為重要性采樣,可得的重要性采樣估計公式為:
選取束搜索方法采樣獲取估算期望值,可得最終半監(jiān)督神經(jīng)機器翻譯訓練目標公式如下:
訓練過程開始前,利用翻譯模型P(x|y)對目標語言單語語料內各句子進行采樣,得到源句子數(shù)量,選取批量梯度下降方法,利用平行語料B內數(shù)量為b的句子以及單語語料M內的數(shù)量為m的句子參與訓練,并每次都進行更新,依據(jù)訓練目標獲取參數(shù)θ的梯度并更新該參數(shù)θ。至此,完成模型訓練后即可利用該模型實現(xiàn)機器翻譯模型的英語翻譯。
為測試該文方法在提高機器英語翻譯性能方面的有效性,在上述基礎上進行對比實驗。選取NUCLE、Supervised、CoNLL、JFLEG、Lang-8 語料庫作為所研究模型的測試數(shù)據(jù)集,5 個語料庫內各包含文章數(shù)為1 397篇、5 874篇、100篇、18 564篇以及9 654篇,各語料庫包含的句對數(shù)分別為58 265 個、85 645 個、2 854 個、5 221 145 個以及215 467 個,語料庫內包含體育、軍事、經(jīng)濟、教育、科技、社會6 種不同類型的文章。
選取GLR 模型[8]以及神經(jīng)網(wǎng)絡模型[9]作為對比模型。選取翻譯精度、語義信息召回率、主題詞的特征匹配度、F1 值、BLEU 值、GLEU 值作為衡量機器英語翻譯性能的評價指標。主題詞的特征匹配度是衡量源語言以及目標語言匹配程度的重要指標;BLEU值是應用于翻譯效果評價的可衡量大小寫敏感的指標,采用multi-bleu.perl 腳本計算翻譯結果的BLEU值,BLEU 值越高,表示機器英語翻譯模型的翻譯效果越好。GLEU 值是機器翻譯評價指標BLEU 的變體,該值常應用于機器翻譯評價中,GLEU 值可有效衡量機器翻譯后語句的流利度。
采用3 種模型翻譯不同語料庫內語句結果的翻譯精度結果如圖2 所示[16]。分析圖2 實驗對比結果可知,采用該文模型翻譯不同語料庫內語句翻譯精度均高于98%;采用GLR 模型以及神經(jīng)網(wǎng)絡模型翻譯不同語料庫內語句的翻譯精度均低于97%。采用該文模型翻譯不同語料庫內語句的翻譯精度明顯高于其他兩種模型。
圖2 翻譯精度對比
采用3 種模型翻譯不同語料庫內語句結果的語義信息召回率對比結果如圖3 所示。分析圖3 實驗對比結果可知,采用該文模型翻譯不同語料庫內語句的語義信息召回率均高于96%;采用GLR 模型以及神經(jīng)網(wǎng)絡模型翻譯不同語料庫內語句的語義信息召回率均低于93%。采用該文模型翻譯不同語料庫內語句的語義信息召回率明顯高于其他兩種模型。
圖3 語義信息召回率對比
采用3 種模型翻譯不同語料庫內語句主題詞的特征匹配度對比結果如圖4 所示。分析圖4 實驗對比結果可知,采用該文模型翻譯不同語料庫內語句主題詞的特征匹配度均高于90%;采用GLR 模型以及神經(jīng)網(wǎng)絡模型翻譯不同語料庫內主題詞的特征匹配度均低于85%。采用該文模型翻譯不同語料庫內語句主題詞的特征匹配度明顯高于其他兩種模型。
圖4 特征匹配度對比
采用3 種模型翻譯不同語料庫內語句結果的F1值對比結果如圖5 所示。分析圖5 實驗對比結果可知,采用該文模型翻譯不同語料庫內語句的F1 值均高于0.8;采用GLR 模型以及神經(jīng)網(wǎng)絡模型翻譯不同語料庫的F1 值均低于0.7。采用該文模型翻譯不同語料庫內語句的F1 值明顯高于其他兩種模型。
圖5 F1值對比結果
采用3 種模型翻譯不同語料庫內語句結果的BLEU 值對比結果如圖6 所示。分析圖6 實驗對比結果可知,采用該文模型翻譯不同語料庫內語句的BLEU 值均高于26;采用GLR 模型以及神經(jīng)網(wǎng)絡模型翻譯不同語料庫的BLEU 值均低于25。采用該文模型翻譯不同語料庫內語句的BLEU 值明顯高于其他兩種模型。
圖6 BLEU值對比結果
采用3 種模型翻譯不同語料庫內語句結果的GLEU 值對比結果如圖7 所示。分析圖7 實驗對比結果可知,采用該文模型翻譯不同語料庫內語句的GLEU 值均高于58;采用GLR 模型以及神經(jīng)網(wǎng)絡模型翻譯不同語料庫的GLEU 值均低于56。采用該文模型翻譯不同語料庫內語句的GLEU 值明顯高于其他兩種模型。
圖7 GLEU值對比結果
綜合分析圖2-7 實驗結果可知,采用該文模型翻譯不同語料庫的各項指標均明顯優(yōu)于GLR 模型以及神經(jīng)網(wǎng)絡模型。采用該文模型翻譯英語具有較高的語義特征匹配性能,翻譯結果具有較高的合理性以及整體性,可有效提升英語翻譯結果的準確率。該文模型英語翻譯結果具有較高的語義信息召回率,說明該文模型具有較高的上下文映射能力,提升了英語翻譯的整體質量。
為了提升機器英語翻譯的有效性以及翻譯精度,該文研究了基于數(shù)據(jù)挖掘的機器英語翻譯模型,首先采用數(shù)據(jù)挖掘方法充分挖掘平行語料內的鄰域信息,利用所挖掘鄰域信息提升機器英語翻譯的翻譯精度。通過模型測試驗證了該模型具有較好的英語翻譯效果,所獲取的翻譯結果語義信息具有較高的召回性以及較高的主題詞特征匹配度,證明了所研究模型具有較高的翻譯準確性以及翻譯合理性。