亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        調(diào)序規(guī)則表的深度過濾研究*

        2017-06-05 15:05:51孔金英楊雅婷羅延根
        計算機與生活 2017年5期
        關(guān)鍵詞:解碼語料分類器

        孔金英,李 曉,王 磊,楊雅婷+,羅延根

        1.中國科學(xué)院 新疆理化技術(shù)研究所,烏魯木齊 830011

        2.新疆民族語音語言信息處理重點實驗室,烏魯木齊 830011

        3.中國科學(xué)院大學(xué),北京 100049

        調(diào)序規(guī)則表的深度過濾研究*

        孔金英1,2,3,李 曉1,2,王 磊1,2,楊雅婷1,2+,羅延根1,3

        1.中國科學(xué)院 新疆理化技術(shù)研究所,烏魯木齊 830011

        2.新疆民族語音語言信息處理重點實驗室,烏魯木齊 830011

        3.中國科學(xué)院大學(xué),北京 100049

        機器翻譯系統(tǒng)中調(diào)序規(guī)則表和翻譯表一般規(guī)模都很大,對翻譯表進(jìn)行優(yōu)化過濾一直都是研究熱點,而過濾調(diào)序規(guī)則表的研究卻近乎空白。將調(diào)序規(guī)則表的過濾當(dāng)成短文本分類問題,提出了一種基于自動編碼機(Autoencoder)的調(diào)序規(guī)則表過濾模型。該模型首先使用一種基于自動編碼機的分類器對調(diào)序規(guī)則進(jìn)行打分評價,然后對調(diào)序規(guī)則表進(jìn)行基于最小差異策略的過濾,最后使用過濾得到的調(diào)序規(guī)則表重新計算調(diào)序規(guī)則得分表用于機器翻譯的解碼過程。實驗表明,在公開的英漢語料和維漢語料上使用該模型,可以在調(diào)序規(guī)則表減少40%的基礎(chǔ)上分別將BLEU(bilingual evaluation understudy)值提高0.19和0.26。

        自動編碼機;過濾模型;調(diào)序規(guī)則表;機器翻譯

        1 引言

        在基于短語的統(tǒng)計機器翻譯系統(tǒng)中,人們都是從詞對齊的結(jié)果中抽取短語對齊表和調(diào)序規(guī)則表[1],然后在此基礎(chǔ)上可以得到用于解碼的短語對齊得分表和調(diào)序規(guī)則得分表,前者可以稱為翻譯模型,后者可以稱為調(diào)序模型。加之訓(xùn)練好的語言模型[2],一個完備的機器翻譯系統(tǒng)就可以進(jìn)行解碼輸出了。

        對于語言模型的研究,應(yīng)該來說是十分廣泛的。這是因為語言模型不僅可以應(yīng)用于機器翻譯中,同時也可以應(yīng)用于自然語言處理的其他領(lǐng)域。同樣的,翻譯模型作為機器翻譯的基本組成部分,對其研究一直以來都是熱點問題。從最初的基于詞的翻譯模型[3],到現(xiàn)在最新提出的基于神經(jīng)網(wǎng)絡(luò)的翻譯模型[4],機器翻譯系統(tǒng)的性能也是越來越好。本文研究的對象是調(diào)序模型,其用于保證譯文的正確順序??偨Y(jié)統(tǒng)計機器翻譯的發(fā)展歷程,可以明顯地發(fā)現(xiàn)其與機器學(xué)習(xí)的發(fā)展是緊密聯(lián)系的。

        近幾年,基于深度神經(jīng)網(wǎng)絡(luò)的機器學(xué)習(xí)模型在其應(yīng)用的很多領(lǐng)域,都有很大的突破。無論是在圖像識別領(lǐng)域,還是語音識別領(lǐng)域,基于深度神經(jīng)網(wǎng)絡(luò)的機器學(xué)習(xí)模型已經(jīng)占據(jù)了主導(dǎo)地位。這自然吸引了廣大學(xué)者將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于自然語言處理領(lǐng)域。但是語言文字作為人腦形成的高級符號,在應(yīng)用深度學(xué)習(xí)方面的成就還不如語音和圖像。目前在自然語言處理領(lǐng)域應(yīng)用的比較廣泛的有自動編碼機(Autoencoder)[5]、長短時記憶(long short term memory,LSTM)神經(jīng)網(wǎng)絡(luò)[6]、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[7]等。其中,自動編碼機因其計算量相對較小,在自然語言處理方面也有著不錯的表現(xiàn),已經(jīng)吸引了越來越多的研究者的注意。

        本文利用自動編碼機模型良好的特征抽象性,對機器翻譯中的調(diào)序規(guī)則表(如圖1所示)進(jìn)行學(xué)習(xí),然后添加Softmax層。使用該模型對調(diào)序規(guī)則表進(jìn)行重新得分評估,最后過濾掉錯誤的和含噪音的調(diào)序規(guī)則。使用本方法過濾后的調(diào)序規(guī)則表重新計算調(diào)序規(guī)則得分表,可以加快機器翻譯最終的解碼速度和提升最終的翻譯結(jié)果。

        Fig.1 Reordering table in Moses圖1 Moses系統(tǒng)中的調(diào)序規(guī)則表

        本文組織結(jié)構(gòu)如下:第1章主要介紹研究背景;第2章是與本文相關(guān)的工作情況,描述目前的一些代表性調(diào)序模型研究工作;第3章講解基于自動編碼機的調(diào)序規(guī)則過濾模型;第4章是實驗部分;第5章對本文工作進(jìn)行總結(jié)和對未來工作進(jìn)行展望。

        2 相關(guān)工作

        對機器翻譯系統(tǒng)自動生成的短語表進(jìn)行優(yōu)化過濾,是機器翻譯的研究者們經(jīng)常關(guān)注的問題。北京交通大學(xué)的殷樂等人[8]提出了一種基于虛擬上下文的短語表過濾方法;蘇州大學(xué)的狄萍等人[9]提出了C-value以及短語粘結(jié)度兩種短語表過濾方法;谷歌的Zens等人[10]提出了一種基于聲學(xué)理論基礎(chǔ)的短語表剪枝方法。調(diào)序模型相比較翻譯模型更為簡單、獨立,調(diào)序規(guī)則表的過濾方法鮮有學(xué)者們提出。

        統(tǒng)計機器翻譯中的調(diào)序模型從最簡單的長度懲罰模型,到各種復(fù)雜的基于調(diào)序定向和神經(jīng)網(wǎng)絡(luò)的模型,總體來說可以分為3種類型:第一種類型奉行的是簡單至上,他們相信語言模型和翻譯模型可以很好地完成機器翻譯中的調(diào)序任務(wù),而不愿意使用復(fù)雜調(diào)序模型。該類方法的代表工作是Och等人[11]提出的簡單的基于調(diào)序長度懲罰的模型,該模型實現(xiàn)簡單,目前Moses系統(tǒng)中的默認(rèn)調(diào)序操作仍是基于此類方法。第二種類型是目前主流的方法,他們往往具有復(fù)雜的調(diào)序定向類型和判定調(diào)序定向的方法。關(guān)于判定調(diào)序定向的方法也從簡單最大似然方法[12]到基于最大熵的機器學(xué)習(xí)模型[13],清華大學(xué)的李鵬等人[14]在2013年提出了一種利用深度神經(jīng)網(wǎng)絡(luò)的方法判定調(diào)序定向。第三種調(diào)序模型則是針對各個不同語種間機器翻譯的基于語法和句法規(guī)則的調(diào)序模型。這種方法一般是在解碼階段,利用語法規(guī)則對譯文的輸出順序加以限制,有點類似于基于規(guī)則的機器翻譯方法。比如中科院計算所的肖欣延等人[15]和MIT的王超等人[16]都利用了漢語的句法信息進(jìn)行調(diào)序指導(dǎo)。

        本文提出用過濾調(diào)序規(guī)則表的方法來提高機器翻譯最終的調(diào)序能力。本文的研究對象屬于第二種類型,也是現(xiàn)在使用和研究得最為廣泛的調(diào)序模型。這種調(diào)序模型包含兩個要素:調(diào)序定向和調(diào)序定向概率得分。調(diào)序定向指的是給定兩個相鄰的雙語句對,對雙語句對操作順序進(jìn)行判定。較為常用的調(diào)序定向有單調(diào)操作(monotone)和交換操作(swap)以及非連續(xù)(discontinuous),而非連續(xù)也可以被細(xì)分為交換的非連續(xù)操作(discontinuous swap)和單調(diào)的非連續(xù)操作(discontinuous monotone)。如圖2給出的是當(dāng)前短語與前一個短語的調(diào)序定向圖,比如圖中“minister”與其前面短語的調(diào)序定向操作是單調(diào)操作。式(1)為規(guī)定了4種定向的調(diào)序模型,分別是monotone、swap、discontinuous monotone、discontinuous swap。其中M操作是因為b2短語的首個單詞r1在源語言中的順序比b1短語在源語言的末尾單詞rl大1,其他幾個式子類似。式(1)的第三條準(zhǔn)則和第四條準(zhǔn)則合并起來就是非連續(xù)操作。調(diào)序定向概率得分經(jīng)歷了從最初簡單的累加平滑后以規(guī)則的計數(shù)來計算概率,到后來利用樸素貝葉斯或者最大熵等機器學(xué)習(xí)模型,再到最近的利用深度神經(jīng)網(wǎng)絡(luò)。

        因為沒有模型依賴性,本文提出的基于自動編碼機的調(diào)序規(guī)則過濾模型有效地屏蔽了各個調(diào)序模型差異化的問題。本文在各個調(diào)序模型抽取調(diào)序規(guī)則實例的基礎(chǔ)上,對調(diào)序?qū)嵗@一機器學(xué)習(xí)模型進(jìn)行訓(xùn)練的對象加以優(yōu)化,從而在減少解碼時間的同時可以提高最后的翻譯性能。

        Fig.2 An example of reordering圖2 一個調(diào)序定向的例子

        3 基于自動編碼機的調(diào)序規(guī)則過濾模型

        基于自動編碼機的調(diào)序規(guī)則過濾模型的工作流程如圖3所示。首先,對調(diào)序規(guī)則表進(jìn)行文本預(yù)處理,得到用于適合訓(xùn)練的數(shù)據(jù)集。接下來使用基于自動編碼機的分類器對原始的調(diào)序規(guī)則進(jìn)行調(diào)序定向得分的分配,最后執(zhí)行基于最小差異的過濾策略,選出最終的調(diào)序規(guī)則。以下首先介紹針對調(diào)序規(guī)則表的文本預(yù)處理,然后描述基于噪音稀疏自動編碼機的分類器的構(gòu)造過程,最后闡述基于最小差異的過濾策略。

        Fig.3 Work flow of reordering table filtering model based onAutoencoder圖3 基于自動編碼機的調(diào)序規(guī)則表過濾模型工作流程

        3.1 文本預(yù)處理

        如圖1所示,以Moses系統(tǒng)為例,打開該系統(tǒng)的調(diào)序規(guī)則表,這些規(guī)則都是從質(zhì)量不一的語料上抽取得到的,因此這是一個十分冗余和龐大的文本數(shù)據(jù)。另外,自動編碼機的計算量相對一般的機器學(xué)習(xí)方法較大,過大的訓(xùn)練集很容易導(dǎo)致計算量爆炸的問題,因此在訓(xùn)練自動編碼機模型之前,需要對調(diào)序規(guī)則表做一些預(yù)處理。觀察各個模型得到的調(diào)序規(guī)則表,本文總結(jié)出一般的調(diào)序規(guī)則表有以下特點:

        (1)相同的規(guī)則很多,約占到總數(shù)量的10%。

        (2)短規(guī)則多,很多可以歸并到相應(yīng)的長規(guī)則中,短語長度在5以下的規(guī)則占了總量的近八成(短語長度限制為7的情況)。

        (3)存在大量的噪音數(shù)據(jù)和無效數(shù)據(jù)。

        (4)存在調(diào)序規(guī)則定向錯誤的情況。

        根據(jù)以上(1)到(3)條描述,本文對調(diào)序規(guī)則表做如下的處理:

        (1)在每條調(diào)序規(guī)則的基礎(chǔ)上增加一個字段,用以記錄該規(guī)則的數(shù)量。

        (2)刪除多余的調(diào)序規(guī)則,僅保留一條,并記錄下該規(guī)則被刪前的總數(shù)量。

        (3)將短規(guī)則歸并到相應(yīng)的長規(guī)則中,同時在長規(guī)則的總數(shù)量中加上歸并的短規(guī)則數(shù)量。比如R1={A,B,O1,O2},R2={XA,XB,O3,O2},其中O1=M表示與前面短語對是單調(diào)順序,則R1∈R2,刪除R1,并將R2的總數(shù)量加1。之所以做這一步處理,是因為本文所使用的自動編碼機模型將每個單詞視為一個向量,在訓(xùn)練長句的時候也可以一并學(xué)習(xí)到其中包含的子句知識。表1是本文列出的可以進(jìn)行歸并的規(guī)則,其中O1表示當(dāng)前短語對與前面短語對的順序,而O2表示當(dāng)前短語對與下一個短語對的順序。

        Table 1 Merging rules of reordering table表1 調(diào)序規(guī)則表合并準(zhǔn)則

        判斷調(diào)序規(guī)則表中出現(xiàn)的調(diào)序規(guī)則定向的錯誤是本文研究的重點,接下來將詳細(xì)描述利用基于噪音稀疏的自動編碼機分類器對調(diào)序規(guī)則表進(jìn)行打分重排序,選擇出其中高質(zhì)量的調(diào)序規(guī)則表重新計算調(diào)序規(guī)則得分表用以最終的解碼。

        3.2 基于自動編碼機的調(diào)序規(guī)則分類模型

        對調(diào)序規(guī)則表中的調(diào)序規(guī)則進(jìn)行調(diào)序定向的判斷,是一個典型的分類問題。在一個調(diào)序定向是swap和monotone兩種順序的調(diào)序模型中,調(diào)序規(guī)則表有4種順序:“swap,monotone”、“monotone,swap”、“swap,swap”、“monotone,monotone”。此外,由于調(diào)序規(guī)則的文本大多在10個單詞以內(nèi),對調(diào)序規(guī)則表進(jìn)行定向概率得分的分配是一個短文本分類問題。短文本分類問題的難點在于其詞頻過低,用傳統(tǒng)的文本向量作為特征往往是高維且稀疏的,導(dǎo)致最后的結(jié)果并不好。

        自動編碼機能夠模仿人腦的機制,對高維的底層特征進(jìn)行非線性組合得到低維的抽象特征,是一種先進(jìn)的機器學(xué)習(xí)模型。本文首先使用Embedding技術(shù)對所有的詞語進(jìn)行詞向量化;然后通過添加L1范式以避免算法的過度擬合,同時對輸入的數(shù)據(jù)進(jìn)行加噪聲處理,這樣可以提高自動編碼機模型整體的魯棒性以及對調(diào)序規(guī)則的分類準(zhǔn)確性;最后在自動編碼機的頂端添加Softmax層用于分類。對本文模型的描述主要分為三部分:文本Embedding,基于噪音稀疏的自動編碼機,Softmax回歸。

        3.2.1 文本Embedding

        調(diào)序規(guī)則由源語言短語、目標(biāo)語言短語和調(diào)序定向組成。為了最大化地刻畫所有單詞對調(diào)序定向的影響,本文首先將所有的單詞進(jìn)行Embedding得到每個單詞對應(yīng)的向量表示。然后將所有的源語言單詞和目標(biāo)語言單詞按照順序合并成矩陣。最后加上該規(guī)則出現(xiàn)的次數(shù)t。這樣,每條調(diào)序規(guī)則都可以由一個矩陣x表示。每條規(guī)則對應(yīng)的調(diào)序定向本文用一個one-hot向量y進(jìn)行表示。在y中,取調(diào)序定向的值為1,其余為0。一個完整的規(guī)則Ri由式(2)和式(3)組成。

        式(2)中的ωi表示用向量表示的第i個單詞;t表示規(guī)則出現(xiàn)的次數(shù)。式(3)表示Ri對應(yīng)的調(diào)序定向是第一個規(guī)定的定向,y是維數(shù)根據(jù)調(diào)序模型規(guī)定的調(diào)序定向個數(shù)而調(diào)整的one-hot向量。

        3.2.2 基于噪音稀疏的自動編碼機

        基于噪音稀疏的自動編碼機在接受輸入后的工作流程如圖4所示,以下為詳細(xì)的步驟。

        (1)對輸入的向量進(jìn)行線性變化,本文選取logistic函數(shù)作為激活函數(shù),在此函數(shù)的基礎(chǔ)上可以得到編碼結(jié)果y。這一步稱為編碼,操作如式(4)所示。

        (2)編碼結(jié)果y在解碼器的作用下得到重構(gòu)的向量z。W是權(quán)重矩陣,WT是W的轉(zhuǎn)置,b和b′都是偏移向量。這一步稱為解碼,操作如式(5)所示。

        (3)利用正則化的損失函數(shù)評價z和x之間的相似度,這一步稱為評價,如式(6)。

        Fig.4 Work flow of denoising sparseAutoencoder圖4 基于噪音稀疏的自動編碼機工作流程圖

        (4)加入隨機噪音,同時循環(huán)迭代使用隨機梯度下降法優(yōu)化參數(shù),使z和x的損失函數(shù)L(x,z)最小,這一步稱為優(yōu)化,如式(8)所示,一般的迭代次數(shù)是50~80次。

        (5)經(jīng)過上述4個步驟得到的y就是抽取出來的特征向量。再將y加噪音作為輸入向量進(jìn)行編碼,循環(huán)進(jìn)行上述4個步驟的操作就是深度編碼機,深層網(wǎng)絡(luò)具有更好的降維和抽象特性。

        3.2.3 Softmax回歸

        在自動編碼機得到抽象向量后,本文添加了常用的Softmax函數(shù)作為分類層用于調(diào)序規(guī)則的分類,該層的神經(jīng)元個數(shù)就是調(diào)序模型中的調(diào)序定向個數(shù)。Softmax回歸是logistic回歸的多類推廣,其定義如式(9)所示:

        該函數(shù)輸出的每一個分量表示輸入數(shù)據(jù)對應(yīng)的一個調(diào)序定向類別概率值,取最大值為該實例的類標(biāo)。添加分類層后,本文用預(yù)先訓(xùn)練好的各層之間的權(quán)重作為初始權(quán)重,用最小化輸出概率和調(diào)序定向類別之間的監(jiān)督損耗來調(diào)整整個網(wǎng)絡(luò)的參數(shù),并通過反向傳播算法進(jìn)行網(wǎng)絡(luò)整體的優(yōu)化。圖5是基于自動編碼機的調(diào)序規(guī)則分類模型的整體流程示意圖。

        Fig.5 Classifier model for reordering rules based onAutoencode圖5 基于自動編碼機的調(diào)序規(guī)則分類模型

        3.3 基于最小差異的過濾策略

        經(jīng)過上一節(jié)的訓(xùn)練,可以得到一個基于自動編碼機的分類器。該分類器可以有效地給出雙語短語對的調(diào)序定向得分。本文定義的“調(diào)序操作準(zhǔn)確度”是一個衡量調(diào)序規(guī)則質(zhì)量的標(biāo)準(zhǔn),其定義如式(10)所示。式(10)中的max(scorei)表示分類器分配的最大得分,即分類器認(rèn)為最合理的調(diào)序定向操作。式(10)中的scorei(Os)表示調(diào)序規(guī)則i在原始調(diào)序規(guī)則表上的調(diào)序定向在分類器中的得分。換言之,“調(diào)序操作準(zhǔn)確度”指的是原始調(diào)序規(guī)則中的調(diào)序定向與分類器分配的調(diào)序定向的得分差值,當(dāng)這個差值為0時表明該條調(diào)序規(guī)則為最優(yōu),即原始調(diào)序規(guī)則表中的定向和分類器分配的調(diào)序定向是相同的。

        如規(guī)則R1在原始規(guī)則表中的順序是“monotone,monotone”,而使用自動編碼機分類器得到的最大得分的定向正好也是“monotone,monotone”,因此該規(guī)則的“調(diào)序操作準(zhǔn)確度”就是0,表明該規(guī)則是一條很好的規(guī)則。

        基于最小差異的過濾策略指的是使用基于自動編碼機的分類器計算出每條原始規(guī)則的“調(diào)序操作準(zhǔn)確度”,然后根據(jù)得分從小到大對調(diào)序規(guī)則進(jìn)行排序。最后,參考原始訓(xùn)練語料的好壞,選擇最后輸出的調(diào)序規(guī)則表的大小。一般情況下,選擇原始調(diào)序規(guī)則表大小的60%就可以達(dá)到或超過原始調(diào)序規(guī)則表的最終翻譯性能。

        4 實驗

        4.1 實驗設(shè)置

        把本文提出的調(diào)序規(guī)則表過濾方法應(yīng)用于實際的機器翻譯系統(tǒng)中,來驗證該方法的有效性。本文實驗中采用的語料全部來自于CWMT2015評測中的公開語料,選擇了英漢新聞領(lǐng)域和維漢新聞領(lǐng)域的部分語料作為實驗對象。因為本文過濾的調(diào)序規(guī)則是用于機器翻譯解碼的,所以將語料分為訓(xùn)練集、測試集和開發(fā)集。語料樣本情況如表2所示。

        Table 2 Size of corpus表2 語料大小情況

        本文使用的是基于Python的Theano庫開發(fā)的自動編碼機。實驗選擇的自動編碼機的網(wǎng)絡(luò)結(jié)構(gòu)是3000-1000-500-250-n,其包含兩個隱藏層的深度學(xué)習(xí)網(wǎng)絡(luò),每個隱藏層由500個單元組成,最后的輸出層單元數(shù)根據(jù)調(diào)序定向的類別而定。此外,在優(yōu)化參數(shù)的隨機梯度算法中,實驗選擇的學(xué)習(xí)速率是0.1,權(quán)值懲罰因子為0.000 2,最大迭代次數(shù)為50。

        關(guān)于機器翻譯實驗平臺,本文使用的是MOSES 2.1(http://www.statmt.org/moses/),操作系統(tǒng)是ubuntu 12.04。本文使用GIZA++(http://www.statmt.org/moses/ giza/GIZA++.html)開源工具包作為詞對齊工具,然后采用“grow-diag-final-and”策略獲得多對多的詞語對齊。本文的短語抽取限制的長度是7,采用的調(diào)序模型是各組實驗對比的變量。在調(diào)參過程中,使用的是最小錯誤訓(xùn)練方法優(yōu)化模型的參數(shù)。另外,使用SRILM(http://www.speech.sri.com/projects/srilm/)工具分別對訓(xùn)練集里的漢語語料進(jìn)行五元語言模型的訓(xùn)練,并用Kneser-Ney平滑估計參數(shù)。最后,采用了對大小寫不敏感的BLEU[17]作為機器翻譯最終結(jié)果的評測指標(biāo)。

        為了更清楚地對比各個方法的優(yōu)劣,本文設(shè)置了英漢和維漢兩大組實驗進(jìn)行對照,這兩組實驗的設(shè)置完全相同,分別設(shè)置了以下5小組實驗。

        (1)Baseline:使用系統(tǒng)中默認(rèn)的基于距離的調(diào)序模型進(jìn)行翻譯系統(tǒng)的訓(xùn)練,該組實驗因為沒有調(diào)序規(guī)則表產(chǎn)生,所以作為基線系統(tǒng)用于對比。

        (2)MSD:使用系統(tǒng)中的phrase-msd-bidirectionalfe選項作為調(diào)序模型進(jìn)行翻譯系統(tǒng)的訓(xùn)練。

        (3)MSD_F:使用系統(tǒng)中的phrase-msd-bidirectionalf選項作為調(diào)序模型進(jìn)行翻譯系統(tǒng)的訓(xùn)練,然后在原有調(diào)序規(guī)則表的基礎(chǔ)上分別使用本文方法過濾出原始規(guī)模80%、60%、40%的新調(diào)序規(guī)則表。最后分別利用這3個新調(diào)序規(guī)則表重新計算3個調(diào)序規(guī)則得分表用以解碼。

        (4)MSLR:使用系統(tǒng)中的phrase-mslr-bidirectionalf選項作為調(diào)序模型進(jìn)行翻譯系統(tǒng)的訓(xùn)練。

        (5)MSLR_F:使用系統(tǒng)中的phrase-mslr-bidirectional-fe選項作為調(diào)序模型進(jìn)行翻譯系統(tǒng)的訓(xùn)練,在調(diào)序規(guī)則表的基礎(chǔ)上分別使用本文方法過濾出原始規(guī)模80%、60%、40%的新調(diào)序規(guī)則表。最后分別利用這3個新調(diào)序規(guī)則表重新計算3個調(diào)序規(guī)則得分表用以解碼。

        4.2 結(jié)果分析

        表3和表4分別是英漢機器翻譯系統(tǒng)和維漢機器翻譯系統(tǒng)中各組實驗的BLEU得分。根據(jù)表3和表4的實驗數(shù)據(jù),本文可以得到這些結(jié)論。

        Table 3 Experimental result of English-Chinese machine translation system表3 英漢機器翻譯系統(tǒng)的實驗結(jié)果

        Table 4 Experimental result of Uyghur-Chinese machine translation system表4 維漢機器翻譯系統(tǒng)的實驗結(jié)果

        機器翻譯系統(tǒng)在使用了基于自動編碼機的調(diào)序規(guī)則過濾模型后都能夠在原有調(diào)序模型的基礎(chǔ)上提升最終的譯文質(zhì)量。其中翻譯規(guī)則表減少至原有的80%時BLEU值平均能提升0.10,翻譯規(guī)則表減少至原有的60%時BLEU值平均提升0.26,翻譯規(guī)則表減少至原有的40%時BLEU值平均降低0.11。其中維漢機器翻譯系統(tǒng)最好的表現(xiàn)是將BLEU提升了0.26,英漢機器翻譯系統(tǒng)是0.19。

        不同的機器翻譯系統(tǒng),在使用本模型后的表現(xiàn)也是大相徑庭的。比如英漢機器翻譯系統(tǒng)BELU值提升就沒有維漢機器翻譯系統(tǒng)那么明顯。造成這個現(xiàn)象的原因應(yīng)該是維吾爾語和漢語的語法結(jié)構(gòu)差異性大,導(dǎo)致了維漢機器翻譯中調(diào)序問題相比較英漢機器翻譯系統(tǒng)更為突出,而英漢機器翻譯中更多的是翻譯模型選擇的譯文不準(zhǔn)確的問題,因此維漢機器翻譯使用本模型的效果更為明顯。此外,訓(xùn)練語料的好壞也在一定程度上影響了本模型的使用效果。觀察兩大組實驗結(jié)果中的測試集1和測試集2,測試集2的平均BLEU值要高于測試集1。導(dǎo)致這個現(xiàn)象的原因應(yīng)該是訓(xùn)練語料領(lǐng)域匹配度不同。最后,發(fā)現(xiàn)調(diào)序規(guī)則表在減少到原始規(guī)模的60%左右時性能是最好的,這是因為在此基礎(chǔ)上可以覆蓋原始的調(diào)序規(guī)則,并使其對定向概率的計算更為準(zhǔn)確。當(dāng)翻譯模型減少到40%時,規(guī)則缺失的情況較多,而當(dāng)翻譯模型增加到80%時,過濾后的模型與之前的相差不大,因此效果不是很明顯。

        總的說來,本模型適用于各個語種間的機器翻譯系統(tǒng),同樣適用于在訓(xùn)練機器翻譯系統(tǒng)階段會產(chǎn)生調(diào)序規(guī)則表的機器翻譯系統(tǒng)。使用本模型,可以在減少調(diào)序規(guī)則得分表(加快解碼速度)的基礎(chǔ)上,提升機器翻譯最后的譯文質(zhì)量。

        5 結(jié)束語

        本文針對統(tǒng)計機器翻譯中普遍存在的調(diào)序問題,提出了一種基于自動編碼機的調(diào)序規(guī)則表過濾模型,并分別應(yīng)用于英漢和維漢機器翻譯中。使用本文方法對原來生成的調(diào)序規(guī)則表進(jìn)行過濾,得到新的調(diào)序規(guī)則表。然后使用新的調(diào)序規(guī)則表重新計算調(diào)序規(guī)則得分表。實驗結(jié)果表明,英漢和維漢機器翻譯系統(tǒng)在解碼過程中使用新的調(diào)序規(guī)則得分表可以明顯改善調(diào)序問題,還能夠減少解碼時間并提升最終的譯文質(zhì)量。

        因為本文研究的對象是調(diào)序規(guī)則表,所以本文方法可以應(yīng)用在任何翻譯過程中會產(chǎn)生調(diào)序規(guī)則表的機器翻譯系統(tǒng)。雖然目前大多數(shù)機器翻譯系統(tǒng)都會產(chǎn)生調(diào)序規(guī)則表,但是也有些基于句法的翻譯模型本身沒有調(diào)序模型并不適用于本方法。此外,因為本模型是獨立于調(diào)序模型的,調(diào)序性能的好壞對于前者的表現(xiàn)有依賴?;谝陨?,在下一階段考慮將基于自動編碼機的調(diào)序模型作為一個解碼特征融入到翻譯系統(tǒng)中。另外,也考慮在機器翻譯中使用其他的深度學(xué)習(xí)方法。

        [1]Koehn P,Hoang H,Birch A,et al.Moses:open source toolkit for statistical machine translation[C]//Proceedings of the 45th Annual Meeting of the ACL on Interactive Poster and Demonstration Sessions,Prague,Czech Republic,Jun 23-30,2007.Stroudsburg,USA:ACL,2007:177-180.

        [2]Stolcke A.SRILM—an extensible language modeling toolkit[C]//Proceedings of the 2002 International Conference on Spoken Language Processing,Denver,USA,Sep 16-20, 2002:1409-1412.

        [3]Brown P F,Pietra V J D,Pietra S A D,et al.The mathematics of statistical machine translation:parameter estimation[J]. Computational linguistics,1993,19(2):263-311.

        [4]Bengio Y,Schwenk H,Senécal J S,et al.Neural probabilistic language models[M]//Innovations in Machine Learning. Berlin,Heidelberg:Springer,2006:137-186.

        [5]Deng Li,Seltzer M L,Yu Dong,et al.Binary coding of speech spectrograms using a deep auto-encoder[C]//Proceedings of the 11th Annual Conference of the International Speech Communication Association,Makuhari,Chiba,Japan,Sep 26-30,2010:1692-1695.

        [6]Graves A,Schmidhuber J.Framewise phoneme classification with bidirectional LSTM and other neural network architectures[J].Neural Networks,2005,18(5):602-610.

        [7]Roska T,Chua L O.The CNN universal machine:an analogic array computer[J].IEEE Transactions on Circuits and Systems II:Analog and Digital Signal Processing,1993,40(3): 163-173.

        [8]Yin Yue,Zhang Yujie,Xu Jin'an.Phrase table filtration based on virtual context in phrased-based statistical machine translation[J].Journal of Chinese Information Processing, 2013,27(6):139-144.

        [9]Di Ping,Zhou Youliang,Gong Zhengxian,et al.Phrase table filtration in phrase-based statistical machine translation[J]. ComputerApplications and Software,2011,28(5):28-30.

        [10]Zens R,Stanton D,Xu P.A systematic comparison of phrase table pruning techniques[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, Jeju Island,Korea,Jul 12-14,2012.Stroudsburg,USA:ACL, 2012:972-983.

        [11]Koehn P,Och F J,Marcu D.Statistical phrase-based translation[C]//Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology-Volume 1,Edmonton,Canada,May 27-Jun 1,2003.Stroudsburg,USA: ACL,2003:48-54.

        [12]Tillmann C,Zhang T.A localized prediction model for statistical machine translation[C]//Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics,Michigan,USA,Jun 25-30,2005.Stroudsburg,USA: ACL,2005:557-564.

        [13]Xiong Deyi,Liu Qun,Lin Shouxun.Maximum entropy based phrase reordering model for statistical machine translation [C]//Proceedings of the 21st International Conference on Computational Linguistics and the 44th Annual Meeting of the Association for Computational Linguistics,Sydney, Australia,Jul 17-21,2006.Stroudsburg,USA:ACL,2006:521-528.

        [14]Li Peng,Liu Yang,Sun M.Recursive autoencoders for ITG-based translation[C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing,Seattle,USA,Oct 18-21,2013.Stroudsburg,USA:ACL,2013: 567-577.

        [15]Xiao Xinyan,Liu Yang,Liu Qun,et al.Lexical reordering for hierarchical phrase-based translation[J].Journal of Chinese Information Processing,2012,26(1):37-41.

        [16]Wang Chao,Collins M,Koehn P.Chinese syntactic reordering for statistical machine translation[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning,Prague,Czech Republic,Jun 28-30,2007.Stroudsburg,USA:ACL,2007:737-745.

        [17]Papineni K,Roukos S,Ward T,et al.BLEU:a method for automatic evaluation of machine translation[C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics,Philadelphia,USA,Jul 6-12,2002.Stroudsburg,USA:ACL,2002:311-318.

        附中文參考文獻(xiàn):

        [8]殷樂,張玉潔,徐金安.基于虛擬上下文的統(tǒng)計機器翻譯短語表的過濾[J].中文信息學(xué)報,2013,27(6):139-144.

        [9]狄萍,周宥良,貢正仙,等.基于短語的統(tǒng)計機器翻譯中短語表的過濾[J].計算機應(yīng)用與軟件,2011,28(5):28-30.

        [15]肖欣延,劉洋,劉群,等.面向?qū)哟味陶Z翻譯的詞匯化調(diào)序方法研究[J].中文信息學(xué)報,2012,26(1):37-41.

        KONG Jinying was born in 1988.He is a Ph.D.candidate at Xinjiang Technical Institute of Physics and Chemistry, ChineseAcademy of Sciences.His research interests include machine translation and natural language processing,etc.

        孔金英(1988—),男,湖北武穴人,中國科學(xué)院新疆理化技術(shù)研究所博士研究生,主要研究領(lǐng)域為機器翻譯,自然語言處理等。

        LI Xiao was born in 1957.He is a professor and director at Xinjiang Technical Institute of Physics and Chemistry, Chinese Academy of Sciences.His research interests include multi-lingual information processing and artificial intelligence,etc.

        李曉(1957—),男,新疆烏魯木齊人,中國科學(xué)院新疆理化技術(shù)研究所所長、研究員,主要研究領(lǐng)域為多語種信息處理,人工智能等。發(fā)表學(xué)術(shù)論文60余篇,主持或承擔(dān)多項國家863計劃、中科院戰(zhàn)略先導(dǎo)項目。

        WANG Lei was born in 1974.He received the Ph.D.degree from Xinjiang Technical Institute of Physics and Chemistry,Chinese Academy of Sciences in 2012.Now he is a professor at Xinjiang Technical Institute of Physics and Chemistry,Chinese Academy of Sciences.His research interests include multi-lingual information processing and application software,etc.

        王磊(1974—),男,新疆伊犁人,2012年于中國科學(xué)院新疆理化技術(shù)研究所獲得博士學(xué)位,現(xiàn)為中國科學(xué)院新疆理化技術(shù)研究所研究員,多語種信息技術(shù)研究室副主任,主要研究領(lǐng)域為多語種信息處理,軟件應(yīng)用等。發(fā)表學(xué)術(shù)論文30余篇,承擔(dān)過多項國家863計劃、中科院戰(zhàn)略先導(dǎo)項目。

        YANG Yating was born in 1985.She received the Ph.D.degree from Xinjiang Technical Institute of Physics and Chemistry,Chinese Academy of Sciences in 2012.Now she is an associate professor at Xinjiang Technical Institute of Physics and Chemistry,Chinese Academy of Sciences.Her research interests include machine translation and natural language processing,etc.

        楊雅婷(1985—),女,新疆奇臺人,2012年于中國科學(xué)院新疆理化技術(shù)研究所獲得博士學(xué)位,現(xiàn)為中國科學(xué)院新疆理化技術(shù)研究所副研究員,主要研究領(lǐng)域為機器翻譯,自然語言處理等。發(fā)表學(xué)術(shù)論文30余篇,承擔(dān)過多項國家863計劃、中科院戰(zhàn)略先導(dǎo)項目。

        LUO Yangen was born in 1992.He is an M.S.candidate at Xinjiang Technical Institute of Physics and Chemistry, ChineseAcademy of Sciences.His research interests include machine translation and natural language processing,etc.

        羅延根(1992—),男,江西吉水人,中國科學(xué)院新疆理化技術(shù)研究所碩士研究生,主要研究領(lǐng)域為機器翻譯,自然語言處理等。

        Research of Deep Filtering Lexical Reordering Table*

        KONG Jinying1,2,3,LI Xiao1,2,WANG Lei1,2,YANG Yating1,2+,LUO Yangen1,3
        1.Xinjiang Technical Institute of Physics and Chemistry,ChineseAcademy of Sciences,Urumqi 830011,China
        2.Xinjiang Laboratory of Minority Speech and Language Information Processing,Urumqi 830011,China
        3.University of ChineseAcademy of Sciences,Beijing 100049,China

        +Corresponding author:E-mail:yangyt@ms.xjb.ac.cn

        KONG Jinying,LI Xiao,WANG Lei,et al.Research of deep filtering lexical reordering table.Journal of Frontiers of Computer Science and Technology,2017,11(5):785-793.

        In statistical machine translation system,lexical reordering table and phrase-table are always huge.Tuning and filtering the phrase-table has been research focus long time,while few researchers focus on filtering the lexical reordering table.This paper treats filtering lexical reordering table as the problem of short text classification,proposes a filtering model of lexical reordering table based on Autoencoder.This model uses the Autoencoder to score the reordering rules firstly,then filters the lexical reordering table by minimal difference strategy,finally recalculates lexical reordering score table used for machine translation decoding.The experimental results show that the size of lexical reordering table reduces 40%while the BLEU(bilingual evaluation understudy)increases 0.19 and 0.26 by using the proposed model on public English-Chinese corpus and Uyghur-Chinese corpus.

        10.3778/j.issn.1673-9418.1603056

        A

        TP391.2

        *The National High Technology Research and Development Program of China under Grant No.2013AA01A607(國家高技術(shù)研究發(fā)展計劃(863計劃));the Strategic Priority Research Program of Chinese Academy of Sciences under Grant No.XDA06030400(中國科學(xué)院戰(zhàn)略性先導(dǎo)科技專項課題);the West Light Foundation of Chinese Academy of Sciences under Grant Nos.XBBS201216, LHXZ201301(中國科學(xué)院“西部之光“項目).

        Received 2016-02,Accepted 2016-04.

        CNKI網(wǎng)絡(luò)優(yōu)先出版:2016-04-28,http://www.cnki.net/kcms/detail/11.5602.TP.20160428.0914.002.html

        Key words:Autoencoder;filtering model;lexical reordering table;machine translation

        猜你喜歡
        解碼語料分類器
        《解碼萬噸站》
        解碼eUCP2.0
        中國外匯(2019年19期)2019-11-26 00:57:32
        NAD C368解碼/放大器一體機
        Quad(國都)Vena解碼/放大器一體機
        BP-GA光照分類器在車道線識別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
        華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
        《苗防備覽》中的湘西語料
        欧美人伦禁忌dvd放荡欲情 | 日本精品视频二区三区| 熟女少妇内射日韩亚洲| 日韩精品无码一区二区三区免费| 亚洲欧美日韩精品香蕉| 一区二区三区观看视频在线| 人人妻人人澡人人爽国产一区| 精品国产三级a∨在线观看| 国产思思久99久精品| 国产av剧情精品麻豆| 中国无码人妻丰满熟妇啪啪软件| 日韩精品无码一区二区三区视频 | 亚洲另类丰满熟妇乱xxxx| 又大又粗又爽18禁免费看| 国产成人精品午夜福利在线| 91麻豆精品一区二区三区| 日韩精品成人区中文字幕| 米奇影音777第四色| 2022国内精品免费福利视频| 日本免费一区二区在线| 精品国产综合区久久久久久| 老妇肥熟凸凹丰满刺激| 91尤物在线看| 亚洲色图专区在线视频| 一本色道无码道在线观看| 欧美色色视频| 少妇高潮精品正在线播放| 国产激情无码视频在线播放性色| 免费精品无码av片在线观看| 亚洲AV秘 无码一区二区在线| 亚洲熟女一区二区三区250p| 亚洲av无码久久精品蜜桃| 亚洲女同精品一区二区久久| 中文字幕手机在线精品| 国产成人小视频| 亚洲白白色无码在线观看| 日本在线视频二区一区 | 一区二区三区中文字幕在线观看| 后入到高潮免费观看| 欧美日韩在线免费看| 国产午夜精品av一区二区三|