劉璐 葉娜
摘 要:神經(jīng)機器翻譯是直接利用神經(jīng)網(wǎng)絡(luò)實現(xiàn)源語言文本到目標(biāo)語言文本映射的一種機器翻譯方法,翻譯過程中不再需要人工設(shè)計特征。但神經(jīng)機器翻譯研究單元以詞為基礎(chǔ),導(dǎo)致神經(jīng)機器翻譯的翻譯模型對短語建模不充分。針對以上問題,本文提出融合短語知識的方法,利用傳統(tǒng)機器翻譯訓(xùn)練所得的短語表和句法分析結(jié)果,對翻譯文本進(jìn)行短語對抽取,將抽取的目標(biāo)語言短語以后綴的形式添加到源語言端末尾。通過改變翻譯語料的知識表示方式,使編碼產(chǎn)生的句向量中包含更多有利于生成正確譯文的信息,從而提升最終的翻譯效果。實驗結(jié)果表明,本文提出的方法相較于基線系統(tǒng),BLEU值得到了提升。
關(guān)鍵詞:神經(jīng)機器翻譯 短語知識 句法分析
Abstract: Neural machine translation is a kind of machine translation method that directly uses neural network to realize text mapping from source language to target language, and arti?cial design features are no longer needed in the translation process. However, the Neural machine Translation Research Unit is based on words, which leads to the translation model of Neural machine translation, which is not fully modeled on phrases. In view of the above problems, this paper proposes a method to fuse the knowledge of phrases, using the phrase table and syntactic analysis results obtained from traditional machine translation training, to extract the phrase pairs of translated text, and to add the form of the extracted target language phrase to the end of the source language end. By changing the knowledge representation of the translation corpus, the sentence vectors produced by the encoding contain more information which is conducive to generating the correct translation, thus improving the ?nal translation effect. Experimental results show that the BLEU value of the proposed method is improved compared with that of the baseline system.
中圖分類號:TP391文獻(xiàn)標(biāo)識碼:A文章編號:1003-9082(2019)10-0200-02
一、引言
神經(jīng)機器翻譯方法作為近年來受到廣泛關(guān)注與運用的新型機器翻譯方法,通常由編碼器、解碼器構(gòu)成,編碼器將源語句編碼為實數(shù)向量表示,解碼器基于源語言表示逐詞生成對應(yīng)的目標(biāo)語言句子,在平行語料翻譯任務(wù)上可以實現(xiàn)端到端的訓(xùn)練,大量實驗數(shù)據(jù)顯示其在機器翻譯領(lǐng)域的極大優(yōu)勢。與傳統(tǒng)的統(tǒng)計機器翻譯相比,神經(jīng)機器翻譯通常會產(chǎn)生更流利的翻譯譯文,但由于神經(jīng)機器翻譯對短語建模效果不佳,會導(dǎo)致部分短語的翻譯結(jié)果存在不足。針對神經(jīng)機器翻譯對短語建模效果不理想的問題,目前研究人員大多從解碼角度提出改進(jìn)方式,但這些方法均存在著原理復(fù)雜、實現(xiàn)困難的問題。本文嘗試將神經(jīng)機器翻譯與短語知識的優(yōu)勢結(jié)合,提出一種融合短語知識的神經(jīng)機器翻譯方法。
二、相關(guān)研究
針對神經(jīng)機器翻譯對短語建模效果不理想的問題。大多研究人員嘗試從解碼器增強神經(jīng)機器翻譯的短語建模效果。
Shonosuke Ishiwatar等人提出了基于塊的神經(jīng)機器翻譯解碼器[8],將經(jīng)典神經(jīng)機器翻譯解碼器改進(jìn)為短語解碼器和字解碼器共同組成的新型解碼器,短語解碼器模擬全局依賴性,字解碼器決定短語中字的順序。翻譯效果在WAT16英語-日語翻譯任務(wù)上得到驗證。
Jingyi Zhang等人提出了通過基于短語的強制解碼方式改進(jìn)神經(jīng)機器翻譯方法[9],利用現(xiàn)有的短語統(tǒng)計機器翻譯模型來計算基于短語的神經(jīng)機器翻譯輸出的解碼成本,然后使用該成本來重新排列n個最佳神經(jīng)機器翻譯輸出,這種方法充分發(fā)揮了統(tǒng)計機器翻譯和神經(jīng)機器翻譯的優(yōu)勢。
Leonard等研究人員提出了在混合搜索中利用短語模型的神經(jīng)機器翻譯[10],該方使用統(tǒng)計機器翻譯短語表中的短語翻譯假設(shè)擴充了標(biāo)準(zhǔn)神經(jīng)機器翻譯搜索的范圍,根據(jù)神經(jīng)機器翻譯模型的注意機制,決定短語翻譯的使用,所有短語翻譯都使用神經(jīng)機器翻譯解碼器打分。
可以看出,目前在神經(jīng)機器翻譯系統(tǒng)中整合短語知識的方法主要集中于對解碼器的改進(jìn),在解碼器中集成短語生成模塊。本文則是從知識表示方面著手,不需要改變解碼器結(jié)構(gòu),且能將短語的翻譯知識有效地編碼和整合入神經(jīng)機器翻譯系統(tǒng)。
三、融合短語知識的神經(jīng)機器翻譯方法
目前的神經(jīng)機器翻譯方法研究單元以詞為基礎(chǔ),并未顯式地利用短語知識指導(dǎo)機器翻譯的翻譯過程,因此神經(jīng)機器翻譯的短語建模效果不佳。針對上述問題,本文提出一種融合短語知識的神經(jīng)機器翻譯方法。該方法主要基于神經(jīng)機器翻譯框架,對語料采用先抽取再后綴表示的方式重新構(gòu)建雙語文本,旨在使用更簡便快捷的方式將更多的短語知識反映于編碼過程中,生成知識更為豐富的向量,約束特定目標(biāo)詞的產(chǎn)生,從而達(dá)到提升譯文質(zhì)量的目的。
1.短語表生成
基于短語的統(tǒng)計機器翻譯方法的主要優(yōu)勢之一在于對短語翻譯的建模,該模型是反映統(tǒng)計機器翻譯短語建模情況的概率模型。短語表的生成主要包括短語抽取和概率翻譯估計兩部分。
首先進(jìn)行短語抽取,其算法的主要思想是遍歷所有可能的目標(biāo)語言短語,搜索與其相匹配的最小源語言短語。在匹配過程中需要注意目標(biāo)短語為空時,則不能在源語言端找到與之對應(yīng)的源語言短語;目標(biāo)語言匹配的最小源語言短語中存在超出目標(biāo)語言短語之外的對齊點,則不能進(jìn)行短語對的抽取;與目標(biāo)短語匹配的最小源語言短語和其詞拓展,都可以視為對目標(biāo)短語的一種翻譯。經(jīng)過抽取短語獲得互譯短語對后需要進(jìn)行短語翻譯概率估計,它的作用是對翻譯短語對的正確性進(jìn)行合理的評估。短語表中存在著四種翻譯概率計算方法,分別是正向短語翻譯概率、正向詞匯化翻譯概率、逆向短語翻譯概率、逆向詞匯化翻譯概率。短語翻譯表中,雙語短語的翻譯概率為以上4項概率的加權(quán)和。對于同一個源語言短語存在多個目標(biāo)語言短語的情況,根據(jù)翻譯概率進(jìn)行排序。
2.融合短語知識的句子表示
2.1文本預(yù)處理
雙語平行語料的獲取與構(gòu)建作為機器翻譯過程的首步處理流程,其質(zhì)量優(yōu)劣對機器翻譯質(zhì)量有著不可忽視的影響。因此對于已經(jīng)獲取的雙語平行語料還需要進(jìn)行一些預(yù)處理,才能真正運用于翻譯模型的訓(xùn)練。語料預(yù)處理過程包括分詞、文本編碼轉(zhuǎn)換、刪除過長或過短的句對。
2.2句法分析
句法結(jié)構(gòu)分析是判斷給定語句是否符合語法,并分析該語句句法結(jié)構(gòu)的自然語言處理技術(shù)。常用的句法分析技術(shù)分為短語結(jié)構(gòu)分析和依存關(guān)系分析兩種。短語結(jié)構(gòu)分析獲取整個句子的短語構(gòu)成及相關(guān)的句法結(jié)構(gòu)。依存句法分析則通過分析語句內(nèi)成分之間的關(guān)系解釋其句法結(jié)構(gòu)。
由于短語結(jié)構(gòu)文法能夠清晰地刻畫出具有相對完整的語言學(xué)意義的短語成分邊界,因此本文選擇短語結(jié)構(gòu)文法作為抽取雙語短語的依據(jù)。
2.3雙語短語的匹配與抽取
句法分析器的分析結(jié)果提供了源語句中各類短語的邊界信息。本文基于短語結(jié)構(gòu)句法分析樹,從源語句中抽取候選短語,并與已有的短語翻譯表進(jìn)行匹配后獲得具有較高概率的目標(biāo)語言短語片段。
源語言短語的抽取過程為,首先遍歷句法分析樹,列舉出其中的全部短語,然后根據(jù)以下條件對短語進(jìn)行過濾:
(1)為避免短語過長,設(shè)置了最大短語長度閾值10,所有超出閾值的源語言短語將被丟棄。
(2)當(dāng)短語長度在合理范圍內(nèi)時,對嵌套短語的處理方式是取最外層的短語。
源語言短語對應(yīng)譯文的抽取過程為,遍歷所有保留下來的源語言短語,提取短語翻譯表中相應(yīng)的候選譯文,從中選擇最有可能的譯文片段。篩選原則如下:
(1) 當(dāng)抽取到的短語中存在禁用字符時,直接將其刪除。保證抽取的短語盡量是語言學(xué)意義上的短語,如果包含這些字符,則該短語有很大可能不是正確的譯文。
(2) 在余下的候選目標(biāo)短語中,選擇概率最高的短語,作為提供給神經(jīng)機器翻譯編碼器的短語翻譯指導(dǎo)信息。
2.4基于后綴的短語知識表示方法
本文借鑒片段約束和短語知識在機器翻譯中存在的優(yōu)勢,將概率較高的目標(biāo)短語片段顯式地添加到源語句的末尾,改變源語言的語句表示方式,使神經(jīng)機器翻譯解碼過程能接收到部分短語在統(tǒng)計機器翻譯的短語翻譯模型中的高概率譯文。圖1給出了該表示方法的示意圖。
在上圖中,wi為源語句中的第i個詞,#為原始語句和后綴的分隔符,圖中共識別和抽取出兩個雙語短語片段{p1, s1}和{p2, s2},其中pi為源語言短語,si為對應(yīng)的目標(biāo)語言短語。本文將目標(biāo)語言端的譯文片段以后綴形式依次添加在源語句的結(jié)尾,告知神經(jīng)機器翻譯系統(tǒng),分隔符“#”后是譯文中應(yīng)包含的短語片段。
四、實驗結(jié)果與分析
1.實驗設(shè)置
1.1語料設(shè)置
本實驗語料數(shù)據(jù)來自于聯(lián)合國公開語料庫中英雙語平行語料。獲取的原始語料包括訓(xùn)練數(shù)據(jù)集15886041句,開發(fā)數(shù)據(jù)集和測試數(shù)據(jù)集均為4000句。
對原始訓(xùn)練語料進(jìn)行清洗、去重、限制句長,再采用隨機抽取的方式進(jìn)行處理,獲取5000000中英平行語句作為最終訓(xùn)練集;開發(fā)數(shù)據(jù)集與測試數(shù)據(jù)集保留原始結(jié)果,各個語料集的統(tǒng)計情況如表1所示。
1.2系統(tǒng)設(shè)置
本文的翻譯系統(tǒng),建立在基于注意力的神經(jīng)機器翻譯模型基礎(chǔ)上,以Python作為開發(fā)語言。采用的操作系統(tǒng)環(huán)境為Linux系統(tǒng),采用的深度框架為Theano框架,模型的構(gòu)建使用的是紐約大學(xué)Cho實驗室公布的開源代碼dl4mt-master。表2給出了實驗中神經(jīng)網(wǎng)絡(luò)的主要參數(shù)設(shè)置及部分說明。
本文實驗系統(tǒng)采用的優(yōu)化算法是隨機梯度下降算法,測試方法使用的是束搜索方法且束大小設(shè)置為10,同時在編碼器和解碼器端均使用GRU門控機制,來緩解神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中可能會面臨的“梯度消失”問題,減少時空成本消耗。
2.對比實驗結(jié)果
本文采用的基線系統(tǒng)為編碼器-解碼器框架的神經(jīng)機器翻譯系統(tǒng),其中采用雙向GRU進(jìn)行編碼,并帶有注意力機制。Ch-enp為本文提出的方法。模型1和模型2分別為不同的隨機初始化矩陣條件下的測試結(jié)果。
為了驗證本文方法的有效性,我們在長度為20個詞以下的句子上進(jìn)行了對比實驗。表3給出了實驗結(jié)果。
可以看出,在融合了短語知識后,系統(tǒng)的翻譯效果能夠得到顯著提升。由于句長較短,匹配上的雙語短語比例相對較高,因此性能提升的幅度較大。該實驗表明基于后綴的短語知識表示方法能夠有效地指導(dǎo)神經(jīng)機器翻譯的編碼和解碼,并能夠在訓(xùn)練過程中被模型充分學(xué)習(xí),即模型能夠理解源語句中提供的信息是目標(biāo)譯文中應(yīng)該包含的翻譯概率較高的片段。
五、總結(jié)與展望
本文提出了一種融合短語知識的神經(jīng)機器翻譯方法,從統(tǒng)計機器翻譯生成的大規(guī)模雙語短語表中,獲取短語翻譯知識,進(jìn)行相應(yīng)的表示后,融入編碼器-解碼器神經(jīng)機器翻譯框架,作為神經(jīng)機器翻譯譯文生成的指導(dǎo)信息。該方法通過擴充源語言語句的知識表達(dá)方式,影響神經(jīng)機器翻譯的編碼過程。在漢英雙語語料庫上進(jìn)行的對比實驗驗證了所提出的方法的有效性。后續(xù)實驗可以從加入其他語言學(xué)知識或短語之間的句法信息進(jìn)行比較分析。
參考文獻(xiàn)
[1]He K, Zhang X, Ren S, et al. Deep Residual Learning for Image Recognition[C]. Computer Vision and Pattern Recognition, 2016:770-778.
[2]Ghemawat S, Gobioff H, Leung S T. The Google file system[J]. Acm Sigops Operating Systems Review, 2003, 37(5):29-43.
[3]Schmidhuber J. Deep Learning in Neural Networks: An Overview[J]. Neural Networks, 2015:61-85.
[4]Krizhevsky A, Sutskever I, Hinton G E. ImageNet Classification with Deep Convolutional Neural Networks[C]. International Conference on Neural Information Processing Systems, 2012:1097-1105.
[5]Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition[J]. Computer Science, 2014.
[6]Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[C]//IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2015:1-9.
[7]Xiong W, Droppo J, Huang X, et al. Achieving Human Parity in Conversational Speech Recognition[J]. IEEE/ACM Transactions on Audio Speech & Language Processing, 2016:99.
[8]Shonosuke I, Jing T Y, et al. Chunk-based Decoder for Neural Machine Translation[J]. 2017.
[9]Jing Y Z, ,Masao U, et al. Improving Neural Machine Translation through Phrase-based Forced Decoding[J]. 2017.
[10]Leonard D, Evgeny M, et al. Neural Machine Translation with External PhraseMemory [J]. 2017.