亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于最長(zhǎng)名詞短語(yǔ)分治策略的神經(jīng)機(jī)器翻譯

2018-05-04 07:26:15張學(xué)強(qiáng)蔡?hào)|風(fēng)

中文信息學(xué)報(bào) 2018年3期

張學(xué)強(qiáng)，蔡?hào)|風(fēng)，葉娜，吳闖

(沈陽(yáng)航空航天大學(xué) 人機(jī)智能研究中心，遼寧沈陽(yáng) 110136)

0 引言

神經(jīng)機(jī)器翻譯(neural machine translation，NMT)作為一種全新的機(jī)器翻譯方法，近年來(lái)獲得迅速發(fā)展。然而，神經(jīng)機(jī)器翻譯僅僅使用一個(gè)非線性的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)自然語(yǔ)言之間的轉(zhuǎn)換[1]，相比統(tǒng)計(jì)機(jī)器翻譯，譯文質(zhì)量對(duì)句子長(zhǎng)度更為敏感[2]。如何在神經(jīng)機(jī)器翻譯中將一個(gè)句子在盡量不損失語(yǔ)義信息的前提下，進(jìn)行長(zhǎng)度上的縮減和結(jié)構(gòu)上的簡(jiǎn)化是一個(gè)值得探究的方向。

一般認(rèn)為，自然語(yǔ)言中語(yǔ)義的基本單位是短語(yǔ)。因此，將句子級(jí)別的對(duì)齊和翻譯進(jìn)行到亞句子(sub-sentence)的短語(yǔ)一級(jí)顯得尤為重要。句子中的實(shí)體和概念通?？捎擅~短語(yǔ)(noun phrase，NP)來(lái)描述，其捆綁了一個(gè)相對(duì)完整的語(yǔ)義信息，具有豐富的句法功能，可在句中充當(dāng)主語(yǔ)和賓語(yǔ)等成分。最長(zhǎng)名詞短語(yǔ)[3](maximal-length noun phrase，MNP)指不被其他任何名詞短語(yǔ)嵌套的名詞短語(yǔ)。與一般名詞短語(yǔ)相比，MNP具有更大的粒度，邊界特征較為明顯，有利于句子的整體結(jié)構(gòu)分析。采用分治策略處理MNP，既能在亞句子一級(jí)上獲得更精準(zhǔn)的翻譯，也在一定程度上將句子縮短為包含主干信息的句子框架。因此，準(zhǔn)確識(shí)別和翻譯MNP，是利用分治策略提升機(jī)器翻譯性能的一個(gè)有力手段。

針對(duì)神經(jīng)機(jī)器翻譯在長(zhǎng)句翻譯任務(wù)上的不足，考慮到MNP的處理可以在一定程度上簡(jiǎn)化句子結(jié)構(gòu)，本文提出一種基于MNP分治策略的神經(jīng)機(jī)器翻譯方法。該方法基于一個(gè)“抽取—翻譯—重組”的MNP處理框架，旨在將MNP獨(dú)立處理帶來(lái)更高質(zhì)量的MNP和句子框架譯文的優(yōu)勢(shì)，與神經(jīng)機(jī)器翻譯學(xué)習(xí)能力強(qiáng)、譯文具有較高準(zhǔn)確度和流暢度等優(yōu)勢(shì)相結(jié)合，以達(dá)到提升譯文整體質(zhì)量的目的。

1 相關(guān)研究

1.1 短語(yǔ)知識(shí)在機(jī)器翻譯中的應(yīng)用

在自然語(yǔ)言中，短語(yǔ)作為語(yǔ)義的基本單位，具有重要的意義。將雙語(yǔ)短語(yǔ)等語(yǔ)言學(xué)知識(shí)融入機(jī)器翻譯中，一直是研究人員孜孜追求的目標(biāo)。

針對(duì)基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯方法未充分利用語(yǔ)言學(xué)知識(shí)、長(zhǎng)距離調(diào)序效果不好的問(wèn)題，丁鵬[4]等提出一種基于雙語(yǔ)句法短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯方法。首先，采用一種基于期望最大化(expectation maximization，EM)的算法來(lái)抽取雙語(yǔ)句法短語(yǔ)。然后，通過(guò)三種方法將短語(yǔ)應(yīng)用到統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中: (1)將雙語(yǔ)句法短語(yǔ)加入訓(xùn)練語(yǔ)料中，訓(xùn)練翻譯模型； (2)將其加入短語(yǔ)表中，計(jì)算短語(yǔ)的特征值； (3)增加一個(gè)句法短語(yǔ)特征到短語(yǔ)表中，表征其是否為句法短語(yǔ)。實(shí)驗(yàn)結(jié)果表明，這三種方法得到的譯文BLEU分值分別比基線系統(tǒng)提升了0.23、0.41和0.64。丁鵬等人的方法盡管利用了雙語(yǔ)句法短語(yǔ)，但整體框架仍然是基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯方法，長(zhǎng)距離調(diào)序效果不佳。

針對(duì)上述問(wèn)題，Ren X等[5]提出一種簡(jiǎn)化專(zhuān)利句子結(jié)構(gòu)以提高翻譯性能和后處理效率的方法。首先，采用一種基于統(tǒng)計(jì)方法的識(shí)別器，對(duì)句中的MNP進(jìn)行識(shí)別。在中文樹(shù)庫(kù)CTB 5.1的專(zhuān)利語(yǔ)料上識(shí)別結(jié)果的F值達(dá)到62.28%。然后，對(duì)MNP進(jìn)行分析，在識(shí)別正確與錯(cuò)誤的MNP中，分別有97.92%和38.94%，有利于后續(xù)的翻譯過(guò)程。最后，在統(tǒng)計(jì)機(jī)器翻譯方法上分別使用自動(dòng)方法和人工方法對(duì)系統(tǒng)進(jìn)行評(píng)價(jià)。與基線系統(tǒng)相比，該系統(tǒng)得到的譯文BLEU分值提升了0.62；語(yǔ)義準(zhǔn)確度和流暢度分別提升0.18和0.17，翻譯效率提升了約100字/小時(shí)。該方法的不足在于，沒(méi)有使用雙語(yǔ)MNP擴(kuò)展語(yǔ)料，以訓(xùn)練短語(yǔ)表、翻譯模型和調(diào)序模型。MNP作為句子的一部分，翻譯規(guī)則卻與句子不盡相同。導(dǎo)致訓(xùn)練得到的模型能較好地翻譯簡(jiǎn)化后的句子，卻不能準(zhǔn)確翻譯MNP。

1.2 神經(jīng)機(jī)器翻譯

統(tǒng)計(jì)機(jī)器翻譯(statistical machine translation，SMT)主要存在三個(gè)挑戰(zhàn)[10]*實(shí)際上，引文中作者給出了六個(gè)挑戰(zhàn)，這里只列舉其三。: (1)線性不可分； (2)缺乏合適的語(yǔ)義表示； (3)難以設(shè)計(jì)特征。而深度學(xué)習(xí)可以較好地緩解上述問(wèn)題，因此完全基于深度學(xué)習(xí)的端到端神經(jīng)機(jī)器翻譯應(yīng)運(yùn)而生，并獲得迅速發(fā)展。

研究人員通過(guò)將現(xiàn)有的方法和策略引入端到端的神經(jīng)網(wǎng)絡(luò)，以實(shí)現(xiàn)翻譯性能的不斷提升。Sutskever等[11]首次將長(zhǎng)短期記憶[12](long short-term memory，LSTM)引入到神經(jīng)機(jī)器翻譯，以緩解遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network，RNN)訓(xùn)練時(shí)“梯度消失”的問(wèn)題，并且在“編碼—解碼”(encoder-decoder)框架兩端同時(shí)采用遞歸神經(jīng)網(wǎng)絡(luò)。圖1給出了Sutskever等人提出的神經(jīng)機(jī)器翻譯模型。

圖1 端到端神經(jīng)機(jī)器翻譯，隱狀態(tài)e3作為句子向量c

在源端，對(duì)于句子X(jué)={x0,x1,x2,x3}，編碼器遞歸地依據(jù)前一時(shí)刻隱狀態(tài)et-1和詞xt計(jì)算當(dāng)前時(shí)刻隱狀態(tài)et。直到掃描尾詞xn隨即完成了編碼過(guò)程，并將最后一個(gè)隱狀態(tài)en作為表示源語(yǔ)言句子的向量c，指導(dǎo)并約束后續(xù)解碼過(guò)程。et的計(jì)算如式(1)所示。

et=g(et-1,xt)

(1)

在目標(biāo)端，解碼器遞歸地依據(jù)向量c和已生成的目標(biāo)詞yt-1以及上一時(shí)刻隱狀態(tài)dt-1共同作用于當(dāng)前時(shí)刻隱狀態(tài)dt，如式(2)所示。

dt=h(dt-1,yt-1,c)

(2)

得到解碼器隱狀態(tài)dt后，目標(biāo)詞yt的概率分布可由式(3)得到。

p(yt|y

(3)

其中，g、h和f為非線性函數(shù)。通過(guò)解碼器遞歸地從左至右逐一生成目標(biāo)詞，最終得到完整譯文Y={y0,y1,y2,y3}。盡管引入長(zhǎng)短期記憶的神經(jīng)機(jī)器翻譯在性能上獲得大幅提升，卻面臨著實(shí)現(xiàn)準(zhǔn)確編碼的挑戰(zhàn)。因?yàn)椴徽摼渥娱L(zhǎng)短，編碼器都要將其映射為一個(gè)固定維度的向量。

針對(duì)上述問(wèn)題，Bengio等[13]提出了基于注意力(attention)的神經(jīng)機(jī)器翻譯。解碼器在生成目標(biāo)詞yi時(shí)，動(dòng)態(tài)地注意源語(yǔ)言句中與之相關(guān)的上下文ci，而不再關(guān)注整個(gè)源語(yǔ)言句子。圖2給出了引入注意力機(jī)制的神經(jīng)機(jī)器翻譯模型。

圖2 基于注意力機(jī)制的神經(jīng)機(jī)器翻譯，動(dòng)態(tài)生成上下文向量c

引入注意力的神經(jīng)機(jī)器翻譯的關(guān)鍵在于基于注意力的上下文向量c的生成。當(dāng)前時(shí)刻待生成詞yt在源端對(duì)應(yīng)的上下文向量ct由源語(yǔ)言隱狀態(tài)序列e={e0,e1,e2,e3}和注意力權(quán)重at加權(quán)求和得到，而注意力權(quán)重at由上一時(shí)刻解碼器隱狀態(tài)dt-1和源端隱狀態(tài)ej共同作用產(chǎn)生。如式(4)～(6)所示。

其中，m為非線性函數(shù)。得到當(dāng)前時(shí)刻上下文向量ct后，當(dāng)前時(shí)刻解碼器隱狀態(tài)dt與待生成詞yi的條件概率分布分別可由式(2)和式(3)求解。

盡管長(zhǎng)短期記憶和注意力機(jī)制的引入能夠更好地處理長(zhǎng)距離依賴，從而提升神經(jīng)機(jī)器翻譯的性能。然而，自然語(yǔ)言中句子長(zhǎng)短不一、結(jié)構(gòu)復(fù)雜，通過(guò)單一神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)翻譯知識(shí)的方法受到限制。如何利用語(yǔ)言學(xué)知識(shí)結(jié)合分治策略對(duì)句子的各部分進(jìn)行分治與整合，是一個(gè)值得研究的問(wèn)題。

2 基于MNP分治策略的神經(jīng)機(jī)器翻譯

盡管神經(jīng)機(jī)器翻譯近年來(lái)獲得了迅速發(fā)展，但目前的方法主要是從數(shù)據(jù)中自動(dòng)學(xué)習(xí)翻譯知識(shí)，沒(méi)有充分利用語(yǔ)言學(xué)知識(shí)顯式地指導(dǎo)翻譯過(guò)程。并且，神經(jīng)機(jī)器翻譯使用固定維度的向量表示變化長(zhǎng)度的詞句，造成結(jié)構(gòu)復(fù)雜的長(zhǎng)句翻譯效果不佳。

針對(duì)上述問(wèn)題，本文提出一種基于MNP分治策略的神經(jīng)機(jī)器翻譯。該方法主要基于分治法的思想，采用一個(gè)“抽取—翻譯—重組”的MNP處理框架，將單個(gè)復(fù)雜長(zhǎng)句的翻譯問(wèn)題，轉(zhuǎn)化為一個(gè)或多個(gè)攜帶子句信息的MNP和維系主干信息的句子框架的翻譯問(wèn)題，以實(shí)現(xiàn)翻譯性能的整體提升。

2.1 “抽取—翻譯—重組”框架

在分治策略中，通常將單個(gè)復(fù)雜問(wèn)題轉(zhuǎn)化為多個(gè)相對(duì)簡(jiǎn)單的問(wèn)題，并分而治之。鑒于MNP在句中使用頻率高、句法功能豐富以及邊界易于識(shí)別等事實(shí)，本文主要基于 “抽取—翻譯—重組”的MNP處理框架以實(shí)現(xiàn)分治策略的神經(jīng)機(jī)器翻譯。表1給出了該方法的完整示例。

表1 “抽取—翻譯—重組”框架示例

在示例中，抽取MNP時(shí)在句子框架中保留特殊標(biāo)識(shí)“MNPi”(i=1,2,)。作為對(duì)比，本文還使用了在句子框架中保留MNP核心詞的方法。將在2.3節(jié)、2.4節(jié)和2.5節(jié)中逐一說(shuō)明“抽取—翻譯—重組”框架的三個(gè)步驟，并對(duì)抽取MNP時(shí)保留特殊標(biāo)識(shí)或MNP核心詞的方法作出詳細(xì)論述。

2.2 雙語(yǔ)MNP語(yǔ)料庫(kù)的構(gòu)建

本文采用神經(jīng)機(jī)器翻譯系統(tǒng)分別對(duì)MNP和句子框架進(jìn)行翻譯。因此，雙語(yǔ)MNP語(yǔ)料庫(kù)的構(gòu)建是其中重要的一個(gè)環(huán)節(jié)。為保證訓(xùn)練和測(cè)試過(guò)程中MNP的抽取規(guī)則一致，本文沒(méi)有采用雙語(yǔ)MNP對(duì)齊算法進(jìn)行抽取，而是采用一個(gè)“抽取+查表”的方法。步驟描述如下:

(1) 使用分析器對(duì)源語(yǔ)言句子進(jìn)行短語(yǔ)結(jié)構(gòu)句法分析，依據(jù)標(biāo)記匹配和括號(hào)對(duì)齊等規(guī)則抽取MNP。

(2) 訓(xùn)練并查找短語(yǔ)表，匹配其中與源語(yǔ)言MNP對(duì)齊分值最高的目標(biāo)語(yǔ)言MNP。

上述方法的優(yōu)勢(shì)在于每一步都可以加入規(guī)則條件，以獲得較高質(zhì)量的雙語(yǔ)MNP。本文在抽取源語(yǔ)言MNP以及查找短語(yǔ)表匹配其對(duì)應(yīng)的目標(biāo)語(yǔ)言MNP時(shí)，過(guò)濾掉長(zhǎng)度小于2或包含符號(hào)、標(biāo)點(diǎn)等特殊字符的MNP。得到雙語(yǔ)MNP后，神經(jīng)機(jī)器翻譯系統(tǒng)的訓(xùn)練和測(cè)試過(guò)程如下:

首先，將雙語(yǔ)MNP分別加入訓(xùn)練數(shù)據(jù)集和開(kāi)發(fā)數(shù)據(jù)集中，利用擴(kuò)展后的數(shù)據(jù)集訓(xùn)練神經(jīng)機(jī)器翻譯模型。這一做法旨在得到能同時(shí)翻譯句子和MNP的神經(jīng)機(jī)器翻譯模型。

其次，對(duì)測(cè)試數(shù)據(jù)集進(jìn)行同樣的短語(yǔ)結(jié)構(gòu)句法分析，抽取MNP的同時(shí)在句子框架中保留特殊標(biāo)識(shí)或MNP核心詞。

最后，分別對(duì)句子框架和MNP進(jìn)行翻譯，將譯文重新組合以得到原句的完整翻譯。

圖3給出了基于“抽取—翻譯—重組”框架的神經(jīng)機(jī)器翻譯系統(tǒng)翻譯的過(guò)程?？紤]到短句子譯文質(zhì)量原本較高，本文只對(duì)長(zhǎng)度超過(guò)閾值L且可成功抽取MNP的句子采用基于“抽取—翻譯—重組”框架的分治策略進(jìn)行處理。

圖3 神經(jīng)機(jī)器翻譯系統(tǒng)的“抽取—翻譯—重組”過(guò)程

2.3 抽取

抽取過(guò)程的核心任務(wù)是對(duì)句子進(jìn)行短語(yǔ)結(jié)構(gòu)句法分析。考慮到抽取較短的MNP對(duì)縮減句子長(zhǎng)度、降低句子結(jié)構(gòu)復(fù)雜度影響較小。因此，本文只對(duì)長(zhǎng)度不小于2的MNP進(jìn)行抽取。

抽取過(guò)程的另一個(gè)重要問(wèn)題是，抽取MNP時(shí)在句子框架中保留何種標(biāo)記以實(shí)現(xiàn)更好的分治效果。本文主要嘗試以下兩種保留標(biāo)記的方法。

方法一采用“MNPi”(i=1,2,)作為句子框架中的特殊標(biāo)識(shí)，以保留MNP與句子框架中標(biāo)記的對(duì)齊關(guān)系。

方法二將MNP的核心詞保留在句子框架中。通常，MNP的尾詞為其核心詞。

兩種方法各有其優(yōu)勢(shì)和不足: 方法一盡管可以保留MNP和句子框架譯文的對(duì)齊關(guān)系，為后續(xù)的譯文重組過(guò)程帶來(lái)積極影響，但是將“MNPi”保留在句子框架中破壞了句子的流暢度，甚至改變了原本含義。相反地，方法二在句子框架中保留核心詞，保證了流暢度和語(yǔ)義完整性，從而能夠獲得較好的句子框架譯文。然而，核心詞卻無(wú)法直接對(duì)齊到句子框架譯文中的相應(yīng)位置。為此，需額外訓(xùn)練詞對(duì)齊信息，以在句子框架譯文中匹配核心詞譯文，對(duì)其進(jìn)行替換。

2.4 翻譯

采用雙語(yǔ)MNP擴(kuò)展后的平行語(yǔ)料可訓(xùn)練得到神經(jīng)機(jī)器翻譯模型。圖4給出了神經(jīng)機(jī)器翻譯模型采用分治策略，對(duì)句法樹(shù)中的句子框架和MNP進(jìn)行“分治”翻譯的過(guò)程。其中，下側(cè)虛線方框表示神經(jīng)機(jī)器翻譯模型對(duì)MNP“流離失所家庭”與“現(xiàn)金救助”的翻譯，上側(cè)虛線方框給出了對(duì)保留特殊標(biāo)識(shí)或核心詞的句子框架的翻譯。

圖4 神經(jīng)機(jī)器翻譯模型對(duì)MNP及句子框架的“分治”翻譯

2.5 重組

重組過(guò)程主要是對(duì)句子框架和MNP的譯文進(jìn)行重新組合，即將MNP譯文替換到句子框架譯文中的相應(yīng)位置，以獲得完整譯文。根據(jù)MNP抽取時(shí)保留的特殊標(biāo)識(shí)不同，重組過(guò)程中也包含以下兩種方法。

方法一使用第i個(gè)MNP譯文替換句子框架譯文中的特殊標(biāo)識(shí)“MNPi”；

方法二通過(guò)預(yù)先訓(xùn)練得到的詞對(duì)齊信息查找MNP核心詞的可能譯文，當(dāng)譯文出現(xiàn)在句子框架譯文中時(shí)，對(duì)其進(jìn)行替換。

3 實(shí)驗(yàn)

3.1 語(yǔ)料說(shuō)明

本文實(shí)驗(yàn)主要針對(duì)中英翻譯任務(wù)，語(yǔ)料來(lái)源于聯(lián)合國(guó)語(yǔ)料庫(kù)*https: //conferences.unite.un.org/UNCorpus中的中英雙語(yǔ)平行語(yǔ)料。其中，訓(xùn)練數(shù)據(jù)集共15 886 041句，實(shí)驗(yàn)過(guò)程只隨機(jī)抽取部分語(yǔ)料。官方開(kāi)發(fā)數(shù)據(jù)集和測(cè)試數(shù)據(jù)集各4 000句。

針對(duì)雙語(yǔ)MNP語(yǔ)料庫(kù)的構(gòu)建問(wèn)題，本文隨機(jī)從訓(xùn)練語(yǔ)料中抽取150 000句中英雙語(yǔ)平行句對(duì)。首先，采用Berkeley Parser*https: //github.com/slavpetrov/berkeleyparser對(duì)長(zhǎng)度超過(guò)閾值L=15的中文句子進(jìn)行句法分析，采用NiuTrans*http: //www.niutrans.com/niutrans/NiuTrans.html開(kāi)源系統(tǒng)訓(xùn)練短語(yǔ)表。然后，依據(jù)2.2節(jié)所述抽取方法和過(guò)濾規(guī)則，抽取中文MNP，并在短語(yǔ)表中查找其對(duì)應(yīng)英文MNP，對(duì)不符合條件的雙語(yǔ)MNP進(jìn)行過(guò)濾。最后，使用雙語(yǔ)MNP擴(kuò)展訓(xùn)練數(shù)據(jù)集和開(kāi)發(fā)數(shù)據(jù)集。表2給出了實(shí)驗(yàn)數(shù)據(jù)的相關(guān)信息。

表2 訓(xùn)練數(shù)據(jù)集與開(kāi)發(fā)數(shù)據(jù)集

針對(duì)測(cè)試語(yǔ)料，同樣采用Berkeley Parser對(duì)長(zhǎng)度超過(guò)閾值L=15的句子進(jìn)行句法分析，并使用標(biāo)記匹配和括號(hào)對(duì)齊等規(guī)則的方法抽取MNP。表3給出了測(cè)試語(yǔ)料的相關(guān)信息。

表3 測(cè)試語(yǔ)料信息

從表3可以看出，相比于成功抽取出MNP的句子平均長(zhǎng)度，MNP和句子框架的平均長(zhǎng)度分別縮短了19.64和27.10。

3.2 參數(shù)設(shè)置

本文主要在深度學(xué)習(xí)框架Theano上采用DL4MT*https: //github.com/nyu-dl/dl4mt-tutorial/開(kāi)源代碼，搭建基于注意力機(jī)制的神經(jīng)機(jī)器翻譯系統(tǒng)。表4給出了實(shí)驗(yàn)中神經(jīng)網(wǎng)絡(luò)的主要參數(shù)設(shè)置及部分說(shuō)明。

表4 網(wǎng)絡(luò)參數(shù)設(shè)置及說(shuō)明

表4中，eos和UNK是置于詞表首位的特殊詞。將eos追加在句尾，表示句子結(jié)束。當(dāng)編碼器掃描到eos時(shí)結(jié)束編碼，同樣地，當(dāng)解碼器生成目標(biāo)詞eos時(shí)，終止解碼過(guò)程。由于網(wǎng)絡(luò)訓(xùn)練過(guò)程中softmax函數(shù)的計(jì)算復(fù)雜度較高，而其與詞表規(guī)模成正相關(guān)，因此詞表大小受到限制?？紤]到集外詞對(duì)神經(jīng)機(jī)器翻譯系統(tǒng)的性能影響較大[14]，本文將集外詞統(tǒng)一替換為特殊詞UNK。

在網(wǎng)絡(luò)訓(xùn)練過(guò)程中，采用隨機(jī)梯度下降(stochastic gradient descent，SGD)算法進(jìn)行參數(shù)更新。模型測(cè)試時(shí)，本文采用束搜索(beam search)算法生成最終譯文，束大小設(shè)置為10。

3.3 結(jié)果與分析

3.3.1 MNP抽取

本文采用一種基于MNP分治策略的神經(jīng)機(jī)器翻譯方法，因此，能否準(zhǔn)確識(shí)別MNP直接影響到系統(tǒng)的翻譯性能。本文從成功抽取MNP的1 924個(gè)句子中隨機(jī)抽取200句，并對(duì)句中的MNP進(jìn)行人工標(biāo)注。通過(guò)比對(duì)系統(tǒng)的MNP抽取結(jié)果和人工標(biāo)注結(jié)果，可計(jì)算得到系統(tǒng)MNP識(shí)別的準(zhǔn)確率、召回率、F值，如表5所示。

表5 MNP識(shí)別結(jié)果

由表5可以看出，約27%的MNP識(shí)別存在錯(cuò)誤。但邊界錯(cuò)誤的MNP并不全都給后續(xù)的翻譯過(guò)程造成消極影響[5]。

3.3.2 句長(zhǎng)敏感度

為驗(yàn)證句子長(zhǎng)度對(duì)于譯文質(zhì)量的影響，本文分別在基線系統(tǒng)和MNP分治系統(tǒng)上，對(duì)測(cè)試數(shù)據(jù)集中的句子按照不同的長(zhǎng)度分布進(jìn)行測(cè)試。其中，基線系統(tǒng)指未采用“抽取—翻譯—重組”的MNP處理框架的神經(jīng)機(jī)器翻譯系統(tǒng)。MNP分治系統(tǒng)包含兩種方法，即抽取MNP時(shí)在句子框架中保留特殊標(biāo)識(shí)“MNPi”與保留MNP核心詞。

本文采用NiuTrans①開(kāi)源系統(tǒng)中集成的大小寫(xiě)不敏感的4-gram BLEU方法對(duì)譯文質(zhì)量進(jìn)行自動(dòng)評(píng)價(jià)。如圖5所示，橫坐標(biāo)表示不同句長(zhǎng)分布，縱坐標(biāo)表示譯文BLEU分值。

圖5 系統(tǒng)在不同句長(zhǎng)分布上的翻譯性能

由圖5可以看出，隨著句子長(zhǎng)度的增加，譯文質(zhì)量呈明顯下降趨勢(shì)。特別地，當(dāng)句子長(zhǎng)度超過(guò)20后譯文質(zhì)量顯著下降，基線系統(tǒng)的譯文BLEU分值下降了7.23，保留特殊標(biāo)識(shí)“MNPi”方法和MNP核心詞方法的譯文BLEU分值分別下降了6.55和6.31。

具體來(lái)看，主要有三點(diǎn)結(jié)論: (1)當(dāng)句長(zhǎng)小于20時(shí)，基線系統(tǒng)略優(yōu)于MNP分治系統(tǒng)。原因分析如下: 首先，神經(jīng)機(jī)器翻譯方法原本在短句上翻譯性能較好。其次，MNP分治系統(tǒng)在“抽取—翻譯—重組”框架的三個(gè)步驟中都存在一定的損失，當(dāng)這種損失與分治方法帶來(lái)的提升持平時(shí)，分治系統(tǒng)的優(yōu)勢(shì)表現(xiàn)得并不明顯。(2)當(dāng)句長(zhǎng)超過(guò)20后，隨著句子長(zhǎng)度的增大，MNP分治系統(tǒng)越來(lái)越表現(xiàn)出更優(yōu)的翻譯性能。尤其當(dāng)句長(zhǎng)在80和100之間時(shí)，相比于基線系統(tǒng)，保留特殊標(biāo)識(shí)“MNPi”和保留MNP核心詞的方法，譯文BLEU分值分別提升了3.10和5.75。(3)保留MNP核心詞的方法在翻譯性能上優(yōu)于保留特殊標(biāo)識(shí)“MNPi”的方法，且隨著句長(zhǎng)的增大，優(yōu)勢(shì)愈發(fā)明顯。

3.3.3 翻譯性能

本文采用“抽取—翻譯—重組”的MNP處理框架，對(duì)句子進(jìn)行短語(yǔ)結(jié)構(gòu)句法分析后抽取MNP，并保留特殊標(biāo)識(shí)或MNP核心詞與其他部分組成句子框架。表6給出了基線系統(tǒng)、保留特殊標(biāo)識(shí)“MNPi”以及保留MNP核心詞的三種神經(jīng)機(jī)器翻譯系統(tǒng)的譯文質(zhì)量。

表6 譯文質(zhì)量對(duì)比

由表6可以看出，基于“抽取—翻譯—重組”的MNP處理框架，抽取MNP時(shí)保留特殊標(biāo)識(shí)“MNPi”和保留MNP核心詞的方法在基線系統(tǒng)的基礎(chǔ)上，都獲得一定的提升。相比于基線系統(tǒng)，保留“MNPi”的方法BLEU分值提升了0.36，保留MNP核心詞的方法BLEU分值提升了0.89。

在分治系統(tǒng)中，由于抽取MNP時(shí)在句子框架中保留了MNP的核心詞，在一定程度上提高了句子框架的流暢度和語(yǔ)義完整性，從而相比于保留“MNPi”，表現(xiàn)出更好的性能，譯文的BLEU分值提升了0.53。

4 總結(jié)與展望

本文針對(duì)當(dāng)前神經(jīng)機(jī)器翻譯方法的譯文質(zhì)量對(duì)句子長(zhǎng)度敏感的問(wèn)題，提出一種基于MNP分治策略的神經(jīng)機(jī)器翻譯方法。依據(jù)組塊分析和分治法的思想，對(duì)長(zhǎng)句進(jìn)行MNP識(shí)別和抽取，進(jìn)一步對(duì)MNP和句子框架進(jìn)行獨(dú)立翻譯，從而在一定程度上緩解了神經(jīng)機(jī)器翻譯對(duì)句子長(zhǎng)度敏感的問(wèn)題。

實(shí)驗(yàn)結(jié)果表明，該方法通過(guò)對(duì)訓(xùn)練數(shù)據(jù)的擴(kuò)展、翻譯前對(duì)MNP的識(shí)別和抽取、翻譯中對(duì)MNP和句子框架的分而治之、翻譯后對(duì)譯文的重組等策略給神經(jīng)機(jī)器翻譯帶來(lái)積極的影響。相對(duì)基線系統(tǒng)的方法，BLEU分值提升了0.89。

然而，該方法在MNP抽取，句子框架與MNP的譯文重組等方面都存在一定的損失，并且，諸如目標(biāo)語(yǔ)言MNP的單復(fù)數(shù)等問(wèn)題尚待解決。下一步研究工作的重心擬定在以下兩個(gè)方面: 首先，將該方法泛化到其他類(lèi)型的短語(yǔ)結(jié)構(gòu)，以對(duì)目前方法做進(jìn)一步擴(kuò)充;其次，因?yàn)檫^(guò)程中涉及對(duì)句子的拆分與整合，應(yīng)更多地從語(yǔ)言學(xué)角度重新思考“抽取—翻譯—重組”的分治策略，以采取更優(yōu)的方法。

[1] Zhang J, Zong C. Deep neural networks in machine translation: An overview[J]. IEEE Intelligent Systems, 2015, 30(5): 16-25.

[2] Cho K, Merrienboer B V, Bahdanau D, et al. On the properties of neural machine translation: Encoder-decoder approaches[J]//arXio: 1409.1259.2014.

[3] 蔡?hào)|風(fēng)，趙奇猛，饒齊,等. 基于馬爾科夫邏輯網(wǎng)的中文專(zhuān)利最大名詞短語(yǔ)識(shí)別[J]. 中文信息學(xué)報(bào), 2016, 30(4): 21-28.

[4] 丁鵬. 基于雙語(yǔ)句法短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯研究[D]. 大連: 大連理工大學(xué)碩士學(xué)位論文, 2013.

[5] Ren X, Wei Y, Hu R. Simplify sentence structure for improving human post-editing efficiency on Chinese-to-English patent machine translation[C]//Proceedings of 6th Workshp on Patent and Scientific Literature Translation (PSLT6) Miami, 2015: 33-43.

[6] Luong M T, Pham H, Manning C D. Effective Approaches to Attention-based Neural Machine Translation[C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, Lisbon, Portugal, 2015: 1412-1421.

[7] Sennrich R, Haddow B, Birch A. Neural Machine Translation of Rare Words with Subword Units[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, Berlin, Germany, 2016: 1715-1725.

[8] Wu Y, Schuster M, Chen Z, et al. Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation[J]. arXiv: 1609.08144

[9] Zhang J, Zong C. Bridging Neural Machine Translation and Bilingual Dictionaries[J]. arXiv: 1610.07272

[10] 劉洋. 基于深度學(xué)習(xí)的機(jī)器翻譯研究進(jìn)展[J]. 中國(guó)人工智能學(xué)會(huì)通訊, 2015: 28-32.

[11] Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neural networks[J]. Advances in Neural Information Processing Systems, 2014(4): 3104-3112.

[12] Graves A. Long short-term memory[M]. Supervised Sequence Labelling with Recurrent Neural Networks. Springer Berlin Heidelberg, 2012: 1735-1780.

[13] Bahdanau D, Cho K, Bengio Y. Neural Machine Translation by Jointly Learning to Align and Translate[J]. arXiv: 1409.0473

[14] Li X, Zhang J, Zong C. Towards zero unknown word in neural machine translation[C]//Proceedings of the International Joint Conference on Artificial Intelligence. AAAI Press, 2016: 2852-2858.