亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于最長名詞短語分治策略的神經(jīng)機(jī)器翻譯

        2018-05-04 07:26:15張學(xué)強(qiáng)蔡東風(fēng)
        中文信息學(xué)報 2018年3期
        關(guān)鍵詞:語料雙語短語

        張學(xué)強(qiáng),蔡東風(fēng),葉 娜,吳 闖

        (沈陽航空航天大學(xué) 人機(jī)智能研究中心,遼寧 沈陽 110136)

        0 引言

        神經(jīng)機(jī)器翻譯(neural machine translation,NMT)作為一種全新的機(jī)器翻譯方法,近年來獲得迅速發(fā)展。然而,神經(jīng)機(jī)器翻譯僅僅使用一個非線性的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)自然語言之間的轉(zhuǎn)換[1],相比統(tǒng)計機(jī)器翻譯,譯文質(zhì)量對句子長度更為敏感[2]。如何在神經(jīng)機(jī)器翻譯中將一個句子在盡量不損失語義信息的前提下,進(jìn)行長度上的縮減和結(jié)構(gòu)上的簡化是一個值得探究的方向。

        一般認(rèn)為,自然語言中語義的基本單位是短語。因此,將句子級別的對齊和翻譯進(jìn)行到亞句子(sub-sentence)的短語一級顯得尤為重要。句子中的實(shí)體和概念通常可由名詞短語(noun phrase,NP)來描述,其捆綁了一個相對完整的語義信息,具有豐富的句法功能,可在句中充當(dāng)主語和賓語等成分。最長名詞短語[3](maximal-length noun phrase,MNP)指不被其他任何名詞短語嵌套的名詞短語。與一般名詞短語相比,MNP具有更大的粒度,邊界特征較為明顯,有利于句子的整體結(jié)構(gòu)分析。采用分治策略處理MNP,既能在亞句子一級上獲得更精準(zhǔn)的翻譯,也在一定程度上將句子縮短為包含主干信息的句子框架。因此,準(zhǔn)確識別和翻譯MNP,是利用分治策略提升機(jī)器翻譯性能的一個有力手段。

        針對神經(jīng)機(jī)器翻譯在長句翻譯任務(wù)上的不足,考慮到MNP的處理可以在一定程度上簡化句子結(jié)構(gòu),本文提出一種基于MNP分治策略的神經(jīng)機(jī)器翻譯方法。該方法基于一個“抽取—翻譯—重組”的MNP處理框架,旨在將MNP獨(dú)立處理帶來更高質(zhì)量的MNP和句子框架譯文的優(yōu)勢,與神經(jīng)機(jī)器翻譯學(xué)習(xí)能力強(qiáng)、譯文具有較高準(zhǔn)確度和流暢度等優(yōu)勢相結(jié)合,以達(dá)到提升譯文整體質(zhì)量的目的。

        1 相關(guān)研究

        1.1 短語知識在機(jī)器翻譯中的應(yīng)用

        在自然語言中,短語作為語義的基本單位,具有重要的意義。將雙語短語等語言學(xué)知識融入機(jī)器翻譯中,一直是研究人員孜孜追求的目標(biāo)。

        針對基于短語的統(tǒng)計機(jī)器翻譯方法未充分利用語言學(xué)知識、長距離調(diào)序效果不好的問題,丁鵬[4]等提出一種基于雙語句法短語的統(tǒng)計機(jī)器翻譯方法。首先,采用一種基于期望最大化(expectation maximization,EM)的算法來抽取雙語句法短語。然后,通過三種方法將短語應(yīng)用到統(tǒng)計機(jī)器翻譯系統(tǒng)中: (1)將雙語句法短語加入訓(xùn)練語料中,訓(xùn)練翻譯模型; (2)將其加入短語表中,計算短語的特征值; (3)增加一個句法短語特征到短語表中,表征其是否為句法短語。實(shí)驗(yàn)結(jié)果表明,這三種方法得到的譯文BLEU分值分別比基線系統(tǒng)提升了0.23、0.41和0.64。丁鵬等人的方法盡管利用了雙語句法短語,但整體框架仍然是基于短語的統(tǒng)計機(jī)器翻譯方法,長距離調(diào)序效果不佳。

        針對上述問題,Ren X等[5]提出一種簡化專利句子結(jié)構(gòu)以提高翻譯性能和后處理效率的方法。首先,采用一種基于統(tǒng)計方法的識別器,對句中的MNP進(jìn)行識別。在中文樹庫CTB 5.1的專利語料上識別結(jié)果的F值達(dá)到62.28%。然后,對MNP進(jìn)行分析,在識別正確與錯誤的MNP中,分別有97.92%和38.94%,有利于后續(xù)的翻譯過程。最后,在統(tǒng)計機(jī)器翻譯方法上分別使用自動方法和人工方法對系統(tǒng)進(jìn)行評價。與基線系統(tǒng)相比,該系統(tǒng)得到的譯文BLEU分值提升了0.62;語義準(zhǔn)確度和流暢度分別提升0.18和0.17,翻譯效率提升了約100字/小時。該方法的不足在于,沒有使用雙語MNP擴(kuò)展語料,以訓(xùn)練短語表、翻譯模型和調(diào)序模型。MNP作為句子的一部分,翻譯規(guī)則卻與句子不盡相同。導(dǎo)致訓(xùn)練得到的模型能較好地翻譯簡化后的句子,卻不能準(zhǔn)確翻譯MNP。

        1.2 神經(jīng)機(jī)器翻譯

        統(tǒng)計機(jī)器翻譯(statistical machine translation,SMT)主要存在三個挑戰(zhàn)[10]*實(shí)際上,引文中作者給出了六個挑戰(zhàn),這里只列舉其三。: (1)線性不可分; (2)缺乏合適的語義表示; (3)難以設(shè)計特征。而深度學(xué)習(xí)可以較好地緩解上述問題,因此完全基于深度學(xué)習(xí)的端到端神經(jīng)機(jī)器翻譯應(yīng)運(yùn)而生,并獲得迅速發(fā)展。

        研究人員通過將現(xiàn)有的方法和策略引入端到端的神經(jīng)網(wǎng)絡(luò),以實(shí)現(xiàn)翻譯性能的不斷提升。Sutskever等[11]首次將長短期記憶[12](long short-term memory,LSTM)引入到神經(jīng)機(jī)器翻譯,以緩解遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)訓(xùn)練時“梯度消失”的問題,并且在“編碼—解碼”(encoder-decoder)框架兩端同時采用遞歸神經(jīng)網(wǎng)絡(luò)。圖1給出了Sutskever等人提出的神經(jīng)機(jī)器翻譯模型。

        圖1 端到端神經(jīng)機(jī)器翻譯,隱狀態(tài)e3作為句子向量c

        在源端,對于句子X={x0,x1,x2,x3},編碼器遞歸地依據(jù)前一時刻隱狀態(tài)et-1和詞xt計算當(dāng)前時刻隱狀態(tài)et。直到掃描尾詞xn隨即完成了編碼過程,并將最后一個隱狀態(tài)en作為表示源語言句子的向量c,指導(dǎo)并約束后續(xù)解碼過程。et的計算如式(1)所示。

        et=g(et-1,xt)

        (1)

        在目標(biāo)端,解碼器遞歸地依據(jù)向量c和已生成的目標(biāo)詞yt-1以及上一時刻隱狀態(tài)dt-1共同作用于當(dāng)前時刻隱狀態(tài)dt,如式(2)所示。

        dt=h(dt-1,yt-1,c)

        (2)

        得到解碼器隱狀態(tài)dt后,目標(biāo)詞yt的概率分布可由式(3)得到。

        p(yt|y

        (3)

        其中,g、h和f為非線性函數(shù)。通過解碼器遞歸地從左至右逐一生成目標(biāo)詞,最終得到完整譯文Y={y0,y1,y2,y3}。盡管引入長短期記憶的神經(jīng)機(jī)器翻譯在性能上獲得大幅提升,卻面臨著實(shí)現(xiàn)準(zhǔn)確編碼的挑戰(zhàn)。因?yàn)椴徽摼渥娱L短,編碼器都要將其映射為一個固定維度的向量。

        針對上述問題,Bengio等[13]提出了基于注意力(attention)的神經(jīng)機(jī)器翻譯。解碼器在生成目標(biāo)詞yi時,動態(tài)地注意源語言句中與之相關(guān)的上下文ci,而不再關(guān)注整個源語言句子。圖2給出了引入注意力機(jī)制的神經(jīng)機(jī)器翻譯模型。

        圖2 基于注意力機(jī)制的神經(jīng)機(jī)器翻譯,動態(tài)生成上下文向量c

        引入注意力的神經(jīng)機(jī)器翻譯的關(guān)鍵在于基于注意力的上下文向量c的生成。當(dāng)前時刻待生成詞yt在源端對應(yīng)的上下文向量ct由源語言隱狀態(tài)序列e={e0,e1,e2,e3}和注意力權(quán)重at加權(quán)求和得到,而注意力權(quán)重at由上一時刻解碼器隱狀態(tài)dt-1和源端隱狀態(tài)ej共同作用產(chǎn)生。如式(4)~(6)所示。

        其中,m為非線性函數(shù)。得到當(dāng)前時刻上下文向量ct后,當(dāng)前時刻解碼器隱狀態(tài)dt與待生成詞yi的條件概率分布分別可由式(2)和式(3)求解。

        盡管長短期記憶和注意力機(jī)制的引入能夠更好地處理長距離依賴,從而提升神經(jīng)機(jī)器翻譯的性能。然而,自然語言中句子長短不一、結(jié)構(gòu)復(fù)雜,通過單一神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)翻譯知識的方法受到限制。如何利用語言學(xué)知識結(jié)合分治策略對句子的各部分進(jìn)行分治與整合,是一個值得研究的問題。

        2 基于MNP分治策略的神經(jīng)機(jī)器翻譯

        盡管神經(jīng)機(jī)器翻譯近年來獲得了迅速發(fā)展,但目前的方法主要是從數(shù)據(jù)中自動學(xué)習(xí)翻譯知識,沒有充分利用語言學(xué)知識顯式地指導(dǎo)翻譯過程。并且,神經(jīng)機(jī)器翻譯使用固定維度的向量表示變化長度的詞句,造成結(jié)構(gòu)復(fù)雜的長句翻譯效果不佳。

        針對上述問題,本文提出一種基于MNP分治策略的神經(jīng)機(jī)器翻譯。該方法主要基于分治法的思想,采用一個“抽取—翻譯—重組”的MNP處理框架,將單個復(fù)雜長句的翻譯問題,轉(zhuǎn)化為一個或多個攜帶子句信息的MNP和維系主干信息的句子框架的翻譯問題,以實(shí)現(xiàn)翻譯性能的整體提升。

        2.1 “抽取—翻譯—重組”框架

        在分治策略中,通常將單個復(fù)雜問題轉(zhuǎn)化為多個相對簡單的問題,并分而治之。鑒于MNP在句中使用頻率高、句法功能豐富以及邊界易于識別等事實(shí),本文主要基于 “抽取—翻譯—重組”的MNP處理框架以實(shí)現(xiàn)分治策略的神經(jīng)機(jī)器翻譯。表1給出了該方法的完整示例。

        表1 “抽取—翻譯—重組”框架示例

        在示例中,抽取MNP時在句子框架中保留特殊標(biāo)識“MNPi”(i=1,2,)。作為對比,本文還使用了在句子框架中保留MNP核心詞的方法。將在2.3節(jié)、2.4節(jié)和2.5節(jié)中逐一說明“抽取—翻譯—重組”框架的三個步驟,并對抽取MNP時保留特殊標(biāo)識或MNP核心詞的方法作出詳細(xì)論述。

        2.2 雙語MNP語料庫的構(gòu)建

        本文采用神經(jīng)機(jī)器翻譯系統(tǒng)分別對MNP和句子框架進(jìn)行翻譯。因此,雙語MNP語料庫的構(gòu)建是其中重要的一個環(huán)節(jié)。為保證訓(xùn)練和測試過程中MNP的抽取規(guī)則一致,本文沒有采用雙語MNP對齊算法進(jìn)行抽取,而是采用一個“抽取+查表”的方法。步驟描述如下:

        (1) 使用分析器對源語言句子進(jìn)行短語結(jié)構(gòu)句法分析,依據(jù)標(biāo)記匹配和括號對齊等規(guī)則抽取MNP。

        (2) 訓(xùn)練并查找短語表,匹配其中與源語言MNP對齊分值最高的目標(biāo)語言MNP。

        上述方法的優(yōu)勢在于每一步都可以加入規(guī)則條件,以獲得較高質(zhì)量的雙語MNP。本文在抽取源語言MNP以及查找短語表匹配其對應(yīng)的目標(biāo)語言MNP時,過濾掉長度小于2或包含符號、標(biāo)點(diǎn)等特殊字符的MNP。得到雙語MNP后,神經(jīng)機(jī)器翻譯系統(tǒng)的訓(xùn)練和測試過程如下:

        首先,將雙語MNP分別加入訓(xùn)練數(shù)據(jù)集和開發(fā)數(shù)據(jù)集中,利用擴(kuò)展后的數(shù)據(jù)集訓(xùn)練神經(jīng)機(jī)器翻譯模型。這一做法旨在得到能同時翻譯句子和MNP的神經(jīng)機(jī)器翻譯模型。

        其次,對測試數(shù)據(jù)集進(jìn)行同樣的短語結(jié)構(gòu)句法分析,抽取MNP的同時在句子框架中保留特殊標(biāo)識或MNP核心詞。

        最后,分別對句子框架和MNP進(jìn)行翻譯,將譯文重新組合以得到原句的完整翻譯。

        圖3給出了基于“抽取—翻譯—重組”框架的神經(jīng)機(jī)器翻譯系統(tǒng)翻譯的過程。考慮到短句子譯文質(zhì)量原本較高,本文只對長度超過閾值L且可成功抽取MNP的句子采用基于“抽取—翻譯—重組”框架的分治策略進(jìn)行處理。

        圖3 神經(jīng)機(jī)器翻譯系統(tǒng)的“抽取—翻譯—重組”過程

        2.3 抽取

        抽取過程的核心任務(wù)是對句子進(jìn)行短語結(jié)構(gòu)句法分析??紤]到抽取較短的MNP對縮減句子長度、降低句子結(jié)構(gòu)復(fù)雜度影響較小。因此,本文只對長度不小于2的MNP進(jìn)行抽取。

        抽取過程的另一個重要問題是,抽取MNP時在句子框架中保留何種標(biāo)記以實(shí)現(xiàn)更好的分治效果。本文主要嘗試以下兩種保留標(biāo)記的方法。

        方法一采用“MNPi”(i=1,2,)作為句子框架中的特殊標(biāo)識,以保留MNP與句子框架中標(biāo)記的對齊關(guān)系。

        方法二將MNP的核心詞保留在句子框架中。通常,MNP的尾詞為其核心詞。

        兩種方法各有其優(yōu)勢和不足: 方法一盡管可以保留MNP和句子框架譯文的對齊關(guān)系,為后續(xù)的譯文重組過程帶來積極影響,但是將“MNPi”保留在句子框架中破壞了句子的流暢度,甚至改變了原本含義。相反地,方法二在句子框架中保留核心詞,保證了流暢度和語義完整性,從而能夠獲得較好的句子框架譯文。然而,核心詞卻無法直接對齊到句子框架譯文中的相應(yīng)位置。為此,需額外訓(xùn)練詞對齊信息,以在句子框架譯文中匹配核心詞譯文,對其進(jìn)行替換。

        2.4 翻譯

        采用雙語MNP擴(kuò)展后的平行語料可訓(xùn)練得到神經(jīng)機(jī)器翻譯模型。圖4給出了神經(jīng)機(jī)器翻譯模型采用分治策略,對句法樹中的句子框架和MNP進(jìn)行“分治”翻譯的過程。其中,下側(cè)虛線方框表示神經(jīng)機(jī)器翻譯模型對MNP“流離失所 家庭”與“現(xiàn)金 救助”的翻譯,上側(cè)虛線方框給出了對保留特殊標(biāo)識或核心詞的句子框架的翻譯。

        圖4 神經(jīng)機(jī)器翻譯模型對MNP及句子框架的“分治”翻譯

        2.5 重組

        重組過程主要是對句子框架和MNP的譯文進(jìn)行重新組合,即將MNP譯文替換到句子框架譯文中的相應(yīng)位置,以獲得完整譯文。根據(jù)MNP抽取時保留的特殊標(biāo)識不同,重組過程中也包含以下兩種方法。

        方法一使用第i個MNP譯文替換句子框架譯文中的特殊標(biāo)識“MNPi”;

        方法二通過預(yù)先訓(xùn)練得到的詞對齊信息查找MNP核心詞的可能譯文,當(dāng)譯文出現(xiàn)在句子框架譯文中時,對其進(jìn)行替換。

        3 實(shí)驗(yàn)

        3.1 語料說明

        本文實(shí)驗(yàn)主要針對中英翻譯任務(wù),語料來源于聯(lián)合國語料庫*https: //conferences.unite.un.org/UNCorpus中的中英雙語平行語料。其中,訓(xùn)練數(shù)據(jù)集共15 886 041句,實(shí)驗(yàn)過程只隨機(jī)抽取部分語料。官方開發(fā)數(shù)據(jù)集和測試數(shù)據(jù)集各4 000句。

        針對雙語MNP語料庫的構(gòu)建問題,本文隨機(jī)從訓(xùn)練語料中抽取150 000句中英雙語平行句對。首先,采用Berkeley Parser*https: //github.com/slavpetrov/berkeleyparser對長度超過閾值L=15的中文句子進(jìn)行句法分析,采用NiuTrans*http: //www.niutrans.com/niutrans/NiuTrans.html開源系統(tǒng)訓(xùn)練短語表。然后,依據(jù)2.2節(jié)所述抽取方法和過濾規(guī)則,抽取中文MNP,并在短語表中查找其對應(yīng)英文MNP,對不符合條件的雙語MNP進(jìn)行過濾。最后,使用雙語MNP擴(kuò)展訓(xùn)練數(shù)據(jù)集和開發(fā)數(shù)據(jù)集。表2給出了實(shí)驗(yàn)數(shù)據(jù)的相關(guān)信息。

        表2 訓(xùn)練數(shù)據(jù)集與開發(fā)數(shù)據(jù)集

        針對測試語料,同樣采用Berkeley Parser對長度超過閾值L=15的句子進(jìn)行句法分析,并使用標(biāo)記匹配和括號對齊等規(guī)則的方法抽取MNP。表3給出了測試語料的相關(guān)信息。

        表3 測試語料信息

        從表3可以看出,相比于成功抽取出MNP的句子平均長度,MNP和句子框架的平均長度分別縮短了19.64和27.10。

        3.2 參數(shù)設(shè)置

        本文主要在深度學(xué)習(xí)框架Theano上采用DL4MT*https: //github.com/nyu-dl/dl4mt-tutorial/開源代碼,搭建基于注意力機(jī)制的神經(jīng)機(jī)器翻譯系統(tǒng)。表4給出了實(shí)驗(yàn)中神經(jīng)網(wǎng)絡(luò)的主要參數(shù)設(shè)置及部分說明。

        表4 網(wǎng)絡(luò)參數(shù)設(shè)置及說明

        表4中,eos和UNK是置于詞表首位的特殊詞。將eos追加在句尾,表示句子結(jié)束。當(dāng)編碼器掃描到eos時結(jié)束編碼,同樣地,當(dāng)解碼器生成目標(biāo)詞eos時,終止解碼過程。由于網(wǎng)絡(luò)訓(xùn)練過程中softmax函數(shù)的計算復(fù)雜度較高,而其與詞表規(guī)模成正相關(guān),因此詞表大小受到限制??紤]到集外詞對神經(jīng)機(jī)器翻譯系統(tǒng)的性能影響較大[14],本文將集外詞統(tǒng)一替換為特殊詞UNK。

        在網(wǎng)絡(luò)訓(xùn)練過程中,采用隨機(jī)梯度下降(stochastic gradient descent,SGD)算法進(jìn)行參數(shù)更新。模型測試時,本文采用束搜索(beam search)算法生成最終譯文,束大小設(shè)置為10。

        3.3 結(jié)果與分析

        3.3.1 MNP抽取

        本文采用一種基于MNP分治策略的神經(jīng)機(jī)器翻譯方法,因此,能否準(zhǔn)確識別MNP直接影響到系統(tǒng)的翻譯性能。本文從成功抽取MNP的1 924個句子中隨機(jī)抽取200句,并對句中的MNP進(jìn)行人工標(biāo)注。通過比對系統(tǒng)的MNP抽取結(jié)果和人工標(biāo)注結(jié)果,可計算得到系統(tǒng)MNP識別的準(zhǔn)確率、召回率、F值,如表5所示。

        表5 MNP識別結(jié)果

        由表5可以看出,約27%的MNP識別存在錯誤。但邊界錯誤的MNP并不全都給后續(xù)的翻譯過程造成消極影響[5]。

        3.3.2 句長敏感度

        為驗(yàn)證句子長度對于譯文質(zhì)量的影響,本文分別在基線系統(tǒng)和MNP分治系統(tǒng)上,對測試數(shù)據(jù)集中的句子按照不同的長度分布進(jìn)行測試。其中,基線系統(tǒng)指未采用“抽取—翻譯—重組”的MNP處理框架的神經(jīng)機(jī)器翻譯系統(tǒng)。MNP分治系統(tǒng)包含兩種方法,即抽取MNP時在句子框架中保留特殊標(biāo)識“MNPi”與保留MNP核心詞。

        本文采用NiuTrans①開源系統(tǒng)中集成的大小寫不敏感的4-gram BLEU方法對譯文質(zhì)量進(jìn)行自動評價。如圖5所示,橫坐標(biāo)表示不同句長分布,縱坐標(biāo)表示譯文BLEU分值。

        圖5 系統(tǒng)在不同句長分布上的翻譯性能

        由圖5可以看出,隨著句子長度的增加,譯文質(zhì)量呈明顯下降趨勢。特別地,當(dāng)句子長度超過20后譯文質(zhì)量顯著下降,基線系統(tǒng)的譯文BLEU分值下降了7.23,保留特殊標(biāo)識“MNPi”方法和MNP核心詞方法的譯文BLEU分值分別下降了6.55和6.31。

        具體來看,主要有三點(diǎn)結(jié)論: (1)當(dāng)句長小于20時,基線系統(tǒng)略優(yōu)于MNP分治系統(tǒng)。原因分析如下: 首先,神經(jīng)機(jī)器翻譯方法原本在短句上翻譯性能較好。其次,MNP分治系統(tǒng)在“抽取—翻譯—重組”框架的三個步驟中都存在一定的損失,當(dāng)這種損失與分治方法帶來的提升持平時,分治系統(tǒng)的優(yōu)勢表現(xiàn)得并不明顯。(2)當(dāng)句長超過20后,隨著句子長度的增大,MNP分治系統(tǒng)越來越表現(xiàn)出更優(yōu)的翻譯性能。尤其當(dāng)句長在80和100之間時,相比于基線系統(tǒng),保留特殊標(biāo)識“MNPi”和保留MNP核心詞的方法,譯文BLEU分值分別提升了3.10和5.75。(3)保留MNP核心詞的方法在翻譯性能上優(yōu)于保留特殊標(biāo)識“MNPi”的方法,且隨著句長的增大,優(yōu)勢愈發(fā)明顯。

        3.3.3 翻譯性能

        本文采用“抽取—翻譯—重組”的MNP處理框架,對句子進(jìn)行短語結(jié)構(gòu)句法分析后抽取MNP,并保留特殊標(biāo)識或MNP核心詞與其他部分組成句子框架。表6給出了基線系統(tǒng)、保留特殊標(biāo)識“MNPi”以及保留MNP核心詞的三種神經(jīng)機(jī)器翻譯系統(tǒng)的譯文質(zhì)量。

        表6 譯文質(zhì)量對比

        由表6可以看出,基于“抽取—翻譯—重組”的MNP處理框架,抽取MNP時保留特殊標(biāo)識“MNPi”和保留MNP核心詞的方法在基線系統(tǒng)的基礎(chǔ)上,都獲得一定的提升。相比于基線系統(tǒng),保留“MNPi”的方法BLEU分值提升了0.36,保留MNP核心詞的方法BLEU分值提升了0.89。

        在分治系統(tǒng)中,由于抽取MNP時在句子框架中保留了MNP的核心詞,在一定程度上提高了句子框架的流暢度和語義完整性,從而相比于保留“MNPi”,表現(xiàn)出更好的性能,譯文的BLEU分值提升了0.53。

        4 總結(jié)與展望

        本文針對當(dāng)前神經(jīng)機(jī)器翻譯方法的譯文質(zhì)量對句子長度敏感的問題,提出一種基于MNP分治策略的神經(jīng)機(jī)器翻譯方法。依據(jù)組塊分析和分治法的思想,對長句進(jìn)行MNP識別和抽取,進(jìn)一步對MNP和句子框架進(jìn)行獨(dú)立翻譯,從而在一定程度上緩解了神經(jīng)機(jī)器翻譯對句子長度敏感的問題。

        實(shí)驗(yàn)結(jié)果表明,該方法通過對訓(xùn)練數(shù)據(jù)的擴(kuò)展、翻譯前對MNP的識別和抽取、翻譯中對MNP和句子框架的分而治之、翻譯后對譯文的重組等策略給神經(jīng)機(jī)器翻譯帶來積極的影響。相對基線系統(tǒng)的方法,BLEU分值提升了0.89。

        然而,該方法在MNP抽取,句子框架與MNP的譯文重組等方面都存在一定的損失,并且,諸如目標(biāo)語言MNP的單復(fù)數(shù)等問題尚待解決。下一步研究工作的重心擬定在以下兩個方面: 首先,將該方法泛化到其他類型的短語結(jié)構(gòu),以對目前方法做進(jìn)一步擴(kuò)充;其次,因?yàn)檫^程中涉及對句子的拆分與整合,應(yīng)更多地從語言學(xué)角度重新思考“抽取—翻譯—重組”的分治策略,以采取更優(yōu)的方法。

        [1] Zhang J, Zong C. Deep neural networks in machine translation: An overview[J]. IEEE Intelligent Systems, 2015, 30(5): 16-25.

        [2] Cho K, Merrienboer B V, Bahdanau D, et al. On the properties of neural machine translation: Encoder-decoder approaches[J]//arXio: 1409.1259.2014.

        [3] 蔡東風(fēng),趙奇猛,饒齊,等. 基于馬爾科夫邏輯網(wǎng)的中文專利最大名詞短語識別[J]. 中文信息學(xué)報, 2016, 30(4): 21-28.

        [4] 丁鵬. 基于雙語句法短語的統(tǒng)計機(jī)器翻譯研究[D]. 大連: 大連理工大學(xué)碩士學(xué)位論文, 2013.

        [5] Ren X, Wei Y, Hu R. Simplify sentence structure for improving human post-editing efficiency on Chinese-to-English patent machine translation[C]//Proceedings of 6th Workshp on Patent and Scientific Literature Translation (PSLT6) Miami, 2015: 33-43.

        [6] Luong M T, Pham H, Manning C D. Effective Approaches to Attention-based Neural Machine Translation[C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, Lisbon, Portugal, 2015: 1412-1421.

        [7] Sennrich R, Haddow B, Birch A. Neural Machine Translation of Rare Words with Subword Units[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, Berlin, Germany, 2016: 1715-1725.

        [8] Wu Y, Schuster M, Chen Z, et al. Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation[J]. arXiv: 1609.08144

        [9] Zhang J, Zong C. Bridging Neural Machine Translation and Bilingual Dictionaries[J]. arXiv: 1610.07272

        [10] 劉洋. 基于深度學(xué)習(xí)的機(jī)器翻譯研究進(jìn)展[J]. 中國人工智能學(xué)會通訊, 2015: 28-32.

        [11] Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neural networks[J]. Advances in Neural Information Processing Systems, 2014(4): 3104-3112.

        [12] Graves A. Long short-term memory[M]. Supervised Sequence Labelling with Recurrent Neural Networks. Springer Berlin Heidelberg, 2012: 1735-1780.

        [13] Bahdanau D, Cho K, Bengio Y. Neural Machine Translation by Jointly Learning to Align and Translate[J]. arXiv: 1409.0473

        [14] Li X, Zhang J, Zong C. Towards zero unknown word in neural machine translation[C]//Proceedings of the International Joint Conference on Artificial Intelligence. AAAI Press, 2016: 2852-2858.

        猜你喜歡
        語料雙語短語
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
        《苗防備覽》中的湘西語料
        快樂雙語
        新晨(2013年7期)2014-09-29 06:19:50
        快樂雙語
        新晨(2013年5期)2014-09-29 06:19:50
        快樂雙語
        新晨(2013年10期)2014-09-29 02:50:54
        國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
        雙語秀
        激情航班h版在线观看| 亚洲97成人精品久久久 | 又黄又硬又湿又刺激视频免费| 亚洲av理论在线电影网| www.尤物视频.com| 亚洲天堂av在线免费观看| 色综合久久久无码中文字幕| 日本不卡在线视频二区三区| 丝袜美腿网站一区二区| 中文字幕一区二区三区综合网| 亚洲精品乱码久久久久久| 中文字幕精品久久久久人妻红杏ⅰ| 香蕉网站在线| 青青草免费在线视频导航| 蜜桃一区二区在线视频| 欧洲熟妇色xxxxx欧美老妇伦| 国产免费专区| 亚洲精品在线观看自拍| 久久久久av综合网成人 | 亚洲一区二区三区乱码在线| 日韩精品免费一区二区三区观看| 免费人成网ww555kkk在线| 国产无线乱码一区二三区| 国产精品毛片av一区二区三区| 少妇无套裸按摩呻吟无呜| 成人免费一区二区三区| 久久精品免视看国产明星| 少妇高潮精品正在线播放| 久久久久久久亚洲av无码| 国产无套护士在线观看| 国产亚洲高清在线精品不卡| 亚洲av日韩一卡二卡| 国产午夜鲁丝片av无码| 国产精品偷伦免费观看的| 九九久久精品一区二区三区av| 少妇高潮太爽了在线视频| 天堂网在线最新版www中文网| 亚洲综合色婷婷七月丁香| 亚洲一区二区三区日本久久九| 欧美aaaaaa级午夜福利视频| 亚洲一区二区自拍偷拍|