亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        神經(jīng)機(jī)器翻譯前沿進(jìn)展

        2017-06-23 12:47:28
        關(guān)鍵詞:源語(yǔ)言解碼器編碼器

        劉 洋

        (清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系 北京 100084) (清華信息科學(xué)與技術(shù)國(guó)家實(shí)驗(yàn)室(籌) 北京 100084) (智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室(清華大學(xué)) 北京 100084)

        神經(jīng)機(jī)器翻譯前沿進(jìn)展

        劉 洋

        (清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系 北京 100084) (清華信息科學(xué)與技術(shù)國(guó)家實(shí)驗(yàn)室(籌) 北京 100084) (智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室(清華大學(xué)) 北京 100084)

        (liuyang2011@tsinghua.edu.cn)

        機(jī)器翻譯研究如何利用計(jì)算機(jī)實(shí)現(xiàn)自然語(yǔ)言之間的自動(dòng)翻譯,是人工智能和自然語(yǔ)言處理領(lǐng)域的重要研究方向之一.近年來(lái),基于深度學(xué)習(xí)的神經(jīng)機(jī)器翻譯方法獲得迅速發(fā)展,目前已取代傳統(tǒng)的統(tǒng)計(jì)機(jī)器翻譯成為學(xué)術(shù)界和工業(yè)界新的主流方法.首先介紹神經(jīng)機(jī)器翻譯的基本思想和主要方法,然后對(duì)最新的前沿進(jìn)展進(jìn)行綜述,最后對(duì)神經(jīng)機(jī)器翻譯的未來(lái)發(fā)展方向進(jìn)行展望.

        人工智能;深度學(xué)習(xí);神經(jīng)機(jī)器翻譯;編碼器-解碼器架構(gòu);注意力機(jī)制

        機(jī)器翻譯研究如何利用計(jì)算機(jī)實(shí)現(xiàn)自然語(yǔ)言之間的自動(dòng)轉(zhuǎn)換,是人工智能和自然語(yǔ)言處理領(lǐng)域的重要研究方向之一.機(jī)器翻譯作為突破不同國(guó)家和民族之間信息傳遞所面臨的“語(yǔ)言屏障”問(wèn)題的關(guān)鍵技術(shù),對(duì)于促進(jìn)民族團(tuán)結(jié)、加強(qiáng)文化交流和推動(dòng)對(duì)外貿(mào)易具有重要意義.

        自20世紀(jì)40年代末至今,機(jī)器翻譯研究大體上經(jīng)歷了2個(gè)發(fā)展階段:理性主義方法占主導(dǎo)時(shí)期(1949—1992)和經(jīng)驗(yàn)主義方法占主導(dǎo)時(shí)期(1993—2016).早期的機(jī)器翻譯主要采用理性主義方法,主張由人類(lèi)專(zhuān)家觀察不同自然語(yǔ)言之間的轉(zhuǎn)換規(guī)律,以規(guī)則形式表示翻譯知識(shí).雖然這類(lèi)方法能夠在句法和語(yǔ)義等深層次實(shí)現(xiàn)自然語(yǔ)言的分析、轉(zhuǎn)換和生成,卻面臨著翻譯知識(shí)獲取難、開(kāi)發(fā)周期長(zhǎng)、人工成本高等困難.

        隨著互聯(lián)網(wǎng)的興起,特別是近年來(lái)大數(shù)據(jù)和云計(jì)算的蓬勃發(fā)展,經(jīng)驗(yàn)主義方法在20世紀(jì)90年代以后開(kāi)始成為機(jī)器翻譯的主流.經(jīng)驗(yàn)主義方法主張以數(shù)據(jù)而不是人為中心,通過(guò)數(shù)學(xué)模型描述自然語(yǔ)言的轉(zhuǎn)換過(guò)程,在大規(guī)模多語(yǔ)言文本數(shù)據(jù)上自動(dòng)訓(xùn)練數(shù)學(xué)模型.這一類(lèi)方法的代表是統(tǒng)計(jì)機(jī)器翻譯[1-3],其基本思想是通過(guò)隱結(jié)構(gòu)(詞語(yǔ)對(duì)齊、短語(yǔ)切分、短語(yǔ)調(diào)序、同步文法等)描述翻譯過(guò)程,利用特征刻畫(huà)翻譯規(guī)律,并通過(guò)特征的局部性采用動(dòng)態(tài)規(guī)劃算法在指數(shù)級(jí)的搜索空間中實(shí)現(xiàn)多項(xiàng)式時(shí)間復(fù)雜度的高效翻譯.2006年,Google Translate在線翻譯服務(wù)的推出標(biāo)志著數(shù)據(jù)驅(qū)動(dòng)的統(tǒng)計(jì)機(jī)器翻譯方法成為商業(yè)機(jī)器翻譯系統(tǒng)的主流.盡管如此,統(tǒng)計(jì)機(jī)器翻譯仍面臨著翻譯性能?chē)?yán)重依賴(lài)于隱結(jié)構(gòu)與特征設(shè)計(jì)、局部特征難以捕獲全局依賴(lài)關(guān)系、對(duì)數(shù)線性模型難以處理翻譯過(guò)程中的線性不可分現(xiàn)象等難題.

        自2014年以來(lái),端到端神經(jīng)機(jī)器翻譯(end-to-end neural machine translation)[4-5]獲得了迅速發(fā)展,相對(duì)于統(tǒng)計(jì)機(jī)器翻譯而言在翻譯質(zhì)量上獲得顯著提升.圖1給出了統(tǒng)計(jì)機(jī)器翻譯與神經(jīng)機(jī)器翻譯在30種語(yǔ)言對(duì)上的對(duì)比實(shí)驗(yàn)結(jié)果[6],神經(jīng)機(jī)器翻譯在其中的27種語(yǔ)言對(duì)上超過(guò)統(tǒng)計(jì)機(jī)器翻譯.因此,神經(jīng)機(jī)器翻譯已經(jīng)取代統(tǒng)計(jì)機(jī)器翻譯成為Google、微軟、百度、搜狗等商用在線機(jī)器翻譯系統(tǒng)的核心技術(shù).

        Fig. 1 Comparison between statistical machine translation and neural machine translation (NMT) on 30 languages pairs[6]圖1 統(tǒng)計(jì)機(jī)器翻譯(Pb-SMT)與神經(jīng)機(jī)器翻譯(NMT)在30個(gè)語(yǔ)言對(duì)上的對(duì)比[6]

        1 神經(jīng)機(jī)器翻譯

        端到端神經(jīng)機(jī)器翻譯的基本思想是通過(guò)神經(jīng)網(wǎng)絡(luò)直接實(shí)現(xiàn)自然語(yǔ)言之間的自動(dòng)翻譯.為此,神經(jīng)機(jī)器翻譯通常采用編碼器-解碼器(encoder-decoder)框架實(shí)現(xiàn)序列到序列的轉(zhuǎn)換[5].

        以圖2為例,給定一個(gè)中文句子“布什 與 沙龍 舉行 了 會(huì)談”,編碼器-解碼器框架首先為每個(gè)中文詞生成向量表示,然后通過(guò)一個(gè)遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network)從左向右生成整個(gè)中文句子的向量表示.其中,“〈/s〉”表示句尾結(jié)束符.我們將源語(yǔ)言端所使用的遞歸神經(jīng)網(wǎng)絡(luò)稱(chēng)為編碼器,即將源語(yǔ)言句子編碼成一個(gè)稠密、連續(xù)的實(shí)數(shù)向量.

        Fig. 2 The encoder-decoder framework圖2 編碼器-解碼器框架

        此后,目標(biāo)語(yǔ)言端采用另一個(gè)遞歸神經(jīng)網(wǎng)絡(luò)將源語(yǔ)言句子向量反向解碼生成英文句子“Bush held a talk with Shalon 〈/s〉”.整個(gè)解碼過(guò)程逐詞生成,當(dāng)生成句尾結(jié)束符“〈/s〉”后,解碼過(guò)程終止.我們將目標(biāo)語(yǔ)言端所使用的遞歸神經(jīng)網(wǎng)絡(luò)稱(chēng)為解碼器.需要注意的是,每一個(gè)新生成的英文詞都作為生成下一個(gè)英文詞的歷史信息.因此,解碼器可以視作包含源語(yǔ)言信息的目標(biāo)語(yǔ)言的語(yǔ)言模型.

        相對(duì)于傳統(tǒng)的統(tǒng)計(jì)機(jī)器翻譯,基于編碼器-解碼器框架的神經(jīng)機(jī)器翻譯具有2個(gè)優(yōu)點(diǎn):

        1) 直接從生數(shù)據(jù)中學(xué)習(xí)特征.統(tǒng)計(jì)機(jī)器翻譯需要人工設(shè)計(jì)定義在隱結(jié)構(gòu)上的特征來(lái)刻畫(huà)翻譯規(guī)律.由于自然語(yǔ)言的高度復(fù)雜性,如何確保特征設(shè)計(jì)覆蓋全部語(yǔ)言現(xiàn)象成為重要挑戰(zhàn).神經(jīng)網(wǎng)絡(luò)最大的優(yōu)勢(shì)在于能夠直接從生數(shù)據(jù)中學(xué)習(xí)特征.研究結(jié)果表明,編碼器-解碼器框架學(xué)習(xí)到的句子向量表示能夠?qū)⒕浞ú煌?、語(yǔ)義相同的句子聚在一起,同時(shí)能夠?qū)⑼ㄟ^(guò)調(diào)換主語(yǔ)和賓語(yǔ)產(chǎn)生的句法相同、語(yǔ)義不同的句子區(qū)分開(kāi)[5].

        2) 能夠捕獲長(zhǎng)距離依賴(lài).由于自然語(yǔ)言的復(fù)雜性和多樣性,表達(dá)相同含義,不同語(yǔ)言之間的詞語(yǔ)順序差異性非常大.這種語(yǔ)言結(jié)構(gòu)差異給統(tǒng)計(jì)機(jī)器翻譯帶來(lái)了嚴(yán)重的挑戰(zhàn).用戶(hù)在使用統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)時(shí),經(jīng)常會(huì)發(fā)現(xiàn)單個(gè)詞語(yǔ)翻譯很準(zhǔn)確,但整體上難以形成合乎語(yǔ)法的句子.這種現(xiàn)象產(chǎn)生的根源在于,統(tǒng)計(jì)機(jī)器翻譯通過(guò)隱結(jié)構(gòu)描述翻譯過(guò)程,為了在指數(shù)級(jí)的隱結(jié)構(gòu)組合空間中實(shí)現(xiàn)高效搜索,不得不采用局部特征來(lái)支持動(dòng)態(tài)規(guī)劃算法.除此之外,另一個(gè)重要原因在于考慮更多的上下文信息會(huì)面臨嚴(yán)重的數(shù)據(jù)稀疏問(wèn)題.神經(jīng)機(jī)器翻譯通過(guò)基于長(zhǎng)短時(shí)記憶(long short-term memory)的遞歸神經(jīng)網(wǎng)絡(luò)[7]能夠有效捕獲長(zhǎng)距離依賴(lài),同時(shí)通過(guò)向量表示緩解數(shù)據(jù)稀疏問(wèn)題,顯著提升了譯文的流利度和可讀性.

        盡管如此,編碼器-解碼器框架仍然面臨一個(gè)嚴(yán)重的問(wèn)題:編碼器生成的源語(yǔ)言句子向量表示的維度與源語(yǔ)言句子長(zhǎng)度無(wú)關(guān).換句話說(shuō),無(wú)論是10個(gè)詞的源語(yǔ)言句子、還是100個(gè)詞的源語(yǔ)言句子,都會(huì)被編碼為固定維度的向量.這對(duì)于編碼器處理長(zhǎng)距離信息傳遞帶來(lái)了極大的挑戰(zhàn).事實(shí)上,即使采用長(zhǎng)短時(shí)記憶,編碼器往往還是難以有效處理長(zhǎng)距離依賴(lài),在長(zhǎng)句上的翻譯質(zhì)量顯著下降[5].

        1.2 注意力機(jī)制

        Fig. 3 Attention-based neural machine translation圖3 基于注意力機(jī)制的神經(jīng)機(jī)器翻譯

        為了解決定長(zhǎng)源語(yǔ)言句子向量難以捕獲長(zhǎng)距離依賴(lài)的問(wèn)題,文獻(xiàn)[6]引入了注意力(attention)機(jī)制動(dòng)態(tài)計(jì)算源語(yǔ)言端上下文.

        如圖3所示,基于注意力機(jī)制的神經(jīng)機(jī)器翻譯采用了完全不同的編碼器,其目標(biāo)不再是為整個(gè)源語(yǔ)言句子生成向量表示,而是為每個(gè)源語(yǔ)言詞生成包含全局信息的向量表示.該編碼器首先使用一個(gè)正向遞歸神經(jīng)網(wǎng)絡(luò)將信息從左向右傳遞,然后再使用一個(gè)逆向遞歸神經(jīng)網(wǎng)絡(luò)將信息從右向左傳遞,最后將正向和逆向的隱狀態(tài)拼接起來(lái)作為源語(yǔ)言詞的向量表示.這種做法的優(yōu)點(diǎn)在于每個(gè)源語(yǔ)言詞的向量表示均包含了其左側(cè)和右側(cè)的上下文信息.

        在目標(biāo)語(yǔ)言端,解碼器在生成每個(gè)目標(biāo)語(yǔ)言詞時(shí)動(dòng)態(tài)尋找與之相關(guān)的源語(yǔ)言上下文.例如,當(dāng)生成英文詞“Bush”的時(shí)候,中文詞“布什”與之最相關(guān),而“舉行”和“了”等詞可能并不相關(guān),只需要將“布什”的向量表示作為源端上下文傳遞到目標(biāo)端.而當(dāng)生成英文詞“held”的時(shí)候,最相關(guān)的中文詞是“舉行”和“了”.因此,注意力機(jī)制改變了信息傳遞的方式,能夠動(dòng)態(tài)計(jì)算最相關(guān)的上下文,從而更好地解決了長(zhǎng)距離信息傳遞問(wèn)題并顯著提升了神經(jīng)機(jī)器翻譯的性能.因此,基于注意力機(jī)制的編碼器-解碼器模型目前已成為神經(jīng)機(jī)器翻譯的主流方法并得到廣泛使用.

        2 前沿進(jìn)展

        神經(jīng)機(jī)器翻譯最早在2013年由文獻(xiàn)[8]提出,但當(dāng)時(shí)的翻譯效果并不理想,沒(méi)有超過(guò)統(tǒng)計(jì)機(jī)器翻譯.2014年和2015年文獻(xiàn)[5]所提出的解碼器和編碼器框架以及文獻(xiàn)[6]提出的注意力機(jī)制確定了神經(jīng)機(jī)器翻譯的主要架構(gòu),但是系統(tǒng)翻譯性能仍然僅僅與統(tǒng)計(jì)機(jī)器翻譯持平.可喜的是,神經(jīng)機(jī)器翻譯在2016年取得了突飛猛進(jìn)的進(jìn)展,翻譯性能顯著超過(guò)統(tǒng)計(jì)機(jī)器翻譯,并且成為以Google Translate為代表的商業(yè)翻譯系統(tǒng)的核心技術(shù)[9].由于近兩年來(lái)神經(jīng)機(jī)器翻譯方面的論文數(shù)量非常龐大,難以全部覆蓋,本文下面將主要從5個(gè)方面對(duì)神經(jīng)機(jī)器翻譯在2016年取得的重要進(jìn)展進(jìn)行簡(jiǎn)要評(píng)述.

        2.1 訓(xùn)練算法

        給定平行語(yǔ)料庫(kù),神經(jīng)機(jī)器翻譯的傳統(tǒng)訓(xùn)練準(zhǔn)則是極大似然估計(jì).文獻(xiàn)[10]指出極大似然估計(jì)存在2個(gè)問(wèn)題:1)訓(xùn)練目標(biāo)中的損失函數(shù)是定義在詞語(yǔ)級(jí)別的,而機(jī)器翻譯的評(píng)價(jià)指標(biāo)(如BLEU)通常都是定義在句子或篇章級(jí)別的;2)在訓(xùn)練過(guò)程中每生成一個(gè)目標(biāo)語(yǔ)言詞都是以觀測(cè)數(shù)據(jù)作為上下文,而在測(cè)試過(guò)程中則是以可能存在錯(cuò)誤的模型預(yù)測(cè)作為上下文,因而在訓(xùn)練和測(cè)試階段存在不一致的問(wèn)題.

        為了解決上述問(wèn)題,文獻(xiàn)[11]將最小風(fēng)險(xiǎn)訓(xùn)練(minimum risk training)方法引入神經(jīng)機(jī)器翻譯.最小風(fēng)險(xiǎn)訓(xùn)練的基本思想是將模型預(yù)測(cè)引入訓(xùn)練過(guò)程,以機(jī)器翻譯評(píng)價(jià)指標(biāo)來(lái)定義損失函數(shù),通過(guò)降低模型在訓(xùn)練集上損失的期望值(即風(fēng)險(xiǎn))來(lái)緩解神經(jīng)機(jī)器翻譯訓(xùn)練和測(cè)試不一致的問(wèn)題.這種方法可以視作是在統(tǒng)計(jì)機(jī)器翻譯中獲得廣泛應(yīng)用的最小錯(cuò)誤率訓(xùn)練方法[12]在神經(jīng)機(jī)器翻譯中的推廣形式.與之類(lèi)似,文獻(xiàn)[10]采用REINFORCE算法將評(píng)價(jià)指標(biāo)融入訓(xùn)練過(guò)程,文獻(xiàn)[13]將訓(xùn)練過(guò)程與柱搜索緊密結(jié)合.Google推出的神經(jīng)機(jī)器翻譯系統(tǒng)中采用上述針對(duì)評(píng)價(jià)指標(biāo)優(yōu)化模型參數(shù)的訓(xùn)練算法,并發(fā)現(xiàn)在大規(guī)模訓(xùn)練數(shù)據(jù)上仍然能夠獲得穩(wěn)定且顯著的提升[9].

        這些方法的優(yōu)點(diǎn)在于能夠直接針對(duì)評(píng)價(jià)指標(biāo)來(lái)優(yōu)化模型參數(shù),同時(shí)訓(xùn)練方法與模型架構(gòu)和訓(xùn)練指標(biāo)無(wú)關(guān),可以應(yīng)用到任意的模型架構(gòu)和評(píng)價(jià)指標(biāo),顯著提升了神經(jīng)機(jī)器翻譯的性能.

        2.2 先驗(yàn)約束

        神經(jīng)機(jī)器翻譯廣受人詬病的一點(diǎn)是缺乏可解釋性,神經(jīng)網(wǎng)絡(luò)內(nèi)部都是實(shí)數(shù)向量,缺乏合理的語(yǔ)言學(xué)解釋?zhuān)@使得研究人員對(duì)神經(jīng)機(jī)器翻譯進(jìn)行分析和調(diào)試變得尤為困難.因而,如何將人類(lèi)的先驗(yàn)知識(shí)與數(shù)據(jù)驅(qū)動(dòng)的神經(jīng)網(wǎng)絡(luò)方法相結(jié)合成為神經(jīng)機(jī)器翻譯的一個(gè)重要研究方向.

        目前,將先驗(yàn)知識(shí)與神經(jīng)機(jī)器翻譯相結(jié)合主要有2種方式:

        1) 直接修改模型架構(gòu).文獻(xiàn)[14]為了解決神經(jīng)機(jī)器翻譯所面臨的翻譯過(guò)度和翻譯不足問(wèn)題,將基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯中廣泛使用的覆蓋率(coverage)機(jī)制引入神經(jīng)網(wǎng)絡(luò),顯著提升了神經(jīng)機(jī)器翻譯系統(tǒng)輸出譯文的忠實(shí)度.文獻(xiàn)[15]也采用修改模型架構(gòu)的方式將位置偏移、Markov條件、繁殖率等結(jié)構(gòu)化約束加入神經(jīng)機(jī)器翻譯.

        2) 保留原始的模型架構(gòu),通過(guò)修改訓(xùn)練目標(biāo)影響模型參數(shù)訓(xùn)練.文獻(xiàn)[16]發(fā)現(xiàn)源語(yǔ)言到目標(biāo)語(yǔ)言翻譯模型和目標(biāo)語(yǔ)言到源語(yǔ)言翻譯模型在計(jì)算注意力時(shí)均存在不足但可以相互彌補(bǔ),因而通過(guò)在訓(xùn)練目標(biāo)中加入一致性(agreement)約束鼓勵(lì)2個(gè)模型相互幫助,同時(shí)提高了2個(gè)翻譯方向的性能.

        盡管上述工作取得了一定的進(jìn)展,但如何將先驗(yàn)知識(shí)與神經(jīng)機(jī)器翻譯相結(jié)合仍面臨著很大的挑戰(zhàn):無(wú)論是修改模型結(jié)構(gòu)還是修改訓(xùn)練目標(biāo),都只能加入有限的先驗(yàn)知識(shí),目前仍然缺乏一個(gè)通用的框架來(lái)支持向神經(jīng)機(jī)器翻譯中加入任意的先驗(yàn)知識(shí).

        2.3 模型架構(gòu)

        對(duì)于神經(jīng)機(jī)器翻譯而言,最重要的2個(gè)概念是門(mén)閥(gating)和注意力.前者是長(zhǎng)短時(shí)記憶的核心機(jī)制,用來(lái)實(shí)現(xiàn)信息傳遞過(guò)程中“記憶”和“遺忘”功能;后者則引入動(dòng)態(tài)選擇相關(guān)上下文的理念.是否還存在更先進(jìn)的機(jī)制來(lái)進(jìn)一步改進(jìn)神經(jīng)機(jī)器翻譯的模型架構(gòu)?

        文獻(xiàn)[17]提出的神經(jīng)網(wǎng)絡(luò)圖靈機(jī)近年來(lái)廣受關(guān)注.如果將傳統(tǒng)遞歸神經(jīng)網(wǎng)絡(luò)中的隱狀態(tài)比作為“內(nèi)存”來(lái)存儲(chǔ)短時(shí)記憶的話,神經(jīng)網(wǎng)絡(luò)圖靈機(jī)則主張用“外存”來(lái)存儲(chǔ)長(zhǎng)時(shí)記憶,其存儲(chǔ)單元尋址方式類(lèi)似于注意力機(jī)制.無(wú)獨(dú)有偶,文獻(xiàn)[18]提出的記憶網(wǎng)絡(luò)(memory networks)也提出了非常類(lèi)似的思想.目前,神經(jīng)網(wǎng)絡(luò)圖靈機(jī)在機(jī)器翻譯中的成功應(yīng)用很少,目前主要的進(jìn)展是文獻(xiàn)[19]將利用記憶機(jī)制來(lái)改進(jìn)解碼器,顯著提升了神經(jīng)機(jī)器翻譯的質(zhì)量.然而,memory的尋址機(jī)制實(shí)際上與attention的計(jì)算非常類(lèi)似.在同時(shí)使用長(zhǎng)短時(shí)記憶、attention和memory的情況下,memory能夠提供什么額外的有用信息,目前仍沒(méi)有清晰的語(yǔ)言學(xué)解釋?zhuān)写M(jìn)一步探索.

        另一個(gè)研究方向是依據(jù)統(tǒng)計(jì)機(jī)器翻譯中廣泛使用的語(yǔ)言學(xué)結(jié)構(gòu)來(lái)建立神經(jīng)機(jī)器翻譯模型.這方面的代表性工作是文獻(xiàn)[20]提出的樹(shù)到序列神經(jīng)機(jī)器翻譯,他們將統(tǒng)計(jì)機(jī)器翻譯中的樹(shù)到序列模型與神經(jīng)網(wǎng)絡(luò)相結(jié)合.這樣的建模方式存在一定的爭(zhēng)議性,因?yàn)樯疃葘W(xué)習(xí)通常主張從生數(shù)據(jù)中學(xué)習(xí)表示,而不是依賴(lài)于句法樹(shù)這樣由語(yǔ)言學(xué)家發(fā)明的人造結(jié)構(gòu).如何實(shí)現(xiàn)語(yǔ)言結(jié)構(gòu)與神經(jīng)網(wǎng)絡(luò)的有效結(jié)合將繼續(xù)成為神經(jīng)機(jī)器翻譯的研究熱點(diǎn)之一.

        2.4 受限詞匯量

        神經(jīng)機(jī)器翻譯的解碼器在生成目標(biāo)語(yǔ)言詞語(yǔ)時(shí),需要通過(guò)在整個(gè)目標(biāo)語(yǔ)言詞匯表上進(jìn)行歸一化來(lái)計(jì)算概率分布,因而計(jì)算復(fù)雜度極高.為了降低復(fù)雜度,神經(jīng)機(jī)器翻譯系統(tǒng)往往將詞匯表限制為高頻詞,并將其他所有低頻詞視為未登錄詞.2015年,神經(jīng)機(jī)器翻譯的研究人員主要通過(guò)未登錄詞替換[21]和采樣[22]等方法處理受限詞匯量問(wèn)題.

        在2016年,研究人員更加關(guān)注如何用細(xì)粒度意義表示單元(如字母、字、語(yǔ)素、亞詞等)解決受限詞匯量問(wèn)題.文獻(xiàn)[23]提出了詞語(yǔ)-字母混合模型,利用詞語(yǔ)模型處理高頻詞,利用字母模型處理低頻詞.文獻(xiàn)[24]提出利用字節(jié)對(duì)編碼(byte pair encoding)自動(dòng)發(fā)現(xiàn)亞詞(subword),進(jìn)而建立基于亞詞的神經(jīng)機(jī)器翻譯模型.文獻(xiàn)[25]提出一種不依賴(lài)于顯式切分的、基于字母的編碼器,在目標(biāo)語(yǔ)言端緩解了受限詞匯量問(wèn)題.

        上述方法有效解決了神經(jīng)機(jī)器翻譯詞匯量受限的問(wèn)題,但仍需在更多的黏著語(yǔ)、孤立語(yǔ)和屈折語(yǔ)上進(jìn)一步驗(yàn)證.

        2.5 低資源語(yǔ)言翻譯

        作為一種數(shù)據(jù)驅(qū)動(dòng)方法,神經(jīng)機(jī)器翻譯的性能高度依賴(lài)于平行語(yǔ)料庫(kù)的規(guī)模、質(zhì)量和領(lǐng)域覆蓋面.由于神經(jīng)網(wǎng)絡(luò)的參數(shù)規(guī)模龐大,只有當(dāng)訓(xùn)練語(yǔ)料庫(kù)達(dá)到一定規(guī)模,神經(jīng)機(jī)器翻譯才會(huì)顯著超過(guò)統(tǒng)計(jì)機(jī)器翻譯[26].然而,除了中文、英文等資源豐富語(yǔ)言,世界上絕大多數(shù)語(yǔ)言都缺乏大規(guī)模、高質(zhì)量、廣覆蓋率的平行語(yǔ)料庫(kù).即使對(duì)于中文和英文,現(xiàn)有平行語(yǔ)料庫(kù)的領(lǐng)域也主要集中在政府文獻(xiàn)和時(shí)政新聞,對(duì)于絕大多數(shù)領(lǐng)域而言依然嚴(yán)重缺乏數(shù)據(jù).

        因此,如何充分利用現(xiàn)有數(shù)據(jù)來(lái)緩解資源匱乏問(wèn)題成為2016年神經(jīng)機(jī)器翻譯的一個(gè)重要研究方向.文獻(xiàn)[27]提出利用現(xiàn)有機(jī)器翻譯系統(tǒng)翻譯單語(yǔ)數(shù)據(jù),通過(guò)構(gòu)造偽平行語(yǔ)料庫(kù)來(lái)緩解平行語(yǔ)料庫(kù)匱乏問(wèn)題.文獻(xiàn)[28]將自動(dòng)編碼器引入神經(jīng)機(jī)器翻譯,提出了基于雙語(yǔ)語(yǔ)料庫(kù)和單語(yǔ)語(yǔ)料庫(kù)的半監(jiān)督學(xué)習(xí)方法.文獻(xiàn)[26]將遷移學(xué)習(xí)引入低資源神經(jīng)機(jī)器翻譯,將在資源豐富語(yǔ)言平行語(yǔ)料庫(kù)訓(xùn)練的模型參數(shù)遷移到資源匱乏語(yǔ)言翻譯模型的訓(xùn)練過(guò)程中.

        盡管上述方法都觀察到翻譯知識(shí)從資源豐富的語(yǔ)言對(duì)遷移到資源匱乏的語(yǔ)言對(duì)能夠顯著提升神經(jīng)機(jī)器翻譯的效果,但是由于向量表示缺乏可解釋性,這種知識(shí)遷移的內(nèi)在機(jī)制仍然沒(méi)有得到充分研究.事實(shí)上,對(duì)于整個(gè)神經(jīng)機(jī)器翻譯研究而言,目前對(duì)于翻譯過(guò)程中的內(nèi)部運(yùn)行機(jī)制的理解仍然十分困難,神經(jīng)網(wǎng)絡(luò)隱層的向量表示缺乏清晰的語(yǔ)言學(xué)解釋?zhuān)@將成為未來(lái)的研究重點(diǎn).

        3 總結(jié)與展望

        綜上所述,神經(jīng)機(jī)器翻譯是近年來(lái)涌現(xiàn)出來(lái)的一種基于深度學(xué)習(xí)的機(jī)器翻譯方法,目前已經(jīng)取代傳統(tǒng)的統(tǒng)計(jì)機(jī)器翻譯,成為新的主流技術(shù).相對(duì)于統(tǒng)計(jì)機(jī)器翻譯,神經(jīng)機(jī)器翻譯不僅能夠從生數(shù)據(jù)中直接學(xué)習(xí)特征,而且能夠通過(guò)長(zhǎng)短時(shí)記憶和注意力等機(jī)制有效處理長(zhǎng)距離依賴(lài).盡管如此,神經(jīng)機(jī)器翻譯研究仍然面臨著諸多挑戰(zhàn),5個(gè)科學(xué)問(wèn)題仍有待進(jìn)一步探索:

        1) 如何設(shè)計(jì)表達(dá)能力更強(qiáng)的模型?

        2) 如何提高語(yǔ)言學(xué)方面的可解釋性?

        3) 如何降低訓(xùn)練復(fù)雜度?

        4) 如何與先驗(yàn)知識(shí)相結(jié)合?

        5) 如何改進(jìn)低資源語(yǔ)言翻譯?

        我們相信,神經(jīng)機(jī)器翻譯在未來(lái)會(huì)獲得進(jìn)一步的發(fā)展,通過(guò)高質(zhì)量的機(jī)器翻譯服務(wù)造福社會(huì)大眾.

        [1]Brown P, Della Pietra S, Della Pietra V, et al. The mathematics of statistical machine translation: Parameter estimation[J]. Computational Linguistics, 1993, 19(2): 263-311

        [2]Och F, Ney H. Discriminative training and maximum entropy models for statistical machine translation[C] //Proc of the 40th ACL. Stroudsburg, PA: ACL, 2002: 295-302

        [3]Chiang D. A hierarchical phrase-based model for statistical machine translation[C] //Proc of the 43rd ACL. Stroudsburg, PA: ACL, 2005: 263-270

        [4]Sutskever I, Vinyals O, Le Q. Sequence to sequence learning with neural networks[C] //Proc of the 28th NIPS. Red Hook, NY: Curran Associates Inc, 2014: 3104-3112

        [5]Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[J]. arXiv: 1409. 0473, 2014

        [6]Junczys-Dowmunt M, Dwojak T, Hoang H. Is neural machine translation ready for deployment? A case study on 30 translation directions[J]. arXiv: 1610. 01108v2, 2016

        [7]Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780

        [8]Kalchbrenner N, Blunsom P. Recurrent continuous translation models[C] //Proc of EMNLP. Stroudsburg, PA: ACL, 2013: 1700-1709

        [9]Wu Yonghui, Schuster M, Chen Zhifeng, et al. Google’s neural machine translation system: Bridging the gap between human and machine translation[J]. arXiv: 1609. 08144v2, 2016

        [10]Ranzato M, Chopra S, Auli M, et al. Sequence level training with recurrent neural networks[J]. arXiv: 1511. 06732, 2015

        [11]Shen Shiqi, Cheng Yong, He Zhongjun, et al. Minimum risk training for neural machine translation[C] //Proc of the 54th ACL. Stroudsburg, PA: ACL, 2016: 1683-1692

        [12]Och F. Minimum error rate training in statistical machine translation[C] //Proc of the 41st ACL. Stroudsburg, PA: ACL, 2003: 160-167

        [13]Wiseman S, Rush A. Sequence-to-sequence learning as beam-search optimization[C] //Proc of EMNLP. Stroudsburg, PA: ACL, 2016: 1296-1306

        [14]Tu Zhaopeng, Lu Zhengdong, Liu Yang, et al. Modeling coverage for neural machine translation[C] //Proc of the 54th ACL. Stroudsburg, PA: ACL, 2016: 76-85

        [15]Cohn T, Hoang C, Vymolova E, et al. Incorporating structural alignment biases into an attentional neural translation model[C] //Proc of NAACL. Stroudsburg, PA: ACL, 2016: 876-885

        [16]Cheng Yong, Shen Shiqi, He Zhongjun, et al. Agreement-based joint training for bidirectional attention-based neural machine translation[C] //Proc of the 25th IJCAI. Palo Alto, CA: IJCAI, 2016: 2761-2767

        [17]Graves A, Wayne G, Danihelka I. Neural turing machines[J]. arXiv: 1410. 5401v2, 2014

        [18]Weston J, Chopra S, Bordes A. Memory networks[J]. arXiv: 1410. 3916, 2014

        [19]Wang Mingxuan, Lu Zhengdong, Li Hang, et al. Memory-enhanced decoder for neural machine translation[C] //Proc of EMNLP. Stroudsburg, PA: ACL, 2016: 278-286

        [20]Eriguchi A, Hashimoto K, Tsuruoka Y. Tree-to-sequence attentional neural machine translation[C] //Proc of the 54th ACL. Stroudsburg, PA: ACL, 2016: 823-833

        [21]Luong M, Sutskever I, Le Q, et al. Addressing the rare word problem in neural machine translation[C] //Proc of the 53rd ACL. Stroudsburg, PA: ACL, 2015: 11-19

        [22]Jean S, Cho K, Memisevic R, et al. On using very large target vocabulary for neural machine translation [C] // Proc of the 53rd ACL. Stroudsburg, PA: ACL, 2015: 1-10

        [23]Luong M, Manning C. Achieving open vocabulary neural machine translation with hybrid word-character models[C] //Proc of the 54th ACL. Stroudsburg, PA: ACL, 2016: 1054-1063

        [24]Sennrich R, Haddow B, Birch A. Neural machine translation of rare words with subword units[C] //Proc of the 54th ACL. Stroudsburg, PA: ACL, 2016: 1715-1725

        [25]Chung J, Cho K, Bengio Y. A character-level decoder without explicit segmentation for neural machine translation[C] //Proc of the 54th ACL. Stroudsburg, PA: ACL, 2016: 1693-1703

        [26]Zoph B, Yuret D, May J, et al. Transfer learning for low-resource neural machine translation[C] //Proc of EMNLP. Stroudsburg, PA: ACL, 2016: 1568-1575

        [27]Sennrich R, Haddow B, Birch A. Improving neural machine translation models with monolingual data[C] //Proc of the 54th ACL. Stroudsburg, PA: ACL, 2016: 86-96

        [28]Cheng Yong, Xu Wei, He Zhongjun, et al. Semi-supervised learning for neural machine translation[C] //Proc of the 54th ACL. Stroudsburg, PA: ACL, 2016: 1965-1974

        Liu Yang, born in 1979. PhD, associate professor, PhD supervisor. Member of CCF and Chinese Information Processing Society. His main research interests include natural language processing and machine translation.

        Recent Advances in Neural Machine Translation

        Liu Yang

        (DepartmentofComputerScienceandTechnology,TsinghuaUniversity,Beijing100084) (TsinghuaNationalLaboratoryforInformationScienceandTechnology,Beijing100084) (StateKeyLaboratoryofIntelligentTechnologyandSystems(TsinghuaUniversity),Beijing100084)

        Machine translation, which aims at automatically translating between natural languages using computers, is one of important research directions in artificial intelligence and natural language processing. Recent years have witnessed the rapid development of neural machine translation, which has replaced conventional statistical machine translation to become the new mainstream technique in both academia and industry. This paper first introduces the basic ideas and state-of-the-art approaches in neural machine translation and then reviews recent important research findings. The paper concludes with a discussion about possible future directions.

        artificial intelligence; deep learning; neural machine translation; encoder-decoder framework; attention mechanism

        2016-11-10;

        2017-02-22

        國(guó)家自然科學(xué)基金優(yōu)秀青年科學(xué)基金項(xiàng)目(61522204) This work was supported by the National Natural Science Foundation of China for Excellent Young Scientists (61522204).

        TP391

        猜你喜歡
        源語(yǔ)言解碼器編碼器
        科學(xué)解碼器(一)
        科學(xué)解碼器(二)
        科學(xué)解碼器(三)
        線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
        林巍《知識(shí)與智慧》英譯分析
        淺析日語(yǔ)口譯譯員素質(zhì)
        基于FPGA的同步機(jī)軸角編碼器
        基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
        跨文化視角下對(duì)具有修辭手法諺語(yǔ)英譯漢的研究
        速讀·下旬(2016年7期)2016-07-20 08:50:28
        JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
        電子器件(2015年5期)2015-12-29 08:42:24
        揄拍成人国产精品视频| 精品国产乱码久久久久久婷婷 | 高清偷自拍第1页| 欧美国产日本精品一区二区三区 | 国产免费一区二区三区在线视频| 一个色综合中文字幕人妻激情视频 | 中文字幕乱码在线婷婷| 亚洲一区精品无码| 无码人妻精一区二区三区| 手机看片国产日韩| 日韩精品人妻一区二区三区蜜桃臀| 国产精品久久久天天影视| 国内精品久久久久影院一蜜桃| 久久亚洲国产成人亚| 高潮av一区二区三区| 射精区-区区三区| 亚洲欧美日韩在线一区| 日韩欧美精品有码在线观看| 久久精品亚洲国产av网站 | 骚片av蜜桃精品一区| 大香蕉视频在线青青草| 国模冰莲极品自慰人体| 精品推荐国产精品店| 国产精品久久久久影院| av超碰在线免费观看| 亚洲最大视频一区二区三区| 人人妻人人添人人爽欧美一区| 日韩电影一区二区三区| 超级碰碰人妻中文字幕| 亚洲色图专区在线观看| 国产成人亚洲精品无码青| 三上悠亚久久精品| AV中文字幕在线视| 久久久中文字幕日韩精品| 日本乱偷人妻中文字幕在线| 国产综合久久久久影院| 快射视频网站在线观看| 精品久久久久久久无码人妻热| 国产天堂在线观看| 18禁成人免费av大片一区| 每日更新在线观看av|