亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融入分類詞典的漢越混合網(wǎng)絡(luò)神經(jīng)機器翻譯集外詞處理方法

        2019-12-30 02:36:16車萬金余正濤郭軍軍文永華于志強
        中文信息學(xué)報 2019年12期
        關(guān)鍵詞:分類方法模型

        車萬金,余正濤,郭軍軍,文永華,于志強

        (1. 昆明理工大學(xué) 信息工程與自動化學(xué)院,云南 昆明 650500;2. 昆明理工大學(xué) 云南省人工智能重點實驗室,云南 昆明 650500)

        0 引言

        伴隨著我國“一帶一路”倡議的提出,面向東南亞國家的漢語-越南語等資源稀缺型語言的翻譯需求不斷增加。但因為資源受限,目前漢語—越南語的機器翻譯模型效果不理想,因此提升漢語—越南語機器翻譯系統(tǒng)性能,不僅對于推動兩國之間的交流具有十分重要的作用,而且對于資源稀缺型語言的機器翻譯研究也具有一定的啟發(fā)作用。神經(jīng)機器翻譯是近年來提出的基于深度神經(jīng)網(wǎng)絡(luò)的機器翻譯方法,在英—法、英—德等資源豐富語言上取得了很好的翻譯效果[1-4]。但其依賴于大規(guī)模的平行句對語料,而漢語—越南語屬于資源稀缺型語言,沒有大規(guī)模的雙語平行句對資源,因此研究如何在神經(jīng)機器翻譯框架下,提升漢語—越南語神經(jīng)機器翻譯性能是一項具有挑戰(zhàn)性的工作。

        受到Tang等人[5]和Zhang等人[6]將雙語詞典引入到神經(jīng)機器翻譯的啟發(fā),本文提出一種在RNNSearch模型基礎(chǔ)上融入外部分類詞典來緩解集外詞的混合翻譯模型。分類詞典包括雙語稀有詞詞典、實體詞典和規(guī)則詞典,分別通過詞對齊、維基百科抽取和規(guī)則方法生成。在編碼端通過查詢分類詞典,將輸入序列標(biāo)記為詞或短語標(biāo)簽,同時在解碼端加入選擇門控,構(gòu)造詞、短語混合解碼結(jié)構(gòu),結(jié)合分類詞典得到目標(biāo)語言翻譯結(jié)果。本方法通過融入分類詞典,一方面通過短語模式可以很好地翻譯短語集外詞,另一方面還可以通過詞級模式翻譯詞表外的集外詞,可以很好地利用詞表,從而提升翻譯系統(tǒng)的性能和效果。本文首先在漢越神經(jīng)機器翻譯上進行實驗,后期又擴展到英越神經(jīng)機器翻譯和蒙漢神經(jīng)機器翻譯,均取得了較好的翻譯效果,系統(tǒng)性能有所提升。

        1 相關(guān)工作

        在神經(jīng)機器翻譯中,如何有效地處理集外詞問題是近年來的研究熱點,但是在資源稀缺型語言的神經(jīng)機器翻譯中,開展集外詞問題的研究還相對較少。具體來講,目前針對集外詞問題有以下幾類處理方法:

        第一類方法是通過指針網(wǎng)絡(luò)或拷貝機制從源序列中拷貝單詞進行翻譯。Caglar Gulcehre等人[7]提出Pointer Softmax (PS)使用兩個softmax層,預(yù)測原輸入語句中某個詞的位置和預(yù)測在預(yù)定詞表中的單詞。Gulcehre等人[7]在神經(jīng)機器翻譯模型上嵌入一種拷貝模式,解碼器自動選擇是從詞表中選擇詞語進行生成還是從源語言句子中選擇詞語進行拷貝。

        第二類方法將輸入序列切分為更小粒度的子詞序列來縮小詞表規(guī)模。Sennrich等人[8]提出使用BPE算法對子詞建模。Costa-jussa等人[9]提出將基于字符來產(chǎn)生詞嵌入的方法應(yīng)用于機器翻譯。Ling等人[10]的工作中使用雙向RNN來編碼字符序列。Wu等人[11]提出一種混合字符—詞語模型,使用字符序列替代集外詞。Chung等人[12]提出了一種新的RNN結(jié)構(gòu),可以對字符和詞進行處理,輸出字符序列不需要進行分詞。雖然這些方法能夠較好地處理罕見/未知單詞問題,但因為序列長度的增加而導(dǎo)致訓(xùn)練變得更加困難。

        第三類方法為構(gòu)建大規(guī)模詞典集和替換技術(shù)。Li等人[13]提出集外詞“替換-翻譯-恢復(fù)”的方法。Luong等人[14]提出了在目標(biāo)語言句子中插入定位符號,以后備詞典的方式處理UNK。Jean 等人[15]使用大字典并在softmax時進行采樣,提出了一種基于重要性抽樣的近似訓(xùn)練算法,可以訓(xùn)練一個具有更大目標(biāo)詞匯的NMT模型。所提出的算法在僅使用全部詞匯的小子集的水平上可有效地保持訓(xùn)練期間的計算復(fù)雜度。

        雖然以上工作在處理集外詞上有一定的作用,但是均未涉及雙語詞典等外部知識的融入。最近Arthur等人[16]提出了一種利用NMT模型的注意力向量來選擇該模型應(yīng)該關(guān)注的源詞詞法概率計算候選譯文中下一個詞的詞法概率的方法。Zhang等人[17]提出了新穎的模型,將雙語詞典轉(zhuǎn)換成足夠的句子對,利用混合詞/字符模型和合成平行句子保證大量翻譯詞匯的出現(xiàn)。Tang等人[5]提出了一種存儲詞組對的翻譯器確定候選短語對標(biāo)記信息,采用設(shè)計的策略一次性生成多個單詞序列。但這些方法所使用的都是通用詞典,沒有研究集外詞本身的特點,且多集中在資源豐富語言,沒有涉及資源稀缺型語言。本文在RNNSearch模型基礎(chǔ)上提出一種融合分類詞典的混合網(wǎng)絡(luò)模型結(jié)構(gòu),在預(yù)處理階段融入分類詞典標(biāo)簽標(biāo)記,在解碼端通過不同模式查找詞表和分類詞典,進而緩解集外詞問題。

        2 研究背景

        在解碼時刻t,解碼器分別產(chǎn)生該時刻的目標(biāo)語言隱式狀態(tài)和目標(biāo)語言單詞。t時刻目標(biāo)語言隱式狀態(tài)st-1由t-1時刻目標(biāo)語言隱式狀態(tài)st-1,t-1時刻解碼器所生成的目標(biāo)語言單詞yt-1和t時刻上下文向量ct所決定,如式(1)所示。

        其中t時刻上下文向量ct-1由源語言隱式狀態(tài)序列h和注意力模型所產(chǎn)生的權(quán)重加權(quán)所得,如式(2)所示。

        f(·)為GRU[18-19]。其中注意力模型的權(quán)重αt,j由t-1時刻目標(biāo)語言隱式狀態(tài)st-1與源語言隱式狀態(tài)序列h產(chǎn)生,如式(3)~式(4)所示。

        其中σ為非線性函數(shù)。權(quán)重a(t,j)可以解釋為源語言詞語xj與t時刻解碼器所產(chǎn)生詞語的相關(guān)程度。

        在生成目標(biāo)語言隱式狀態(tài)st后,為了預(yù)測目標(biāo)詞,解碼器結(jié)合st,ct和yt-1通過softmax函數(shù)估計t時刻目標(biāo)語言單詞的概率分布,如式(5)所示。

        p(yt=y

        (5)

        其中,B、C和D是權(quán)重矩陣。

        3 模型

        3.1 模型總體概述

        本文通過在端到端的神經(jīng)機器翻譯模型中引入分類詞典來解決集外詞問題,結(jié)構(gòu)模型如圖1所示。在預(yù)處理時,對切分后的源語言句子進行處理,找到類似于切分成“山本”和“五十六”這樣的詞,通過掃描查找分類詞典進行合并恢復(fù)為短語,使用RNN編碼器將該語句編碼為短語表示形式,在編碼的時候進行標(biāo)簽化標(biāo)記。解碼端分為短語模式和詞級模式,通過混合RNN解碼器網(wǎng)絡(luò)生成單詞和短語。短語模式為通過分類詞典進行翻譯的短語,這類短語大多為前面提到的三類集外詞,因為在預(yù)處理階段對短語進行標(biāo)簽化標(biāo)記,解碼時模型可以區(qū)分這些集外詞,然后通過雙語分類詞典整體進行翻譯。詞級模式主要分為兩種情況: 一種情況是翻譯的詞本身在模型的詞表中,對于這類集內(nèi)詞可以直接通過模型的詞表翻譯生成;另一種情況是這些詞不在詞表中,即為集外詞,對于這樣的詞,我們同樣通過查找分類詞典進行翻譯。

        圖1 模型結(jié)構(gòu)

        3.2 分類詞典

        如表1所示,分類詞典主要包括稀有詞雙語詞典、實體詞典和規(guī)則詞典。稀有詞雙語詞典的構(gòu)建包括兩個方面。一方面,使用GIZA++詞對齊工具對語料進行對齊處理,得到對齊結(jié)果,排除詞表內(nèi)的詞來構(gòu)建雙語詞典,對于一對多的情況,我們只保留對齊概率最大的記錄。另一方面,我們在詞典中還加入了部分人工整理添加的雙語詞典。最終本文構(gòu)建了規(guī)模為8 735對的稀有詞雙語詞典。實體詞典的構(gòu)建主要基于維基百科進行詞條抽取。頁面的詞條多為人名、地名等實體詞,在左下角會有對應(yīng)的“Languages”可以鏈接到越南語的翻譯,該鏈接的HTML信息中包括了翻譯后詞匯。最終通過維基百科抽取構(gòu)建的實體詞典,包括人名實體6 418對、地名實體2 934對、組織機構(gòu)名實體5 026對、專有名詞實體4 363對,共計18 741對,如表1所示。規(guī)則詞典的構(gòu)建采用基于規(guī)則方法,對語料進行正則化處理,構(gòu)建時間、數(shù)字、日期等特定標(biāo)記的詞典。

        與基于短語的統(tǒng)計機器翻譯(SMT)中的規(guī)則不同,在SMT中,一個短語可以有多個翻譯,并且有一個概率分布。我們分類詞典的列表僅僅為一對一的關(guān)系, 這樣可以簡化模型設(shè)計和訓(xùn)練。同時對于分類詞典(Θ)中存在的翻譯規(guī)則(P,Q),其中P存在于待翻譯的源句子中,Q為P翻譯后的詞。解碼器保持P和Q之間的對應(yīng)關(guān)系,如圖2所示。

        表1 分類詞典的類型和內(nèi)容

        圖2 源語言和目標(biāo)語言句子中的短語對應(yīng)關(guān)系

        3.3 編碼

        分類詞典Θ用于在編碼之前對句子對進行預(yù)處理。為了標(biāo)記一個源句x=(x1,x2,...,xTx),我們需要找到它包含的短語。

        我們找出源句x里存在Θ中的規(guī)則短語,并將這些規(guī)則表示為Px。 同時需要找到Px在目標(biāo)句子y中對應(yīng)詞記作Qx。Px和Qx將源句和目標(biāo)句的單詞分成組,如圖2所示。源句x中的單詞分為兩組: 短語和單詞,而目標(biāo)句y中的單詞分為兩組: 短語和單詞。

        我們通過將切分后的詞進行處理,查找分類詞典對源語言句子中錯切的短語進行合并處理。這樣的詞主要在我們的分類詞典Θ中,我們使用RNNSearch中的編碼器對短語進行標(biāo)簽標(biāo)記,標(biāo)簽用于幫助模型定位和區(qū)分短語和單詞。如圖3所示,在句子x中我們將合并后的短語標(biāo)記為1,其余單詞標(biāo)記為0,在解碼過程中通過識別1或者0,從而選擇短語模式還是單詞模式。

        3.4 解碼

        在RNNSearch解碼器中僅包含單詞模式,本文為解碼器增加短語模式。對于有兩個或兩個以上的詞構(gòu)成的目標(biāo)短語pt=(yt,yt+1),按照短語模式(整體)生成。在本文的模型中,對于短語的翻譯,我們可以通過分類詞典進行翻譯;對于單詞的翻譯,如果這個詞在模型的詞表中,則可直接進行翻譯,如果不在詞表中則為集外詞,可通過查找分類詞典進行翻譯。

        圖3 編碼器結(jié)構(gòu)(包括標(biāo)簽)

        模型的解碼器結(jié)構(gòu)如圖4所示。模型中通過門控單元來決定在t時刻使用哪個模式,其中門控單元是二進制指示符變量(ξ∈{0,1}),0代表詞級模式,1代表短語模式。

        圖4 解碼器結(jié)構(gòu)

        對于模型,我們簡單分為三種情況:

        ① 當(dāng)通過門控單元確定為1時,則通過短語模式進行翻譯。此時需要查找分類詞典Θ進行翻譯,結(jié)合圖2可知,在翻譯“cng”后面的詞時,源語言中為“珍珠港”,通過標(biāo)記后由查找分類詞典Θ翻譯得到。

        ② 當(dāng)通過門控單元確定為0時,則通過詞級模式進行翻譯,對應(yīng)翻譯的詞不在模型的詞表V中的情況,為集外詞,則通過查找分類詞典Θ進行翻譯。由于正常翻譯的時候下一個詞為“珍珠”,這個詞在詞表V中,所以通過Ⅲ進行翻譯。

        4 實驗

        4.1 實驗數(shù)據(jù)及設(shè)置

        本文構(gòu)建20萬漢越雙語平行語料庫,為了驗證模型在不同語料規(guī)模,特別是低資源情況下的性能,將其分為10萬、20萬兩組訓(xùn)練集分別進行實驗。另外,構(gòu)建測試集和驗證集,規(guī)模均為5 000對。在融入本文方法之前對語料做了清洗和Tokenize處理。實驗中使用的詞表為32 000,句子最大長度為50,dropout設(shè)置為 0.2, 詞嵌入維數(shù)為620維,訓(xùn)練步數(shù)為300 000,hidden_size為1 000。實驗中使用BLEU值作為評測指標(biāo)。

        4.2 實驗結(jié)果

        實驗設(shè)計包括五個部分,分別是Moses、RNNSearch(語料規(guī)模為10萬)、RNNSearch(語料規(guī)模為20萬)、本文方法(語料規(guī)模為10萬)和本文方法(語料規(guī)模為20萬)。每部分中都包含漢語-越南語、越南語-漢語雙向翻譯,共計10組實驗結(jié)果。為了直觀地觀察和對比,保證實驗結(jié)果的可靠性,每組的實驗結(jié)果的BLEU值都采用相同的測試集。表2中列舉了漢語-越南語和越南語-漢語兩個翻譯方向的實驗結(jié)果。

        表2 漢語-越南語和越南語-漢語兩個翻譯方向的實驗結(jié)果

        4.3 實驗對比與分析

        從實驗結(jié)果對比看,本文方法通過混合網(wǎng)絡(luò)融入分類詞典后BLEU值有所提升。對于相同規(guī)模的10萬訓(xùn)練語料,在漢語-越南語翻譯方向下,本文方法比RNNSearch有1.68個BLEU值提升;在越南語-漢語翻譯方向下,本文方法比RNNSearch有2.42個BLEU值提升。對于相同規(guī)模的20萬訓(xùn)練語料,在漢語-越南語翻譯方向下,本文方法比RNNSearch有1.57個BLEU值提升;在越南語—漢語翻譯方向下,本文方法比RNNSearch有1.82個BLEU值提升。

        表3 不同模型生成摘要的比對結(jié)果

        2. 源語言句子幾天后,我們?nèi)チ烁淮目死椎囊蛔鸾趟聫R,坐在她的靈柩旁。譯文RNNSearch本文方法3. 源語言句子人民日報是中共中央機關(guān)報,被聯(lián)合國教科文組織評為世界十大報紙之一。譯文RNNSearch本文方法

        4.4 實驗擴展

        對于提出的改善集外詞方法,本文進一步擴展到其他語種上進行實驗,驗證其他資源稀缺型語言上的翻譯效果。我們選取了英越和蒙漢進行實驗,語料規(guī)模為英越20萬語料和蒙漢26萬語料(CWMT 2018蒙漢語料)。分類詞典的構(gòu)建和處理方式及方法與漢越翻譯基本相同。關(guān)于雙語詞典,英越雙語字典構(gòu)建的規(guī)模為7 642對,蒙漢雙語字典構(gòu)建的規(guī)模為10 231對。關(guān)于實體詞典,英越同樣通過維基百科進行抽取。英越實體詞典中人名實體數(shù)量為6 416對,地名實體數(shù)量為2 873對,組織機構(gòu)名實體數(shù)量為5 012對,專有名詞實體數(shù)量為4 351對,共計18 652對。對于蒙漢翻譯,相關(guān)的工具還不夠完善,我們通過人工方式對漢語語料中的實體進行查找,通過NiuTrans[20]中的蒙漢翻譯系統(tǒng)來找到對應(yīng)的蒙文實體翻譯結(jié)果,再對蒙文訓(xùn)練語料進行實體詞識別。蒙漢實體詞典中人名實體數(shù)量為 2 857對,地名實體數(shù)量為2 513對,組織機構(gòu)名實體數(shù)量為1 754對,專有名詞實體數(shù)量為2 013對,共計9 137對。關(guān)于規(guī)則詞典則與漢越規(guī)則詞典構(gòu)建方式及方法相同。

        在融入本文方法之前,對英語和越南語語料做了Tokenize處理。實驗同樣包括雙向翻譯,分為英語—越南語、越南語—英語、蒙語—漢語和漢語—蒙語,總共20組實驗數(shù)據(jù),結(jié)果如表4所示。

        表4 英越和蒙漢實驗結(jié)果

        從實驗結(jié)果對比看,本文方法通過混合網(wǎng)絡(luò)融入分類詞典后BLEU值有所提升。對于相同規(guī)模的10萬訓(xùn)練語料,在英語—越南語翻譯方向下,本文方法比RNNSearch有2.81個BLEU值提升;在越南語—英語翻譯方向下,本文方法比RNNSearch有2.95個BLEU值提升。對于相同規(guī)模的20萬訓(xùn)練語料,在英語—越南語翻譯方向下,本文方法比RNNSearch有2.01個BLEU值提升;在越南語—英語翻譯方向下,本文方法比RNNSearch有2.21個BLEU值提升。對于相同規(guī)模的13萬訓(xùn)練語料,在蒙語—漢語翻譯方向下,本文方法比RNNSearch有2.54個BLEU值提升;在漢語-蒙語翻譯方向下,本文方法比RNNSearch有1.44個BLEU值提升。對于相同規(guī)模的26萬訓(xùn)練語料,在蒙語-漢語翻譯方向下,本文方法比RNNSearch有1.90個BLEU值提升;在漢語-蒙語翻譯方向下,本文方法比RNNSearch有1.65個BLEU值提升。對于蒙漢的翻譯結(jié)果,BLEU值整體比較低,我們進行了分析。在蒙語里,盡管有些詞是通過空格進行分割的,但有很大一部分詞語和句子存在整體性,彼此之間是相連的。對于這樣的少數(shù)民族語言,沒有對應(yīng)的分詞工具,一定程度上會導(dǎo)致BLEU值偏低。

        通過以上實驗結(jié)果可以看出,本文方法不僅在漢越神經(jīng)機器翻譯上表現(xiàn)出優(yōu)勢,在其他資源稀缺型語言上(如英越)和少數(shù)民族語言(如蒙漢)上同樣提高了神經(jīng)機器翻譯的準(zhǔn)確率,對于資源稀缺型語言的神經(jīng)機器翻譯集外詞問題的處理具有可行性。

        5 結(jié)論

        本文對RNNSearch模型進行改進,提出一種融入分類詞典的漢越混合網(wǎng)絡(luò)神經(jīng)機器翻譯模型,很好地處理了集外詞問題。對于給定的源語言句子,掃描分類詞典以確定候選短語句對,并對其標(biāo)簽做標(biāo)記,解碼器端利用單詞組件和短語組件混合網(wǎng)絡(luò),生成單個集外詞和短語集外詞,從而改善漢越神經(jīng)機器翻譯的性能。通過對漢越、英越和蒙漢實驗結(jié)果分析,證明了該方法的有效性。下一步研究中,擬繼續(xù)探索利用本體庫、知識圖譜等外部資源來改善低資源神經(jīng)機器翻譯性能的方法。

        猜你喜歡
        分類方法模型
        一半模型
        分類算一算
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        可能是方法不對
        3D打印中的模型分割與打包
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        护士奶头又白又大又好摸视频| 中文字幕丰满人妻av| 无遮挡1000部拍拍拍免费| 国语精品一区二区三区| 免费一级肉体全黄毛片| 成人黄网站免费永久在线观看| 华人在线视频精品在线| 久久久久久亚洲av成人无码国产| 在线观看国产精品日韩av| 亚洲国产成人无码电影| 国产自拍一区在线视频| 草草地址线路①屁屁影院成人| 少妇spa推油被扣高潮| 亚洲中文字幕精品久久久久久直播| 国产一区二区资源在线观看| 在线播放五十路熟妇| 双乳被一左一右吃着动态图| 国产亚洲欧美日韩国产片| 精品麻豆一区二区三区乱码| 四虎国产精品永久在线| 国产精品麻花传媒二三区别| 久天啪天天久久99久孕妇| 国产精品亚洲精品一区二区| 欧美人妻少妇精品久久黑人| 国产啪精品视频网站丝袜| av天堂手机在线免费| 少妇一级淫片中文字幕| 性生交大全免费看| 国产精品情侣露脸av在线播放| av国产免费在线播放| 日本精品少妇一区二区三区| 久草热8精品视频在线观看| 国产成人自拍视频在线免费| 东北熟妇露脸25分钟| 丰满人妻熟妇乱又伦精品软件| 亚洲男人的天堂精品一区二区| 国产成人高清亚洲一区二区| 亚洲国产婷婷六月丁香| 日日碰狠狠丁香久燥| 漂亮的小少妇诱惑内射系列| 在线观看国产视频你懂得|