亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于句子級上下文內(nèi)容的神經(jīng)機(jī)器翻譯方法

        2021-02-22 10:47:00
        計(jì)算機(jī)測量與控制 2021年1期
        關(guān)鍵詞:語境向量單詞

        楊 嬌

        (商洛學(xué)院 人文學(xué)院,陜西 商洛 726000)

        0 引言

        基于短語的統(tǒng)計(jì)機(jī)器翻譯(phrase-basedstatistical machine translation,PBSMT)[1-2]和神經(jīng)機(jī)器翻譯(neural machine translation,NMT)[3-4]在翻譯語境中學(xué)習(xí)主題信息引起了廣泛的關(guān)注。盡管取得了這樣的成功,現(xiàn)有的方法大多數(shù)還是圍繞著提前學(xué)習(xí)每個(gè)單詞的固定主題分布,以在看不見的源語句中模擬單詞主題。在實(shí)踐中,詞的主題往往根據(jù)句子的上下文動(dòng)態(tài)變化,而不是靜態(tài)的預(yù)先訓(xùn)練的分布。換言之,單詞主題在很大程度上依賴于它們的句子級上下文,甚至一個(gè)單詞在一個(gè)句子中可以有多個(gè)主題。然而,現(xiàn)有的NMT結(jié)構(gòu)只關(guān)注與下一個(gè)目標(biāo)詞相關(guān)的源詞級上下文信息,而忽略了基于句子級上下文的主題信息。

        因此本研究以句子級上下文為研究對象,對源話題信息進(jìn)行建模,并設(shè)計(jì)了一個(gè)話題關(guān)注度模型,將學(xué)習(xí)到的潛在話題表示融入到已有的NMT結(jié)構(gòu)中,以提高目標(biāo)詞的預(yù)測能力。為此,首先通過卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNNs)的一個(gè)變體,將源語句上的源主題信息表示為潛在主題表示(latent topic representations,LTRs)[5]。然后根據(jù)單詞上下文和主題上下文學(xué)習(xí),用于計(jì)算用于預(yù)測目標(biāo)單詞的額外主題上下文向量。本文的創(chuàng)新點(diǎn)在于本研究的方法是動(dòng)態(tài)而不是靜態(tài)地學(xué)習(xí)每一個(gè)源語句的LTR,并通過主題注意而不是簡單的向量連接將LTR集成到解碼器中,同時(shí)對源詞和譯文進(jìn)行聯(lián)合而不是單獨(dú)的修改。

        1 CNN模型變體

        在本研究中,主要采用了一種CNN變體,它基于句子級上下文捕獲源主題信息,本節(jié)將具體介紹該CNN的網(wǎng)絡(luò)結(jié)構(gòu),如圖1所示。

        圖1 所提出的CNN模型結(jié)構(gòu)

        考慮到CNN將話題信息隱式地映射到話題向量中,將這些向量稱為LTR。與傳統(tǒng)CNN的句子分類任務(wù)不同,在這里使用卷積層來學(xué)習(xí)2 MD維特征向量,因此,通過最大值合并行向量來提取MD維向量。提出的CNN網(wǎng)絡(luò)結(jié)構(gòu)如下。

        1.1 網(wǎng)絡(luò)結(jié)構(gòu)中的輸入層

        vj∈D是與句子中第j-th個(gè)詞相對應(yīng)的D維詞向量。因此,長度為J的句子被表示為D×J向量矩陣M。這里,將最大句子長度L設(shè)置為50。較短的句子用尾隨的零填充。

        1.2 網(wǎng)絡(luò)結(jié)構(gòu)中的卷積層

        由2M個(gè)濾波器組成,每個(gè)濾波器Wm∈tD(1≤m≤2M)應(yīng)用于M的t個(gè)連續(xù)行的窗口,產(chǎn)生特征,如式(1)所示:

        (1)

        其中:bm∈是一個(gè)偏倚項(xiàng),Md:d+t-1是所有單詞的d-th維到{d+t-1}-th維的連接。每個(gè)濾波器應(yīng)用于輸入矩陣M的每個(gè)可能窗口,生成特征向量D,類似于句子分類任務(wù)中編碼源主題信息的特征向量Lm。依次使用2M濾波器遍歷M生成特征映射L,其中L={L1,L2,…,L2M}。

        注意,在建議的CNN的句子分類任務(wù)中,每個(gè)過濾器對所有詞向量的組成行執(zhí)行,而不是對局部詞向量執(zhí)行。在此期望學(xué)習(xí)每個(gè)特征值時(shí)考慮所有詞的部分信息,期望最終的潛在主題表示依賴于句子級上下文而不是局部詞級上下文。換句話說,一個(gè)特征值是從所有單詞的特定向量空間而不是從局部單詞向量中學(xué)習(xí)的。此外,本研究還設(shè)計(jì)了一個(gè)類似于句子分類任務(wù)的CNN結(jié)構(gòu)。

        圖2 不同輸入矩陣的對比

        與圖2(a)中的輸入矩陣相比,長度J的句子被表示為J×D向量矩陣,而不是原來的D×J向量矩陣,如圖2(b)所示。因此,每個(gè)過濾器都從本地單詞嵌入中提取。

        1.3 使用的最大池層

        在L的連續(xù)行對上取行最大值, 如式(2)所示:

        Pm=max(L2m-1,L2m),1≤m≤M

        (2)

        結(jié)果輸出特征映射為P,P={P1,P2,…,PM}。注意,對最大池化操作應(yīng)用于L2m-1和L2m-1以獲得D維主題特征向量Pm。與句子分類任務(wù)的最大池相比,在這里使用D維主題特征向量Pm來表示輸入句子中的主題,而不是主題特征值。眾所周知,矢量表示具有更好的編碼單詞或主題信息的能力。同時(shí),主題的矢量表示也更容易集成到現(xiàn)有的NMT架構(gòu)中。

        1.4 網(wǎng)絡(luò)結(jié)構(gòu)中的輸出層

        這將tanh函數(shù)應(yīng)用于Pm以獲得LTRTm,具體如式(3)所示:

        Tm=tanh(Pm),T={T1,T2,…,TM}

        (3)

        T是提出的LTRs,稍后將用于學(xué)習(xí)NMT的主題上下文向量。學(xué)習(xí)T的模型參數(shù)如式(4)所示:

        η={W1,W2,…,W2M;b1,b2,…,b2M}

        (4)

        2 句子級主題語境下的NMT

        2.1 基于Attention機(jī)器翻譯

        (5)

        其中:Si-1是根據(jù)原始單詞上下文和建議的主題上下文計(jì)算的。

        (6)

        直觀地說,NMT的目的是產(chǎn)生一個(gè)與源句意義相同的目標(biāo)詞序列,而不是產(chǎn)生相同的目標(biāo)話題序列。換言之,在翻譯預(yù)測過程中,主題信息可以起到輔助作用。因此,計(jì)算λi∈[0,1],這是一個(gè)門控標(biāo)量[8],用于在時(shí)間步驟i為下一個(gè)目標(biāo)詞加權(quán)源主題上下文的預(yù)期重要性:

        (7)

        (8)

        (9)

        2.2 基于Transformer的NMT中的主題

        在本節(jié)中,將介紹如何將提出的CNN集成到現(xiàn)有的NMT中,以共同學(xué)習(xí)LTR和翻譯。本研究使用的NMT為基于Transformer的NMT[9]。

        首先,提出的CNN作為編碼器的附加模塊,從輸入源語句中學(xué)習(xí)LTR序列。其次,使用額外的多頭注意力(multi-head attention)模塊,學(xué)習(xí)基于前一解碼器層的目標(biāo)查詢的新主題上下文表示。與原有的詞級上下文表示方法相比,新的主題上下文表示方法側(cè)重于獲取句子級的主題信息,用于翻譯預(yù)測。最后,主題上下文向量和原始單詞上下文表示一起用于預(yù)測目標(biāo)轉(zhuǎn)換,如圖3所示。

        圖3 基于Transformer的NMT網(wǎng)絡(luò)結(jié)構(gòu)

        形式上,編碼器的CNN模塊首先從輸入源T語句學(xué)習(xí)LTR序列。然后T被映射到一組鍵值對{K,V}={(K1,V1),(K2,V2),…,(KM,VM)}。在解碼器中,多頭自關(guān)注將先前解碼器層Qi,K和V的目標(biāo)查詢轉(zhuǎn)換為H次:

        (10)

        (11)

        最后,將H子空間中的主題上下文向量連接為當(dāng)前時(shí)間步主題向量Qi。根據(jù)文獻(xiàn)可知,新主題上下文向量Qi和原始單詞上下文向量Qi都用于通過線性,潛在的多層函數(shù)計(jì)算下一個(gè)目標(biāo)單詞的翻譯概率,如式(12):

        P(yi|y

        (12)

        在這里L(fēng)o,Lw和LT代表投影矩陣。

        2.3 顯式主題表示

        與傳統(tǒng)的主題方法相比,本文提出的LTRs通過神經(jīng)網(wǎng)絡(luò)對源主題進(jìn)行隱式編碼,這可能很難顯示這些學(xué)習(xí)到的LTRs編碼的主題信息。為了進(jìn)一步了解源主題的有效性,設(shè)計(jì)了一種通過術(shù)語頻率逆文檔頻率(TF-IDF)的顯式主題表示方法[10]。具體地說,長度為Jg的輸入句子被視為文檔Xg,并為Xg中的每個(gè)單詞xj計(jì)算TF-IDFTIj如式(13)所示:

        (13)

        在這里中,nj,g表示輸入句子dg中的第j-th個(gè)單詞的出現(xiàn)次數(shù);|G|是訓(xùn)練數(shù)據(jù)中源語言句子的總數(shù);|g:xi∈Xg|是訓(xùn)練數(shù)據(jù)中包含單詞xi的源句子的數(shù)目。然后選取固定百分比(實(shí)驗(yàn)中為40%)的高TD-IDT詞,將其轉(zhuǎn)換成詞向量,形成一個(gè)主題T序列。

        與以往的LTR相比,T是基于TF-IDF方法顯式提取的,因此稱為顯式主題表示(explicit topic representations,ETRs)。最后,利用ETRs序列代替以往的LTRs序列,并將其集成到現(xiàn)有的NMT體系結(jié)構(gòu)中,以增強(qiáng)翻譯預(yù)測的注意對齊。

        2.4 訓(xùn)練模型

        (14)

        T(θ*,η*)=argmaxθ*,η*T(θ,η)

        (15)

        3 實(shí)驗(yàn)與評估

        3.1 數(shù)據(jù)集與設(shè)置

        在這里使用兩個(gè)翻譯數(shù)據(jù)集對所提出的方法進(jìn)行評估:一個(gè)用于LDC中英翻譯(ZH-EN),另一個(gè)用于WMT’14英德翻譯(EN-DE)。ZH-EN訓(xùn)練集包括118萬個(gè)來自LDC語料庫的雙語句子對,而MT06和MT02/MT03/MT04/MT05數(shù)據(jù)集分別用作開發(fā)集和測試集。EN-DE訓(xùn)練集包括409萬個(gè)WMT’14個(gè)語料庫的雙語句子對,而newstest2012和newstest2013/newstest2014/newstest2015分別用作開發(fā)集和測試集。

        3.2 結(jié)果與評估

        3.2.1 基于RNN的NMT的主題數(shù)和訓(xùn)練效率

        圖4顯示了出了針對不同源話題的MT02上所提出的NMT模型的翻譯性能和訓(xùn)練速度。隨著話題數(shù)的增加,訓(xùn)練速度在開始時(shí)(從0到10)顯著下降,然后(10之后)略有下降。對于NMT性能,當(dāng)主題數(shù)從0增加到40時(shí),BLEU從37.78增加到38.73;40后,BLEU開始隨著主題數(shù)的增加而減少。很明顯,當(dāng)源主題數(shù)為40時(shí),所提出的NMT在速度下降可接受的情況下表現(xiàn)最好。

        圖4 源話題數(shù)與BLEU和訓(xùn)練時(shí)間之間的關(guān)系

        在這一節(jié)中,評估了基于Attention的NMT(ANMT)翻譯性能結(jié)果,并與PBSMT[11],TiNMT[12],SFLTR[13],DWCont[14],LTR進(jìn)行了比較。

        表1顯示了不同方法在測試集上的翻譯性能。ANMT的平均成績比PBSMT高出3.87個(gè)BLEU點(diǎn),表明ANMT是一個(gè)很強(qiáng)的baseline。

        表1 基于ZH-EN翻譯結(jié)果

        此外,表2列出了EN-DE任務(wù)的翻譯結(jié)果以及40個(gè)源話題(與ZH-EN任務(wù)相同)。

        表2 EN-DE翻譯結(jié)果

        從表2中可知,+LTR對ANMT和TiNMT進(jìn)行了類似的改進(jìn),因此表明本研究的工作是改進(jìn)其他語言對翻譯的可靠方法。

        3.2.3 基于不同構(gòu)型的NMT網(wǎng)絡(luò)的結(jié)果比較

        在這一節(jié)中,在一個(gè)強(qiáng)大的baseline下,進(jìn)一步評估了提出的方法。這個(gè)baseline是由一個(gè)標(biāo)準(zhǔn)的訓(xùn)練配置訓(xùn)練的。例如,采用字節(jié)對編碼(BPE)算法[16],字節(jié)大小設(shè)置為32 k,所有輸入輸出層的維度設(shè)置為512,內(nèi)部FFN(feedforward neural network)層的維度設(shè)置為2 048。一方面,對于基于RNN的NMT模型,另一方面,與3.2.2節(jié)的設(shè)置相同;另一方面,對于基于Transformer的NMT模型,在8 000個(gè)預(yù)熱步驟下,學(xué)習(xí)率有所變化,模型(基礎(chǔ))被訓(xùn)練了大約20萬個(gè)批次。所有模型都在一個(gè)P100 GPU上進(jìn)行訓(xùn)練和評估。SacreBELU[17]被用作EN-DE任務(wù)的評估指標(biāo),并且-bleu.perl語言作為ZH-EN任務(wù)的評價(jià)指標(biāo)。

        這些轉(zhuǎn)換結(jié)果如表3和表4所示。新的baseline,包括ANMT和Transformer,優(yōu)于表1和表2;特別是新的Transformer(base)的BLEU得分與文獻(xiàn)[9]中展示的結(jié)果相同。這表明本研究的baseline是強(qiáng)大的比較系統(tǒng)。在表3和表4中,+LTR和+ETR都優(yōu)于Transformer(base),這表明所提出的句子級主題信息有利于NMT。+LTR取得了與表3和表4中的+ETR相當(dāng)?shù)男阅?,這意味著這些學(xué)習(xí)到的LTR能夠捕獲源主題信息。+LTR優(yōu)于+SFLTR,說明動(dòng)態(tài)注意主題語境比單一固定主題更能有效地預(yù)測目標(biāo)詞。+LTR的性能優(yōu)于+DWCont,并且它們都有相似的模型參數(shù)。這表明改進(jìn)來自句子級的主題信息,而不是更大的模型參數(shù)。+ETR和+LTR的BLEU評分均優(yōu)于文獻(xiàn)[9]在Transformer(big)模型中。這表明提出的方法提高了翻譯性能。

        3.2.4 輸出樣本研究

        如圖5中示例1,在此將所提出的方法與ANMT對淡色源漢語單詞“xinchun”的翻譯進(jìn)行了比較。直觀地說,本研究提出的LTR和ETR利用句子層面的語境來編碼源話題,如經(jīng)濟(jì)、儀式、中國和其他潛在話題。通過注意機(jī)制,本研究的方法學(xué)習(xí)了一個(gè)額外的話題語境向量,該向量聚焦于源話題,儀式和中國,以正確地將“xinchun”翻譯為“springfestival”,而不是“newyear”。此外,通過圖6中的顯式主題對齊可視化驗(yàn)證了這些觀察結(jié)果。例如,譯文“spring”和“festival”有著相似的主題詞,如“nianchuwu”,“xinchun”,“tuanbai”。

        表3 基于Transformer的NMT翻譯結(jié)果

        表4 基于RNN的NMT翻譯結(jié)果

        圖5 具體翻譯示例

        圖6 結(jié)果對齊可視化

        圖5的示例2顯示了所提出的方法與ANMT之間的其他源漢語單詞“neidi”的翻譯。同樣,可能有多種來源的話題,如經(jīng)濟(jì)、中國、政治和其他潛在話題。直觀地說,當(dāng)不考慮源語話題(或句子層面的語境)時(shí),源語“neidi”可以譯為“大陸(mainland)”或“內(nèi)地(inland)”。總的來說,翻譯“內(nèi)地”與話題地理密切相關(guān),而翻譯“大陸”則與話題政治密切相關(guān)。在提議的LTR和ETR中,主題關(guān)注的焦點(diǎn)是中國和政治,選擇翻譯“大陸”而不是“內(nèi)地”。

        4 結(jié)束語

        本研究探討了源話題信息對句子層面語境的依賴性,并提出了一種話題注意方法,將潛在話題表征整合到現(xiàn)有的NMT結(jié)構(gòu)中,以提高翻譯預(yù)測能力。在未來的工作中,將利用顯式的源主題信息來增強(qiáng)NMT中的目標(biāo)詞預(yù)測。

        猜你喜歡
        語境向量單詞
        向量的分解
        聚焦“向量與三角”創(chuàng)新題
        單詞連一連
        看圖填單詞
        看完這些單詞的翻譯,整個(gè)人都不好了
        向量垂直在解析幾何中的應(yīng)用
        語言學(xué)習(xí)中語境化的輸入與輸出
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        跟蹤導(dǎo)練(三)2
        論幽默語境中的預(yù)設(shè)觸發(fā)語
        色诱视频在线观看| 九九日本黄色精品视频| 中文少妇一区二区三区| 亚洲国产精品久久久婷婷| 色欲一区二区三区精品a片| 99爱在线精品免费观看| 日韩欧美在线综合网| av手机天堂| 国产成人一区二区三区| 久久精品一区午夜视频| 99精品国产一区二区三区不卡| 国产精品久久久久电影网| 无码高清视频在线播放十区| 麻豆国产成人av高清在线| 国产亚洲精品品视频在线| 国产成人av综合色| 国产精品免费久久久久影院仙踪林| 亚洲天堂av免费在线看| 后入少妇免费在线观看| 国产不卡精品一区二区三区| 国产精品视频免费播放| 成 人 色综合 综合网站| 亚洲精品午夜精品国产| 91久久精品一区二区| 欧美老肥婆牲交videos| 国产精品熟女一区二区| 亚洲精品天堂av免费看| 日本女优中文字幕有码| 在线观看亚洲第一黄片| 亚洲av不卡一区二区三区| 国产在线美女| 91精品国产色综合久久不| 国产精品成人一区二区不卡| 中文字幕乱码无码人妻系列蜜桃| 亚洲另类精品无码专区| 午夜天堂精品一区二区| 九七青青草视频在线观看| 国产又大又硬又粗| 亚洲男人天堂| 国产在线精品亚洲视频在线| 天堂蜜桃视频在线观看|