亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯之語境式學(xué)習(xí)

        2019-10-15 07:44:56楊寅冬
        關(guān)鍵詞:正則編碼器語句

        楊寅冬,姚 潔

        (1.安徽郵電職業(yè)技術(shù)學(xué)院 計(jì)算機(jī)系,安徽 合肥 230031;2.安徽郵電職業(yè)技術(shù)學(xué)院公共基礎(chǔ)部,安徽 合肥 230031)

        0 引言

        盡管神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯在學(xué)術(shù)界和工業(yè)界迅速普及,并且在該領(lǐng)域最近取得一定的成功,但人們發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯在很大程度上無法利用除當(dāng)前源語句之外的其他語境信息,這是因?yàn)榇笳Z境機(jī)器翻譯系統(tǒng)往往忽略附加語境信息,例如先前的語句、相關(guān)圖像.最近所開展的大量研究致力于構(gòu)建一種可以更好地利用附加語境信息的新網(wǎng)絡(luò)架構(gòu),但是收效甚微.

        在本文中,我們從“學(xué)習(xí)”的角度來解決大語境神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯問題.通過向與語境正確配對的翻譯(而不是與語境錯誤匹配的翻譯)賦予更大的對數(shù)概率,使模型更好地利用附加語境信息.

        通過設(shè)計(jì),我們將該正則項(xiàng)應(yīng)用于標(biāo)注、語句和批層次中,使用改良版轉(zhuǎn)換器,對文檔級翻譯進(jìn)行實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果表明,與之前的實(shí)驗(yàn)結(jié)果不同,經(jīng)過本文提出的學(xué)習(xí)算法訓(xùn)練的模型確實(shí)對該語境敏感,并且在整體質(zhì)量方面略有改善(單位BLEU).這些結(jié)論表明,本文所述的學(xué)習(xí)方法在構(gòu)建一種有效的大語境神經(jīng)翻譯模型方面是一種具有發(fā)展前景的方法.

        1 大語境神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯背景

        大語境神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)是在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)的基礎(chǔ)上發(fā)展起來的,它將某語句翻譯成目標(biāo)語言的Y語句時,大語境神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)除了考慮源語句X之外,還考慮了語境C[1].在多模式機(jī)器翻譯的情況中,附加語境信息是指源語句X所描述的圖像.在文檔級機(jī)器翻譯的情況中,附加語境信息C可以包括包含源語句X的文檔中的其他句子.這種大語境神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)由編碼器器fC組成,編碼器fC將附加語境信息C編碼成一組向量表示,這些向量表示又與原始編碼器fX中從源語句X中提取的那些語句組合在一起.然后,解碼器g使用這些向量,來計(jì)算自回歸范例中靶序列Y的條件分布,即:

        Pθ(yt|y

        其中θ是神經(jīng)網(wǎng)絡(luò)翻譯模型中所有參數(shù)的集合.f(C)和g通常是指神經(jīng)網(wǎng)絡(luò),例如視覺注意力的循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)和自我注意神經(jīng)網(wǎng)絡(luò)[2-4].

        在給定一組訓(xùn)練三元組D(tr)=x(tr)*y(tr)*c(tr)={(X1,Y1,C1),…,(XN,YN,CN)}情況下,通常過最大化對數(shù)似然,來完成訓(xùn)練.對數(shù)似然定義為

        (1)

        2 學(xué)習(xí)利用語境

        在本文中,我們關(guān)注的是“學(xué)習(xí)”而不是網(wǎng)絡(luò)架構(gòu).我們的目標(biāo)是提出一種可以與任何潛在的大語境神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)一起配套使用的學(xué)習(xí)算法,而不是提出一種可以擴(kuò)大翻譯范圍的新架構(gòu)[5].

        2.1 中性、有用和有害的語境

        為了實(shí)現(xiàn)這點(diǎn),首先要注意,根據(jù)總概率定律,

        pθ(yt|y

        (2)

        因此,在給定源X的條件下,在整個語境C中,附加語境信息總體上是“中性的”.

        盡管這些“中性”“有用”和“有害”的語境是在標(biāo)注級別定義的,但我們可以通過定義以下計(jì)分函數(shù),輕松地對它們進(jìn)行擴(kuò)展,直至覆蓋所有級別:

        (data)sdata(yt|·)=∑Y∈Yssent(Y|·)

        .

        2.2 語境正則化

        通過使用從三個不同級別進(jìn)行定義的分?jǐn)?shù),我們正則化學(xué)習(xí)算法,以便神經(jīng)翻譯系統(tǒng)優(yōu)先以有用的方式使用語境.正則項(xiàng)適用于所有三個級別:標(biāo)注、語句和整個數(shù)據(jù),并且基于相似度損失:

        (3)

        其中,αd,αs和αT是數(shù)據(jù) 、語句和標(biāo)志級別的正則化強(qiáng)度.δd、δs和δT是對應(yīng)的邊際值.

        本文所述出的正則項(xiàng)明確表明了所有級別的附加語境的有用性.我們使用相似度損失,使模型產(chǎn)生輕微偏差,以便以有用的方式使用語境,但這不一定使模型必須完全依賴語境.這是因?yàn)榇蠖鄶?shù)必要信息已經(jīng)包含在源X里,附加語境C僅只需提供一些補(bǔ)充信息.

        2.3 上下文無關(guān)的分?jǐn)?shù)估計(jì)

        當(dāng)根據(jù)方程式(2)上下文丟失時,計(jì)算分?jǐn)?shù)并非易事,因?yàn)樗枰?1)訪問p(C|X);(2)邊緣化所有可能存在的C,而這個是比較難以處理的.在本文中,通過使用語句pdata(C)的數(shù)據(jù)分布,我們得出了求得p(C|X)近似值的最簡單方法.

        假設(shè)語境C獨(dú)立于源X,即p(C|X)=p(C),并且語境C遵循數(shù)據(jù)分布,則通過隨機(jī)統(tǒng)一選擇M訓(xùn)練語境,來得出近似估計(jì)值:

        其中Cm是第m個樣本.

        我們當(dāng)然可以更有效地估計(jì)p(C|X)的值.一種方法是使用Wang和Cho(2016)所述的大語境循環(huán)語言模型[6].另一種可能的方法是使用現(xiàn)有的檢索引擎來構(gòu)建非參數(shù)采樣器,我們會在后續(xù)文章中討論該點(diǎn).

        圖1 基于大語境模型且按語句得分差異排序的測試集BLEU累積分

        2.4 固有的評價指標(biāo)

        “中性”“有用”和“有害”語境的條件也可作為構(gòu)建大語境神經(jīng)機(jī)器翻譯系統(tǒng)固有的評價指標(biāo)的基礎(chǔ).對于一個充分訓(xùn)練的大語境翻譯系統(tǒng)來說

        ΔDθ=s(y|x,c;θ)-s(y|x,θ)>0

        3 實(shí)驗(yàn)環(huán)境和參數(shù)設(shè)置

        實(shí)驗(yàn)數(shù)據(jù)使用Open- Subtitles2018 En→Ru并行數(shù)據(jù), 從2M的實(shí)例中選擇相同的數(shù)據(jù)子集,使用32k合并操作,在源語言和目標(biāo)之間建立BPE子字標(biāo)注詞匯表.

        實(shí)驗(yàn)?zāi)P团c構(gòu)建基礎(chǔ)轉(zhuǎn)換器的大語境轉(zhuǎn)換所提出的系統(tǒng)類似,該系統(tǒng)將當(dāng)前和之前的語句作為輸入項(xiàng).每一個當(dāng)前和之前的語句由一個通用的6層轉(zhuǎn)換器編碼器獨(dú)立編碼[9].通過參考之前語句中標(biāo)注的最終表示并以非線性的方式組合當(dāng)前和之前語句的輸出項(xiàng),來獲得當(dāng)前語句中每個標(biāo)注的最終表示.使用標(biāo)準(zhǔn)轉(zhuǎn)換器的同一個解碼器,并共享矩陣內(nèi)的所有字詞.

        使用初始步長為10-4的Adam來訓(xùn)練每個模型.使用貪婪解碼[10-11],每半個階段評估模型一次,并且當(dāng)開發(fā)時的BLEU得分在連續(xù)五次評估后均未得到改善時,將學(xué)習(xí)速率減半.基于初步實(shí)驗(yàn)期間測試集的BLEU分?jǐn)?shù),令正則項(xiàng)(3)的系數(shù)和差值為aT=ad=1,as=0,δT=δs=0和δd=log(1.1).模型以5的光束尺寸進(jìn)行評估,根據(jù)長度調(diào)整分?jǐn)?shù).

        表1 報(bào)告語境(經(jīng)邊緣化處理)正確配對和錯誤配對的BLEU分?jǐn)?shù)

        取三個隨機(jī)語境(經(jīng)過邊緣化處理)的BLEU分?jǐn)?shù)平均值.測試集的BLEU分?jǐn)?shù)用括號顯示.f通過定某個隨機(jī)語境,而不是忽略某個語境,使參數(shù)與大語境模型相匹配.

        4 實(shí)驗(yàn)評估和結(jié)果分析

        圖1對比了正確配對(LC)和錯誤配對(LC+Rand)語句的翻譯質(zhì)量(單位BLEU).根據(jù)差值ssent(Y|X,C)-ssent(Y|X)對測試集中的語句進(jìn)行排序,并報(bào)告BLEU累積分[12].對于那些被大語境模型認(rèn)為可以結(jié)合其他語境進(jìn)行翻譯的語句,這種分?jǐn)?shù)差距更大.該分?jǐn)?shù)差距(使用參考翻譯)與實(shí)際翻譯質(zhì)量之間得到匹配,從而進(jìn)一步論證了本文所述方法的有效性.

        5 結(jié)束語

        通過使用多級成對排序損失,本文所議的新正則項(xiàng)可以推動大語境機(jī)器翻譯模型將附加語境信息納入考慮范疇.經(jīng)驗(yàn)評估結(jié)果表明,使用本文所述的方法訓(xùn)練的大語境翻譯模型確實(shí)對附加語境信息變得更加敏感,并且優(yōu)于上下文無關(guān)的基準(zhǔn)模型.我們認(rèn)為該項(xiàng)研究是令人振奮的第一步,從而開發(fā)出適用于大語境模型的更好的語境式學(xué)習(xí)算法.

        猜你喜歡
        正則編碼器語句
        重點(diǎn):語句銜接
        剩余有限Minimax可解群的4階正則自同構(gòu)
        類似于VNL環(huán)的環(huán)
        基于FPGA的同步機(jī)軸角編碼器
        精彩語句
        基于PRBS檢測的8B/IOB編碼器設(shè)計(jì)
        JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
        電子器件(2015年5期)2015-12-29 08:42:24
        有限秩的可解群的正則自同構(gòu)
        多總線式光電編碼器的設(shè)計(jì)與應(yīng)用
        如何搞定語句銜接題
        語文知識(2014年4期)2014-02-28 21:59:52
        日韩精品极品免费视频观看| 日本av第一区第二区| 男女男在线精品网站免费观看| 欧美日韩综合网在线观看| 亚洲VA中文字幕无码毛片春药| 日韩av中出在线免费播放网站| 亚洲丁香五月天缴情综合| 国内嫩模自拍偷拍视频| 日本精品视频二区三区| 国产aⅴ激情无码久久久无码| 乱中年女人伦av三区| 免费1级做爰片1000部视频| 国产精品免费久久久久软件| 国产精品video| 日韩中文字幕一区二区高清| 少妇一级aa一区二区三区片| 亚洲天堂av一区二区三区不卡| 人妻系列影片无码专区| 手机av男人天堂免费网址| 久久99免费精品国产| 日韩精品视频高清在线| 最美女人体内射精一区二区| 国产精品无码a∨精品影院| 一本久道久久综合婷婷五月| 亚洲av午夜福利精品一区二区| 字幕网中文字幕精品一区| 亚洲av午夜一区二区三| 色窝窝亚洲av网在线观看| 国产黑丝美腿在线观看| 小雪好紧好滑好湿好爽视频| 国产欧美日韩综合精品一区二区| 台湾佬自拍偷区亚洲综合| 亚洲另类激情专区小说婷婷久| 日韩在线手机专区av | 久久精品一区二区三区夜夜| 日日摸日日碰人妻无码老牲| 精品一区二区三区影片| 一区二区三区视频偷拍| 美女露出粉嫩小奶头在视频18禁| 69一区二三区好的精华| 国产精品无套内射迪丽热巴|