亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        沒有數(shù)據(jù)如何翻譯?一文讀懂“無監(jiān)督”機器翻譯

        2018-05-14 10:55:08
        機器人產(chǎn)業(yè) 2018年1期
        關(guān)鍵詞:鑒別器解碼器編碼器

        機器翻譯通常利用深度學(xué)習(xí)技術(shù)來實現(xiàn),而實現(xiàn)這一過程往往需要借助大量數(shù)據(jù)模型進行訓(xùn)練,這在一定程度上限制了小語種翻譯的發(fā)展。針對這一困境,F(xiàn)acebook提出了無監(jiān)督機器人翻譯。本文通過深入淺出的講解,詳細闡述這一方法背后的工作原理。

        深度學(xué)習(xí)正在被廣泛地運用于各項日常任務(wù)當(dāng)中,尤其是涉及到一定程度“人性化”的領(lǐng)域,例如,圖像識別。與其他機器學(xué)習(xí)算法不同,深度網(wǎng)絡(luò)最突出的特點是隨著獲得數(shù)據(jù)的增多,其性能可以不斷提高。因此,如果可以獲得更多的數(shù)據(jù),那么預(yù)期的性能也會變得更好。

        深度網(wǎng)絡(luò)最擅長的任務(wù)之一是機器翻譯。目前,它是能夠完成此項任務(wù)的最先進的技術(shù),并且具有足夠的可行性,甚至谷歌翻譯(Google Translate)也在使用它(https://en.wikipedia.org/wiki/Google_Neural_Machine_Translation)。在機器翻譯中,需要句子級(sentence-level)的并行數(shù)據(jù)對模型進行訓(xùn)練,即對于源語言中的每個句子來說,都需要是目標(biāo)語言中被翻譯的語言。不難想象為什么這會成為一個問題。因為,對于一些語言對來說,很難獲得大量的數(shù)據(jù)(因此可以使用深度學(xué)習(xí)的這種能力)。

        本文是如何構(gòu)建的

        本文是基于Facebook近期發(fā)表的一篇名為“僅使用單語語料庫進行的無監(jiān)督機器翻譯”(Unsupervised Machine Translation Using Monolingual Corpora Only)(https://arxiv.org/abs/1711.00043)的文章而撰寫的。本文并沒有完全遵循論文的結(jié)構(gòu),而是添加了一些自己的解讀,進而讓文章更加通俗易懂。

        閱讀本篇文章需要具備一些關(guān)于神經(jīng)網(wǎng)絡(luò)的基本知識,比如損失函數(shù)、自動編碼器等。

        機器翻譯的問題

        如上所述,在機器翻譯中使用神經(jīng)網(wǎng)絡(luò)的最大問題是,它需要兩種語言的句子對數(shù)據(jù)集。它適用于英語和法語等被廣泛使用的語言,而對于其他語言的句子對則不適用。如果語言對數(shù)據(jù)可用,那么這將成為一個受監(jiān)督性的任務(wù)。

        解決方案

        這篇論文的作者想出了如何將這一任務(wù)轉(zhuǎn)換為無監(jiān)督任務(wù)的方法。在這一任務(wù)中,唯一需要的是兩種語言中每一種語言的任意兩個語料庫,如任意一部英語小說和任意一部西班牙語小說。需要注意的一點是,這兩部小說不一定是相同的。

        從最直觀的角度來講,作者發(fā)現(xiàn)了該如何學(xué)習(xí)一種介于兩種語言之間的潛在空間(latent space)的方法。

        自動編碼器概述

        自動編碼器是一種用于無監(jiān)督任務(wù)的廣泛的神經(jīng)網(wǎng)絡(luò)類別。它的工作原理是重新創(chuàng)建一個和最初輸入相同的輸入。完成這一操作的關(guān)鍵是網(wǎng)絡(luò)中間有一個名為瓶頸層(bottleneck layer)的網(wǎng)絡(luò)層。該網(wǎng)絡(luò)層被用以捕捉所有關(guān)于輸入的有用信息,并摒棄無用信息。

        簡而言之,在瓶頸層中,輸入(現(xiàn)在由編碼器轉(zhuǎn)換)所在的空間被稱為潛在空間(latent space)。

        降噪自動編碼器

        如果一個自動編碼器被調(diào)教成完全按照輸入的方式重建輸入,那么它可能什么都做不了。在這種情況下,輸出將得到完美的重建,但是在瓶頸層中沒有任何有用的特性。為了解決這一問題,我們使用了降噪自動編碼器。首先,實際輸入因為增加了一些噪聲而受到輕微干擾。然后,使用網(wǎng)絡(luò)重建原始圖像(并非含噪版本)。這樣一來,通過學(xué)習(xí)什么是噪聲(以及其真正有用的特征是什么),網(wǎng)絡(luò)可以學(xué)習(xí)圖像的有用特征。

        為什么要學(xué)習(xí)一個共同的潛在空間?

        潛在空間可以捕捉數(shù)據(jù)的特征(在我們所舉的例子中,數(shù)據(jù)就是句子)。因此,如果有可能獲得一個空間,即當(dāng)輸入語言A時,就會產(chǎn)生與輸入語言B相同的特征,那么我們就有可能在它們之間進行翻譯。由于該模型已經(jīng)擁有了正確的“特征”,因此由語言A的編碼器進行編碼,由語言B的解碼器進行解碼,這將使二者進行有效的翻譯工作。

        或許正如你想到的那樣,作者利用降噪自動編碼器學(xué)習(xí)一個特征空間。他們還想出了該如何使自動編碼器學(xué)習(xí)一個共同潛在空間的方法(他們將其稱之為一個對其潛在空間,aligned latent space),進而執(zhí)行無監(jiān)督的機器翻譯。

        語言中的降噪自動編碼器

        作者用降噪編碼器以一種無監(jiān)督的方式學(xué)習(xí)特征。他們所定義的損失函數(shù)為:

        解讀方程1.0

        I是語言(對于這一設(shè)定,可能有兩種語言)。X是輸入,C(x)是給x添加噪聲后的結(jié)果。我們將很快得到噪聲所創(chuàng)建的函數(shù)C。e()是編碼器,d()是解碼器。最后一項Δ(x hat,x)是標(biāo)記級(token level)的交叉熵誤差值之和。由于我們有一個輸入序列,并且我們得到了一個輸出序列,因此我們要確保每個標(biāo)記(token)的順序都是正確的。因此使用這種損失函數(shù)。我們可以將它視為多標(biāo)簽分類,其中將第i個輸入的標(biāo)記與第i個輸出標(biāo)記進行比較。其中,標(biāo)記(token)是一個不能被進一步破壞的基本單位。在我們的例子中,標(biāo)記(token)是一個單詞。方程1.0是一個損失函數(shù),使得網(wǎng)絡(luò)最小化輸出(當(dāng)給定一個噪聲輸入時)與原始、未受影響的句子之間的差別的損失函數(shù)。

        與~的符號表示

        是我們期望的表示,在這種情況下,這意味著輸入的分布取決于語言l,并且采用損失的平均值。這只是一個數(shù)學(xué)形式,運算過程中的實際損失(交叉熵之和)將如往常一樣。

        這個特殊符號~意味著“來自概率分布”。

        在本文中我們不詳細討論這個細節(jié),可以在Deep Learning Book(http://www.deeplearningbook.org/contents/optimization.html)一文的第8.1章中詳細了解這個符號。

        如何添加噪聲

        對于圖像而言,只需在像素上添加浮點數(shù)就可以增加噪聲,而對于語言而言,則需采用其他方法。因此,作者開發(fā)了自己的系統(tǒng)來制造噪聲。他們把他們的噪聲函數(shù)表示為C()。它將句子作為輸入,并輸出該句子的含噪版本。

        有兩種不同的方法添加噪聲。

        首先,可以簡單地以P_wd的概率從輸入中刪除一個單詞。

        其次,每個單詞都可以使用下面這個約束進行原始位置的移位:

        作者將K值設(shè)為3,將P_wd值設(shè)為1。

        跨域訓(xùn)練

        為了學(xué)習(xí)兩種語言之間的翻譯,應(yīng)該通過一些處理將輸入句子(語言A)映射到輸出句子(語言B)。作者將這個過程稱為跨域訓(xùn)練(cross domain training)。首先,輸入句子(x)被采樣。然后,使用先前迭代中的模型(M())生成翻譯后的輸出(y)。把它們放在一起,我們便得到了y=M(x)。隨后,使用上述相同的噪聲函數(shù)C()干擾y,得到C(y)。語言A的編碼器對這一被干擾的版本進行編碼,語言B的解碼器對語言A編碼器的輸出進行解碼,并重新構(gòu)建一個純凈版的C(y)。使用與方程1.0中相同的交叉熵誤差值之和(sum of cross entropy error)對模型進行訓(xùn)練。

        運用對抗式訓(xùn)練學(xué)習(xí)一個共同的潛在空間

        到目前為止,還沒有提到如何學(xué)習(xí)共同潛在空間。上面提到的跨域訓(xùn)練有助于學(xué)習(xí)一個相似空間,但需要一個更強的約束來推動模型學(xué)習(xí)一個相似的潛在空間。

        作者使用對抗式訓(xùn)練。他們使用了另一個模型(稱為鑒別器),該模型接受每一個編碼器的輸出,并預(yù)測編碼后的句子屬于哪一種語言。然后,從鑒別器中提取梯度,并對編碼器進行訓(xùn)練,以欺騙鑒別器。這在概念上與標(biāo)準的GAN(生成對抗網(wǎng)絡(luò))沒有什么不同。鑒別器接收每個時間步的特征向量(因為使用了RNN),并預(yù)測它來自哪種語言。

        將它們結(jié)合在一起

        將上述3種不同的損失(自編碼器損失、翻譯損失和鑒別器損失)相加,所有模型的權(quán)重同時更新。

        由于這是一個序列到序列的問題,因此作者使用了一個長短期記憶網(wǎng)絡(luò)(LSTM),需要注意的是,這里存在兩個基于LSTM的自動編碼器,每種語言各含一個。

        在較高級別上,訓(xùn)練這個架構(gòu)需要三個主要步驟。它們遵循一個迭代訓(xùn)練過程。訓(xùn)練循環(huán)過程看起來有點像這樣:

        1.使用語言A的編碼器和語言B的解碼器獲得翻譯。

        2.訓(xùn)練每個自動編碼器,使其能夠在給定一個損壞的句子時重新生成一個未損壞的句子。

        3.通過破壞步驟1中獲得的翻譯來改進翻譯并重新創(chuàng)建翻譯。對于這一步,語言A的編碼器和語言B的解碼器一起進行訓(xùn)練(語言B的編碼器和語言A的解碼器一起訓(xùn)練)。

        值得注意的是,即使步驟2和步驟3被分開列出,權(quán)重也會一起進行更新。

        如何啟動這個框架

        如上所述,該模型使用之前的迭代過程中自身的翻譯來提高其翻譯能力。因此,在循環(huán)過程開始之前,擁有一定翻譯能力是很重要的。作者使用FastText來學(xué)習(xí)詞級雙語詞典。請注意,這種方法非常簡單,僅需要給模型一個起點即可。

        整個框架在下面的流程圖中給出。

        本文解讀了一種可以執(zhí)行無監(jiān)督機器翻譯任務(wù)的新技術(shù)。它使用多個不同的損失改進單個任務(wù),同時使用對抗式訓(xùn)練增強對體系結(jié)構(gòu)行為的約束。

        猜你喜歡
        鑒別器解碼器編碼器
        基于多鑒別器生成對抗網(wǎng)絡(luò)的時間序列生成模型
        科學(xué)解碼器(一)
        科學(xué)解碼器(二)
        科學(xué)解碼器(三)
        線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍蜻蜓解碼器
        衛(wèi)星導(dǎo)航信號無模糊抗多徑碼相關(guān)參考波形設(shè)計技術(shù)*
        基于FPGA的同步機軸角編碼器
        基于PRBS檢測的8B/IOB編碼器設(shè)計
        陣列天線DOA跟蹤環(huán)路鑒別器性能分析
        JESD204B接口協(xié)議中的8B10B編碼器設(shè)計
        電子器件(2015年5期)2015-12-29 08:42:24
        亚洲三级视频一区二区三区| 99re6久精品国产首页| 国产成人精品自拍在线观看| 国产女同va一区二区三区| 日本高清视频永久网站www| 美丽人妻被按摩中出中文字幕 | 欧美一级鲁丝片免费一区| 亚洲天堂av在线免费观看| 免费女人高潮流视频在线观看| 欧美熟妇精品一区二区三区| 国产欧美激情一区二区三区| 日本一区二区三区精品免费| 国产精品h片在线播放| 国产精品污www一区二区三区| 亚洲综合一| 国产黄色一区二区在线看| 青娱乐极品视觉盛宴国产视频| 18级成人毛片免费观看| av在线免费观看你懂的| 亚洲无精品一区二区在线观看| 国产午夜福利在线观看红一片| 国产福利午夜波多野结衣| 日本二区三区视频免费观看| 中文字幕国产精品一二三四五区 | 一区二区三区国产色综合| 东京道一本热中文字幕| 国产AV无码专区亚洲AⅤ| 日本最新一区二区三区视频| 91精品国产92久久久| 国产精品自在线拍国产| 日日爽日日操| 人妻少妇被粗大爽视频| av无码av天天av天天爽| 中文字幕日韩高清| 亚洲一区二区三区亚洲| 欧美嫩交一区二区三区| 色猫咪免费人成网站在线观看| 精品999无码在线观看| 99久久99久久久精品蜜桃| 亚洲狠狠婷婷综合久久久久图片| 亚洲欧洲久久久精品|