亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合翻譯知識的機(jī)器翻譯質(zhì)量估計(jì)算法

        2019-05-16 01:40:12朱聰慧趙鐵軍
        關(guān)鍵詞:編碼器語句語料庫

        孫 瀟,朱聰慧,趙鐵軍

        (哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,哈爾濱150001)

        0 引 言

        隨著經(jīng)濟(jì)的發(fā)展,國際交流合作日益頻繁,對機(jī)器翻譯的需求逐漸增大。而機(jī)器翻譯譯文質(zhì)量的自動(dòng)評價(jià),對機(jī)器翻譯的研究非常重要。其中,廣泛使用的BLEU評價(jià)指標(biāo)就推動(dòng)了機(jī)器翻譯的進(jìn)步與發(fā)展。

        目前常用的BLEU評價(jià)指標(biāo)存在2個(gè)主要問題。首先是指標(biāo)的計(jì)算要求有參考譯文作為輸入,其次指標(biāo)在句子級別上對譯文的評分效果比較差。而句子級別的機(jī)器翻譯質(zhì)量估計(jì)(Sentence-Level Translation Quality Estimation,Sentence-Level QE)則可顯著改善這類現(xiàn)象。Sentence-Level QE是指在沒有參考譯文的情況下,只根據(jù)源語句,來對機(jī)器翻譯譯文的質(zhì)量進(jìn)行估計(jì)。定義中的質(zhì)量可以指:adequate(和源語句的意思相近程度)、fluency(翻譯的流暢程度)、HTER(Human-targeted Translation Edit Rate)等等。其中,HTER最為常用。HTER是機(jī)器翻譯的譯文和人工修改的參考譯文(Humantargeted Translation)之間的編輯距離除以所有參考譯文的平均長度。

        以往的基于特征工程的翻譯質(zhì)量估計(jì)方法的研究中,一些用神經(jīng)網(wǎng)絡(luò)提取特征的方法并沒有考慮引入翻譯知識。

        本文中,研究提出一種原創(chuàng)的用神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型來為QE任務(wù)提取特征的方法,該方法利用了NMT模型,比以往的用神經(jīng)網(wǎng)絡(luò)提取的QE特征包含了更多的語義信息。

        1 相關(guān)工作

        對句子級別的機(jī)器翻譯質(zhì)量估計(jì)的研究,一般是將其歸作為一個(gè)有監(jiān)督的回歸問題,此前的研究主要是應(yīng)用傳統(tǒng)的統(tǒng)計(jì)模型,比如SVR、線性回歸模型等等,研究均重點(diǎn)致力于特征提?。╢eature extraction)和特征選擇(feature selection)方面。其中,特征提取指的是從源語句和對應(yīng)的機(jī)器翻譯的譯文以及一些外部的資源或工具中提取構(gòu)造和譯文質(zhì)量相關(guān)的特征,也就是針對這個(gè)機(jī)器學(xué)習(xí)任務(wù)做特征工程(feature engineering)。而特征選擇是指,從已經(jīng)提取的特征集合中選擇預(yù)測效果最好的特征子集,這可以看作是一個(gè)搜索尋優(yōu)問題,并被證明是一個(gè)NP問題,無法在多項(xiàng)式的時(shí)間復(fù)雜度內(nèi)得到準(zhǔn)確解。因此機(jī)器譯文質(zhì)量估計(jì)的特征選擇一般包括產(chǎn)生候選子集和對特征子集進(jìn)行評價(jià)這2個(gè)要素,機(jī)器譯文質(zhì)量估計(jì)領(lǐng)域常用的特征選擇算法包括高斯過程[1]、啟發(fā)式[2]。 在之前句子級別機(jī)器譯文質(zhì)量估計(jì)的研究中,至關(guān)重要的即是特征提取,也就是人工設(shè)計(jì)合適的特征[3-6]。常見的人工提取的特征包括源語句長度、目標(biāo)語句長度、特殊字符匹配率等等。這些人工提取的特征,大多數(shù)是一些語法特征,很少涉及到語句的深層次語義信息。

        隨著深度學(xué)習(xí)的發(fā)展,有些研究者將神經(jīng)網(wǎng)絡(luò)用于特征提取的過程中,然后將提取到的特征單獨(dú)或者和其它傳統(tǒng)特征一同輸入到機(jī)器學(xué)習(xí)模型中;常見的神經(jīng)網(wǎng)絡(luò)提取的特征包括源語句和目標(biāo)語句在神經(jīng)網(wǎng)絡(luò)語言模型中的分?jǐn)?shù)、在神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯下的分?jǐn)?shù)、語句的所有單詞對應(yīng)的詞向量的平均值等等[7-10]。這些特征和之前傳統(tǒng)的特征相比,包含了較多的語義信息。

        除了用神經(jīng)網(wǎng)絡(luò)提取特征,然后應(yīng)用傳統(tǒng)的統(tǒng)計(jì)模型外,有的研究更進(jìn)一步提出了基于多層神經(jīng)網(wǎng)絡(luò)的端到端的機(jī)器譯文質(zhì)量估計(jì)模型[11-14]。而且,研究中QE任務(wù)的數(shù)據(jù)集比較小,因此直接訓(xùn)練端到端的模型,將存在過擬合的風(fēng)險(xiǎn)。目前,效果較好的此類方法,一般都是直接或間接地利用了大量的平行語料來提高模型的泛化能力。

        2 模型詳述

        2.1 基本模型簡述

        本文利用神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型來為機(jī)器翻譯譯文質(zhì)量估計(jì)問題(QE)提取特征,是對直接將語句的單詞詞向量的平均作為特征的方法的有效改進(jìn)。在本文第一節(jié)中提到,QE領(lǐng)域的研究中,對特征的提取非常關(guān)鍵;在特征提取方面,之前的研究主要是對源語句和機(jī)器翻譯的譯文提取語法相關(guān)的特征,也有一些研究探討了語義問題。隨著近些年深度學(xué)習(xí)的興起,一些研究使用神經(jīng)網(wǎng)絡(luò)來提取和句子的語義相關(guān)的特征。其中一個(gè)方法是,用詞袋模型對句子建立模型,也就是將句子看成是單詞的集合,不考慮詞語間的先后順序,用該語句的所有單詞對應(yīng)的詞向量的平均值作為對該語句的編碼。對源語句和譯文用上述方法編碼之后,得到2個(gè)向量,對這2個(gè)向量進(jìn)行拼接,作為QE模型的輸入特征。

        這種直接對句子中的單詞的詞向量求平均的方法,沒有考慮詞語間的先后順序和聯(lián)系,很難提取到語句深層次的語義信息。因此可以考慮用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)對句子進(jìn)行編碼,本文采用的是 GRU(Gated Recurrent Unit)。GRU是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種,不僅可以適用于如自然語言語句這種變長的序列研究,同時(shí)也可以如長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)一樣處理較長距離的依賴關(guān)系,但與LSTM相比結(jié)構(gòu)更加簡單,因此本文在循環(huán)神經(jīng)網(wǎng)絡(luò)的變體中選用GRU作為編碼器(和解碼器)。同時(shí),針對已有研究的分析表明,GRU每一步的隱狀態(tài)包含了輸入序列中當(dāng)前輸入以及之前所有輸入的信息,因此本文采用GRU最后一步輸出的隱狀態(tài)作為對整個(gè)語句的編碼向量。

        此外,因?yàn)镼E任務(wù)的數(shù)據(jù)集一般比較小,比如本文實(shí)驗(yàn)選用的訓(xùn)練集只有2萬個(gè)標(biāo)注數(shù)據(jù);而機(jī)器翻譯領(lǐng)域的常見語言對的數(shù)據(jù)集一般比較大,因此本文考慮通過引入2個(gè)簡單的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯(Neural Machine Translation,NMT) 模型,來充分利用大量的平行語料。引入的2個(gè)NMT模型翻譯方向相反,一個(gè)是源端到目標(biāo)端語言,另一個(gè)是目標(biāo)端語言到源端語言。這2個(gè)NMT模型的編碼器分別對源語句和目標(biāo)語句進(jìn)行編碼得到編碼向量,然后2個(gè)NMT模型的解碼器再分別對編碼向量解碼得到目標(biāo)語句和源語句;其中,2個(gè)NMT模型對源語句和目標(biāo)端語句編碼得到的編碼向量理論上就分別包含了源語句和目標(biāo)語句的信息。本文利用2個(gè)NMT模型的編碼器分別對源語句和機(jī)器翻譯的譯文進(jìn)行編碼,得到的向量就作為QE模型的輸入特征。

        整個(gè)模型由2部分構(gòu)成。第一部分是2個(gè)翻譯方向相反的NMT模型,第二部分是QE模型,輸出最終的質(zhì)量HTER。輸入的是從源語句和目標(biāo)語句提取得到的特征向量,在這里是2個(gè)NMT模型編碼得到的編碼向量,特征向量中除此之外也可以包含通過其它途徑提取到的特征。整體的模型結(jié)構(gòu)如圖1所示。

        2.1.1 NMT 子模型

        整個(gè)算法中一共包括2個(gè)翻譯方向相反的NMT模型,分別是源端到目標(biāo)端和目標(biāo)端到源端。2個(gè)NMT模型結(jié)構(gòu)完全相同,共享詞向量參數(shù)。下面即以源端到目標(biāo)端的NMT模型為例展開論述。源端的語句X={x1,x2, …,xS},xi(1≤i≤S) 是源語句中的單詞的one-hot編碼,S為源端語句的長度;目標(biāo)端語句Y={y1,y2, …,yT},yj(1 ≤j≤T)是目標(biāo)語句中的單詞的one-hot編碼,T為目標(biāo)端語句的長度。源端和目標(biāo)端的詞向量矩陣為ES和ET,其中詞向量矩陣的每一列代表一個(gè)單詞的詞向量。選用的NMT模型由編碼器和解碼器2部分組成,編碼器和解碼器使用的神經(jīng)網(wǎng)絡(luò)模型都是GRU。編碼器的功能是將源端語句X編碼為固定向量C。然后解碼器對C進(jìn)行解碼得到目標(biāo)端語句Y。 整個(gè)NMT模型可以表示為P(Y|X;θ),該條件概率可以用概率的乘法法則分解,數(shù)學(xué)公式可見如下:

        其中,編碼器主要由GRU構(gòu)成,GRU初始的隱狀態(tài)為零向量。在每一步的實(shí)際計(jì)算中,需先將該步的單詞的one-hot表示xi用詞向量矩陣ES映射為詞向量ES×xi,然后和上一步的隱狀態(tài)一起作為輸入,進(jìn)行GRU當(dāng)前步的計(jì)算。并且將最后一步輸出的隱狀態(tài)hS作為對整個(gè)源語句的編碼向量C。第t步的計(jì)算公式可表示為:

        圖1 模型整體結(jié)構(gòu)Fig.1 The structure of the model

        解碼器對源語句的編碼向量C進(jìn)行解碼。采用的神經(jīng)網(wǎng)絡(luò)模型是GRU,初始的隱狀態(tài)是C,C包含了源語句的信息。每一步最終的輸出是對這一步的詞表中所有單詞的概率分布,而輸入?yún)s是上一步的預(yù)測的單詞的詞向量,訓(xùn)練過程中的輸入則是上一步中目標(biāo)語句對應(yīng)的單詞的詞向量。第t步的隱狀態(tài)ht的計(jì)算公式和編碼器部分相似。這里采用的是一個(gè)單隱層的前向神經(jīng)網(wǎng)絡(luò),第t步的目標(biāo)詞概率分布的計(jì)算公式具體如下:

        2.1.2 QE 模型

        QE模型的輸入是特征向量V,在基本模型中特征向量是源端句子編碼向量CS和目標(biāo)端句子編碼向量CT的拼接 [CS:CT]。 模型采用的是單隱層的前向神經(jīng)網(wǎng)絡(luò),權(quán)重分別是W1和W2,偏置向量分別是b1和b2。隱層的激活函數(shù)采用relu,輸出層因?yàn)橐敵?~1的分?jǐn)?shù),因此采用sigmoid作為激活函數(shù)。公式表述如下:

        2.2 加入其他特征

        對源語句和機(jī)器翻譯譯文的編碼向量分別包含了源語句和譯文的語義語法信息,但是向量的每個(gè)維度都具有不可解釋性。因此本文將其它一些人工提取的特征和這2個(gè)用神經(jīng)網(wǎng)絡(luò)提取的特征進(jìn)行連接,作為QE模型的輸入特征。這些特征都具有高度直觀、且容易理解的含義。添加的特征有 17個(gè)[15],對其含義可闡釋解析如下。

        (1)源語句中的單詞數(shù)量。

        (2)機(jī)器翻譯語句中的單詞數(shù)量。

        (3)源語句長度。

        (4)源語句的語言模型概率。

        (5)機(jī)器翻譯語句的語言模型概率。

        (6)機(jī)器翻譯語句內(nèi)單詞出現(xiàn)次數(shù)的平均值。

        (7)源語句中每個(gè)單詞對應(yīng)的翻譯數(shù)量的平均值(使用 IBM 模型 1, 閾值設(shè)置為prob(t|s)>0.2)。

        (8)源語句中每個(gè)單詞對應(yīng)的翻譯數(shù)量(使用IBM 模型 1, 閾值設(shè)置為prob(t|s)>0.01) 的加權(quán)平均值,權(quán)重為源語言語料庫中每個(gè)詞的逆頻率。

        (9)源語句中的單詞占源語言語料庫(SMT訓(xùn)練平行語料庫)中頻率四分位數(shù)1(頻率較低的單詞)的百分比。

        (10)源語句中的單詞占源語言語料庫中頻率四分位數(shù)4(頻率較高的單詞)的百分比。

        (11)源語句中的bigrams占源語言語料庫中頻率四分位數(shù)1的百分比。

        (12)源語句中的bigrams占源語言語料庫中頻率四分位數(shù)4的百分比。

        (13)源語句中的trigrams占源語言語料庫中頻率四分位數(shù)1的百分比。

        (14)源語句中的trigrams占源語言語料庫中頻率四分位數(shù)4的百分比。

        (15)在語料庫(SMT訓(xùn)練平行語料庫)中可以看到的源語句中的單詞所占的百分比。

        (16)源句子中標(biāo)點(diǎn)符號的數(shù)量。

        (17)目標(biāo)語句中標(biāo)點(diǎn)符號的數(shù)量。

        3 實(shí)驗(yàn)

        3.1 實(shí)驗(yàn)設(shè)置

        本文為了對用NMT模型提取的特征的效果進(jìn)行驗(yàn)證,在2個(gè)不同的數(shù)據(jù)集上分別進(jìn)行了4組實(shí)驗(yàn),每組實(shí)驗(yàn)的不同點(diǎn)主要在于輸入的特征。這4組實(shí)驗(yàn)采用的特征,分別是:17個(gè)人工提取的特征、詞向量特征、NMT模型提取的特征、NMT提取的特征加上17個(gè)人工提取的特征。其中,第一組實(shí)驗(yàn)采用SVR作為模型,其它組的模型采用前向神經(jīng)網(wǎng)絡(luò)。這里,關(guān)于本次實(shí)驗(yàn)中的數(shù)值指標(biāo)設(shè)計(jì),對其可概述如下。

        (1)模型和訓(xùn)練的參數(shù)設(shè)置。SVR的核函數(shù)采用徑向基,其他超參數(shù)使用交叉驗(yàn)證確定。源端和目標(biāo)端詞表大小為74 000,詞向量的維度設(shè)置為512,神經(jīng)網(wǎng)絡(luò)(包括GRU、全連接神經(jīng)網(wǎng)絡(luò))的隱層神經(jīng)元個(gè)數(shù)為1 024。神經(jīng)網(wǎng)絡(luò)的優(yōu)化算法采用adam,batch的大小為64,訓(xùn)練NMT模型的學(xué)習(xí)率為3e-4,訓(xùn)練QE模型的學(xué)習(xí)率為5e-5。

        (2)實(shí)驗(yàn)所使用的數(shù)據(jù)集描述。用于訓(xùn)練NMT的數(shù)據(jù)集來自于WMT 2017 shared task的en-de翻譯任務(wù),語料包括 Europarl v7、Common Crawl corpus、News Commentary v12、Rapid corpus of EU press releases等,總共3 M個(gè)句對。研究采用的NMT模型結(jié)構(gòu)比較簡單,因此從所有3 M個(gè)句對中隨機(jī)抽取90 w個(gè)句對。再加上對應(yīng)的QE數(shù)據(jù)集(源語句加上被人工post edit后的譯文)中的2 w個(gè)句對,組成訓(xùn)練本文所需的NMT模型的平行語料。

        用于訓(xùn)練QE的數(shù)據(jù)集來自于WMT17 Shared Task:Quality Estimation任務(wù)一,包括德語到英語和英語到德語2個(gè)方向的數(shù)據(jù)集,并且分別屬于2個(gè)不同的領(lǐng)域。數(shù)據(jù)集信息詳見表1。

        表1 QE數(shù)據(jù)集Tab.1 QE data set

        3.2 實(shí)驗(yàn)結(jié)果

        實(shí)驗(yàn)運(yùn)行結(jié)果參見表2、表3。

        表2 de-en數(shù)據(jù)集Pearson相關(guān)系數(shù)Tab.2 The Pearson of de-en

        表3 en-de數(shù)據(jù)集Pearson相關(guān)系數(shù)Tab.3 The Pearson of en-de

        綜上結(jié)果分析可知,在2個(gè)方向上,可以看到相比于人工提取的17個(gè)特征,即使使用詞向量直接相加提取的特征,效果也會(huì)更好。這說明詞向量包含的單詞帶有大量的語義信息,即使不考慮單詞之間的順序和關(guān)系,也可以對最終譯文的質(zhì)量的預(yù)測有所幫助。然后本文使用了NMT模型中的編碼器對句子的單詞序列進(jìn)行了非線性變換,最終的實(shí)驗(yàn)結(jié)果表明,這種非線性變換和直接求平均相比,對機(jī)器翻譯譯文質(zhì)量的預(yù)測能力更強(qiáng)。最后,編碼器得到的編碼向量雖然包含了語義信息,但是每個(gè)維度都具有不可解釋性,將其和人工提取的17個(gè)具有直觀含義的特征拼接起來作為輸入特征,效果有所提升,說明編碼向量特征和這17個(gè)特征在一定程度上實(shí)現(xiàn)了互補(bǔ)。

        4 結(jié)束語

        針對機(jī)器翻譯譯文質(zhì)量估計(jì)問題,本文提出了一個(gè)融合了翻譯知識的特征提取算法,該算法首先訓(xùn)練2個(gè)翻譯方向相反的NMT模型,然后利用2個(gè)編碼器編碼得到向量作為特征。實(shí)驗(yàn)表明,利用NMT編碼器提取的特征比直接對語句中單詞詞向量平均的特征預(yù)測效果更好。并且,該特征和本文提到的17個(gè)手工提取的特征一定程度上具有互補(bǔ)性,2類特征的結(jié)合可以進(jìn)一步提升QE模型的效果。

        猜你喜歡
        編碼器語句語料庫
        重點(diǎn):語句銜接
        《語料庫翻譯文體學(xué)》評介
        基于FPGA的同步機(jī)軸角編碼器
        精彩語句
        把課文的優(yōu)美表達(dá)存進(jìn)語料庫
        基于PRBS檢測的8B/IOB編碼器設(shè)計(jì)
        JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
        電子器件(2015年5期)2015-12-29 08:42:24
        基于JAVAEE的維吾爾中介語語料庫開發(fā)與實(shí)現(xiàn)
        語言與翻譯(2015年4期)2015-07-18 11:07:45
        多總線式光電編碼器的設(shè)計(jì)與應(yīng)用
        如何搞定語句銜接題
        語文知識(2014年4期)2014-02-28 21:59:52
        久久亚洲精品11p| 亚洲精品国产av成拍| 一区二区中文字幕在线观看污污| 青青草 视频在线观看| 樱桃视频影院在线播放| 天躁夜夜躁狼狠躁| 久久久久久99精品| 日韩精品成人一区二区在线观看| 国产交换精品一区二区三区| 久久99精品久久久久久清纯| 首页 综合国产 亚洲 丝袜| 国产亚洲精品aaaa片app| 97久久成人国产精品免费| 熟女少妇av一区二区三区 | 国产精品一区二区三区免费视频| 国产亚洲美女精品久久久2020 | 精品性高朝久久久久久久| 久久久精品中文无码字幕| 国产影院一区二区在线| 亚洲国产a∨无码中文777| 三年片大全在线观看免费观看大全 | 亚洲av男人的天堂一区| 天天躁日日躁狠狠躁欧美老妇小说| 国产莉萝无码av在线播放| 男女超爽视频免费播放| 在线亚洲精品国产成人二区| 日韩精品视频免费在线观看网站| 中文字幕亚洲欧美在线不卡| 8av国产精品爽爽ⅴa在线观看| 欧美三级超在线视频| 视频在线播放观看免费| 久久精品av在线观看| 亚洲热妇无码av在线播放| 久久天天躁夜夜躁狠狠躁2022| 久久狠狠爱亚洲综合影院| 久久99国产综合精品女同| 亚洲精品国产一区二区| www插插插无码免费视频网站| 国产一区二区三区免费精品| 一区二区高清视频免费在线观看| 中文字幕在线日亚州9|