亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于知識蒸餾的維漢神經(jīng)翻譯模型解碼速度提升方法

        2022-12-03 01:56:46朱相榮楊雅婷
        計算機應(yīng)用與軟件 2022年11期
        關(guān)鍵詞:方法模型教師

        朱相榮 王 磊 楊雅婷 董 瑞 張 俊

        (中國科學(xué)院新疆理化技術(shù)研究所 新疆 烏魯木齊 830011)(中國科學(xué)院大學(xué) 北京 100049)(中國科學(xué)院新疆理化技術(shù)研究所新疆民族語音語言信息處理實驗室 新疆 烏魯木齊 830011)

        0 引 言

        近年來,基于深度神經(jīng)網(wǎng)絡(luò)的機器翻譯取得了飛速的發(fā)展,在眾多語言對上表現(xiàn)出很好的翻譯效果[1]。大多數(shù)神經(jīng)機器翻譯(Neural Machine Translation,NMT)模型使用“編碼器-解碼器”框架實現(xiàn),編碼器將源句子表示輸入到解碼器中生成目標句子表示;解碼器以自回歸方式從左到右逐字解碼生成目標句子,即第t個目標詞的生成依賴于先前t-1個目標詞。雖然最近提出的幾個模型利用卷積神經(jīng)網(wǎng)絡(luò)[2]或自注意力機制[3]將訓(xùn)練過程高度并行化,加快了訓(xùn)練速度,但由于自回歸的解碼方式使得模型解碼速度非常緩慢,嚴重制約了現(xiàn)實場景中的應(yīng)用。同時隨著網(wǎng)絡(luò)規(guī)模增大和參數(shù)量增多,容易導(dǎo)致網(wǎng)絡(luò)結(jié)構(gòu)變得繁重和冗余,從而產(chǎn)生嚴重的過擬合和過參數(shù)化問題[4],嚴重影響了運行效率和解碼速度。因此,本文的研究內(nèi)容集中于在保證翻譯質(zhì)量的前提下,探索如何提升模型的解碼速度,使得翻譯質(zhì)量和解碼速度達到一個更好的平衡,以便神經(jīng)機器翻譯模型能很好地在實際應(yīng)用中發(fā)揮價值。

        針對此問題,研究人員采用非自回歸模型對每個譯文單詞的生成單獨建模,能夠同時生成整句譯文,大幅度提升解碼速度。Gu等[5]首次提出非自回歸神經(jīng)機器模型來減少自回歸解碼方式的延遲問題。相比于自回歸解碼從左到右逐字生成的翻譯方式,該模型能夠并行生成目標端所有單詞,但嚴重降低了翻譯性能。即對于一個長為n的目標句子,自回歸模型需要O(n)次循環(huán)生成,而該模型僅需O(1)次循環(huán)生成。此后,研究人員通過增加循環(huán)次數(shù)的方式來提升翻譯性能,如:Lee等[6]提出基于迭代優(yōu)化的非自回歸序列模型;Wang等[7]提出半自回歸神經(jīng)機器翻譯模型;Stern等[8]提出通過插入操作來靈活生成目標序列;對應(yīng)的循環(huán)次數(shù)分別為O(k)、O(n/k)和O(logn)。同時對非自回歸機器翻譯模型改進的方法還包括增強解碼器端的輸入[9]、引入隱變量作為解碼器的輸入[10]、輔助正規(guī)化[11]和引入序列信息[12]等工作。

        雖然這些非自回歸方法通過對目標詞的生成進行單獨的建模,可以顯著提升解碼速度;但由于詞級別的交叉熵損失函數(shù)不合理地要求模型輸出與參考譯文嚴格對齊,且無法準確地建模目標端的序列依賴關(guān)系,從而導(dǎo)致模型的翻譯質(zhì)量不是很好。尤其是不能降低神經(jīng)網(wǎng)絡(luò)中過多參數(shù)帶來的存儲空間浪費,難以將其部署到資源受限的平臺中,使得深度神經(jīng)網(wǎng)絡(luò)在時間和空間上的應(yīng)用都受到很大約束[13]。

        目前,非自回歸模型解碼速度快、翻譯質(zhì)量差;而自回歸模型翻譯質(zhì)量好、解碼速度慢,均難以保證翻譯質(zhì)量的前提下提升解碼速度,嚴重制約了現(xiàn)實場景中的應(yīng)用。因此本文從自回歸模型具有翻譯精度的優(yōu)勢作為切入點,探索如何提升模型的解碼速度。通過探索模型壓縮方法對模型進行精簡實現(xiàn)網(wǎng)絡(luò)參數(shù)量、計算量的減少,使得計算開銷與存儲需求大大降低,從而達到模型運行效率的提高,為模型在同等硬件條件下提升解碼速度提供可能[14]。模型壓縮可以通過設(shè)計更精細的網(wǎng)絡(luò)結(jié)構(gòu)來改變模型結(jié)構(gòu),實現(xiàn)模型存儲的減??;也可以在已有模型的基礎(chǔ)上減少模型參數(shù),在不改變模型結(jié)構(gòu)的條件下減小模型存儲大小。當(dāng)前研究人員在不改變模型結(jié)構(gòu)的基礎(chǔ)上提出了許多可行方法,如剪枝[15]、量化[16]、低精度[17]和知識蒸餾[18]等。

        本文提出一種基于知識蒸餾的數(shù)據(jù)增強方法,通過引入模型壓縮方法中的知識蒸餾來減小模型的參數(shù)量和存儲需求,達到加快運行效率提升解碼速度的目的;同時引入數(shù)據(jù)增強的方法來保證模型壓縮對翻譯精度不產(chǎn)生影響。首先采用知識蒸餾的方法利用教師網(wǎng)絡(luò)較強的預(yù)測能力從源語言中提取隱性雙語知識,彌補學(xué)生網(wǎng)絡(luò)優(yōu)化中監(jiān)督信號不足的問題,從而指導(dǎo)學(xué)生網(wǎng)絡(luò)學(xué)習(xí)有限雙語數(shù)據(jù)中缺失的翻譯映射關(guān)系;然后采用數(shù)據(jù)增強的方法將訓(xùn)練好的教師網(wǎng)絡(luò)輸出的軟標簽數(shù)據(jù)集和原始數(shù)據(jù)集合并得到擴充的數(shù)據(jù)集作為學(xué)生網(wǎng)絡(luò)的訓(xùn)練集;最后在不改變學(xué)生網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)量的前提下,使得學(xué)生網(wǎng)絡(luò)達到教師網(wǎng)絡(luò)的翻譯精度,同時實現(xiàn)解碼速度的提升。該方法在CWMT2017維漢雙語數(shù)據(jù)集上的實驗結(jié)果表明,利用該方法訓(xùn)練自回歸模型可以保證翻譯精度的前提下,獲得模型的壓縮和解碼速度的提升。

        1 相關(guān)工作

        本文的相關(guān)工作主要基于知識蒸餾和數(shù)據(jù)增強方法,接下來做簡要介紹。

        為了處理復(fù)雜的訓(xùn)練數(shù)據(jù),神經(jīng)網(wǎng)絡(luò)通常會建立或集成復(fù)雜模型得到最終結(jié)果。例如GPT[19]、BERT[20]、RoBERTa[21]和XLNet[22]等復(fù)雜的預(yù)訓(xùn)練語言模型在NLP的許多任務(wù)上取得了很好的效果。但是這些模型對計算資源的需求很高,具有數(shù)億個參數(shù)且需要大量的內(nèi)存用于訓(xùn)練和解碼,使得難以大規(guī)模部署或在新的場景下重新訓(xùn)練成本高。而較小的模型不僅可以降低計算復(fù)雜度,而且可以增加批處理大小來更好地利用GPU并行性,有效地提升解碼速度。因此研究人員試圖設(shè)計精簡模型或利用知識蒸餾技術(shù)將大型預(yù)訓(xùn)練模型壓縮為小型模型。

        近年來,大型預(yù)訓(xùn)練模型的壓縮吸引了越來越多研究者的興趣?,F(xiàn)有的研究大致可分為知識蒸餾、剪枝、量化,其中知識蒸餾的效果最佳。在本文中,我們關(guān)注知識蒸餾的壓縮方法。Buciluǎ等[23]利用預(yù)訓(xùn)練好的復(fù)雜模型將大量無標簽數(shù)據(jù)生成標簽,利用生成的偽標簽數(shù)據(jù)補充有標簽數(shù)據(jù)來監(jiān)督指導(dǎo)簡單模型,證明可以將復(fù)雜模型的知識壓縮在簡單模型。Ba等[24]利用一種相對教師模型更淺的學(xué)生模型來模擬教師模型,并保證兩者的參數(shù)量相同,最終得到淺層神經(jīng)網(wǎng)絡(luò)的性能可以接近深層神經(jīng)網(wǎng)絡(luò)[25]?;谠撍枷耄琀inton等[18]提出知識蒸餾的壓縮框架,利用復(fù)雜且強大的教師模型指導(dǎo)簡單且性能較差的學(xué)生模型學(xué)習(xí)。該框架采用教師-學(xué)生范式將教師網(wǎng)絡(luò)壓縮得到學(xué)生網(wǎng)絡(luò),利用教師模型Softmax函數(shù)的輸出對學(xué)生模型的輸出進行監(jiān)督,使得教師模型的信息可以傳遞到學(xué)生模型。此方法雖然簡單,但卻能展現(xiàn)很好的效果。Chen等[26]借助知識蒸餾框架,利用中軸語言改善低資源的神經(jīng)機器翻譯。

        利用知識蒸餾的方法可以將復(fù)雜網(wǎng)絡(luò)學(xué)習(xí)出來的先驗知識遷移到簡單網(wǎng)絡(luò),從而指導(dǎo)簡單網(wǎng)絡(luò)學(xué)習(xí)有限雙語數(shù)據(jù)中缺失的翻譯映射關(guān)系,使得在相同場景中簡單網(wǎng)絡(luò)相比復(fù)雜網(wǎng)絡(luò)可以加快運行效率從而提升解碼速度。這種方法可以使簡單網(wǎng)絡(luò)的解碼速度獲得提升的前提下翻譯質(zhì)量有所改善,但并不能接近甚至超越復(fù)雜網(wǎng)絡(luò)的翻譯質(zhì)量。

        由于維漢平行語料是低資源語言,神經(jīng)機器翻譯中訓(xùn)練集較少且容易導(dǎo)致泛化能力不足的問題。本文在知識蒸餾的基礎(chǔ)上利用數(shù)據(jù)增強方法來彌補訓(xùn)練集不足的問題,也使句子結(jié)構(gòu)變得多樣化。Zoph等[27]在四組低資源語言對上翻譯結(jié)果表明,統(tǒng)計機器翻譯優(yōu)于神經(jīng)機器翻譯。此后,研究人員在神經(jīng)機器翻譯中通過增加訓(xùn)練集或?qū)⒄Z法、語義信息與神經(jīng)機器翻譯融合,從而提升翻譯效果。Sennrich等[28]首次提出利用容易獲取的單語語料構(gòu)造偽平行語料,然后將偽平行語料和真實語料合并共同訓(xùn)練模型。Fadaee等[29]通過大規(guī)模的單語語料訓(xùn)練得到語言模型,進而獲取句子中高頻詞能被低頻詞替代的位置。通過這種高低頻單詞的替換可以增加訓(xùn)練集中低頻詞出現(xiàn)的頻率,從而提升模型對低頻詞的理解能力。

        本文在知識蒸餾的基礎(chǔ)上,通過將教師網(wǎng)絡(luò)輸出的軟標簽數(shù)據(jù)與真實標簽合并得到新的訓(xùn)練集,來改善簡單網(wǎng)絡(luò)的翻譯質(zhì)量低于復(fù)雜網(wǎng)絡(luò)的劣勢。

        2 本文方法

        2.1 教師和學(xué)生網(wǎng)絡(luò)的結(jié)構(gòu)

        本文的教師和學(xué)生網(wǎng)絡(luò)的結(jié)構(gòu)是基于Pytorch開源框架,搭建Vaswani等[3]提出的Transformer模型。教師和學(xué)生網(wǎng)絡(luò)具有相同的模型結(jié)構(gòu),其中教師網(wǎng)絡(luò)參數(shù)大、結(jié)構(gòu)復(fù)雜且性能較好,而學(xué)生模型參數(shù)小、結(jié)構(gòu)簡單且性能較差。Transformer是機器翻譯的主流框架,也是自回歸模型性能最好的模型之一,無論翻譯質(zhì)量和效率方面都是最先進的[30]。因此,本文將其作為教師和學(xué)生網(wǎng)絡(luò)模型。

        該模型完全基于自注意力機制,摒棄了以往循環(huán)神經(jīng)網(wǎng)絡(luò)的遞歸計算和卷積神經(jīng)網(wǎng)絡(luò)的卷積操作,提升了模型的收斂和訓(xùn)練速度;同時將注意力機制引入編碼器和解碼器內(nèi)解決源語言和目標語言句子內(nèi)部詞語之間的依賴關(guān)系,有效地解決了長距離依賴建模能力不足的問題。如圖1所示為Transformer的結(jié)構(gòu),該模型由編碼器、解碼器和多頭注意力機制組成。

        圖1 Transformer結(jié)構(gòu)

        在Transformer中,編碼器包括N個相同的層,每層由自注意力和前饋神經(jīng)網(wǎng)絡(luò)兩個子層組成,如圖1左側(cè)所示。自注意力層通過關(guān)注同一層的所有相鄰令牌,計算此令牌與相鄰令牌之間的相關(guān)分數(shù),最后將所有相鄰令牌與此令牌表示線性組合來計算該令牌的輸出表示。圖1右側(cè)所示的解碼器也包括N個相同的層,每層有三個子層。其中:第一子層是對部分翻譯歷史進行總結(jié)的掩蔽自注意力層;第二子層是編碼器-解碼器注意力層決定當(dāng)前預(yù)測的動態(tài)源端上下文;第三子層是前饋層。同時,編碼器和解碼器的每個子層執(zhí)行殘差連接和層正則化,前者保留原始輸入中的信息,后者加快模型訓(xùn)練速度。顯然,注意力機制是關(guān)鍵組成部分,包括編碼器自注意力、解碼器遮蔽自注意力和編碼器-解碼器注意力機制。這三種注意力機制可以形式化為相同的公式,如式(1)所示。

        式中:q、K和V分別代表查詢、鍵和值矩陣;dk是鍵的維度。

        編碼器自注意力機制中q、K、V來自同一層;解碼器遮蔽自注意力機制使得預(yù)測i位置的詞只能依賴i之前的位置,因為自回歸從左到右的單向解碼無法獲得i位置之后的預(yù)測;編碼器-解碼器注意力機制是計算源端動態(tài)上下文,負責(zé)預(yù)測當(dāng)前目標語言標記。查詢是遮蔽自注意力子層的輸出,鍵和值是相同的編碼器上下文向量,然后應(yīng)用殘差連接、層正則化和前饋子層產(chǎn)生整個層的輸出。經(jīng)過N個這樣的層得到最終的隱藏狀態(tài),利用Softmax函數(shù)對目標詞進行預(yù)測,如圖1右上方所示。

        2.2 方法描述

        為了提升模型的解碼速度,引入知識蒸餾的模型壓縮方法將知識從教師模型遷移到學(xué)生模型,把學(xué)生模型訓(xùn)練成模仿教師模型的輸出,使得在同等硬件環(huán)境中學(xué)生模型相比教師模型可以加快運行效率從而提升解碼速度。然而,雖然解碼速度獲得提升,但學(xué)生模型不能充分利用教師模型的所有知識。這使得學(xué)生模型的解碼速度獲得提升的前提下翻譯質(zhì)量有所提高,但并不能接近甚至超越教師模型的翻譯質(zhì)量。因此,本文在引入知識蒸餾的基礎(chǔ)上,通過對訓(xùn)練集的數(shù)據(jù)增強進行自蒸餾,提高學(xué)生模型的泛化能力,提出一種基于知識蒸餾的數(shù)據(jù)增強方法如圖2所示。

        圖2 基于知識蒸餾的數(shù)據(jù)增強方法

        在神經(jīng)機器翻譯中通常采用一位有效(one-hot)編碼,如式(2)所示。

        wi={0,1}|y|i=1,2,…,T

        (2)

        式中:wi標注的目標語言詞語作為預(yù)測目標,它的維度與目標語言詞匯表大小相同,除了一個維度值為1,其余均為0,該位置對應(yīng)目標單詞在詞匯表Y的位置。這種是1非0的編碼方式使得目標語言詞匯表中丟失了詞間相似性信息,導(dǎo)致知識遷移時學(xué)生模型不能充分利用教師模型的所有知識。例如,單詞“CHN”“China”“People’s Republic of China”都是“中國”的同義詞,但使用這種編碼方式完全不會考慮這種同義詞之間的相似性,很容易使得訓(xùn)練好的模型預(yù)測“China”時目標端詞語很可能預(yù)測為:“China”為0.9、“CHN”為0.05、“People’s Republic of China”為0.1。

        因此,為了彌補這種編碼方式帶來監(jiān)督信號不足的問題,本文在引入知識蒸餾方法中通過調(diào)整溫度“T”來改變Softmax函數(shù)的輸出,如式(3)所示。

        式中:qi是神經(jīng)網(wǎng)絡(luò)Softmax函數(shù)的輸出,代表學(xué)生模型學(xué)習(xí)的對象。當(dāng)T=0時,Softmax輸出的最大值更接近1,其他值為0,這種收斂近似于神經(jīng)機器翻譯中one-hot編碼對應(yīng)的函數(shù)形式。當(dāng)T=1時,得到標準的Softmax函數(shù)。隨著T的增加,Softmax函數(shù)產(chǎn)生的概率分布變得更軟,能夠提供更多的信息,使得學(xué)生模型和教師模型的預(yù)測更相似。所以,相比于one-hot編碼產(chǎn)生硬標簽的缺陷,對教師模型采用這種方法,能夠得到更多詞間相似信息的軟標簽。

        雖然該方法在解碼速度獲得提升的前提下學(xué)生模型的翻譯質(zhì)量有所改善,但依然達不到甚至超越教師模型的翻譯質(zhì)量。因此,本文在引入知識蒸餾方法的基礎(chǔ)上再次引入對訓(xùn)練集的數(shù)據(jù)增強進行自蒸餾。在不改變和不添加原訓(xùn)練集的基礎(chǔ)上,通過將教師模型輸出的軟標簽數(shù)據(jù)集與原數(shù)據(jù)集混合形成新的訓(xùn)練集,進一步提取訓(xùn)練集中的隱性雙語知識,彌補學(xué)生模型優(yōu)化中監(jiān)督信號不足的問題,使得學(xué)生模型訓(xùn)練中獲取的信息量更豐富。最終可以使學(xué)生模型能夠?qū)W習(xí)有限雙語數(shù)據(jù)集中缺失的翻譯映射關(guān)系,使得在解碼速度提升的前提下,學(xué)生模型的翻譯質(zhì)量接近甚至超越教師模型。

        具體而言,首先,在維漢神經(jīng)機器翻譯中利用知識蒸餾的方法且調(diào)整溫度T來改變Softmax的輸出得到更多含有知識的軟標簽數(shù)據(jù),將知識從教師模型遷移到學(xué)生模型,在不改變網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)量的前提下提升學(xué)生模型的解碼速度和翻譯質(zhì)量;其次,針對解碼速度提升的前提下學(xué)生模型翻譯質(zhì)量盡管有所改善,但仍達不到教師模型的問題,引入對訓(xùn)練集的數(shù)據(jù)增強進行自蒸餾。通過擴充原始數(shù)據(jù)集來彌補學(xué)生網(wǎng)絡(luò)中監(jiān)督信息不足引起翻譯精度下降的問題,使得學(xué)生模型的翻譯質(zhì)量接近甚至超越教師模型;最后,將使用本文方法的學(xué)生模型與未使用該方法的學(xué)生模型作比較,得到學(xué)生模型翻譯精度達到教師模型的前提下,可以獲得解碼速度的提升和參數(shù)模型的縮小,更有利于應(yīng)用在計算和存儲資源受限的平臺中。

        因此該方法適用于計算和存儲資源較少且不易擴充的硬件環(huán)境,且平行語料有限,但對翻譯質(zhì)量和解碼速度需求較高的平臺中。該方法首先能夠高效且有效地優(yōu)化單個學(xué)生網(wǎng)絡(luò);其次通過數(shù)據(jù)到數(shù)據(jù)的自蒸餾,學(xué)生模型可以學(xué)習(xí)更多內(nèi)在表示的泛化;最后學(xué)生模型在較低的計算成本和內(nèi)存負載下翻譯質(zhì)量和解碼速度得到顯著提高。

        3 實驗與結(jié)果分析

        3.1 數(shù)據(jù)集

        維吾爾語是一種在語素的組合上有著高度靈活性的黏著性語言,可以構(gòu)成無限多的詞語使得大多數(shù)維吾爾語詞語出現(xiàn)在語料庫中的頻率降低,即使在測試集中也極易出現(xiàn)訓(xùn)練集中未出現(xiàn)的詞[31]。由于這種語言特性,造成了很嚴重的數(shù)據(jù)稀疏性問題和未登錄詞問題。為了解決這種問題,楊洋[32]采用維語形態(tài)切分和字節(jié)對編碼(Byte-Pair Encoding,BPE)[33]技術(shù)兩種不同的方法,并在實驗效果上作對比。最終得到采用BPE技術(shù)是效果最好的,因為對子詞的切分提高了模型對罕見詞和未登錄詞的處理能力,解決了數(shù)據(jù)稀疏性問題。因此,本文所有的維吾爾語語料均采用BPE技術(shù)進行編碼處理。

        因此,本文中涉及的維吾爾語采用BPE算法進行標記分割成子詞單元。采用Sennrich開源的Subword[33]分詞工具。核心思想是對語料庫中的高頻詞不作切分,只對低頻詞切分來增加稀疏詞中子詞的共現(xiàn)次數(shù)。同時漢語語料同樣采用BPE編碼技術(shù)來減少詞匯量。由于漢語字與字之間沒有空,直接使用BPE分詞會影響編碼效果。因此,首先使用北京大學(xué)開源的中文分詞工具pkuseg對漢語語料分詞,然后使用BPE編碼技術(shù)。這樣將學(xué)習(xí)到的規(guī)則應(yīng)用于所有的測試集、開發(fā)集和訓(xùn)練集。而且在平行語料進行分詞之前,需要進行編碼轉(zhuǎn)換、去除重復(fù)對、全角字符轉(zhuǎn)半角字符、過濾控制字符等特殊字符和處理轉(zhuǎn)義字符。其中,采用BPE的迭代輪數(shù)為32 000,詞表大小均為40 000。本節(jié)所用數(shù)據(jù)集如表1所示,其中:cor表示原始的維漢數(shù)據(jù)集;trg表示教師模型產(chǎn)生的硬標簽數(shù)據(jù)集;dec表示教師模型產(chǎn)生的軟標簽數(shù)據(jù)集。

        表1 數(shù)據(jù)集

        3.2 評價指標

        對于神經(jīng)機器翻譯結(jié)果,本文采用機器翻譯常用的評價指標雙語互譯評估(BLEU)[34]來對模型的翻譯質(zhì)量進行評價。解碼速度采用每秒處理單詞數(shù)和每秒處理句子數(shù)來判定,Δ表示解碼速度指標每秒處理單詞數(shù)變化量的增量。

        3.3 實驗設(shè)置

        本文將base-Transformer作為教師模型(基線系統(tǒng)),small-Transformer作為學(xué)生模型[3],參數(shù)設(shè)置如表2所示。訓(xùn)練步數(shù)均為2×105,優(yōu)化器采用Adam[35],訓(xùn)練和解碼過程在單個Nvidia Tesla K80 GPU上。

        表2 教師模型和學(xué)生模型設(shè)置

        3.4 結(jié)果分析

        實驗具體步驟為:

        (1) 根據(jù)實驗的需求設(shè)計教師模型和學(xué)生模型的網(wǎng)絡(luò)結(jié)構(gòu),如表2所示。

        (2) 采用CWMT2017維漢雙語數(shù)據(jù)集,修改教師模型Softmax函數(shù)中溫度參數(shù)T為一個較大的值(實驗中設(shè)置為T=8)[36],訓(xùn)練后得到含有更多詞間相似性信息的軟標簽數(shù)據(jù)。

        (3) 采用數(shù)據(jù)增強的方法,在學(xué)生模型上評估多種不同數(shù)據(jù)集組合的效果,選擇最佳的數(shù)據(jù)集組合將知識從教師模型遷移到學(xué)生模型,如表3所示。

        表3 學(xué)生模型在不同數(shù)據(jù)集組合上的實驗結(jié)果

        (4) 分析學(xué)生模型采用基于知識蒸餾的數(shù)據(jù)增強方法后與未使用的區(qū)別,以及學(xué)生模型最后的性能與基線系統(tǒng)的比較,包括解碼速度、翻譯質(zhì)量和參數(shù)規(guī)模等,如表4和表5所示。

        表4 學(xué)生模型與基線系統(tǒng)(教師模型)結(jié)果對比

        表5 模型參數(shù)對比分析

        (5) 本文方法與現(xiàn)有的自回歸和非自歸回翻譯方法進行翻譯效果和解碼方法比較,顯示該方法的優(yōu)勢性,如表6所示。

        表6 不同模型對比分析

        表3的實驗結(jié)果顯示,原始數(shù)據(jù)集在教師模型和學(xué)生模型上得到的翻譯精度分別為48.21和40.14個BLEU值。采用本文提出的基于知識蒸餾的數(shù)據(jù)增強方法,學(xué)生模型在cor+dec+trg數(shù)據(jù)集組合中效果最好,翻譯結(jié)果的BLEU值為48.47。因此,在相同的訓(xùn)練條件下,不改變學(xué)生模型的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)量,與未使用該方法的學(xué)生模型相比,翻譯精度提升8.33(48.47與40.14的差值)個BLEU值。

        表4的實驗結(jié)果顯示,采用本文方法后,學(xué)生模型的翻譯性能可達到基線系統(tǒng),甚至還提升0.26個BLEU值,解碼速度比基線系統(tǒng)提升1.05倍。因此本實驗可以證明,采用基于知識蒸餾的數(shù)據(jù)增強方法,可以使學(xué)生模型達到基線系統(tǒng)的翻譯性能,同時解碼速度提升1.05倍。

        表6的實驗結(jié)果顯示,在相同的訓(xùn)練條件下,本文方法與現(xiàn)有的自回歸模型、非自回歸模型和Transformer(學(xué)生模型)進行比較,非自回歸模型在解碼速度相比于自回歸上更有優(yōu)勢,而翻譯效果具有劣勢,即得到非自回歸模型的解碼速度比自回歸模型提升1.74倍時,翻譯質(zhì)量可達到自回歸模型的95.34%,而本文方法比這兩種方法在翻譯質(zhì)量和解碼速度上都具有優(yōu)勢,尤其是翻譯效果方面。

        表5的實驗結(jié)果顯示,本文方法在學(xué)生模型達到基線系統(tǒng)翻譯性能的條件下,模型參數(shù)規(guī)模壓縮率為2.44倍。因此對于一些比較臃腫、不便部署的復(fù)雜模型,該方法可以將其知識遷移到簡單模型上。

        因此,本文方法相比于目前自回歸模型和非自回歸模型均有優(yōu)勢,即該方法可使學(xué)生模型提升8.33個BLEU值,同時使學(xué)生模型的翻譯性能達到基線系統(tǒng),解碼速度提升1.05倍,模型壓縮2.44倍,可使簡單網(wǎng)絡(luò)具有復(fù)雜網(wǎng)絡(luò)的翻譯性能,解碼速度提升1.05倍,更有利于部署在對翻譯速度需求迫切的計算資源受限的平臺中。

        4 結(jié) 語

        本文利用有限的維漢雙語數(shù)據(jù)集,成功實現(xiàn)了翻譯性能和解碼速度的提升,同時使得參數(shù)模型得到了壓縮,更有利于部署到對計算資源受限的平臺中。采用本文方法將知識從教師模型遷移到學(xué)生模型,在不改變其網(wǎng)絡(luò)結(jié)構(gòu)、參數(shù)量和不增加計算成本的前提下,提升學(xué)生模型的翻譯質(zhì)量和速度。這種方法可以獲得目標語言詞匯表中更多的詞間相似性信息,從而提供更單純、噪聲更小的數(shù)據(jù)集來訓(xùn)練學(xué)生網(wǎng)絡(luò)。最終使用該方法,學(xué)生模型在達到基線系統(tǒng)翻譯性能的條件下,解碼速度提升1.05倍,參數(shù)模型壓縮2.44倍。在下一步的工作中將研究非自回歸翻譯模型解碼速度快的優(yōu)勢和翻譯性能差的劣勢,改進模型使翻譯質(zhì)量和解碼速度達到一個更好的平衡。

        猜你喜歡
        方法模型教師
        一半模型
        最美教師
        快樂語文(2021年27期)2021-11-24 01:29:04
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        教師如何說課
        甘肅教育(2020年22期)2020-04-13 08:11:16
        未來教師的當(dāng)下使命
        可能是方法不對
        3D打印中的模型分割與打包
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        岳丰满多毛的大隂户| 一本久久综合亚洲鲁鲁五月夫| 国产一区二区三区中出| 97丨九色丨国产人妻熟女| 蜜桃麻豆www久久囤产精品| 午夜亚洲AV成人无码国产| 一本色道久久88综合亚精品| 日韩中文字幕有码午夜美女| 大肉大捧一进一出好爽视频| 国产亚洲精品看片在线观看| 97国产精品麻豆性色| 日韩中文字幕在线观看一区| 农村欧美丰满熟妇xxxx| 久久精品这里只有精品| 亚洲在线一区二区三区| 中文字幕一区二区三区视频| 亚洲色大成网站www久久九| 精品亚洲欧美高清不卡高清| 国产激情视频高清在线免费观看| 无遮挡1000部拍拍拍免费| 国产又黄又大又粗的视频| 成人无码无遮挡很H在线播放| 99久久精品人妻一区| 在线播放真实国产乱子伦| 亚洲黄色电影| 日本经典中文字幕人妻| 开心五月天第四色婷婷| 婷婷五月六月综合缴情| 中文字幕亚洲无线码高清| 亚洲一区二区三区四区精品| 国产激情一区二区三区| 亚洲影院天堂中文av色| 男女性搞视频网站免费| 国产精品妇女一区二区三区| 色八a级在线观看| 国产高潮流白浆免费观看不卡| 少妇被粗大的猛进69视频| 久久久久国产综合av天堂| 日本在线视频网站www色下载 | 久久香蕉免费国产天天看| 日本一区二区高清视频在线播放|