亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        交互式機器翻譯綜述

        2023-02-24 05:00:44廖興濱秦小林張思齊錢楊舸
        計算機應(yīng)用 2023年2期
        關(guān)鍵詞:神經(jīng)文獻(xiàn)用戶

        廖興濱,秦小林*,張思齊,錢楊舸

        (1.中國科學(xué)院 成都計算機應(yīng)用研究所,成都 610213;2.中國科學(xué)院大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,北京 101408)

        0 引言

        交互式機器翻譯(Interactive Machine Translation,IMT)也被稱為交互式機器預(yù)測或目標(biāo)文本介導(dǎo)的交互式機器翻譯,是一種人工翻譯人員或者用戶與機器翻譯系統(tǒng)輸出互動的翻譯模式[1]。交互式機器翻譯的出現(xiàn)主要原因包括:1)當(dāng)前最先進(jìn)的SOTA(State Of The Art)的機器翻譯(Machine Transaction,MT)技術(shù)仍然無法實現(xiàn)任何兩種語言間的高質(zhì)量翻譯,必須要對機器翻譯系統(tǒng)的輸出進(jìn)行人工后期編輯(Post-Editing),而IMT 是一種可行的解決方案;2)交互式模式識別(Interactive Pattern Recognition,IPR)框架很容易和機器翻譯系統(tǒng)結(jié)合,機器翻譯系統(tǒng)可以預(yù)測給定源句子的翻譯,用戶可以接受該翻譯或進(jìn)行修正以產(chǎn)生反饋;3)交互式機器翻譯可以在迭代交互過程中提出新的改進(jìn)譯文,直到整個輸出被用戶接受,而在該過程中產(chǎn)生的反饋信號可以用于訓(xùn)練。

        在這種模式下,機器翻譯系統(tǒng)根據(jù)源句子和當(dāng)前時刻已經(jīng)產(chǎn)生的部分譯文給出建議,而用戶要么接受翻譯系統(tǒng)輸出的候選譯文,要么給出針對當(dāng)前候選譯文的反饋。當(dāng)用戶對給出的建議翻譯不滿意時,機器翻譯系統(tǒng)會根據(jù)用戶的反饋信號,重新更新模型以完成對新的候選翻譯的預(yù)測,并將更正后的版本呈現(xiàn)給用戶。這種方法與Post-Editing 機器翻譯輸出的常見做法形成對比,區(qū)別在于該方法在訓(xùn)練過程中即引入人工影響,模型可以得到更多的反饋信號,從而可以獲得更好的性能,而在Post-Editing 方式中,用戶僅根據(jù)機器翻譯系統(tǒng)輸出的完整譯文進(jìn)行修改,直到譯文能滿足特定的要求。

        伴隨著機器翻譯的發(fā)展,IPR 框架可以和不同時期的機器翻譯模型相結(jié)合,從而產(chǎn)生不同的研究方法,正是出于這一點考慮,本文根據(jù)交互式機器翻譯形式的不同,從交互式統(tǒng)計機器翻譯(Interactive Statistical Machine Translation,ISMT)、交互式神經(jīng)機器翻譯(Interactive Neural Machine Translation,INMT)和結(jié)合強化學(xué)習(xí)(Reinforcement Learning,RL)方法的交互式機器翻譯(Interactive Reinforcement Learning based Machine Translation,IRMT)這三方面對交互式機器翻譯的歷史發(fā)展過程及主要技術(shù)展開介紹,早期的相關(guān)綜述可以參考文獻(xiàn)[2]。

        1 機器翻譯背景

        機器翻譯是在計算機程序的幫助下將一種自然語言(簡稱源語言)映射成另一種自然語言(簡稱目標(biāo)語言)的過程。這一簡單直觀的想法經(jīng)歷了機譯系統(tǒng)、統(tǒng)計機器翻譯和神經(jīng)機器翻譯三個階段的發(fā)展,再結(jié)合強化學(xué)習(xí)技術(shù),已日漸成熟?;ヂ?lián)網(wǎng)上有很多翻譯應(yīng)用,可以應(yīng)用于日常工作和學(xué)習(xí),部分應(yīng)用已經(jīng)開始商用,但是目前機器翻譯的效果在很多特定場景下仍然難以令人滿意,因此機器翻譯研究還需要結(jié)合IPR,作進(jìn)一步的探索。

        1.1 統(tǒng)計機器翻譯

        給定一個源句子x,SMT 系統(tǒng)試圖找到一個目標(biāo)語言句子,使得這個句子是源句子x的翻譯的后驗概率最大:

        根據(jù)貝葉斯公式,可以將P(h|x)寫成如下形式:

        其中:P(h)表示語言模型,重點是求翻譯概率P(x|h),IBM Model 1~I(xiàn)BM Model 5 以及基于短語的翻譯模型等都給出了相應(yīng)的求解方法。

        1.2 神經(jīng)機器翻譯

        得益于深度學(xué)習(xí)的飛速發(fā)展,自然語言處理(Natural Language Processing,NLP)領(lǐng)域也進(jìn)行了大量的學(xué)術(shù)研究,端到端(End-to-End)的神經(jīng)翻譯模型(圖1)和基于編碼器解碼器(Encoder-Decoder)架構(gòu)的模型(圖2)成為神經(jīng)機器翻譯著重考慮的兩個模式。

        圖1 端到端模型Fig.1 End-to-end model

        圖2 Encoder-Decoder模型Fig.2 Encoder-Decoder model

        這兩種主流的架構(gòu)多采用擅長處理長序列數(shù)據(jù)的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN),如長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)或者門控循環(huán)單元(Gate Recurrent Unit,GRU),而引入注意力機制[3]可以針對長序列句子以獲得更好的翻譯性能,解決機器翻譯的長距離依賴關(guān)系。Transformer[4]是一種只采用Attention 機制和線性層的 Encoder-Decoder 模型,文獻(xiàn)[5]中使用BERT(Bidirectional Encoder Representations from Transformers)[6]預(yù)訓(xùn)練模型最后一層輸出的基于上下文的Embedding 信息,融入機器翻譯模型中,進(jìn)一步提升了翻譯的性能。

        1.3 結(jié)合強化學(xué)習(xí)方法的交互式機器翻譯

        將強化學(xué)習(xí)引入機器翻譯系統(tǒng)中,一方面強化學(xué)習(xí)可以作為一種優(yōu)化方法,文獻(xiàn)[7]中指出,一些網(wǎng)絡(luò)的前向運算中包含隨機采樣操作,這種操作會造成梯度回傳中斷,因此需要用隨機采樣的方式估計梯度;另一方面強化學(xué)習(xí)可以為一系列序列到序列(Sequence to Sequence,Seq2Seq)任務(wù)和序列生成任務(wù)建模,優(yōu)化一系列與任務(wù)相關(guān)的目標(biāo)函數(shù),如在機器翻譯任務(wù)中,文獻(xiàn)[8]中采用強化學(xué)習(xí)方法對NMT 模型進(jìn)行訓(xùn)練,文獻(xiàn)[9]中則是對翻譯模型進(jìn)行優(yōu)化。

        2 交互式統(tǒng)計機器翻譯

        交互式統(tǒng)計機器翻譯的核心思想是:先由機器翻譯系統(tǒng)翻譯出部分(或者完整的)目標(biāo)語言翻譯,然后由人工手動標(biāo)注或修改,這種行為可以獲得一些用戶反饋,用戶反饋進(jìn)而又可以指導(dǎo)機器翻譯的提升。在傳統(tǒng)的統(tǒng)計機器翻譯系統(tǒng)中,對于一個源語言句子x和一個由翻譯系統(tǒng)預(yù)測的前綴q,統(tǒng)計機器翻譯的優(yōu)化問題可以簡化為一個搜索問題,即尋找一個后綴s,使得這個后綴與前綴結(jié)合可以作為源語言句子的翻譯[10]:

        因為前綴和后綴的結(jié)合就是目標(biāo)語言句子,因此式(3)可以重寫成:

        交互式統(tǒng)計機器翻譯基于當(dāng)前翻譯,在系統(tǒng)產(chǎn)生候選翻譯后,與用戶進(jìn)行交互,文獻(xiàn)[11]中提出并評估三種計算效率高的在線方法,用于更新IMT 系統(tǒng)。文獻(xiàn)[12]中研究了基于統(tǒng)計機器翻譯方法的新型人工翻譯輔助,開發(fā)了計算機輔助工具Caitra,為句子的候選翻譯提供建議,顯示單詞和短語的翻譯選項,同時允許對機器翻譯輸出進(jìn)行后期編輯,在輔助工具的幫助下,明顯加快了翻譯人員的翻譯速度。文獻(xiàn)[13]中把在線學(xué)習(xí)范式應(yīng)用于IMT 框架中,在系統(tǒng)和用戶交互的過程中會產(chǎn)生很多用戶反饋,這些用戶反饋可以用來擴(kuò)展模型,而在非在線學(xué)習(xí)MT中則無法使用這種用戶反饋。

        文獻(xiàn)[14]中分析了判別嶺回歸在交互式機器翻譯框架下學(xué)習(xí)SOTA 的機器翻譯系統(tǒng)的對數(shù)線性權(quán)值的適用性。文獻(xiàn)[15]中將用戶與IMT 系統(tǒng)交互過程中的鼠標(biāo)點擊操作提取成中間譯文的詞對齊信息,可以實現(xiàn)對譯文的動態(tài)詞對齊標(biāo)注,在詞對齊和參考譯文的約束下提高了IMT 的準(zhǔn)確率。文獻(xiàn)[16]中則是從翻譯人員的角度采集用戶的反饋數(shù)據(jù),并研究了翻譯系統(tǒng)對用戶反饋的依賴程度,然后進(jìn)一步改進(jìn)模型,以提高翻譯系統(tǒng)的性能。

        為了減少用戶和系統(tǒng)交互的工作量,IMT 系統(tǒng)向用戶提供評價系統(tǒng)輸出的候選翻譯的置信度信息(Confidence Measures,CMs)。在文獻(xiàn)[17]中,CMs 用于IMT 系統(tǒng)以提高翻譯預(yù)測的準(zhǔn)確性。在文獻(xiàn)[18-19]中提到,CMs 也可以用于減少用戶與IMT 系統(tǒng)交互的次數(shù),從而減少了用戶的工作量,只有那些根據(jù)置信度評估為不正確的候選翻譯才由參與交互的用戶提供反饋。在計算置信度評分時,文獻(xiàn)[20]提出一種具有不依賴系統(tǒng)輸出的置信度計算方法,稱為詞后驗概率的向后最大估計,適用于所有類型的機器翻譯系統(tǒng),優(yōu)于傳統(tǒng)的置信度估計,計算方式為:

        其中:fi是原始句子的第i個單詞,規(guī)定f0為空句子;e表示目標(biāo)語言中的單詞。式(5)的目的在于最大化給定源語言句子后目標(biāo)語言句子的后驗概率。

        文獻(xiàn)[21]中利用句法層面的子樹信息來指導(dǎo)候選譯文的產(chǎn)生,能顯著減少人機交互次數(shù)。文獻(xiàn)[22]中一方面提出了基于短語表的多樣性排序算法,根據(jù)用戶對翻譯過程的認(rèn)知,設(shè)計了便于用戶交互的界面,讓用戶從候選翻譯列表中選擇正確的翻譯選項,改善了用戶體驗,并減少了用戶的工作量;另一方面在解碼階段,利用雙語數(shù)據(jù)和前綴來指導(dǎo)解碼過程以提高翻譯性能。

        文獻(xiàn)[23]中證明,用戶能通過微弱的反饋來糾正模型,提出了對潛在變量模型的推廣,給出了基于反饋的潛在感知器在線學(xué)習(xí)的遺憾界和推廣邊界,并證明了弱反饋學(xué)習(xí)仍會收斂。文獻(xiàn)[24]中描述了一種新的交互式機器翻譯方法,它能夠使用基于短語和層次翻譯模型,并在統(tǒng)一的統(tǒng)計框架中集成錯誤校正。

        另外,為了保證用戶的交互體驗,實時用戶交互系統(tǒng)應(yīng)當(dāng)具有高效的搜索技術(shù),如Word-graph 表示和維特比算法。為了獲得快速的響應(yīng),文獻(xiàn)[25]中使用單詞假設(shè)圖作為一種有效的搜索空間表示,對當(dāng)前的翻譯前綴進(jìn)行擴(kuò)展。文獻(xiàn)[26]中允許翻譯人員提供除前綴外的多個正確片段(cf),這些片段作為解碼的正約束,同時為了適應(yīng)這種新的交互模式,提出了相應(yīng)的改進(jìn)方法。

        交互式統(tǒng)計機器翻譯方法在很大程度上促進(jìn)了機器翻譯領(lǐng)域的發(fā)展,進(jìn)一步提升了交互式機器翻譯方法的性能,而隨著深度學(xué)習(xí)和神經(jīng)機器翻譯的發(fā)展,INMT便自然產(chǎn)生了。

        3 交互式神經(jīng)機器翻譯

        神經(jīng)機器翻譯模型的解碼過程是通過在每個時間步生成一個標(biāo)記(Token),直到遇到句子結(jié)束符“〈EOS〉”標(biāo)記為止,每個標(biāo)記都以之前生成的標(biāo)記作為歷史信息,進(jìn)而指導(dǎo)下一個標(biāo)記的生成。在這個過程中,交互式預(yù)測非常容易集成到標(biāo)準(zhǔn)的機器翻譯中:在下一個標(biāo)記生成的上下文語境中,可以不使用翻譯模型給出的預(yù)測,而是使用專業(yè)譯者提供的前綴中的標(biāo)記,或者使用用戶給出的反饋來指導(dǎo)模型的更新。

        注意力機制作為一種解決信息過載的手段,提出不久就在包括自然語言處理、圖像處理領(lǐng)域的多項任務(wù)上得到了大量應(yīng)用,并取得了非常好的性能提升。文獻(xiàn)[27]中提出了一種新的注意力機制,稱為“交互式注意力”,它通過讀寫操作來模擬翻譯過程中解碼器和源句表示之間的互動,作者對NMT 系統(tǒng)的Decoder 部分進(jìn)行了改進(jìn):引入一個表示t時刻源句子的詞嵌入表示和t時刻Decoder 狀態(tài)的中間狀態(tài),同時Decoder 在時刻t的狀態(tài)計算也有了改進(jìn),另外引入Attentive read 和Attentive write 操作,以便進(jìn)行交互,Decoder可以根據(jù)這種機制自動區(qū)分哪些部分已翻譯以及哪些部分未翻譯。在NIST 漢英翻譯任務(wù)上的實驗表明,交互式注意力比早先提出的基于注意力的NMT baseline 和一些SOTA 的基于注意力的NMT 變體有明顯的性能提升。

        因為當(dāng)時的機器翻譯系統(tǒng)不能給出令人滿意的翻譯結(jié)果,而交互式翻譯系統(tǒng)訓(xùn)練中需要人工參與,提升用戶的交互體驗和簡化交互協(xié)議是提高訓(xùn)練效率的有效手段,因此文獻(xiàn)[28]中將神經(jīng)機器翻譯任務(wù)整合到互動機器翻譯框架中以提升人機協(xié)作,對NMT 的Decoder 進(jìn)行了簡化,使得提出新的交互協(xié)議變得更加簡單,以便為用戶提供更好的體驗,同時系統(tǒng)將獲得更高的生產(chǎn)力,在采用交互式預(yù)測機器翻譯后,可以顯著改善經(jīng)典的基于短語的方法。文獻(xiàn)[29]中則是引入額外的翻譯人員的先驗知識對INMT 系統(tǒng)進(jìn)行訓(xùn)練,并且在解碼階段把用戶的糾正信息融入INMT 的Decoder,同時保持當(dāng)前信息不變,重新解碼操作。

        主動學(xué)習(xí)經(jīng)常被用于降低數(shù)據(jù)標(biāo)注的成本,并且主動學(xué)習(xí)需要人工交互來對難以劃分的樣本進(jìn)行標(biāo)注,因此主動學(xué)習(xí)非常容易與交互式框架結(jié)合。文獻(xiàn)[30]中研究了主動學(xué)習(xí)技術(shù)在交互式神經(jīng)機器翻譯的無界數(shù)據(jù)流翻譯中的應(yīng)用,即從大量的質(zhì)量不等的源句子流中挑選出值得由交互式神經(jīng)機器翻譯系統(tǒng)與用戶交互的句子,對模型進(jìn)行更新。將主動學(xué)習(xí)技術(shù)納入該領(lǐng)域可以減少學(xué)習(xí)過程中所需要的用戶工作量,同時提高翻譯系統(tǒng)的質(zhì)量。此外,采用主動學(xué)習(xí)的交互式神經(jīng)機器翻譯系統(tǒng)的性能在很大程度上超過了傳統(tǒng)的SOTA 方法。

        文獻(xiàn)[31]研究了在后期編輯或互動翻譯過程中NMT 系統(tǒng)的增量更新問題,并指出在在線學(xué)習(xí)框架下,不論是在訓(xùn)練階段還是在預(yù)測階段,用戶在交互過程中會產(chǎn)生反饋信號,可以收集新的數(shù)據(jù)以進(jìn)行訓(xùn)練,通過在線學(xué)習(xí)技術(shù),對INMT 模型的更新是即時進(jìn)行的,這是在線學(xué)習(xí)的重要優(yōu)勢。另外,該方法通過一個字符級交互式自適應(yīng)系統(tǒng)減少獲得高質(zhì)量翻譯所需的人力成本,這些自適應(yīng)系統(tǒng)在資源匱乏的情況下也表現(xiàn)良好,INMT 系統(tǒng)可以迅速適應(yīng)特定的領(lǐng)域。

        文獻(xiàn)[32]中探討了在不同翻譯指標(biāo)上交互式機器翻譯和后期編輯對翻譯系統(tǒng)產(chǎn)生效果的比較。對具有底層神經(jīng)翻譯系統(tǒng)(NITP)的翻譯生產(chǎn)力的實證研究結(jié)果顯示,在一些研究任務(wù)中,超過一半的專業(yè)譯員選擇使用NITP,與后期編輯相比,翻譯速度更快。

        通過改進(jìn)系統(tǒng)與用戶交互的方式也可以顯著減少用戶的工作量。文獻(xiàn)[33]中,作者介紹了一個交互式機器翻譯界面,該界面通過即時提示和建議來協(xié)助用戶的翻譯,用戶僅需要通過鍵盤按鍵(如方向鍵上、下,Tab 鍵,Enter 鍵等)來提供反饋,必要時可以輸入系統(tǒng)提供的候選翻譯的首字母進(jìn)行交互,這大幅減少了用戶的工作量,也使端到端的翻譯過程更快、更有效,并易于產(chǎn)生高質(zhì)量的翻譯。圖3 是Microsoft開發(fā)的交互式神經(jīng)機器翻譯系統(tǒng)的用戶交互界面。

        圖3 Microsoft開發(fā)的INMT系統(tǒng)界面Fig.3 Interface of INMT system developed by Microsoft

        CMs 是改進(jìn)交互方式的一種實現(xiàn)方式,為了保證用戶與機器之間交互的良好體驗和效率,翻譯系統(tǒng)所用的CMs 必須在計算上足夠快,文獻(xiàn)[34]介紹了幾種用于交互式預(yù)測神經(jīng)機器翻譯的快速CMs,這些估計器讓系統(tǒng)通過獲得質(zhì)量較差的翻譯來實現(xiàn)減少輸入單詞數(shù)的目的,在獲得高質(zhì)量翻譯的同時,需要糾正的單詞數(shù)量減少。

        文獻(xiàn)[35]介紹的TranSmart 是一個實用的人機互動翻譯系統(tǒng),它能夠在翻譯質(zhì)量和效率之間進(jìn)行權(quán)衡。TranSmart還可以通過使用歷史上的翻譯句子作為其記憶來避免類似的翻譯錯誤,該系統(tǒng)支持詞級自動補全、句級自動補全和翻譯記憶三個重要功能,而傳統(tǒng)的交互式翻譯系統(tǒng)只提供單詞級補全,使用更豐富的自動補全和記憶功能可以更有效地幫助用戶提高交互速度。

        在交互式神經(jīng)機器翻譯系統(tǒng)的發(fā)展過程中,得益于深度學(xué)習(xí)在強化學(xué)習(xí)領(lǐng)域的發(fā)展,交互式強化機器翻譯充分結(jié)合了IPR、深度學(xué)習(xí)和強化學(xué)習(xí)的優(yōu)點,作為一類重要的方法,與交互式神經(jīng)機器翻譯一起,促進(jìn)了機器翻譯領(lǐng)域的發(fā)展。

        4 交互式強化機器翻譯

        機器翻譯任務(wù)是一個Seq2Seq 任務(wù),而序列相關(guān)的任務(wù)可以建模成一個貫序決策問題:給出一個源句子,然后逐詞依次給出翻譯結(jié)果,而下一個待預(yù)測的詞往往對歷史信息(即上文已經(jīng)翻譯出來的詞)產(chǎn)生依賴,因此可以把機器翻譯問題建模成馬爾可夫決策過程。文獻(xiàn)[36]中指出,機器翻譯任務(wù)是一個從人類反饋中進(jìn)行強化學(xué)習(xí)的自然替代問題:用戶對候選翻譯提供快速、低質(zhì)的評分,以指導(dǎo)系統(tǒng)進(jìn)行改進(jìn)。

        文獻(xiàn)[8]中指出,傳統(tǒng)的端到端的神經(jīng)機器翻譯根據(jù)歷史輸出來指導(dǎo)當(dāng)前候選翻譯的生成,將問題簡化成最大化“正確”標(biāo)記的對數(shù)似然,模型最終學(xué)到的分布很可能是一個錯誤的分布,在評估時,模型根據(jù)自己學(xué)到的知識預(yù)測可能的候選翻譯,這可能導(dǎo)致模型本身不正確且預(yù)測更不準(zhǔn)確的現(xiàn)象,文獻(xiàn)[37-38]的研究表明,最大似然訓(xùn)練可能是次優(yōu)的。

        強化學(xué)習(xí)近年來逐漸應(yīng)用于交互式機器翻譯中,而且強化學(xué)習(xí)天然地易于集成到交互式機器翻譯過程中。強化學(xué)習(xí)和用戶交互的結(jié)合也出現(xiàn)在其他領(lǐng)域,如在圖像分割的模型訓(xùn)練任務(wù)IteR-MRL[39]中,作者引入用戶交互來給分割模型較差的輸出,指出有問題的點,然后將用戶反饋用于更新模型參數(shù)。

        文獻(xiàn)[8]中提出了一種范式以結(jié)合神經(jīng)機器翻譯和強化學(xué)習(xí),訓(xùn)練模式如圖4 所示,作者使用Actor-Critic 算法來處理序列生成問題,給定一個Actor 網(wǎng)絡(luò)的策略,Critic 網(wǎng)絡(luò)用于根據(jù)歷史輸出的候選翻譯生成一個新的候選翻譯。這樣就得到了一個更接近測試階段的訓(xùn)練模型,并可以直接優(yōu)化特定任務(wù)的得分,如 BLEU(BiLingual Evaluation Understudy)[40]。Critic 網(wǎng)絡(luò)先通過監(jiān)督學(xué)習(xí)方法進(jìn)行預(yù)訓(xùn)練,隨后在強化學(xué)習(xí)環(huán)境下作進(jìn)一步訓(xùn)練,經(jīng)過預(yù)訓(xùn)練的Critic 網(wǎng)絡(luò)知道什么樣的輸出是好的輸出,可以更好地指導(dǎo)Actor 的訓(xùn)練。這種先經(jīng)過預(yù)訓(xùn)練再使用強化學(xué)習(xí)進(jìn)一步訓(xùn)練的方法隨后也在其他領(lǐng)域得到應(yīng)用,文獻(xiàn)[9]也是隨后一些工作的基礎(chǔ),為強化學(xué)習(xí)與IMT 的結(jié)合提供了靈感。Actor網(wǎng)絡(luò)的梯度為:

        圖4 將INMT建模成強化學(xué)習(xí)問題Fig.4 Modeling INMT to RL problem

        考慮到獲取翻譯質(zhì)量的評分比獲取待翻譯文本的目標(biāo)翻譯要更加容易,但由于評分者的評價標(biāo)準(zhǔn)各異、用戶對翻譯質(zhì)量評價的任意性,往往導(dǎo)致翻譯系統(tǒng)難以獲取充足的反饋信號,文獻(xiàn)[41]研究了不同類型的用戶Bandit 反饋對使用強化學(xué)習(xí)進(jìn)行訓(xùn)練的NMT 系統(tǒng)的可靠性等因素的影響,并探究了獎勵反饋信號的質(zhì)量對整個強化學(xué)習(xí)訓(xùn)練任務(wù)的影響。作者發(fā)現(xiàn),通過精心選擇反饋信號的形式,可以從非專業(yè)用戶那里獲得既快速又低成本的反饋信號,并且強化學(xué)習(xí)方法可以從少量可信度高的人類Bandit 反饋中進(jìn)行學(xué)習(xí),獲得了非??捎^的性能提升。文獻(xiàn)[36]中提出了一種結(jié)合了Bandit 結(jié)構(gòu)化預(yù)測的強化學(xué)習(xí)算法,它可以在INMT 系統(tǒng)中模擬人類用戶對翻譯質(zhì)量的反饋,考慮到人類反饋信號的偏差、高方差、顆粒化差異等特點,通過對人類的反饋行為進(jìn)行建模,并將該反饋信號作為系統(tǒng)獎勵以訓(xùn)練翻譯模型,進(jìn)一步降低了訓(xùn)練翻譯系統(tǒng)的成本。該算法結(jié)合了異步優(yōu)勢動作評價(Advantage Actor-Critic,A2C)算法[42]和基于注意力的神經(jīng)Encoder-Decoder 架構(gòu),與文獻(xiàn)[8]采用的方法類似,將NMT 系統(tǒng)建模成Actor 模型。

        有些交互式機器翻譯系統(tǒng)要求用戶選擇、糾正或刪除候選翻譯片段,以提供足夠的反饋信號來進(jìn)行模型訓(xùn)練,文獻(xiàn)[43]中提出了一種交互式預(yù)測神經(jīng)機器翻譯的方法,在一個模擬環(huán)境中進(jìn)行了實驗,使用參考譯文模仿翻譯者,并通過在整個訓(xùn)練過程僅使用代理對部分翻譯質(zhì)量進(jìn)行判斷、設(shè)置反饋請求閾值(當(dāng)候選翻譯的熵達(dá)到該閾值后,觸發(fā)反饋請求)以及每次交互后模型參數(shù)在線更新來減少用戶的參與。模擬實驗表明,與僅對完整翻譯的反饋相比,對部分翻譯的獎勵信號明顯提高了翻譯性能,并且明顯減少了用戶代理的工作量。圖5 為NMT 系統(tǒng)與用戶的交互過程。

        圖5 NMT系統(tǒng)與用戶的交互過程Fig.5 Interaction process between NMT system and user

        文獻(xiàn)[44]中通過減少反饋請求的數(shù)量和頻繁的模型參數(shù)更新來減少用戶的參與,利用強化學(xué)習(xí)和模仿學(xué)習(xí)進(jìn)行訓(xùn)練,用戶在交互式NMT 訓(xùn)練過程中,利用“保留”和“刪除”等形式的弱反饋(用于強化學(xué)習(xí)訓(xùn)練),以及有限的以“替代”編輯形式的專家示范(用于模仿學(xué)習(xí))形式反饋信息,NMT 系統(tǒng)通過限制集束搜索以得到可替代的翻譯。

        文獻(xiàn)[45]中認(rèn)為,不同類型的反饋對學(xué)習(xí)有不同的成本和影響,因此不同的監(jiān)督信號的重要性也不同。在交互式神經(jīng)機器翻譯的實驗中,自我調(diào)節(jié)器(Self-regulators)通過將各種不同的反饋信號混合到一起,包括糾正、錯誤標(biāo)記和自我監(jiān)督(對應(yīng)了完全監(jiān)督、弱監(jiān)督和自監(jiān)督學(xué)習(xí)),并將梯度形式統(tǒng)一化,根據(jù)不同的反饋類型計算對應(yīng)的梯度,學(xué)習(xí)到了一個在成本和質(zhì)量間進(jìn)行折中的最佳策略,比從單一反饋類型學(xué)習(xí)的模型和基于不確定性的主動學(xué)習(xí)模型性價比更高,因為更多的反饋類型提高了模型的泛化能力。

        文獻(xiàn)[46]中提出,機器翻譯等Seq2Seq 學(xué)習(xí)任務(wù)可以采用根據(jù)弱反饋進(jìn)行訓(xùn)練的強化學(xué)習(xí),作者提出的算法對TED演講的英?德翻譯進(jìn)行錯誤標(biāo)注,可以實現(xiàn)精確的信用分配(Cridit Assignment),同時所需的人力明顯少于糾正或者后期編輯,并且NMT 模型的微調(diào)都通過從錯誤修正和標(biāo)記中學(xué)習(xí)提升了模型性能,但是錯誤標(biāo)記所需的人工注釋工作量則少了幾個數(shù)量級。

        基于置信度的交互式機器翻譯可以有效地減少人工參與,在前人的工作中對CMs 進(jìn)行了大量的研究,但仍只對翻譯質(zhì)量進(jìn)行優(yōu)化。針對這些缺陷,文獻(xiàn)[47]中提出了一種新型的交互式機器翻譯方法,使用Transformer 構(gòu)建NMT 模型并進(jìn)行預(yù)訓(xùn)練,通過使用改進(jìn)的Actor-Critic 方法對NMT 系統(tǒng)進(jìn)行訓(xùn)練,模型學(xué)會了預(yù)測何時應(yīng)向用戶請求反饋,同時對翻譯質(zhì)量和用戶參與的成本進(jìn)行了優(yōu)化。該方法可以使用類似或更少的人工參與,在翻譯質(zhì)量上優(yōu)于置信度基線。但與標(biāo)準(zhǔn)的NMT 模型相比,該方法的訓(xùn)練效率相對較低,因此改進(jìn)訓(xùn)練效率需要進(jìn)一步研究。

        利用離線強化學(xué)習(xí)(Offline RL)使用靜態(tài)的交互日志來學(xué)習(xí)一些幫助決策的策略是近年來新興的領(lǐng)域,大量日志數(shù)據(jù)非常適于離線訓(xùn)練。用戶與NLP 系統(tǒng)互動的大量日志中可能會隱含很多有用信息,文獻(xiàn)[48]中將離線強化學(xué)習(xí)引入NLP 任務(wù)中,研究這些日志是否可以幫助改進(jìn)NMT 系統(tǒng)的性能,結(jié)果發(fā)現(xiàn)NLP 任務(wù)在利用用戶交互日志進(jìn)行系統(tǒng)改進(jìn)方面有很大的潛力,同時強化學(xué)習(xí)范式非常容易和交互式學(xué)習(xí)相結(jié)合。作者探討了由于NLP 任務(wù)的性質(zhì)和生產(chǎn)系統(tǒng)的限制出現(xiàn)的一系列的挑戰(zhàn),對這些挑戰(zhàn)做了一個簡明的概述,并討論了可能的解決方案,為今后研究提供了思路。

        結(jié)合強化學(xué)習(xí)的交互式神經(jīng)機器翻譯方法從另一個角度來看待翻譯問題,利用了強化學(xué)習(xí)天然適合進(jìn)行序貫決策問題從而尤其適合機器翻譯的優(yōu)點,而交互式學(xué)習(xí)協(xié)議在模型訓(xùn)練過程中引入了用戶反饋,降低了強化學(xué)習(xí)訓(xùn)練的難度,大幅促進(jìn)了交互式機器翻譯的發(fā)展。

        5 發(fā)展趨勢和研究難點

        相較于流行的端到端的機器翻譯系統(tǒng),交互式機器翻譯的優(yōu)點在于將Post-Editing 整合到翻譯模型訓(xùn)練的過程中,可以結(jié)合部分的人工交互,達(dá)到較為滿意的效果。交互式學(xué)習(xí)方式同時支持在用戶使用翻譯工具的過程中,收集用戶反饋用于進(jìn)一步提升模型的性能。交互式學(xué)習(xí)協(xié)議易于整合到機器翻譯模型中,并容易和多種先進(jìn)的技術(shù)相結(jié)合,從而使機器翻譯模型達(dá)到非常好的性能,該領(lǐng)域具有廣闊的應(yīng)用前景;難點在于如何進(jìn)一步降低人工交互的工作量,設(shè)計出更接近人類行為的用戶代理,將用戶代理作為人類反饋信號的替代,使整個交互過程盡可能高效,以及如何更好地利用人類譯者的先驗知識,使交互式機器翻譯系統(tǒng)在真實世界中可以更好地利用反饋信號進(jìn)行學(xué)習(xí)。

        猜你喜歡
        神經(jīng)文獻(xiàn)用戶
        神經(jīng)松動術(shù)在周圍神經(jīng)損傷中的研究進(jìn)展
        中西醫(yī)結(jié)合治療橈神經(jīng)損傷研究進(jìn)展
        Hostile takeovers in China and Japan
        速讀·下旬(2021年11期)2021-10-12 01:10:43
        Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
        大東方(2019年12期)2019-10-20 13:12:49
        The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
        The Role and Significant of Professional Ethics in Accounting and Auditing
        商情(2017年1期)2017-03-22 16:56:36
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        “神經(jīng)”病友
        Coco薇(2015年5期)2016-03-29 22:51:13
        亚洲天堂一二三四区在线| 精品久久久中文字幕人妻| yeyecao亚洲性夜夜综合久久| 香蕉亚洲欧洲在线一区| 亚洲a级视频在线播放| 国产极品视觉盛宴| 欧美gv在线观看| 在线国产视频精品视频| 日本不卡一区二区三区在线观看 | 日韩精品永久免费播放平台| 日本高清一区二区在线播放| 国产成人无码av一区二区在线观看| 色八区人妻在线视频免费| 精选麻豆国产AV| 亚洲av免费看一区二区三区| 中文字幕人妻丝袜成熟乱| 无遮挡又黄又刺激又爽的视频| 亚洲AV无码精品色午夜超碰| 中文字幕一区二区三区综合网| 免费看美女被靠到爽的视频| 人人妻人人澡人人爽欧美二区| www.久久av.com| 精品高清一区二区三区人妖| 女人高潮内射99精品 | 亚洲精品国产国语| 午夜麻豆视频在线观看| 日本真人边吃奶边做爽动态图| 国产大学生粉嫩无套流白浆| 动漫av纯肉无码av在线播放| 99久久精品国产91| 人妻 日韩 欧美 综合 制服| 香蕉视频在线观看国产| 精品亚洲乱码一区二区三区| 日韩精品 在线 国产 丝袜| 久久久精品人妻一区二区三区四| 久久久www成人免费无遮挡大片| 国产精品性色av麻豆| 最爽无遮挡行房视频| 欧美三级免费网站| av免费网站在线免费观看| 一区二区三区视频在线观看|