亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于NMT的RS10-CLOUD工業(yè)軟件生產(chǎn)全過程的業(yè)務(wù)標簽同步翻譯

        2022-05-26 13:01:14楊英櫻喬運華趙怡靜
        制造業(yè)自動化 2022年5期
        關(guān)鍵詞:源語言目標語言術(shù)語

        楊英櫻,喬運華,趙怡靜

        (1.北京機械工業(yè)自動化研究所,北京 100120;2.北京機械工業(yè)自動化研究所有限公司,北京 100120)

        0 引言

        RS10-CLOUD快速開發(fā)平臺

        RS10-CLOUD快速開發(fā)平臺(RS10-CLOUD DEVELOPMENT PLATFORM)隸屬于國家重大項目RS10-CLOUD云平臺,是一個基于微服務(wù)開發(fā)的、容器化的前后臺代碼快速開發(fā)系統(tǒng),具有可持續(xù)集成、獨立服務(wù)部署、自帶授權(quán)頁面、獨立于業(yè)務(wù)邏輯等特點。

        該平臺可以為用戶提供可視化的業(yè)務(wù)數(shù)據(jù)管理以及基于配置項的頁面數(shù)據(jù)綁定,為匹配業(yè)務(wù)系統(tǒng)通用模板的開發(fā)以及特殊業(yè)務(wù)的個性化定制開發(fā)提供了匹配的配置方式、并且可以根據(jù)配置信息自動生成可供開發(fā)的代碼。實現(xiàn)了業(yè)務(wù)系統(tǒng)低代碼的開發(fā),減少大量重復(fù)性工作,為企業(yè)節(jié)約開發(fā)過程中的人力成本時間成本。

        快速開發(fā)平臺的后臺工具首先通過服務(wù)器獲取前臺文件,后臺開發(fā)工具根據(jù)頁面配置調(diào)用自動生成代碼服務(wù)后封裝代碼java文件存儲上傳到服務(wù)器中??焖匍_發(fā)平臺流程圖如圖1所示:

        圖1

        RS10-CLOUD中的業(yè)務(wù)標簽維護

        業(yè)務(wù)標簽主要是對于數(shù)據(jù)表下字段的中文名稱,在不同的子系統(tǒng)下業(yè)務(wù)標簽名是不同的。

        在RS10-CLOUD快速開發(fā)平臺中的頁面業(yè)務(wù)標簽維護,實現(xiàn)了業(yè)務(wù)類數(shù)據(jù)標簽的統(tǒng)一規(guī)范管理、并且維護后的所有頁面可及時動態(tài)生效。本文訓(xùn)練翻譯模型旨在該滿足模塊的多語言翻譯功能,滿足該平臺智能化、高效率的特點,不需要手動輸入進行維護翻譯,而是調(diào)用翻譯模型的接口進行自動翻譯,滿足不同語種的需求,更加國際化。

        業(yè)務(wù)標簽維護的邏輯流程圖如圖2所示。

        圖2

        針對中英的翻譯訓(xùn)練,本文將在下面詳細介紹幾種針基于NMT的對平行語料進行處理的訓(xùn)練模型方法并且進行對比分析。

        1 神經(jīng)機器翻譯NMT

        神經(jīng)機器翻譯NMT是一種不同于統(tǒng)計機器翻譯的方法,它是神經(jīng)網(wǎng)絡(luò)利用端到端的建模方式進行翻譯的過程,具有捕獲長距離依賴關(guān)系的能力。隨著2017年Transformer橫空出世后,NMT(Neural Machine Translation)領(lǐng)域得到了飛速的發(fā)展,注意力機制在NMT中起著至關(guān)重要的作用,因為它表明解碼器應(yīng)該關(guān)注哪些源詞,以便預(yù)測下一個目標詞。

        NMT仍然很大的發(fā)展空間,為了使訓(xùn)練的模型翻譯更加準確,本文研究了將先驗知識融合到NMT模型中,即給模型加入人為設(shè)計的先驗信息會讓模型學習到一些關(guān)鍵的特征,主要是針對一些新詞術(shù)語的約束。

        基于詞匯約束的NMT研究大致可分為硬約束和軟約束兩大類。

        1.1 基于硬詞匯約束的NMT

        硬約束通過修改解碼算法來確保所有約束都出現(xiàn)在輸出端中。

        Hokamp和Liu[2017]引入了一種算法,用于強制某些單詞出現(xiàn)在輸出中,稱為網(wǎng)格波束搜索(GBS)。該算法在beam search的基礎(chǔ)上,beam擴展到grid的形式,多了約束的維度,可以保證某個詞一定會出現(xiàn)在最終輸出序列中.但是因為它的解碼復(fù)雜度在約束數(shù)量上是線性的,這導(dǎo)致它的解碼速度非常慢且計算時復(fù)雜度高。因為大多數(shù)解碼器會在模型加載時為了優(yōu)化計算圖形會指定波束大小,那每個句子的波束大小發(fā)生變化還會使增加吞吐量的波束搜索優(yōu)化變得復(fù)雜。

        Post和Vilar[2018]提出了一種新的算法動態(tài)波束分配(DBA)算法,他的算法復(fù)雜度是恒定的。通過約束訓(xùn)練或解碼方法調(diào)整NMT中的詞匯約束,將假設(shè)按滿足約束數(shù)量分組成bank,并在每個時間步將一個固定大小的波束(beam)動態(tài)的分配到不同的bank,他不再將波束大小K乘以約束的數(shù)量C,這樣降低了計算復(fù)雜度,從而加快了GBS的速度。并且,該算法能夠容易地縮放并擴展到使用例如BPE等技術(shù)處理產(chǎn)生的大詞或短語約束集。

        這些硬約束的共同點是,它們以完全相同的形式將詞匯約束復(fù)制到輸出中,因此不適合使用噪聲約束進行解碼。也就是說,如果使用一種形式作為解碼的硬約束,那么另一種形式就不會出現(xiàn)在句子的翻譯中,硬約束缺少了對于根元素多種形式形態(tài)自然語言現(xiàn)象的考慮。

        1.2 基于軟詞匯約束的NMT

        相比之下,軟約束并不確保所有約束都出現(xiàn)在翻譯后的輸出中。軟約束通過修改NMT模型或者訓(xùn)練過程來實現(xiàn)對于詞匯約束的翻譯。

        Song等人(2019)根據(jù)雙語詞典,用目標術(shù)語約束替換成對應(yīng)的源術(shù)語,通過混合初始的平行語料庫和合成的平行語料庫來增加NMT的訓(xùn)練數(shù)據(jù)集。同時,Dinu等人(2019)提出了類似的方法,將字典中對應(yīng)的目標術(shù)語替換源術(shù)語或追加到源術(shù)語后,即使用ETA(exact target annotations)來修改源術(shù)語進而準備訓(xùn)練數(shù)據(jù)集。他們的方法都是只能做到有限的復(fù)制,在目標語言與源語言語態(tài)形式等復(fù)雜的情況下表現(xiàn)得并不好。并且這兩種方法都是使用雙語詞典構(gòu)建訓(xùn)練數(shù)據(jù),因此其翻譯性能在很大程度上取決于雙語詞典的質(zhì)量。此外,當術(shù)語約束沒有出現(xiàn)在雙語詞典中或?qū)?yīng)的源語言單詞不連續(xù)時,推理模型就會失效。

        在此基礎(chǔ)上,Bergmanis and Pinnis (2021)做了一些修改。他們不使用ETA(exact target annotations)的目標術(shù)語來代替源術(shù)語,而是用TLA(target language lemmas)來約束源術(shù)語,這樣這些數(shù)據(jù)訓(xùn)練的模型不會像Song等人(2019)和Dinu等人(2019)那樣簡單機械地學習復(fù)制詞匯的樣子,而是學習復(fù)制變化的行為過程,從而解決軟術(shù)語約束的需求和單詞輸出和上下文不一致的問題。Jon and Paulo Aires等人(2021)也做了類似的工作,他們并沒有像Bergmanis and Pinnis(2021)那樣進行源語言和目標語言的詞對齊以及標注動詞和名詞,而是直接將進行詞性還原的目標詞連接到源語言的后面,通過這種方式,不但簡化了訓(xùn)練數(shù)據(jù)的準備工作,并且根據(jù)他們得到的實驗結(jié)果這樣做對訓(xùn)練結(jié)果性能造成的影響微乎其微。

        2 實驗

        為了保證訓(xùn)練效果可以包容更多復(fù)雜的詞匯形式,以及實驗的可行性考慮,本文采用Jon and Paulo Aires等人(2021)的方法來進行模型訓(xùn)練。

        在Bergmanis和Pinnis(2021)以及Jon and Paulo Aires等人(2021)的實驗中,為了減少對雙語詞典的依賴,他們都進行了隨機提取子序列的實驗。他們的隨機選擇策略不同,但本文經(jīng)過大量的實驗數(shù)據(jù)計算,目標詞被選中的概率趨于0.5左右。實驗過程中我認為這樣每個單詞被選中的概率有點大,所以本文改變了一下策略,在下文中會詳細介紹,本策略經(jīng)過大數(shù)據(jù)計算后每個詞被選中的概率為0.36。

        2.1 實驗預(yù)處理

        1)配置相關(guān)環(huán)境,下載相關(guān)數(shù)據(jù):

        下載雙語詞典;下載wiktionary詞典新詞術(shù)語庫和iate詞典新詞術(shù)語庫。

        下載平行語料;從CSDN找的對齊的200w條英語和中文的平行語料庫,一部分作為訓(xùn)練集,一部分作為測試集。其中80%作為訓(xùn)練集數(shù)據(jù),20%作為測試集的數(shù)據(jù)。

        配置環(huán)境和參數(shù);根據(jù)openNMT模型的官方文檔,修改toy_en_de.yaml配置文件。

        2)對平行語料源語言和目標語言進行數(shù)據(jù)預(yù)處理,主要包括:

        過濾處理;用正則表達式對下載的平行語料過濾,提取出干凈的語料內(nèi)容,去掉多余的空格以及一些特殊符號,如:$%^*等。

        分詞處理;用正則表達式對英文中的標點符號進行分詞處理,即將標點符號單獨作為一個token處理。對中文采用jieba分詞對中文進行處理。這樣做是為了增加模型的魯棒性,因為現(xiàn)實中輸入的平行語料是含有標點符號的。

        篩選處理;通過第二步的分詞處理后可以篩選出token大于10小于40的句子,這樣可以獲得比較干凈的平行語料,也能保證訓(xùn)練的效果更好。

        2.2 模型訓(xùn)練

        本文采用的是OpenNMT框架進行訓(xùn)練,OpenNMT框架是一個開源的Torch神經(jīng)網(wǎng)絡(luò)機器翻譯系統(tǒng),它的底層是Tensorflow。用到的是損失函數(shù)是Cross Entropy Loss,使用softmax函數(shù)將網(wǎng)絡(luò)的輸出轉(zhuǎn)化為概率值,即將輸出的結(jié)果進行處理,使其多個分類的預(yù)測值和為1,再通過交叉熵來計算損失。

        本實驗訓(xùn)練了三個翻譯模型:

        模型一(Baseline):沒有添加任何約束處理,直接用預(yù)處理后的平行語料進行訓(xùn)練的模型,此模型作為基準模型。

        模型二(Dictionary):依賴雙語字典進行約束的翻譯模型。根據(jù)雙語字典匹配同時在源語言和目標語言都出現(xiàn)的token,如果匹配成功,則將對目標語言中的token用python中的spacy庫進行詞性還原,這與Jon and Paulo Aires等人(2021)中的方法略有不同,他們是先對平行語料和雙語字典進行還原,然后再去匹配。匹配和還原的部分完成后,則將選中的術(shù)語約束詞與源語言對應(yīng)句子進行連接,連接規(guī)則如下:如果作為該句的第一個約束則用<sep>進行連接,如果不是第一個約束則用<c>進行連接。將連接處理后的句子作為源語言與目標語言形成平行語料,最后通過OpenNMT進行訓(xùn)練。

        模型三(Random):隨機選取目標語言中的token作為約束,隨機選擇的策略如下:將第一個token被選中的概率設(shè)為0.2,后續(xù)的token依賴于上一個token是否被選中,如果沒被選中則后續(xù)token被選中的概率為0.56。將隨機選中的token進行詞性還原,并與源語言對應(yīng)的句子進行連接。連接規(guī)則同模型二:即如果作為該句的第一個約束則用<sep>進行連接,如果不是第一個約束則用<c>進行連接。第三個模型和第二個模型的主要區(qū)別在于選取約束不同,選取約束后的處理方式是相同的。最后將處理完的源語言和目標語言合成平行語料,通過OpenNMT進行訓(xùn)練得到第三個模型。

        2.3 實驗結(jié)果

        通過moses對BLEU值進行打分。BLEU 是IBM在2002年提出的機器翻譯評價指標,它的總體思想是比較候選譯文和參考譯文里的n-gram(其中n-gram指的是連續(xù)的單詞個數(shù)為n)重合程度,重合程度越高就認為譯文質(zhì)量越高。選不同長度的n-gram是因為,BLEU-1的準確率可以用于衡量單詞翻譯的準確性,更高階的n-gram的準確率可以用來衡量句子的流暢性。

        訓(xùn)練出的翻譯模型結(jié)果如下圖所示:

        從實驗結(jié)果來看,依賴雙語詞典訓(xùn)練的翻譯模型效果更好,在Jon and Paulo Aires等人(2021)的論文中也可以看出來,在newstest-2020的測試集中,無論測試集是否受到約束,是否進行了詞性還原,依賴雙語字典進行約束和隨機選擇子序列進行約束的訓(xùn)練模型的BLEU值都優(yōu)于基準模型。這與本文的實驗結(jié)果一致。但是隨機選取術(shù)語的表現(xiàn)不夠好,可能與隨機選取token的策略有關(guān)。并且與不同語系之間的翻譯語法也有關(guān)系,他們是對英語(印歐語系)與捷克語(印歐語系)進行的翻譯訓(xùn)練,而本文是對中文(屬于漢藏語系)到英文(印歐語系)進行訓(xùn)練。

        3 結(jié)語

        本次實驗訓(xùn)練出了中文到英文的翻譯模型,解決了RS10-CLOUD平臺模塊優(yōu)化的問題,即實現(xiàn)工業(yè)管理軟件生產(chǎn)全過程的中業(yè)務(wù)標簽同步自動翻譯,有利于自主掌握研發(fā)數(shù)據(jù)減少外資企業(yè)注入,為工業(yè)產(chǎn)業(yè)的生產(chǎn)管理成本提供考量。

        從實驗數(shù)據(jù)結(jié)果進行分析來看效果不夠理想,尤其是針對產(chǎn)線專用、攜帶規(guī)格型號的物料翻譯效果有待提升。其原因可能為本次試驗中下載的平行語料非工業(yè)專用術(shù)語,現(xiàn)今工業(yè)領(lǐng)域的平行語料非常珍貴很難從網(wǎng)上下載到,后續(xù)會在研究過程中,參與到實際的工業(yè)軟件項目開發(fā)及測試生產(chǎn)過程中,以期用工業(yè)專用語料集獲得更收斂的結(jié)果,這樣訓(xùn)練模型會更加完善,并且給出最終模型訓(xùn)練效果,以便更好地應(yīng)用到RS10-CLOUD 快速開發(fā)平臺業(yè)務(wù)標簽管理的支持多語言翻譯功能中。

        猜你喜歡
        源語言目標語言術(shù)語
        林巍《知識與智慧》英譯分析
        淺析日語口譯譯員素質(zhì)
        北方文學(2018年18期)2018-09-14 10:55:22
        教材插圖在英語課堂閱讀教學中的運用及實例探討
        跨文化視角下對具有修辭手法諺語英譯漢的研究
        速讀·下旬(2016年7期)2016-07-20 08:50:28
        以口譯實例談雙語知識的必要性
        考試周刊(2015年36期)2015-09-10 15:03:38
        二語習得過程中的石化現(xiàn)象分析
        概念任務(wù)下中英雙語者非目標語言的詞匯通達
        多媒體英語學習法
        有感于幾個術(shù)語的定名與應(yīng)用
        從術(shù)語學基本模型的演變看術(shù)語學的發(fā)展趨勢
        97se亚洲国产综合自在线观看| 青青草免费在线爽视频| 在线免费观看蜜桃视频| 国产嫩草av一区二区三区| 制服丝袜一区二区三区| 亚洲av综合av一区| 337p西西人体大胆瓣开下部| 国产影片中文字幕| 亚洲最大日夜无码中文字幕| 一本大道东京热无码中字| 日韩毛片免费无码无毒视频观看| 欧美一片二片午夜福利在线快| 久久99国产亚洲高清| 韩国无码精品人妻一区二| 蜜桃色av一区二区三区麻豆| 亚洲天码一区二区三区| 日本人妖熟女另类二区| 国产精品久久久久久久久绿色| 免费视频爱爱太爽了| a级毛片在线观看| 99热成人精品热久久66| 青青草视频网站免费观看| 国产亚洲av手机在线观看| 亚洲国产精品嫩草影院久久av | 国产乱子伦精品免费无码专区| 少妇熟女淫荡丰满| 人妻中出中文字幕在线| 可以直接在线看国产在线片网址| 蜜桃视频免费进入观看 | 亚洲AV秘 无码一区二p区三区| 人妻少妇看A偷人无码电影| 中文字幕一区二区人妻性色av| 嗯啊好爽高潮了在线观看| 亚洲av久久久噜噜噜噜| 大肉大捧一进一出好爽视频mba| 亚洲国产成人手机在线电影| 亚洲传媒av一区二区三区| 熟女免费观看一区二区| 国内精品久久久人妻中文字幕| 久久精品国产第一区二区三区 | 婷婷开心五月综合基地|