亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Transformer模型的軌道交通機器翻譯系統(tǒng)設計

        2024-05-07 07:44:06李子林劉慶猛李雪山
        鐵路計算機應用 2024年4期
        關鍵詞:多語種插件語料

        李子林,劉慶猛,李雪山

        (中國鐵道科學研究院集團有限公司 科學技術信息研究所,北京 100081)

        近年來,中國鐵路“走出去”的步伐不斷加快,已成為“一帶一路”建設和國際產(chǎn)能合作的一張靚麗名片。隨著坦桑尼亞—贊比亞鐵路(簡稱:坦贊鐵路)、蒙巴薩—內(nèi)羅畢鐵路(簡稱:蒙內(nèi)鐵路)、中國—老撾鐵路(簡稱:中老鐵路)、匈牙利—塞爾維亞鐵路(簡稱:匈塞鐵路)、雅加達—萬隆高速鐵路(簡稱:雅萬高鐵)等國際鐵路建設合作項目的順利、穩(wěn)步推進,以及《高速鐵路設計基礎設施》等技術標準的國際化,中國鐵路生產(chǎn)經(jīng)營、科技研發(fā)事業(yè)也不斷迎來一系列新的國際機遇和挑戰(zhàn)。鐵路行業(yè)對外合作和技術交流的不斷深入也對鐵路從業(yè)人員掌握外國語言的能力提出了更高的要求。此外,在鐵路科技自立自強背景下,國內(nèi)鐵路科研人員囿于語言障礙,無法快速、精準地查詢和利用多語種科技文獻,造成國外先進的鐵路科技研發(fā)成果無法被充分了解、吸收和借鑒。鑒于此,立足軌道交通行業(yè)特點和現(xiàn)實需求,推出具有領域性、專業(yè)性和行業(yè)特色的機器翻譯系統(tǒng)工具意義深遠。

        從基于循環(huán)神經(jīng)網(wǎng)絡(RNN,Recurrent Neural Network)到基于注意力機制、基于卷積神經(jīng)網(wǎng)絡(CNN,Convolutional Neural Network)的神經(jīng)機器翻譯方法[1-3],再發(fā)展至基于自注意力機制的Transformer模型的神經(jīng)機器翻譯(NMT, Neural Machine Translation)方法[4],神經(jīng)機器翻譯模型通過神經(jīng)網(wǎng)絡和注意力機制學習序列之間的映射優(yōu)化了翻譯性能,已成為機器翻譯領域的主流模型。然而,聚焦小語種及特定行業(yè)領域的機器翻譯系統(tǒng)仍處于探索發(fā)展期[5-6]。以谷歌、百度、DeepL等為代表的主流機器翻譯系統(tǒng)在通用領域、常用語種翻譯方面效果顯著,但是在特定行業(yè)領域、小語種翻譯等方面仍然有較大的優(yōu)化空間。以軌道交通行業(yè)為例,主流機器翻譯系統(tǒng)對專業(yè)術語、專有名詞縮寫、行業(yè)新詞的機器翻譯效果與通用領域翻譯效果尚存差距。另外,滿足本地化部署和信息安全保密要求亦是行業(yè)機器翻譯系統(tǒng)研發(fā)和設計關注的重點。

        基于上述研究,本文立足軌道交通行業(yè)特色,打造基于Transformer模型的軌道交通機器翻譯系統(tǒng)——“鐵譯通”(RailTrans),面向行業(yè)用戶,提供專業(yè)化、多元化、定制化、安全性強的機器翻譯服務,為進一步豐富人工智能技術在鐵路行業(yè)的應用場景提供支撐[7]。

        1 系統(tǒng)總體架構

        軌道交通機器翻譯系統(tǒng)總體架構由應用層和翻譯引擎實現(xiàn)層組成,如圖1所示。

        圖1 軌道交通機器翻譯系統(tǒng)總體架構

        1.1 翻譯引擎實現(xiàn)層

        1.1.1 資源數(shù)據(jù)

        主要用于存儲雙語句對、軌道交通領域術語詞典等基本數(shù)據(jù)庫資源。

        1.1.2 數(shù)據(jù)加工

        主要對資源數(shù)據(jù)層存儲的數(shù)據(jù)進行結構化預處理,以確保訓練系統(tǒng)所需要的數(shù)據(jù)可用,主要包括:亂碼過濾、句對齊、中文分詞、多國語分詞、命名實體識別、子詞切分等流程。

        1.1.3 模型訓練

        采用基于Transformer模型進行神經(jīng)機器翻譯建模,同時,使用極大似然估計針對平行數(shù)據(jù)進行網(wǎng)絡參數(shù)調優(yōu),進而可以使用此模型進行翻譯引擎構建。自動評價方法使用雙語互譯質量評估輔助工具(BLEU,Bilingual Evaluation Understudy)來評價翻譯質量,并根據(jù)評測結果的優(yōu)缺點調整訓練模型,最后得出翻譯系統(tǒng)最佳模型。

        1.1.4 引擎構建

        對資源數(shù)據(jù)、數(shù)據(jù)加工及模型訓練等模塊進行統(tǒng)一調度管理,并將所有資源數(shù)據(jù)加載至內(nèi)存,等待翻譯任務進行解碼。利用神經(jīng)機器翻譯解碼技術,基于云平臺結構搭建系統(tǒng)架構,使之具備分布式處理能力,同時不斷擴展計算節(jié)點以進一步提高翻譯性能。

        1.2 應用層

        1.2.1 功能模塊

        主要包括語種識別、用戶詞典等服務模塊。語種識別主要是基于統(tǒng)計模型建模,自動識別輸入句子的語言,以便于用戶自動切換到所需語種。用戶詞典主要是面向軌道交通專業(yè)用戶,提供嵌入軌道交通專業(yè)詞庫的領域翻譯功能,根據(jù)用戶需求添加術語詞典,確保神經(jīng)機器模型在深度學習中提高翻譯性能。

        1.2.2 應用服務

        主要包括:翻譯應用程序編程接口(API,Application Programming Interface),用于支持二次開發(fā);基于Web的文本翻譯、文檔翻譯,其中,文檔格式支持pdf、txt、doc、docx、xls、ppt和pptx等常用格式;基于Web的瀏覽器翻譯,其中,瀏覽器支持Chrome、Edge、360及其他基于Chrome內(nèi)核的瀏覽器;基于Office插件的辦公軟件翻譯,兼容微軟Office和WPS,支持word、ppt、excel文檔。

        2 系統(tǒng)功能

        軌道交通機器翻譯系統(tǒng)的定位是面向國內(nèi)軌道交通行業(yè)用戶的高度安全性、專業(yè)化、個性化的機器翻譯引擎,主要功能如下。

        2.1 網(wǎng)頁端翻譯

        網(wǎng)頁端翻譯功能主要適配瀏覽器端用戶使用場景,分為文本翻譯和文檔翻譯。其中,文本翻譯具備5 000字符文字翻譯能力,提供原文種自動識別、原文清空、譯文復制、雙語高亮等功能;文檔翻譯適配pdf、docx、txt、xls、xls、ppt、pptx、html等格式文檔,具備列表顯示、翻頁、搜索、翻譯進度、下載、刪除、預覽等功能,支持雙語對照格式、譯文docx格式下載。

        2.2 翻譯API及翻譯插件

        隨著多語種信息指數(shù)級增長,機器翻譯技術逐漸被融合應用到各類業(yè)務場景,為用戶提供實時便捷的翻譯服務[8]。鑒于此,本系統(tǒng)推出翻譯API及各類翻譯插件。文本翻譯API,是基于HTTP協(xié)議的翻譯API,用戶可根據(jù)需要便捷地集成嵌入到業(yè)務平臺或其他應用中;文檔翻譯API,通過API的方式可快速將文檔翻譯服務集成到現(xiàn)有業(yè)務系統(tǒng);XML翻譯API,可支持XML文本翻譯,譯文保留原始格式;特色術語庫API,通過API調用添加行業(yè)特色語料,保證譯文中術語翻譯的準確性和一致性。Office翻譯插件,用戶下載插件到本地安裝后,點選Office辦公軟件工具欄的“鐵譯通”按鈕即可啟動翻譯服務;Web瀏覽器翻譯插件,用戶下載插件到本地安裝后,點選Web瀏覽器輔助工具欄的“鐵譯通”即可啟動網(wǎng)頁翻譯服務。

        2.3 人工翻譯

        機器翻譯在翻譯效率方面優(yōu)勢明顯,但針對軌道交通行業(yè)專業(yè)性強、術語量多、內(nèi)容復雜的科研類文檔,機器翻譯與人工翻譯相比在文章結構、用詞精準度、語言流暢度等方面仍有較大差距。因此,本系統(tǒng)推出人工翻譯功能,整合軌道交通翻譯專家數(shù)據(jù)庫,有效實現(xiàn)用戶翻譯需求與領域翻譯專家“點對點”關聯(lián),完成人工翻譯訂單的在線投遞、定向分配、任務返回與譯文發(fā)布。

        2.4 后臺管理

        提供用戶(組)管理功能,可根據(jù)需要對特定用戶(組)的基本信息進行增刪改查,并對相應用戶(組)的使用權限進行自定義設置;提供充值管理功能,按照流量計費制度對用戶賬號流量進行實時監(jiān)測和自動充值提醒;提供人工翻譯訂單管理功能,對接收的人工翻譯服務訂單進行派單操作和費用配置;提供API管理功能,對API權限、流量、個性化定制等進行設置;此外,提供訪問控制、訪問統(tǒng)計、流量統(tǒng)計等訪問日志功能。

        3 關鍵技術

        3.1 多語種數(shù)據(jù)處理與分析

        多語種數(shù)據(jù)處理與分析主要包括多語言數(shù)據(jù)加工和多語種語言分析。大規(guī)模平行雙語數(shù)據(jù)來源廣泛,數(shù)字化過程中不免出現(xiàn)亂碼問題,因此,須對非法字符、控制字符等進行亂碼過濾等規(guī)范化處理。多語言數(shù)據(jù)加工主要通過集成分布式爬蟲、數(shù)據(jù)標注、數(shù)據(jù)清洗等工具,對軌道交通行業(yè)多語言數(shù)據(jù)進行采集、規(guī)范化處理和加工,為后期多語種語言分析提供數(shù)據(jù)基礎。

        多語種語言分析能夠支持中文句子級的自動分詞、詞性標注、命名實體識別、組塊識別、成分句法分析等技術,對句子中的特殊信息進行預處理,主要包括數(shù)字、時間、日期、人名、地名和組織機構名等。在分詞基礎上,根據(jù)大規(guī)模語料進行子詞統(tǒng)計,得到更符合語料的詞匯表,同時,減少機器翻譯中詞匯表過大引起的速度問題。多語種語言分析平臺強大的語料處理能力為高質量語料訓練夯實基礎,進而保證翻譯質量的可信度。

        3.2 Transformer模型及優(yōu)化

        Transformer神經(jīng)網(wǎng)絡模型僅使用自注意力機制和標準的前饋神經(jīng)網(wǎng)絡,不依賴循環(huán)單元或者卷積操作可以高效地描述任意距離之間的依賴關系,因此,非常適合處理語言文字序列。

        軌道交通機器翻譯系統(tǒng)以Transformer神經(jīng)網(wǎng)絡模型為基礎,在算法層面進行創(chuàng)新,以提升模型編碼和解碼的性能。Transformer模型優(yōu)化的方法多數(shù)是將模型加寬(Transformer-Big模型),但是,堆疊太多的層會因為梯度消失或梯度爆炸而導致模型難以訓練,傳統(tǒng)的層標準化(LN,Layer Normalization)是在殘差連接之后進行,本文提出一種新的基于群體置換(Group-Permutation)的知識蒸餾方法,即將深的Transformer模型壓縮為一個淺的輕量模型,并通過隨機刪除子層以引入擾動訓練的子層跳躍(Skipping Sub-Layer)方法?;贕roup-Permutation的知識蒸餾方法如圖2所示。

        圖2 基于Group-Permutation的知識蒸餾方法

        其主要可分為如下3個步驟。

        (1)在Teacher模型上應用Group-permutation的訓練方法;

        (2)通過Teacher模型生成SKD數(shù)據(jù);

        (3)利用得到的SKD數(shù)據(jù)訓練Student模型。

        軌道交通機器翻譯系統(tǒng)引入翻譯記憶(TM,Translation Memory),并融入神經(jīng)機器翻譯NMT模型進行訓練。翻譯記憶是保存信息所翻譯專家歷史翻譯記錄的數(shù)據(jù)庫,其中,每個條目包含源語句子及其翻譯。依托中國鐵道科學研究院集團有限公司科學技術信息研究所翻譯中心積累的豐富的優(yōu)質翻譯經(jīng)驗和語料,構成翻譯記憶的基礎,這些語料對于軌道交通領域的精準翻譯非常重要。模型訓練中,利用數(shù)據(jù)增廣的方式將翻譯記憶和訓練數(shù)據(jù)拼接起來,同時,調整神經(jīng)機器翻譯的架構,使其能夠處理翻譯記憶信息,從中獲得翻譯知識。

        3.3 專業(yè)語料庫構建

        經(jīng)典神經(jīng)機器翻譯模型訓練高度依賴雙語平行語料庫[9]。為確保軌道交通機器翻譯系統(tǒng)的翻譯專業(yè)性和精準度,構建雙語平行專業(yè)語料庫,從語料規(guī)模、語料采集、語料擇選與規(guī)范化處理等維度進行規(guī)劃與控制,為后期神經(jīng)機器翻譯模型的訓練夯實基礎。

        4 應用場景

        軌道交通機器翻譯系統(tǒng)作為子系統(tǒng)納入到了中國鐵道科學研究院集團有限公司的“軌道交通專業(yè)知識服務系統(tǒng)(鐵科院數(shù)字圖書館)”之中,面向軌道交通行業(yè)用戶提供基礎服務、特色服務和人工服務。

        4.1 基礎服務

        主要包括:文本翻譯、文檔翻譯服務。用戶登錄系統(tǒng)主界面后,手工錄入或上傳文檔即可翻譯。系統(tǒng)支持切換“領域翻譯”“即時翻譯”模式,用戶可自定義翻譯服務的時效性和專業(yè)化程度。例如,輸入文本“cars per cut”,在“通用領域”模式翻譯為“每輛車”,在“軌道領域”模式翻譯為“鉤車”,翻譯結果的專業(yè)性更強。

        4.2 特色服務

        主要包括:插件翻譯、文檔轉換處理等服務。相較于主流機器翻譯引擎,本系統(tǒng)增加Office/WPS翻譯插件、瀏覽器翻譯插件服務,同步在線端的用戶數(shù)據(jù),真正實現(xiàn)“一個賬號聯(lián)通多種服務方式”。另外,推出“劃詞翻譯”“翻譯范圍自定義”等個性化翻譯工具,增設“文檔轉換處理”輔助翻譯工具,提高文檔翻譯服務的用戶滿意度。

        4.3 人工服務

        本系統(tǒng)整合國內(nèi)軌道交通行業(yè)翻譯專家資源,增設人工翻譯服務模塊。用戶可在線提交“翻譯訂單”,上傳翻譯示例文檔,選擇不同等級的翻譯服務,并對翻譯內(nèi)容提出要求。本系統(tǒng)將根據(jù)“翻譯訂單”進行專家配對,為用戶推薦目標領域的翻譯專家完成翻譯工作。

        與商業(yè)機器翻譯引擎相比,本系統(tǒng)應用優(yōu)勢如下。

        (1)實現(xiàn)本地化部署,有效保障數(shù)據(jù)的安全性和保密性;

        (2)利用專業(yè)語料庫,提升領域翻譯的專業(yè)性和精準度;

        (3)提供多元化翻譯服務,除網(wǎng)頁端翻譯服務外,提供Office等插件翻譯和人工翻譯服務,適配用戶個性化的應用場景。

        5 結束語

        本文針對商用機器翻譯引擎安全性無法保證、專業(yè)化領域翻譯精準度低、翻譯服務方式單一等問題,設計軌道交通機器翻譯系統(tǒng)。通過應用知識蒸餾方法進行Transformer模型優(yōu)化,構建軌道交通行業(yè)專業(yè)語料庫,提升系統(tǒng)翻譯的專業(yè)性和精準度,實現(xiàn)本地化部署與運營維護,保障數(shù)據(jù)的安全性和保密性;推出文本翻譯、文檔翻譯、Office插件翻譯等的多元化翻譯服務,為軌道交通行業(yè)人員提供更加安全化、專業(yè)化、特色化的翻譯工具。下一步,將豐富多語種語料庫,增加文檔翻譯OCR識別等功能,優(yōu)化翻譯API性能,提升系統(tǒng)的穩(wěn)定性和易用性。

        猜你喜歡
        多語種插件語料
        語聯(lián)世界,言通天下
        自編插件完善App Inventor與樂高機器人通信
        電子制作(2019年22期)2020-01-14 03:16:34
        多語種《中級軍事漢語》教材的編寫思路與指導思想
        基于語料調查的“連……都(也)……”出現(xiàn)的語義背景分析
        華語電影作為真實語料在翻譯教學中的應用
        MapWindowGIS插件機制及應用
        基于Revit MEP的插件制作探討
        《苗防備覽》中的湘西語料
        國內(nèi)外語用學實證研究比較:語料類型與收集方法
        北美“新清史”研究的基石何在——是多語種史料考辨互證的實證學術還是意識形態(tài)化的應時之學?(上)
        无码ol丝袜高跟秘书在线观看| 国产精品第一二三区久久| 日本一区二区在线播放视频| 国产一区二区三区在线男友| 那有一级内射黄片可以免费看 | 国产精品亚洲一区二区三区正片 | 丰满少妇a级毛片| 中文无码一区二区不卡av| 伊人久久大香线蕉综合网站| 亚洲av无码精品色午夜| 色狠狠一区二区三区香蕉| 五月天激情小说| 亚洲成在人网av天堂| 韩国无码精品人妻一区二| 日韩精品极品视频在线观看蜜桃| 最新日本免费一区二区三区| 国产诱惑人的视频在线观看| 精品乱色一区二区中文字幕| 漂亮人妻被强了完整版| 亚洲精品无码高潮喷水a片软| 亚洲精品成人网线在线播放va| 亚洲人成色777777老人头| 毛片免费全部无码播放| 国产亚洲成年网址在线观看| av网站在线观看二区| 美女被内射中出在线观看| 国产视频一区二区在线免费观看| 性欧美丰满熟妇xxxx性久久久 | 日本av一区二区在线| 亚洲av无码成人精品国产| 亚洲日韩av无码一区二区三区人| 国产成人麻豆精品午夜福利在线| 国产精品久久久久尤物| 欧洲AV秘 无码一区二区三| 亚洲av资源网站手机在线| 中文字日产幕码三区国产| 亚洲小说区图片区色综合网| 狠狠躁天天躁中文字幕| 自拍偷自拍亚洲精品播放| 蜜桃网站在线免费观看视频| 丝袜美腿亚洲综合一区|