楊立鵬,郝曉培,易 超,段 然,王思宇
(中國鐵道科學(xué)研究院集團(tuán)有限公司 電子計算技術(shù)研究所,北京 100081)
隨著“一帶一路”建設(shè)、鐵路“走出去”不斷深入推進(jìn)與發(fā)展,高速鐵路服務(wù)的旅客群體越來越廣泛,語言服務(wù)已經(jīng)成為我國現(xiàn)代化進(jìn)程中不可缺少的語言生活現(xiàn)象,在政治、經(jīng)濟、文化建設(shè)中都發(fā)揮著重要的作用。2016 年《國家語言文字事業(yè)“十三五”發(fā)展規(guī)劃》中提出要將“提高國際語言文字服務(wù)能力”作為重要的任務(wù)之一,更加明確了語言服務(wù)在對外經(jīng)貿(mào)合作和人文交流的重要地位[1]。為了滿足國內(nèi)外旅客多元化的客票服務(wù)需求,以及為北京冬奧會不同旅客人群便捷購票出行提供保障支持,12306 互聯(lián)網(wǎng)售票系統(tǒng)作為鐵路旅客購票最主要的窗口,其國際化需求也變得越發(fā)迫切,通過構(gòu)建多語言售票環(huán)境,為不同國家及地區(qū)的潛在旅客提供多語種選擇服務(wù),設(shè)計更加貼合其使用習(xí)慣的交互流程,充分體現(xiàn)出我國鐵路以旅客為中心的服務(wù)理念[2-3]。12306 互聯(lián)網(wǎng)售票系統(tǒng)多語言售票環(huán)境所提供的語言越多,其開發(fā)和維護(hù)的工作量就越大,提供多語言的鐵路售票環(huán)境往往意味著成本的節(jié)節(jié)攀升,需要權(quán)衡這兩者之間的關(guān)系,用更小的投入提供更有效的多語言售票服務(wù)。
當(dāng)前國內(nèi)提供多語言環(huán)境的交易系統(tǒng)相對較少,比較多的是一些以提高用戶認(rèn)知為主的產(chǎn)品介紹性網(wǎng)站,最常見的多語言服務(wù)實現(xiàn)方案主要有多語言多套頁面和多語言內(nèi)容管理2 種[4],均具有一定的優(yōu)勢與弊端。
(1)多種語言多套頁面。針對不同的語言需求開發(fā)對應(yīng)的頁面程序存儲在不同的目錄下,通過不同的URL實現(xiàn)跳轉(zhuǎn)[5],前端工程師可以針對不同語言特點對頁面的內(nèi)容和布局進(jìn)行調(diào)整,無需考慮多語言的兼容性問題,靈活性大,對用戶體驗較好。但是多套頁面存在大量冗余代碼、程序可復(fù)用性低、服務(wù)運維成本高和服務(wù)器空間浪費等問題。
(2)多語言內(nèi)容管理。通過引入多語言內(nèi)容管理數(shù)據(jù)庫,將業(yè)務(wù)信息人工翻譯為不同語言,并存到相應(yīng)的表內(nèi),提供唯一的索引ID,通過傳入語言類型表示,其多語言化插件通過制定參數(shù)獲取多語言內(nèi)容數(shù)據(jù)庫中對應(yīng)語言的文本提供服務(wù)[6]。由于系統(tǒng)多語言內(nèi)容存儲在不同的表中,可以基于不同的參數(shù)在相同的業(yè)務(wù)代碼完成語言切換,降低了開發(fā)成本,代碼復(fù)用性高且代碼冗余度低,且人工翻譯方式能夠保證翻譯質(zhì)量。
目前主要的翻譯手段包括專家直譯和機器自動翻譯[7-9]。其中,專家直譯能夠理解語言在不同目標(biāo)語言、不同行業(yè)、不同應(yīng)用場景所傳達(dá)的含義,能夠確保翻譯的準(zhǔn)確率,但存在處理時間較長、成本較高等問題;機器自動翻譯采用人工智能相關(guān)算法進(jìn)行翻譯,雖然處理時間短、成本較低,但準(zhǔn)確率無法得到保證,為了滿足要求往往需要潤色,常用的機器自動翻譯包括以下2類。
(1)統(tǒng)計機器翻譯。在大規(guī)模多語言平行語料庫的基礎(chǔ)上進(jìn)行訓(xùn)練和模型參數(shù)調(diào)試,構(gòu)建統(tǒng)計翻譯模型,從而實現(xiàn)一種語言到多種語言的轉(zhuǎn)換,具有降低人工成本、提高開發(fā)周期等優(yōu)點,故在20 世紀(jì)90 年代,谷歌、百度等知名公司的翻譯平臺以此為主,并得到了廣泛應(yīng)用,但也存在線性不可分、數(shù)據(jù)稀疏及語義表達(dá)不準(zhǔn)確等缺點。
(2)神經(jīng)網(wǎng)絡(luò)機器翻譯。將源語言句子序列,通過輸入神經(jīng)網(wǎng)絡(luò)模型映射為目標(biāo)語言句子序列,采用連續(xù)向量表示構(gòu)建翻譯過程,避免了統(tǒng)計機器翻譯獨立性假設(shè)過強的問題,同時提高了泛化能力。
鐵路客運售票系統(tǒng)對外服務(wù)渠道主要包括12306 互聯(lián)網(wǎng)售票系統(tǒng)(12306網(wǎng)站、12306APP、小程序)、車站窗口、車站自動售票機、車站大屏、電話訂票等。多語言售票環(huán)境需要覆蓋各個售票渠道,為滿足旅客的多元化需求,更好地支撐多語言票務(wù)場景,在不增加系統(tǒng)開銷、不增加旅客使用成本的前提下對鐵路客運售票系統(tǒng)架構(gòu)進(jìn)行重新設(shè)計[10],增加了多語言支撐服務(wù)模塊及多語言環(huán)境切換模塊,構(gòu)建一套可以適配多售票渠道且自適應(yīng)的多語言售票環(huán)境,賦予原有系統(tǒng)更加靈活的擴展性,且支持用戶手動在不同模式間靈活切換的系統(tǒng)。為了滿足不同渠道的多語言售票環(huán)境,將多語言支撐服務(wù)模塊跨網(wǎng)部署,多語言環(huán)境切換模塊分散部署的方式以實現(xiàn)多語言環(huán)境兼容不同售票渠道。
多語言售票系統(tǒng)架構(gòu)如圖1 所示,紅線部分為新增的服務(wù)調(diào)用軌跡,以12306APP 為例,在APP客戶端與售票服務(wù)之間增加多語言環(huán)境切換以傳入不同的參數(shù),實現(xiàn)多語言切換,在售票服務(wù)與互聯(lián)網(wǎng)售票應(yīng)用服務(wù)之間增加多語言支撐服務(wù)與業(yè)務(wù)服務(wù)解耦,實現(xiàn)不同語言環(huán)境在服務(wù)端的語言切換;在售票服務(wù)與互聯(lián)網(wǎng)售票應(yīng)用服務(wù)之間增加多語言支撐服務(wù)模塊實現(xiàn)不同語言內(nèi)容的轉(zhuǎn)換。
圖1 多語言售票系統(tǒng)架構(gòu)Fig.1 Multilingual ticketing system architecture
為了滿足12306 互聯(lián)網(wǎng)售票系統(tǒng)的多語言售票開發(fā)需求,將初期的系統(tǒng)架構(gòu)進(jìn)行調(diào)整,基于功能抽象的構(gòu)建模式,在應(yīng)用層之上構(gòu)建Adapter層。應(yīng)用層架構(gòu)對比如圖2 所示,以12306APP為例,根據(jù)APP啟動時攜帶的個性化參數(shù)來創(chuàng)建不同的應(yīng)用,從而突破應(yīng)用層只能服務(wù)于單一軟件系統(tǒng)的瓶頸限制。
圖2 應(yīng)用層架構(gòu)對比Fig.2 Comparison of application layer architecture
Adapter層可對語言包資源、應(yīng)用內(nèi)文字大小、識讀功能及容器的User-Agent 等系統(tǒng)特征進(jìn)行個性化配置,并根據(jù)以上配置來控制要加載渲染的HTML5資源,以實現(xiàn)應(yīng)用級橫向的擴展能力,讓原有的單一的架構(gòu)具備更加靈活多變的特性。
(1)多語言切換時原生端與HTML5實時雙向響應(yīng)。由于12306APP 標(biāo)準(zhǔn)版客戶端與HTML5沒有直接交互、通信的方法,所以多語言APP 使用Hybrid方式進(jìn)行開發(fā),在HTML5利用HEAD請求將功能調(diào)用參數(shù)和回調(diào)函數(shù)注入到瀏覽器中,原生端通過網(wǎng)絡(luò)請求代理,對瀏覽器內(nèi)發(fā)起的請求進(jìn)行攔截、解析,使用HTML5 注入的參數(shù)完成指令代碼后(如切換語言),將結(jié)果通過回調(diào)函數(shù)通知HTML5側(cè),HTML5 獲取到結(jié)果后做出預(yù)期處理,進(jìn)而完成了一次雙向響應(yīng)。
(2)語言切換、語言詞典動態(tài)更新及語種拓展功能的實現(xiàn)。在12306APP多語言版本首次安裝時,在新特性頁中提供了語言選擇的功能,進(jìn)入APP后用戶還可以在設(shè)置頁中進(jìn)行語言的變更,用戶選擇的語種會進(jìn)行持久化存儲,在APP每次啟動時,通過動態(tài)讀取持久化數(shù)據(jù)來設(shè)置用戶使用的語言,并加載相應(yīng)的語言包。語言詞典更新和語種拓展是借助原生基座提供的離線包發(fā)布能力,將頁面資源和其用到的語言詞典捆綁在一起,構(gòu)建為離線包,當(dāng)語言詞典需要更新時,構(gòu)建新版離線包,通過服務(wù)端進(jìn)行發(fā)布,客戶端感知到離線包有迭代時會主動拉取并對APP內(nèi)資源進(jìn)行替換更新。
由于依托既有的售票系統(tǒng)架構(gòu)進(jìn)行多語言功能的擴展,為保障既有售票系統(tǒng)運行平穩(wěn),同時兼顧多語言系統(tǒng)的快速集成,設(shè)計在12306 互聯(lián)網(wǎng)售票系統(tǒng)中增加多語言支撐服務(wù)模塊。此模塊獨立于其他既有子系統(tǒng)結(jié)構(gòu),不會對子系統(tǒng)服務(wù)造成影響,利于快速迭代開發(fā),該模塊以售票環(huán)境多語言翻譯結(jié)果為基礎(chǔ),通過以下2種方式實現(xiàn)。
(1)多語言多套頁面。將12306 互聯(lián)網(wǎng)售票系統(tǒng)內(nèi)比較穩(wěn)定、更新頻率較低的頁面,采用多語言多套頁面的方式進(jìn)行部署。以中文版本的網(wǎng)站結(jié)構(gòu)和數(shù)據(jù)為基礎(chǔ),翻譯出不同語言版本,并最終確保所有URL 鏈接的有效性。將不同語言的頁面存放在不同的目錄下,各語言版本表現(xiàn)出的頁面內(nèi)容和布局并不完全一致。
(2)多語言內(nèi)容管理。12306 互聯(lián)網(wǎng)售票系統(tǒng)通過預(yù)置語言資源包的方式,解決客戶端固定語言文字的多語言處理場景[11]。多語言內(nèi)容管理服務(wù)端針對不同人群、不同業(yè)務(wù)等響應(yīng)的語言文字進(jìn)行多語言翻譯處理。多語言內(nèi)容管理如圖3 所示,多語言支撐服務(wù)在實現(xiàn)過程中結(jié)合客戶端請求攜帶的語言環(huán)境標(biāo)識,建立了不同業(yè)務(wù)術(shù)語的編碼映射關(guān)系,形成了不同的語言資源包,通過對語言環(huán)境標(biāo)識判斷,獲取對應(yīng)的語言文字進(jìn)行響應(yīng)。需新增語言支持時,只需增加相對應(yīng)的語言資源包即可。例如,服務(wù)端如需返回“輸入密碼錯誤?!保憫?yīng)值返回到多語言支撐服務(wù)的值為“ASU.2029”編碼,此時多語言支撐服務(wù)判斷用戶語言環(huán)境去對應(yīng)的語言資源文件獲取映射提示,如果是英文返回提示語“Incorrect password.”,如果是簡體中文則返回“輸入密碼錯誤?!碧崾?。
圖3 多語言內(nèi)容管理Fig.3 Multilingual content management
12306 互聯(lián)網(wǎng)售票系統(tǒng)作為專業(yè)性強、用戶體驗要求高的服務(wù)系統(tǒng),其不僅存在一些客運特有的專業(yè)術(shù)語,而且針對不同的名詞及語句具有固定的翻譯方式,而當(dāng)前常見的機器自動翻譯無法將業(yè)務(wù)特點融入到翻譯過程中,其翻譯結(jié)果相對于人工翻譯準(zhǔn)確度較低,翻譯質(zhì)量很難得到保證,很難適應(yīng)鐵路客運售票的各個環(huán)境,為了解決該問題,研究提出融入翻譯記憶的柔性匹配翻譯技術(shù),即利用術(shù)語翻譯標(biāo)準(zhǔn)和翻譯質(zhì)量較高的句子,直接抽取其中相似的部分輔助翻譯,在融入行業(yè)數(shù)據(jù)的同時減少翻譯工作量。
多語言售票環(huán)境翻譯模型的翻譯記憶庫主要包括鐵路購票環(huán)境基本語料庫和柔性翻譯資料庫2部分。
(1)鐵路購票環(huán)境基本語料庫。由業(yè)務(wù)專家根據(jù)鐵路客運的業(yè)務(wù)特點提取旅客購票環(huán)節(jié)涉及的各種專業(yè)名詞并對其進(jìn)行翻譯,定義不同專業(yè)術(shù)語以及常用句子的目標(biāo)語言,具有一定的權(quán)威性,鐵路購票環(huán)境基本詞匯語料庫(樣例)如表1所示。
表1 鐵路購票環(huán)境基本詞匯語料庫(樣例)Tab.1 Basic vocabulary corpus for railway ticketing environment (sample)
(2)柔性翻譯資料庫。鐵路12306 互聯(lián)網(wǎng)售票系統(tǒng)雙語系統(tǒng)構(gòu)建初期,為了保證翻譯質(zhì)量,通過業(yè)務(wù)專家指導(dǎo),專業(yè)翻譯人員對旅客購票過程可能需要的提示信息進(jìn)行翻譯,生成一批質(zhì)量較高的中英文對應(yīng)關(guān)系資料庫。12306 互聯(lián)網(wǎng)售票系統(tǒng)的語言偏重功能性和交際性,屬于應(yīng)用型文本,不同于傳統(tǒng)的敘述型文本,具有實用性強、詞匯通俗易懂、信息凝練的特點。詞條多為彈窗、按鈕或提示性話語,對應(yīng)某個具體的應(yīng)用場景,用于提示信息或指引用戶完成相關(guān)操作,從而便捷、高效、精準(zhǔn)地辦理購票、退改簽和乘車信息查詢等業(yè)務(wù)。從軟件使用者的角度出發(fā),在有限空間內(nèi)最大限度地傳遞有效消息,提煉并重現(xiàn)中文詞條的核心意義,使用準(zhǔn)確嚴(yán)謹(jǐn)、清晰簡明同時又符合目標(biāo)用戶的文化觀念、閱讀心理、語言習(xí)慣的表達(dá)方式進(jìn)行靈活翻譯,以便于使用者能夠快速理解并做出判斷[12]。
為達(dá)到“柔性翻譯”的效果[13],主要采取的翻譯方法可歸納為以下5種,翻譯方法示例如表2所示。
表2 翻譯方法示例Tab.2 Translation method examples
最后將翻譯記憶資料庫存入Elasticsearch 搜索引擎內(nèi),以方便搜索。
融入翻譯記憶的自動翻譯模型的主要流程是:將源語言句子進(jìn)行分詞處理,并使用搜索引擎從翻譯記憶資料庫中檢索與源語言句子分詞相對應(yīng)的目標(biāo)語言翻譯。
(1)相似語料搜索。首先將源語言句子S進(jìn)行分詞生成{v1,v2,…,vn},過濾出鐵路客運專業(yè)名詞{h1,h2,…,hm}作為翻譯記憶專業(yè)術(shù)語候選集,在存儲介質(zhì)Elasticsearch 的翻譯記憶資料庫檢索出專業(yè)名詞的雙語信息,同時也搜索與源語言句子S相似度較高的Top-50 相似雙語句子,最后利用公式⑴重新計算相似度并重新進(jìn)行排序,保持Top-K(K<50)個雙語句子作為S的翻譯記憶句子候選集{s1,s2,…,sk}(可能不包含鐵路客運專有名詞)。
式中:dist為編輯距離;S為源語言句子;Stm為從翻譯記憶中獲取的與源語言句子相似的句子表示。
翻譯質(zhì)量的高低與鐵路客運專業(yè)名詞的識別度及K的個數(shù)有關(guān),鐵路客運專業(yè)名詞的有效識別能夠融入鐵路售票的業(yè)務(wù)場景,用<hi,pi>表示句子S中專業(yè)名詞的雙語信息,翻譯記憶句子候選集越大能夠提高日常用語的翻譯質(zhì)量越高,但是由于計算復(fù)雜度與K的大小線性相關(guān)從而影響翻譯速度,為了保證模型速度,選擇Top-1作為翻譯記憶句子候選集,用<Stm,Ym>表示與句子S最相似的雙語句子。
(2)翻譯記憶編碼。分別基于翻譯記憶專業(yè)術(shù)語候選集TV<hi,pi>和翻譯記憶句子候選集TS<Stm,Ytm> 構(gòu) 建 矢 量 序 列Q,P。
Q:按照源句子S中專業(yè)術(shù)語的順序構(gòu)成的矢量序列,TV<hi,pi>中每個詞匯對S重要程度相對于TS<Stm,Ytm>內(nèi)的詞匯都高。
P:翻譯記憶句子候選集的相似句子Stm包含與源句子S匹配和與源句子S不匹配2 部分,且TV<hi,pi>內(nèi)每個詞匯對S的重要性不同,利用fastalign工具獲取Stm和Ytm之間的對齊信息Ctm,若Cjtm=1則表示yj與某個si對齊,否則為0,其中si屬于原句子S,以此為基礎(chǔ)將M定義為
式中:M表示矢量序列;?表示向量與矩陣之間的運算;Ctm表示源句子S與Stm之間的對齊分?jǐn)?shù);Btm表示源句子S與Stm之間的相似度得分;Etm為單位矩陣。
(3)自動翻譯模型構(gòu)建。在訓(xùn)練步驟i,Q,P以及已有的翻譯序列Y<i的情況下可以為源語言句子S構(gòu) 建 模 型R(yi|S,Y<i,Q,P)R(yi|S,Y<i,Q,P),整個自動翻譯模型的目標(biāo)函數(shù)定義為
自動翻譯模型構(gòu)建如圖4 所示,其結(jié)構(gòu)與Transformer 神經(jīng)網(wǎng)絡(luò)相似[14],其關(guān)鍵組件為示例層,包括3 個雙頭注意力機制[15],其中左側(cè)多頭注意力機制與標(biāo)準(zhǔn)的Transformer 相同,中間的注意力機制嘗試從翻譯記憶句子候選集中捕獲信息,其查詢來自Y<i,而鍵(Keys)和值(Values)來自翻譯編碼表示序列P,右側(cè)多頭注意力機制捕獲翻譯記憶專業(yè)術(shù)語候選集中的信息,其鍵(Keys)和值(Values)來自翻譯編碼表示序列Q,將3 部分多頭注意力機制并行處理后,獲得ADD&Norm運算,將獲得的新序列作為下一次多頭注意力機制的查詢,模型其他部分與Transformer相同。
圖4 自動翻譯模型構(gòu)建Fig.4 Automatic translation model building
前期12306 互聯(lián)網(wǎng)售票系統(tǒng)僅提供中文售票環(huán)境和信息化服務(wù),為外籍旅客帶來了一定的購票不便,因而大部分的外籍旅客采取線下購票,以降低信息交互帶來的困難。在2021年12月多語言系統(tǒng)上線之前,12306 互聯(lián)網(wǎng)售票系統(tǒng)中每個月外籍旅客注冊比例相對平穩(wěn),均在1‰以下,在2021年12月上線以來特別是北京冬奧會期間,外籍旅客注冊比例增長較為明顯,最高達(dá)到了上線之前的3倍。
自12306 互聯(lián)網(wǎng)售票系統(tǒng)上線以來,外籍旅客購票共計4 538.77 萬人次,外籍旅客購票占全部互聯(lián)網(wǎng)購票旅客0.22%。外籍旅客購票量如圖5所示,自2021 年12 月多語言服務(wù)上線后特別是北京冬奧會期間,外籍旅客通過自己的賬號在12306 互聯(lián)網(wǎng)售票系統(tǒng)購票的比例逐步上升,最高達(dá)到上線之前的2倍。
圖5 外籍旅客購票量Fig.5 Ticket purchase volume of foreign passengers
12306 互聯(lián)網(wǎng)售票系統(tǒng)英文渠道售票情況如圖6 所示,自12306 互聯(lián)網(wǎng)售票系統(tǒng)多語言服務(wù)上線以來,英文版本的網(wǎng)站和APP 售票量逐步增加,到2022年3月底已累計售票15萬張。
圖6 12306互聯(lián)網(wǎng)售票系統(tǒng)英文渠道售票情況Fig.6 English ticket sales of 12306 Internet ticketing system
綜上所述,12306 互聯(lián)網(wǎng)售票系統(tǒng)多語言服務(wù)上線以來,外籍旅客的注冊比例和購票比例增長較為明顯,通過提高外籍旅客的購票體驗,吸引了大量的外籍旅客。
隨著“一帶一路”建設(shè)的不斷推進(jìn),12306 互聯(lián)網(wǎng)售票系統(tǒng)作為唯一的官方售票渠道,提供多語言購票環(huán)境為外籍旅客提供高品質(zhì)的服務(wù)變得尤為重要。研究首先優(yōu)化了當(dāng)前售票系統(tǒng)架構(gòu),實現(xiàn)12306網(wǎng)站/APP和自動售票機等售票渠道為外籍旅客提供英文版人機交互界面,提高信息交互傳輸效率及用戶視覺傳達(dá)效能,提出融入鐵路行業(yè)特點的翻譯記憶神經(jīng)網(wǎng)絡(luò)翻譯模型,使自動翻譯在翻譯的過程中融入翻譯記憶庫,并對最終結(jié)果進(jìn)行柔性匹配處理,提高了自動翻譯在鐵路12306 多語言售票環(huán)境中的翻譯質(zhì)量,降低了人工翻譯成本。多語言售票系統(tǒng)打破不同國家和地區(qū)游客在中國購買火車票過程中遇到的語言障礙,大幅提升了外籍旅客的出行體驗,為北京冬奧會的成功舉行、暢通國內(nèi)國際雙循環(huán)、服務(wù)“一帶一路”建設(shè)發(fā)揮了積極的作用。