何媛媛
(榆林學(xué)院外國(guó)語(yǔ)學(xué)院,陜西 榆林 719000)
語(yǔ)言不僅是人類通信和交流的媒介,還是信息與知識(shí)傳播的重要載體。在全球化經(jīng)濟(jì)不斷發(fā)展的背景下,一個(gè)國(guó)家要想提高國(guó)際市場(chǎng)核心競(jìng)爭(zhēng)力,必須要突破語(yǔ)言差異的難關(guān),加強(qiáng)國(guó)際之間的溝通、交流和合作。而基于云計(jì)算模式下機(jī)器輔助翻譯系統(tǒng)的出現(xiàn)和應(yīng)用,可以幫助人們與不同語(yǔ)種的人進(jìn)行順暢無(wú)誤地溝通和交流,為解決語(yǔ)言溝通障礙問(wèn)題提供重要的支持平臺(tái)。因此,在云計(jì)算模式的應(yīng)用背景下,如何科學(xué)地設(shè)計(jì)機(jī)器輔助翻譯系統(tǒng)是相關(guān)人員必須思考和解決的問(wèn)題。
在云計(jì)算模式的應(yīng)用背景下,機(jī)器輔助翻譯系統(tǒng)所含的語(yǔ)言資料極其豐富,這就對(duì)語(yǔ)言資料的統(tǒng)一記錄提出了更高的要求。為了實(shí)現(xiàn)對(duì)大量語(yǔ)言數(shù)據(jù)進(jìn)行快速、準(zhǔn)確地翻譯[1],相關(guān)人員要重視對(duì)系統(tǒng)分布式處理架構(gòu)的設(shè)計(jì),確保各個(gè)文件能夠采用不同存儲(chǔ)方式進(jìn)行安全存儲(chǔ),盡可能降低系統(tǒng)信息交互的引用頻率,從而降低系統(tǒng)工作復(fù)雜度,保證翻譯的高效性和準(zhǔn)確性。此外,系統(tǒng)針對(duì)多種語(yǔ)言類型設(shè)計(jì)獨(dú)特的翻譯方式,以滿足不同語(yǔ)言類型的翻譯需求。此外,還要針對(duì)語(yǔ)言的復(fù)雜性和龐大性[2],最大限度地縮短翻譯時(shí)間,系統(tǒng)總體框架設(shè)計(jì)示意圖如圖1所示。
圖1 系統(tǒng)總體框架設(shè)計(jì)示意圖
要想保證信息存儲(chǔ)的穩(wěn)定性、可靠性和安全性,信息存儲(chǔ)的設(shè)計(jì)要作為重中之重。通常情況下,存儲(chǔ)結(jié)構(gòu)與分布式框架基本類似,能夠?qū)崿F(xiàn)高效地存儲(chǔ)海量信息數(shù)據(jù),同時(shí),所存儲(chǔ)的數(shù)據(jù)可以被用戶多次查找和讀取,通過(guò)目錄數(shù)據(jù)可以實(shí)現(xiàn)對(duì)數(shù)據(jù)詳細(xì)名稱信息的統(tǒng)一記錄和整理,便于后期用戶查找和調(diào)用這些數(shù)據(jù),便于用戶根據(jù)自己的實(shí)際需求,有針對(duì)性地存儲(chǔ)數(shù)據(jù),為用戶帶來(lái)良好的體驗(yàn)[4]。另外,將信息存儲(chǔ)模塊與設(shè)計(jì)模板分開(kāi),通過(guò)分開(kāi)存儲(chǔ)功能的設(shè)計(jì)和使用來(lái)降低系統(tǒng)信息交互頻率,以達(dá)到減小系統(tǒng)服務(wù)器吞吐數(shù)據(jù)量的目的。存儲(chǔ)結(jié)構(gòu)如圖2所示。
圖2 存儲(chǔ)結(jié)構(gòu)
在云計(jì)算模式的應(yīng)用背景下,用戶通過(guò)機(jī)器輔助翻譯系統(tǒng),能夠利用關(guān)鍵詞和IPC 分類檢索相結(jié)合的檢索方式,快速翻譯出自己需要的翻譯文本[5]。其中,索引匹配方式在使用期間,若發(fā)現(xiàn)匹配失敗,系統(tǒng)不會(huì)自動(dòng)顯示最終檢索結(jié)果,此時(shí),需要用戶再次進(jìn)行索引匹配,直到匹配成功為止。由于被翻譯的語(yǔ)言類型多種多樣,因此關(guān)鍵詞的檢索方式也存在很大的差異,用戶要根據(jù)自己的實(shí)際檢索需求,選用合適的檢索方式,完成對(duì)跨域語(yǔ)種的科學(xué)檢索[6]。信息檢索模塊所用到的數(shù)據(jù)庫(kù)個(gè)數(shù)為三個(gè),不僅可以調(diào)動(dòng)和整理多種類型的詞典信息,還能成功匹配檢索結(jié)果與用戶需求內(nèi)容,為保證最終檢索結(jié)果的準(zhǔn)確性、真實(shí)性和完整性打下堅(jiān)實(shí)的基礎(chǔ)。此外,用戶利用信息檢索模塊,還能在第一時(shí)間內(nèi)快速獲得多種數(shù)據(jù)資料,為進(jìn)一步提高翻譯結(jié)果的準(zhǔn)確率創(chuàng)造良好的條件。
系統(tǒng)在進(jìn)行分類處理過(guò)程中,會(huì)存在不同的分類模式,所對(duì)應(yīng)的特征詞也存在很大的差異。如果戰(zhàn)斗機(jī)、航空母艦等詞語(yǔ)出現(xiàn)的頻率較高時(shí)[7],則其文檔會(huì)被自動(dòng)歸為“軍事”類別,一旦出現(xiàn)這種情況,要想保證詞語(yǔ)分類結(jié)果的準(zhǔn)確性,需要安全、可靠地存儲(chǔ)不同分類類別所對(duì)應(yīng)的特征詞。此外,還可以借助類別相關(guān)測(cè)試文件,查找出現(xiàn)頻率較高的特征詞[7],從而精確地判斷和獲取文件類別所對(duì)應(yīng)的有效值,以達(dá)到有效補(bǔ)充SVM 分類結(jié)果的目的。另外,遇到需要整篇輸入文本的情況時(shí),需要借助系統(tǒng)對(duì)其進(jìn)行處理[8],從而獲得停用詞文件。此時(shí),系統(tǒng)會(huì)自動(dòng)統(tǒng)計(jì)各個(gè)分類詞庫(kù)特征詞的出現(xiàn)頻率,為后期SVM 結(jié)果的分類提供重要的依據(jù)和參考。
為了確保用戶的使用感受,就要對(duì)用戶界面進(jìn)行人性化設(shè)計(jì),相關(guān)人員要加強(qiáng)對(duì)系統(tǒng)分類功能的設(shè)計(jì),為用戶的分類操作提供最大便利。首先,通過(guò)對(duì)分類結(jié)果進(jìn)行更改[9],優(yōu)化分類模塊,確保整個(gè)操作流程符合用戶的使用需求和使用習(xí)慣。在進(jìn)行分類處理的過(guò)程中,首先要利用文件目錄模塊點(diǎn)擊并選中需要的語(yǔ)料。此時(shí),系統(tǒng)會(huì)自動(dòng)彈出文件夾選項(xiàng)窗口,當(dāng)該窗口所對(duì)應(yīng)的路徑正確無(wú)誤后,點(diǎn)擊“確認(rèn)”按鈕。此外,在點(diǎn)擊和選擇語(yǔ)料模塊或者目錄的過(guò)程中,系統(tǒng)同樣會(huì)自動(dòng)彈出文件夾的選擇窗口,便于選擇正確的路徑,最后,點(diǎn)擊“確認(rèn)”按鈕。另外,為了保證訓(xùn)練語(yǔ)料處理結(jié)果的準(zhǔn)確性和完整性[10],系統(tǒng)除了可以自動(dòng)生成文件目錄外,還能智能地生成大量的中間文件,便于用戶的查找和調(diào)用[6]。用戶通過(guò)使用該系統(tǒng),不僅可以快速、合理地分類文件,還能將分類結(jié)果保存于結(jié)果文件中,同時(shí),還能借助系統(tǒng)界面形象、直觀地呈現(xiàn)最終的分類結(jié)果。最后,在對(duì)最終分類結(jié)果進(jìn)行查看期間,點(diǎn)擊“更改分類”按鈕[11]時(shí),系統(tǒng)會(huì)自動(dòng)彈出分類結(jié)果的修改窗口,便于用戶完成對(duì)分類結(jié)果的快速更改。系統(tǒng)分類流程如圖3 所示。
圖3 系統(tǒng)分類流程
要想確保機(jī)器輔助翻譯系統(tǒng)能夠可靠、穩(wěn)定、安全地運(yùn)行[12],需要重視對(duì)系統(tǒng)數(shù)據(jù)庫(kù)的設(shè)計(jì),以此確保系統(tǒng)能夠?qū)崿F(xiàn)對(duì)數(shù)據(jù)的高效交互和通信,同時(shí)為縮短系統(tǒng)翻譯時(shí)間,保證翻譯結(jié)果的準(zhǔn)確性提供了重要的依據(jù)和參考。數(shù)據(jù)庫(kù)包含項(xiàng)目信息表、文件信息表、文件段落表等大量數(shù)據(jù)表,現(xiàn)以項(xiàng)目信息表、文件信息表為例[13]進(jìn)行設(shè)計(jì),如表1、表2 所示。
表1 項(xiàng)目信息表
表2 文件信息表
在云計(jì)算模式的應(yīng)用背景下,為了進(jìn)一步提高機(jī)器輔助翻譯系統(tǒng)的運(yùn)行性能,滿足人們個(gè)性化的使用需求,需要加強(qiáng)對(duì)系統(tǒng)核心功能部分的設(shè)計(jì)[14]。機(jī)器輔助翻譯系統(tǒng)功能設(shè)計(jì)示意圖如圖4 所示。
圖4 系統(tǒng)功能設(shè)計(jì)示意圖
在線翻譯功能的具體設(shè)計(jì)中,將用戶需要翻譯的信息放置于模塊左側(cè),需要輸出的信息放置于模塊右側(cè),此時(shí),用戶可以根據(jù)自身的需求,合理選擇所要翻譯的語(yǔ)種。在線翻譯具有較高的實(shí)時(shí)性和針對(duì)性,能夠幫助用戶在短時(shí)間內(nèi)快速完成翻譯工作。在線翻譯模塊主要采用了Ajax 異步刷新方式,向翻譯引擎中輸入相應(yīng)的數(shù)據(jù),由翻譯引擎對(duì)這些數(shù)據(jù)進(jìn)行翻譯處理,并將最終的翻譯結(jié)果輸出到顯示屏上,在線翻譯工作過(guò)程如圖5 所示。
圖5 在線翻譯工作過(guò)程
離線翻譯功能在具體的設(shè)計(jì)中,需要針對(duì)已有數(shù)據(jù)文本特點(diǎn),采用文本傳輸方式,將需要翻譯的數(shù)據(jù)上傳到HDFS 中,用戶點(diǎn)擊“翻譯”按鈕后,確定數(shù)據(jù)文本的存儲(chǔ)位置,此時(shí),數(shù)據(jù)會(huì)利用Reduce 進(jìn)行批量處理,得出最終的結(jié)果。當(dāng)最終的翻譯結(jié)果顯示在顯示屏上后,用戶可以根據(jù)自身的需求,確定是否執(zhí)行下載操作。
用戶通過(guò)采用關(guān)鍵詞檢索法、多屬性組合法或者IPC 分類檢索法,對(duì)需要翻譯的文本進(jìn)行檢索。在進(jìn)行檢索時(shí),首先要將關(guān)鍵字與目錄數(shù)據(jù)所對(duì)應(yīng)的索引值進(jìn)行匹配,如果匹配成功,那么檢索結(jié)果會(huì)顯示在右側(cè)顯示屏上,供用戶查看和調(diào)用;如果匹配出現(xiàn)錯(cuò)誤,那么顯示屏上將不會(huì)顯示最終的檢索結(jié)果。檢索模塊如圖6 所示。
圖6 檢索模塊
為了更好地驗(yàn)證機(jī)器輔助翻譯系統(tǒng)的運(yùn)行性能和翻譯效果,對(duì)系統(tǒng)的核心功能進(jìn)行一一測(cè)試,首先,從150 萬(wàn)條漢英雙語(yǔ)語(yǔ)料中,隨機(jī)選取100 條漢英雙語(yǔ)語(yǔ)料,這些語(yǔ)料均來(lái)自政府、新聞等比較權(quán)威的英文文獻(xiàn),最終測(cè)試結(jié)果如表3、表4 所示[17]。
表3 漢英方向BLUE、NISF值測(cè)試結(jié)果1
表4 英漢方向BLUE、NISF值測(cè)試結(jié)果2
通過(guò)表中的數(shù)據(jù)可以計(jì)算得出,在云計(jì)算模式的應(yīng)用背景下,該文設(shè)計(jì)的機(jī)器輔助翻譯系統(tǒng)所獲得的翻譯準(zhǔn)確率相對(duì)較高,其測(cè)試準(zhǔn)確率達(dá)到了99.6%,因此,該系統(tǒng)具有非常高的可行性和有效性,不僅縮短了翻譯時(shí)間,還保證了翻譯結(jié)果的準(zhǔn)確性。該系統(tǒng)在具體的運(yùn)用中,不僅可以進(jìn)行自動(dòng)化處理,還能自動(dòng)點(diǎn)擊和標(biāo)注原文句子,使得句子所對(duì)應(yīng)的目標(biāo)譯文準(zhǔn)確、無(wú)誤地呈現(xiàn)在用戶面前,極大地提升了用戶的使用感受。此外,翻譯來(lái)源常見(jiàn)渠道包含以下三種,分別是實(shí)例譯文、統(tǒng)計(jì)譯文和記憶庫(kù)譯文,一旦發(fā)現(xiàn)譯文不夠理想,用戶可以借助該系統(tǒng)再次翻譯,直到獲得滿意的譯文即可。當(dāng)整個(gè)翻譯環(huán)節(jié)結(jié)束后,用戶除了可以全面查看譯文外,還能自動(dòng)導(dǎo)出目標(biāo)語(yǔ)言所對(duì)應(yīng)的文檔。
綜上所述,機(jī)器翻譯主要包含以下環(huán)節(jié),如單詞切分環(huán)節(jié)、語(yǔ)法規(guī)則研制環(huán)節(jié)以及詞典編制環(huán)節(jié),任何一個(gè)環(huán)節(jié)出錯(cuò),都會(huì)影響最終翻譯結(jié)果的準(zhǔn)確性,為此,利用云計(jì)算模式,設(shè)計(jì)并使用機(jī)器輔助翻譯系統(tǒng),不僅減輕了人們學(xué)習(xí)語(yǔ)言的負(fù)擔(dān),還確保了翻譯的準(zhǔn)確性和高效性,為國(guó)際之間能夠順利溝通和合作提供了有力的保障。