亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于文本相似性匹配的計算機輔助翻譯軟件研究

2020-07-14 01:52:14何斌

甘肅科技 2020年1期

何斌

(解放軍91404部隊,河北秦皇島 066001)

查準率與響應速度是計算機輔助翻譯軟件最重要的兩項指標。查準率的實際反應是檢索反饋的原文與用戶檢索的原文之間的匹配程度，也就是檢索反饋結果能把語料庫中所有具有翻譯參考價值的譯文按相似度排序呈現(xiàn)給用戶。與傳統(tǒng)的數(shù)據(jù)庫模糊查詢不同，檢索內(nèi)容不是確定的檢索關鍵字，實際上被檢索目標與檢索內(nèi)容只存在文本上相似或近似。所以，諸如Like語句實現(xiàn)的模糊查詢在計算機輔助軟件的檢索中并不適用。另外，與其它的檢索系統(tǒng)一樣響應速度是計算機輔助翻譯軟件最主要的性能指標，通常情況翻譯語料庫數(shù)據(jù)量較大，故查詢速度的優(yōu)化對計算機輔助軟件的尤為重要。

針對上述問題，采用文本相似度算法實現(xiàn)高匹配度檢索，并運用云計算和并行運行等方法優(yōu)化響應速度，最終實現(xiàn)計算機輔助翻譯軟件最優(yōu)的用戶體驗。

1 計算機輔助翻譯

1.1 計算機輔助翻譯

計算機輔助翻譯（Computer Assisted Translation，CAT）是通過計算機軟件來實現(xiàn)的專業(yè)翻譯解決方案，它與機器翻譯（Machine Translation，MT）有著本質的區(qū)別。機器翻譯依賴于計算機的自動翻譯，而計算機輔助翻譯是在人的參與下完成整個翻譯過程。形式最簡單的計算機輔助翻譯只是一個數(shù)據(jù)庫，譯者可以紀錄以前的翻譯結果以便于將來再次使用以及進行方便有效的檢索。計算機輔助翻譯工作原理是翻譯人員利用已有的原文和譯文，建立起一個或多個翻譯記憶庫，在翻譯過程中，系統(tǒng)將自動搜索翻譯記憶庫中相同或相似的翻譯資源（如句子、段落等），給出參考譯文，使用戶避免無謂的重復勞動，只需專注于新內(nèi)容的翻譯。對于給出的參考譯文，譯者可以完全照搬，也可以修改后使用，如果覺得不滿意，還可以棄之不用。簡單來說計算機輔助翻譯就是：TM（記憶體/語料庫）+MT（機器翻譯）+HT（人工翻譯）。計算機輔助翻譯相比人工翻譯有翻譯效率高、譯文一致性好、翻譯成本低的優(yōu)勢，正不斷受到重視和發(fā)展。

計算機輔助翻譯技術的核心就是翻譯記憶技術，譯者在進行翻譯工作的同時，翻譯記憶庫在后臺不斷學習和自動儲存新的譯文，實時更新記憶體，每當相同或相近的短語出現(xiàn)時，系統(tǒng)會自動提示用戶使用記憶庫中最接近的譯法。計算機輔助翻譯軟件實現(xiàn)的關鍵技術就是譯文模糊匹配及查詢效率。

2 計算機輔助翻譯軟件設計方案

2.1 軟件總體設計

本方案創(chuàng)新性設計基于網(wǎng)絡的多用戶計算機輔助翻譯軟件，軟件可實現(xiàn)多用戶并發(fā)在線使用，完成一個翻譯項目的多人分工并發(fā)協(xié)同工作。軟件由語料庫、字典數(shù)據(jù)庫、譯文獲取模塊、模糊匹配查詢模塊、譯文插入模塊、語料庫自動更新模塊等組成。

主要工作流程為：

第一步，翻譯人員把將要翻譯的工作文檔（原文）輸入給計算機輔助翻譯軟件，軟件逐句讀取原文。

第二步，軟件自動按已讀取的整句進行模糊查詢，從語料庫返回匹配度相近的譯文，原文與譯文同時顯示于工作區(qū)域。

第三步，軟件對當前的原文進行分詞，并按分詞結果逐詞返回譯文。

第四步，翻譯人員對照語料庫返回的譯文、單詞譯文、原文進行校對。

第五步，譯文校對完成后，由軟件插入工作文檔中原文位置之后，同時對語料庫進行更新。

第六步，返回第一步。

計算機輔助翻譯軟件工作流程，如圖1所示。

圖1 計算機輔助翻譯軟件工作流程圖

計算機輔助翻譯軟件采用C/S結構，語料庫數(shù)據(jù)庫采用Postgresql，字典數(shù)據(jù)采用SQLite，客戶端采用C#進行構建。技術架構如圖2所示：

圖2 計算機輔助翻譯軟件技術架構圖

計算機輔助翻譯軟件人機操作界面主要分成翻譯輔助區(qū)與翻譯文檔區(qū)兩部分限組成，翻譯文檔區(qū)顯示被翻譯文檔（Word文檔），翻譯輔助區(qū)主要為獲取的原文語句獲取顯示、翻譯結果及其它用戶操作等交互界面。具體界面設置與效果如圖3所示：

圖3 軟件人機界面

2.2 計算機輔助翻譯軟件實現(xiàn)的關鍵技術

計算機輔助翻譯軟件實現(xiàn)的核心是對語料庫的查詢，技術關鍵是查詢速度及查詢效果，查詢速度越快、詞條模糊匹配效果越好則用戶體驗就越好。

1）查詢速度。信息系統(tǒng)的查詢速度是用戶體驗的最關鍵指標，查詢響應時間越短用戶體驗越好。據(jù)調查，數(shù)據(jù)軟件查詢費時0～2s則用戶體驗最好，費時2～8s用戶可以容忍，如查詢費時大于8s則用戶不能忍受。所以，計算機輔助翻譯軟件查詢響應時間必須控制在8s以下，最于2s則最優(yōu)。對計算機輔助翻譯軟件的使用人員而言，語料庫越大語料可重用性就越高，翻譯工作則越高效。實際應用中語料庫數(shù)據(jù)量比較大（作者當前項目的語料庫的數(shù)據(jù)量大于400萬條），且數(shù)據(jù)量隨使用不斷增長。查詢響應時間一般與數(shù)據(jù)量成反比，故當數(shù)據(jù)量超過百萬條后常用方法查詢時間超過8s，所以必須對數(shù)據(jù)庫查詢方法進行優(yōu)先和優(yōu)化才能達到查詢最優(yōu)化。

2）模糊匹配。在翻譯過程中，軟件檢索語料庫，尋找合適的譯文。除在重復性高的技術文檔翻譯中有完全匹配的情況外，絕大部分檢索都為模糊匹配。實事上模糊匹配效果也是決定計算機輔助翻譯工具是否好用的最重要指標。

最理想的模糊匹配模式就是從語料庫中尋找譯文意思相近的語句，而通用的數(shù)據(jù)庫檢索方法只能實現(xiàn)最多關鍵詞匹配。

例：理想模糊匹配模式，翻譯She like collecting stamps.語料庫中如果沒有類似于“She like collecting stamps too.”這樣的語句，就會優(yōu)先返回“She is fond of collecting stamps.”作為翻譯參考。但如果按最多關鍵詞匹配就很可能無作任何結果返回。隨便說一下，原文為中文則必需在檢索之前先要對原句進行中文分詞，原因是計算機不會自動識別句中的詞語。比如一句“結婚的和尚未結婚的”，可能分成“結婚/的/和尚/未/結婚/的”這樣檢索。

綜上所述，模糊查詢算法是軟件實現(xiàn)最核心的關鍵技術，其算法優(yōu)化將是整個軟件易用性最大的挑戰(zhàn)。

2.3 查詢技術選擇

2.3.1 基于文本相似度算法的查詢

（1）文本長度過濾。在計算機輔助翻譯過程中，考慮到查詢目標往往與查詢內(nèi)容長度相近的特點，可以首先對數(shù)據(jù)進行文本長度過濾。文本長度過濾運算代價較小，可以極速縮小被查數(shù)據(jù)庫庫表的規(guī)模，可為下一步文本相比節(jié)省時間。

其中，source_text查詢內(nèi)容，p_source_text為查詢目標。目標文本長度設置為查詢文本長度不多于且不少于5個字符。

（2）文本相似度算法?；谠~語（單詞）重合的重疊相似度算法將短文本內(nèi)容看成是獨立關鍵詞的集合，通過兩個短文本的共現(xiàn)詞的個數(shù)來判斷兩個短文本的相似性。

若兩個短文本中共現(xiàn)詞的個數(shù)越多，則兩個短文本就越相似；反之，兩個短文本的相似度就越低；同時，為保證兩個短文本的相對相似度一致，采用相似度計算公式1：

基中samewords(S1,S2)表示S1與S2中都出現(xiàn)的關鍵詞個數(shù)；Len(S1)表示中的關鍵詞個數(shù)，Len(S2)表示S2中的關鍵詞個數(shù)。經(jīng)本軟件測試用戶調查統(tǒng)計得知，S1與S2的比調整為85%用戶體驗滿意度最高。

2.3.2 快速查詢技術優(yōu)化

為提升翻譯人員的使用體驗，減小翻譯實時翻譯時間。在查詢算法上的優(yōu)化同時還考慮其它方法進行查詢時間的縮短。

1）云計算。一般來講，用于計算機翻譯的辦公計算機在性能方面有著較大的差異，進而導致計算機輔助翻譯軟件呼應時間不同帶給用戶不同的用戶體驗。為減小由于用戶計算機不同帶來的差異，在軟件設計時把大部分計算工作放在服務器上完成，用戶端只完成數(shù)據(jù)信息的傳遞與顯示。這種“云計算”的設計架構在最大程度提高計算機輔助翻譯軟件性能的同時也讓每一位用戶享有比較接近的用戶體驗。

2）并行運算查詢。并行運算的設計也是為提升性能的考慮。由于數(shù)據(jù)庫表大的原因上經(jīng)過上述優(yōu)化后查詢速度依然不理想，所以需要把數(shù)據(jù)庫拆分成若干個小數(shù)據(jù)庫進行并行查詢而后對查詢結果進行合并，從而最大程度縮短查詢時間。并行運算時間成本原理如圖4所示：

圖中并行運算時間成本公式2。

圖4 并行運算時間成本示意圖

其中t為整個計算過程時間，tS0為并行計算任務拆分花費時間，ti為單項個并行任務計算時間，ts1為計算結果合并時間。tS0、tS1隨任務拆分數(shù)量n增加而增加，所以并不是并行數(shù)量越大越好。對同一檢索條件下不同并行數(shù)的測試，本方案最終選擇n=10為最優(yōu)并行查詢數(shù)，實驗結果比對見表1。

表1 同一檢索條件下并行查詢的耗時比較

3 結束語

本文設計并實現(xiàn)了多用戶網(wǎng)絡計算機輔助翻譯軟件，采用網(wǎng)絡語料庫結合本地字典數(shù)據(jù)庫的方法實現(xiàn)了多人在線并行翻譯工作。實驗結果表明，綜合運用了文本長度過濾、相似度匹配、并行運算等方法使翻譯語句查詢響應時間控制在用戶可接受范圍內(nèi)，同時翻譯的查準率較為理想。在實際應用中，本軟件設計功能、性能滿足多人同時在線翻譯的并行工作。下一步，將對語料庫進行進一步優(yōu)化，并持續(xù)改進查詢算法，使系統(tǒng)查詢響應時間進一步縮短。