亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文本相似性匹配的計算機輔助翻譯軟件研究

        2020-07-14 01:52:14
        甘肅科技 2020年1期
        關鍵詞:數(shù)據(jù)量語料庫短文

        何 斌

        (解放軍91404部隊,河北 秦皇島 066001)

        查準率與響應速度是計算機輔助翻譯軟件最重要的兩項指標。查準率的實際反應是檢索反饋的原文與用戶檢索的原文之間的匹配程度,也就是檢索反饋結果能把語料庫中所有具有翻譯參考價值的譯文按相似度排序呈現(xiàn)給用戶。與傳統(tǒng)的數(shù)據(jù)庫模糊查詢不同,檢索內(nèi)容不是確定的檢索關鍵字,實際上被檢索目標與檢索內(nèi)容只存在文本上相似或近似。所以,諸如Like語句實現(xiàn)的模糊查詢在計算機輔助軟件的檢索中并不適用。另外,與其它的檢索系統(tǒng)一樣響應速度是計算機輔助翻譯軟件最主要的性能指標,通常情況翻譯語料庫數(shù)據(jù)量較大,故查詢速度的優(yōu)化對計算機輔助軟件的尤為重要。

        針對上述問題,采用文本相似度算法實現(xiàn)高匹配度檢索,并運用云計算和并行運行等方法優(yōu)化響應速度,最終實現(xiàn)計算機輔助翻譯軟件最優(yōu)的用戶體驗。

        1 計算機輔助翻譯

        1.1 計算機輔助翻譯

        計算機輔助翻譯 (Computer Assisted Translation,CAT)是通過計算機軟件來實現(xiàn)的專業(yè)翻譯解決方案,它與機器翻譯(Machine Translation,MT)有著本質的區(qū)別。機器翻譯依賴于計算機的自動翻譯,而計算機輔助翻譯是在人的參與下完成整個翻譯過程。形式最簡單的計算機輔助翻譯只是一個數(shù)據(jù)庫,譯者可以紀錄以前的翻譯結果以便于將來再次使用以及進行方便有效的檢索。計算機輔助翻譯工作原理是翻譯人員利用已有的原文和譯文,建立起一個或多個翻譯記憶庫,在翻譯過程中,系統(tǒng)將自動搜索翻譯記憶庫中相同或相似的翻譯資源(如句子、段落等),給出參考譯文,使用戶避免無謂的重復勞動,只需專注于新內(nèi)容的翻譯。對于給出的參考譯文,譯者可以完全照搬,也可以修改后使用,如果覺得不滿意,還可以棄之不用。簡單來說計算機輔助翻譯就是:TM(記憶體/語料庫)+MT(機器翻譯)+HT(人工翻譯)。計算機輔助翻譯相比人工翻譯有翻譯效率高、譯文一致性好、翻譯成本低的優(yōu)勢,正不斷受到重視和發(fā)展。

        計算機輔助翻譯技術的核心就是翻譯記憶技術,譯者在進行翻譯工作的同時,翻譯記憶庫在后臺不斷學習和自動儲存新的譯文,實時更新記憶體,每當相同或相近的短語出現(xiàn)時,系統(tǒng)會自動提示用戶使用記憶庫中最接近的譯法。計算機輔助翻譯軟件實現(xiàn)的關鍵技術就是譯文模糊匹配及查詢效率。

        2 計算機輔助翻譯軟件設計方案

        2.1 軟件總體設計

        本方案創(chuàng)新性設計基于網(wǎng)絡的多用戶計算機輔助翻譯軟件,軟件可實現(xiàn)多用戶并發(fā)在線使用,完成一個翻譯項目的多人分工并發(fā)協(xié)同工作。軟件由語料庫、字典數(shù)據(jù)庫、譯文獲取模塊、模糊匹配查詢模塊、譯文插入模塊、語料庫自動更新模塊等組成。

        主要工作流程為:

        第一步,翻譯人員把將要翻譯的工作文檔(原文)輸入給計算機輔助翻譯軟件,軟件逐句讀取原文。

        第二步,軟件自動按已讀取的整句進行模糊查詢,從語料庫返回匹配度相近的譯文,原文與譯文同時顯示于工作區(qū)域。

        第三步,軟件對當前的原文進行分詞,并按分詞結果逐詞返回譯文。

        第四步,翻譯人員對照語料庫返回的譯文、單詞譯文、原文進行校對。

        第五步,譯文校對完成后,由軟件插入工作文檔中原文位置之后,同時對語料庫進行更新。

        第六步,返回第一步。

        計算機輔助翻譯軟件工作流程,如圖1所示。

        圖1 計算機輔助翻譯軟件工作流程圖

        計算機輔助翻譯軟件采用C/S結構,語料庫數(shù)據(jù)庫采用Postgresql,字典數(shù)據(jù)采用SQLite,客戶端采用C#進行構建。技術架構如圖2所示:

        圖2 計算機輔助翻譯軟件技術架構圖

        計算機輔助翻譯軟件人機操作界面主要分成翻譯輔助區(qū)與翻譯文檔區(qū)兩部分限組成,翻譯文檔區(qū)顯示被翻譯文檔(Word文檔),翻譯輔助區(qū)主要為獲取的原文語句獲取顯示、翻譯結果及其它用戶操作等交互界面。具體界面設置與效果如圖3所示:

        圖3 軟件人機界面

        2.2 計算機輔助翻譯軟件實現(xiàn)的關鍵技術

        計算機輔助翻譯軟件實現(xiàn)的核心是對語料庫的查詢,技術關鍵是查詢速度及查詢效果,查詢速度越快、詞條模糊匹配效果越好則用戶體驗就越好。

        1)查詢速度。信息系統(tǒng)的查詢速度是用戶體驗的最關鍵指標,查詢響應時間越短用戶體驗越好。據(jù)調查,數(shù)據(jù)軟件查詢費時0~2s則用戶體驗最好,費時2~8s用戶可以容忍,如查詢費時大于8s則用戶不能忍受。所以,計算機輔助翻譯軟件查詢響應時間必須控制在8s以下,最于2s則最優(yōu)。對計算機輔助翻譯軟件的使用人員而言,語料庫越大語料可重用性就越高,翻譯工作則越高效。實際應用中語料庫數(shù)據(jù)量比較大(作者當前項目的語料庫的數(shù)據(jù)量大于400萬條),且數(shù)據(jù)量隨使用不斷增長。查詢響應時間一般與數(shù)據(jù)量成反比,故當數(shù)據(jù)量超過百萬條后常用方法查詢時間超過8s,所以必須對數(shù)據(jù)庫查詢方法進行優(yōu)先和優(yōu)化才能達到查詢最優(yōu)化。

        2)模糊匹配。在翻譯過程中,軟件檢索語料庫,尋找合適的譯文。除在重復性高的技術文檔翻譯中有完全匹配的情況外,絕大部分檢索都為模糊匹配。實事上模糊匹配效果也是決定計算機輔助翻譯工具是否好用的最重要指標。

        最理想的模糊匹配模式就是從語料庫中尋找譯文意思相近的語句,而通用的數(shù)據(jù)庫檢索方法只能實現(xiàn)最多關鍵詞匹配。

        例:理想模糊匹配模式,翻譯She like collecting stamps.語料庫中如果沒有類似于“She like collecting stamps too.”這樣的語句,就會優(yōu)先返回“She is fond of collecting stamps.”作為翻譯參考。但如果按最多關鍵詞匹配就很可能無作任何結果返回。隨便說一下,原文為中文則必需在檢索之前先要對原句進行中文分詞,原因是計算機不會自動識別句中的詞語。比如一句“結婚的和尚未結婚的”,可能分成“結婚/的/和尚/未/結婚/的”這樣檢索。

        綜上所述,模糊查詢算法是軟件實現(xiàn)最核心的關鍵技術,其算法優(yōu)化將是整個軟件易用性最大的挑戰(zhàn)。

        2.3 查詢技術選擇

        2.3.1 基于文本相似度算法的查詢

        (1)文本長度過濾。在計算機輔助翻譯過程中,考慮到查詢目標往往與查詢內(nèi)容長度相近的特點,可以首先對數(shù)據(jù)進行文本長度過濾。文本長度過濾運算代價較小,可以極速縮小被查數(shù)據(jù)庫庫表的規(guī)模,可為下一步文本相比節(jié)省時間。

        其中,source_text查詢內(nèi)容,p_source_text為查詢目標。目標文本長度設置為查詢文本長度不多于且不少于5個字符。

        (2)文本相似度算法?;谠~語(單詞)重合的重疊相似度算法將短文本內(nèi)容看成是獨立關鍵詞的集合,通過兩個短文本的共現(xiàn)詞的個數(shù)來判斷兩個短文本的相似性。

        若兩個短文本中共現(xiàn)詞的個數(shù)越多,則兩個短文本就越相似;反之,兩個短文本的相似度就越低;同時,為保證兩個短文本的相對相似度一致,采用相似度計算公式1:

        基中samewords(S1,S2)表示S1與S2中都出現(xiàn)的關鍵詞個數(shù);Len(S1)表示中的關鍵詞個數(shù),Len(S2)表示S2中的關鍵詞個數(shù)。經(jīng)本軟件測試用戶調查統(tǒng)計得知,S1與S2的比調整為85%用戶體驗滿意度最高。

        2.3.2 快速查詢技術優(yōu)化

        為提升翻譯人員的使用體驗,減小翻譯實時翻譯時間。在查詢算法上的優(yōu)化同時還考慮其它方法進行查詢時間的縮短。

        1)云計算。一般來講,用于計算機翻譯的辦公計算機在性能方面有著較大的差異,進而導致計算機輔助翻譯軟件呼應時間不同帶給用戶不同的用戶體驗。為減小由于用戶計算機不同帶來的差異,在軟件設計時把大部分計算工作放在服務器上完成,用戶端只完成數(shù)據(jù)信息的傳遞與顯示。這種“云計算”的設計架構在最大程度提高計算機輔助翻譯軟件性能的同時也讓每一位用戶享有比較接近的用戶體驗。

        2)并行運算查詢。并行運算的設計也是為提升性能的考慮。由于數(shù)據(jù)庫表大的原因上經(jīng)過上述優(yōu)化后查詢速度依然不理想,所以需要把數(shù)據(jù)庫拆分成若干個小數(shù)據(jù)庫進行并行查詢而后對查詢結果進行合并,從而最大程度縮短查詢時間。并行運算時間成本原理如圖4所示:

        圖中并行運算時間成本公式2。

        圖4 并行運算時間成本示意圖

        其中t為整個計算過程時間,tS0為并行計算任務拆分花費時間,ti為單項個并行任務計算時間,ts1為計算結果合并時間。tS0、tS1隨任務拆分數(shù)量n增加而增加,所以并不是并行數(shù)量越大越好。對同一檢索條件下不同并行數(shù)的測試,本方案最終選擇n=10為最優(yōu)并行查詢數(shù),實驗結果比對見表1。

        表1 同一檢索條件下并行查詢的耗時比較

        3 結束語

        本文設計并實現(xiàn)了多用戶網(wǎng)絡計算機輔助翻譯軟件,采用網(wǎng)絡語料庫結合本地字典數(shù)據(jù)庫的方法實現(xiàn)了多人在線并行翻譯工作。實驗結果表明,綜合運用了文本長度過濾、相似度匹配、并行運算等方法使翻譯語句查詢響應時間控制在用戶可接受范圍內(nèi),同時翻譯的查準率較為理想。在實際應用中,本軟件設計功能、性能滿足多人同時在線翻譯的并行工作。下一步,將對語料庫進行進一步優(yōu)化,并持續(xù)改進查詢算法,使系統(tǒng)查詢響應時間進一步縮短。

        猜你喜歡
        數(shù)據(jù)量語料庫短文
        基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
        計算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
        高刷新率不容易顯示器需求與接口標準帶寬
        《語料庫翻譯文體學》評介
        寬帶信號采集與大數(shù)據(jù)量傳輸系統(tǒng)設計與研究
        電子制作(2019年13期)2020-01-14 03:15:18
        KEYS
        Keys
        把課文的優(yōu)美表達存進語料庫
        基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
        語言與翻譯(2015年4期)2015-07-18 11:07:45
        短文改錯
        欧产日产国产精品精品| 91精品久久久中文字幕| 亚洲av色香蕉一区二区三区| 无码日韩精品一区二区三区免费| 香蕉色香蕉在线视频| 亚洲精品一区二区三区播放| 亚洲中文字幕第15页| 丰满少妇被粗大猛烈进人高清| 国产chinese男男gay视频网| 国产精品av在线一区二区三区| 精品一区二区三区老熟女少妇| 日本道色综合久久影院| 国产午夜精品理论片| 国产激情久久99久久| 国产美女冒白浆视频免费| 老熟女的中文字幕欲望| 一个人看的视频www免费| 亚洲VA中文字幕无码毛片春药| 国产三级精品三级在线| 激情综合婷婷色五月蜜桃| 亚洲国产精品福利片在线观看| 91情侣视频| 熟女高潮av一区二区| 亚洲av日韩精品久久久久久a| 性一交一乱一伦a片| 92精品国产自产在线观看48页| 人妻少妇偷人精品一区二区三区| 亚洲av无码乱码国产一区二区| 藏春阁福利视频| 国产av大片在线观看| 在教室轮流澡到高潮h免费视 | 亚洲精品www久久久| 欧美高清国产在线播放| 玩弄丝袜美腿超短裙校花| 国产欧美在线观看不卡| 成人看片黄a免费看那个网址| 国产欧美亚洲另类第一页| 日韩中文字幕不卡在线| s级爆乳玩具酱国产vip皮裤| 国产一区二区激情对白在线| 日韩亚洲精选一区二区三区|