謝宛玲
(西安醫(yī)學(xué)院,國際合作與交流辦公室, 陜西,西安 710021)
翻譯記憶是一種基于數(shù)據(jù)記憶庫強(qiáng)大功能,調(diào)用已翻譯的語料庫,對(duì)具有復(fù)雜性的語言進(jìn)行翻譯的機(jī)器翻譯手段。翻譯記憶系統(tǒng)是基于翻譯記憶技術(shù)而開發(fā)的翻譯系統(tǒng)。在進(jìn)行翻譯的過程中,將人工翻譯的資料儲(chǔ)存于數(shù)據(jù)記憶庫中,然后在下一次翻譯時(shí)進(jìn)行調(diào)用。對(duì)比翻譯對(duì)象與數(shù)據(jù)記憶庫中的資料,通過匹配度完成對(duì)象的替換、給出翻譯建議或進(jìn)行人工翻譯等流程,最終完成譯文[1-5]。由于專業(yè)領(lǐng)域資料的重復(fù)率較高,各個(gè)行業(yè)的重復(fù)率低則為20%,高則達(dá)70%,所以譯者會(huì)進(jìn)行大量無效的重復(fù)工作。如果利用翻譯記憶技術(shù)進(jìn)行翻譯,則可以通過對(duì)數(shù)據(jù)記憶庫資料的調(diào)用,免除這部分無效的工作,提高工作效率。因此,基于目前的翻譯產(chǎn)品市場現(xiàn)狀,翻譯記憶技術(shù)是為數(shù)不多的可用于專業(yè)翻譯的機(jī)器翻譯技術(shù)[6-8]。
與國外翻譯市場相比,國內(nèi)的專業(yè)翻譯市場中翻譯記憶技術(shù)還不夠普遍。因此,推廣翻譯記憶技術(shù)和開發(fā)相關(guān)翻譯系統(tǒng)和平臺(tái),是極具有發(fā)展前景的研究方向。筆者開發(fā)一種基于句法和語義的英漢翻譯記憶系統(tǒng),對(duì)該系統(tǒng)的整體架構(gòu)、語義計(jì)算及句子結(jié)構(gòu)算法以及數(shù)據(jù)記憶庫的設(shè)計(jì)進(jìn)行介紹。
圖1是本文所涉及的基于句法和語義的英漢翻譯記憶系統(tǒng)的整體流程。在利用翻譯記憶技術(shù)進(jìn)行翻譯前,首先在輸入窗口將待翻譯的原文輸入,然后對(duì)所輸入的內(nèi)容進(jìn)行檢索,同時(shí)與記憶庫中的資料進(jìn)行對(duì)比。依照相似度計(jì)算的方法對(duì)所輸入的內(nèi)容與記憶庫中的內(nèi)容進(jìn)行相似度計(jì)算,相似度為[0,1]之間。相似度為0,說明二者完全不匹配,這時(shí)進(jìn)行人工翻譯,并產(chǎn)生譯文,同時(shí)將人工翻譯的結(jié)果儲(chǔ)存到記憶庫中,以供下次翻譯時(shí)進(jìn)行調(diào)?。幌嗨贫葹?,則說明所輸入的內(nèi)容與記憶庫中的內(nèi)容完全匹配,則機(jī)器直接進(jìn)行翻譯并生成譯文;相似度處于0~1,則根據(jù)最相似的例句給出相應(yīng)的譯文,然后再通過人工復(fù)檢對(duì)譯文進(jìn)行復(fù)用或修改,最后得到滿意的翻譯結(jié)果,并將相應(yīng)的結(jié)果儲(chǔ)存到數(shù)據(jù)記憶庫中。
圖1 翻譯記憶系統(tǒng)的整體流程
本文所設(shè)計(jì)的翻譯記憶系統(tǒng)的語義相似度計(jì)算是基于WordNet詞典進(jìn)行計(jì)算的。WordNet詞匯矩陣模型如表1所示。表1中行代表單詞的詞義(meaning),列代表單詞的詞形(form)。矩陣中的表項(xiàng)則說明該單詞具有某種詞義,例如:T11則說明F1可以表達(dá)M1的詞義;存在T11、T12和T15,則說明單詞F1、F2和F5均可以表達(dá)M1的詞義,即F1、F2和F5為同義詞;而同時(shí)存在T12和T32則說明單詞F2可以同時(shí)表達(dá)M1和M3的詞義,即F2為多義詞。
表1 WordNet詞匯矩陣模型
在進(jìn)行語義相似度計(jì)算時(shí),利用WordNet中的Similarity1.04軟件包中的stoplist對(duì)句子中虛詞、冠詞、介詞和代詞進(jìn)行去除。利用stoplist對(duì)句子進(jìn)行逐詞掃描,當(dāng)遇到stopword時(shí),便將其刪除。由于所刪除的詞語一般不會(huì)在句子中指代具體的詞義,因此不會(huì)對(duì)句義造成影響,因此不計(jì)入相似度的計(jì)算中,語義計(jì)算的相應(yīng)代碼,如圖2所示。
本系統(tǒng)的句子結(jié)構(gòu)比較是通過對(duì)句法分析來進(jìn)行的。通過規(guī)則對(duì)自然語言進(jìn)行分析,確定每1個(gè)單詞或短語的作用以及彼此之間的關(guān)系,然后利用句法分析樹進(jìn)行表達(dá)。例如“TIFF IFD array has wrong size”的句法分析樹如圖3所示。首先將句子拆分為名詞短語和動(dòng)詞短語;然后再逐級(jí)進(jìn)行拆分,直到確定每1個(gè)單詞的作用和與其他單詞之間的關(guān)系。在進(jìn)行相似度計(jì)算時(shí),如果2個(gè)句子的句法分析樹完全一致,則說明2個(gè)句子的結(jié)構(gòu)相同。本系統(tǒng)所采用的分析方法為淺層分析法,僅對(duì)名詞短語、動(dòng)詞短語等非遞歸性短語進(jìn)行分析。這種分析方法的效率較高,且結(jié)果也較為準(zhǔn)確。句子結(jié)構(gòu)分析的代碼如圖4所示。本系統(tǒng)利用Apple Pie Parser方法對(duì)句法結(jié)構(gòu)進(jìn)行分析后,過濾掉句子中的單詞,然后以字符串的形式對(duì)句子的結(jié)構(gòu)進(jìn)行表示和比較。如果2個(gè)句子的字符串結(jié)構(gòu)相同,則說明這2個(gè)句子的結(jié)構(gòu)是相同的。
圖3 翻譯記憶系統(tǒng)的句法分析樹
本系統(tǒng)的記憶庫含有詞匯級(jí)別、句子級(jí)別和更深層次級(jí)別3個(gè)級(jí)別。其中:詞匯級(jí)別進(jìn)行譯文生成較為簡便,但后期的譯文加工較為繁瑣;句子級(jí)別的譯文加工過程簡潔明了,但譯文生成較為繁瑣;更深層次級(jí)別生成譯文時(shí)信息量大,后期加工繁瑣。由此可見,通常進(jìn)行記憶庫設(shè)計(jì)時(shí)既要考慮前期加工過程,又要考慮后期加工過程,而且要同時(shí)兼顧檢索和系統(tǒng)管理2個(gè)過程。本系統(tǒng)所設(shè)計(jì)的記憶庫結(jié)構(gòu)如表2所示。
表2 翻譯記憶系統(tǒng)的記憶庫結(jié)構(gòu)
本系統(tǒng)進(jìn)行翻譯時(shí)是基于句子進(jìn)行翻譯的,對(duì)句子的句法結(jié)構(gòu)進(jìn)行分析后,將待翻譯的句子與數(shù)據(jù)記憶庫中的資料進(jìn)行相似度計(jì)算,得到[0,1]之間的結(jié)果,然后分0、1和(0,1)進(jìn)行處理。若為0,則直接進(jìn)行人工翻譯;若為1,則直接進(jìn)行機(jī)器翻譯;若為(0,1)則根據(jù)圖5的過程進(jìn)行翻譯。利用將“TIFF IFD array entry has wrong size”與“TIFF IFD array entry has invalid value”進(jìn)行句子結(jié)構(gòu)的相似度計(jì)算,然后根據(jù)機(jī)器翻譯結(jié)果給出譯文;隨后人工對(duì)譯文進(jìn)行復(fù)檢,翻譯正確的部分進(jìn)行復(fù)用,翻譯不正確的部分進(jìn)行修改,然后得到最終的譯文,并將其儲(chǔ)存在數(shù)據(jù)記憶庫中。
圖5 翻譯記憶系統(tǒng)的翻譯過程
本文設(shè)計(jì)了一種基于句法he語義的英漢翻譯記憶系統(tǒng),并對(duì)其翻譯流程和關(guān)鍵技術(shù)進(jìn)行了介紹。本文所設(shè)計(jì)的系統(tǒng)是基于數(shù)據(jù)記憶庫,對(duì)待翻譯句子的句法結(jié)構(gòu)進(jìn)行分析,并進(jìn)行相似度計(jì)算,根據(jù)不同的計(jì)算結(jié)果采取不同的處理方式。若與數(shù)據(jù)記憶庫中的句子完全匹配,則直接進(jìn)行機(jī)器翻譯給出譯文;若完全不匹配,則通過人工翻譯將結(jié)果儲(chǔ)存于數(shù)據(jù)庫中;若部分匹配,則先進(jìn)行機(jī)器翻譯,再進(jìn)行人工復(fù)檢,得到最終譯文,并儲(chǔ)存于數(shù)據(jù)記憶庫中。這種基于數(shù)據(jù)記憶庫的翻譯方法,可以避免人工翻譯的重復(fù)工作,提高翻譯工作的效率,應(yīng)用前景廣泛。