李金珠
摘要:隨著科技的發(fā)展,統(tǒng)計方法在機器翻譯中得到廣泛應(yīng)用。如今機器翻譯的質(zhì)量越來越高,越來越多的人群依賴機器翻譯系統(tǒng),然而由于翻譯機器在解碼時存在短語匹配過于精確的問題,導(dǎo)致難以充分利用翻譯短語表中的短語進行翻譯,因此為了進一步提高翻譯質(zhì)量,本文加強了對人機互助的交互式口語翻譯方法的研究。本文主要分析了當(dāng)前機器翻譯存在的問題,并針對交互式口語翻譯方法和發(fā)展方向進行了研究和探討。
關(guān)鍵詞:機器翻譯;交互式口語翻譯方法;模糊匹配
如今基于短語統(tǒng)計機器翻譯方法的翻譯質(zhì)量較高,應(yīng)用也比較廣泛。該種翻譯方法主要是采用短語精確匹配的方法,然而雖然對書面語的翻譯比較精確,但由于口語的非規(guī)范性,導(dǎo)致口語的翻譯質(zhì)量并不高。對于口語翻譯質(zhì)量問題,本文提出了人機互助的交互式口語翻譯方法,即通過短語模糊匹配的方法,提高翻譯質(zhì)量。
一、當(dāng)前機器翻譯存在的問題
當(dāng)前我國機器翻譯主要采用短語的統(tǒng)計方法,該種方法主要是指將任意連續(xù)的字符串當(dāng)做短語,然后通過精確匹配短語進行翻譯。短語統(tǒng)計機器翻譯方法雖然能夠通過分辨短語詞序信息提高翻譯質(zhì)量,但其采用的短語精確匹配的策略,使只有完全符合翻譯短語詞序的短語在翻譯過程中得到應(yīng)用,導(dǎo)致翻譯數(shù)據(jù)嚴重不足。在口語翻譯中,由于口語的隨意性,口語存在重復(fù)、次序顛倒、省略等問題,此時如果依然采用短語精確匹配的策略,則會導(dǎo)致翻譯質(zhì)量明顯下降。
針對當(dāng)前機器翻譯存在的問題,主要有兩種方法進行改善,但其中增大短語表規(guī)模的方法會致使解碼系統(tǒng)負荷過大,因此不予采納。另一種方法則是通過加強對短語知識的研究,如短語表中存在大量不完全匹配但語義相同的短語,在翻譯過程中應(yīng)當(dāng)充分利用這些短語,以提高翻譯質(zhì)量。不過由于機器難以對短語的語義相似性進行判別,因此需要人為判別,即人機互助交互式口語翻譯的質(zhì)量能夠得到明顯提升。
二、交互式口語翻譯方法
人機互助的交互式口語翻譯在國內(nèi)外已經(jīng)得到大量的研究,其主要是通過翻譯的預(yù)處理,確保翻譯系統(tǒng)能夠?qū)φ_地對輸入的內(nèi)容進行翻譯。其大概流程如下:將源語言句子輸入翻譯系統(tǒng)后,翻譯系統(tǒng)會將源語言句子中的所有短語進行切分,然后比對短語序列,如果短語全部在短語表中,則直接翻譯,輸出翻譯結(jié)果。如果短語沒有全部在短語表中,則采用短語模糊匹配,對句子進行擴展并進行翻譯。隨后利用組合分類器選擇翻譯質(zhì)量得到提升的翻譯結(jié)果,最后由人為判斷選擇最終的翻譯結(jié)果,并輸出。下文主要針對交互式口語翻譯方法進行了研究,旨在利用人的知識改善翻譯機器存在的短語辨別問題,保障口語翻譯質(zhì)量。
(一)短語模糊匹配方法
交互式口語翻譯短語模糊匹配方法主要有兩種,一種是計算兩個相似短語之間的相似度,另一種則是判斷語義的相似度。但該兩種方法的翻譯準(zhǔn)確率和翻譯速度均難以滿足人們需求,因此為了提高計算速度,應(yīng)當(dāng)利用Dice系數(shù)和編輯距離,通過對無關(guān)短語的過濾,得到滿足條件的短語集合,從而提高翻譯質(zhì)量和翻譯效率。
(二)組合分類器設(shè)計方法
如果將所有相似的短語均由人工判斷,則難以發(fā)揮機器翻譯的優(yōu)勢,因此在人工交互翻譯之前,翻譯機器需要對得出的句子進行篩選,將翻譯質(zhì)量提高的句子提供給翻譯者進行判斷。比如,以SVM分類器作為基本分類器,對機器翻譯的句子進行辨別,將句子分為翻譯質(zhì)量提升和翻譯質(zhì)量沒有提升兩種。組合分類器在進行語料的測試時,主要是以原始翻譯結(jié)果作為參考。
(三)交互式翻譯方法
組合分類器選擇出翻譯質(zhì)量提高的句子后,由人工進行選擇和判斷。由于短語模糊匹配難以充分保障短語語義的一致性,因此需要采用人機互助的方法選擇出翻譯質(zhì)量最好的句子,完成翻譯任務(wù)。人機交互翻譯需要通過對話管理完成,人工選擇人機交互翻譯方式下最優(yōu)的翻譯結(jié)果。在人機交互翻譯過程中,需要充分考慮翻譯者的負擔(dān),即翻譯機器需要提高交互效率,避免翻譯者出現(xiàn)不耐煩、厭煩等情緒,不利于翻譯質(zhì)量的提升。
三、交互式口語翻譯的發(fā)展方向
目前人機互助的交互式口語翻譯中還存在一些問題有待解決,如口語翻譯中關(guān)鍵信息丟失問題,機器翻譯評測中自動評價方法問題,口語語序問題等。人機互助的交互式口語翻譯仍然是以機器翻譯為主,因此在對翻譯機器進行開發(fā)時,要從用戶的角度出發(fā),使機器翻譯過程更加具有人性化特征,滿足翻譯者的需要。另外,翻譯機器應(yīng)當(dāng)以互聯(lián)網(wǎng)大數(shù)據(jù)作為基礎(chǔ),獲取大規(guī)模的口語資源,通過資源共享的方式推動機器翻譯的發(fā)展。將人工翻譯和機器翻譯有效的結(jié)合,通過人工翻譯提高機器翻譯質(zhì)量仍然是目前國內(nèi)外的主要研究方向,同時人工翻譯還能夠為機器翻譯評測提供參考依據(jù),從而提高機器翻譯質(zhì)量。
四、結(jié)束語
綜上所述,隨著我國加強對機器翻譯的研究,如今機器翻譯質(zhì)量越來越高,但機器口語翻譯還存在一定的問題,主要是由于口語翻譯存在語序問題、重復(fù)問題等。而人機互助的交互式口語翻譯能夠有效通過短語模糊匹配、組合分類器排除和人工選擇等方式,選擇最優(yōu)質(zhì)的翻譯句子,進而保證翻譯質(zhì)量。
參考文獻:
[1]杜金華,張萌,宗成慶,等.中國機器翻譯研究的機遇與挑戰(zhàn)——第八屆全國機器翻譯研討會總結(jié)與展望[J].中文信息學(xué)報,2013,04:1-8.
[2]司莉,莊曉喆,賈歡.近10年來國外多語言信息組織與檢索研究進展與啟示[J].中國圖書館學(xué)報,2015,04:112-126.
[3]吳丹.交互式跨語言信息檢索中用戶行為研究[J].中國圖書館學(xué)報,2012,03:78-90.