文 / 祖麗瑚瑪爾 · 吐?tīng)柛?/p>
在最近的幾年里,系統(tǒng)融合技術(shù)受到了國(guó)內(nèi)外學(xué)者的熱捧,機(jī)器翻譯領(lǐng)域被國(guó)內(nèi)外的很多學(xué)者運(yùn)用到系統(tǒng)融合中,例如根據(jù)混亂的網(wǎng)絡(luò)解碼將一些詞匯進(jìn)行整合的方式。在進(jìn)行詞匯級(jí)別系統(tǒng)融合的過(guò)程中,其翻譯舉例詞起到了非常重要的作用,翻譯舉例詞對(duì)齊會(huì)對(duì)系統(tǒng)的整合性造成影響,其中典型的方式如下:
在翻譯的舉例詞對(duì)齊被編輯距離作為根據(jù)、根據(jù)在語(yǔ)料庫(kù)中的翻譯舉例詞進(jìn)行對(duì)照、根據(jù)Meteor的翻譯舉例詞對(duì)照和根據(jù)語(yǔ)言學(xué)文化的舉例假設(shè)詞,即使將以上的這些例子運(yùn)用到漢語(yǔ)翻譯假設(shè)詞對(duì)照時(shí),還是不能準(zhǔn)確定位到漢語(yǔ)翻譯假設(shè)相近意思進(jìn)行替換的詞或短語(yǔ)。
解釋其意義是傳遞一樣的信息的一種方式,在學(xué)者們通過(guò)文本產(chǎn)生和文本書(shū)籍的查閱后,得出結(jié)果:它可以產(chǎn)生更加順暢和豐富的文本,而且在此過(guò)程中不僅可以使機(jī)器翻譯的質(zhì)量更好,還可以在輸入文檔中詢查到相同的信息,使此過(guò)程更加便捷。
針對(duì)群體的不同,句子等級(jí)、短語(yǔ)等級(jí)和詞匯等級(jí)三個(gè)方面,在系統(tǒng)融合中如今被作為考察對(duì)象。將各系統(tǒng)的翻譯假設(shè),被認(rèn)為是平行語(yǔ)料。它是根據(jù)語(yǔ)料庫(kù)的翻譯假設(shè)詞整合方法,因?yàn)槭褂秒p語(yǔ)對(duì)齊模型翻譯假設(shè)的雙向詞對(duì)齊,在語(yǔ)料不足時(shí)經(jīng)常導(dǎo)致數(shù)據(jù)缺乏,而且只支持表面形式,是因?yàn)榇藢?duì)齊方法只借著語(yǔ)料庫(kù)的范圍。
另外,人力采集、使用現(xiàn)有的詞匯資源提取、根據(jù)語(yǔ)料庫(kù)的釋義提取,這3種屬于釋義提取方法。
通過(guò)雙語(yǔ)語(yǔ)料庫(kù)轉(zhuǎn)換成釋義,使用有效的雙語(yǔ)語(yǔ)料資源和雙語(yǔ)短語(yǔ)表,被稱為釋義提取方法。
根據(jù)Meteor翻譯假設(shè)詞對(duì)齊,是由于翻譯假設(shè)詞對(duì)齊方式,在如今詞匯等級(jí)系統(tǒng)融合備受歡迎,它把釋義匹配模塊添加在表面形式匹配、詞干、同義詞匹配基礎(chǔ)上,由于語(yǔ)言的釋義匹配不完整,所以在進(jìn)行維漢機(jī)器翻譯系統(tǒng)融合探索時(shí),不能使用漢語(yǔ)釋義信息,需要額外增加漢語(yǔ)釋義內(nèi)容,然后將它運(yùn)用到維漢機(jī)器翻譯的系統(tǒng)融合中。
創(chuàng)新是發(fā)展的動(dòng)力,一項(xiàng)新技術(shù)只有通過(guò)不斷創(chuàng)新才能提高它的社會(huì)價(jià)值,穩(wěn)定它在新科技領(lǐng)域的地位。本文通過(guò)修正假設(shè)詞對(duì)齊結(jié)果以及提取的方式發(fā)現(xiàn)研究維漢機(jī)器翻譯,證明了構(gòu)建和解碼混淆網(wǎng)絡(luò)才是獲得融合結(jié)果的方法。
系統(tǒng)融合需要重視單語(yǔ)詞的對(duì)齊情況,因直接影響著翻譯選取的好壞,漢語(yǔ)翻譯假設(shè)進(jìn)行單語(yǔ)詞對(duì)齊時(shí)的弊端也是存在的,一是現(xiàn)有工具只是“表面形式者”,出現(xiàn)兩個(gè)翻譯假設(shè)的詞相同,會(huì)認(rèn)為兩個(gè)詞匹配,打破原有信息數(shù)據(jù)的穩(wěn)定性,丟失信息等嚴(yán)重現(xiàn)象,那么釋義信息的引入就解決了這個(gè)問(wèn)題,讓對(duì)齊工具發(fā)揮最大限度的短語(yǔ)匹配能力。例如出現(xiàn)容易混淆的詞語(yǔ)時(shí),釋義匹配器便會(huì)快速匹配與之相對(duì)應(yīng)的短語(yǔ)。但是釋義匹配器也是存在局限性的,比如只支持部分語(yǔ)種的釋義匹配功能,有待進(jìn)一步提高。
本文探討如何將漢語(yǔ)釋義信息引入維漢機(jī)器翻譯系統(tǒng),實(shí)踐中循序漸進(jìn)地提高了維漢機(jī)器翻譯的質(zhì)量。當(dāng)然,有利有弊,弊端就是只能用語(yǔ)言模型和全局系統(tǒng)權(quán)重混淆網(wǎng)絡(luò),用提高閾值的方法來(lái)過(guò)濾釋義表。創(chuàng)新才是發(fā)展的動(dòng)力,維吾爾語(yǔ)言的特性,讓維漢機(jī)器翻譯系統(tǒng)融合的新方法仍在開(kāi)發(fā)中,新方法能有效提高翻譯質(zhì)量,相信不久的將來(lái)不同語(yǔ)言的交流成為可能。