王澍
(西安培華學(xué)院 外語系, 陜西 西安 710125)
隨著我國對外交流與合作程度的不斷加深,日常生產(chǎn)生活中,包括貿(mào)易、文化交流、旅游和商務(wù)等跨國活動日益頻繁,受到不同國家語言的限制,增加了交流和溝通的難度,促使不同語言間的機器翻譯系統(tǒng)得到快速發(fā)展,計算機、機器學(xué)習(xí)、人工智能等技術(shù)為翻譯系統(tǒng)提供了強大的技術(shù)支撐,使不同語言間的溝通障礙問題得以有效解決,同時降低了翻譯成本、提高了語言翻譯的便利性。在機器翻譯中,識別由名詞短語構(gòu)成的句子是句法分析及翻譯的基礎(chǔ)和關(guān)鍵,最終翻譯結(jié)果的準確性取決于名詞短語識別的精確度。
在全球化發(fā)展背景下,日益發(fā)達的科技與文化高度以及普及應(yīng)用的互聯(lián)網(wǎng),暴露出了不同語種間的溝通障礙,促使涉及到多學(xué)科的機器翻譯(涵蓋了語言學(xué)、計算機、認知科學(xué)等)快速發(fā)展起來。目前,機器翻譯研究仍然是包括信息處理及人工智能等領(lǐng)域在內(nèi)的一項研究熱點,單獨應(yīng)用這些機器翻譯方法及策略時,在語言歧義、多義選擇、慣用表達等方面普遍存在難以有效解決的弊端。
因此,為彌補使用單一策略和方法存在的問題和不足,關(guān)于結(jié)合運用多種翻譯策略及算法的翻譯系統(tǒng)方面的研究已取得了一定的進展,如一種基于多種翻譯策略的多Agent機器翻譯研究(陳群秀等),并使用多Agent構(gòu)建了一種日漢機器翻譯系統(tǒng),該系統(tǒng)結(jié)合運用了斷段分析方法、翻譯記憶、實例、配價模式等多種翻譯方法與策略,有效解決了日語中的譯詞選擇問題,具有較高的翻譯準確率,并有效保證了最終翻譯結(jié)果的可讀性。本文在現(xiàn)有研究成果的基礎(chǔ)上,提出了基于多策略的日漢機器翻譯系統(tǒng),結(jié)合運用了特征提取算法、漢語分析、翻譯記憶技術(shù)、基于實例與斷段分析翻譯等方法和技術(shù),闡述了該系統(tǒng)的整體結(jié)構(gòu)和流程及各子系統(tǒng)的核心技術(shù)與算法[1]。
本文設(shè)計的基于多策略的日漢機器翻譯系統(tǒng)主要由4個子系統(tǒng)構(gòu)成。漢語分析子系統(tǒng),主要負責(zé)分析漢語句子,為其他子系統(tǒng)提供支撐,采用由淺至深的分析層次,依次分析詞法、句法、淺層語義;翻譯記憶子系統(tǒng),主要負責(zé)完成翻譯過程,該過程主要通過翻譯記憶技術(shù)和翻譯記憶庫的結(jié)合運用實現(xiàn);翻譯子系統(tǒng),在翻譯具體句子時具體通過采用基于樹到串對齊的相應(yīng)實例模板實現(xiàn);基于配價和斷段分析的子系統(tǒng),對于以動詞為核心的句子,當(dāng)這些句子是基于動詞配價模式和規(guī)則時,在翻譯過程中會運用到語義分類綜合模型,綜合使用配價規(guī)則和斷段分析思想完成句子處理過程。系統(tǒng)的翻譯流程如圖1所示。
圖1 系統(tǒng)日漢翻譯流程
各子系統(tǒng)在實際翻譯過程中需基于不同策略的初步融合實現(xiàn),漢語翻譯流程主要分為3部分。在翻譯過程中,對句子分析的層次會逐步深入,此時伴隨著粒度單位從句子到短語或詞的過渡,機器翻譯過程通過融入不同的語言層面實現(xiàn)多策略的翻譯目的,參照已有的實例/規(guī)則對待翻譯句進行匹配,并以翻譯結(jié)果的評分展現(xiàn),實現(xiàn)對可翻譯程度更加準確的衡量,為有效衡量翻譯質(zhì)量,在翻譯子系統(tǒng)間分別設(shè)置兩個閾值(本文設(shè)置為0.9和0.85,可按需調(diào)整),前一子系統(tǒng)的譯文評分低于閾值時,需進入下一子系統(tǒng)進行深入處理,滿足閾值要求方可直接以其譯文輸出作為最終輸出結(jié)果[2]。
日漢翻譯過程需基于最佳語境的映射實現(xiàn),本文使用特征提取算法實現(xiàn)映射內(nèi)容的有效提取,以實現(xiàn)特征語境的標準提取,假設(shè),N表示存在的翻譯語境數(shù)量,具體表示為Ni(i=1,2,…,K),其所包含的語義翻譯種類由K(n維向量集合)表示,相應(yīng)的語義翻譯用概率由Xi={Xi1,Xi2,…,XiN}表示,i=1,2,…,k表示n維向量集合,基本標準翻譯語境通過限定過程可實現(xiàn),αi表示到翻譯語義翻譯語境,具體表達式[3]如式(1)。
(1)
其中,α表示最佳語境,其選定過程的表達式如式(2)。
(2)
(3)
(4)
β=[α1,α1,…,αR]
(5)
系統(tǒng)翻譯過程會涉及到不同層面的漢語分析結(jié)果,均需通過漢語分析子系統(tǒng)向其他子系統(tǒng)傳遞以進行后續(xù)翻譯,不同子系統(tǒng)通常具有不同的漢語分析需求,漢語分析子系統(tǒng)流程如圖2所示。
圖2 漢語分析子系統(tǒng)流程
針對待翻譯的源語言,基于語言學(xué)層面進行分析,更有利于提高譯文的準確率及可讀性。
選用漢語分詞和句法分析功能庫作為詞法分析的基本分詞模塊,并采用基于錯誤驅(qū)動的方法進行分詞后處理,進而實現(xiàn)對錯誤分詞結(jié)果的合理調(diào)整及句法分析等后續(xù)步驟的有效簡化,并根據(jù)規(guī)則合并部分分詞結(jié)果以得到漢日詞典中的短語,進一步提高譯文結(jié)果的準確性。句法分析同樣使用上述功能庫,在標注句法成分時結(jié)合運用內(nèi)部和外部的雙重標記,進行句法分析的后續(xù)處理時,對分析中出現(xiàn)的部分錯誤結(jié)果以及短語結(jié)構(gòu)歧義,通過利用現(xiàn)代漢語語義知識庫和短語搭配詞典完成相應(yīng)的糾正和歧義消解處理過程。由基于配價和斷段分析的子系統(tǒng)進一步處理漢語淺層語義分析結(jié)果,通過語義角色標注分析淺層語義,可使翻譯的層面與粒度更深更細,根據(jù)句法分析結(jié)果,句法結(jié)構(gòu)樹在語義角色標注前即轉(zhuǎn)換成了依存樹,并對分詞結(jié)果根據(jù)句法規(guī)則抽取句子主干形成捆綁樹。在完成不同成分的語義角色標記的基礎(chǔ)上幫助機器理解在表達句子含義時各部分起到的作用,需利用語言學(xué)上的知識實現(xiàn)對語義角色的準確標注,如介賓短語利用結(jié)構(gòu)語義特征完成標注。使用動詞相關(guān)的語義知識庫標注核心為動詞的依存樹,一個動詞通常包含多個論旨模式,已通過述語動詞詞典進行定義,漢語中常見的短語類型如介賓短語也是語義角色標注和識別的重點,在系統(tǒng)翻譯包含較多格助詞的日語句子時,需標示其主語、賓語和以介賓短語為主的格助詞,通過在漢語分析過程中對介賓短語進行識別及語義角色標注,以實現(xiàn)系統(tǒng)對介賓短語的準確翻譯,同一語義角色的介賓短語,可將某類介賓短語通過使用介詞詞典標注其可能形式,并在此基礎(chǔ)上識別出特定類介賓短語,據(jù)此即可識別此類介賓短語并得到相應(yīng)的譯文[4]。
該翻譯子系統(tǒng)主要負責(zé)對翻譯記憶庫中已有內(nèi)容進行處理,從而快速準確地獲取譯文結(jié)果。實際翻譯過程中遇到完全相同句子的可能性較小,為快速找到相同和相似例句的翻譯記憶,滿足大規(guī)模文本翻譯需求,同時提高翻譯記憶庫的檢索與處理效率,基于翻譯記憶技術(shù)的子系統(tǒng)主要負責(zé)完成相同句和相似句查找,分別采用高效檢索和模糊檢索完成,該子系統(tǒng)的流程如圖3所示。
圖3 翻譯記憶子系統(tǒng)流程設(shè)計
為高效準確地檢索出相同句,在檢索翻譯記憶庫中的原文語句時,采用了哈希表的方法,哈希表算法可有效實現(xiàn)字符串索引(具體通過映射原句的字符實現(xiàn)),在無法找到完全相同句子的情況下則進行模糊查找,對于以中文詞為單位的索引,使用后綴數(shù)組的方式查找,后綴數(shù)組能夠便捷高效地檢索出某一子串在大型語料庫中的出現(xiàn)次數(shù)及相應(yīng)語句。在記憶庫中對待翻譯語句進行檢索時,在完成分詞處理后轉(zhuǎn)換為Bigram數(shù)組,然后完成對包含該數(shù)組句子的查找與翻譯,再采用字符串編輯距離的方法計算出其與待翻譯句間的相似度,并輔助人工翻譯解決這些不同之處的翻譯[5]。
基于實例的子系統(tǒng)(EBMT)在上述子系統(tǒng)難以給出滿意譯文時啟動,使用樹到串的對齊方式組織實例,將漢日文的對齊關(guān)系采用實例翻譯單元的形式保存,EBMT主要分為分析、匹配抽取和生成3步,其核心在于匹配待翻譯句的句法樹和實例翻譯單元,滿足樹到串形式的翻譯單元的特征:源語言是句法樹中的一棵子樹;在產(chǎn)生于同一實例的翻譯單元中,目標語言為包含或并列關(guān)系。判斷實例句各句法節(jié)點,根據(jù)實例句生成翻譯單元。將漢語分析子系統(tǒng)中的句法樹作為分析階段中實例翻譯的輸入。在匹配抽取階段中,先從下向上匹配待譯句的句法分析樹,找到實例庫中與各句法節(jié)點類似的實例,再通過計算二者間的相似度實現(xiàn)最相似實例的獲取。源語言文本和源語言句法樹片段分別存儲于翻譯記憶庫和實例庫中,其中句法樹片段需經(jīng)抽象歸納處理后再進行存儲,相似實例查找中的結(jié)構(gòu)相似度和語義相似度分別通過比較句法樹結(jié)構(gòu)和樹中節(jié)點完成計算過程,兩個詞語在語義上的相似度通過計算其在語義分類樹上的距離確定,查找各句法節(jié)點的相似實例后生成最終譯文。錯誤的句法分析樹在EBMT子系統(tǒng)中也能得出正確的譯文結(jié)果[6]。
配價語法屬于基于規(guī)則的機器翻譯方法的一種,配價模式翻譯的中心詞為漢語的動詞,以動詞為依據(jù)確定譯文方式及內(nèi)容??梢詫υ~語順序不做嚴格要求的句法依存樹作為該子系統(tǒng)的輸入,在翻譯日語時,適用于輔助生成日文的句法分析中的依存關(guān)系樹,其基本組成單元為句節(jié),句節(jié)間的語序無嚴格要求,各句節(jié)的語義作用相對獨立,如私は朝に家でご飯を食べた即由句節(jié)私は、朝に、家で、ご飯を、食べた構(gòu)成,食べた作為核心謂語動詞需放到句尾,剩余部分的順序無明確要求。該子系統(tǒng)主要通過模式匹配和斷段分析得到翻譯結(jié)果,模式匹配主要采用規(guī)則匹配算法實現(xiàn),針對待翻譯部分,根據(jù)句子中主動詞的相應(yīng)配價模式獲得同其匹配度最高的規(guī)則,進而得出翻譯結(jié)果,配價規(guī)則匹配適用于處理單句,基于依存樹的規(guī)則匹配則將復(fù)雜句子拆分成多個子句,由一組詞序列表示待匹配的部分內(nèi)容,分別對各子句進行配價規(guī)則匹配。斷段分析階段,先利用長句、難句中的連詞、動詞等進行拆分,得到多個簡單句再依次完成模式;翻譯同模式不匹配的簡單句時,可以標注的語義角色、句法功能等為依據(jù)翻譯部分內(nèi)容。譯文生成階段,先生成匹配部分譯文,未能匹配的短語需通過進一步處理生成最終的譯文結(jié)果,為滿足中日文不同的表達需求,將表示時態(tài)的助詞、副詞、否定詞等轉(zhuǎn)換成日文的助動詞等附加成分[7]。
為測試系統(tǒng)翻譯結(jié)果的準確度和可讀性,抽取1 559個實例庫中的句子作為EBMT的封閉測試集,再抽取1 500個翻譯記憶庫中的句子作為開發(fā)測試集,所有抽取句子作為基于配價和斷段分析的子系統(tǒng)的測試集,將預(yù)設(shè)的可接受程度作為判別,翻譯記憶庫中的句子均得出相應(yīng)譯文結(jié)果,1 559個實驗用句的每個句子在不同模塊和子系統(tǒng)中的時間開銷,如表1所示。
表1 實驗用句的每個句子的時間開銷
子系統(tǒng)的運行速度較快,平均每個單詞僅需0.045 ms的單詞查找時間,記憶庫之外的句子基本得到了相似結(jié)果(15句有13句得到了準確翻譯)。封閉和開放測試及配價和斷段分析開放測試結(jié)果表明系統(tǒng)的翻譯效果較佳,如表2所示。
表2 準確性與可讀性測試結(jié)果
從封閉測試集中抽取100個有代表性句子(包含復(fù)雜句和簡單句),譯文準確率為97%,基于翻譯記憶技術(shù)的子系統(tǒng)得到了相似度高達67%的句子,對漢語分析結(jié)果的依賴較小?;谂鋬r和斷段分析的子系統(tǒng)在46句淺層語義分析不正確句子中有32句翻譯正確,說明本文基于多策略的機器翻譯可有效提高翻譯系統(tǒng)的準確率,可滿足自動翻譯大量文本的需求[8]。
本文主要完成了一個日漢機器翻譯系統(tǒng)的構(gòu)建,使最終日漢翻譯結(jié)果的準確度、可讀性得到有效提高,雖然該系統(tǒng)初步實現(xiàn)了較為準確的翻譯過程,但仍需進一步擴充系統(tǒng)的資源,完善和優(yōu)化系統(tǒng)的功能,包括進一步提升漢語分析性能、有效融合實例庫中的矛盾實例、在松散耦合的基礎(chǔ)上進行更細粒度的結(jié)合等,將是后續(xù)研究和完善的重點內(nèi)容。