孫李麗,郭 琳,張文諾,文 旭
1(商洛學院 人文學院,商洛 726000)
2(商洛學院 電子信息與電氣工程學院,商洛 726000)
3(西南大學 外國語學院,重慶 400715)
機器翻譯效率高、成本低,隨著人工智能技術發(fā)展得到廣泛應用,同時人們對翻譯質量的訴求也越來越高.衡量一個翻譯作品的質量主要看是否忠于源語,以及目標語的語法、語義錯誤和優(yōu)美程度,特別是地域文化和方言氣息濃厚的文學作品,譯文不僅要準確描述內容情節(jié),還要真實表達人設、歷史、社會和文化環(huán)境,因此翻譯評價和機器翻譯類似,需要對作品解碼和重新編碼,通過融合和訓練,合理科學評價作品翻譯質量.智能翻譯評價系統(tǒng)需要算法或者模型來完成文本變量特征的表征[1],再通過規(guī)則構造評價權重集,最后用匹配模型實現(xiàn)譯文的評價和分析.目前已有專家開始探索定性或定量的翻譯質量評價方法.哈爾濱工業(yè)大學的趙鐵軍等最先提出人工評價和自動評價思路,利用句子相似度評價EBMT 系統(tǒng)翻譯質量[2];其后蘇州大學的周國棟等總結自動評價的3 個方面,包括語言學檢測點、字符串匹配和機器學習[3];廈門大學的周敏康等提出用層次分析法和模糊數(shù)學模型定量評價機器譯文翻譯質量[4];中國科學院的劉群等提出融合策略,多角度綜合評價方法,比如在Blend 上,對比使用SVM和FFNN 兩種機器算法[5];北京交通大學的劉明童等提出利用跨語句注意力機制構建BP復述識別模型,提高翻譯準確性[6].關于文學作品機器翻譯和評價出現(xiàn)較晚,相關翻譯評價模型,需要結合作品語言特點改進機器評價方法,提高自動翻譯評價水平.本文提出一種融合策略,充分利用層次分析法中專家打分的主觀能動性和灰色關聯(lián)度法中相似行為映射結果的客觀科學性,以及隨機森林算法中的集成學習策略和分類評價優(yōu)勢,建立面向文學作品翻譯的評價指標體系和模型,并通過地方戲劇譯本實驗驗證.
翻譯評價以實現(xiàn)作品翻譯的準確性和真實性為目的,對機器翻譯中固有或潛在的影響因素進行分析,掌握譯文發(fā)生畸變及其和原文之間相似程度,從而制定出評價指標體系和評價模型.本文研究一種基于機器學習的英譯文評價方法,評價整體流程如圖1所示.先對輸入的譯文樣本進行數(shù)據(jù)預處理,通過建立的評價指標體系得到文本變量特征;由軟件抽樣把訓練樣本送至3 種隨機森林決策樹中,通過其中的分類器進行性能評估,得到分類結果和評價錯誤率,同時由建立的AHP-GRA 模型計算評價結果.
圖1 評價整體流程圖
提出的翻譯評價指標體系是建立在文學作品英譯本基礎上,進行定量和定性地評價作品翻譯質量,此種評價方法不僅要考慮常規(guī)文本翻譯方法,還要考慮文學作品的語言因素,兼顧翻譯技巧的一般性和文學特殊性.陜西的鄉(xiāng)土小說《帶燈》[7]經(jīng)改編之后的商洛花鼓現(xiàn)代劇劇本,帶有復雜交織的人物感情和差異性地域特色,里面出現(xiàn)大量方言和充滿影射、隱晦的口語,以及原作的創(chuàng)造性地方特色語言,包括人物對話、俚語和言外之意等.本文以地方戲劇為例,通過對《帶燈》的實地調研和翻譯實踐,分析了戲劇翻譯的技法和特色,同時開始研究人工翻譯和機器翻譯的聯(lián)系和區(qū)別,結合相關翻譯評論和作者已有研究[8-10],設計文學作品英譯質量評價體系,如表1所示,其翻譯質量影響包括一般翻譯技法-靜態(tài)變量特征群g[T]、作者定位-動態(tài)變量特征群h[T]、作品定位-輔助變量特征群p[T]和譯者主體性-參考變量特征群s[T]四類一級指標,以及他們所屬的19 個二級指標.一般翻譯技法分析了文學作品翻譯的常規(guī)影響變量,包括語法、句型、詞匯、語言、相關性和優(yōu)美性;作者定位分析了設定人物的傳統(tǒng)倫理、物質精神條件、人與自然社會的關系;作品定位分析了作品需要表達的歷史、社會、人性和當?shù)刈匀灰蛩?譯者主體性分析了譯者對原文的喜愛與信任、理解和侵入、吸收和傳播、偏差和補償?shù)?
利用Python 語言平臺[11],把機器和人工翻譯的文學作品英譯文輸入到相關模型工具包,過濾不完整或有冗余噪音的文本數(shù)據(jù),分析語法、語義和語境,然后采取向量空間模型VSM 方法(把文本內容處理為向量空間中的向量運算,并以空間相似度表達語義相似度)[12],用特征向量表征每一段文本,同時包含特征項Tx和特征度,特征度是影響系統(tǒng)評價結果的關鍵因素.為了提高特征度獲取的精度和速度,先采用Stanford Parser (Stanford NLP 提供的一種詞性語法分析工具)[13]和NLTK(一種基于Python的自然語義處理庫)[14]進行文本初過濾和提取處理(包括詞性和句型標注、平均、局部最大值及最小值、詞頻加權、位置加權、句法分析等);然后利用Doc2Vec 方法(一種隨機文本獲得固定長度特征的無監(jiān)督算法工具)[15,16]提取靜態(tài)變量特征,利用K-means(一種迭代求解的聚類分析算法)[17]提取動態(tài)變量特征,利用LDA 模型(一種基于三層貝葉斯概率的文檔主題生成模型)[18]提取文本輔助和參考變量特征,獲得文本的編碼和特征度.
表1 文學作品英譯質量影響變量特征庫W[i]
AHP-GRA 模型在層次分析法的基礎上融合了灰色關聯(lián)度算法[19,20],是一種無監(jiān)督學習模型.層次分析法將半定性、半定量問題轉化為定量問題,對專家主觀打分的依賴性強,而灰色關聯(lián)度算法是根據(jù)序列幾何形狀的相似性來確定序列重要關系,強調行為結果的客觀性,AHP-GRA 模型兼顧了二者優(yōu)點.通過層次分析法計算出所有指標的基礎權重xi,然后構建評價指標重要性判斷矩陣V,然后確定比較集列和最優(yōu)指標集,再對指標進行離散性的規(guī)范量化,然后通過式(1)計算翻譯評價指標的關聯(lián)系數(shù),經(jīng)過加權求和得到翻譯譯文的加權關聯(lián)度.式(1)中δ為翻譯分辨系數(shù),本文取0.5;δj為翻譯質量關聯(lián)系數(shù).通過式(2)得到灰色關聯(lián)系數(shù)矩陣R,再結合前面的權重矩陣V,由式(3)計算得到灰色關聯(lián)度值Sj,T為文本特征.
根據(jù)灰色關聯(lián)度值對翻譯準確度進行分級評價,當評價指標關聯(lián)度值為0.8~1 時認為譯文水平優(yōu)秀,為0.6~0.8 時認為優(yōu)良,為0.4~0.6 時認為一般,為0~0.4時認為譯文不準確.
隨機森林算法是一種基于集成學習Bagging 算法建立的包含多個決策樹的隨機分類器,準確度高、處理能力強,適合于分類和變數(shù)評估等問題[21].原始Original-RF 森林算法,是一種基于Boosting 算法的依賴串行生成序列化方法,先初始訓練得到基學習器,然后調整樣本訓練下一個基訓練器,如此重復達到基訓練器預期數(shù)目,最后將所有基訓練器加權結合得到分類結果;隨機抽樣Random-RF 森林算法是基于Bagging算法的改進版,產(chǎn)生相對獨立和差異化的基訓練器集合,通過Bootstrap 自助采樣,如圖2所示,引入決策樹結構,從根節(jié)點開始將數(shù)據(jù)樣本根據(jù)特征進行分類,每個類別決策樹通過Bootstrap 抽樣產(chǎn)生一個訓練集,重復隨機抽取n次的N個樣本數(shù)據(jù).決策樹數(shù)量根據(jù)所選取的譯文長短確定,隨后在生長過程中以指數(shù)最小原則選出符合評價指標體系中若干特征變量的最優(yōu)集合,通過構建的N個決策樹形成隨機森林.將測試樣本集輸入到隨機森林,由最大投票數(shù)的分類結果作為翻譯評價的輸出結果.
圖2 隨機森林算法示意圖
通過研究AHP-GRA 模型和隨機森林算法的優(yōu)點,建立融合算法的文學英譯作品評價模型AHP-RF,如圖3所示,由隨機森林算法得到分類結果和分類錯誤率,再由AHP-GRA 模型得到譯文翻譯質量評價值.作品英譯文的訓練樣本集通過工具包預處理后,得到文本特征數(shù)據(jù)T1~T19,通過Bootstrap 再從對應訓練集中抽取N個樣本構成N個決策樹,不剪枝完全自然生長得到隨機森林分類器,通過多數(shù)投票表決得到分類結果和分類錯誤率;最后將測試樣本集輸入到模型AHPGRA 中,經(jīng)過分層加權關聯(lián)度計算,得到譯文翻譯質量評價值.
圖3 AHP-RF 作品翻譯評價模型
本文以地方戲劇《帶燈》劇本為源語文本,以作者的人工英譯本和百度、谷歌、有道、搜狗4 種在線機器英譯文為評價樣本集.機器翻譯方法和人工翻譯類似,是對小說解碼和重新編碼的過程,并非機械化般無情,而是中西方語言文化的一次融合和訓練,從英語譯文中找到原作的詞義、語義和語境.在實驗過程中,樹節(jié)點變量數(shù)目和決策樹數(shù)目非常關鍵,決定了系統(tǒng)的評價錯誤率.例如圖4示例所示,當決策樹節(jié)點變量數(shù)目為左邊的5 時,譯文語義符合原文,模型對于文本的誤判率均值不同,需要選擇誤判率均值最低時的變量數(shù)目.當錯誤率趨于穩(wěn)定不變,此時決策樹數(shù)目設定不變.
圖4 相同詞序列的不同句法結構示例
通過Bootstrap 從表1中的4 個一級特征和19 個二級特征中抽取19 個文本特征,帶入本文的AHPRF 模型,得到19 個分類結果,如圖5所示.
圖5 AHP-RF 二階特征項權重
圖5中各個特征的權重值,其中最重要的第一層次特征項是地方語言(0.123)和地方詞匯(0.115),接下來第二層次是人物物質條件(0.093)和人物精神條件(0.090),第三層次是語法(0.085)和句型(0.081),第四層次是人性因素(0.064)和譯者喜愛和信任(0.054),之后的特征項權重小于平均值,說明以上變量特征是影響實驗樣本翻譯水平的重要指標;其中最低層次是人與自然的關系(0.016)、偏差和補償(0.016)和自然定位因素(0.012),說明此類指標在翻譯評價體系中的影響最小.然后用AHP-GRA 算法把測試樣本進行分級評價,得到M組分段樣本的19×M個灰色關聯(lián)度,再分級評價得到離散化的數(shù)據(jù)文本.通過實驗得到機器1~4的譯文評價值分別為0.53,0.57,0.44和0.62,人工英譯本的評價值為0.83,其中機器4的譯文水平達到優(yōu)良,翻譯質量高于其他3 種,而人工譯文水平達到優(yōu)秀,翻譯質量明顯優(yōu)于機器翻譯.
通過原始Original-RF 森林算法、隨機抽樣Random-RF 森林算法和本文的AHP-RF 算法,分別計算輸出分類結果性能指標錯誤率(error rate),如圖6至圖8所示的不同決策樹數(shù)量下譯本集的各種模型算法分類錯誤率對比,隨著決策樹數(shù)目的增加,分類錯誤率明顯下降,并且當決策樹數(shù)目增長到200 附近時,分類錯誤率趨于穩(wěn)定,所以針對選取的實驗樣本,確定200是其最優(yōu)的分類決策樹數(shù)量.
圖6 Original-RF 算法的錯誤率結果
圖7 Random-RF 算法的錯誤率結果
圖8 AHP-RF 算法的錯誤率結果
如圖9所示,在相同決策樹數(shù)量200 下各種譯本集的3 種隨機森林算法分類錯誤率對比,基于文本特征分層抽樣的AHP-RF 算法的分類錯誤率最低,Random-RF 算法次之,Original-RF 算法最高,并且人工譯文的錯誤率小于其他4 種在線機器.評價結果與實際翻譯情況較為吻合,說明文本提出的翻譯評價方法是可行的.
圖9 不同隨機森林算法的錯誤率對比結果
通過對翻譯評價方法的研究,建立了文學作品翻譯的評價指標體系和AHP-RF 評價模型,并通過地方戲劇《帶燈》的5 種譯本作為實例,進行了翻譯質量評價與分析,實驗結果表明,融合層次分析法、灰色關聯(lián)法和隨機森林算法的AHP-RF 模型,輸入樣本有效完成了變量特征分類,為翻譯作品的質量評價奠定了基礎.按照權重大小排位前八的依次是地方語言、地方詞匯、人物物質條件、人物精神條件、語法、句型、人性因素和譯者喜愛和信任,處于最低層的依次是人與自然的關系、偏差和補償和自然定位因素;人工譯本的評價結果高于其它4 種機器譯本,分類錯誤率小于其它4 種機器譯本,評價結果與實際翻譯情況吻合;AHP-RF 模型的分類效果優(yōu)于Random-RF和Original-RF,并且當決策樹數(shù)目為200 時,該實驗樣本的分類錯誤率下降趨于平衡狀態(tài).