胡廣耀
摘 要: 針對當前英語機器翻譯存在的準確性差,易引起歧義等不足,提出模糊理論的英語機器翻譯語義調序模型。首先對英語機器翻譯的語義進行分類,構建語義選擇模型,然后采用層次分析法確定英語機器翻譯語義順序,對易錯的誤語義進行相應的容錯操作,最后對語義進行加權操作計算語義之間的最優(yōu)相似度,并引入模糊理論實現(xiàn)對英語機器翻譯英語語義進行排列,最后通過具體應用實驗對模型的性能進行分析。結果表明機器翻譯選擇排列模型的準確性高,而且時效性均要優(yōu)于其他模型,具有明顯的優(yōu)勢。
關鍵詞: 模糊理論; 英語語義; 調序模型; 機器翻譯
中圖分類號: TN911.1?34; TP399 文獻標識碼: A 文章編號: 1004?373X(2017)21?0121?03
Study on fuzzy theory based semanteme ordering of English machine translation
HU Guangyao
(Yangtze University College of Arts and Sciences, Jingzhou 434020, China)
Abstract: Since the current English machine translation has poor accuracy and is easy to cause the ambiguity, a fuzzy theory based semanteme ordering model of English machine translation is put forward. The semanteme of English machine translation is classified to construct the semantic selection model. The AHP is used to determine the semanteme order of English machine translation, and perform the corresponding fault tolerant operation for the semanteme which can be translated erroneously. The semanteme is weighted to calculate the optimal similarity between the semanteme, and the fuzzy theory is introduced to arrange the English semanteme translated by machine. The performance of the model is analyzed with a specific application experiment. The experimental results show that the selection and ordering model of machine translation has high translation accuracy, and its timeliness is better than other models, which has obvious advantage.
Keywords: fuzzy theory; English semanteme; ordering model; machine translation
0 引 言
語義是對數(shù)據符號的進一步解釋[1],在信息集成領域,往往通過模式(對于模式不存在隱含的非結構化或半結構化數(shù)據,往往需要在集成前定義出它們的模式)進行數(shù)據組織,數(shù)據的訪問也是通過作用模式來獲得的,這時語義就可定義為模式元素(例如類、屬性、約束等)[2]。對語義進行準確的調序有助于更好地去理解復雜概念[3],同時,正確的語義可以保證數(shù)據的質量[4],因此高效地調序正確的、隱含的、有用的英語語義信息成為該領域亟待解決的問題,受到廣大學者的關注[5?6]。
傳統(tǒng)的英語語義調序模型一般使用神經網絡法、機器學習法以及查錯法[7?9],大體流程可總結為從英語語義庫中逐個選擇英語語義,再逐一對應是否為所需英語語義,或者直接調序提取已經存在的顯著語義數(shù)據,再進行歸一化管理,但該調序模型耗時較長,且準確性較差。本文提出基于模糊理論的英語語義調序模型,針對不同的英語語義,根據其特征進行調序,并運用實驗對所提模型進行驗證。
1 基于模糊理論的英語機器翻譯語義調序模型
1.1 英語語義分類
基于模糊理論的英語語義調序模型的重點是對英語語義的分類,選用最大熵訓練算法對英語語義進行分類,最大熵訓練算法實質上類似一種詞語解釋過程,該模型可將語義根據其性能精確地分為層次性與交錯性語義,其中交錯性語義是根據最大相似度進行調序,層次性語義包括同類、間隔、遞進類三種。假設,用符號[Bi]表示待調序語義中的當前調序英語語義,[Bi]的延伸英語語義為[Bi-1,]與[Bi]處于相同排列方位的目標語義用[Ai]表示,則其分類語義表達式為:
[fAi,Bi=Ai-1,i=1,2,3,…Bi-1,i=1,2,3,…]
當[Bi-1=1+Ai]時,待調序英語語義為同類語義,用符號[Ai-1]代替[Ai]的前端數(shù)據;當[Ai-1=1+Bi]時,待調序語義為遞進語義;當待調序語義既不是同類語義,也不是遞進語義,則視其為間隔語義。
1.2 英語語義最優(yōu)相似度的計算
在對英語語義進行分類的基礎上,采用加權層次結構分析法對英語語義相似度進行計算。endprint
(1) 構建英語語義模型,確定層次性英語語義及交錯性英語語義調序流程。以兩種典型語義類別為依據,任選一個數(shù)據構建英語語義模型,如圖1所示。
由圖1可知,在進行英語語義調序時,需考慮兩個方向差異化的調序結構問題,而層次性英語語義正是利用兩個不同方向的差異性進行語義調序,其調序流程框圖如圖2所示。
如圖2所示,層次性英語語義調序模型利用IBM軟件(一種提供資源整合功能的業(yè)務軟件)對語義進行調序,進而排除模型中語義幾率小于0.18的英語語義。剩余詞語將被成功調序,再診斷其是否與原數(shù)據對應,經診斷后的調序結果作為最終結果。
交錯性英語語義與層次性英語語義不同,簡單的調序模型無法實現(xiàn)待調序語義與正確目標語義的準確對應。因此,需計算英語語義間的最大相似度來調序語義。交錯性語義調序模型工作流程如圖3所示。
交錯性英語語義調序模型是將英語語義庫中的待調序英語語義依存原數(shù)據進行解析,生成待調序語義依存樹,再依據模糊選擇的規(guī)則進行最大相似度的計算,以免將語義調序結構打亂,防止調序過程中相似語義調序失誤。在此之后實施調序,并對調序的結果實施二次診斷,之后輸出結果。
(2) 確定英語語義間的相似度,利用加權層次結構分析法獲取最優(yōu)相似度。
假設[I1]為待調序語義中的任意語義,[I2]是[I1]的模糊對應結果,[d]是[I2]與[I1]的距離,用符號[η]表示依存樹的模糊調節(jié)參數(shù),由此可獲取[I2]與[I1]的相似度為:
[sim(I1,I2)=ηη+d] (1)
獲取最優(yōu)相似度就是不斷變更模糊調節(jié)參數(shù)[η]權重的過程,即利用加權層次結構分析法對式(1)進行描述,表達式如下:
[sim(s1,s2)=i=14δsim(I1,I2)] (2)
式中:[δ]表示權重,且[i=14δ=1]。
加權層次結構分析共進行4次描述,分別是[I1]和[I2]的獨立關系描述、相同結構描述、相同語義功能描述和相同數(shù)據中心描述。經由加權層次結構分析后,確定最優(yōu)相似度表達式為:
[Smax=i=1nφ1sim(s1,s2)+φ2sim(I1,I2)n] (3)
式中:[n]為子節(jié)點數(shù)量;[φ1,][φ2]是調序和加權層次分析在子節(jié)點中所占的比例,[φ2=1-φ1]。
1.3 英語語義調序模型的實現(xiàn)
經由以上分析后,給出英語語義的兩種模糊參數(shù),分別是當前語義和前端語義對調序幾率的模糊影響參數(shù),分別用[PoAi]和[PoAi-1]表示,其表達式為:
[PoAi=ξP(o)+ωoAiξ+ω(Ai)] (4)
[PoAi-1=ΣAiωoAiΣoΣAiωoAi] (5)
式中:[o]是相鄰兩數(shù)據的排列次序;[P(o)]是相鄰兩個數(shù)據被同時調序的幾率;[ξ]是數(shù)據優(yōu)化因數(shù);[ω(Ai)]和[ωoAi]分別表示調序前后的目標語義解碼數(shù)據。
基于模糊理論的語義調序模型,選定一個模糊數(shù)據塊[A,]再依次賦予同類類別結構和互調類別結構,選定模糊數(shù)據[A1]和[A2,][A1]和[A2]是用來合并[A]的。在模糊理論中,最大熵訓練算法要求合并成的[A]應擁有最大面積,且與[A1]的結構相同,與[A2]的結構相反,此時需要借助一個約束架構[N]來定義模糊數(shù)據塊[A],[N]的定義式為:
[N=PθoA1,A2] (6)
式中:[P]是分類組合函數(shù);[θ]是權值。
模糊理論采用似然函數(shù)預測模糊英語語義塊[A]的最大占據面積,有:
[PoA1,A2=PoAiPoAi-1] (7)
將式(7)代入式(6),得到基于模糊理論的英語語義調序結果,其表達式如下:
[N=expΣiθiPoAiexpΣiθiPoAi-1] (8)
綜上所述,在確定英語語義最優(yōu)相似度的基礎上,采用模糊理論對英語語義進行調序,但需進行實驗對比分析。
2 實驗結果與分析
2.1 數(shù)據來源
使用LDC(Linguistic data Consortium,語言數(shù)據聯(lián)合會)提供的FBIS語料,其中含有接近25萬條不同語義和約800萬個簡單英語語義。使用Moses搜索系統(tǒng)在FBIS語料中隨機抽取共計1 000條英語語義。采用神經網絡法、機器學習法、查錯法與改進模型進行對比驗證分析。
2.2 英語語義調序時間狀態(tài)分析
英語語義調序時間狀態(tài)指其能夠同時進行調序的整體反應時間。但直接獲取調序時的狀態(tài)難度較大,因此實驗通過不斷增加英語語義總量,觀察本文模型、機器學習法、神經網絡法和查錯法在單位時間內的調序數(shù)量來驗證時間調序狀態(tài)。單位時間調序數(shù)量越大,語義調序時間狀態(tài)就越好。以調序單位時間為縱坐標,英語語義總量為橫坐標繪制曲線,如圖4所示。
從圖4中可以看出最高調序性能的曲線是本文模型,其次是機器學習法。隨著時間的推移,每種模型的單位時間調序數(shù)量都出現(xiàn)不同程度的下降,這與語義調序資源調節(jié)能力有關,可使用軟件控制手段進行優(yōu)化。實驗結果表明,采用本文模型進行語義調序時,語義調序耗時最小,且明顯優(yōu)于其他模型。
2.3 英語語義調序準確性分析
英語語義準確調序率表示英語語義調序中的調序正確率,正確率越大,則性能越好。在調序英語語義時,以英語語義的數(shù)量作為橫坐標,調序準確率作為縱坐標,實驗結果如圖5所示。由圖5可知,除本文模型以外,其他模型均未能有效優(yōu)化調序英語語義。
3 結 語
針對當前英語機器翻譯存在的問題,提出模糊理論的英語機器翻譯語義調序模型。實驗結果發(fā)現(xiàn),采用本文模型進行英語語義調序,其調序準確性、耗時均要優(yōu)于傳統(tǒng)英語語義調序模型,具有一定的優(yōu)勢。
參考文獻
[1] 甘麗新,萬常選,劉德喜,等.基于句法語義特征的中文實體關系抽取[J].計算機研究與發(fā)展,2016,53(2):284?302.
[2] 游妍,徐博藝,謝誠.基于實例相似度的概念語義調序模型[J].計算機工程,2014,40(10):219?223.
[3] 賈玉祥,王浩石,昝紅英,等.漢語語義選擇限制知識的自動獲取研究[J].中文信息學報,2014,28(5):66?73.
[4] 南潮.非使役化中英語動詞的語義選擇研究[J].安徽農業(yè)大學學報(社會科學版),2016,25(4):95?98.
[5] 王海艷,白圓圓.支持二分圖語義匹配的組合服務選擇模型[J].東南大學學報(自然科學版),2014,44(3):510?516.
[6] 姜芳,李國和,岳翔.基于語義的文檔特征提取研究模型[J].計算機科學,2016,43(2):254?258.
[7] 孟祥福,張霄雁,唐延歡,等.結合語義相似度分析的Web數(shù)據庫Top?K典型化查詢模型[J].小型微型計算機系統(tǒng),2016,37(8):1692?1696.
[8] 巴志超,李綱,朱世偉.共現(xiàn)分析中的關鍵詞選擇與語義度量模型研究[J].情報學報,2016,35(2):197?207.
[9] 楊萬春,張晨曦,穆斌.結合語義與事務屬性的QoS感知的服務優(yōu)化選擇[J].計算機應用,2016,36(8):2207?2212.endprint