程曉嬌
(大連財(cái)經(jīng)學(xué)院 國(guó)際教育學(xué)院,遼寧 大連 116622)
隨著經(jīng)濟(jì)的騰飛,互聯(lián)網(wǎng)行業(yè)正在飛速發(fā)展,英語(yǔ)翻譯在世界貿(mào)易中的地位逐漸提升。機(jī)器翻譯技術(shù)可以克服人工翻譯中的多種問(wèn)題,降低人工翻譯的經(jīng)濟(jì)消耗與時(shí)間消耗。在當(dāng)前這個(gè)高度信息化的時(shí)代,人們對(duì)于英語(yǔ)的翻譯要求逐漸增加,計(jì)算機(jī)對(duì)英語(yǔ)語(yǔ)言的理解與翻譯需求越發(fā)迫切[1-2]。計(jì)算機(jī)的英語(yǔ)翻譯能力直接影響著翻譯結(jié)果的應(yīng)用效果,與人們的經(jīng)濟(jì)活動(dòng)息息相關(guān)。但英語(yǔ)翻譯結(jié)果均會(huì)出現(xiàn)語(yǔ)法錯(cuò)誤,使計(jì)算機(jī)翻譯結(jié)果出現(xiàn)偏差,影響英語(yǔ)翻譯結(jié)果的輸出與判斷。因此,在以往的研究中,大量的專家學(xué)者提出了機(jī)器英語(yǔ)翻譯錯(cuò)誤自動(dòng)識(shí)別方法,力求降低英語(yǔ)翻譯錯(cuò)誤對(duì)經(jīng)濟(jì)活動(dòng)的影響。
張楠等人采用神經(jīng)機(jī)器翻譯方法對(duì)中英文翻譯結(jié)果進(jìn)行預(yù)測(cè),在預(yù)測(cè)的過(guò)程中完成翻譯錯(cuò)誤結(jié)果的識(shí)別工作[3]。此方法的識(shí)別速度相對(duì)較高,但是識(shí)別精度與有效性較差。為此,使用多特征融合技術(shù),設(shè)計(jì)新型機(jī)器英語(yǔ)翻譯錯(cuò)誤自動(dòng)識(shí)別方法。為保證此方法設(shè)計(jì)完成后具有應(yīng)用價(jià)值,構(gòu)建相應(yīng)的實(shí)驗(yàn)環(huán)節(jié)對(duì)其展開(kāi)驗(yàn)證,確保此方法具有研究意義。
在本次研究中,將融合英語(yǔ)翻譯的特征提取算法,充分利用平行語(yǔ)料。提取到的特征融合翻譯結(jié)果,得到機(jī)器英語(yǔ)翻譯的信息特征。通過(guò)文獻(xiàn)分析可以發(fā)現(xiàn),機(jī)器翻譯可以分為兩部分,分別是將源語(yǔ)言翻譯為目標(biāo)語(yǔ)言以及將目標(biāo)語(yǔ)言翻譯為源語(yǔ)言[4-5]。這兩種翻譯過(guò)程完全相同,且共享詞語(yǔ)向量參數(shù)。將源語(yǔ)言語(yǔ)句設(shè)定為A={a1,a2,…,an},ai表示源語(yǔ)句的單詞;目標(biāo)端語(yǔ)句為B={b1,b2,…,bn},bj表示目標(biāo)語(yǔ)句的詞嵌入編碼;C表示源端語(yǔ)句的長(zhǎng)度;D表示目標(biāo)語(yǔ)句的長(zhǎng)度。設(shè)定本次翻譯中使用的編碼器與解碼器構(gòu)建為神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),編碼器的主要功能是將源語(yǔ)句A編碼為固定向量E,同時(shí)對(duì)E進(jìn)行解碼得到目標(biāo)語(yǔ)句D。整合翻譯過(guò)程可表示為P(B|A:α),使用乘法法則得到上述條件概率的計(jì)算過(guò)程,具體如式(1)所示。
(1)
編碼器由公式(1)構(gòu)成,初始的隱形狀態(tài)均為零向量,在進(jìn)行每一步翻譯時(shí),均需要將此步驟中的單詞映射為對(duì)應(yīng)的向量ai的形式;然后和上一翻譯步驟中的詞語(yǔ)進(jìn)行計(jì)算,得到源語(yǔ)句的編碼向量E。將使用的編碼器組建成網(wǎng)絡(luò)形式,則存在以下(2)-(5)關(guān)系式:
wt=sigmoid(Hirai+xir+Hsrst-1+xhr)
(2)
kt=sigmoid(Hirai+xir+Hsrst-1+xhk)
(3)
nt=tans(Hinai+xin+Hsnst-1+xhn)
(4)
st=(1-kt)nt+ktnt-1
(5)
公式(1)-公式(5)中,wt表示解碼器向量;Hir表示初始向量;xir表示源語(yǔ)句向量;Hsr表示隱藏向量;st-1表示t-1時(shí)刻的隱狀態(tài)對(duì)語(yǔ)句的影響向量;xhr表示解碼器的單詞計(jì)數(shù)向量;kt表示編碼器向量,xhk表示編碼器的單詞計(jì)數(shù)向量,主要利用式(2)與式(3)實(shí)現(xiàn)源語(yǔ)句解碼與編碼。nt表示步驟向量,xhn表示最大編碼長(zhǎng)度向量,主要利用該式對(duì)編碼步驟進(jìn)行限制;st表示t時(shí)刻隱狀態(tài)對(duì)語(yǔ)句的影響向量,kt表示誤差向量,nt表示誤差向量幅度,st是機(jī)器英語(yǔ)翻譯誤差的主要原因。
因此,本文將神經(jīng)網(wǎng)絡(luò)應(yīng)用到機(jī)器英語(yǔ)翻譯信息特征提取過(guò)程中,將隱層使用tan函數(shù)表示,而后使用softmax函數(shù)[6]進(jìn)行歸一化處理,計(jì)算過(guò)程設(shè)定如式(6):
p(bt|b1,b2,…,bn,a:α)=softmax[v2tan(v1st+xhn)]
(6)
公式(6)中,v1、v2表示不同的歸一化系數(shù)。
根據(jù)公式(6)可初步得到機(jī)器翻譯特征,為了獲取到可信度更高的翻譯特征,使用sigmoid作為激活函數(shù),對(duì)機(jī)器英語(yǔ)翻譯特征進(jìn)行處理,則有式(7)、式(8):
g1=relu(v1e+xhn)
(7)
ster=sigmoid(v2a+xhn)
(8)
公式(7)中,e表示可信度。
根據(jù)公式(7)-公式(8)完成英語(yǔ)翻譯的特征提取,并將提取到的翻譯特征作為本次研究的基礎(chǔ)。
根據(jù)提取到的機(jī)器英語(yǔ)翻譯特征結(jié)合翻譯自動(dòng)評(píng)價(jià)方法,對(duì)機(jī)器英語(yǔ)翻譯結(jié)果進(jìn)行預(yù)判。使用皮爾遜系數(shù)[7]作為指導(dǎo)因素,對(duì)翻譯結(jié)果進(jìn)行初步分析,具體計(jì)算過(guò)程設(shè)定如式(9):
(9)
公式(9)中,o表示翻譯結(jié)果的數(shù)學(xué)期望值;d表示方差。一般情況,此公式取值結(jié)果為-1或是1,當(dāng)此計(jì)算結(jié)果具有較高的關(guān)聯(lián)性時(shí),取值結(jié)果趨近于1,否則,趨近于-1。
根據(jù)上述公式考慮到機(jī)器翻譯譯文特征,在信息預(yù)判過(guò)程中引入懲罰函數(shù),以此保證翻譯偏好程度不會(huì)對(duì)翻譯結(jié)果造成影響。則有式(10):
(10)
公式(10)中,N表示懲罰因子數(shù)量;εi表示翻譯偏好系數(shù);precision表示翻譯信息預(yù)判結(jié)果;U表示懲罰因子,其計(jì)算公式如式(11):
(11)
公式(11)中,output表示懲罰因子輸出結(jié)果,length表示懲罰因子程度;reference表示懲罰因子最優(yōu)長(zhǎng)度。
在判定過(guò)程中增加翻譯信息召回率計(jì)算過(guò)程,對(duì)公式(11)進(jìn)行整合后,得到新的判定計(jì)算公式(12):
(12)
公式(12)中,Counti(U)表示第i個(gè)懲罰函數(shù);Count(U)表示初始的懲罰函數(shù)。
使用此公式對(duì)機(jī)器翻譯結(jié)果展開(kāi)預(yù)判,確定此結(jié)果的正確率。同時(shí),獲取正確率較低的信息作為翻譯錯(cuò)誤識(shí)別訓(xùn)練組,構(gòu)建相應(yīng)的支持向量機(jī)[8],對(duì)此部分信息進(jìn)行二次判定。
對(duì)于二分類問(wèn)題,為了得到最終可靠的預(yù)判結(jié)果,將訓(xùn)練集設(shè)定為(zi,yi),i=1,2,…,n,zi∈Rn,yi∈{±1}上,分類平面可表示為式(13):
(q*z)+k=0
(13)
公式(13)中,k表示懲罰平面斜率;q與z分別表示懲罰平面的長(zhǎng)與寬。
根據(jù)公式(13)對(duì)樣本進(jìn)行正確區(qū)分,分類間隔最大化,該最優(yōu)分類結(jié)果需要滿足下述式(14)條件:
yi[(q*z)+k]≥1
(14)
以公式(14)為基礎(chǔ)構(gòu)建支持向量機(jī),則此問(wèn)題可優(yōu)化為式(15):
(15)
其中,G表示分類過(guò)程中的代價(jià)系數(shù);φ(·)表示判定過(guò)程中的非線性變換函數(shù);i表示松弛變量函數(shù)。根據(jù)此公式可得到最終的判定公式:
(16)
公式(16)中,ηi表示多特征融合系數(shù);H(zi,z)表示線性變換函數(shù);k′表示斜率偏移系數(shù)。
使用公式(16)得到機(jī)器英語(yǔ)翻譯多特征融合預(yù)判結(jié)果,根據(jù)此結(jié)果設(shè)定機(jī)器英語(yǔ)翻譯錯(cuò)誤識(shí)別算法。
根據(jù)上述設(shè)定結(jié)果,設(shè)計(jì)機(jī)器英語(yǔ)翻譯錯(cuò)誤識(shí)別算法實(shí)現(xiàn)錯(cuò)誤翻譯的自動(dòng)識(shí)別,為了使此算法具有可行性,將錯(cuò)誤翻譯結(jié)果有向圖作為算法的主要參考依據(jù),錯(cuò)誤翻譯有向圖繪制如圖1所示。
圖1 錯(cuò)誤翻譯結(jié)果有向圖
將判別過(guò)程中出現(xiàn)問(wèn)題的翻譯結(jié)果繪制為有向圖的形式,同時(shí)根據(jù)錯(cuò)誤翻譯結(jié)果有向圖使用傳統(tǒng)K-近鄰算法[9-10]構(gòu)建機(jī)器英語(yǔ)翻譯錯(cuò)誤識(shí)別算法。假設(shè)錯(cuò)誤翻譯結(jié)果的標(biāo)簽為Z,則此標(biāo)簽在翻譯結(jié)果特征空間中可表示為:
(17)
其中,{yi=Z}表示指示函數(shù)。根據(jù)翻譯結(jié)果判別結(jié)果,將翻譯結(jié)果是錯(cuò)誤結(jié)果的概率設(shè)定為p(y=1|z),則此概率的計(jì)算公式可表示為:
(18)
公式(18)中,f(z′,o)表示翻譯錯(cuò)誤判斷函數(shù)。
隨著翻譯時(shí)間的不斷延長(zhǎng),翻譯結(jié)果的數(shù)量會(huì)不斷增加,待識(shí)別區(qū)的未知錯(cuò)誤翻譯結(jié)果的數(shù)量會(huì)逐漸增加,考慮到翻譯結(jié)果標(biāo)簽數(shù)量問(wèn)題,對(duì)公式(18)進(jìn)行優(yōu)化,則存在:
(19)
公式(19)中,D(z)表示標(biāo)簽函數(shù)。
對(duì)比2組患者生活質(zhì)量以及身體功能,研究組生活質(zhì)量(42.45±5.45)分,身體功能(43.85±5.89)分,參照組生活質(zhì)量(33.45±4.89)分,身體功能(34.12±5.01)分,數(shù)據(jù)對(duì)比t值為6.9530,p值為0.05、t值為7.1181,p值為0.05,研究組評(píng)分高于參照組患者,組間對(duì)比具有顯著性差異(P<0.05)。
根據(jù)此公式對(duì)完成判別后的翻譯結(jié)果錯(cuò)誤概率進(jìn)行計(jì)算,當(dāng)錯(cuò)誤概率過(guò)高時(shí),可認(rèn)定此翻譯結(jié)果為錯(cuò)誤結(jié)果,并輸出此結(jié)果。
至此,基于多特征融合的機(jī)器英語(yǔ)翻譯錯(cuò)誤自動(dòng)識(shí)別方法設(shè)計(jì)完成。
為證實(shí)本次研究中提出的基于多特征融合的機(jī)器英語(yǔ)翻譯錯(cuò)誤自動(dòng)識(shí)別方法具有應(yīng)用價(jià)值,構(gòu)建實(shí)驗(yàn)環(huán)節(jié)對(duì)此方法的使用效果加以分析。
在本次實(shí)驗(yàn)過(guò)程中,將實(shí)驗(yàn)平臺(tái)設(shè)定為windows與linux系統(tǒng),在此系統(tǒng)中完成原始翻譯信息與擴(kuò)展信息的采集與處理,實(shí)驗(yàn)部分將在linux系統(tǒng)完成。在實(shí)驗(yàn)過(guò)程中,使用JAVA作為實(shí)驗(yàn)控制語(yǔ)言,文件的處理與實(shí)驗(yàn)結(jié)果輸出均使用此語(yǔ)言進(jìn)行控制。同時(shí),設(shè)定實(shí)驗(yàn)結(jié)果合并規(guī)則,對(duì)實(shí)驗(yàn)結(jié)果展開(kāi)處理,并輸出此結(jié)果。
實(shí)驗(yàn)中的訓(xùn)練數(shù)據(jù)主要來(lái)源于某實(shí)驗(yàn)室數(shù)據(jù)庫(kù),訓(xùn)練數(shù)據(jù)集匯總含有5000條錯(cuò)誤句子以及對(duì)應(yīng)的5000個(gè)正確句子,這些語(yǔ)句均為以英語(yǔ)為母語(yǔ)者的工作人員人工標(biāo)記語(yǔ)法錯(cuò)誤,并改正每一處錯(cuò)誤獲得。將此部分信息組合后,構(gòu)建為10個(gè)實(shí)驗(yàn)數(shù)據(jù)組,如表1所示。
表1 實(shí)驗(yàn)數(shù)據(jù)組
根據(jù)上表中內(nèi)容對(duì)采集到的翻譯信息進(jìn)行劃分,同時(shí)對(duì)詞向量進(jìn)行訓(xùn)練。使用Word2vcc工具對(duì)翻譯信息進(jìn)行訓(xùn)練,將翻譯信息的詞匯向量維度設(shè)定為1024,窗口大小設(shè)置為10,使用負(fù)采樣優(yōu)化算法將翻譯信息樣本數(shù)量設(shè)定為10,迭代次數(shù)設(shè)定為20次。在實(shí)驗(yàn)準(zhǔn)備階段,為保證實(shí)驗(yàn)結(jié)果的可靠性同時(shí)降低實(shí)驗(yàn)結(jié)果誤差,使用以往研究中預(yù)設(shè)的翻譯信息模板對(duì)訓(xùn)練集展開(kāi)訓(xùn)練,并對(duì)訓(xùn)練集進(jìn)行標(biāo)注,以此實(shí)驗(yàn)數(shù)據(jù)的劃分與處理過(guò)程。
由于本次實(shí)驗(yàn)屬于識(shí)別范疇,因此,將實(shí)驗(yàn)指標(biāo)設(shè)定為識(shí)別效果評(píng)價(jià)指標(biāo),主要包括識(shí)別準(zhǔn)確率、召回率與自動(dòng)識(shí)別有效率。在本次實(shí)驗(yàn)中,將其總結(jié)為下述計(jì)算公式:
(20)
其中,θi表示正確識(shí)別的翻譯錯(cuò)誤信息;θj表示可識(shí)別翻譯錯(cuò)誤信息。
(2)識(shí)別結(jié)果召回率:表示識(shí)別方法獲取到的錯(cuò)誤翻譯結(jié)果數(shù)量,如式(21)所示。
(21)
其中,θa表示需識(shí)別的翻譯錯(cuò)誤信息。
(3)自動(dòng)識(shí)別有效測(cè)度:此指標(biāo)表示對(duì)自動(dòng)識(shí)別方法使用的有效率,根據(jù)此指標(biāo)可確定識(shí)別方法的使用效果,如式(22)所示。
(22)
使用多特征融合方法對(duì)表1中的數(shù)據(jù)進(jìn)行識(shí)別,并使用上述公式對(duì)識(shí)別結(jié)果進(jìn)行計(jì)算,確定各指標(biāo)計(jì)算結(jié)果,并對(duì)多特征融合方法使用性能進(jìn)行分析。為提升本次實(shí)驗(yàn)結(jié)果的對(duì)比性,選擇神經(jīng)網(wǎng)絡(luò)以及統(tǒng)計(jì)模式識(shí)別方法與文中提出的多特征融合方法進(jìn)行對(duì)比分析,確定每種方法使用后的優(yōu)缺點(diǎn)。
選擇神經(jīng)網(wǎng)絡(luò)以及統(tǒng)計(jì)模式識(shí)別方法與文中提出的多特征融合方法進(jìn)行對(duì)比分析,比較了三種方法的識(shí)別準(zhǔn)確率、識(shí)別結(jié)果召回率、自動(dòng)識(shí)別有效性,結(jié)果如圖2、圖3、圖4所示。
圖2 識(shí)別準(zhǔn)確率
由圖2中顯示的數(shù)據(jù)進(jìn)行分析可以看出,在此指標(biāo)的實(shí)驗(yàn)結(jié)果中體現(xiàn)了3種方法的使用效果,多特征融合方法識(shí)別準(zhǔn)確度相對(duì)較高,可對(duì)多數(shù)翻譯錯(cuò)誤的信息進(jìn)行識(shí)別提取。與此方法相比,其他兩種方法使用后只能少量地識(shí)別到翻譯錯(cuò)誤信息,無(wú)法對(duì)實(shí)驗(yàn)組信息進(jìn)行高精度分析與識(shí)別。在多次實(shí)驗(yàn)中,均體現(xiàn)了多特征融合方法的識(shí)別精準(zhǔn)度高于其他兩種方法。因此,可以確定多特征融合方法具有較高的使用價(jià)值。
圖3 識(shí)別結(jié)果召回率
在對(duì)識(shí)別準(zhǔn)確率進(jìn)行驗(yàn)證后,對(duì)識(shí)別結(jié)果召回率展開(kāi)驗(yàn)證與分析。根據(jù)此實(shí)驗(yàn)結(jié)果可以看出,3種方法的識(shí)別召回率具有一定的差異。神經(jīng)網(wǎng)絡(luò)方法與多特征融合方法的識(shí)別結(jié)果召回率較好,可識(shí)別多種翻譯信息。統(tǒng)計(jì)模式識(shí)別方法的識(shí)別結(jié)果召回率相對(duì)較低,無(wú)法對(duì)全部翻譯信息進(jìn)行識(shí)別。 因此,使用此種方法后并不能得到較高識(shí)別結(jié)果。綜合上述結(jié)果,為得到最終實(shí)驗(yàn)結(jié)果,對(duì)不同方法的自動(dòng)識(shí)別有效測(cè)度展開(kāi)研究,具體結(jié)果如圖4 所示。
圖4 自動(dòng)識(shí)別有效測(cè)度結(jié)果
根據(jù)識(shí)別結(jié)果召回率與識(shí)別準(zhǔn)確率實(shí)驗(yàn)結(jié)果,結(jié)合公式(22)得到自動(dòng)識(shí)別有效測(cè)度結(jié)果。對(duì)此實(shí)驗(yàn)結(jié)果進(jìn)行分析后,確定了3種方法英語(yǔ)翻譯錯(cuò)誤結(jié)果的識(shí)別有效率。由此實(shí)驗(yàn)結(jié)果可知,多特征融合方法的自動(dòng)識(shí)別有效率明顯優(yōu)于其他兩種方法,可對(duì)機(jī)器應(yīng)用翻譯錯(cuò)誤進(jìn)行高精度識(shí)別。因此,在日后的研究中可使用此方法完成英語(yǔ)翻譯工作。
在本次實(shí)驗(yàn)中,使用識(shí)別準(zhǔn)確率、召回率與自動(dòng)識(shí)別有效測(cè)度對(duì)不同類型的自動(dòng)識(shí)別方法進(jìn)行分析。通過(guò)多次對(duì)比后發(fā)現(xiàn),在三組實(shí)驗(yàn)指標(biāo)中,文中提出的多特征融合識(shí)別方法為所選擇實(shí)驗(yàn)方法中使用效果最佳的方法。由此證實(shí)了多特征融合技術(shù),可應(yīng)用在機(jī)器應(yīng)用翻譯錯(cuò)誤的識(shí)別工作中。此技術(shù)應(yīng)用后可有效提升識(shí)別結(jié)果的精準(zhǔn)度與可靠性,在后續(xù)的研究中將對(duì)此方法的其他性能展開(kāi)研究,并將其投入到實(shí)際問(wèn)題的應(yīng)用過(guò)程中。
針對(duì)當(dāng)前英語(yǔ)翻譯結(jié)果,本文提出了一種新型翻譯錯(cuò)誤自動(dòng)識(shí)別方法,經(jīng)實(shí)驗(yàn)證實(shí)此方法具有一定的實(shí)用效果。此次將研究重點(diǎn)立足于識(shí)別的精準(zhǔn)度,并沒(méi)有對(duì)于其他領(lǐng)域展開(kāi)優(yōu)化。為此,在后續(xù)的研究中還需要對(duì)其他部分進(jìn)行分析,針對(duì)此方法的不足進(jìn)行完善與優(yōu)化,以提升翻譯效果,為機(jī)器翻譯技術(shù)的發(fā)展提供幫助。
黑龍江工業(yè)學(xué)院學(xué)報(bào)(綜合版)2021年10期