梁亞敏
(陜西咸陽師范學(xué)院,陜西咸陽 712000)
語料庫主要指的是兩種語言對(duì)照的雙語語料的集合,能夠在翻譯的時(shí)候,通過軟件或是工具匹配翻譯語段和語料庫的匹配程度,幫助翻譯人員完成翻譯工作[1]。異質(zhì)性是一種生物學(xué)概念。但將其運(yùn)用在數(shù)據(jù)上時(shí),主要指的是一個(gè)群體中所有個(gè)體的特征差異程度。異質(zhì)性越大,其對(duì)應(yīng)的個(gè)體特征分布越分散[2]。隨著翻譯語料庫內(nèi)容不斷地豐富,處理的翻譯數(shù)據(jù)對(duì)象越來越復(fù)雜,數(shù)據(jù)的特征維數(shù)也不斷增多。
貪心算法是指對(duì)問題求解時(shí),總是做出當(dāng)前最好選擇,也就是針對(duì)問題得到局部最優(yōu)解。根據(jù)數(shù)據(jù)的處理方式與變量處理方式的不同,如今的貪心算法可分為經(jīng)典貪心算法、分布式貪心算法以及隨機(jī)式貪心算法[3]。為此,本研究使用貪心算法構(gòu)建一種翻譯語料庫異質(zhì)性特征自動(dòng)挖掘方法,將異質(zhì)性數(shù)據(jù)控制在同一個(gè)空間領(lǐng)域中,形成一個(gè)自動(dòng)挖掘過程。
多數(shù)的翻譯語料庫中存在大量的搜索條件[4],對(duì)于異質(zhì)性特征來講,特征選擇的解空間大小為2|C|,此時(shí)翻譯語料庫內(nèi)的空間可用高度為|C|的完全二叉樹來描述,形成的空間樹結(jié)構(gòu)如圖1所示。
圖1 翻譯語料庫形成的空間樹結(jié)構(gòu)
在如圖1所示的空間樹結(jié)構(gòu)下,可將異質(zhì)性特征劃分為代價(jià)敏感、最小測試代價(jià)以及約束特征三個(gè)特征選擇過程[5]。首先針對(duì)代價(jià)敏感語料,假設(shè)該敏感語料A為獨(dú)立狀態(tài),并且AC,其中C為翻譯語料庫,此時(shí)該敏感語料獨(dú)立翻譯語料庫的過程就可表示為:
其中,c表示敏感翻譯語料庫,a 表示敏感語料集合,其余參數(shù)含義不變。在實(shí)際運(yùn)用翻譯語料庫時(shí),同一類別的敏感語料集存在相同的異質(zhì)性特征[6]。為了防止異質(zhì)性特征的重復(fù)選擇,設(shè)定一個(gè)公共測試代價(jià)gc(k),該測試代價(jià)滿足0<gc(k)<minc(a),故此時(shí)敏感語料的異質(zhì)性選擇過程就可表示為:
其中,k表示敏感詞匯組別,其余參數(shù)含義不變。敏感語料特征選擇完畢后,以敏感語料集中的相對(duì)約簡集合為最小測試代價(jià)集,那么此時(shí)最小測試代價(jià)集的特征選擇過程就可表示為:
其中,S表示敏感語料集中的相對(duì)約簡集合,R'表示測試集合,R表示特征集合,c表示測試代價(jià)函數(shù)。約束特征受到翻譯語料的限制,在選擇約束特征的異質(zhì)性特征時(shí),將選擇子約簡作為選擇過程[7],公式處理過程可表示為:
其中,cm表示約束特征測試代價(jià)上限,B表示異質(zhì)性特征輸出,其余參數(shù)含義不變。以上述過程作為異質(zhì)性特征作為處理對(duì)象,采用貪心算法評(píng)估異質(zhì)性特征的節(jié)點(diǎn)影響潛力,根據(jù)不同的節(jié)點(diǎn)影響潛力予以自動(dòng)挖掘。
整合上述各個(gè)異質(zhì)性特征并定義為一個(gè)形式化的集合c(j),考慮到不同異質(zhì)性特征集中的拓?fù)涠认禂?shù),形式化的集合就可處理為節(jié)點(diǎn)集合,節(jié)點(diǎn)處理公式可表示為:
其中,Ej表示節(jié)點(diǎn)的復(fù)雜度參數(shù),其余參數(shù)含義不變。在處理時(shí)間的控制下,假定節(jié)點(diǎn)i對(duì)節(jié)點(diǎn)j的影響力為bij,此時(shí)節(jié)點(diǎn)之間的影響力就可表示為:
其中,Pi表示節(jié)點(diǎn)i的影響潛力,Pj表示節(jié)點(diǎn)j的影響潛力,C(i)表示節(jié)點(diǎn)i的聚集系數(shù)。根據(jù)影響參數(shù)的大小,計(jì)算節(jié)點(diǎn)的邊際影響,計(jì)算公式可表示為:
其中,μ(Si)表示激活翻譯語料庫節(jié)點(diǎn)的范圍,u表示現(xiàn)有激活節(jié)點(diǎn)集,整合上述計(jì)算公式(8)與(9)作為最終節(jié)點(diǎn)影響潛力過程,以節(jié)點(diǎn)的影響潛力大小作為異質(zhì)性挖掘特征,最終完成特征的自動(dòng)挖掘。
以上述節(jié)點(diǎn)影響潛力作為異質(zhì)性挖掘特征,整合上述節(jié)點(diǎn)影響潛力為一個(gè)維度d的樣本集xi,采用PCA在維度為d空間中選擇k個(gè)向量,控制向量的投影存在最大方差,方差可表示為:
其中,vT表示投影向量,其余參數(shù)含義不變。整合上述投影向量為一個(gè)激活函數(shù),形成的激活函數(shù)可表示為:
其中,k表示激活函數(shù)的輸出值。為了實(shí)現(xiàn)挖掘的自動(dòng)過程,控制上述激活函數(shù)為一個(gè)自動(dòng)輸出過程,形成的自動(dòng)控制過程如圖2所示。
圖2 激活函數(shù)自動(dòng)輸出過程
在如圖2所示的自動(dòng)輸出過程下,將Zk作為激活函數(shù)的挖掘值,輸入數(shù)據(jù)會(huì)在不同翻譯語料庫輸出過程中產(chǎn)生一定的誤差,該部分誤差可表示為:
其中,yk表示翻譯語料數(shù)據(jù)庫的輸出規(guī)則,tk表示樣本預(yù)測輸出。聯(lián)立上述計(jì)算公式(10)與(12),以方差數(shù)值作為誤差的能量值,異質(zhì)性特征值誤差能量的變化如圖3所示。
圖3 誤差能量數(shù)值的變化
在圖3所示的能量變化下,前二十個(gè)誤差能量數(shù)值呈現(xiàn)出不穩(wěn)定的能量百分比參數(shù)變化,采用PCA 處理方法重新投影公式(10)中的投影向量回到原始坐標(biāo)系,重復(fù)投影處理直至百分比參數(shù)為一個(gè)定值。
綜合上述處理過程,最終完成對(duì)基于貪心算法的翻譯語料庫異質(zhì)性特征自動(dòng)挖掘方法的研究。
為驗(yàn)證上述基于貪心算法的翻譯語料庫異質(zhì)性特征自動(dòng)挖掘方法的有效性,設(shè)計(jì)如下實(shí)驗(yàn)。
實(shí)驗(yàn)環(huán)境參數(shù)如表1所示。
表1 準(zhǔn)備PC機(jī)參數(shù)
在表1所示的PC 機(jī)參數(shù)下,準(zhǔn)備翻譯語料庫中的中文文本指標(biāo)以及對(duì)應(yīng)的英文文本指標(biāo)作為數(shù)據(jù)處理對(duì)象,以語料庫中英文的平均路徑長度、出入度、可讀性以及語義具體度作為指標(biāo),準(zhǔn)備的中英文語料庫如表2所示。
表2 準(zhǔn)備含有中英文文本指標(biāo)的數(shù)據(jù)庫
按照如表2指標(biāo)數(shù)量,設(shè)定不同序列長度的數(shù)據(jù)集,實(shí)驗(yàn)數(shù)據(jù)集如表3所示。
準(zhǔn)備如表3所示的實(shí)驗(yàn)數(shù)據(jù)集,分別使用傳統(tǒng)的基于統(tǒng)計(jì)特征的挖掘方法、基于雙閾值A(chǔ)priori 算法和非頻繁項(xiàng)集的挖掘方法以及本研究設(shè)計(jì)的基于貪心算法的挖掘方法進(jìn)行實(shí)驗(yàn),對(duì)比三種自動(dòng)挖掘方法的實(shí)際應(yīng)用性能。
表3 準(zhǔn)備的實(shí)驗(yàn)數(shù)據(jù)集
基于上述實(shí)驗(yàn)準(zhǔn)備,選取中英文指標(biāo)數(shù)據(jù)庫作為實(shí)驗(yàn)對(duì)象,以數(shù)據(jù)庫總挖掘得到的節(jié)點(diǎn)數(shù)量為三種自動(dòng)挖掘方法的對(duì)比指標(biāo),三種特征自動(dòng)挖掘方法最終挖掘得到的節(jié)點(diǎn)數(shù)量結(jié)果如表4所示。
表4 三種特征自動(dòng)挖掘方法得到的指標(biāo)節(jié)點(diǎn)數(shù)量
由表4所示的指標(biāo)節(jié)點(diǎn)數(shù)量結(jié)果可知,三種特征自動(dòng)挖掘方法針對(duì)中英文翻譯指標(biāo)數(shù)據(jù)庫表現(xiàn)出了不同的指標(biāo)節(jié)點(diǎn)挖掘結(jié)果?;诮y(tǒng)計(jì)特征的挖掘方法得到的指標(biāo)節(jié)點(diǎn)數(shù)量最少,基于雙閾值A(chǔ)priori 算法和非頻繁項(xiàng)集的挖掘方法得到的節(jié)點(diǎn)數(shù)量較多,而基于貪心算法的挖掘方法得到的指標(biāo)節(jié)點(diǎn)數(shù)量最多。
保持上述實(shí)驗(yàn)環(huán)境不變,針對(duì)特征序列長度為處理對(duì)象,特征權(quán)重的計(jì)算公式可表示:
其中,α表示語料詞頻權(quán)重,c表示翻譯詞匯權(quán)重,β表示詞頻權(quán)重,l 表示標(biāo)題權(quán)重。采用三種不同自動(dòng)挖掘方法處理準(zhǔn)備的實(shí)驗(yàn)數(shù)據(jù)集后,使用上述計(jì)算公式(13)計(jì)算三種自動(dòng)挖掘方法異質(zhì)性特征權(quán)重,計(jì)算結(jié)果如圖4所示。
由圖4所示的異質(zhì)性特征權(quán)重?cái)?shù)值可知,以實(shí)驗(yàn)準(zhǔn)備的實(shí)驗(yàn)集作為實(shí)驗(yàn)對(duì)象,三種自動(dòng)挖掘方法中,基于統(tǒng)計(jì)特征的挖掘方法得到的平均異質(zhì)性特征權(quán)重?cái)?shù)值最小,平均數(shù)值在3 左右,基于雙閾值A(chǔ)priori 算法和非頻繁項(xiàng)集的挖掘方法得到的異質(zhì)性權(quán)重?cái)?shù)值較大,平均數(shù)值在10左右,而基于貪心算法的挖掘方法得到的特質(zhì)性權(quán)重?cái)?shù)值最大,平均數(shù)值在20左右。
圖4 三種自動(dòng)挖掘方法異質(zhì)性特征權(quán)重
在上述實(shí)驗(yàn)環(huán)境下,設(shè)定一個(gè)F值作為翻譯語料庫中的固定值,定義各個(gè)自動(dòng)挖掘算法的挖掘有效性為節(jié)點(diǎn)與固定值之間的距離大小,距離越小則表示該種挖掘算法的有效性越強(qiáng),有效性的計(jì)算公式可表示為:
其中,t表示語料庫的固定值,k表示自動(dòng)挖掘方法得到的節(jié)點(diǎn),u表示特質(zhì)性權(quán)重?cái)?shù)值。設(shè)定語料庫中的固定值數(shù)值在10~100 之間,在不同固定數(shù)值的控制下,三種特征自動(dòng)挖掘方法得到的偏移數(shù)值結(jié)果如表5所示。
表5 三種特征自動(dòng)挖掘方法的有效性結(jié)果
由表5所示的數(shù)值結(jié)果可知,三種自動(dòng)挖掘方法針對(duì)相同的數(shù)據(jù)集合表現(xiàn)出了不同的有效性,改變?cè)O(shè)定的固定值大小,基于統(tǒng)計(jì)特征的挖掘方法得到的偏移量數(shù)值最大,結(jié)合定義可知該種自動(dòng)挖掘方法的有效性最低,基于雙閾值A(chǔ)priori算法和非頻繁項(xiàng)集的挖掘方法得到的偏移量數(shù)值較小,數(shù)值在100~200之間,該種挖掘算法的有效性較強(qiáng)。而基于貪心算法的挖掘方法得到的偏移量數(shù)值在20~70 之間,偏移量最小,挖掘算法的有效性越強(qiáng)。
綜合上述實(shí)驗(yàn)結(jié)果可知,基于貪心算法的挖掘方法得到的節(jié)點(diǎn)指標(biāo)數(shù)量最多、異質(zhì)性特征權(quán)重最大,有效性越強(qiáng)。
信息化的社會(huì)充斥著大量的語言特殊表達(dá),挖掘翻譯語料庫中的異質(zhì)性特征成為了當(dāng)下研究的熱點(diǎn)之一。本研究在貪心算法的控制下,構(gòu)建翻譯語料庫異質(zhì)性特征自動(dòng)挖掘方法,能夠改善傳統(tǒng)自動(dòng)挖掘方法有效性較差的不足,為今后研究特質(zhì)性特征挖掘提供研究方向。