朱麗秋
摘 要: 為了準(zhǔn)確識(shí)別短語(yǔ),設(shè)計(jì)了一種英漢機(jī)器翻譯短語(yǔ)自動(dòng)識(shí)別新算法。首先構(gòu)建標(biāo)記規(guī)模約為58萬(wàn)個(gè)英漢單詞的短語(yǔ)語(yǔ)料庫(kù),為短語(yǔ)賦予基本的可搜索功能,保證翻譯真實(shí)度;然后以短語(yǔ)中心點(diǎn)構(gòu)造短語(yǔ)結(jié)構(gòu),改進(jìn)標(biāo)準(zhǔn)GLR算法,在短語(yǔ)語(yǔ)料庫(kù)的短語(yǔ)標(biāo)記上識(shí)別短語(yǔ)詞性,得到詞性識(shí)別結(jié)果;最后通過(guò)解析線性表的句法功能校正詞性識(shí)別結(jié)果中的英漢結(jié)構(gòu)歧義,得到最終的識(shí)別結(jié)果。實(shí)驗(yàn)組織測(cè)評(píng)小組以打分方式對(duì)所設(shè)計(jì)的算法進(jìn)行測(cè)評(píng),測(cè)評(píng)結(jié)果證明算法的短語(yǔ)識(shí)別精度、識(shí)別速度和更新能力均很優(yōu)秀。
關(guān)鍵詞: 英漢機(jī)器翻譯; 短語(yǔ)自動(dòng)識(shí)別; GLR算法; 詞性識(shí)別
中圖分類號(hào): TN99?34; TP391.2 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)15?0126?03
Abstract: In order to identify the phrases accurately, a new phrase automatic identification algorithm for English?Chinese machine translation was designed. The phrase corpus with about 580 000 English?Chinese words was constructed to give the basic search function of the phrase, and guarantee the truth translation. The phrase is taken as the center point to construct the phrase structure. The standard GLR algorithm is improved. The phrase speech is recognized on the phrase marker of the phrase corpus to obtain the speech recognition results. The syntax function of the linear list is parsed to correct the English?Chinese structural ambiguity in the speech recognition results, and obtain the final recognition result. The algorithm was evaluated by the experimental group assessment team in the form of scoring. The evaluation results prove that the algorithm has high phrase recognition accuracy, fast recognition speed, and strong update ability.
Keywords: English?Chinese machine translation; phrase automatic recognition; GLR algorithm; speech recognition
0 引 言
短語(yǔ)中蘊(yùn)含的語(yǔ)義往往是一段語(yǔ)句的重點(diǎn)釋義內(nèi)容,短語(yǔ)自動(dòng)識(shí)別是語(yǔ)言識(shí)別范疇內(nèi)的一項(xiàng)重要課題,其作用是從語(yǔ)句中采集短語(yǔ)進(jìn)行翻譯和自動(dòng)組合,進(jìn)而得到整段語(yǔ)句的翻譯。短語(yǔ)的自動(dòng)識(shí)別結(jié)果在機(jī)器翻譯中被廣泛使用,能實(shí)現(xiàn)平行語(yǔ)料的精確對(duì)齊和翻譯樣本的選調(diào)。在英漢機(jī)器翻譯中,英語(yǔ)與漢語(yǔ)的語(yǔ)法存在高度歧義,語(yǔ)句分析任務(wù)異常艱巨,而短語(yǔ)自動(dòng)識(shí)別對(duì)語(yǔ)法歧義具有定向消除能力,可以說(shuō),英漢機(jī)器翻譯離不開(kāi)短語(yǔ)自動(dòng)識(shí)別。
結(jié)構(gòu)歧義是英漢語(yǔ)法歧義中最復(fù)雜的一項(xiàng)[1],不可避免地成為目前短語(yǔ)自動(dòng)識(shí)別算法的重要設(shè)計(jì)內(nèi)容。在很多短語(yǔ)自動(dòng)識(shí)別算法中,一些在人工翻譯中極為簡(jiǎn)單的結(jié)構(gòu)卻無(wú)法得到準(zhǔn)確識(shí)別,測(cè)評(píng)結(jié)果得分高的英漢機(jī)器翻譯短語(yǔ)自動(dòng)識(shí)別算法非常少,因此,設(shè)計(jì)一種新算法,用短語(yǔ)在語(yǔ)句中的句法功能來(lái)決定翻譯結(jié)果中的位置排列范圍。
1 英漢機(jī)器翻譯中短語(yǔ)自動(dòng)識(shí)別算法
1.1 短語(yǔ)語(yǔ)料庫(kù)的構(gòu)建
語(yǔ)料庫(kù)是以計(jì)算機(jī)為載體存放語(yǔ)言材料的數(shù)據(jù)庫(kù),構(gòu)建短語(yǔ)語(yǔ)料庫(kù)的作用是對(duì)英漢雙語(yǔ)中的短語(yǔ)詞性進(jìn)行標(biāo)記,為短語(yǔ)賦予基礎(chǔ)功能,提升英漢機(jī)器翻譯短語(yǔ)自動(dòng)識(shí)別算法對(duì)識(shí)別任務(wù)的搜索精度和效率[2]。短語(yǔ)語(yǔ)料庫(kù)的性能直接決定著算法的測(cè)評(píng)分?jǐn)?shù),可采取加大標(biāo)記范圍等方式提高算法測(cè)評(píng)分?jǐn)?shù)。表1對(duì)算法的短語(yǔ)語(yǔ)料庫(kù)信息進(jìn)行了描述。
短語(yǔ)語(yǔ)料庫(kù)的標(biāo)記規(guī)模約為58萬(wàn)個(gè)英漢單詞,大致能構(gòu)造出2萬(wàn)段語(yǔ)句、1萬(wàn)個(gè)短語(yǔ),而普通的短語(yǔ)語(yǔ)料庫(kù)僅能構(gòu)造1萬(wàn)段語(yǔ)句。如表1所示,短語(yǔ)語(yǔ)料庫(kù)充分考慮了語(yǔ)料的應(yīng)用領(lǐng)域和體制,可對(duì)日常交際、商務(wù)、科技和機(jī)械領(lǐng)域的各類溝通進(jìn)行英漢互譯。語(yǔ)料標(biāo)記方式依次采用數(shù)據(jù)、層次和加工方式,以文本格式進(jìn)行短語(yǔ)定義,識(shí)別短句詞性以完成語(yǔ)句對(duì)齊,使用人機(jī)自主溝通進(jìn)行英漢翻譯語(yǔ)句的去重和校準(zhǔn)[2],保證短語(yǔ)語(yǔ)料翻譯的真實(shí)程度。下面舉例說(shuō)明短語(yǔ)預(yù)料庫(kù)的具體應(yīng)用。
原語(yǔ)句:I know you are a machine factory of physics facilities.
詞性標(biāo)記:I / Verb know / INC you/ PRP are / NNS a / VBP machine / VBP factory / NNS of / INP physics / JJ facilities / NNS./
1.2 短語(yǔ)語(yǔ)料庫(kù)詞性識(shí)別
詞性識(shí)別是英漢機(jī)器翻譯短語(yǔ)自動(dòng)識(shí)別算法的一項(xiàng)重要處理步驟,適用于大規(guī)模語(yǔ)句、短語(yǔ)和單詞的語(yǔ)法歧義排除[3]。在短語(yǔ)預(yù)料庫(kù)的詞性標(biāo)記下,語(yǔ)句被分成若干個(gè)單詞,單詞進(jìn)行對(duì)齊后組成短語(yǔ),經(jīng)詞性識(shí)別后在短語(yǔ)中寫(xiě)入依存關(guān)系,形成句法樹(shù)[4],一方面縮減了英漢機(jī)器翻譯任務(wù);另一方面有利于提高短語(yǔ)語(yǔ)料庫(kù)的處理效率。
GLR(Generalized maximum likelihood ratio,狹義最大似然比檢測(cè))算法是詞性識(shí)別的基礎(chǔ)算法,為一個(gè)分辨短語(yǔ)上下文似然性的過(guò)程,其基礎(chǔ)識(shí)別理論是動(dòng)態(tài)識(shí)別表單和無(wú)條件轉(zhuǎn)移語(yǔ)句。標(biāo)準(zhǔn)GLR算法中的任何一個(gè)處理步驟都擁有多種移位指令和精簡(jiǎn)操作,步驟的開(kāi)始和結(jié)束以特殊標(biāo)志表示[5]。在英漢短語(yǔ)翻譯不存在語(yǔ)法歧義時(shí),GLR算法直接進(jìn)入去重和校準(zhǔn),一旦碰到語(yǔ)法歧義,通過(guò)句法的幾何結(jié)構(gòu)線性表調(diào)取解析線性表,對(duì)短語(yǔ)動(dòng)作進(jìn)行識(shí)別,給出所有可能正確的動(dòng)作安置結(jié)果,存入不同的識(shí)別通道中進(jìn)行符號(hào)識(shí)別,由符號(hào)識(shí)別給出最佳動(dòng)作安置結(jié)果。
標(biāo)準(zhǔn)GLR算法給出的識(shí)別結(jié)果數(shù)量是不確定的,不同識(shí)別結(jié)果中有可能存在數(shù)據(jù)點(diǎn)重合,識(shí)別精度普遍偏低。在所設(shè)計(jì)的英漢機(jī)器翻譯短語(yǔ)自動(dòng)識(shí)別算法中,對(duì)標(biāo)準(zhǔn)GLR算法進(jìn)行改進(jìn),以短語(yǔ)中心點(diǎn)構(gòu)造短語(yǔ)結(jié)構(gòu),提高識(shí)別精度。
改進(jìn)GLR算法以四元集群表示短語(yǔ)上下文的似然性:
設(shè)是中的任意動(dòng)作且同時(shí)存在于中,有:
式中:依次表示動(dòng)作右側(cè)符號(hào)、中心點(diǎn)符號(hào)、約束值和標(biāo)記方式,和同時(shí)位于與中[7],可位于中,也可位于中。
改進(jìn)GLR算法要求識(shí)別結(jié)果線性表最高層出現(xiàn)的符號(hào)與始終保持一致,約束值必須為真,中心點(diǎn)符號(hào)不能為空值。同時(shí)滿足以上三點(diǎn)要求的識(shí)別結(jié)果為短語(yǔ)詞性識(shí)別結(jié)果。
1.3 英漢機(jī)器翻譯短語(yǔ)自動(dòng)識(shí)別算法校正流程
在以往的英漢機(jī)器翻譯短語(yǔ)自動(dòng)識(shí)別算法中,短語(yǔ)語(yǔ)料庫(kù)的詞性識(shí)別結(jié)果即為最終結(jié)果,但詞性識(shí)別并沒(méi)有改善英漢語(yǔ)言之間的結(jié)構(gòu)歧義[8],對(duì)詞性識(shí)別結(jié)果進(jìn)行校正是必不可少的。GLR算法中利用解析線性表對(duì)短語(yǔ)動(dòng)作進(jìn)行識(shí)別,除此之外,解析線性表還具備另一項(xiàng)功能,即句法功能識(shí)別,其以推進(jìn)、歸約、接受、終止、出錯(cuò)為指針?lè)治鲈~性識(shí)別結(jié)果中的錯(cuò)誤點(diǎn),通過(guò)搜索短語(yǔ)語(yǔ)料庫(kù)中的短語(yǔ)標(biāo)記內(nèi)容對(duì)錯(cuò)誤點(diǎn)進(jìn)行校正[9],圖1為英漢機(jī)器翻譯短語(yǔ)自動(dòng)識(shí)別算法校正流程圖。
如圖1所示,歸約與推進(jìn)指令的作用非常類似,都要求重新替換解析線性表中的終止符位置,但在意義上存在本質(zhì)區(qū)別。歸約是指重新制定句法功能識(shí)別約束條件,表示前一個(gè)約束條件無(wú)效或循環(huán)過(guò)程出現(xiàn)錯(cuò)誤。推進(jìn)是指在本次句法功能識(shí)別中不存在結(jié)構(gòu)歧義的錯(cuò)誤點(diǎn),位于終止符前方的短語(yǔ)詞性識(shí)別結(jié)果是正確的,應(yīng)調(diào)取接受指針輸出留用。接受指針和推進(jìn)指針在正常情況下是同時(shí)出現(xiàn)的,若算法流程中只存在二者之一,表明循環(huán)出錯(cuò)或算法設(shè)定出錯(cuò),應(yīng)重新調(diào)出解析線性表,收回已接受的詞性識(shí)別結(jié)果。在替換終止符之前,對(duì)指針類型進(jìn)行檢測(cè),如果為歸約指針,檢測(cè)指針的約束條件能否在短語(yǔ)語(yǔ)料庫(kù)中搜索到,若搜索不到,進(jìn)入終止指針。
終止指針產(chǎn)生于有可能存在結(jié)構(gòu)歧義的預(yù)備點(diǎn)上,出現(xiàn)終止指針后,算法構(gòu)造短語(yǔ)結(jié)構(gòu)樹(shù),標(biāo)記符號(hào)棧,分析預(yù)備點(diǎn)的中心點(diǎn)符號(hào)是否存在且安置在正確的語(yǔ)句結(jié)構(gòu)上,若不存在或安置錯(cuò)誤,算法立即調(diào)取出錯(cuò)指針校正詞性的識(shí)別結(jié)果。
整個(gè)算法校正流程存在多個(gè)短語(yǔ)識(shí)別輸出口,而一個(gè)接受指針單次只能輸出一個(gè)識(shí)別結(jié)果,當(dāng)發(fā)生多個(gè)識(shí)別結(jié)果需要同時(shí)輸出的情況時(shí)(如兩個(gè)短語(yǔ)在語(yǔ)句中的位置是相鄰的),將多個(gè)識(shí)別結(jié)果寫(xiě)入短語(yǔ)結(jié)構(gòu)樹(shù)的同一個(gè)節(jié)點(diǎn)中,這時(shí)接受指針會(huì)自動(dòng)將其視為一個(gè)識(shí)別結(jié)果。
2 實(shí)驗(yàn)測(cè)評(píng)
2.1 測(cè)評(píng)方法
實(shí)驗(yàn)組織了測(cè)評(píng)小組,對(duì)本文設(shè)計(jì)的英文機(jī)器翻譯短語(yǔ)自動(dòng)識(shí)別算法性能進(jìn)行測(cè)評(píng),包括短語(yǔ)識(shí)別精度、識(shí)別速度和更新能力。測(cè)評(píng)小組包含3臺(tái)英漢機(jī)器翻譯、2名英漢翻譯人員和2名打分人員。3臺(tái)英漢機(jī)器翻譯的規(guī)格相同,初始化后分別裝備本文算法、統(tǒng)計(jì)算法和動(dòng)態(tài)記憶算法。
測(cè)評(píng)方法使用封閉測(cè)評(píng)和開(kāi)發(fā)測(cè)評(píng)。封閉測(cè)評(píng)是指對(duì)特定英漢翻譯語(yǔ)句中的短語(yǔ)進(jìn)行自動(dòng)識(shí)別;開(kāi)發(fā)測(cè)評(píng)中的英漢翻譯語(yǔ)句由網(wǎng)絡(luò)隨機(jī)挑選[10]。通過(guò)三種短語(yǔ)自動(dòng)識(shí)別算法識(shí)別并給出翻譯結(jié)果后,2名英漢翻譯人員以交流方式進(jìn)行翻譯,打分人員對(duì)比機(jī)器翻譯與人工翻譯,按照打分規(guī)則為三種算法打分,打分規(guī)則如下:
(1) 算法的識(shí)別精度、識(shí)別速度和更新能力的分?jǐn)?shù)分別占總分的90%,5%,5%。
(2) 識(shí)別精度打分規(guī)則(不考慮錯(cuò)別字)如下:
100分:翻譯結(jié)構(gòu)意義表達(dá)完全準(zhǔn)確,語(yǔ)法結(jié)構(gòu)無(wú)需修改;
80分:整體釋義表述清晰,存在微小的語(yǔ)法結(jié)構(gòu)錯(cuò)誤,必要時(shí)應(yīng)進(jìn)行簡(jiǎn)單修改;
60分:整體釋義表述清晰,存在多處語(yǔ)法結(jié)構(gòu)錯(cuò)誤,必須進(jìn)行修改,否則意義表述存在歧義;
40分:部分釋義表述清晰,短語(yǔ)釋義無(wú)明顯錯(cuò)誤,整體釋義不連貫;
20分:整體和部分釋義均很混亂,短語(yǔ)釋義存在明顯錯(cuò)誤;
0分:整體和部分釋義均很混亂,不知所云。
(3) 識(shí)別速度和更新能力的打分規(guī)則使用加權(quán)平均值法,即將算法的總識(shí)別時(shí)間和總更新時(shí)間乘以權(quán)值后進(jìn)行求和,再除以短語(yǔ)識(shí)別數(shù)量。
2.2 測(cè)評(píng)結(jié)果
實(shí)驗(yàn)分別在封閉測(cè)評(píng)和開(kāi)發(fā)測(cè)評(píng)中進(jìn)行了60個(gè)語(yǔ)句的短語(yǔ)識(shí)別,三種算法的測(cè)評(píng)結(jié)果見(jiàn)表2~表4,測(cè)評(píng)結(jié)果得分最高的是本文算法,平均為92.3分,最低的是統(tǒng)計(jì)算法,為75.1分。動(dòng)態(tài)記憶算法的測(cè)評(píng)結(jié)果得分為91.2分,與本文算法的得分相差不大,但動(dòng)態(tài)記憶算法的更新能力嚴(yán)重不足,從長(zhǎng)遠(yuǎn)角度來(lái)看,本文算法更具實(shí)用價(jià)值。
3 結(jié) 論
基于改進(jìn)的GLR算法和解析線性表設(shè)計(jì)的英漢機(jī)器翻譯短語(yǔ)自動(dòng)識(shí)別算法改進(jìn)了標(biāo)準(zhǔn)GLR算法識(shí)別結(jié)果精度低的缺陷,又以解析線性表對(duì)短語(yǔ)的詞性和結(jié)構(gòu)進(jìn)行識(shí)別,給出短語(yǔ)在語(yǔ)句中最為正確的安置位置。整個(gè)算法的計(jì)算簡(jiǎn)便、解析難度低,并且短語(yǔ)識(shí)別精度高、識(shí)別速度快、更新能力強(qiáng),同以往設(shè)計(jì)的短語(yǔ)自動(dòng)識(shí)別算法相比,本文算法的優(yōu)勢(shì)突出,實(shí)用性強(qiáng)。
參考文獻(xiàn)
[1] 李英軍.機(jī)器翻譯與翻譯技術(shù)研究的現(xiàn)狀與展望:伯納德馬克沙特爾沃思訪談錄[J].中國(guó)科技翻譯,2014,27(1):24?27.
[2] 李強(qiáng),何燕龍,欒爽,等.統(tǒng)計(jì)機(jī)器翻譯刪詞問(wèn)題研究[J].中文信息學(xué)報(bào),2014,28(5):125?132.
[3] 楊憲澤,陳毅紅.漢藏機(jī)器翻譯的特點(diǎn)與手寫(xiě)漢字切分分析研究[J].計(jì)算機(jī)工程與科學(xué),2014,36(8):1595?1598.
[4] 蘇晨,張玉潔,郭振,等.使用源語(yǔ)言復(fù)述知識(shí)改善統(tǒng)計(jì)機(jī)器翻譯性能[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,51(2):342?348.
[5] 李強(qiáng),李沐,張冬冬,等.統(tǒng)計(jì)機(jī)器翻譯中實(shí)例短語(yǔ)對(duì)研究[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,52(1):113?119.
[6] 尤勝.基于異構(gòu)技術(shù)的數(shù)字圖書(shū)館信息統(tǒng)計(jì)平臺(tái)[J].現(xiàn)代電子技術(shù),2016,39(7):167?170.
[7] 孟凡軍,李天偉,徐冠雷,等.基于K均值聚類算法的霧天識(shí)別方法研究[J].現(xiàn)代電子技術(shù),2015,38(22):80?83.
[8] 崔啟亮,李聞.譯后編輯錯(cuò)誤類型研究:基于科技文本英漢機(jī)器翻譯[J].中國(guó)科技翻譯,2015,28(4):19?22.
[9] 應(yīng)玉龍,項(xiàng)明.局部相位量化特征的織物瑕疵檢測(cè)算法[J].西安工程大學(xué)學(xué)報(bào),2015,29(5):541?545.
[10] 汪昆,宗成慶,蘇克毅.統(tǒng)計(jì)機(jī)器翻譯和翻譯記憶的動(dòng)態(tài)融合方法研究[J].中文信息學(xué)報(bào),2015,29(2):87?94.