王靜雅,袁保社
(新疆大學(xué)信息工程學(xué)院,烏魯木齊 830046)
基于模板的漢維商品命名實(shí)體翻譯研究
王靜雅,袁保社
(新疆大學(xué)信息工程學(xué)院,烏魯木齊830046)
基于模板的翻譯方法TBMT(Template Based Machine Translation)是基于規(guī)則的機(jī)器翻譯(RBMT)方法和基于實(shí)例的機(jī)器翻譯(EBMT)方法的結(jié)合與優(yōu)化[1]。商品名是一種特殊的命名實(shí)體,如果直接使用現(xiàn)有的命名實(shí)體翻譯技術(shù),會出現(xiàn)很多問題。我們通過分析大量的產(chǎn)品命名實(shí)體,發(fā)現(xiàn)其結(jié)構(gòu)通常為:品牌名+型號名+修飾詞+核心詞+規(guī)格說明。共同點(diǎn)如下:同品牌商品名中相同詞語重復(fù)率大、同系列商品命名結(jié)構(gòu)類似、形容詞多等。結(jié)合商品命名實(shí)體自身結(jié)構(gòu),我們認(rèn)為此方法十分適合商品名實(shí)體的翻譯。
本文中,我們提出一種改進(jìn)了的TTL機(jī)器翻譯模板自動抽取算法。這種方法是首先將語料進(jìn)行聚類操作,通過對相似實(shí)例一一進(jìn)行比較,統(tǒng)計(jì)出現(xiàn)頻率較高但并不是全部出現(xiàn)的詞語或短語,添加作為候選部分。此方法使模板質(zhì)量有明顯提高,可大大減少翻譯時模板匹配時的工作量,提高效率。
1.1TTL模板抽取算法
Ilyas Cicekli和H.Altay Guvenir于 2001年提出TTL(Translation Template Learner)啟發(fā)式類比學(xué)習(xí)模板抽取算法,此方法不需要語法知識和句法結(jié)構(gòu)。主要思想是從兩對互譯的實(shí)例中學(xué)習(xí)得到翻譯模板;通過比較實(shí)例中的相同部分和不同部分,將相同部分作為固定項(xiàng),不同部分作為可變項(xiàng),然后加以歸納,將不同部分進(jìn)行變量置換而得到翻譯模板。最后建立源語言和目標(biāo)語言變量之間的對應(yīng)關(guān)系[2]。文獻(xiàn)[3]也用過類似算法進(jìn)行模板的抽取,但主要針對的是農(nóng)業(yè)常用短語進(jìn)行的模板抽取。
1.2改進(jìn)的TTL模板抽取算法
由于TTL算法只能從結(jié)構(gòu)相同或相近的實(shí)例對中取得好模板,若從結(jié)構(gòu)差異大的實(shí)例對中,往往抽取出無用模板。并且只需比較兩個實(shí)例就可抽取出一個模板,得到模板重復(fù)較多,質(zhì)量和泛化能力不高。我們對TTL模板抽取算法進(jìn)行改進(jìn),主要通過語料聚類和加入候選項(xiàng)兩個方面。
(1)語料聚類
聚類操作是利用文獻(xiàn)[4]提出的相似度計(jì)算方法,利用公式(1),(2),計(jì)算每個商品名的相似度,將相似度大于特定閾值的語料歸為同類。
在公式(1)中,前一部分表示詞形相似度,后一部分表示詞序相似度。其中SameWord(S1+S2)表示兩實(shí)例中相同詞語的個數(shù),Word表示實(shí)例中詞語的個數(shù)。公式2中OnceWS(S1,S2)表示在S1,S2中都出現(xiàn)且都只出現(xiàn)一次的單詞的集合。RevOrd(S1,S2)表示相同單詞在S1中的排序后,將此單詞序號對應(yīng)放入S2中,得出S2中單詞序號的各相鄰分量的逆序數(shù)。由于詞形相似度起主要作用,詞序相似度起次要作用,所以要求α>>β,一般α取值為0.9,β取值為0.1。
(2)增加候選項(xiàng)
我們將聚類操作后的同類實(shí)例一一進(jìn)行比較,得出一個模板。在比較后得出相同部分和不同部分,對于實(shí)例中出現(xiàn)頻率較高,但并不是全部實(shí)例中都包含相同的部分,我們把它歸結(jié)為候選項(xiàng)。將每個實(shí)例中都出現(xiàn)的部分歸結(jié)為固定項(xiàng),不重復(fù)出現(xiàn)的部分歸結(jié)為可變項(xiàng),即為模板槽。改進(jìn)模板抽取的算法如下:
輸入:源語言實(shí)例Si,目標(biāo)語言實(shí)例Tj,與其分詞結(jié)果和詞對齊結(jié)果
輸出:抽取出的模板對TemplateSet
其中,函數(shù)Similarity找出兩個實(shí)例中的相同單詞;函數(shù)ExtractCommonPart提取兩個實(shí)例的相同部分;CommonPartNumber表示詞語重復(fù)次數(shù),CompareTimes表示實(shí)例比較次數(shù),F(xiàn)ixedPortion和OptionalParts分別表示模板中固定項(xiàng)和候選項(xiàng);GetSlotRelations函數(shù)獲得漢語模板和維語模板之間的一一對應(yīng)關(guān)系。在抽取算法中,我們規(guī)定相同項(xiàng)出現(xiàn)次數(shù)大于比較次數(shù)的1/2,但小于比較總次數(shù)時,將它們定義為候選項(xiàng)。據(jù)上述算法,以下面經(jīng)過分詞和詞對齊處理后的實(shí)例對輸入為例:
S1:樂事天然薯片
T1:lexi tEbi bErENgE yapriKi
詞對齊:1-1 2-2 3-3 3-4
S2:樂事薯片
T2:lexi bErENgE yapriKi
詞對齊:1-1 2-2 2-3
S3:樂事墨西哥 雞汁 西紅柿 味天然 薯片
T3:lexi miksika tohukiyami pEmidur tEmlik tEbi bErENgE yapriKi
詞對齊:1-1 2-2 3-3 4-4 5-5 6-6 7-7 7-8
S4:樂事 忠于 原味 天然 薯片
T4:lexi Esli tEmlik tEbi bErENgE yapriKi
詞對齊:1-1 2-0 3-2 3-3 4-4 5-5 5-6
首先進(jìn)行漢語單語實(shí)例的比較,然后再選取對應(yīng)譯文部分,其中*表示變量部分,可以是單詞或短語、<>內(nèi)表示候選項(xiàng),()內(nèi)表示此單詞出現(xiàn)次數(shù)。
1.S1與S2比較—>樂事(1)*薯片(1)
2.S1與S3比較—>樂事(2)*天然(1)薯片(2)
3.S1與S4比較—>樂事(3)*天然(2)薯片(3)
4.S2與S3比較—>樂事(4)*天然(3)薯片(4)
5.S2與S4比較—>樂事(5)*薯片(5)
6.S3與S4比較—>樂事(6)*天然(4)薯片(6)
對結(jié)果進(jìn)行比較,“樂事”和“薯片”在6次比較中都重復(fù)出現(xiàn)6次,我們把它作為固定項(xiàng)?!疤烊弧背霈F(xiàn)4次,小于比較次數(shù)6,而大于比較次數(shù)的一半,我們把它作為候選項(xiàng)。得出單語模板后,再去目標(biāo)語言中選取對應(yīng)部分,按照其語言規(guī)范,作為目標(biāo)模板。
最終得出模板為:
SP=樂事 *<天然>薯片
TP=lexi*<tEbix>bErENgE yapriKi
2.1建立模板索引
為提高模板匹配速度,解決模板沖突等問題[5],我們建立了模板索引。其中選取漢語商品類別作為關(guān)鍵字。在進(jìn)行模板匹配之前,首先按照商品類別索引,查找模板大概位置,這樣可以縮小模板查找范圍。
2.2模板匹配
模板匹配算法主要由三個部分組成:第一部分是根據(jù)輸入商品名的分詞結(jié)果中的類別去篩選翻譯模板,檢索出和當(dāng)前輸入的商品類別相同的翻譯模板;第二部分是判斷翻譯模板的框架同輸入商品名結(jié)構(gòu)是否能夠匹配,并且將各個槽對應(yīng)的片段保存,通過查字典翻譯來完成;第三部分是根據(jù)翻譯模板的其他參數(shù)選擇最佳的翻譯模板。
例:([樂事][u4e00-u9fa5]*[薯片])+$
對于同時存在多個模板可以匹配的情況,我們需要從中進(jìn)行舍去。衡量翻譯模板的優(yōu)劣有以下幾個指標(biāo):
●漢語模板框架上詞語個數(shù) WordCount
●漢語模板槽的個數(shù) SoltCount
●模板匹配成功的實(shí)例個數(shù) SuccessMatchCount
●模板翻譯正確的實(shí)例個數(shù) SuccessTransCount
如果漢語模板上的固定詞語越多,越接近一個真實(shí)的例子,其翻譯結(jié)果越可靠;漢語模板槽越多,越抽象,其翻譯結(jié)果越不可靠;第三項(xiàng)與第四項(xiàng)的比值就是翻譯正確率[6]。根據(jù)以上參數(shù),我們規(guī)定模板的可信度為:
Credibility=(WordCount/SoltCount)×(SuccessTransCount/ SuccessMatchCount)
對于候選項(xiàng)的翻譯,我們將其取一個初值為0布爾值,如果翻譯實(shí)例中存在候選項(xiàng),則將其置為1,顯示候選項(xiàng)的翻譯結(jié)果。模板匹配算法如下:
輸入:待翻譯的商品實(shí)體名Si輸出:可信度最高的翻譯模板
其中,Matched Template表示可匹配的模板集合,函數(shù)Seg對目標(biāo)語言分詞,函數(shù)GetLastWordSeg是得到分詞結(jié)果中最后一個詞語,按照商品結(jié)構(gòu)特點(diǎn),最后一個單詞一般為商品類別,我們把它作為索引Index。函數(shù)Select Template按照索引Index去模板庫中查找模板。Match對查找出的模板一一進(jìn)行比較,返回匹配的模板;函數(shù)Sort是按照模板匹配可信度進(jìn)行排序。對于無法與模板進(jìn)行匹配的商品名,我們利用基于規(guī)則的方法進(jìn)行翻譯。
本次實(shí)驗(yàn)所用的實(shí)驗(yàn)語料來源于本實(shí)驗(yàn)室加工處理的漢維平行語料庫。語料庫中,我們選取可以和老維語進(jìn)行無歧義轉(zhuǎn)換的拉丁維文和簡體中文,這樣可以加快處理速度,方便計(jì)算機(jī)進(jìn)行存儲處理的[7]。模板抽取試驗(yàn)中分別利用傳統(tǒng)的TTL方法和我們改進(jìn)的TTL方法進(jìn)行抽取實(shí)驗(yàn)對比。實(shí)驗(yàn)結(jié)果表明,經(jīng)過類聚操作后,改進(jìn)的TTL方法抽取到的模板數(shù)量減少了。這是因?yàn)榇朔N方法由于互相比較的實(shí)例數(shù)量較多,一個模板的抽取綜合了多個實(shí)例的結(jié)構(gòu)與特點(diǎn),使得抽取出的模板概括能力和泛化能力有所增強(qiáng),可減少下一步的模板匹配的工作量。
為驗(yàn)證模板質(zhì)量,我們利用抽取到的模板進(jìn)行翻譯實(shí)驗(yàn),對翻譯的結(jié)果進(jìn)行了人工測試,并統(tǒng)計(jì)了翻譯的正確率。我們將本系統(tǒng)和一個基于規(guī)則的商品名翻譯系統(tǒng)進(jìn)行對比。實(shí)驗(yàn)中使用了2000個商品名對,用1600個商品名稱對進(jìn)行抽取模板和翻譯訓(xùn)練,選取剩下400個商品名進(jìn)行開放測試,再從訓(xùn)練使用的1600個商品名中隨機(jī)抽取400個進(jìn)行了封閉測試。實(shí)驗(yàn)結(jié)果如表1。
表1 實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果表明,本文的漢維翻譯系統(tǒng)在正確率上已達(dá)到了中等水平,它所使用的模板數(shù)量還有待提高。
實(shí)驗(yàn)結(jié)果中錯誤產(chǎn)生的原因主要有兩方面:其一是無法與模板庫匹配的商品名的翻譯詞序結(jié)構(gòu)不合理;其二是一些在數(shù)據(jù)庫中不存在的新商標(biāo)、新品牌等未登錄詞的翻譯,結(jié)果不理想。
本文提出了一種改進(jìn)的基于模板的商品命名實(shí)體機(jī)器翻譯方法,這種方法能夠合理地綜合基于規(guī)則和基于例子的翻譯系統(tǒng)的優(yōu)點(diǎn)。改進(jìn)的TTL模板抽取方法,使得模板質(zhì)量和模板匹配效率有所提高。初步的實(shí)驗(yàn)結(jié)果表明,雖然在提高模板組合翻譯質(zhì)量和對未登錄詞翻譯方面還面臨很多困難,但該系統(tǒng)還是取得了比較滿意的效果。同時此方法還可應(yīng)用到地名、機(jī)構(gòu)名的翻譯。
[1]林賢明,李堂秋,史曉東.基于模板的機(jī)器翻譯系統(tǒng)中模板庫的自動構(gòu)建技術(shù)[J].計(jì)算機(jī)應(yīng)用,2004,24(9):133~135
[2]胡日勒,宗成慶,徐波.基于統(tǒng)計(jì)學(xué)習(xí)的機(jī)器翻譯模板自動獲取方法[J].中文信息學(xué),2005,19(6):0001~0006
[3]駱凱,李森,強(qiáng)靜,烏達(dá)巴拉.基于統(tǒng)計(jì)和模板的雙層漢蒙翻譯研究[J].計(jì)算機(jī)應(yīng)用,2009,29(7):2026~2031
[4]呂學(xué)強(qiáng),任飛亮,黃志丹,姚天順.句子相似模型和最相似句子查找算法[J].東北大學(xué)學(xué)報,2003,24(6):531~534
[5]李玉鑒.基于索引模板匹配替換通用算法的機(jī)器翻譯[J].計(jì)算機(jī)應(yīng)用研究,2004(5):54~57
[6]張健.基于實(shí)例的機(jī)器翻譯的泛化方法研究[D].北京:中國科學(xué)院計(jì)算機(jī)技術(shù)研究所,2001
[7]吐爾根·依布拉音,袁保社.新疆少數(shù)民族語言文字信息處理研究與應(yīng)用[J].中文信息學(xué)報,2011,25(6)149~156
Machine Translation;Template;Commodity Named Entity
Research on Chinese-Uighur Commodity Named Entity Translation Based on Template
WANG Jing-ya,YUAN Bao-she
(College of Information Science and Engineering,Xinjiang University,Urumqi 830046)
1007-1423(2015)08-0034-04
10.3969/j.issn.1007-1423.2015.08.008
王靜雅(1990-),女,新疆烏魯木齊人,碩士研究生,研究方向?yàn)樯贁?shù)民族語言處理
2014-12-11
2015-02-10
結(jié)合商品命名實(shí)體自身結(jié)構(gòu)的特點(diǎn),提出一種基于模板的產(chǎn)品名命名實(shí)體的翻譯方法。該方法在傳統(tǒng)模板中包含的固定項(xiàng)和可變項(xiàng)的基礎(chǔ)上,添加候選項(xiàng)。首次把TTL模板抽取算法應(yīng)用于“漢語-維吾爾語”,并加以改進(jìn)。實(shí)驗(yàn)結(jié)果表明模板中候選部分的添加可大大減少模板的數(shù)量,提高模板的泛化能力和翻譯質(zhì)量。
機(jī)器翻譯;模板;商品命名實(shí)體
袁保社(1955-),男,新疆庫爾勒人,本科,教授,研究方向?yàn)橹形男畔⑻幚?/p>
Combined with the structure characteristics of the commodity named entities,puts forward a kind of commodity named entity translation method based on template.The method in traditional template contains fixed and variable,on the basis of adding the candidate items.For the first time,puts the TTL template extraction algorithm applied in"Chinese-Uighur",and improves it.The experimental results express that adding a candidate in the template can greatly reduce the number of templates and improve the generalization ability and the quality of translation templates.