亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于雙語對齊的漢語–新蒙古文命名實體翻譯

2016-10-13 04:28:28楊萍侯宏旭蔣玉鵬申志鵬杜健

北京大學(xué)學(xué)報(自然科學(xué)版) 2016年1期

關(guān)鍵詞：方法模型

楊萍侯宏旭蔣玉鵬申志鵬杜健

楊萍1,2侯宏旭1,?蔣玉鵬1申志鵬1杜健1

1.內(nèi)蒙古大學(xué)計算機(jī)學(xué)院, 呼和浩特010021; 2.臨汾職業(yè)技術(shù)學(xué)院計算機(jī)系, 臨汾041000; ?通信作者, E-mail: cshhx@imu.edu.cn

漢語–新蒙古文命名實體翻譯在跨漢語–新蒙古文信息處理中具有重要意義, 而直接使用機(jī)器翻譯的方法不能達(dá)到滿意的結(jié)果。針對上述問題, 提出一種從漢語–新蒙古文平行語料中自動抽取漢語–新蒙古文命名實體翻譯對的方法。該方法只需對漢語端進(jìn)行命名實體標(biāo)注; 然后基于雙語HMM詞對齊結(jié)果, 利用滑動窗口的方法抽取所有候選命名實體翻譯對; 最后基于融合5種特征的最大熵模型, 對所有候選翻譯單位進(jìn)行過濾, 選取與漢語端命名實體相對應(yīng)的置信度最高的新蒙古文命名實體翻譯單位。實驗結(jié)果表明, 該方法優(yōu)于基于HMM的方法, 在對齊模型只是部分準(zhǔn)確的情況下, 也獲得較高準(zhǔn)確率的漢語–新蒙古文命名實體翻譯對。

命名實體; 識別; 翻譯; 雙語對齊

命名實體在人類語言中傳遞著非常重要的信息[1]。命名實體可以指出文檔里“何人(何組織)……何時……何地……”等主要內(nèi)容, 因此識別命名實體是準(zhǔn)確理解文檔的基礎(chǔ)。命名實體的識別在網(wǎng)絡(luò)信息抽取、網(wǎng)絡(luò)內(nèi)容管理和知識工程等領(lǐng)域都具有非常重要的地位[2]。命名實體翻譯對機(jī)器翻譯、跨語言信息檢索等多語言信息處理領(lǐng)域意義重大, 因此有很多學(xué)者致力于命名實體識別和翻譯的研究。最早的命名實體翻譯研究開始于英語與阿拉伯語之間, Al-Onaizan等[3]使用音譯模型以及詞典查找的方法進(jìn)行英語與阿拉伯語之間的命名實體翻譯。隨后越來越多的命名實體翻譯研究在不同的語種之間開展。Knight等[4]和Tsuji[5]進(jìn)行了日語和英語命名實體翻譯的研究。韓語和英語的命名實體翻譯主要有Lee等[6]的工作。近年來, 漢語和英語命名實體之間的翻譯也受到越來越多的關(guān)注。Huang等[7]提出基于多特征代價最小的自動抽取漢語–英語命名實體翻譯對的方法。Wan等[8]和Feng等[9]也分別提出不同的漢語–英語命名實體翻譯方法。

近年來, 我國與蒙古國的經(jīng)濟(jì)、政治、文化交流日益深入, 對新蒙古文信息處理技術(shù)的發(fā)展起到極大的促進(jìn)作用, 同時也提出更高的要求。在傳統(tǒng)蒙古文的命名實體識別方面, 那順烏日圖等[10]采用基于規(guī)則的方法進(jìn)行人名的自動識別, 召回率達(dá)到89%, 準(zhǔn)確率為86%。通拉嘎[11]采用最大熵的數(shù)學(xué)模型, 實現(xiàn)蒙古語人名自動識別系統(tǒng), 封閉測試的值為89.61%。這些研究只針對傳統(tǒng)蒙古文的人名識別, 未涉及傳統(tǒng)蒙古文地名及機(jī)構(gòu)名的識別。在新蒙古文的命名實體識別和翻譯方面, 尚無相關(guān)論述。

采用音譯或意譯命名實體直接翻譯的方法進(jìn)行漢語–新蒙古文命名實體的翻譯缺乏對命名實體自身組成結(jié)構(gòu)以及上下文信息的考慮, 必然會影響翻譯結(jié)果。如果使用命名實體對齊的方法, 則需要對命名實體的識別和命名實體間的對齊都能很好地處理。目前, 需要懂得新蒙古文的人員在語料上進(jìn)行命名實體的標(biāo)注, 工作量大, 周期長。新蒙古文語料相對于英語、漢語等其他語言規(guī)模尚小, 必然會影響新蒙古文命名實體識別的效果。在命名實體識別中的部分識別、識別錯誤等問題在對齊過程中不能很好地糾正。

針對上述問題, 本文提出一種從只在漢語端標(biāo)注了命名實體的漢語–新蒙古文平行語料中抽取漢語–新蒙古文命名實體翻譯對的方法。我們先用HMM詞對齊模型對雙語語料進(jìn)行對齊, 然后基于對齊模型, 利用相關(guān)短語抽取技術(shù)[12], 抽取出與漢語端相對應(yīng)的新蒙古文端的候選命名實體翻譯單位。用融合5種特征的最大熵模型對所有候選命名實體翻譯單位進(jìn)行過濾, 得到與漢語端命名實體最匹配的新蒙古文端命名實體翻譯單位。實驗結(jié)果表明, 我們的實驗結(jié)果優(yōu)于HMM模型, 在語料庫上得到的命名實體翻譯對的正確率為86.51%, 召回率為87.32%,值為86.91%。

1 詞對齊模型

IBM信源信道翻譯模型[13]包括語言模型和翻譯模型。其中, 翻譯模型可建模為

是一個表示源語言和目標(biāo)語言句子中詞與詞對齊情況的隱含變量,=12…a, 其中a表示源語言句子里第個詞對應(yīng)的目標(biāo)語言句子中詞的位置。在一對句子的所有對齊方式中, 其訓(xùn)練對齊模型中最大可能的對齊方式通常稱為最大近似對齊。

在IBM對齊模型中,

在HMM對齊模型下, 用Viterbe算法實現(xiàn)最大近似對齊, 即對齊a滿足

(a|a-1,)表示源語言句子當(dāng)前詞對齊位置a對前一個詞對齊位置a-1的依賴關(guān)系,表示源語言的句長(s|t)表示詞的翻譯概率。

與IBM詞對齊模型相比, HMM 對齊模型考慮了當(dāng)前詞對齊位置a對前一個詞對齊位置a-1的依賴關(guān)系, HMM模型比IBM模型更有利于對平行語料庫中的局部化現(xiàn)象進(jìn)行有效的建模。因此, 我們在HMM詞對齊結(jié)果上來抽取候選漢語–新蒙古文命名實體翻譯對。

2 基于對齊模型的候選漢語–新蒙古文命名實體翻譯對的抽取

本文命名實體翻譯對的抽取經(jīng)過3個步驟: 1) 漢語端命名實體的識別; 2)基于詞對齊模型, 生成與漢語端命名實體對應(yīng)的新蒙古文端候選的翻譯單位; 3)對新蒙古文端的候選翻譯單位進(jìn)行置信度估計, 從中選出置信度最高的漢語–新蒙古文命名實體翻譯對。

本文使用CRF模型進(jìn)行漢語端命名實體識別。因為漢語命名實體識別不屬于本文重點討論的內(nèi)容, 不再贅述。下面重點介紹漢語–新蒙古文候選命名實體翻譯等價對的生成和候選翻譯等價對的置信度估計。

2.1 候選漢語–新蒙古文翻譯對的生成

平行句對中, 源語言句子S與目標(biāo)語言句子T中詞與詞之間的對應(yīng)情況可以用詞對齊圖表示。在圖1中, 叉線所在的單元表示由最大近似對齊得到的詞對齊結(jié)果。在一個平行句對中, 可以用一個四元組假設(shè)H(c,c,m,m)來表示一個翻譯等價對。其中,c和c分別表示漢語命名實體的起始位置和結(jié)束位置;m和m分別表示與漢語端對應(yīng)的新蒙古文端候選翻譯單位的起始位置和結(jié)束位置。例如, 在圖1中(2, 3, 2, 4)就可以表示一個翻譯等價對, 即漢語端由詞(2,3)組成的命名實體與新蒙古文端由詞(2,3,4)組成的候選翻譯單位對應(yīng)。本文的翻譯等價對抽取任務(wù)就是找出合適的漢語與新蒙古文之間的翻譯對。

采用滑動窗口的方法, 從對齊圖中找出與漢語端對應(yīng)的新蒙古文端的所有候選命名實體翻譯單位。如圖1所示, 如果(2,3)是漢語端的一個命名實體, 那么圖中粗線框選的所有對齊點所對應(yīng)的新蒙古文端的詞就構(gòu)成一個候選翻譯單位。即2, (2,3)和(2,3,4)就是與(2,3)對應(yīng)的所有候選翻譯單位。利用這樣的方法可以產(chǎn)生較大數(shù)量的候選翻譯等價單位, 即使在對齊模型只是部分準(zhǔn)確的情況下, 依然可能抽取到正確的命名實體翻譯對。

2.2 候選漢語–新蒙古文命名實體翻譯對的置信度估計

考慮到最大熵模型可以很好地融合不同的特征, 我們在此框架下對所有候選翻譯對進(jìn)行置信度估計。對于漢語端命名實體nec和與之對應(yīng)的所有候選新蒙古文端命名實體nem, 假設(shè)有個特征方程H(nec, nem),=1, 2, …, 對于每個特征函數(shù), 都有一個對應(yīng)的模型參數(shù),=1, 2, …。漢語端與新蒙古文端命名實體對齊的概率可以定義為式(5)[14]:

選擇出與漢語端命名實體對應(yīng)的最有可能的新蒙古文端命名實體翻譯單位, 如式(6)[14]所示:

結(jié)合命名實體翻譯的特點, 我們采用5個特征: 對齊一致性得分、翻譯得分、語言模型得分、共現(xiàn)得分、邊界得分。下面分別詳細(xì)介紹。

2.2.1 對齊一致性得分

任意一個漢語端的命名實體與它所對應(yīng)的新蒙古文端的任何一個候選翻譯單位, 都在詞對齊圖中劃分了一個范圍。我們以這個劃分是否與最大近似對齊中的對齊點一致來對候選翻譯對進(jìn)行對齊一致性置信度估計。對齊點A(,)與H(c,c,m,m)定義的劃分一致是指這個對齊點所對應(yīng)的源語言端詞的位置與目標(biāo)語言端詞的位置均在H所劃分的范圍內(nèi)。對齊點A(,)與H(c,c,m,m)定義的劃分被認(rèn)為不一致, 當(dāng)且僅當(dāng)滿足

每個H(c,c,m,m)都包括一個與該劃分一致的對齊點的集合和不一致的對齊點的集合。例如在圖1中, H(2, 3, 2, 4)就包括與其一致的對齊點{(2,2), (3,3), (3,4)}和與其不一致的對齊點集合{(1,4), (4,4), (2,6)}。用式(9)計算任意一個H(c,c,m,m)的對齊一致性得分:

其中, num(cons)和num(incons)分別表示與四元假設(shè)H(c,c,m,m)劃分范圍一致的對齊點的個數(shù)和不一致的對齊點的個數(shù)。在漢語-新蒙古文命名實體候選翻譯對的四元假設(shè)的劃分中, 如果一致的對齊點越多, 不一致的對齊點越少, 則該翻譯對的對其一致性得分就越高。

2.2.2 翻譯得分

組成漢語命名實體中的詞與組成新蒙古文命名實體的詞之間的翻譯概率, 對于考察漢語端命名實體與新蒙古文端命名實體的相近程度具有非常重要的作用。假設(shè)漢語端命名實體由個詞組成nec={1,2, …c}, 新蒙古文端候選命名實體翻譯單位由個新蒙古文詞組成nem={1,2, …m}, 則這個候選雙語命名實體對的翻譯得分可以由c與m之間的翻譯概率計算得到:

式(10)給出候選雙語命名實體對中的詞互譯的概率。可以看出, 該特征傾向于給含有詞數(shù)更多的命名實體翻譯單位以更高的分?jǐn)?shù)。

2.2.3 語言模型得分

為了使與漢語端命名實體對應(yīng)的新蒙古文端的翻譯單位最大程度地符合新蒙古文的語法, 在新蒙古文語料庫上進(jìn)行語言模型的訓(xùn)練LM(mn), 對候選新蒙古文端命名實體翻譯單位進(jìn)行語言模型打分, 如式(11)所示:

對應(yīng)于漢語端同一個命名實體, 在新蒙古文端包含詞數(shù)較多的命名實體翻譯單位傾向于獲得更高的翻譯得分, 這樣容易在新蒙古文命名實體翻譯單位中引入一些多余的詞。加入對語言模型得分的估計后, 候選命名實體翻譯單位中多余詞的存在會使該翻譯單位獲得很低的語言模型得分, 避免了翻譯得分帶來的偏差。例如, 在未加入語言模型得分之前, 我們獲得“孔子學(xué)院–К?нзийнИнститутулсын”的對應(yīng)關(guān)系, 包含多余的詞“улсын”。但加入語言模型得分后, 我們得到準(zhǔn)確的命名實體翻譯對“孔子學(xué)院–К?нзийнИнститут”。

2.2.4 共現(xiàn)得分

漢語端命名實體與候選新蒙古文端的命名實體翻譯單位在雙語語料庫中常常是同時出現(xiàn)的, 那么它們?yōu)榉g等價對的可能性就非常大。從整個語料庫中得到的知識可以作為對句對間局部對齊信息特征的一個有效補(bǔ)充。用式(12)計算源漢語端命名實體與候選新蒙古文端命名實體的共現(xiàn)得分:

其中, num(nec, nem)是nec和nem共同出現(xiàn)的次數(shù), num(*, nec)是nec出現(xiàn)的次數(shù)。

2.2.5 邊界得分

新蒙古文命名實體詞的開頭字母是大寫字母, 這是新蒙古文命名實體的一個重要特征。這一特征對于新蒙古文命名實體邊界的確定具有重要的作用。但在實際語料庫中存在著部分不規(guī)范的現(xiàn)象, 部分首字母應(yīng)大寫的命名實體詞并未大寫。為了盡量減少上述錯誤對計算邊界得分的影響, 我們不直接考察組成命名實體的首詞或尾詞是否為首字母大寫。邊界得分是在該翻譯單位中首字母大寫的詞的個數(shù)占所有詞的個數(shù)的比例:

其中, num(CapWords)指在新蒙古文命名實體翻譯單位中, 首字母是大寫的詞的個數(shù), num(words)代表在該翻譯單位中包括的所有詞的個數(shù)。

2.2.6 基于最大熵模型的漢–新蒙命名實體候選翻譯對的過濾

前面定義了5個特征函數(shù)。對于在漢語端標(biāo)注出的每個命名實體, 需要計算與之對應(yīng)的每個候選新蒙古文端命名實體翻譯單位的特征分?jǐn)?shù), 從而得到與漢語端命名實體對應(yīng)的最佳的新蒙古文端翻譯單位。根據(jù)式(5), 使用MEM建模工具YASMET①進(jìn)行最大熵模型的訓(xùn)練。由于沒有漢語–新蒙古文命名實體翻譯對的標(biāo)準(zhǔn)訓(xùn)練集, 采用bootstr-apping[15]方法指導(dǎo)訓(xùn)練過程。首先在包括所有的候選漢語–新蒙古文命名實體翻譯對的訓(xùn)練集上對模型進(jìn)行訓(xùn)練, 然后根據(jù)訓(xùn)練得到的對各個候選翻譯對的概率估計, 對初始訓(xùn)練集進(jìn)行精簡, 得到剪裁后的訓(xùn)練集, 并且對候選翻譯對進(jìn)行排序。反復(fù)進(jìn)行上述步驟, 直至模型收斂或得到的實體翻譯對變化不明顯為止。

3 實驗結(jié)果及分析

3.1 實驗設(shè)置

為了驗證本文提出的漢語–新蒙古文命名實體翻譯方法的有效性, 我們使用實驗室整理得到的12400句對的漢語–新蒙古文平行語料, 從中選取出300個漢–新蒙古文平行句對作為標(biāo)準(zhǔn)測試集(每個句對中至少包括一個命名實體翻譯對), 并用人工標(biāo)注出這300個句對中所有的漢語和新蒙古文命名實體, 作為命名實體翻譯對的標(biāo)準(zhǔn)答案。

使用基于CRF模型的漢語命名實體識別方法, 在剩余的12100平行句對的漢語端進(jìn)行漢語命名實體識別, 并進(jìn)行漢語–新蒙古文命名實體翻譯對抽取的訓(xùn)練。訓(xùn)練集和測試集中各個實體類別的數(shù)目如表1所示。

表1 訓(xùn)練集和測試集實體數(shù)目

3.2 評價標(biāo)準(zhǔn)

假設(shè)*是漢語端標(biāo)注出的所有的命名實體的集合,是用本文的方法在*基礎(chǔ)上抽取得到的漢語–新蒙古文命名實體翻譯對的集合,是雙語語料中基于*的所有的正確的命名實體翻譯對。我們用準(zhǔn)確率()、召回率()、值作為評價標(biāo)準(zhǔn)。

3.3 實驗方法與結(jié)果

首先用實驗室完成的基于CRF模型的漢語命名實體識別方法, 對雙語語料的漢語端進(jìn)行命名實體的標(biāo)注。采用GIZA++工具包[16]訓(xùn)練得到從漢語–新蒙古文、新蒙古文–漢語單向最大近似對齊結(jié)果, 并使用GROW-DIAG-FINAL算法[17]對兩個方向的對齊文件進(jìn)行合并, 得到漢語與新蒙古文雙向最大近似詞對齊結(jié)果。然后用SRILM①訓(xùn)練一個新蒙古文端的3-gram語言模型。為了考察詞切分對基本對齊以及命名實體翻譯對抽取的影響, 我們進(jìn)行了兩組實驗: 第一組對漢語端進(jìn)行分詞, 訓(xùn)練漢語–新蒙古文雙向詞對齊, 在此基礎(chǔ)上, 用本文提出的方法進(jìn)行雙語命名實體翻譯對的抽取; 第二組實驗不對漢語端分詞, 只切分為單個的字。實驗得到的漢語–新蒙古文命名實體翻譯對如表2所示, 實驗結(jié)果如表3所示。

表2 漢語–新蒙古文命名實體翻譯對示例

表3 實驗結(jié)果

表2中, HMM是直接在HMM對齊模型上抽取得到的漢語–新蒙古文命名實體翻譯對的實驗結(jié)果, 作為基線系統(tǒng)。HMM+MEM指在HMM對齊模型上抽取漢語–新蒙古文候選命名實體翻譯對, 再對候選翻譯對融合5種特征的最大熵模型進(jìn)行置信度估計, 選取置信度最高的命名實體翻譯對。從實驗結(jié)果可以看到, 無論是HMM還是本文方法, 不對漢語端進(jìn)行分詞, 抽取出的命名實體翻譯對的值都高于分詞后的結(jié)果。最主要的原因是減少了分詞錯誤對句對間詞對齊以及命名實體翻譯對抽取的錯誤傳遞。

實驗表明, 本文選擇用來刻畫漢語–新蒙古文命名實體翻譯對的特征, 對于命名實體翻譯對的抽取是非常有幫助的。對齊一致性得分為命名實體翻譯對的抽取提供了句對間的上下文信息; 翻譯得分指明了漢語端命名實體與候選新蒙古文端翻譯單位的相近程度; 語言模型得分使抽取到的新蒙古文端命名實體單位盡量符合新蒙古文語法; 共現(xiàn)得分為命名實體翻譯對的抽取提供了整個訓(xùn)練語料庫中漢語詞與新蒙古文詞之間的共現(xiàn)知識; 邊界得分則充分考慮了新蒙古文命名實體詞首字母大寫的特性。

4 結(jié)束語

命名實體翻譯中, 對稱對齊的方法需要在源語言端與目標(biāo)語言端都進(jìn)行命名實體識別, 且在一端識別錯誤, 即使另一端識別正確的情況下, 該錯誤也無法在對齊過程中糾正。目前, 可用于新蒙古文命名實體識別的標(biāo)注語料規(guī)模尚小, 直接影響新蒙古文命名實體的識別效果。針對上述問題, 本文給出一種只需在漢語端進(jìn)行命名實體標(biāo)注, 從漢–新蒙古文平行語料中抽取漢–新蒙古文命名實體翻譯對的方法, 在HMM詞對齊模型上抽取候選漢–新蒙古文翻譯單位, 然后用基于最大熵模型對候選翻譯對進(jìn)行過濾, 最終得到質(zhì)量較高的實體翻譯對。實驗表明, 與基于HMM的方法相比, 本文方法的實驗結(jié)果有了很大提高。本文抽取出的一些實體翻譯對還有不正確的地方, 在下一步工作中, 可以考慮新蒙古文命名實體自身的語言特征, 并可以加入一些規(guī)則, 使得實驗效果更好。

[1]Bikel D M, Miller S, Schwartz R, et al. Nymble: a high-performance learning name-finder // Proceedings of the Fifth Conference on Applied Natural Language Processing. Stroudsburg, PA: Association for Computa-tional Linguistics, 1997: 194–201

[2]趙軍. 命名實體識別, 排歧和跨語言關(guān)聯(lián). 中文信息學(xué)報, 2009, 23(2): 3–17

[3]Al-Onaizan Y, Knight K. Translating named entities using monolingual and bilingual resources // Proce-edings of the 40th Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA: Asso-ciation for Computational Linguistics, 2002: 400–408

[4]Knight K, Graehl J. Machine transliteration. Compu-tational Linguistics, 1998, 24(4): 599–612

[5]Tsuji K. Automatic extraction of translational Japanese-KATAKANA and English word pairs from bilingual corpora. International Journal of Computer Processing of Oriental Languages, 2002, 15(3): 261–279

[6]Lee J S, Choi K S. A statistical method to generate various foreign word transliterations in multilingual information retrieval system // Proceedings of the 2nd International Workshop on Information Retrieval with Asian Languages (IRAL’97). New York, 1997: 123–128

[7]Huang F, Vogel S, Waibel A. Automatic extraction of named entity translingual equivalence based on multi-feature cost minimization // Proceedings of the ACL 2003 Workshop on Multilingual and Mixed-Language Named Entity Recognition—Volume 15. Stroudsburg, PA: Association for Computational Linguistics, 2003: 9–16

[8]Wan S, Verspoor C M. Automatic English-Chinese name transliteration for development of multilingual resources // Proceedings of the 17th International Conference on Computational Linguistics—Volume 2. Stroudsburg, PA: Association for Computational Linguistics, 1998: 1352–1356

[9]Feng D, Lü Y, Zhou M. A new approach for English-Chinese named entity alignment // Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP).Stroudsburg, PA, 2004: 372–379

[10]那順烏日圖, 雪艷, 淑琴, 等. 蒙古文人名自動識別研究// 語言計算與基于內(nèi)容的文本處理: 全國第七屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集. 北京: 清華大學(xué)出版社, 2003: 97-102

[11]通拉嘎. 基于蒙古文語料庫的人名自動識別[D]. 北京: 中央民族大學(xué), 2013

[12]Venugopal A, Vogel S, Waibel A. Effective phrase translation extraction from alignment models // Proceed-ings of the 41st Annual Meeting on Association for Computational Linguistics—Volume 1. Stroudsburg, PA: Association for Computational Linguistics, 2003: 319–326

[13]Brown P F, Pietra V J D, Pietra S A D, et al. The mathematics of statistical machine translation: para-meter estimation. Computational Linguistics, 1993, 19(2): 263–311

[14]Och F J, Ney H. Discriminative training and maximum entropy models for statistical machine translation // Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Strouds-burg, PA: Association for Computational Linguistics, 2002: 295–302

[15]Abney S. Bootstrapping // Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA: Association for Compu-tational Linguistics,2002: 360–367

[16]Och F J, Ney H. A systematic comparison of various statistical alignment models. Computational Linguis-tics, 2003, 29(1): 19–51

[17]Koehn P, Hoang H, Birch A, et al. Moses: open source toolkit for statistical machine translation // Proceed-ings of the 45th Annual Meeting of the ACL on Interactive Poster and Demonstration Sessions. Stroudsburg, PA: Association for Computational Linguistics, 2007: 177–180

Chinese-Slavic Mongolian Named Entity Translation Based on Word Alignment

YANG Ping1,2, HOU Hongxu1,?, JIANG Yupeng1, SHEN Zhipeng1, DU Jian1

1. College of Computer Science, Inner Mongolia University, Hohhot 010021; 2. Department of Computing, Linfen Vocational and Technical College, Linfen 041000; ?Corresponding author, E-mail: cshhx@imu.edu.cn

Chinese to Slavic Mongolian Named Entity Translation in cross Chinese and Slavic Mongolian information processing has a very important significance. However, using the machine translation method directly cannot achieve satisfactory result. In order to solve the above problem, a novel approach was proposed to extract Chinese-Slavic Mongolian Named Entity pairs automatically. Only the Chinese named entities need to be identified, then extracting all of the candidate named entity pairs using sliding window method based on HMM word alignment result. Finally filtering all of the candidate named entity translation units based on Max Entropy Model integrated with five features, and choose the most probable aligned Slavic Mongolian NEsto the Chinese NEs.Experimental results show that this approach outperforms HMM model, achieves high quality of Chinese-Slavic Mongolian named entity pairs with relatively high precision, even though sometimes the word alignment result is partially correct.

named entity; recognition; translation; bilingual word alignment

10.13209/j.0479-8023.2016.006

TP391

2015-06-07;

2015-08-18; 網(wǎng)絡(luò)出版日期: 2015-09-29

國家自然科學(xué)基金(61362028)資助

① http://www.fjoch.com/YASMET.html

① http://www.speech.sri.com/projects/srilm/