亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于字符串相似度的維吾爾語中漢語借詞識(shí)別

2013-04-23 07:39:18米成剛楊雅婷楊明忠

中文信息學(xué)報(bào) 2013年5期

米成剛，楊雅婷，周喜，李曉，楊明忠

(1. 中國(guó)科學(xué)院新疆理化技術(shù)研究所，烏魯木齊 830011；2. 中國(guó)科學(xué)院大學(xué)，北京 100049； 3. 哈密地區(qū)電子政務(wù)辦公室，新疆維吾爾自治區(qū) 哈密 839000)

1 引言

隨著時(shí)代的快速發(fā)展，國(guó)與國(guó)之間、各民族之間的交流日益頻繁。語言作為人們交流的主要工具，發(fā)揮著不可替代的作用。由于政治、地域等原因，使用一種語言的人們?cè)诮涣鬟^程中會(huì)用到另外一種語言中的詞，經(jīng)過一定時(shí)期，就會(huì)形成語言中的借詞，也稱外來詞。例如，漢語中的“卡拉OK(からオケ)”等詞借自日語，“麥克風(fēng)(Microphone)”、“沙發(fā)(Sofa)”等借自英語。

新疆維吾爾自治區(qū)地處亞歐大陸中部，同時(shí)受東西方文化影響。維吾爾語本身也接受了一些外來詞。維吾爾語借詞主要來自于漢語、俄語和阿拉伯語，本文針對(duì)其中的漢語借詞進(jìn)行識(shí)別。

目前主流的自然語言處理方法是基于統(tǒng)計(jì)的方法[1]，其最大的特點(diǎn)就是依賴于大規(guī)模語料。受語料規(guī)模及語言自身特性影響，在進(jìn)行有關(guān)維吾爾語的自然語言處理(信息檢索、語音識(shí)別、機(jī)器翻譯等)研究過程中，會(huì)出現(xiàn)較多的未登錄詞[2]，而其中的一部分未登錄詞就屬于借詞。本文根據(jù)借詞發(fā)音較為相似這一特性，首先參考維吾爾語拉丁化規(guī)則，同時(shí)考慮維漢兩種語言發(fā)音差異，將發(fā)音相似這一概念轉(zhuǎn)化為字符串相似這一量化標(biāo)準(zhǔn)，同時(shí)考慮維吾爾語粘著性這一特點(diǎn)，提出了位置相關(guān)的最小距離模型(Position-related Minimum Edit Distance，PMED)以及加權(quán)的公共子序列模型(Weighted Common Subsequence，WCS)。在此基礎(chǔ)上，進(jìn)行兩種模型的帶參數(shù)融合。融合模型同時(shí)考慮維吾爾語中漢語借詞識(shí)別的實(shí)際應(yīng)用及維吾爾語語言特性，因而取得了最佳的識(shí)別效果。本文提出的將語音相似度轉(zhuǎn)換為字符串相似度的方法，可以為發(fā)音較相似語言之間的機(jī)器翻譯等研究提供新的思路。

2 相關(guān)工作介紹

借詞(Loan words)，又稱外來詞。在歷史發(fā)展的過程中，國(guó)家與國(guó)家之間，民族與民族之間，總會(huì)發(fā)生交流，當(dāng)某種物品的名字在交流一方使用的語言中并不存在，或其中的一方特別強(qiáng)大時(shí)，借詞就產(chǎn)生了，顧名思義，所謂借詞就是一種語言從另一種語言中“借”來的詞，通常這種詞大部分屬于音譯詞。

目前，國(guó)內(nèi)外對(duì)借詞的研究大都停留在語言學(xué)的范疇。對(duì)于英語這一國(guó)際化語言，主要面向其中的漢語普通話借詞[3]，日語借詞等展開研究；日語中的英語借詞對(duì)日本社會(huì)、經(jīng)濟(jì)、文化等產(chǎn)生了巨大的影響[4]。通過調(diào)查社會(huì)上英語外來詞的使用情況，研究人員對(duì)現(xiàn)代漢語中的英語外來詞進(jìn)行了全面、系統(tǒng)的分析[5-6]。

國(guó)內(nèi)學(xué)者在漢維語外來詞借入方法的對(duì)比[7]，借詞對(duì)維吾爾語詞匯的影響[8]，外來語對(duì)維吾爾語行業(yè)詞的影響，現(xiàn)代維吾爾語中漢語借詞[9]以及新疆地區(qū)方言借詞[10]等方面對(duì)維吾爾語中的借詞進(jìn)行研究。針對(duì)維漢機(jī)器翻譯中的具體應(yīng)用，科研人員對(duì)維吾爾語中漢族人名的識(shí)別和翻譯進(jìn)行了研究[11]。

文中方法與以上論文中研究方法的區(qū)別在于，根據(jù)借詞與原語言詞發(fā)音相似這一特征，借鑒統(tǒng)計(jì)機(jī)器翻譯中詞對(duì)齊的思路獲取維吾爾語字符與漢語拼音字母的最佳對(duì)齊規(guī)則(拉丁化規(guī)則)，使用綜合考慮實(shí)際應(yīng)用(維吾爾語中漢語借詞識(shí)別)及維吾爾語語言特性的字符串相似度計(jì)算模型，識(shí)別出維吾爾語中的漢語借詞。

3 面向漢語發(fā)音習(xí)慣的維吾爾語詞拉丁化模型

圖1 面向維吾爾語中漢語借詞識(shí)別的維語拉丁化規(guī)則訓(xùn)練

公式中的e和f分別是指分割后維吾爾語詞字符向量以及分割后對(duì)應(yīng)拼音化的漢語詞字母向量。ε是歸一化常數(shù)，le是e的長(zhǎng)度，lf是f的長(zhǎng)度，a(j)表示與維語詞中第j個(gè)字符對(duì)齊的拼音字母在字母向量中的索引。拉丁化規(guī)則的訓(xùn)練過程如圖1所示。在進(jìn)行拉丁化訓(xùn)練的過程中，首先對(duì)維吾爾語詞按照字符進(jìn)行切分，再對(duì)對(duì)應(yīng)漢語詞進(jìn)行拼音化，并按字母切分，然后分別將維語端的字符和漢語端的字母作為向量e和向量f，進(jìn)行對(duì)齊。得到面向維吾爾語中漢語借詞識(shí)別的拉丁化規(guī)則。

4 維吾爾語中漢語借詞識(shí)別

維吾爾語中漢語借詞發(fā)現(xiàn)，是從維吾爾語單語語料中查找與漢語詞發(fā)音相似的維吾爾語詞的過程。本文提出的方法，是將語音層面的相似度通過維吾爾語詞拉丁化(如本文第2節(jié)所示)和漢語詞拼音化轉(zhuǎn)化為字符串相似度進(jìn)行計(jì)算，以獲取最佳的識(shí)別效果。

本文選用字符串相似度算法進(jìn)行計(jì)算?，F(xiàn)有的字符串相似度算法屬于通用的計(jì)算方法，不針對(duì)具體的應(yīng)用場(chǎng)景。結(jié)合維吾爾語、漢語語言特征及維吾爾語中漢語借詞識(shí)別這一特殊應(yīng)用，本文以最小編輯距離算法和最長(zhǎng)公共子序列算法為基礎(chǔ)，提出了位置相關(guān)的最小編輯距離模型(Position-relatedMinimEditDistance，PMED)和加權(quán)的公共子序列模型(WeightedCommonSubsequence，WCS)以及兩種模型的帶參數(shù)融合模型(PMED_WCS)。

4.1位置相關(guān)的最小編輯距離模型(PMED)

4.1.1最小編輯距離算法

編輯距離，又稱Levenshtein距離，是指將一個(gè)字符串轉(zhuǎn)換為另一個(gè)字符串需要進(jìn)行字符的增加、刪除和交換等操作的次數(shù)。最小編輯距離，即是進(jìn)行字符串轉(zhuǎn)換所需上述三種操作的最少次數(shù)，如式(2)所示。

初始化：

(2)

遞歸方程：

4.1.2位置相關(guān)的最小編輯距離模型PMED

最小編輯距離算法可以全局地考慮兩個(gè)字符串的相似度。針對(duì)本文中的問題，由于維吾爾語自身的語言特征及其構(gòu)詞方式(通過在詞干后附加若干詞綴構(gòu)成新詞)，維吾爾語中的漢語借詞詞尾可能包括詞綴，這就使得在使用編輯距離算法計(jì)算相似度時(shí)可能在詞尾進(jìn)行多次刪除操作，導(dǎo)致編輯距離過大，影響最終的識(shí)別效果。PMED在繼承最小編輯距離算法全局性這一優(yōu)點(diǎn)的同時(shí)，關(guān)注拉丁化維吾爾語詞與拼音化漢語詞計(jì)算編輯距離時(shí)刪除操作的位置，若有連續(xù)的刪除操作發(fā)生在拉丁化維吾爾語詞的詞尾，則計(jì)算編輯距離時(shí)減去在詞尾連續(xù)刪除操作的次數(shù)，最終相似度得分取其與最小編輯距離兩者中較小值。如式(3)所示：

式(3)中EDPMED(ui,cj)是拉丁化維吾爾語詞ui與拼音化漢語詞的編輯距離，MEDPMED(ui,cj)是最小編輯距離，timesECD(ui)是指計(jì)算維語詞ui和漢語詞編輯距離時(shí)，維語詞ui結(jié)尾連續(xù)刪除操作的次數(shù)。

4.2加權(quán)的公共子序列模型(WCS)

4.2.1最長(zhǎng)公共子序列

最長(zhǎng)公共子序列，英文縮寫為L(zhǎng)CS(Longest Common Subsequence)。其定義是，一個(gè)序列S，如果分別是兩個(gè)或多個(gè)已知序列的子序列，并且是所有符合此條件序列中最長(zhǎng)的，則S稱為已知序列的最長(zhǎng)公共子序列。

其核心算法可用式(4)表示：

4.2.2加權(quán)的公共子序列模型WCS

本文提出的識(shí)別模型，主要是根據(jù)借詞與原詞發(fā)音相似這一特征，進(jìn)行維吾爾語中漢語借詞的識(shí)別。由于兩種語言發(fā)音的差異性，造成拉丁化的維吾爾語詞與拼音化的漢語詞之間不能做到完全對(duì)應(yīng)，因此，基于最長(zhǎng)公共子序列算法，本文提出了加權(quán)的公共子序列模型(WCS)[17]。此模型不僅考慮最長(zhǎng)公共子序列，而是考慮所有的公共子序列，并為不同長(zhǎng)度的公共子序列賦予不同的權(quán)值。對(duì)所有的公共子序列與權(quán)值乘積求和，以和最大者對(duì)應(yīng)維語詞為借詞。此方法最大的特點(diǎn)是量化了“字符串連續(xù)相似”這一因素。如式(5)所示：

u和c分別是拉丁化維語詞及拼音化漢語詞，NUMi是長(zhǎng)度為的公共子序列數(shù)目，LENi為可能的子序列長(zhǎng)度?？紤]到公共子序列長(zhǎng)度的不可預(yù)測(cè)性，我們將最長(zhǎng)公共子序列長(zhǎng)度設(shè)置為兩個(gè)字符串中較短字符串長(zhǎng)度。為了使得較長(zhǎng)的公共子序列獲得較高的得分，本文在計(jì)算相似度時(shí)，求公共子序列長(zhǎng)度與子序列數(shù)目的乘積，并將結(jié)果求和。

4.3融合兩種模型的相似度計(jì)算(PMED+WCS)

基于最小編輯距離算法重點(diǎn)考量的是字符串之間進(jìn)行互相轉(zhuǎn)換(將字符串A轉(zhuǎn)換為字符串B)時(shí)的最小代價(jià)，不能反映“連續(xù)子序列相似”這一事實(shí)，其改進(jìn)算法PMED也存在這一問題；基于公共子串算法從局部相似出發(fā)，一定程度上解決了最小編輯距離算法存在的問題，然而，此算法及其改進(jìn)算法WCS卻有全局性不強(qiáng)的缺點(diǎn)。因此，結(jié)合兩種模型的優(yōu)點(diǎn)，構(gòu)成最終的相似度計(jì)算模型SIMPMED+WCS。如式(6)所示：

由于SimPMED使用的是基于編輯距離的相似度計(jì)算方法，計(jì)算結(jié)果越小兩個(gè)字符串越相似，因此，SimPMED中使用了(-SimPMED)。另外，針對(duì)本文中的具體應(yīng)用，兩種模型所占的比率有所不同；為了獲取最佳的識(shí)別效果，分別在每個(gè)模型前附加參數(shù)α、β。參數(shù)通過EM(Expectation Maximization)模型[18]進(jìn)行訓(xùn)練。

4.4舉例

1) 維吾爾語詞拉丁化

傳統(tǒng)拉丁化： “jozangni”

2) 漢語詞拼音化

漢語詞拼音化： “zhuozi”

3) 相似度計(jì)算

PMED模型

如式(3)所示

WCS模型

如式(5)所示

公式(8)中，NUMi是長(zhǎng)度為i的公共子序列數(shù)目，LENi為可能的子序列長(zhǎng)度。

5 實(shí)驗(yàn)設(shè)計(jì)與數(shù)據(jù)分析

5.1實(shí)驗(yàn)語料本文實(shí)驗(yàn)所用語料包括：一、維吾爾語拉丁化修正規(guī)則訓(xùn)練語料，主要是人名、地名等維漢對(duì)應(yīng)的雙語詞(共1000詞對(duì))；二、維吾爾語漢語借詞識(shí)別語料，主要是借詞識(shí)別測(cè)試語料(共50000句，平均每句含20個(gè)維吾爾語單詞)及其參考測(cè)試結(jié)果語料(共5000詞對(duì))，測(cè)試語料來自新聞?lì)I(lǐng)域。

5.2實(shí)驗(yàn)過程

以下分維吾爾語拉丁化規(guī)則修正和維吾爾語中漢語借詞識(shí)別兩個(gè)階段進(jìn)行實(shí)驗(yàn)。

5.2.1維吾爾語拉丁化規(guī)則修正

為了減小拉丁化后維吾爾語詞與拼音化后漢語詞的差異，根據(jù)現(xiàn)有的語料，借鑒統(tǒng)計(jì)機(jī)器翻譯中的詞對(duì)齊方法，獲取適合本文實(shí)際應(yīng)用的拉丁化規(guī)則。

首先，對(duì)維漢詞對(duì)中的維吾爾語詞按字符進(jìn)行切分；對(duì)漢語詞進(jìn)行拼音化，并對(duì)漢語拼音按照字母進(jìn)行切分，獲得維吾爾語字符向量、漢語拼音字母向量對(duì)齊語料；

其次，將拉丁化規(guī)則的獲取問題轉(zhuǎn)換為維吾爾語字符與漢語拼音字母對(duì)齊問題；對(duì)齊采用統(tǒng)計(jì)機(jī)器翻譯中廣泛使用的詞對(duì)齊工具GIZA++進(jìn)行。綜合考慮此處面臨問題及其運(yùn)行效率，使用其中的IBM模型2即可；

表1面向維吾爾語中漢語借詞識(shí)別的維語拉丁化規(guī)則

5.2.2 維吾爾語中漢語借詞識(shí)別

為了驗(yàn)證各個(gè)模型的有效性，分別在位置相關(guān)的最小編輯距離模型(PMED)，加權(quán)的公共子序列模型(WCS)以及帶參數(shù)融合模型(PMED+WCS)三種模型上進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果用準(zhǔn)確率P(Precision)、召回率R(Recall)以及F1值來表示。

F1計(jì)算方法如式(9)所示。

實(shí)驗(yàn)1位置相關(guān)的最小編輯距離模型(PMED)

首先，分別進(jìn)行漢語詞的拼音化和維吾爾語詞的拉丁化(使用5.2.1中得到的修正的維吾爾語拉丁化規(guī)則)，根據(jù)4.1.2中的方法，從位置相關(guān)的最小編輯距離模型(PMED)中得到各個(gè)維吾爾語詞-漢語詞對(duì)應(yīng)得分，取最小項(xiàng)作為最終結(jié)果。為了進(jìn)行對(duì)比，此處也在最小編輯距離算法模型(MED)上進(jìn)行了實(shí)驗(yàn)，結(jié)果如表2所示。

表2位置相關(guān)的最小編輯距離模型PMED和最小編輯距離模型MED識(shí)別結(jié)果

準(zhǔn)確率(P)/%召回率(R)/%F1值/%MED62．3571．0966．43PMED64．7375．6869．78

實(shí)驗(yàn)2加權(quán)的公共子序列模型(WCS)

進(jìn)行漢語詞的拼音化和維吾爾語詞的拉丁化(使用修正的維吾爾語拉丁化規(guī)則進(jìn)行)，根據(jù)4.2.2中的WCS模型(加權(quán)的公共子序列相似度計(jì)算模型)，計(jì)算出各詞對(duì)的相應(yīng)得分，取得分最高的維吾爾語詞為識(shí)別出的借詞。為了與WCS模型進(jìn)行對(duì)比，此處也在最長(zhǎng)公共子序列模型(CS)上進(jìn)行了實(shí)驗(yàn),結(jié)果如表3所示。

表3加權(quán)的公共子序列模型WCS和公共子序列模型CS識(shí)別結(jié)果

準(zhǔn)確率(P)/%召回率(R)/%F1值/%CS63．0673．1267．72WCS65．9074．3469．87

實(shí)驗(yàn)3融合兩種模型的維吾爾語中漢語借詞識(shí)別

融合模型(PMED+WCS)是對(duì)兩個(gè)模型(PMED和WCS) 進(jìn)行帶參數(shù)融合。首先對(duì)模型進(jìn)行訓(xùn)練，確定兩參數(shù)的最優(yōu)值。使用拉丁化的維吾爾語漢語借詞與拼音化的漢語詞進(jìn)行訓(xùn)練。根據(jù)EM算法的步驟，首先對(duì)參數(shù)進(jìn)行初始化，再重復(fù)執(zhí)行E步和M步，直到F1值收斂。F1值最高時(shí)對(duì)應(yīng)的α和β作為參數(shù)的取值，其中的訓(xùn)練語料使用 10 000詞測(cè)試語料，F(xiàn)1值評(píng)價(jià)采用對(duì)應(yīng)的200詞參考語料。參考實(shí)驗(yàn)1中的方法進(jìn)行借詞識(shí)別實(shí)驗(yàn)。為了顯示帶參數(shù)模型的有效性，同時(shí)使用無參數(shù)模型(PMED+WCS_P1)進(jìn)行實(shí)驗(yàn)。結(jié)果如表4所示。

表4帶參數(shù)的融合模型和未帶參數(shù)融合模型識(shí)別結(jié)果

準(zhǔn)確率(P)/%召回率(R)/%F1值/%PMED+WCS＿P165．5775．3170．10PMED+WCS66．3277．2871．38

5.3 實(shí)驗(yàn)數(shù)據(jù)分析

對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析，可以得出以下結(jié)論。

實(shí)驗(yàn)1使用位置相關(guān)的最小編輯距離模型求取拉丁化后維吾爾語詞與拼音化漢語詞的字符串相似度，最小值對(duì)應(yīng)漢語詞為識(shí)別出的借詞。與最小編輯距離算法相比，位置相關(guān)的最小編輯距離模型考慮到了維吾爾語的構(gòu)詞方式(詞干加若干詞綴)，在計(jì)算編輯距離的同時(shí)，監(jiān)測(cè)進(jìn)行連續(xù)刪除操作的位置，若發(fā)生在維語詞尾，則對(duì)編輯距離計(jì)算結(jié)果進(jìn)行修正。PMED模型兼顧字符串相似全局性以及維吾爾語語言特點(diǎn)，因此，與最小編輯距離算法相比，PMED模型取得了較高的識(shí)別準(zhǔn)確率，如表2所示。

實(shí)驗(yàn)2根據(jù)提出的加權(quán)公共子序列模型，不僅考慮到了字符串的局部相似性，而且對(duì)所有的公共子序列根據(jù)其長(zhǎng)度賦予不同的權(quán)值。相比于傳統(tǒng)的最長(zhǎng)公共子序列算法，加權(quán)的公共子序列模型(WCS)更好地反映了拉丁化維語詞與拼音化漢語詞的相似性，因而對(duì)借詞的識(shí)別準(zhǔn)確率較高，如表3所示。

實(shí)驗(yàn)3中的帶參數(shù)融合模型(PMED+WCS)結(jié)合了PMED和WCS的優(yōu)點(diǎn)。從維吾爾語中漢語借詞識(shí)別這一具體任務(wù)出發(fā)，考察維吾爾語構(gòu)詞特點(diǎn)以及維漢兩種語言發(fā)音差異，綜合字符串的全局相似性與局部相似性，并使用EM算法，分別賦予兩種模型(PMED和WCS)不同參數(shù)，更好地反映了具體語料中不同模型對(duì)最終識(shí)別結(jié)果的影響。實(shí)驗(yàn)結(jié)果表明，與上述兩種模型相比，PMED+WCS模型取得了最佳的借詞識(shí)別效果，如表4所示。

6 結(jié)束語

本文根據(jù)維吾爾語中漢語借詞與原漢語詞發(fā)音相似這一特點(diǎn)，將語音相似度轉(zhuǎn)換為字符串之間相似度進(jìn)行維吾爾語中漢語借詞的識(shí)別。對(duì)現(xiàn)有的維吾爾語詞借詞—漢語語料進(jìn)行處理，對(duì)維吾爾語詞進(jìn)行字符切分，對(duì)對(duì)應(yīng)漢語詞進(jìn)行拼音化，借鑒詞對(duì)齊方法，訓(xùn)練出適合漢語拼音發(fā)音的維吾爾語拉丁化規(guī)則；根據(jù)字符串相似度這一量化標(biāo)準(zhǔn)，分別將測(cè)試語料中維吾爾語詞進(jìn)行拉丁化(修正的拉丁化規(guī)則)，漢語詞拼音化，使用文中提出的三個(gè)模型PMED、WCS和PMED+WCS進(jìn)行實(shí)驗(yàn)。結(jié)果顯示，綜合考慮字符串全局相似性、局部相似性以及維吾爾語語言特性等因素的PMED+WCS模型獲得了較高的識(shí)別準(zhǔn)確率。文中采用的方法為發(fā)音較相似語言對(duì)之間的翻譯提供一種研究思路；本文的實(shí)驗(yàn)結(jié)果可以作為維漢機(jī)器翻譯的輔助知識(shí)源；另外，可以應(yīng)用本文提出的方法根據(jù)漢語中發(fā)現(xiàn)的新詞進(jìn)行相應(yīng)維吾爾語文本中新詞的發(fā)現(xiàn)。然而，漢語中存在多音字的情況，會(huì)影響到借詞識(shí)別結(jié)果，從而影響到最終的應(yīng)用(如維漢機(jī)器翻譯)，后續(xù)將針對(duì)這一問題展開研究。

[1] Chris Manning, Hinrich Schütze. Foundations of Statistical Natural Language Processing [M],Cambridge: MIT Press, 1999.

[2] Chung-Chi Huang and Ho-Ching Yen and Ping-Che Yang, et al. Using Sublexical Translations to Handle the OOV Problem in Machine Translation [J]. ACM Transactions on Asian Language Information Processing, 2011, 10(3): 16.

[3] Lauren Asia Hall-Lew. English Loanwords in Mandarin Chinese [D]. Arizona: the University of Arizona, 2002.

[4] Gillian Kay. English loanwords in Japanese [J]. World Englishes, 1995, 14(1): 67-76.

[5] 潘子助. 試談漢語中的英語借詞[J]. 湖北函授大學(xué)學(xué)報(bào),2011,24(7):110-111.

[6] Kui Zhu.On Chinese-English Language Contact through Loanwords[J]. English Language and Literature Studies,2011,1(2):100-105.

[7] 陳燕，陳平. 漢維語外來詞借入方法對(duì)比研究[J]. 喀什師范學(xué)院學(xué)報(bào)，2011,32(2):51-55.

[8] 鄭燕. 借詞對(duì)維吾爾語詞匯的影響[J]. 湖北第二師范學(xué)院學(xué)報(bào), 2011,28(1):37-39 .

[9] 陳世明. 維吾爾語漢語借詞新探[J]. 西北民族研究，2007,1： 5.

[10] 周磊. 烏魯木齊方言借詞研究[J]. 方言，2004,4: 347-355.

[11] 李佳正，劉凱，麥熱哈巴·艾力，呂雅娟，劉群，吐爾根·依布拉音. 維吾爾語中漢族人名的識(shí)別及翻譯[J]. 中文信息學(xué)報(bào)，2011，25(4)： 82-87.

[12] Philipp Koehn, Franz Josef Och, Daniel Marcu. Statistical Phrase-Based Translation[C]//Proceeding NAACL ’03 Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language. Edmonton, Canada: ACL, 2003:48-54.

[13] Peter F.Brown, Stephen A.Della Pietra, Vincent J. Della Pietra, et al. The Mathematics of Statistical Machine Translation: Parameter Estimation [J]. Computational Linguistics, 1993, 19(2): 263-311.

[14] Yang Liu, Qun Liu, Shouxun Lin. Log-linear Models for Word Alignment[C]//Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics. Ann Arbor: ACL, 2005: 459-466.

[15] Chris Dyer, Jonathan Clark, Alon Lavle, et al. Unsupervised Word Alignment with Arbitrary Features[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics. Portland, Oregon: ACL, 2011: 409-419.

[16] Robert C.MOORE. Improving IBM Word-Alignment Model1[C]//Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics. Barcelona, Spain: ACL, 2004:519-526.

[17] 阿依克孜·卡德爾，開沙爾·卡德爾，吐爾根·依布拉音. 面向自然語言信息處理的維吾爾語名詞形態(tài)分析研究[J]. 中文信息學(xué)報(bào), 2006, 20(3): 43-48.

[18] Mehryar Mohri, Fernando Pereira, Michael Riley. Weighted Automata in Text and Speech Processing[C]//Proceedings of 12th European Conference on Artificial Intelligence. Budapest: John Wiley & Sons, Ltd, 1996: 5.