亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于詞向量的維吾爾語詞項歸一化方法

2018-03-02 09:22:53羅延根蔣同海楊雅婷

計算機工程 2018年2期

羅延根,李曉,蔣同海,楊雅婷,周喜,王磊

(1.中國科學(xué)院新疆理化技術(shù)研究所,烏魯木齊 830011;2.中國科學(xué)院新疆民族語音語言信息處理重點實驗室,烏魯木齊 830011; 3.中國科學(xué)院大學(xué),北京 100049)

0 概述

詞匯歸一化是將看起來不完全一致的多個詞條歸納成一個等價類,是眾多自然語言處理方面前處理的一個重要步驟。大部分自然語言處理的工作都要求在一個限定的詞匯表上進行處理,這樣能夠降低模型的復(fù)雜度。例如機器翻譯、命名實體抽取、信息檢索等研究,它們處理的數(shù)據(jù)都是經(jīng)過歸一化之后的“干凈”語料。

近年來,隨著互聯(lián)網(wǎng)的發(fā)展,社交媒體上的文本也呈爆炸式增長,但是社交媒體上用戶產(chǎn)生的文本并不是很正規(guī)的文本,它包含很多不合語法的句子、不正規(guī)拼寫的單詞等。對于這種文本進行自然語言處理的相關(guān)工作就顯得特別困難,因為有太多的未登錄詞。在對用戶產(chǎn)生的文本進行處理之前,詞匯歸一化就顯得特別重要。

本文提出將含有非正式維吾爾語用語的社交媒體語料與正規(guī)維吾爾語用語的新聞?wù)Z料結(jié)合起來用于獲取一個詞的低維向量空間,將正規(guī)用語的語料中的詞匯當(dāng)作候選詞,對于向量空間中的集外詞(OOV),首先找到向量空間中的k近鄰,再對k近鄰的正規(guī)詞進行相似度篩選,最后選出一個n-best的候選詞匯集。對于非正規(guī)語料句子中的集外詞(非正規(guī)詞),從候選詞匯集中選出一個最優(yōu)的對應(yīng)的詞,類似于機器翻譯的解碼過程,采用貪心解碼器,評估指標(biāo)為綜合字符串相似度以及語言模型的一個評分。

1 相關(guān)工作

維吾爾語在形態(tài)結(jié)構(gòu)上屬于粘著語類型,作為粘著語類型的語言,詞的詞匯變化和各種語法變化都是通過在實詞詞干上綴接各種附加成分的方式來表現(xiàn)的,習(xí)慣于詞干加上后綴去表達不同的含義,例如人稱、數(shù)量、詞態(tài)及語氣等。維吾爾語由阿拉伯字母組成,字母的錯寫、漏寫、縮寫以及詞干詞綴組合的多樣性也導(dǎo)致了維吾爾語中詞匯量過大的現(xiàn)象,從而造成嚴(yán)重的數(shù)據(jù)稀疏性。在大詞匯量的基礎(chǔ)上衍生出來的非正規(guī)詞的數(shù)量更是龐大,因此,日常用語(非新聞等官方用語)的機器翻譯所面臨的集外詞(Out of Vocabulary,OOV)數(shù)量更多,導(dǎo)致目前維漢機器翻譯的結(jié)果中有很多UNK(遇到OOV,一般的處理方法是在譯文中用UNK表示),所以對于維吾爾語口語用語的詞項歸一化很有必要[1-2]。

詞匯歸一化作為語料預(yù)處理的一個關(guān)鍵步驟,一直以來吸引了很多研究者的目光。最早的也是最簡單的可以用于詞匯歸一化的方法便是噪聲信道模型[3],對于非正規(guī)語料T與之對應(yīng)的正規(guī)語料S,這個模型包含2個部分:語言模型P(S)和一個歸一化模型P(T|S)。如果將非正規(guī)用語的文本當(dāng)作語言T,它對應(yīng)的正規(guī)文本作為S,根據(jù)P(S|T)=P(T|S)×P(S)/P(T),P(T)是固定的,那么通過求解argmaxP(T|S)×P(S)來求解對應(yīng)的S,從而求到argmaxP(S|T),S便是T歸一化后的結(jié)果。文獻[4]將噪聲信道模型運用到歸一化中,之后對噪聲信道模型進行擴展[5],將詞的發(fā)音作為特征加入模型中。但是這種模型都是有監(jiān)督的模型,需要大量的標(biāo)注語料對模型進行訓(xùn)練。文獻[6]對噪聲信道模型進行無監(jiān)督訓(xùn)練擴展。

另一個比較主流的詞歸一化方法是基于統(tǒng)計機器翻譯的方法。文獻[7]提出一個編碼/解碼為字符級別的短語統(tǒng)計機器翻譯系統(tǒng),使用非正規(guī)書寫的英語為源語言,對應(yīng)的正規(guī)書寫的英語為目標(biāo)語言,通過大量語料訓(xùn)練出來的這個翻譯系統(tǒng)能很好地處理歸一化問題。跟噪聲信道模型類似,訓(xùn)練階段需要大量的訓(xùn)練數(shù)據(jù),但是一一對應(yīng)的非正規(guī)和正規(guī)的語料是很難大規(guī)模獲取的,對于維吾爾語這種語料匱乏的小語種難度更大。

近年來,類似于基于上下文的圖的無監(jiān)督的隨機游走[8]算法用于社交媒體上的文本的歸一化,之后研究熱點已經(jīng)轉(zhuǎn)向無監(jiān)督的方法。文獻[9]把2個詞的上下文的相關(guān)性當(dāng)作2個詞的相關(guān)性的依據(jù),從而用來做歸一化。文獻[10]使用類似于文獻[9]的方法,利用深度神經(jīng)網(wǎng)絡(luò)和word2vec進行未登錄詞與詞典內(nèi)的正規(guī)詞進行相似度比較,最后使用語言模型來篩選。本文提出的方法與文獻[10]方法類似,將其提出的方法引入到維吾爾語的歸一化中,但是考慮由于一句話中可能包含多個非規(guī)則化的詞語,一次歸一化過程并不能完全將非正規(guī)詞歸一化,從而在文獻[10]方法的基礎(chǔ)上引入bootstrapping[11]重采樣策略[12-13],每一遍歸一化之后,重新采樣,迭代直到非規(guī)則化的詞替換次數(shù)未達到某個閾值停止;而且本文方法只是用于詞,由于維吾爾語的短語劃分不穩(wěn)定,短語級別的歸一化將作為以后的研究方向。

2 維吾爾語無監(jiān)督詞匯歸一化模型

本文使用貪心解碼器以及引入bootstrapping策略得到維吾爾語無監(jiān)督詞匯歸一化模型,模型如圖1所示。首先是對網(wǎng)絡(luò)爬取的非正規(guī)用語語料進行初步的數(shù)據(jù)預(yù)處理,預(yù)處理操作只是最簡單的篩選,將一半以上單詞都是非正規(guī)詞的句子剔除,這主要是為了保證解碼過程的正確性;然后將正規(guī)用語語料和非正規(guī)用語語料放在一起,訓(xùn)練出詞向量,再根據(jù)從正規(guī)用語的語料中抽取的正規(guī)用語詞典,在向量空間中找到每個非正規(guī)詞的k近鄰當(dāng)作候選表,之后使用貪心解碼器對非規(guī)則化文本中每個句子依據(jù)語言模型和字符串相似度選擇非規(guī)則化詞的最優(yōu)解,遍歷完了將替換之后的非正規(guī)用語文本跟正規(guī)用語文本一起重新訓(xùn)練詞向量,一直遞歸執(zhí)行直到滿足退出條件。

核心算法流程的偽代碼為:

輸入正規(guī)用語語料庫StdS={s1,s2,…,sn},非正規(guī)用語語料庫UStd={s1,s2,…,sn},評分閾值threhold

matchpair = {}

while匹配量大于閾值 do

UStd句子進行清洗

StdS與UStd一起訓(xùn)練出word2vec模型model

StdS訓(xùn)練出語言模型langModel

StdS抽取生成正規(guī)詞字典NormalDict,UStd抽取生成非正規(guī)詞字典UnNormalDict

for each word in UnNormalDict do

根據(jù)model找出cosine相似度最大的topn的candidates

for each line in UStd do

根據(jù)langModel計算line的困惑度perp1

計算line將word替換為candi之后句子的困惑度perp2

根據(jù)ratio和字符串相似度的綜合評分score重排序candidates

for each word in UnNormalDict do

從其candidates里面找到符合條件的匹配,加入到matchpair中

依據(jù)matchpair替換UStd中匹配到的非正規(guī)詞迭代

end

2.1 詞向量

對詞進行向量化表示一直是熱點,從最初的空間向量模型,到淺層語義分析(Latent Semantic Analysis)、PCA等,但這些向量都是基于詞共現(xiàn)來實現(xiàn),并不能把握住語義信息。百度提出神經(jīng)網(wǎng)絡(luò)搭建二元語言模型的方法[14],文獻[15]提出了基于神經(jīng)網(wǎng)絡(luò)的語言模型之后,后續(xù)涌現(xiàn)出一批使用神經(jīng)網(wǎng)絡(luò)生成詞向量的方法,比較具有代表性的有g(shù)oogle提出的word2vec[16]和glove[17]。使用神經(jīng)網(wǎng)絡(luò)訓(xùn)練出來的詞向量,考慮到了上下文信息,所以對詞意的表現(xiàn)力比之前的向量表示更加強[18]。對于詞匯的歸一化便可以考慮使用詞向量作為一個特征,因為那些拼錯了或者不同形式的詞,它們的上下文還是比較相似的。

傳統(tǒng)的將詞向量化的方法都是將詞用一個one-hot的向量表示,但是這種方法遇到的問題就是數(shù)據(jù)的稀疏,而且向量除了表示詞以外,并沒有將詞的上下文、語義上表達出來。詞的分布式表示提出之后,由于這種向量能很好地表達出詞之間的相似性,很快為研究者所青睞。通過訓(xùn)練將每個詞映射成K維實數(shù)向量(K一般為模型中的超參數(shù)),通過詞之間的距離(比如 cosine 相似度、歐氏距離等)來判斷它們之間的語義相似度。

詞的分布式表示是神經(jīng)網(wǎng)絡(luò)語言模型的代產(chǎn)物,神經(jīng)網(wǎng)絡(luò)語言思路與n-gram模型類似,使用wt-n+1,wt-n+2,…,wt-1來預(yù)測wt,C(w)是詞w對應(yīng)的詞向量,神經(jīng)網(wǎng)絡(luò)語言模型使用一套唯一的詞向量,存在矩陣C中,C的大小為|V|×m,|V|是詞表大小,m是向量的維度,從詞w到C(w)就是從矩陣C中取出對應(yīng)的那一行。此模型如圖2所示,是一個三層的神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)的第1層是將窗口中的詞對應(yīng)的詞向量C(wt-n+1),…,C(wt-2),C(wt-1)拼接起來,形成一個(n-1)m的向量,記為輸入x。

網(wǎng)絡(luò)的第2層就是對輸入進行一個非線性變換:

h=tanh(d+Hx)

(1)

網(wǎng)絡(luò)的輸出層一共有|V|個節(jié)點,每個節(jié)點yi表示下一個詞為i的未歸一化log概率。最后使用softmax將輸出值歸一化成概率。

y=b+Wx+Utanh(d+Hx)

(2)

此模型的目標(biāo)函數(shù)如式(3)所示,通過最大化下一個詞的概率的訓(xùn)練過程,矩陣C作為參數(shù)的一部分進行梯度下降調(diào)優(yōu),最后這個矩陣便是詞向量。這樣訓(xùn)練出來的詞向量具有很好的語義表示能力。

(3)

實驗采用的是Word2Vec工具生成的詞向量。Word2Vec有2種方式:CBOW和skip-gram,采用skip-gram、skip-gram的目的是使用一個詞來預(yù)測窗口內(nèi)的其他詞,最大化其他詞的概率。

由于通過word2vec可以將單詞投射到低維向量空間,本文采用2個詞的向量的cosine距離作為2個詞的相似度,用于候選詞的初級篩選,如圖3所示。

圖3 word2vec的2種方式

2個維度為D的向量e和f的cosine距離定義如下:

(4)

2.2 貪心解碼算法

在非正規(guī)詞聚類之后,每個非正規(guī)詞都有一個候選正規(guī)詞表,從這個詞表中選出該詞意思最近的正規(guī)詞作為此非正規(guī)詞的歸一化目標(biāo)。對于包含非正規(guī)詞的句子,從候選詞表中選擇最優(yōu)解可以類比為一個簡易的機器翻譯的解碼過程,只需要針對非正規(guī)詞進行部分解碼即可。

采用一個比較簡單的貪心策略的解碼器進行候選詞的篩選,貪心策略的評分價值采用句子的語言模型困惑度評分變化率以及非正規(guī)詞與其候選詞的字符串相似度的綜合考慮。選取得分超過閾值的詞。評分如式(5)所示,pp_ratio是語言模型困惑度變化率,lexicalsimilarity是2個詞的詞匯字符串相似度,λ1、λ2分別是模型的2個超參數(shù),在實驗中使用手工調(diào)優(yōu)得到,手動調(diào)參策略是固定一個threshold,將λ1、λ2均以0.5為初值,學(xué)習(xí)率為0.03,以正則化之后測試集的BLEU值作為評價指標(biāo),從而選取較優(yōu)的比例;threshold的選取則是在λ1、λ2選取之后手動進行調(diào)整,策略與λ1、λ2調(diào)參類似。

score(word)=λ1pp_ratio+λ2lexicalsimilarity

(5)

語言模型的目的是建立一個能夠描述給定詞序列在語言中出現(xiàn)的概率的分布,使用一個采用Kneser-Nye平滑的n=5的n-gram語言模型對句子進行困惑度打分。困惑度評分如式(6)所示。

(6)

對于候選詞的困惑度pp_ratio打分為用此候選詞替換對應(yīng)的非正規(guī)詞之后的句子的困惑度變化率,計算方式如式(7)所示。

(7)

對于字符串的相似度最常被采用的是編輯距離,編輯距離又叫Levenstein距離,是指2個字串之間,由一個轉(zhuǎn)成另一個所需的最少編輯操作次數(shù)。許可的編輯操作包括將一個字符替換成另一個字符,插入一個字符,刪除一個字符。一般來說,編輯距離越小,2個串的相似度越大。

但是編輯距離并不能特別適合這種場景,因為一般非正規(guī)書寫的單詞包括很大一部分是對單詞進行大面積的縮寫。采用文獻[6]所提出來的詞匯相似度值,2個單詞S1、S2的詞匯字符串相似度如式(8)所示,是2個字符串的最長公共子串率與編輯距離之除,這個相似度很好地適用于縮寫的情況。

(8)

2個單詞的最長公共子串率如式(9)所示,是2個字符串的最長公共子串與它們的最長長度之除。

(9)

解碼算法的偽代碼如下:

輸入非正規(guī)用語語料庫UStd={s1,s2,…,sn},評分閾值threshold

matchpairs={}

for sentence in UStd do:

計算sentence的語言模型評分pp1

for 非正規(guī)詞UFword in sentence do:

計算候選集中一個正規(guī)詞FWord替換后的句子語言模型評分PP2

計算score(FWord)

if max(score(FWord)) > threshold do:

將UFword替換為FWord繼續(xù)當(dāng)前句子解碼

else do:

進行下一句子解碼

end

2.3 bootstrapping

解碼器使用的都是基于很多噪聲的語料訓(xùn)練出來的向量空間以及上下文信息,會導(dǎo)致一些非正規(guī)詞對應(yīng)的正規(guī)詞不能聚類到top-k的候選集中,從而不能在解碼中匹配出來。為了解決這個問題,引入了bootstrapping方法。bootstrapping是統(tǒng)計學(xué)中的重采樣,本文應(yīng)用bootstrapping是帶更新的重采樣,在所有句子解碼完成后,將匹配到的非正規(guī)詞歸一化為其對應(yīng)的正規(guī)詞,將修改過的語料與正規(guī)語料一起,再重采樣,進行遞歸來對之前歸一化過程中未能歸一化的詞進行進一步的歸一化。重采樣的策略采用.632自助法,對于包含d個樣本的數(shù)據(jù)集,有放回地抽樣d次,產(chǎn)生d個樣本的數(shù)據(jù)集,每次遞歸之后采取的重采樣操作一樣。

3 實驗結(jié)果與分析

本文主要研究對象為維吾爾語口語中非正規(guī)詞,首先實驗驗證詞歸一化模型的準(zhǔn)確性,然后將歸一化的結(jié)果運用于維漢機器翻譯中驗證本文方法對機器翻譯系統(tǒng)的作用的有效性,作為對比對象,引入了文獻[10]提出的方法。

3.1 正確性分析

由于尚未有通用的維吾爾語詞歸一化方法,采用人工判定方式,使用的語料資源為:0.2 MB的新聞維漢雙語語料作為正規(guī)語料,0.2 MB的網(wǎng)絡(luò)文本作為非正規(guī)語料;使用的詞向量是word2vec,窗口大小為8,最小出現(xiàn)次數(shù)為10而訓(xùn)練生成的200維的向量,語言模型為使用kenlm[19]對此正規(guī)語料訓(xùn)練的N=5的N-gram語言模型。

使用本文方法能成功歸一化1 812次非正規(guī)詞,對歸一化成功的詞進行準(zhǔn)確度、召回度和F1值評價,結(jié)果如表1所示。

表1 歸一化詞正確性分析 %

從實驗結(jié)果可以看出,本文方法與文獻[10]方法均能夠在此場景中有效地進行詞的歸一化。本文方法在遞歸的進行中,準(zhǔn)確度逐步增加,并且在遞歸3次之后就優(yōu)于文獻[10]方法,這說明本文方法引入的bootstrapping策略能有效地提高歸一化的準(zhǔn)確性。在召回率上,本文方法隨著遞歸的進行,召回率逐步降低,主要是由于前序遞歸中為正確歸一化的詞引入的噪聲,最后召回率低于文獻[10]方法,但總體F1值也與文獻[10]方法相當(dāng)。

3.2 機器翻譯實驗驗證

把本文提出的非正規(guī)詞歸一化方法應(yīng)用于實際的機器翻譯系統(tǒng)中,來驗證該方法的有效性。

歸一化模塊的實驗設(shè)置:使用的語料資源為0.2 MB的新聞維漢雙語語料作為正規(guī)語料,0.2 MB的網(wǎng)絡(luò)文本作為非正規(guī)語料,使用的詞向量是word2vec生成的窗口大小為8的200維的向量,語言模型為使用此正規(guī)語料訓(xùn)練的N=5的N-gram語言模型,超參數(shù)λ1、λ2經(jīng)過多次實驗,采用0.43、0.57效果最優(yōu)。

機器翻譯實驗設(shè)置:采用維漢新聞?wù)Z料和未正規(guī)化的口語語料作為實驗對象,訓(xùn)練集采用CWMT2015的維漢新聞?wù)Z料,由于尚未有公開的維漢雙語口語語料集,實驗采用爬取以及標(biāo)注的網(wǎng)頁論壇語料作為測試集,語料樣本規(guī)模如表2所示。

表2 機器翻譯語料

實驗的基線系統(tǒng)為moses3.0[20]訓(xùn)練的基于短語的統(tǒng)計機器翻譯系統(tǒng)[21],該系統(tǒng)基于最小錯誤率訓(xùn)練方法優(yōu)化翻譯系統(tǒng)權(quán)重,最后采用BLEU值作為評價指標(biāo)。本文設(shè)置如下3個翻譯實驗:

1)基線:利用新聞?wù)Z料訓(xùn)練的統(tǒng)計翻譯模型直接對測試集進行翻譯。

2)文獻[10]方法:對測試集使用文獻[10]方法進行歸一化之后利用基線進行翻譯。

3)本文方法:采用本文提出的歸一化方法進行歸一化之后利用基線進行翻譯,遞歸i表示本文方法進行重采樣遞歸i次之后進行歸一化的結(jié)果。

實驗結(jié)果如表3所示,利用本文方法進行歸一化之后的文檔的翻譯結(jié)果的BLEU值有了顯著的提升。在遞歸2次之后,本文方法的結(jié)果略優(yōu)于進行一次解碼的文獻[10]提出的方法。

表3 機器翻譯實驗結(jié)果

圖4 包含非正規(guī)詞的句子實例

圖5 歸一化之后的句子實例

本文方法的效果隨著遞歸的進行,BLEU值逐步趨于收斂,這是由于本文方法每輪遞歸中未正確歸一化的詞所引入的噪聲導(dǎo)致后續(xù)的遞歸過程中能進行正確歸一化的詞數(shù)量減少所導(dǎo)致的。

4 結(jié)束語

本文提出了一種無監(jiān)督的維吾爾語口語中非正規(guī)詞的歸一化方法,將該方法運用于維漢機器翻譯的待翻譯句子的前編輯歸一化之后,相比于基線系統(tǒng),使用不同領(lǐng)域訓(xùn)練的統(tǒng)計機器翻譯系統(tǒng),在測試集上BLEU值提升了0.7。此外本文方法也是對文獻[10]方法的一種改進,引入了bootstrapping方法并且采用了另一個解碼器以及不同的打分機制,實驗結(jié)果也證明本文方法有一定的改進,在準(zhǔn)確度上有了2.4個百分點的提高,由于引入重采樣策略,召回率降低了5個百分點,在機器翻譯上,本文方法也較之在BLEU值上提高了0.2。

由于本文未能引入更多的維吾爾語的語言學(xué)特性,因此后續(xù)將在解碼器中加入部分語言學(xué)方面的規(guī)則,進一步提高歸一化的召回率。

[1] 年梅,張?zhí)m芳.維吾爾文網(wǎng)絡(luò)查詢擴展詞的構(gòu)建研究[J].計算機工程,2015,41(4):187-189,194.

[2] MI Chenggang,YANG Yating,ZHOU Xi,et al.A Phrase Table Filtering Model Based on Binary Classification for Uyghur-Chinese Machine Translation[J].Journal of Computers,2014,9(12):2780-2786.

[3] SHANNON C E.Communication Theory of Secrecy Systems[J].Bell System Technical Journal,1949,28(4):656-715.

[4] BRILL E,MOORE R C.An Improved Error Model for Noisy Channel Spelling Correction[C]//Proceedings of the 38th Annual Meeting on Association for Computational Linguistics.[S.l.]:Association for Computational Linguistics,2000:286-293.

[5] TOUTANOVA K,MOORE R C.Pronunciation Modeling for Improved Spelling Correction[C]//Pro-ceedings of the 40th Annual Meeting on Association for Computational Linguistics.[S.l.]:Association for Computational Linguistics,2002:144-151.

[6] COOK P,STEVENSON S.An Unsupervised Model for Text Message Normalization[C]//Proceedings of Workshop on Computational Approaches to Linguistic Creativity.[S.l.]:Association for Computational Linguistics,2009:71-78.

[7] AW A T,ZHANG Min,XIAO Juan,et al.A Phrase-based Statistical Model for SMS Text Normalization[C]//Proceedings of COLING/ACL on Main Conference Poster Sessions.[S.l.]:Association for Computational Linguis-tics,2006:33-40.

[8] HASSAN H,MENEZES A.Social Text Normalization Using Contextual Graph Random Walks[C]//Proceedings of the 51st Annual Meeting Computational Linguistics Meeting.[S.l.]:Association for Computational Linguis-tics,2013:1577-1586.

[9] HAN Bo,COOK P,BALDWIN T.Automatically Con-structing a Normalisation Dictionary for Microblogs[C]//Proceedings of Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning.[S.l.]:Association for Computational Linguistics,2012:421-432.

[10] SRIDHAR V K R.Unsupervised Text Normalization Using Distributed Representations of Words and Phrases[C]// Proceedings of Workshop on Vector Space Modeling for Natural Language Processing.New York,USA:ACM Press,2015:8-16

[11] MOONEY C Z,DUVAL R D,DUVAL R.Bootstrapping:A Nonparametric Approach to Statistical Inference[J].Technometrics,1993,36 (4):435-436

[12] 羅軍,高琦,王翊.基于Bootstrapping的本體標(biāo)注方法[J].計算機工程,2010,36(23):85-87.

[13] 何婷婷,徐超,李晶,等.基于種子自擴展的命名實體關(guān)系抽取方法[J].計算機工程,2006,32(21):183-184.

[14] XU W,RUDNICKY A I.Can Artificial Neural Networks Learn Language Models?[D].Pittsburgh,USA:Carnegie Mellon University,2000.

[15] BENGIO Y,DUCHARME R,VINCENT P,et al.A Neural Probabilistic Language Model[J].Journal of Machine Learning Research,2003,3(2):1137-1155.

[16] MIKOLOV T,KARAFIT M,BURGET L,et al.Recurrent Neural Network Based Language Model[C]//Proceedings of Conference of the International Speech Communication Association.Berlin,Germany:Springer,2010:1045-1048.

[17] PENNINGTON J,SOCHER R,MANNING C D.Glove:Global Vectors for Word Representation[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing.Berlin,Germany:Springer,2014:1532-1543.

[18] 張為泰.基于詞向量模型特征空間優(yōu)化的同義詞擴展研究與應(yīng)用[D].北京:北京郵電大學(xué),2014.

[19] HEAFIELD K.KEN L M:Faster and Smaller Language Model Queries[C]//Proceedings of the 6th Workshop on Statistical Machine Translation.[S.l.]:Association for Computational Linguistics,2011:187-197.

[20] KOEHN P,HOANG H,BIRCH A,et al.Moses:Open Source Toolkit for Statistical Machine Translation[C]//Proceedings of the 45th Annual Meeting of the ACL on Interactive Poster and Demonstration Sessions.[S.l.]:Association for Computational Linguistics,2007:177-180.

[21] CHIANG D.Hierarchical Phrase-based Translation[M].[S.l.]:Association for Computational Linguistics,2007.