潘一榮,李 曉 ,楊雅婷,米成剛,董 瑞
(1.中國科學(xué)院 新疆理化技術(shù)研究所,烏魯木齊830011; 2.中國科學(xué)院大學(xué),北京100049;3.新疆民族語音語言信息處理實(shí)驗(yàn)室,烏魯木齊830011)
(* 通信作者電子郵箱 xiaoli@ms.xjb.a(chǎn)c.cn)
在統(tǒng)計(jì)機(jī)器翻譯的研究中,不論是基于詞還是基于短語的翻譯模型,調(diào)序都是其中的重點(diǎn)與難點(diǎn)。由于不同的語種間存在句法結(jié)構(gòu)差異性,需要對(duì)目標(biāo)語言端的詞序進(jìn)行調(diào)整,使之更加接近目標(biāo)語言的表達(dá)形式,保證翻譯結(jié)果的準(zhǔn)確性和流暢性。傳統(tǒng)的詞匯化調(diào)序模型[1-2]基于詞和短語的對(duì)齊結(jié)果對(duì)調(diào)序信息進(jìn)行建模,并使用統(tǒng)計(jì)學(xué)方法構(gòu)建調(diào)序模型,對(duì)于解決局部調(diào)序問題具有較好的效果,但忽略詞和短語在特定語境中的調(diào)序類別,存在上下文無關(guān)性及稀疏性問題[3]。
在漢語到維語的統(tǒng)計(jì)機(jī)器翻譯中,針對(duì)調(diào)序問題主要有句法形態(tài)信息處理[4]、基于句法調(diào)序[5]、調(diào)序表過濾[6]等方法。前兩者利用漢維雙語的語言學(xué)及形態(tài)學(xué)知識(shí),在漢語端進(jìn)行預(yù)調(diào)序,使之在詞序上接近維語的語法結(jié)構(gòu);同時(shí)在維語端進(jìn)行詞干詞綴切分等操作,使之以詞素形式參與翻譯系統(tǒng)的訓(xùn)練過程。后者引入深度學(xué)習(xí)方法,利用遞歸自動(dòng)編碼機(jī)對(duì)漢維調(diào)序規(guī)則進(jìn)行特征表示,從中獲取調(diào)序概率并依據(jù)其與初始得分之間的差值,對(duì)調(diào)序表進(jìn)行規(guī)則過濾。
近幾年來,統(tǒng)計(jì)學(xué)調(diào)序模型與神經(jīng)網(wǎng)絡(luò)方法相結(jié)合成為研究熱點(diǎn):楊南等[7]提出基于神經(jīng)網(wǎng)絡(luò)的預(yù)調(diào)序模型,利用神經(jīng)網(wǎng)絡(luò)獲取詞匯的向量表示,將源單詞間的調(diào)序問題建模為排序問題,實(shí)現(xiàn)源語言端的預(yù)調(diào)序;Li等[8]利用遞歸神經(jīng)網(wǎng)絡(luò)進(jìn)行語言建模,基于雙語句對(duì)的特征向量進(jìn)行調(diào)序概率預(yù)測(cè),構(gòu)建神經(jīng)調(diào)序模型并作為額外特征加入至解碼部分。
本文延續(xù)深度學(xué)習(xí)方法在統(tǒng)計(jì)機(jī)器翻譯領(lǐng)域中的研究思路,提出基于語義內(nèi)容進(jìn)行調(diào)序方向及概率預(yù)測(cè)的調(diào)序表重構(gòu)模型。該模型首先使用連續(xù)分布式表示方法,從大規(guī)模未標(biāo)注的維語文本中學(xué)習(xí)詞匯和短語的特征向量,對(duì)調(diào)序表中的維語規(guī)則進(jìn)行表示,將具有語義相似性的調(diào)序規(guī)則映射至向量空間中的相近位置;然后通過循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)對(duì)向量化表示的規(guī)則進(jìn)行調(diào)序概率預(yù)測(cè),結(jié)合反向傳播算法優(yōu)化網(wǎng)絡(luò)參數(shù),最小化初始調(diào)序類別與神經(jīng)網(wǎng)絡(luò)中學(xué)習(xí)到的調(diào)序類別的交叉熵,獲取更加合理的調(diào)序概率分布;最后過濾并重構(gòu)調(diào)序表,賦予調(diào)序規(guī)則優(yōu)化后的調(diào)序概率,并對(duì)原始調(diào)序表中的規(guī)則進(jìn)行篩選,保留準(zhǔn)確度及匹配度較高的規(guī)則,同時(shí)降低調(diào)序表規(guī)模,提高后續(xù)解碼速率。本文在漢維機(jī)器翻譯任務(wù)中進(jìn)行了相關(guān)實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,面向漢維機(jī)器翻譯的調(diào)序表重構(gòu)模型可以明顯提高翻譯性能。
對(duì)于詞匯化調(diào)序模型中存在的數(shù)據(jù)稀疏性等問題,將其作為分類任務(wù)進(jìn)行處理較為普遍。Green等[9]使用判別式扭曲代價(jià)模型來預(yù)測(cè)詞匯在譯文中的移動(dòng)距離;Nguyen等[10]引入基于最大熵的層次化調(diào)序模型,融入句法信息進(jìn)行調(diào)序方向預(yù)測(cè);Hadiwinoto等[11]提出基于依賴關(guān)系的調(diào)序模型,預(yù)測(cè)相互依賴的源單詞在目標(biāo)端中是否保持原始相對(duì)位置。
深度學(xué)習(xí)方法需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,將其表示為固定維度的特征向量,對(duì)于文本分析相關(guān)任務(wù),詞袋模型(Bag of Words,BOW)[12]較常用,它基于詞頻信息對(duì)文本進(jìn)行表示,但忽略特定單詞的語義內(nèi)容及單詞間的排列順序,并且存在稀疏性和超維度等問題。隨著神經(jīng)網(wǎng)絡(luò)向量表示技術(shù)的發(fā)展,從 Mikolov等提出的詞向量表示[13-14]到短語級(jí)、語句級(jí)[15-16]等大規(guī)模文本表示方法,神經(jīng)網(wǎng)絡(luò)語言模型的研究日趨成熟。本文引用Le等[17]提出的連續(xù)分布式表示方法,將漢維調(diào)序表中的維語規(guī)則映射為低維稠密的實(shí)值特征向量,并在此基礎(chǔ)上進(jìn)行調(diào)序方向及概率預(yù)測(cè)。
在漢維統(tǒng)計(jì)機(jī)器翻譯中,以 MSD(Monotone,Swap,Discontinuous)雙向調(diào)序模型生成的調(diào)序表為例,如圖1所示,它由源語言短語、目標(biāo)語言短語、雙向調(diào)序概率分布三部分組成,其中最大概率所在類別作為該條規(guī)則的調(diào)序方向(維吾爾語從右至左書寫)。
圖1 漢維機(jī)器翻譯MSD雙向調(diào)序模型Fig.1 MSD bidirectional reordering model for Chinese-Uyghur machine translation
在基于短語的機(jī)器翻譯系統(tǒng)中,當(dāng)給定源語言語句f、目標(biāo)語言短語序列e={e1,e2,…,en}、短語對(duì)齊信息a={a1,a2,…,an}時(shí),其中ai表示目標(biāo)短語ei對(duì)應(yīng)于源短語fai,詞匯化調(diào)序模型對(duì)于調(diào)序方向o={o1,o2,…,on}的概率估計(jì)由式(1)所得,oi在不同的調(diào)序模型中具有不同的調(diào)序類別。
在基于短語的MSD前向調(diào)序模型中,包含3個(gè)調(diào)序方向:單 調(diào) (Monotone, M)、交 換 (Swap, S)、非 連 續(xù)(Discontinuous,D)。調(diào)序類別由當(dāng)前目標(biāo)短語與其前面短語所對(duì)應(yīng)的源短語對(duì)齊信息進(jìn)行判定,具體如式(2)所示:
圖2 漢維翻譯MSD前向調(diào)序?qū)嵗鼺ig.2 MSD forward reordering example for Chinese-Uyghur translation
詞匯化調(diào)序模型基于當(dāng)前短語對(duì)中的單詞進(jìn)行調(diào)序概率估計(jì),使用統(tǒng)計(jì)學(xué)方法構(gòu)建調(diào)序概率信息,如式(3)所示,賦予調(diào)序表固定的概率分布值,因此對(duì)于特定的詞匯和短語忽略語義內(nèi)容以及上下文信息,無法獲取高質(zhì)量的調(diào)序模型。
如圖3所示,維吾爾語一般為主賓謂結(jié)構(gòu),漢維短語對(duì)[學(xué)習(xí),]在不同的語義環(huán)境中具有不同的調(diào)序方向。
圖3 漢維短語對(duì)在不同語義環(huán)境中的調(diào)序方向Fig.3 Reordering orientations of Chinese-Uyghur phrase pairs in different semantic environments
2.2.1 調(diào)序方向及概率預(yù)測(cè)
針對(duì)詞匯化調(diào)序模型的不足,提出了基于語義內(nèi)容進(jìn)行調(diào)序方向及概率預(yù)測(cè)的調(diào)序表重構(gòu)模型,如式(4)所示:
其中:ci表示當(dāng)前目標(biāo)短語語義信息的特征向量。本模型引入當(dāng)前短語的語義內(nèi)容以及單詞的上下文信息,對(duì)詞匯化調(diào)序模型中的調(diào)序概率重新進(jìn)行預(yù)測(cè)及評(píng)估。
2.2.2 調(diào)序表過濾及重構(gòu)策略
對(duì)于各個(gè)調(diào)序規(guī)則,本文將調(diào)序模型的初始概率分布o(jì)i與預(yù)測(cè)的概率分布pi進(jìn)行對(duì)比:若兩者的調(diào)序類別c相同,則賦予該條規(guī)則預(yù)測(cè)的調(diào)序概率;否則不再考慮當(dāng)前規(guī)則。通過調(diào)序表過濾及重構(gòu),去除掉詞匯化調(diào)序模型中概率分布不合理的調(diào)序規(guī)則以提高調(diào)序信息準(zhǔn)確度,同時(shí)降低調(diào)序表規(guī)模,加快后續(xù)解碼速率。
維語詞向量表示和短語向量表示框架如圖4所示。通過連續(xù)分布式短語向量表示方法,可以將具有相似語義的維語規(guī)則映射至向量空間中的相近位置,并使用低維稠密的實(shí)值特征向量進(jìn)行表示,同時(shí)認(rèn)為它們具有相同的調(diào)序類別。連續(xù)分布式向量表示中蘊(yùn)含了調(diào)序規(guī)則的語義內(nèi)容和上下文信息,在此基礎(chǔ)上應(yīng)用深度學(xué)習(xí)方法,對(duì)于各個(gè)規(guī)則的調(diào)序信息進(jìn)行分析,賦予調(diào)序模型更加合理的調(diào)序方向以及概率分布。
圖4 維語詞向量和短語向量表示框架Fig.4 Vector representation framework of Uyghur word and phrase
2.3.1 詞向量表示
連續(xù)分布式詞向量表示方法通過給定上下文單詞序列進(jìn)行后續(xù)詞匯的預(yù)測(cè)。具體來說,單詞被存儲(chǔ)在詞矩陣W的列向量中,并且根據(jù)其在詞匯表中的位置進(jìn)行索引;詞序列中的詞向量按序進(jìn)行合并構(gòu)成上下文特征矩陣,以預(yù)測(cè)后續(xù)可能出現(xiàn)的單詞。
給定一個(gè)長度為T的詞序列,詞向量表示模型的目標(biāo)為最大化平均對(duì)數(shù)概率,如式(6)所示:
詞預(yù)測(cè)任務(wù)由softmax函數(shù)進(jìn)行多類概率值輸出,U和b為softmax參數(shù),h為該序列中詞向量組合而成的矩陣,具體如式(7)所示:
2.3.2 短語向量表示
延續(xù)詞向量表示方法思路,引入分布式記憶模型對(duì)短語向量表示進(jìn)行學(xué)習(xí)。該模型從訓(xùn)練語料中隨機(jī)抽取固定長度的詞序列進(jìn)行后續(xù)詞匯預(yù)測(cè),并且使用Phrase ID進(jìn)行索引,將其作為記憶模塊以識(shí)別該序列中的缺失內(nèi)容。
在該模型中,詞向量表示存儲(chǔ)在詞矩陣W中,短語向量存儲(chǔ)在短語矩陣P中。詞序列由定長滑動(dòng)窗口在訓(xùn)練語料中進(jìn)行隨機(jī)采樣,將采樣得到的詞序列的Phrase ID與該序列中的所有詞向量按序進(jìn)行合并,作為特征矩陣以預(yù)測(cè)后續(xù)詞匯。詞向量具有全局性,相同詞匯在不同序列中共享向量表示;只有在相同語句中采樣的詞序列共享Phrase ID。該模型使用無監(jiān)督方法進(jìn)行訓(xùn)練,避免人工標(biāo)注的繁瑣性與不確定性,同時(shí)考慮詞匯在特定上下文中的語義內(nèi)容,且保留詞序信息。
對(duì)于預(yù)測(cè)類任務(wù),如語音識(shí)別[18]、文本序列生成[19]等,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)可以獲得較好的實(shí)驗(yàn)效果,結(jié)構(gòu)如圖5所示。RNN可被視為由同一個(gè)神經(jīng)網(wǎng)絡(luò)經(jīng)過多次復(fù)制而成的深度前饋網(wǎng)絡(luò),該網(wǎng)絡(luò)中所有神經(jīng)單元共享權(quán)重。由于具有深層循環(huán)結(jié)構(gòu),RNN能夠維護(hù)隱藏層的歷史狀態(tài)并保持信息記憶的持久性,在給定上下文信息的前提下,有效地預(yù)測(cè)該序列中后續(xù)內(nèi)容的概率分布。
圖5 循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Structure diagram of RNN
本工作利用RNN學(xué)習(xí)序列化數(shù)據(jù)的高效性,對(duì)向量化表示的維語規(guī)則進(jìn)行調(diào)序方向及概率預(yù)測(cè),流程如圖6所示。
圖6 循環(huán)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)調(diào)序概率分布值流程Fig.6 Flow diagram of RNN for reordering probability distribution prediction
首先將維語規(guī)則的特征向量以矩陣形式輸入至RNN中;然后在網(wǎng)絡(luò)輸出層添加softmax函數(shù)用于輸出多類調(diào)序概率,最大值所在類別為該規(guī)則的調(diào)序方向;之后與初始調(diào)序類別計(jì)算交叉熵,使用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)和反向傳播算法更新網(wǎng)絡(luò)參數(shù)直至結(jié)果收斂;最后輸出預(yù)測(cè)的調(diào)序概率分布值,用于調(diào)序表重構(gòu)模型中。
在給定當(dāng)前短語的語義內(nèi)容及上下文信息時(shí),調(diào)序概率分布值由式(8)所得:
其中:ci為當(dāng)前短語的連續(xù)分布式特征向量,Mo為權(quán)重矩陣,bo為偏置向量,Mo和bo為RNN中的網(wǎng)絡(luò)參數(shù)。
本文使用2015年全國機(jī)器翻譯研討會(huì)評(píng)測(cè)中公開的漢維雙語語料數(shù)據(jù),結(jié)合斯坦福大學(xué)開發(fā)的分詞器[20]對(duì)漢語語料進(jìn)行分詞。實(shí)驗(yàn)數(shù)據(jù)分為訓(xùn)練集(11萬句對(duì))、開發(fā)集(1095句對(duì))、測(cè)試集1(1000句對(duì))和測(cè)試集2(1000句對(duì))。
本文從新聞網(wǎng)站(http://uy.ts.cn)中抓取78萬行維語文本,作為訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí)。實(shí)驗(yàn)建立在機(jī)器翻譯平臺(tái)Moses系統(tǒng)[21]上;使用 GIZA++工具[22]進(jìn)行漢維平行語料的詞對(duì)齊操作;使用SRILM工具[23]對(duì)五元語言模型進(jìn)行訓(xùn)練;使用大小寫不敏感的BLEU值[24]作為翻譯結(jié)果的評(píng)價(jià)標(biāo)準(zhǔn)。
1)維語短語向量表示學(xué)習(xí)。采用skip-gram模型[25]和分層采樣方法[26];設(shè)置初始學(xué)習(xí)速率alpha=0.025;設(shè)置上下文采樣窗口window=5;設(shè)置最小詞頻min-count=3;設(shè)置短語向量維度size=128。
2)RNN預(yù)測(cè)調(diào)序概率。設(shè)置優(yōu)化器Optimizer=SGD,初始學(xué)習(xí)速率lr=0.001,動(dòng)量參數(shù)momentum=0.9,并且每輪更新后lr的衰減值decay=1E-4;設(shè)置目標(biāo)函數(shù)為多類交叉熵loss=categorical_crossentropy;設(shè)置性能評(píng)估函數(shù)metrics=categorical_accuracy;采用分批數(shù)據(jù)進(jìn)行訓(xùn)練,batch_size=200;設(shè)置shuffle=True進(jìn)行隨機(jī)數(shù)據(jù)訓(xùn)練;訓(xùn)練輪數(shù)epoch=500,此時(shí)可以產(chǎn)生收斂的交叉熵值,輸出調(diào)序概率分布值。
3)多層感知機(jī)(Multilayer Perceptron,MLP)預(yù)測(cè)調(diào)序概率。本文設(shè)置兩種不同的網(wǎng)絡(luò)結(jié)構(gòu)以對(duì)比實(shí)驗(yàn)效果。MLP相當(dāng)于將多個(gè)前饋神經(jīng)網(wǎng)絡(luò)串聯(lián),該結(jié)構(gòu)由隱藏層及其中的神經(jīng)元節(jié)點(diǎn)構(gòu)成,在輸出層添加softmax激活函數(shù)進(jìn)行多類調(diào)序概率值輸出,其他網(wǎng)絡(luò)參數(shù)設(shè)置與RNN保持一致。
對(duì)于漢維MSD前向調(diào)序模型,考慮當(dāng)前短語與其前短語所對(duì)應(yīng)的源短語對(duì)齊信息;對(duì)于后向調(diào)序模型,考慮當(dāng)前短語與其后短語所對(duì)應(yīng)的源短語對(duì)齊信息。漢維MSD雙向調(diào)序?qū)嵗鐖D7所示。
圖7 漢維翻譯MSD雙向調(diào)序?qū)嵗鼺ig.7 MSD bidirectional reordering examples of Chinese-Uyghur translation
表1 漢維翻譯中MSD雙向調(diào)序規(guī)則分布Tab.1 MSD bidirectional reordering rule distribution of Chinese-Uyghur translation
由表中數(shù)據(jù)可以看出,三類調(diào)序規(guī)則分布嚴(yán)重不均,若應(yīng)用深度學(xué)習(xí)技術(shù),會(huì)導(dǎo)致實(shí)驗(yàn)結(jié)果明顯偏重于訓(xùn)練數(shù)據(jù)規(guī)模龐大的調(diào)序類別[27]。有實(shí)驗(yàn)證明,隨機(jī)下采樣方法可以有效地解決數(shù)據(jù)失衡問題,例如:利用支持向量機(jī)(Support Vector Machine,SVM)方法結(jié)合隨機(jī)下采樣[28]實(shí)現(xiàn)時(shí)間序列分類;利用AdaBoost集成策略結(jié)合隨機(jī)下采樣[29]實(shí)現(xiàn)蛋白質(zhì)殘留物的預(yù)測(cè)等。因此,本文保留最小規(guī)模類別中的全部調(diào)序規(guī)則,對(duì)其他各類規(guī)則進(jìn)行隨機(jī)下采樣,并且保證以上三類訓(xùn)練樣本的均衡分布。
本文設(shè)置以下幾組對(duì)比實(shí)驗(yàn),用于分析不同調(diào)序模型對(duì)于翻譯結(jié)果的影響,實(shí)驗(yàn)結(jié)果如表2所示(規(guī)則表示調(diào)序規(guī)則數(shù)目,測(cè)試集1和測(cè)試集2表示機(jī)器翻譯在兩個(gè)測(cè)試集上的BLEU值,均值表示兩個(gè)測(cè)試集BLEU值的平均值)。
表2 不同調(diào)序模型的實(shí)驗(yàn)結(jié)果對(duì)比Tab.2 Experimental result comparisons of different reordering models
85 Word-based MSD+MLP 1642684 30.30 29.34 29.82 Word-based MSLR+MLP 1645026 30.27 29.38 29.83 Phrase-based MSD+MLP 2587407 30.28 29.33 29.81 Word-based MSD+RNN 1642684 30.42 29.36 29.89 Word-based MSLR+RNN 1645026 30.49 29.33 29.91 Phrase-based MSD+RNN 2587407 30.18 29.51 29.
1)Distance-based。基于移動(dòng)距離的調(diào)序模型,該模型對(duì)詞和短語的移動(dòng)幅度進(jìn)行線性評(píng)估,并且不產(chǎn)生調(diào)序表,作為本實(shí)驗(yàn)的基線系統(tǒng)。
2)Word-based MSD?;谠~的MSD雙向調(diào)序模型,該模型由詞對(duì)齊結(jié)果進(jìn)行調(diào)序方向判別以及調(diào)序概率估計(jì)。
3)Word-based MSLR?;谠~的MSLR雙向調(diào)序模型,該模型由詞對(duì)齊結(jié)果進(jìn)行調(diào)序方向及調(diào)序概率估計(jì),共包含monotone、swap、discontinuous-left、discontinuous-right四個(gè)調(diào)序類型,相當(dāng)于將MSD詞匯化調(diào)序模型中的非連續(xù)調(diào)序(D)進(jìn)行細(xì)分。
4)Phrase-based MSD。基于短語的MSD雙向調(diào)序模型,該模型由短語對(duì)齊結(jié)果進(jìn)行調(diào)序方向判別以及調(diào)序概率估計(jì)。
5)Word-based MSD+MLP?;谠~的MSD雙向調(diào)序模型,結(jié)合MLP重構(gòu)調(diào)序表。
6)Word-based MSLR+MLP。基于詞的MSLR雙向調(diào)序模型,結(jié)合MLP重構(gòu)調(diào)序表。
7)Phrase-based MSD+MLP。基于短語的MSD雙向調(diào)序模型,結(jié)合MLP重構(gòu)調(diào)序表。
8)Word-based MSD+RNN?;谠~的MSD雙向調(diào)序模型,結(jié)合RNN重構(gòu)調(diào)序表。
9)Word-based MSLR+RNN?;谠~的MSLR雙向調(diào)序模型,結(jié)合RNN重構(gòu)調(diào)序表。
10)Phrase-based MSD+RNN?;诙陶Z的MSD雙向調(diào)序模型,結(jié)合RNN重構(gòu)調(diào)序表。
由以上實(shí)驗(yàn)結(jié)果對(duì)比可以看出,與基于移動(dòng)距離Distance-based的調(diào)序模型(29.49)相比,基于詞的MSD調(diào)序模型、基于詞的MSLR調(diào)序模型和基于短語的MSD調(diào)序模型可以獲得更好的機(jī)器翻譯效果,其中基于短語的MSD調(diào)序模型(29.80)表現(xiàn)最好,說明考慮短語間的調(diào)序信息可以明顯提高系統(tǒng)對(duì)于調(diào)序方向類型的預(yù)測(cè)能力,且以短語對(duì)齊結(jié)果作為調(diào)序方向判別基準(zhǔn),可以顯著增強(qiáng)系統(tǒng)對(duì)于長距離調(diào)序問題的處理性能。不論是基于詞還是基于短語的詞匯化調(diào)序模型,兩者都基于短語對(duì)齊結(jié)果進(jìn)行解碼,故加入短語的語義信息進(jìn)行調(diào)序方向及概率預(yù)測(cè),可以有效緩解上下文無關(guān)性及數(shù)據(jù)稀疏性問題,從而賦予調(diào)序表更加合理的調(diào)序概率值,提高機(jī)器翻譯質(zhì)量。
將本文提出的調(diào)序表重構(gòu)模型應(yīng)用至以上三種詞匯化調(diào)序模型生成的調(diào)序表中,并且設(shè)置MLP方法進(jìn)行對(duì)比,用以驗(yàn)證連續(xù)分布式表示方法和RNN預(yù)測(cè)調(diào)序方向及概率分布在本工作中的有效性。實(shí)驗(yàn)結(jié)果表明,結(jié)合MLP重構(gòu)的調(diào)序表BLEU值平均提高0.073;結(jié)合RNN重構(gòu)的調(diào)序表BLEU值平均提高0.138。RNN效果明顯優(yōu)于MLP。
結(jié)合RNN對(duì)基于詞的MSLR調(diào)序模型生成的調(diào)序規(guī)則進(jìn)行過濾及重構(gòu)時(shí),可以顯著降低調(diào)序表規(guī)模,在測(cè)試集1上的表現(xiàn)最好(30.49),BLEU值提升0.39,且在本實(shí)驗(yàn)中的綜合效果最佳;而結(jié)合RNN方法重構(gòu)基于短語的MSD調(diào)序模型生成的調(diào)序表,在測(cè)試集2上的表現(xiàn)最好(29.51),造成此結(jié)果的原因可能在于:測(cè)試集1和測(cè)試集2屬于不同領(lǐng)域的測(cè)試語料,因此對(duì)于不同的翻譯模型具有不同的語料匹配程度,從而造成實(shí)驗(yàn)結(jié)果中測(cè)試集1的翻譯準(zhǔn)確率明顯高于測(cè)試集2的現(xiàn)象;重構(gòu)的調(diào)序表在該測(cè)試集上包含較多相關(guān)的調(diào)序信息,具有較高的領(lǐng)域匹配度,由此產(chǎn)生明顯的BLEU值提升。對(duì)于MSLR詞匯化調(diào)序模型生成的調(diào)序表,結(jié)合MLP(29.83)和RNN(29.91)進(jìn)行過濾及重構(gòu),可以獲得明顯的BLEU值提升,可能因?yàn)镸SLR調(diào)序模型中包含了足夠多的調(diào)序類別,故在調(diào)序方向判別及概率預(yù)測(cè)上具有較好的表現(xiàn)。
在過濾不同調(diào)序模型生成的調(diào)序規(guī)則時(shí),MLP和RNN保留相同規(guī)模的規(guī)則條目,并且這些規(guī)則中的短語對(duì)齊信息相同,只是調(diào)序概率分布值有差異。本文認(rèn)為神經(jīng)網(wǎng)絡(luò)具有學(xué)習(xí)調(diào)序信息的能力,故兩者都可以將某一規(guī)則分類至最有可能的調(diào)序類別中,但對(duì)其賦予不同的調(diào)序概率,因而造成翻譯性能的差異。根據(jù)實(shí)驗(yàn)結(jié)果可知,RNN具有更好的預(yù)測(cè)調(diào)序方向及調(diào)序概率的能力,歸因其深度循環(huán)結(jié)構(gòu),可以更高效地分析并評(píng)估調(diào)序信息,從而顯著地提高機(jī)器翻譯性能。
實(shí)驗(yàn)證明,使用MLP和RNN重新預(yù)測(cè)調(diào)序概率分布值,并且在此基礎(chǔ)上對(duì)原始調(diào)序表進(jìn)行過濾及重構(gòu),可以有效地提高漢維調(diào)序模型中調(diào)序信息的準(zhǔn)確度,并降低原始調(diào)序表規(guī)模,加快后續(xù)解碼速率。
本文提出一種基于語義內(nèi)容進(jìn)行調(diào)序方向及概率預(yù)測(cè)的漢維調(diào)序表重構(gòu)模型。該模型首先在大規(guī)模未標(biāo)注的維語文本中學(xué)習(xí)維語詞匯和短語的向量表示,并且在此基礎(chǔ)上對(duì)調(diào)序表中的維語規(guī)則進(jìn)行特征表示預(yù)測(cè);然后利用RNN對(duì)調(diào)序規(guī)則的調(diào)序方向進(jìn)行預(yù)測(cè),并重新評(píng)估調(diào)序概率分布值;最后對(duì)漢維調(diào)序表進(jìn)行過濾及重構(gòu),并將優(yōu)化后的調(diào)序模型加入后續(xù)解碼進(jìn)程中。實(shí)驗(yàn)結(jié)果表明,調(diào)序表重構(gòu)模型可以明顯提高漢維機(jī)器翻譯系統(tǒng)性能。
沿著目前的研究方向,在后續(xù)工作中有以下思路。第一,融入維吾爾語的語言學(xué)以及形態(tài)學(xué)知識(shí),對(duì)維語進(jìn)行詞干詞綴切分、命名實(shí)體識(shí)別等操作,提高漢維機(jī)器翻譯中詞和短語對(duì)齊結(jié)果的準(zhǔn)確度;第二,學(xué)習(xí)調(diào)序表中雙語規(guī)則的特征表示,以捕獲更多的調(diào)序信息和對(duì)齊信息。