亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于統(tǒng)計(jì)和詞典方法相結(jié)合的韓漢雙語語料庫名詞短語對齊

2018-09-18 09:33:40凌天斌畢玉德

中文信息學(xué)報(bào) 2018年8期

凌天斌，畢玉德

(解放軍戰(zhàn)略支援部隊(duì)信息工程大學(xué)，河南洛陽 471003)

0 引言

在基于實(shí)例的機(jī)器翻譯系統(tǒng)中，翻譯實(shí)例獲取根據(jù)粒度區(qū)分，可以分為篇章級、句子級、短語級和詞語級等，其中詞語對齊是基礎(chǔ)，而短語對齊在很大一部分程度上依賴于詞語對齊。本文討論的是利用較大規(guī)模韓漢雙語平行語料庫，在統(tǒng)計(jì)和詞典相結(jié)合的詞對齊方法基礎(chǔ)上，實(shí)現(xiàn)基于雙語語料庫的短語對齊。由于短語對齊比句子對齊提供了更細(xì)程度的對譯信息，因此對于它的研究具有重要意義。

在短語對齊方法方面，短語級別上的對齊可以歸結(jié)為雙語平行語料庫上的多詞單元的對應(yīng)。許多學(xué)者在多詞單元對齊和自動構(gòu)建雙語翻譯詞典方面做了進(jìn)一步的研究，基本方法有n-gram、有限狀態(tài)機(jī)、近似字符匹配、雙語語法分析樹等。其中Marcu[1]說明了單個(gè)詞作為翻譯基本單元的不足，并說明了在翻譯中加入短語翻譯對的原因，并且證明了加入短語翻譯對可以提高系統(tǒng)性能。Zhang[2]等人為雙語句對建立一個(gè)互信息矩陣，并將矩陣中抽取的互信息值相似的區(qū)域視為短語對。Zhang和Stephan Vogel[3]提出了將短語對齊視為句子分割問題的方法，在源短語固定的情況下，尋找目標(biāo)短語的最優(yōu)左邊界和右邊界。常寶寶[4]等人提出了基于詞語關(guān)聯(lián)度進(jìn)行詞語組合方法，并利用假設(shè)—檢驗(yàn)的方法，在漢英雙語語料庫中抽取翻譯等價(jià)單位。程潔[5]等人采用結(jié)合閾值和關(guān)聯(lián)度提取的方法獲取多詞單元翻譯詞典。屈剛[6]等人針對漢英句子候選句法分析樹集中存在大量的翻譯異?，F(xiàn)象，使得源語言句法樹和目標(biāo)語言句法樹往往不存在簡單的對應(yīng)關(guān)系這一問題，提出了“有效句型”概念和“翻譯中相對不變準(zhǔn)則”的短語對齊模型。

本文在現(xiàn)有資源的基礎(chǔ)上，首先從韓國語名詞短語結(jié)構(gòu)特點(diǎn)出發(fā)，在統(tǒng)計(jì)和詞典相結(jié)合的詞對齊方法基礎(chǔ)上，提出了基于詞對齊位置信息的韓漢雙語語料庫名詞短語對齊方法。該方法在較大規(guī)模語料庫情況下，取得了較好的短語對齊結(jié)果。

1 韓國語名詞短語結(jié)構(gòu)特點(diǎn)

在韓國語研究方面，早期的研究都是以句子為單位，組塊識別和短語結(jié)構(gòu)分析是近年來關(guān)注的焦點(diǎn)。韓國語名詞組塊的研究則以基本名詞短語的相關(guān)研究為主[7]。安帥飛[8]等人提出了采用左右邊界判定進(jìn)行名詞短語獲取的方法，并在此基礎(chǔ)上總結(jié)歸納出了八類名詞短語類型：

(1) 名詞|代詞+?+名詞|名詞疊加；

(2) 兩個(gè)或兩個(gè)以上名詞(代詞)混合疊加；

(3) 名詞|代詞+接續(xù)助詞|特殊的副詞+名詞|代詞；

(4) 冠形詞+名詞|代詞；

(5) 數(shù)字|數(shù)詞+名詞；

(6) 名詞|名詞疊加+?+名詞；

(7) 名詞+名詞派生接尾詞+肯定指示詞+冠形轉(zhuǎn)成詞尾+名詞；

(8) 名詞|代詞+數(shù)詞+(依存名詞)。

其中，語料庫中韓國語采用“世宗計(jì)劃”語料庫的分詞標(biāo)注體系進(jìn)行分詞標(biāo)注。根據(jù)八類名詞短語形式，通過定義正則表達(dá)式的方法實(shí)現(xiàn)語料庫中名詞短語的抽取。

該方法的主要原理是: 根據(jù)名詞短語左右相鄰詞出現(xiàn)規(guī)律，確定名詞短語左右邊界，實(shí)現(xiàn)名詞短語的獲取。

2 詞對齊方法

2.1 詞典模糊匹配詞對齊方法

雙語詞典具有豐富的詞匯對譯信息，是可以充分利用的優(yōu)秀資源，基于詞典的詞語對齊方法是利用雙語電子詞典來進(jìn)行雙語詞語對齊的算法。由于真實(shí)翻譯中上下文的多樣性和翻譯的靈活性，為了提高詞典譯文的覆蓋率，我們引入了詞典的模糊匹配。

詞典的模糊匹配采用詞語相似度計(jì)算的方法實(shí)現(xiàn)，通常用Dice系數(shù)進(jìn)行兩個(gè)字符串之間相似度的計(jì)算，詞語相似度如式(1)所示。

(1)

式(1)中，comm(t1,t2)是t1和t2中相同字符的個(gè)數(shù)，len(t1)是字符串t1的長度，len(t2)是字符串t2的長度，Dice(t1,t2)取值在0到1之間。

在獲得同一種語言中詞語相似度Dice(t1,t2)的基礎(chǔ)上，則源語言詞語s與目標(biāo)語言詞語t的相似度為，如式(2)所示。

(2)

式(2)中，DTk為源語言詞語s的所有譯文。h為定義好的相似度的閾值，Count為次數(shù)統(tǒng)計(jì)函數(shù),d為源語言詞語s譯文中的一個(gè)。若源語言詞語s存在多個(gè)譯文，在計(jì)算詞語相似度時(shí)，將所有譯文與目標(biāo)語言詞語t分別兩兩計(jì)算，取最大值作為兩個(gè)詞語的相似度值。

基于詞典的詞語對齊方法可以得到比較可靠的非空匹配，但由于雙語詞典的覆蓋面是有限的，在未登錄詞、上下文關(guān)系方面存在一定的局限性，使得該方法達(dá)到的正確率和召回率都十分有限。

2.2 基于語義相似度的詞對齊方法

在真實(shí)翻譯過程中，譯文往往具有很強(qiáng)的靈活性，常常會存在同義詞替代翻譯詞的現(xiàn)象。中國科學(xué)院計(jì)算技術(shù)研究所的王斌[9]等人于1999年引入了語義作為基于詞典的詞語對齊方法的補(bǔ)充。

《同義詞詞林》是現(xiàn)代漢語中比較常用的一部義類詞典，哈爾濱工業(yè)大學(xué)信息檢索實(shí)驗(yàn)室在此基礎(chǔ)上完成了《哈工大信息檢索研究室同義詞詞林?jǐn)U展版》，它收錄了了各類詞語7萬余條，按照樹狀的層次結(jié)構(gòu)把所有收錄的詞條組織到一起，把詞匯分成大、中、小三類，大類有12個(gè)，中類有97個(gè)，小類有1 400個(gè)。小類根據(jù)詞義的遠(yuǎn)近和相關(guān)性原則分成若干個(gè)詞群。每個(gè)詞群中的詞語進(jìn)一步分成若干行，同一行的詞語在詞義方面相同或具有很強(qiáng)的相關(guān)性。通過詞義代碼可以看出、這種分類方法具有層次性。通過抽象可以將該分類體系用一個(gè)樹形圖表示，則根節(jié)點(diǎn)的子節(jié)點(diǎn)就是所有大類，所有大類的子節(jié)點(diǎn)就是所有中類，中類的所有子節(jié)點(diǎn)就是所有小類。

通過《同義詞詞林(擴(kuò)展版)》的樹形結(jié)構(gòu)，田久樂[10]等人提出了義項(xiàng)相似度算法，該算法主要思想是: 利用同義詞詞林獲得詞語義項(xiàng)的代碼，通過義項(xiàng)之間的語義距離計(jì)算出義項(xiàng)相似度。該算法基于義項(xiàng)代碼所在分支的區(qū)別進(jìn)行判斷，義項(xiàng)代碼從哪一層開始不同，就使用該層對應(yīng)的系數(shù)與調(diào)節(jié)參數(shù)和控制參數(shù)相乘，得出兩個(gè)義項(xiàng)的相似度。如式(3)所示。

若兩個(gè)義項(xiàng)不在同一顆樹上，則

Sim(S1,S2)=f

(3)

若兩個(gè)義項(xiàng)在同一顆樹上，則

(4)

由式(4)可知，兩詞義S1與S2之間的語義距離可以定義為語義樹中節(jié)點(diǎn)S1到節(jié)點(diǎn)S2的最短路徑的長度，通過比較兩個(gè)詞的語義編碼可計(jì)算出它們的語義距離。兩個(gè)詞語的距離越大,其相似度越低；反之，兩個(gè)詞語的距離越小,其相似度越高。

在義項(xiàng)相似度定義的基礎(chǔ)上，定義兩個(gè)漢語詞c1、c2的語義相似度公式，如式(5)所示。

(5)

式(5)中，Senseof(c1)和Senseof(c2)函數(shù)分別返回詞語c1和c2的詞義代碼集合。若詞語c1、c2存在多個(gè)義項(xiàng)，在計(jì)算詞語相似度時(shí)，將義項(xiàng)分別兩兩計(jì)算，通過式(5)取最大值作為兩個(gè)詞語的相似度值。

基于語義相似度的詞語對齊方法，可以彌補(bǔ)基于詞典的詞語對齊方法在覆蓋面方面的不足，兩者結(jié)合使用可以提高對齊的召回率。

2.3 基于統(tǒng)計(jì)的詞對齊方法

在基于統(tǒng)計(jì)的詞對齊方法方面，本文中使用了目前比較典型的工具GIZA++。GIZA++是GIZA的一個(gè)擴(kuò)展，是Och[11]等人在GIZA軟件包基礎(chǔ)上進(jìn)一步優(yōu)化得到的統(tǒng)計(jì)機(jī)器翻譯工具。GIZA++在實(shí)現(xiàn)了IBM model 1-5和HMM(隱馬爾科夫模型)基礎(chǔ)上，對IBM-1、IBM-2和HMM模型的概率計(jì)算算法進(jìn)行了改進(jìn)。

運(yùn)行GIZA++相關(guān)命令，將普通文本轉(zhuǎn)化為 GIZA++ 格式，生成～.A3.final對齊文件，包含對齊概率、目標(biāo)句子、源語言句子和對齊位置信息。例如，

# Sentence pair (3128) source length 14 target length 10 alignmentscore: 1.55964e-17

但是1在2投資3領(lǐng)域4不5可能6一直7靠8運(yùn)氣9。10

2.4 統(tǒng)計(jì)與詞典相融合的詞對齊方法

通過基于詞典和基于統(tǒng)計(jì)的詞對齊實(shí)驗(yàn)，可以看出完全基于詞典的對齊可以獲得可靠的非空對齊。但是由于雙語詞典的覆蓋面有限，得到的對齊的召回率并不理想?；诮y(tǒng)計(jì)的方法可以彌補(bǔ)純詞典方法的不足，獲得更多對齊，因此可以將統(tǒng)計(jì)的方法作為初始對齊的方法，在此基礎(chǔ)上，使用基于詞典和基于語義相似度的方法進(jìn)行詞對齊校正。其主要步驟為:

(1) 通過GIZA++工具，獲取詞對齊文件;

(2) 通過韓漢機(jī)讀辭典，獲取某一韓國語詞語的譯文;

(3) 將該譯文與漢語句子中每個(gè)漢語詞語進(jìn)行詞語相似度計(jì)算，取相似度值大于閾值結(jié)果中的最大值，將其對應(yīng)漢語詞語位置加入詞對齊文件;

(4) 若不存在相似度值大于閾值的結(jié)果，對韓國語所對應(yīng)漢語譯文與漢語句子中所有詞語進(jìn)行語義相似度計(jì)算，取語義相似度值大于閾值結(jié)果中的最大值，將其對應(yīng)漢語詞語位置加入詞對齊文件。

上例中經(jīng)過統(tǒng)計(jì)方法得到的詞對齊結(jié)果再通過基于詞典和基于語義相似度的方法進(jìn)行詞對齊校正，得到校正后的對齊文件如下所示:

# Sentence pair (3128) source length 14 target length 10 alignmentscore: 1.55964e-17

但是1在2投資3領(lǐng)域4不5可能6一直7靠8運(yùn)氣9。10

通過例句可以看出，在現(xiàn)有資源和語料規(guī)模的情況下，綜合使用基于詞典和基于統(tǒng)計(jì)的方法可以得到更好的對齊結(jié)果。

3 名詞短語對齊方法

表1 X與Y的聯(lián)列表

表格中a、b、c、d的含義為:

a: 雙語語料所有句對中，短語X和Y同時(shí)出現(xiàn)的次數(shù);

b: 雙語語料所有句對中，短語X出現(xiàn)但短語Y不出現(xiàn)的次數(shù);

c: 雙語語料所有句對中，短語X不出現(xiàn)但短語Y出現(xiàn)的次數(shù);

d: 雙語語料所有句對中，短語X和Y均不出現(xiàn)的次數(shù);

(6)

名詞短語對齊方法主要利用詞對齊時(shí)所獲得的對齊位置信息實(shí)現(xiàn)名詞短語對齊，其主要步驟如下:

(1) 從韓國語標(biāo)注語料中通過正則表達(dá)式抽取出韓國語名詞短語;

(2) 根據(jù)抽取出的名詞短語，獲取詞對齊文件中每個(gè)韓國語詞語對應(yīng)的漢語位置;

(3) 將獲得的漢語位置序列，按照從小到大的順序進(jìn)行排序，按照排序順序抽取出對應(yīng)的漢語詞語，獲得候選名詞短語翻譯對;

4 實(shí)驗(yàn)結(jié)果及分析

基于上述方法，本文初步實(shí)現(xiàn)了一個(gè)原型系統(tǒng)，并針對基于詞典和語義相似度的詞對齊方法、基于統(tǒng)計(jì)的詞對齊方法和基于統(tǒng)計(jì)和詞典相融合的方法，初步進(jìn)行了一些試驗(yàn)，測試不同詞對齊方法對本文提出的基于詞對齊位置信息的名詞短語對齊結(jié)果的影響。

實(shí)驗(yàn)中使用的韓漢雙語詞典包含詞條50 357條。語義詞典使用《同義詞詞林》。經(jīng)過句子對齊并用于統(tǒng)計(jì)訓(xùn)練的雙語句對112 475對，來自韓國《朝鮮日報(bào)》、《中央日報(bào)》和《東亞日報(bào)》發(fā)布的各類新聞，內(nèi)容涵蓋韓國語的政治、經(jīng)濟(jì)、文化、科技等方面。該語料庫在內(nèi)容真實(shí)的基礎(chǔ)上，具備韓國語新聞?wù)Z料最普遍的語言特點(diǎn)，根據(jù)這些語料進(jìn)行相應(yīng)研究，得出的結(jié)論也能體現(xiàn)出韓國語新聞?wù)Z料的一般性特征，因此選用新聞?wù)Z料，可使研究結(jié)果更加客觀真實(shí)。其中的漢語句子經(jīng)過分詞處理，韓國語句子經(jīng)過分詞和詞性標(biāo)注處理。從訓(xùn)練語料中隨機(jī)抽取300句對中的名詞短語并做人工校對，作為標(biāo)準(zhǔn)測試語料。

在實(shí)驗(yàn)結(jié)果的評價(jià)方面，目前最常用的兩個(gè)指標(biāo)分別是準(zhǔn)確率和召回率[12]，其中，準(zhǔn)確率和召回率的定義如式(7)、式(8)所示。

表2給出了基于詞典的詞對齊方法、基于統(tǒng)計(jì)的詞對齊方法和融合的詞對齊方法下的名詞短語對齊結(jié)果。

表2 名詞短語對齊結(jié)果

續(xù)表

從表2可以看出,基于詞典的方法中，對齊具有較高的準(zhǔn)確率，但由于詞典的覆蓋能力有限，因此召回率較低。而基于統(tǒng)計(jì)的方法，可以提高召回率，但準(zhǔn)確率較低。在基于統(tǒng)計(jì)和詞典相融合的方法中，在基于統(tǒng)計(jì)的方法基礎(chǔ)上，利用基于詞典的方法，結(jié)合了基于統(tǒng)計(jì)的方法和基于詞典的方法的優(yōu)點(diǎn)，既彌補(bǔ)了基于統(tǒng)計(jì)方法中準(zhǔn)確性的不足，使得正確的對齊數(shù)增加，保證非空對齊的正確率，又可以克服基于詞典的方法中詞典覆蓋能力有限的問題，使得對齊的召回率有了進(jìn)一步的提高，在此方法下召回率和準(zhǔn)確率也都達(dá)到了三個(gè)實(shí)驗(yàn)中較為均衡的值。

分析對齊中產(chǎn)生的錯(cuò)誤，一部分原因是由于資源不足引起的(詞典譯文缺乏、統(tǒng)計(jì)數(shù)據(jù)不足等)。其他錯(cuò)誤大部分是由于漢語和韓國語之間存在固有的表達(dá)差異造成的，如韓國語中的成語、慣用搭配等在相應(yīng)的漢語中通常采用意譯。本文提到詞對齊方法尚不能解決好這類錯(cuò)誤，對于這些錯(cuò)誤，有待進(jìn)一步增加句法分析和語言學(xué)知識加以解決。

5 結(jié)論

本文通過對基于三種不同詞對齊方法的名詞短語對齊結(jié)果進(jìn)行實(shí)驗(yàn)分析，可以得到以下結(jié)論:

(1) 語言學(xué)信息在雙語語料庫詞對齊中有著重要作用。雙語詞典可以提供可靠的非空對齊?；谠~典和語義相似度的方法可以提高對齊的正確率。

(2) 當(dāng)語料庫規(guī)模較大時(shí)，基于統(tǒng)計(jì)的方法對提高對齊的召回率具有重要作用。

(3) 在資源和語料不足的情況下，基于詞典和基于統(tǒng)計(jì)相結(jié)合的方法是進(jìn)行詞對齊的有效方法。

盡管本文使用了多種對齊方法，但對齊的準(zhǔn)確率與召回率仍然不能令人滿意。一個(gè)主要原因是由于韓漢雙語間的語言差異，使得很多對齊問題需要在句法層面上才能得以解決。