塞麥提·麥麥提敏,吐爾根·伊布拉音
(新疆大學(xué),烏魯木齊 830046)
機(jī)器翻譯、跨語言信息檢索等自然信息處理系統(tǒng)都需要雙語語料庫等大數(shù)據(jù)資源。在建立大型雙語語料庫中,自動句子對齊和句子長度相似度計算是重要的技術(shù)之一。自動句子對齊的方法基本上可分為三類,即基于長度的方法[1-3]、基于詞匯的方法[4-5]和混合的方法[6-7]。其中,Brown(1991)和 Gale(1993)等的基于長度的句子對齊方法最有名。該方法分別采用以單詞或字符作為句子長度計算單位,對Hansard語料庫進(jìn)行英法句子的對齊試驗。其研究結(jié)果顯示,長度計算單位不同,句子對齊算法的準(zhǔn)確率有差異。
在漢維句子對齊研究方面,畢雪華[8]、牛洪梅[9]和熱西旦[10]等先后做了實驗性探索。他們的基于長度的句子對齊算法都以字符作為漢維句子長度的計算單位。將字符作為長度單位進(jìn)行句子對齊是拼音文字之間可以采取的方法。維文是拼音文字,漢文則不是拼音文字,漢文字符和維文字符屬于不同層面的語言單位,其功能和特點(diǎn)完全不同。以字符作為句子長度單位的方法可能不太適合于漢維語的特點(diǎn)。因此,基于多種長度單位的漢維句子對齊算法都值得嘗試。
本文對漢語字符、漢語漢字、維語單詞、維語字符等句子長度單位的4種組合進(jìn)行統(tǒng)計與實驗分析,以便確定漢維句子長度計算的最佳單位,為計算漢維雙語句子對齊的概率提供可靠的依據(jù),最終提高漢維句子對齊的效率。
基于長度的句子對齊算法可利用簡單的統(tǒng)計模型,是因為原文和譯文的長度滿足一定的比例關(guān)系,即原句子越長譯文越長,反之亦然?;谶@種考慮,句子對齊問題變成利用原文和譯文句子的長度關(guān)系,求解每一對雙語句子的互譯概率的問題。因此,在基于長度的對齊方法中,首先對已對齊的語料進(jìn)行訓(xùn)練,獲取概率參數(shù),然后給每個句對分配一個概率得分,用此得分進(jìn)行動態(tài)規(guī)劃,以找到最大可能的句子對齊。
于是,得到基于長度的句子對齊模型如下:
式(1)中,L(AiS)和 L(AiT)分別表示原文句子 AiS和譯文句子AiT的長度。
該對齊模型的關(guān)鍵在于求解概率:
而根據(jù)概率學(xué)中的條件概率公式有:
式(2)中,由于對于任意的 AiS、AiT、Prob(L(AiS),L(AiT))都可以認(rèn)為是一個常數(shù),因此在進(jìn)行概率計算時可以略去該常數(shù)。Prob(AiSóAiT)表示不考慮長度條件下AiS和AiT互為翻譯的概率,該概率可以用雙語句子的對齊模式概率來估計。
通過這些方法確定Prob(A|S,T)的值以后,通過概率學(xué)原理可求得概率 Prob(L(AiS),L(AiT)|AiSóAiT)。
然后,采用動態(tài)規(guī)劃算法,通過計算兩個片段的最小距離的辦法確定句子對齊情況。動態(tài)規(guī)劃算法可總結(jié)為下面的遞歸等式:
其中,si,tj(i=1,2,…i;j=1,2,…,j)分別為兩個文本中的句子,算法開始時 D(i,j)=0。
句子長度計算單位的確定是基于長度的句子對齊算法首要解決的問題。計算單位不同,雙語句子之間的長度關(guān)系的概率不同。對于漢語和維語而言,句子長度的計算單位不像印歐語系語言那么容易確定。漢語句子長度的計算單位有單詞、純漢字(不包括標(biāo)點(diǎn)符號等)、字符,維語句子長度的計算單位有單詞和字符(字母)等。理論上,漢語和維語句子的長度關(guān)系有以下六種組合:①漢語單詞/維語單詞②漢語單詞/維文字符③漢語漢字/維語單詞④漢語漢字/維語字符⑤漢語字符/維語單詞⑥漢語字符/維文字符。其中,①③⑤⑥比較適合于漢維語的特點(diǎn),也有一定的比較性。因此,本文只對這4種組合進(jìn)行相關(guān)的統(tǒng)計與分析。
本文訓(xùn)練語料是新疆大學(xué)的“漢維雙語平行語料庫”。該語料庫一共收集550個樣本語料,總規(guī)模為4809873字(詞),其中漢文部分3174122漢字,維文部分1635751詞。按句子總數(shù)計算,一共216200句子,其中漢文句子105845,維文句子110355,句子對齊后的句對總數(shù)為100742。該語料庫包括文學(xué)、法律、公文、學(xué)術(shù)、新聞、日常會話等六種語體的雙語語料。
為了比較不同句子長度計算單位,對上述訓(xùn)練語料的漢維句子長度及其相關(guān)性進(jìn)行統(tǒng)計,獲得基于不同長度單位的句子長度相關(guān)系數(shù)和分布圖。通過統(tǒng)計發(fā)現(xiàn),較長的漢語句子趨向于翻譯成較長的維語句子,而較短的漢語句子則趨向于翻譯成較短的維語句子。但是,計算單位不同,漢維句子的長度關(guān)系的相關(guān)性和分布不同。
圖1是以漢語單詞和維語單詞作為長度計算單位的句子長度分布圖。
圖1 子長度分布圖(漢語單詞/維語單詞)
根據(jù)圖1,以單詞作為句子長度單位時,漢維句子長度關(guān)系不太穩(wěn)定,相關(guān)系數(shù)R的平方值也較小。
圖2是以漢語字?jǐn)?shù)和維語詞數(shù)作為長度計算單位的句子長度分布圖。
圖2 子長度分布圖(漢語漢字/維語單詞)
圖3是以漢語字符數(shù)和維語詞數(shù)作為長度計算單位的句子長度分布圖。
根據(jù)圖2和圖3,與以漢字作為長度單位的分布比較,以漢語字符作為長度單位的分布相對集中,其句子關(guān)系相對穩(wěn)定。排除標(biāo)點(diǎn)符號、數(shù)字等非漢字字符的方法降低了句子長度關(guān)系的穩(wěn)定性。
圖3 子長度分布圖(漢語字符/維語單詞)
圖4是以漢語字符數(shù)和維語字符數(shù)作為長度計算單位的句子長度分布圖。
圖4 長度分布圖(漢語字符/維語字符)
從圖1-4可以看出,漢維句子長度的分布具有一定的規(guī)律性。以漢語詞語和維語詞語(圖1)或漢語漢子和維語詞語作為長度單位(圖2)時,漢維句子長度的分布相對稀疏。以漢語字符數(shù)和維語詞數(shù)為長度單位(圖3)時,漢維句子的長度關(guān)系更為穩(wěn)定。以漢語字符數(shù)和維語字符數(shù)作為長度單位(圖4)時,的分布相對集中,其相關(guān)系數(shù)接近于第三種組合(圖3),但是漢維句子長度比值較大時,對句子長度的變化不太敏感。
根據(jù)句子長度分布圖,可以初步判斷,在漢維句子對齊中不宜同時采用詞數(shù)(或字符數(shù))作為句子長度的計算單位,而采用漢文字符數(shù)和維文單詞作為句子長度單位是比較合適的。當(dāng)然,這一假設(shè)需要通過實驗驗證。
基于長度的對齊模型的第一個條件是式(2)中評價函數(shù) Prob(L(AiS),L(AiT))滿足標(biāo)準(zhǔn)正態(tài)分布時,該模型才可以獲得較高的準(zhǔn)確率。本文對訓(xùn)練語料進(jìn)行統(tǒng)計,得到漢維句子長度比例的數(shù)學(xué)期望值c和方差S2的參數(shù)值。c是通過計算漢維句子長度比值的平均值得到,S2是通過計算(Lc-Lu*c)2Lu的平均值得到。其中,Lc為漢語句子長度,Lu為維語句子長度。相關(guān)分析結(jié)果表明,句子長度隨機(jī)變量的分布情況相當(dāng)接近于以c和S2為參數(shù)的正態(tài)分布?;诓煌渥娱L度實驗參數(shù)統(tǒng)計如表1所示。
表1 實驗參數(shù)值
根據(jù)表1,在漢維對齊的語料中,約1個漢語單詞對應(yīng)0.96個維語單詞;1個漢語字符對應(yīng)4.06個維語字符;1.76個漢字對應(yīng)1個維語單詞;1.97個漢語字符對應(yīng)1個維語單詞。
基于長度的對齊模型的第二個必要條件是:漢維句子長度滿足一定的比例關(guān)系。如表1所示,無論采用什么樣的計算單位,漢語和維語句子在長度方面高度相關(guān)(相關(guān)系數(shù)都大于0.9)。其中,以漢語字符和維語單詞為計算單位時,相關(guān)系數(shù)更接近于1。相關(guān)系數(shù)R可用以下公式計算:
式(4)中,x和y分別表示漢維句子的長度。
此外,句子對齊模型還需計算式(2)中的Prob(AiSóAiT)(句子對齊模式的概率),本文對訓(xùn)練語料進(jìn)行統(tǒng)計獲得的對齊模式的概率如表2所示:
表2 對齊模式的概率統(tǒng)計
為了比較不同計算單位對句子對齊的影響,進(jìn)一步驗證上述假設(shè),從新疆大學(xué)“漢維雙語平行語料庫”中,隨機(jī)抽取分別屬于文學(xué)、法律、公文、學(xué)術(shù)、新聞等5種語體的10個樣本(一共1482句對)作為測試語料。分別采用不同的長度計算單位,進(jìn)行基于長度的句子對齊實驗。實驗評價標(biāo)準(zhǔn)如下:
實驗結(jié)果如表3所示:
表3 句子對齊實驗結(jié)果
根據(jù)實驗結(jié)果,句子長度計算單位不同,句子對齊的準(zhǔn)確率和召回率都有差異。其中,以漢語字符和維語單詞作為長度計算單位時,句子對齊的準(zhǔn)確率和召回率高于其他三種方法,分別達(dá)到94%和93.6%。文獻(xiàn)[13]的實驗結(jié)果也顯示,選用這種長度計算單位時,利用錨點(diǎn)等多種信息的混合句子對齊的準(zhǔn)確率提高了2.7%。
通過分析實驗結(jié)果,可得出以下結(jié)論:
(1)以漢語單詞作為長度計算單位進(jìn)行句子對齊,準(zhǔn)確率比較低。這主要是因為漢語句子進(jìn)行分詞才能計算句子長度,分詞的復(fù)雜性,往往導(dǎo)致較大誤差。此外,句子內(nèi)的單詞數(shù)相對于字符數(shù)較少,容易出現(xiàn)數(shù)據(jù)的稀疏。一旦句子詞數(shù)的計算發(fā)生誤差,便會造成句子長度比值的較大幅度改變,從而導(dǎo)致后續(xù)句子對齊的錯誤。
(2)將字符作為句子長度的計算單位是拼音文字之間可以采取的方法,可是在計算漢維句子長度時,顯然是不可取的。因為,維文是拼音文字,漢文則不是拼音文字。漢文字符和維文字符在功能和特點(diǎn)上很不一樣,屬于不同層面的語言單位。因此,以字符作為句子長度單位不太適合于漢維這兩種文字的特點(diǎn)。
(3)根據(jù)上述統(tǒng)計和實驗結(jié)果,互譯的句子中漢語字符數(shù)和維文詞數(shù)具有高度相關(guān)性,句子長度比值更近似于正態(tài)分布,漢語字符和維文詞語的功能基本相同。因此,漢文字符和維文單詞是漢維句子對齊的最佳長度計算單位。
傳統(tǒng)的基于長度的漢維句子對齊算法大都以字符作為句子長度的計算單位。本文分別對句子長度計算的4種不同方法進(jìn)行統(tǒng)計分析,根據(jù)實驗結(jié)果,漢維句子對齊的最佳長度計算單位是漢語字符和維語單詞,其準(zhǔn)確率和召回率都高于其他方法。因此,在句子對齊中,以漢語字符和維語單詞作為長度計算單位是正確的選擇。