陳相,林鴻飛,楊志豪
(大連理工大學(xué)信息檢索研究室,遼寧大連116024)
本文使用高斯混合模型作為分類工具,它通過高斯成分描述獨立的輸出特征和高斯混合模型擬合概率密度函數(shù)來實現(xiàn)分類功能。
假設(shè)λc為給定的一個類模型,則該類特征向量X的觀察概率為:
雙語語料庫是包含有兩種不同語言之間對照翻譯的信息,在數(shù)據(jù)驅(qū)動的機器翻譯、計算機輔助翻譯以及跨語言信息檢索等領(lǐng)域中具有很高的研究和使用價值。在雙語語料庫的雙語對齊上,根據(jù)對齊的粒度,可以將對齊分為段落級、句子級、短語級和單詞級。而高精度的句子級別的雙語語料庫可以改進自然語言處理系統(tǒng)整體性能。在句子級別的雙語語料庫的基礎(chǔ)上,可以進行進一步開展其他比較深入的研究,比如短語級和單詞級的雙語對齊和雙語術(shù)語提取。對于大規(guī)模的雙語語料庫,手工對齊是很不現(xiàn)實的,人們一直在研究使用計算機自動的句子對齊技術(shù)。
在各種句子對齊技術(shù)中,基于長度的方法是最早出現(xiàn)的。基于長度的方法又稱為基于統(tǒng)計的方法,其基本思想是長句子的譯文也是長句子,短句子的譯文也是短句子,它們的長度滿足一定的比例關(guān)系。句子的長度可以以句子的字符長度度量[1],也可以以句子的單詞個數(shù)度量[2],這些方法在英法雙語的Canadian Hansards語料達(dá)到了很好的對齊效果。但是在具有噪音的語料上[3],對齊的正確率很不理想,將此方法用于無噪音的英漢 Hong Kong Hansards語料,也只達(dá)到了 86.4%的準(zhǔn)確率[4]。張艷[5]使用長度擴展的方法進行句子對齊,得到了不錯的結(jié)果。將同源詞信息和基于長度的方法相結(jié)合,對于提高對齊精度有一定的幫助。但是由于漢語和英語不屬于同一語系,所以詞匯信息的局限性很大。另外一種方法是基于詞典的方法[6]。然而由于自然語言翻譯的靈活性和雙語詞典的有限性,詞典義項對真實文本的覆蓋率很低,僅用雙語詞典進行機械匹配來對齊無法達(dá)到滿意的效果[7]。而且基于詞典的方法計算相當(dāng)復(fù)雜,需要大量的平行文本和語言資源。將基于詞典的方法與基于長度的方法相結(jié)合,可以在一定程度上提高準(zhǔn)確率。Wu[4]將基于長度的方法和基于詞典的方法相結(jié)合,用于翻譯嚴(yán)格規(guī)范、沒有任何噪音信息的Hong Kong H ansards語料,將單純運用基于長度的方法的準(zhǔn)確率從86.4%提高到92.1%。M ohamed[8]將句子對齊問題看作一個對齊模式的分類問題,并且考慮了英語和阿拉伯語對譯符號間句子的長度信息,降低了對齊的錯誤率。以上這些方法在同語系的兩種語言、翻譯規(guī)范、沒有噪音的語料上獲得了不錯的對齊結(jié)果。但是在翻譯規(guī)則不嚴(yán)格、風(fēng)格不統(tǒng)一、噪音信息大的面向生物醫(yī)學(xué)領(lǐng)域的摘要語料中,這些方法無法反映領(lǐng)域特征,對齊效果也明顯下降。同時,由于生物醫(yī)學(xué)領(lǐng)域雙語資源較難獲得,在較少的訓(xùn)練語料上以上方法很難達(dá)到預(yù)期的對齊效果。
遷移學(xué)習(xí)就是一種利用已獲得的知識促進新的學(xué)習(xí)的一種思想。它作為機器學(xué)習(xí)領(lǐng)域的一個重要課題,近年來許多研究者做了大量的工作[9-11]。特別是在分類任務(wù)中,當(dāng)標(biāo)注好的訓(xùn)練數(shù)據(jù)嚴(yán)重不足或者訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)分布不一致時,可以利用遷移學(xué)習(xí)來對模型或者參數(shù)進行訓(xùn)練。DaumeIII和Marcu[12]曾利用一個特殊的高斯模型對域遷移學(xué)習(xí)問題進行了研究。而Wu和Dietterich[13]在進行圖像分類任務(wù)時提出了一個基于遷移學(xué)習(xí)思想的圖像分類算法,其訓(xùn)練數(shù)據(jù)包括少量的標(biāo)記數(shù)據(jù)和大量的低質(zhì)量的輔助數(shù)據(jù),取得了較好的結(jié)果。
本文采用分類的思想對生物醫(yī)學(xué)文獻英漢句子進行對齊,首先將句子對齊模式分成八個類別,即為(1∶0)、(0∶1)、(1∶1)、(1∶2)、(2∶1)、(2∶2)、(3∶1)、(1∶3),它們基本覆蓋了對齊的各種情況。利用高斯混合模型對三個句對組成的雙語文本塊進行分類,分類過程中,系統(tǒng)將不屬于以上八個分類的情況認(rèn)為是對齊錯誤。由于無法獲得大量生物醫(yī)學(xué)領(lǐng)域雙語訓(xùn)練語料,在進行模型參數(shù)訓(xùn)練時,我們引入遷移學(xué)習(xí)思想,將規(guī)范并且無噪音的《新概念英語》雙語文本與生物醫(yī)學(xué)雙語語料相結(jié)合對句子的長度特征進行訓(xùn)練,獲得了較好的對齊正確率。
本文首先對于句子對齊的模式進行分類,對于句子對齊,根據(jù)對齊模式有(1∶0)表示一個漢語句子無法找到互譯的英語句子;(0∶1)表示一個英語句子無法找到互譯的漢語句子;以此類推,其他匹配模式還有(1∶1)、(1∶2)、(2∶1)、(2∶2)、(3∶1)、(1∶3)。除以上八種以外的對齊模式極少,所以這八種模式基本覆蓋了句子對齊的各種情況,在對齊過程中如果出現(xiàn)其他對齊模式,系統(tǒng)認(rèn)為是對齊錯誤。根據(jù)以上分析,我們可以把句子對齊看作一個分類問題,在句子對齊過程中共有八個對齊模式分類。
對于雙語句子文本,最重要的特征就是句子的長度。Gale和Church使用此方法對加拿大英法雙語的Canadian H ansards語料達(dá)到了很好的對齊效果。這種方法的思想基礎(chǔ)就是長句子的譯文是長句子、短句子的譯文也是短句子。句子的長度特征是所有句子對齊技術(shù)首要考慮的雙語句子特征。
另外一個非常重要的雙語文本特征就是錨信息。錨信息可以分為狹隘義上的錨信息和廣義上的錨信息。狹義錨信息主要是指標(biāo)點、數(shù)字、特殊符號以及變量的單位。比如,無論是英語文本還是漢語文本,互譯的文本中表示比例關(guān)系都使用“%”,中文句子的結(jié)束標(biāo)志是“?!?對應(yīng)的英文句子的結(jié)束標(biāo)志為“.”。如圖1所示。
圖1 錨信息
上例中符號匹配情況如表1所示。
表1 錨信息匹配表
在真實語料中,存在某些符號或者標(biāo)點在互譯的句子中無法找到匹配的符號。我們將錨信息對齊模式分為以下三類[17]:
(1∶1):一個漢語句子中的符號與互譯的英語句子中的一個符號對應(yīng);
(1∶0):一個漢語句子中的符號在互譯的英語句子中無法找到對應(yīng)的符號;
(0∶1):一個英語句子中的符號在互譯的漢語句子中無法找到對應(yīng)的符號。
廣義錨信息除以上符號類錨信息以外,還包括雙語摘要的結(jié)構(gòu)化信息。在生物醫(yī)學(xué)文獻的雙語摘要中,經(jīng)常出現(xiàn)這樣的結(jié)構(gòu)化摘要段落,如圖2所示。
圖2 結(jié)構(gòu)錨信息
如上例中,“目的”固定翻譯成“objective”或者“aim” ;“方法”固定翻譯為“method” ;“結(jié)果”固定翻譯為“result”;“結(jié)論”固定翻譯為“conclusion”。這些摘要結(jié)構(gòu)用語自然地將摘要段落分為更小的對齊片段,有效提高了對齊準(zhǔn)確率,并且避免了錯誤蔓延。
但是,并不是所有的句子都包含有錨信息。所以,如果只使用錨信息作為雙語句子的特征,召回率將會非常低。比較好的方法是將錨信息與其他句子特征相結(jié)合。
設(shè)漢語句子中錨信息序列CPi=Cp1,Cp2,…,Cpi和英文句子中的錨信息序列EPj=Ep1,Ep2,…,Epj相匹配的概率為P(CPi,EP j)。從所有的可能互譯的句子對中,找到概率最大的錨信息序列對:
其中,“PA”表示錨信息對齊。假設(shè)每個句對的錨信息對齊概率相互獨立,則有:
這里,P(Cpk,Epk)為Cpk和Epk對齊模式的概率,可以利用下式來計算:
同時,考慮到英語和漢語句子結(jié)構(gòu)的不同,如果將錨信息順序?qū)R,將會產(chǎn)生大量的錯誤。所以我們考慮了每個錨信息之間文本的長度,則有:
其中,δk為漢語錨信息Cpk和Cpk-1之間文本長度與英語錨信息Epk和Epk-1之間文本長度的一個函數(shù)。根據(jù)Gale和Church的理論有:
其中,le和lc是待對齊的英語和漢語文本的長度。參數(shù)c是漢語句子和英語句子長度的統(tǒng)計比例,從訓(xùn)練語料統(tǒng)計獲得。
定義雙語文本錨信息匹配相似度為:
其中,c為雙語文本匹配的錨信息的個數(shù);m為漢語文本中錨信息的個數(shù);n為英語文本中錨信息的個數(shù)。
在對齊過程中,每次分析由三個漢語句子和三個英語句子構(gòu)成的雙語文本塊。這樣每次得到互譯的雙語句子后,按照滑動窗口的形式繼續(xù)分析接下來的三個句子構(gòu)成的文本塊。雙語文本塊的特征向量如下所示:
其中,L(*)表示句子*的長度,以字符為單位計算;γ(c,e)表示句子c和句子e的錨信息匹配相似度。
本文使用高斯混合模型作為分類工具,它通過高斯成分描述獨立的輸出特征和高斯混合模型擬合概率密度函數(shù)來實現(xiàn)分類功能。
假設(shè)λc為給定的一個類模型,則該類特征向量X的觀察概率為:
其中,n是特征向量X的維度,∑為協(xié)方差對角陣。
高斯混合模型訓(xùn)練是一個有監(jiān)督的訓(xùn)練過程。對于給定的訓(xùn)練集,高斯混合模型訓(xùn)練的“好壞”需要一個評價標(biāo)準(zhǔn),本文采用的是最大似然準(zhǔn)則。在最大似然準(zhǔn)則下,使用最大期望(Exception Maximum,EM)估計算法估計模型參數(shù)。
最大似然估計(M aximum Likelihood,M L)是一種評價模型“好壞”的標(biāo)準(zhǔn)。本質(zhì)上,最大似然就是要求模型描述的分布能夠最大限度逼近訓(xùn)練數(shù)據(jù)集的分布。
即最優(yōu)模型參數(shù)能夠使得訓(xùn)練集與模型匹配似然度達(dá)到最大。
我們?yōu)槊恳粋€對齊模式構(gòu)造一個獨立的模型,對每一個類進行最大似然估計:
對每一個獨立的類模型λi(i=1,2,…,8)和特征向量X={x1,x2,…,xn},最大的正確率(也就是最小錯誤率)貝葉斯準(zhǔn)則是:
利用以上準(zhǔn)則,每一個特征向量序列xi就會是以上八個類中的一個。
手工從1979年到2006年中圖分類號為R318的生物醫(yī)學(xué)文獻中篩選出200篇具有雙語摘要的期刊論文的摘要,進行人工對齊后獲得1 262個句對作為訓(xùn)練語料TC。
由于無法獲得大量生物醫(yī)學(xué)雙語訓(xùn)練語料,因此對于各種語言現(xiàn)象和對齊情況覆蓋度也是有一定限制的,因此對句子的長度特征的效果存在一定的影響。所以在對句子的長度特征進行訓(xùn)練的時候,利用遷移學(xué)習(xí)的思想,將《新概念英語》雙語語料TC1(3 120個雙語句對)和1262個生物醫(yī)學(xué)領(lǐng)域雙語語料相結(jié)合對句子的長度特征進行協(xié)同訓(xùn)練。TC1僅用來訓(xùn)練句子的長度特征。我們對 TC、TC1分別進行長度特征的訓(xùn)練,將得到的兩組結(jié)果以經(jīng)驗比得到最后的結(jié)果。
從1979年到2006年中圖分類號為R318的生物醫(yī)學(xué)文獻中篩選出180篇具有雙語摘要的期刊的摘要共1 086個句對作為測試語料。測試語料對齊模式統(tǒng)計結(jié)果如表2所示。
表2 測試語料對齊模式和對齊模式概率
本文設(shè)計了四個實驗:實驗Baseline使用Gale和Church的基于長度的句子對齊方法,該方法是句子對齊的一個最基本的方法;實驗T1考慮了長度特征和錨特征的高斯混合模型。Baseline和 T1都只是使用TC的1 262個生物醫(yī)學(xué)領(lǐng)域的雙語句對作為訓(xùn)練語料。實驗T2使用Baseline的方法,但是引入遷移學(xué)習(xí)思想對TC的長度特征進行了遷移學(xué)習(xí);實驗T3使用T1的方法,但是引入了遷移學(xué)習(xí)的思想,利用《新概念英語》語料TC1作為輔助訓(xùn)練語料與生物醫(yī)學(xué)語料TC相結(jié)合對句子的長度特征進行訓(xùn)練。
實驗Baseline采用基本的基于長度的對齊概率模型,只考慮了句子的長度信息。這種方法在同源的英法加拿大的議會會議錄(Canadian Hansards)獲得了很好的對齊效果,但是由于英語和漢語不是同源語言,由于語法和表達(dá)習(xí)慣的巨大差異,基于句子長度的對齊方法在對齊過程中存在嚴(yán)重的錯誤蔓延,所以正確率很低。實驗結(jié)果如表3所示。
表 3 Baseline實驗結(jié)果
Baseline采用方法沒有利用生物醫(yī)學(xué)文獻雙語語料的段落特征和錨信息等特征,并且由于訓(xùn)練語料不夠大,對齊效果比較差。針對訓(xùn)練語料的不足,在對句子長度特征進行訓(xùn)練時,我們引入遷移學(xué)習(xí)的思想,將生物醫(yī)學(xué)文獻雙語語料與《新概念英語》雙語語料相結(jié)合,對句子的長度特征進行訓(xùn)練,由于訓(xùn)練語料增加,對齊效果得到一些提高,如表4所示。
表4 T2實驗結(jié)果
T2的實驗由于訓(xùn)練語料的增加,對齊的正確率得到提高,說明《新概念英語》對生物醫(yī)學(xué)文獻雙語句子對齊長度特征的訓(xùn)練有一定的幫助。
實驗T1采用本文介紹的方法,利用分類思想進行句子對齊。在對齊過程中,考慮了句子長度信息和錨信息,利用高斯混合模型對雙語文本塊進行分類。實驗結(jié)果得到很大的改進。實驗結(jié)果如表5所示。
表5 T1實驗結(jié)果
本文基于高斯混合模型的句子對齊方法考慮了生物醫(yī)學(xué)文獻中大量的錨信息,對齊過程中對以三個句子為單位的雙語句塊進行對齊,對齊的正確率得到了很大的提高。其中(1∶1)對齊模式的對齊正確率得到很大的提高。其他對齊模式的對齊正確率也得到較大的改進。該方法的缺陷是仍無法識別對齊模式為(1∶0)和(0∶1)的雙語句對。通過對對齊錯誤的例子進行分析,錯誤比較集中。這是由于段落內(nèi)對齊的錯誤蔓延造成的。比如,如果對齊過程中一個雙語句塊分類錯誤,那么該段落中這個句塊以后的句子對齊的錯誤率就比較高。
實驗T3的方法同樣采用分類思想進行句子對齊,不同的是在對句子的長度特征進行訓(xùn)練過程中,本文引入遷移學(xué)習(xí)的思想,使用TC1和TC對句子長度特征和部分符號特征進行協(xié)同訓(xùn)練,由于語料規(guī)模增加,模型的參數(shù)更合理,實驗結(jié)果有所提升。T3的實驗結(jié)果如表6所示。
表6 T3實驗結(jié)果
然而,由于在TC1語料上只進行了句子長度的特征訓(xùn)練和少量的錨信息特征(標(biāo)點符號)的訓(xùn)練,所以增加TC1訓(xùn)練語料以后正確率提高有限。
本文利用高斯混合分類模型進行句子對齊,并且在模型訓(xùn)練過程中,利用了遷移學(xué)習(xí)的方法將新概念英語雙語資源引入生物醫(yī)學(xué)領(lǐng)域雙語摘要句子對齊中,在更大規(guī)模的訓(xùn)練語料上進行模型的訓(xùn)練。對齊過程中,我們對三個句子組成的雙語文本塊進行分類,達(dá)到對齊的目的。
下一步工作主要是從雙語摘要中提取出關(guān)鍵字對信息作為一部小型的一對一雙語字典,并與本文的方法相結(jié)合。同時設(shè)法提高識別雙語段落中對齊模式為(1:0)和(0:1)的句對的正確率。然后在本文工作的基礎(chǔ)上進行生物醫(yī)學(xué)領(lǐng)域雙語術(shù)語詞典的自動抽取,用于生物醫(yī)學(xué)跨語言信息檢索的翻譯查詢。
[1] Gale W.F.,Church K.W..A p rogram for alignment sentences in bilingual corpora[J].Computational Linguistics,1993,19(1):75-102.
[2] Brow n P.F.,Lai J.C.,Mercer R.L..A ligning sentences in parallel corpora[C]//Proceedings of the 29thAnnualMeeting of the Association for Computational Linguistics,Berkeley,CA,USA,1991:169-176.
[3] Thomas C.,Kevin C.A ligning parallel bilingual corpora statistically with punctuation criteria[J].Computational Linguistics and Chinese Language Processing,2005,10(1):95-122.
[4] Wu D.A ligning a parallel English-Chinese corpus statistically w ith lexical criteria[C]//Proceedings of the 32thAnnual Conference of the Association for Computational Linguistics.Las Cruces,NM,USA,1994:80-87.
[5] 張艷,柏岡秀紀(jì).基于長度的擴展方法的漢英句子對齊[J].中文信息學(xué)報,2005,19(5):31-36.
[6] Chen S.F..A ligning sentences in bilingual corporausing lexical information[C]//Proceedings of the 31thAnnual Con ference o f the Association for Com putational Linguistics,Co lumbus,USA,1993:9-16.
[7] 呂學(xué)強,吳宏林,姚天順.無雙語詞典的英漢詞對齊[J].計算機學(xué)報,2004,27(8):1036-1045.
[8] M ohamed Abdel Fattah,David B.Bracew ell,Fu ji Ren.el al..Sentence alignment using P-NNT and GMM[J].Computer Speech and Language,2007,21(4):594-608.
[9] J.Pan,J.Kw ok,Q.Yang.Adap tive localization in a dynam ic Wifienvironment through mutil-view learning[C]//Proceedings of the 22nd conference on artificial intelligence(AAAI-07),Vancouve,Canada,2007:1108-1113.
[10] R.Raina,A Ng and D.Koller.Constructing informative p riors using transfer learning[C]//Proceedings of the 23thInternational Conference on Machine Learning(ICM L2006),Pittsburgh,USA,2006:713-720.
[11] W.Dai,Q.Yang,G.R.Xue and Y.Yu.Boosting for transfer learning[C]//Proceedings of the 24thInternationa l Con ference on Machine Learning,Corvallis,OR,USA,2007:193-200.
[12] H al DaumeIII,Daniel M arcu.Domain adap tation for statistical classifiers[J].Journal of A rtificial Intelligence Research,2006,26(1):101-126.
[13] Pengcheng W u,Thomas G Dietterich.Imp roving SVM accuracy by training on auxiliary data sources[C]//Proceedings o f the 21st Internationa l Con ference of Machine Learning(ICML2004),Banff,A lberta,Canada,2004.