內(nèi)蒙古電子信息職業(yè)技術(shù)學(xué)院 張跟兄 富木仁
基于統(tǒng)計(jì)的蒙漢短語結(jié)構(gòu)分析
內(nèi)蒙古電子信息職業(yè)技術(shù)學(xué)院 張跟兄 富木仁
雙語短語對齊是當(dāng)今雙語信息檢索和輔助機(jī)器翻譯研究的熱點(diǎn)和難點(diǎn)問題。詞匯是語言的建筑材料,計(jì)算機(jī)在處理自然語言時一般都是以詞為單位進(jìn)行處理的。所謂的雙語對齊是源語言查找對應(yīng)的目標(biāo)語言的一項(xiàng)工作。蒙漢雙語短語結(jié)構(gòu)對齊工作在機(jī)器翻譯、蒙漢語言之間的檢索、蒙漢詞典的構(gòu)造等方面有著廣泛的應(yīng)用。本文對蒙漢詞匯標(biāo)注和蒙漢短語對齊難點(diǎn)問題分析等方面進(jìn)行了重點(diǎn)闡述。
蒙漢短語;標(biāo)注;難點(diǎn)
在自然語言的研究處理中,凡涉及到句子、語法、語義等的研究項(xiàng)目,都以詞為單位進(jìn)行研究處理。在句法研究中詞語組成句子,沒有詞語就沒有詞組詞成句,因而也就沒有句法。還有,在眾多的研究課題中詞匯研究是一項(xiàng)龐大的語言工程,需要我們?nèi)ネ度氪笈康娜肆臀锪Α?/p>
要檢索蒙漢雙語詞語我們須設(shè)置對齊詞匯,這需要備好蒙漢雙語詞典。在拆分完詞、標(biāo)注完相應(yīng)的詞性后,要對齊蒙文詞語和漢文詞語。檢索對齊詞語往往還會涉及到檢索速度的快與慢的問題,因此我們要設(shè)計(jì)好數(shù)據(jù)庫。
20世紀(jì)80年代以來,語料庫研究受到了各國研究者的重視。 LOB語料庫的研究者利用統(tǒng)計(jì)方法設(shè)計(jì)了一個標(biāo)注系統(tǒng)。在此標(biāo)注系統(tǒng)中應(yīng)用了130個標(biāo)記,其中標(biāo)注的700多個詞典詞條是從Brown語料庫中摘取的。LOB語料庫中還建立了700多個詞綴的詞綴表。在此標(biāo)注系統(tǒng)中首先對部分語料進(jìn)行了人工標(biāo)注,其次對標(biāo)注過的語料進(jìn)行了統(tǒng)計(jì)分析,為得出標(biāo)記與標(biāo)記同現(xiàn)的頻率,從而產(chǎn)生一個標(biāo)記同現(xiàn)的頻率矩陣。標(biāo)注系統(tǒng)(CLAWS)中還采用了對短語進(jìn)行標(biāo)注的方法來修正詞性標(biāo)注結(jié)果。對整個LOB語料庫的標(biāo)注正確率在96%左右,算法的時間復(fù)雜度和空間復(fù)雜度是指數(shù)級的。
DeRose等人對統(tǒng)計(jì)方法作了一些改進(jìn),設(shè)計(jì)了一個標(biāo)注系統(tǒng)(VOLSUNGA),在此系統(tǒng)中利用了動態(tài)規(guī)劃算法。此算法主要考慮了語料庫中詞和詞性之間存在的統(tǒng)計(jì)關(guān)系。VOLSUNGA中即使沒有使用任何規(guī)則正確率也達(dá)到了96%以上。DeRose等人主要對二元語法模型下應(yīng)用了詞性自動標(biāo)注的動態(tài)規(guī)劃算法,其時間復(fù)雜度和空間復(fù)雜度是線性的。迄今為止,統(tǒng)計(jì)方法主要采用詞性與詞性之間的同現(xiàn)概率和馬爾可夫語言模型來消除歧義。相比之下統(tǒng)計(jì)方法可以避免規(guī)則方法的許多缺陷。例如,統(tǒng)計(jì)方法主要應(yīng)用數(shù)據(jù)統(tǒng)計(jì),統(tǒng)計(jì)數(shù)據(jù)可以應(yīng)用有指導(dǎo)或無指導(dǎo)的學(xué)習(xí)方法從語料庫中得到,從而避免那些人工獲取規(guī)則的繁瑣過程。同時,統(tǒng)計(jì)方法獲取的知識具有以下優(yōu)點(diǎn):客觀性好、一致性強(qiáng),比起規(guī)則的方法對生詞和不規(guī)范的句子的處理能力有較大的提高。
詞匯是語言的建筑材料,計(jì)算機(jī)在處理自然語言時一般都是以詞為單位進(jìn)行處理的。所謂的雙語對齊是源語言查找對應(yīng)的目標(biāo)語言的一項(xiàng)工作。我們所研究的對齊是在句子、短語和詞級別的對齊。詞匯對齊是源語言詞匯和目標(biāo)語言詞匯之間的最高語義相似度的查找。到目前為止我們主要應(yīng)用的對齊方法有:基于統(tǒng)計(jì)的詞匯對齊方法,其主要思想是:對大規(guī)模的雙語語料庫進(jìn)行統(tǒng)計(jì),獲得對譯詞的翻譯概率?;谠~典的詞匯對齊方法,應(yīng)用這種方法是因?yàn)?雙語詞典中擁有兩種語言的翻譯信息,是獲取雙語對齊詞匯的重要資源庫。但應(yīng)用這種方法的主要缺點(diǎn)是詞典中所覆蓋的方方面面的內(nèi)容較少。
源語言-蒙古文詞與詞之間是有空格的,但我們所研究的目標(biāo)語言-漢語,詞與詞之間并沒有分詞分界標(biāo)志,所以我們需要分詞軟件對目標(biāo)語言進(jìn)行分詞。分完詞的源語言和目標(biāo)語言需標(biāo)注詞性。
分完詞、標(biāo)上詞性后的蒙漢雙語詞匯舉例如下:
2007年/t10月/t15日/t,/wp中國/ns共產(chǎn)黨/nz第十七/m次/q全國/ ng代表/ng大會/ng在/p北京/ns人民大會堂/nz隆重/aq開幕/vi。/wp
(1)提出問題
所謂蒙漢語言詞對齊是在源語言和目標(biāo)語言中找到詞匯級別的翻譯對。詞匯對齊在機(jī)器翻譯、蒙漢語言之間的檢索、蒙漢詞典的構(gòu)造等方面有著廣泛的應(yīng)用。如下面例題所示。
(2)難點(diǎn)問題
與此同時,詞語對齊方面的研究課題是公眾認(rèn)可的難點(diǎn)研究項(xiàng)目。主要存在的問題如下:
①蒙漢雙語詞語之間的對齊不滿足前后順序,經(jīng)常出現(xiàn)交叉現(xiàn)象,比如:{,電視}和{,看}這兩個詞的前后位置就顛倒了。
②蒙漢雙語詞語之間的對齊模式非常復(fù)雜,有一對一、一對多、多對一和多對多等多種復(fù)雜的對應(yīng)關(guān)系,如下面例題中我列舉出了一對一和一對多的情況:{,他}屬于一對一的情況;{,買了}屬于一對多情況。
③相同的詞語在同一個句子中出現(xiàn)多次,但是這些詞語在目標(biāo)語言里的位置是不知道的。
④蒙漢雙語詞語之間的對齊匹配關(guān)系很難確定,在人工翻譯的過程中遣詞、造句過于靈便,從而給機(jī)器翻譯帶來了很大的不便。例如:把""翻譯成"一錢不值",這種翻譯現(xiàn)象表現(xiàn)出了人工翻譯的典型特色。
⑤蒙古語言的特點(diǎn)以及蒙漢語言之間的固有差異,比如慣用搭配、成語、諺語等。
⑥在蒙漢語言的翻譯過程中有添加詞語、減掉詞語、省略詞語、指代關(guān)系不明等多種現(xiàn)象。
[1]王曉龍,關(guān)毅。計(jì)算機(jī)自然語言處理[M]。北京:清華大學(xué)出版社,2005:85-95.
[2]劉冬明。漢英雙語平行語料庫中對齊方法的研究[D]。山西大學(xué)出版社,2004,4:4-9.
[3]劉冬明,楊爾弘,方瑩。漢英雙語平行語料庫的詞義標(biāo)注[J]。中文信息學(xué)報,2004,19(6):50-51.
[4]嘎日迪,斯日古楞。蒙古文信息處理技術(shù)及自然語言理解[M]。呼和浩特:內(nèi)蒙古大學(xué)出版社,2006:121-122.
張跟兄(1980-),講師,研究方向:計(jì)算機(jī)軟件開發(fā)領(lǐng)域。
富木仁(1980-),助理研究員,研究方向:計(jì)算機(jī)開發(fā)領(lǐng)域。