焦育玲
摘 要: 由于漢語與英語有不同的特點(diǎn),導(dǎo)致機(jī)器翻譯時(shí)把漢語當(dāng)做源語言要比把英語當(dāng)做源語言要困難得多。本文試圖從漢英機(jī)器翻譯的角度探討漢語自動(dòng)分析的難點(diǎn),包括詞法分析、句法分析和漢英轉(zhuǎn)換中的難點(diǎn)。
關(guān)鍵詞: 計(jì)算機(jī)翻譯 Systran 詞語切分 未登錄詞
在我國,外漢機(jī)器翻譯系統(tǒng),特別是英漢機(jī)器翻譯系統(tǒng)的研制已經(jīng)取得較大的成功,達(dá)到初步實(shí)用的水平,并且推出不少實(shí)用系統(tǒng),如“譯星”、“漢神”、“通譯”等。但漢外機(jī)器翻譯,特別是漢英機(jī)器翻譯的研究卻進(jìn)展緩慢,離實(shí)用化還有一定的距離。例如要把英文句子“We should do our utmost to achieve our goalin life.”翻譯為中文,機(jī)器一般可以翻譯得較為準(zhǔn)確,但是要把漢語句子“他踢壞了三雙鞋?!狈g為英文,機(jī)器有的翻譯為“He plays three pairs of evil shoes.”,有的翻譯為“He kicked three pairs of shoes bad.”,還有的翻譯為“Him kick spoil 3 pairs of shoes.”。這些軟件翻譯的問題主要存在于詞法、句法和語法幾個(gè)方面。
1.詞法分析的難點(diǎn)
1.1詞語切分
漢語的書面形式是字與字之間的連續(xù)書寫,詞與詞之間沒有自然的界限,因此,漢語的自然語言理解首先要解決詞的自動(dòng)切分問題,而詞的自動(dòng)切分中,交集型歧義和組合型歧義是不可避免的。即使把交集型歧義和組合型歧義解決得比較好,要把漢語的自動(dòng)切詞正確率提高到99%也是一個(gè)相當(dāng)困難的事情。而且漢語的自動(dòng)切詞正確率即使達(dá)到99%,對(duì)于機(jī)器翻譯來說也是不夠的。因?yàn)闄C(jī)器翻譯系統(tǒng)不是以詞為單位的,一般是以句子為單位進(jìn)行處理的,這樣一個(gè)句子只要有一處切詞錯(cuò)誤,整個(gè)句子就很有可能面目全非。
1.2未登錄詞
未登錄詞指沒有被分詞詞表收錄的詞語,包括人名、地名、機(jī)構(gòu)名等專有名詞和新出現(xiàn)的詞語。未登錄詞是不可窮盡登錄的,如人名、地名,幾乎可以看成是無限的,新詞也是不斷產(chǎn)生的。未登錄詞包括專名和非專名兩大類,專名包括人名、地名等,非專名包括新詞、簡稱、行業(yè)用語、部分習(xí)語、俗語,等等。未登錄詞不僅在漢語中存在,英語中也存在未登錄詞,不過,英語中的未登錄專名名詞有形式標(biāo)志,其首字母是大寫的,但漢語中的未登錄詞不僅沒有形式標(biāo)注,而且組成漢語未登錄詞的漢字可能本身又是漢語詞,也就是說,漢語的未登錄詞容易與普通詞語混淆。
1.3詞表
英語中的詞是基本確定的,漢語中的詞卻很難確定,或者說漢語中的詞沒有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)。詞是最小的能夠獨(dú)立運(yùn)用的語法單位,語素是最小的語音語義結(jié)合體,短語是詞與詞按照一定語法規(guī)則構(gòu)成的語法單位。詞和語素、短語是不同層次和不同性質(zhì)的語法單位,但由于漢語中的詞和自由語素、短語都能單說或單用,因此要分清詞、語素和短語比較麻煩。舉一個(gè)例子,“肉”是一個(gè)詞,“豬肉”、“雞肉”、“狗肉”傾向于是一個(gè)詞,“海豹肉”、“海豚肉”傾向于是一個(gè)短語,“果子貍?cè)狻?、“貓頭鷹肉”就更傾向于是一個(gè)短語??梢钥闯?,漢語的詞的確認(rèn)是一個(gè)比較困難的事情,這是迄今為止國內(nèi)還沒有一個(gè)統(tǒng)一的供機(jī)器使用的詞表的原因,而詞表是自然語言處理的基礎(chǔ),機(jī)器翻譯中絕大多數(shù)知識(shí)和規(guī)則都依賴于詞表而建立,這樣就加大了漢語自動(dòng)分析的難度。
2.句法分析的難點(diǎn)
2.1核心動(dòng)詞的分析
對(duì)于句法分析而言,抓住謂語中心詞就意味著這個(gè)句子有可能分析準(zhǔn)確,如果連謂語中心詞都找錯(cuò)了,就意味著這個(gè)句子不可能分析準(zhǔn)確。例如“王先生邀請(qǐng)她一起開車出去玩?!?,對(duì)這個(gè)句子進(jìn)行分詞、詞性標(biāo)注等預(yù)處理后得到:王/n先生/n邀請(qǐng)/v她/r一起/d開21.720.9車/v出去/v玩/v。然而,其中有可能充當(dāng)謂語中心詞的有:“邀請(qǐng)”、“開車”、“出去”、“玩”。由于漢語屬于分析語言,缺乏明顯的形態(tài)標(biāo)記,在這些詞中選出一個(gè)正確的謂語中心詞,是一個(gè)非常復(fù)雜的問題。
2.2特殊結(jié)構(gòu)的處理
漢語中的某些特殊結(jié)構(gòu)是漢譯英系統(tǒng)較為棘手的問題,包括連動(dòng)式、兼語式、受事主語句、主謂謂語句、名詞謂語句、動(dòng)補(bǔ)式等。連動(dòng)式由若干個(gè)動(dòng)詞或動(dòng)詞短語相互連接,沒有明顯的形式標(biāo)志,機(jī)器往往難于確定其中的主要?jiǎng)釉~,如果主要?jiǎng)釉~的判定有誤,整個(gè)結(jié)構(gòu)的分析必定失敗。
2.3標(biāo)點(diǎn)符號(hào)的影響
現(xiàn)有的機(jī)器翻譯系統(tǒng)一般都是以句子為單位進(jìn)行翻譯的,但是要確認(rèn)漢語的句子卻不是一件簡單的事情。漢語“句子”的隨意性太大,短的可以只有一個(gè)詞(獨(dú)詞句)或一個(gè)短語,長的句子可以是一個(gè)復(fù)句,甚至可以是一個(gè)段落。這樣,當(dāng)遇到一個(gè)特別長的漢語句子時(shí),如果作為一個(gè)整體處理,往往會(huì)帶來巨大的時(shí)空開銷,而且這樣做增加了分析的難度;而分成幾個(gè)小句來處理,又難以準(zhǔn)確地?cái)嗑?。也就是說,漢語由于沒有形態(tài)變化,導(dǎo)致從句和分句沒有明顯的差異。
3.轉(zhuǎn)換過程中的難點(diǎn)
由于漢語是一種缺乏嚴(yán)格意義上形態(tài)變化的語言,而英語卻有形態(tài)變化,因此漢英機(jī)器翻譯中,漢語轉(zhuǎn)換為英語的過程存在多種“從無到有”的選擇。以下是在漢英機(jī)器翻譯中遇到的最常見的幾種比較難解決的轉(zhuǎn)換問題。
3.1冠詞問題
漢語沒有冠詞,英語的名詞或名詞短語往往要加上冠詞,冠詞又分為零冠詞、定冠詞和不定冠詞三種情況。這樣從漢語的“無”冠詞到英語的“有”冠詞,翻譯時(shí)需要確認(rèn)究竟是零冠詞,還是定冠詞或不定冠詞。
3.2單復(fù)數(shù)問題
漢語的名詞或名詞短語沒有單復(fù)數(shù)形式,只有“們”等后綴可以勉強(qiáng)充當(dāng)形式標(biāo)志,但英語的名詞或名詞短語卻存在單復(fù)數(shù)。這樣從漢語的“無”單復(fù)數(shù)到英語的“有”單復(fù)數(shù),翻譯時(shí)需要確認(rèn)究竟把漢語中的名詞或名詞短語翻譯為英語中的單數(shù)還是復(fù)數(shù)。
3.3時(shí)態(tài)問題
漢語沒有時(shí)態(tài),只有一些可以有助于顯示時(shí)態(tài)的助詞(如“著”、“了”、“過”)、副詞(如“將要”、“馬上”、“正在”)和時(shí)間名詞(如“現(xiàn)在”、“從前”、“目前”)等,不過,這些標(biāo)志詞語并不是嚴(yán)格意義上的時(shí)態(tài)標(biāo)記,如“了”有時(shí)翻譯為過去時(shí),有時(shí)翻譯為完成時(shí)、過去完成時(shí),有時(shí)甚至不表示任何時(shí)態(tài);英語動(dòng)詞卻有時(shí)態(tài),這樣從漢語的“無”明顯時(shí)態(tài)到英語的“有”時(shí)態(tài),翻譯時(shí)要確認(rèn)究竟把漢語中的動(dòng)詞或動(dòng)詞短語翻譯為英語中的現(xiàn)在時(shí)、過去時(shí)還是將來時(shí)。
2.4.4語式問題
語式是表示句子的語氣或情態(tài)的語法范疇,一般通過動(dòng)詞的形態(tài)變化區(qū)分陳述式、命令式、虛擬式、愿望式等。漢語沒有語式,英語中表示與事實(shí)相反的假設(shè)或個(gè)人主觀愿望時(shí),要使用虛擬式。這樣從漢語的“無”明顯語式到英語的“有”語式,翻譯時(shí)需要確認(rèn)究竟把漢語翻譯為英語中的陳述式還是虛擬式。
4.結(jié)語
從上面的分析可以看出,不管是詞法分析、句法分析,還是源語言向目標(biāo)語言的轉(zhuǎn)換,把漢語譯為英語都存在“從無到有”的困難。正是因?yàn)樵跐h英機(jī)器翻譯中,除了一般機(jī)器翻譯(如英漢機(jī)器翻譯)都存在的一些困難(如一詞多義、結(jié)構(gòu)歧義、語義歧義、語境因素等)之外,還存在這些“從無到有”的困難,這些特殊的困難幾乎分布于翻譯的各個(gè)階段,導(dǎo)致機(jī)器翻譯中把漢語當(dāng)做源語言要比把英語當(dāng)做源語言要困難得多。
參考文獻(xiàn):
[1]劉群,俞士汶.漢英機(jī)器翻譯的難點(diǎn)分析.載黃昌寧主編.1998中文信息處理國際會(huì)議論文集.清華大學(xué)出版社,1998.
[2]常寶寶,劉穎,劉群.漢英機(jī)器翻譯中的冠詞處理研究.中文信息學(xué)報(bào),1998(3).
本文為安康學(xué)院AYQDRW201216項(xiàng)目成果。