劉智穎,郭艷波,晉耀紅
1.北京師范大學(xué)中文信息處理研究所,北京 100875
2.中國(guó)專利信息中心-北京師范大學(xué)機(jī)器翻譯聯(lián)合實(shí)驗(yàn)室,北京 100875
3.盤古文化傳播有限公司,北京 100162
漢英機(jī)器翻譯中格式轉(zhuǎn)換研究
劉智穎1,2,郭艷波3,晉耀紅1,2
1.北京師范大學(xué)中文信息處理研究所,北京 100875
2.中國(guó)專利信息中心-北京師范大學(xué)機(jī)器翻譯聯(lián)合實(shí)驗(yàn)室,北京 100875
3.盤古文化傳播有限公司,北京 100162
格式在HNC理論中是指廣義作用句各主語(yǔ)塊位置的不同排列組合方式。由于主語(yǔ)塊的排列方式在漢英兩種語(yǔ)言中表達(dá)的差異,漢語(yǔ)句子翻譯到英語(yǔ)時(shí)常常發(fā)生格式轉(zhuǎn)換。格式轉(zhuǎn)換是HNC機(jī)器翻譯理論的一個(gè)重要內(nèi)容,是機(jī)器翻譯理論實(shí)踐的基礎(chǔ)和前提。以HNC機(jī)器翻譯理論為指導(dǎo),以真實(shí)文本的專利文獻(xiàn)漢英句對(duì)為分析對(duì)象,研究專利機(jī)器翻譯中漢英兩種語(yǔ)言之間廣義作用句的格式轉(zhuǎn)換規(guī)律,制定了排除規(guī)則、識(shí)別規(guī)則和轉(zhuǎn)換規(guī)則,對(duì)部分規(guī)則進(jìn)行了人工評(píng)測(cè),結(jié)果表明準(zhǔn)確率能達(dá)到85%左右。
格式轉(zhuǎn)換;廣義作用句;機(jī)器翻譯
格式轉(zhuǎn)換在HNC理論[1]中是指廣義作用句各主語(yǔ)塊位置的不同排列組合方式。由于主語(yǔ)塊的排列方式在漢英兩種語(yǔ)言中表達(dá)的差異,漢語(yǔ)句子翻譯到英語(yǔ)時(shí)常常發(fā)生格式轉(zhuǎn)換。格式轉(zhuǎn)換是HNC機(jī)器翻譯理論的一個(gè)重要內(nèi)容,是機(jī)器翻譯理論實(shí)踐的基礎(chǔ)和前提。
HNC理論以概念聯(lián)想脈絡(luò)為主線,建立了自然語(yǔ)言的計(jì)算機(jī)理解處理模式,該理論的一個(gè)重要應(yīng)用之一就是研究和開(kāi)發(fā)漢英機(jī)器翻譯系統(tǒng)。HNC機(jī)器翻譯是基于規(guī)則的機(jī)器翻譯系統(tǒng),分為源語(yǔ)言分析、過(guò)渡處理、目標(biāo)語(yǔ)生成三個(gè)處理階段。過(guò)渡處理包括六個(gè)環(huán)節(jié),即句類轉(zhuǎn)換、句式轉(zhuǎn)換、主輔語(yǔ)塊變換、語(yǔ)塊構(gòu)成變換、輔塊排序調(diào)整和小句排序調(diào)整[2]。其中,句式轉(zhuǎn)換包括格式轉(zhuǎn)換和樣式轉(zhuǎn)換。格式轉(zhuǎn)換存在于廣義作用句中,而樣式轉(zhuǎn)換存在于廣義效應(yīng)句中。據(jù)統(tǒng)計(jì),漢英機(jī)器翻譯中,需要進(jìn)行格式轉(zhuǎn)換的句子占20%[3]。可見(jiàn),格式轉(zhuǎn)換是機(jī)器翻譯的一個(gè)重要內(nèi)容。
本文以HNC機(jī)器翻譯理論為指導(dǎo),以真實(shí)文本的專利文獻(xiàn)漢英句對(duì)為分析對(duì)象,從HNC角度研究專利機(jī)器翻譯中漢英兩種語(yǔ)言之間廣義作用句的格式轉(zhuǎn)換規(guī)則,包括排除規(guī)則、識(shí)別規(guī)則和轉(zhuǎn)換規(guī)則。經(jīng)過(guò)測(cè)試,語(yǔ)義翻譯引擎對(duì)格式轉(zhuǎn)換的處理取得良好的效果,對(duì)于全局的格式轉(zhuǎn)換處理的準(zhǔn)確率能夠達(dá)到85%左右。
表1 概念層次網(wǎng)絡(luò)理論中的概念林L0分類
在世界上的語(yǔ)言中,按句子語(yǔ)序可分為三種類型:主動(dòng)賓(SVO)、動(dòng)主賓(VSO)、主賓動(dòng)(SOV)。英語(yǔ)的語(yǔ)序多為主動(dòng)賓(SVO),現(xiàn)代漢語(yǔ)在語(yǔ)序類型上屬于SVO型語(yǔ)言,語(yǔ)法上的一般規(guī)則是:句子成分一般按照“主語(yǔ)—謂語(yǔ)—賓語(yǔ)”的順序排列。而漢語(yǔ)的語(yǔ)序很大程度上取決于句子的意義,因而主語(yǔ)與動(dòng)詞的次序較為靈活[4]。
格式轉(zhuǎn)換又叫調(diào)序,即根據(jù)需要調(diào)整句子的語(yǔ)序[5]。調(diào)序在統(tǒng)計(jì)機(jī)器翻譯中是很重要的一個(gè)環(huán)節(jié),調(diào)序方法主要有兩類:采用概率統(tǒng)計(jì)方法和采用模版方法。各種調(diào)序模型及對(duì)調(diào)序模型的融合研究逐漸成為機(jī)器翻譯研究的熱點(diǎn)[6]。
HNC理論對(duì)格式問(wèn)題也作過(guò)相應(yīng)的研究。針對(duì)某種特定句類,曾經(jīng)研究過(guò)漢英翻譯中一般轉(zhuǎn)移句的格式轉(zhuǎn)換,總結(jié)了一般轉(zhuǎn)移句格式轉(zhuǎn)換的規(guī)律[7],塊擴(kuò)句式轉(zhuǎn)換問(wèn)題[8]。針對(duì)漢英機(jī)器翻譯中的句式轉(zhuǎn)換,研究了漢英兩種語(yǔ)言在句式表達(dá)方面的異同,描述了漢英句式轉(zhuǎn)換的一般規(guī)律[9]。此外,還就漢英機(jī)器翻譯的格式自轉(zhuǎn)換進(jìn)行了研究[10]。不過(guò),這些研究也僅停留在理論研究和構(gòu)想階段,對(duì)語(yǔ)言現(xiàn)象的分析是理論層面的,制定的形式化規(guī)則沒(méi)有得到實(shí)驗(yàn)驗(yàn)證,而且在分類上還不夠細(xì)致。
本文在以上研究的基礎(chǔ)上,對(duì)漢英專利機(jī)器翻譯的格式轉(zhuǎn)換進(jìn)行更深入、更全面、更具體的研究,所制定的轉(zhuǎn)換規(guī)則直接服務(wù)于漢英專利機(jī)器翻譯語(yǔ)義引擎,并可以在語(yǔ)義引擎中直接檢驗(yàn)規(guī)則的有效性,從而實(shí)現(xiàn)對(duì)規(guī)則的實(shí)時(shí)調(diào)試與修改。
格式,又叫語(yǔ)句格式,是指句子中主語(yǔ)塊的排列順序[11]。句類表示式說(shuō)明了一個(gè)句類由幾個(gè)什么樣的主語(yǔ)塊構(gòu)成,而這些主語(yǔ)塊在不同的句子中可能順序不同,這就是語(yǔ)句格式的不同。
在HNC理論中,不考慮語(yǔ)塊的省略,語(yǔ)句格式有三種類型:
(1)基本格式(!0):對(duì)于三主塊句,句子的格式是“GBK1+EK+GBK2”。也就是SVO的格式。
(2)規(guī)范格式(!1):對(duì)于三主塊句,句子的格式是“GBK1+^GBK2+EK”(!11)或“GBK2+^GBK1+EK”(!12)。也就是SOV或OSV格式,廣義對(duì)象語(yǔ)塊(S和O)相鄰且相鄰語(yǔ)塊之間存在語(yǔ)塊標(biāo)記。
(3)違例格式(!2):不同于規(guī)范格式,廣義對(duì)象語(yǔ)塊相鄰且相鄰語(yǔ)塊之間不存在語(yǔ)塊標(biāo)記。
以基本作用句XJ為例,它有三個(gè)主語(yǔ)塊,即作用者A、作用X和對(duì)象B,“張三打了李四”是A+X+B(!0)格式,“張三把李四打了”是A+^B+X(!11)格式,“李四被張三打了”是B+^A+X(!12)格式。
句類分為廣義作用句和廣義效應(yīng)句兩大類。只有廣義作用句才具有格式信息。
對(duì)于廣義作用句而言,漢語(yǔ)既允許使用基本格式和違例格式,也允許使用規(guī)范格式,對(duì)某些句類甚至偏好規(guī)范格式,如:主動(dòng)反應(yīng)句;而英語(yǔ)只允許使用基本格式或違例格式,不允許使用規(guī)范格式,因?yàn)樾纬梢?guī)范格式所必需的語(yǔ)法工具(即HNC所定義的語(yǔ)言邏輯l0概念)英語(yǔ)是殘缺不全的,而漢語(yǔ)是完備的。
漢語(yǔ)中,概念林l0轄屬4株概念樹(shù),分別作為不同類型語(yǔ)塊的標(biāo)識(shí)符。
概念層次網(wǎng)絡(luò)理論中的概念林L0分類如表1所示。
英語(yǔ)的廣義作用句不存在規(guī)范格式。當(dāng)漢語(yǔ)句子的規(guī)范格式翻譯到英語(yǔ)時(shí),必然發(fā)生格式轉(zhuǎn)換。如漢語(yǔ)句子“播放器對(duì)該內(nèi)容進(jìn)行解擾。(The player descrambles the content.)”,采用的是規(guī)范格式“GBK1+^GBK2+EK”,英語(yǔ)采用基本格式“GBK1+EK+GBK2”。
由于規(guī)范格式存在明顯的語(yǔ)塊邊界標(biāo)識(shí)符,所以本文著重研究漢語(yǔ)廣義作用句的規(guī)范格式向英語(yǔ)的轉(zhuǎn)換問(wèn)題。
本文的研究單位是以逗號(hào)或句號(hào)劃分成的單句或小句。格式轉(zhuǎn)換既可能發(fā)生在單句和小句中,也可能發(fā)生在單句或小句內(nèi)部的語(yǔ)塊中。本文關(guān)注前者,即發(fā)生在單句中的格式轉(zhuǎn)換。研究的前提是小句已經(jīng)切分,EG(特征語(yǔ)塊)、ABK(輔塊)、LB(句間邏輯說(shuō)明符)已經(jīng)識(shí)別出來(lái)。
本文的研究對(duì)象是漢英專利機(jī)器翻譯廣義作用句的格式轉(zhuǎn)換,語(yǔ)料使用中國(guó)專利信息中心的檢索系統(tǒng)根據(jù)l0概念(將、把、對(duì)、向等)檢索出來(lái)的1萬(wàn)句漢英句對(duì)。
本文對(duì)語(yǔ)料的標(biāo)注是多維度的,包括格式轉(zhuǎn)換的現(xiàn)象、依據(jù)、結(jié)果和規(guī)則?,F(xiàn)象指源語(yǔ)言中的語(yǔ)言邏輯概念(l0)和特征語(yǔ)塊(E)。依據(jù)指影響格式轉(zhuǎn)換的因素,包括句類因素、是否有JK1、是否有聯(lián)結(jié)詞、是否發(fā)生句類轉(zhuǎn)換等。結(jié)果描述漢語(yǔ)句子翻譯到英語(yǔ)句子后,是主動(dòng)形式還是被動(dòng)形式,以及翻譯前后源語(yǔ)言和目標(biāo)語(yǔ)的格式變化。規(guī)則部分用較為簡(jiǎn)練的符號(hào)標(biāo)注了格式轉(zhuǎn)換的條件及結(jié)果,“=>”左邊是條件,右邊是結(jié)果。
表2 格式轉(zhuǎn)換語(yǔ)料的多維標(biāo)注
圖1 格式轉(zhuǎn)換語(yǔ)料規(guī)則表示
格式轉(zhuǎn)換語(yǔ)料的多維標(biāo)注如表2所示。
對(duì)語(yǔ)料進(jìn)行標(biāo)注分析,總結(jié)規(guī)則后,要對(duì)規(guī)則進(jìn)行形式化,便于計(jì)算機(jī)識(shí)別和處理。為此設(shè)立了一套規(guī)則符號(hào),包括特征集、位置標(biāo)記、操作函數(shù)、屬性集等。定義好規(guī)則符號(hào)后,即可對(duì)規(guī)則進(jìn)行形式化表示,如圖1所示。
漢英專利機(jī)器翻譯格式轉(zhuǎn)換規(guī)則研究,包括研究其排除規(guī)則、識(shí)別規(guī)則和轉(zhuǎn)換規(guī)則。
排除規(guī)則主要是排除與l0概念兼類的其他概念,充當(dāng)l0概念的詞通常是“把、將、對(duì)、向”等,但這些詞不僅充當(dāng)l0概念,還充當(dāng)動(dòng)態(tài)概念、基本概念等。所以首先要對(duì)這些不屬于l0概念的情況進(jìn)行排除,識(shí)別出l0概念。
識(shí)別規(guī)則主要是識(shí)別l0的層次,單句中l(wèi)0的層次記為1,小句中l(wèi)0的層次記為2,不同層次格式轉(zhuǎn)換的規(guī)律不同,所以要對(duì)l0的層次進(jìn)行識(shí)別。
最后制定格式轉(zhuǎn)換規(guī)則。
不管是排除規(guī)則、識(shí)別規(guī)則還是轉(zhuǎn)換規(guī)則,都具有一定的優(yōu)先順序。首先,排除規(guī)則優(yōu)先于識(shí)別規(guī)則和轉(zhuǎn)換規(guī)則;其次,所有規(guī)則都以(0)號(hào)節(jié)點(diǎn)(通常為l0概念)為切入點(diǎn),先向前匹配,再向后匹配。
5.1 排除規(guī)則
充當(dāng)l0概念的詞都是常用詞,幾乎都具有兼類現(xiàn)象,所以要先進(jìn)行處理,排除含l0概念的詞但不屬于格式轉(zhuǎn)換的情況??梢岳玫男畔⒂校?/p>
(1)EG信息
l0概念的詞大體對(duì)應(yīng)于介詞,大多具有動(dòng)態(tài)概念屬性,下面這條規(guī)則可統(tǒng)一排除這種兼類情況。
此條規(guī)則的含義是:當(dāng)“把,將,對(duì),向,由,給,比,與”后面找不到特征語(yǔ)塊(EG)時(shí),那么這些詞是動(dòng)態(tài)概念,不作l0概念。
例如:第一圖像(110)給//l0消費(fèi)者一種安全感。
句中用“//”加具體語(yǔ)塊或概念的形式,標(biāo)明其與規(guī)則的對(duì)應(yīng)。
(2)位置信息
邏輯概念都可以用于三主塊句,當(dāng)三主塊句的EG位于句尾時(shí),優(yōu)先選擇這類詞為l0概念,規(guī)則如下:
例如:移動(dòng)終端對(duì)//l0信號(hào)能量進(jìn)行探測(cè)//EG。
(3)個(gè)性特征
對(duì)于每個(gè)l0概念的個(gè)性特征,將分別制定排除規(guī)則。以“對(duì)”為例,《現(xiàn)代漢語(yǔ)詞典》(第六版)中,“對(duì)”共有16個(gè)義項(xiàng),對(duì)應(yīng)于HNC概念有5個(gè)概念,分別是動(dòng)態(tài)概念(v)、值概念(zzp,zzw)、主語(yǔ)塊標(biāo)識(shí)符(l0)、靜態(tài)概念(g)、倫理屬性概念(jgu841),如表3所示。
表3 詞語(yǔ)“對(duì)”的概念特征
“對(duì)”需要排除的是做量詞(值概念zzp,zzw)、形容詞(倫理屬性概念jgu841)和介詞(輔語(yǔ)塊標(biāo)識(shí)符l1)的情況??赏ㄟ^(guò)以下規(guī)則排除:
(0)CHN[對(duì)]+(f){CHN[來(lái)說(shuō),說(shuō)來(lái),而言]}=>!LC_ SELECT(0,LC_CC,l0)$當(dāng)“對(duì)”后面有“來(lái)說(shuō),說(shuō)來(lái),而言”時(shí),“對(duì)”為輔塊標(biāo)識(shí)符l14。
5.2 識(shí)別規(guī)則
識(shí)別規(guī)則主要用來(lái)識(shí)別格式轉(zhuǎn)換是發(fā)生在主句還是小句(從句)中。這是進(jìn)行下一步句子分析和語(yǔ)序調(diào)整的依據(jù)。在邏輯概念l0上標(biāo)記level屬性,用以表明邏輯概念的級(jí)別。level=1表示l0是全局的語(yǔ)塊標(biāo)識(shí)符,level=2表示l0是局部的語(yǔ)塊標(biāo)識(shí)符,數(shù)字越大,表示級(jí)別越低。
識(shí)別規(guī)則階段,除了切分小句,識(shí)別出EG、ABK、LB、l0概念之外,沒(méi)有其他的信息可供利用。所以要識(shí)別出LEVEL=1的l0,需利用知識(shí)庫(kù)中l(wèi)0的句類信息和EG的句類信息。如果EG前面的l0的句類信息和EG的句類信息匹配,那么這個(gè)l0的LEVEL等于1:
例如:播放器對(duì)//l0該內(nèi)容進(jìn)行解擾(208)//EG。
l0“對(duì)”的句類可以是作用句(X),EG“進(jìn)行解擾”的句類也可以是作用句(X),它們的句類信息相匹配,所以此處l0的LEVEL是1。
5.3 轉(zhuǎn)換規(guī)則
采用排除規(guī)則可以排除不進(jìn)行格式轉(zhuǎn)換的句子,采用分析規(guī)則可以識(shí)別出l0的層次。識(shí)別過(guò)程結(jié)束后,會(huì)產(chǎn)生一棵分析樹(shù),轉(zhuǎn)換規(guī)則將在這棵樹(shù)上進(jìn)行,如圖2所示。
圖2 格式轉(zhuǎn)換分析樹(shù)
以由“對(duì)”所構(gòu)成的格式為例,格式轉(zhuǎn)換規(guī)則總的來(lái)說(shuō)有以下特征:
“對(duì)”,可用于反應(yīng)句、信息轉(zhuǎn)移句、交換句、一般承受句、因果句、一般判斷句、約束句、單向關(guān)系句、作用句、關(guān)系自身轉(zhuǎn)移句、效應(yīng)句,主要作為GBK2的標(biāo)識(shí)符l02??捎糜谌鲏K句也可用于四主塊句,通常采用!11、!113格式。不管用于四主塊句還是三主塊句,其EG都不帶下裝(hv)。
當(dāng)“對(duì)”用于三主塊句時(shí),EG通常為高低搭配EQ+E結(jié)構(gòu),如“進(jìn)行描述、進(jìn)行解擾、進(jìn)行計(jì)數(shù)”等。
(1)當(dāng)句子中存在GBK1(即主語(yǔ)不缺?。r(shí),翻譯成英語(yǔ)時(shí)采用主動(dòng)格式。
規(guī)則如下:
例如:這些計(jì)數(shù)器//GBK對(duì)//l0這些數(shù)據(jù)輸入/輸出裝置發(fā)出的總線分配請(qǐng)求數(shù)//GBK進(jìn)行計(jì)數(shù)//EG。(These counters count the number of bus allocation request signals issued from these data input/output devices.)
(2)當(dāng)句子中沒(méi)有GBK1(即主語(yǔ)缺?。r(shí),翻譯成英語(yǔ)時(shí)采用被動(dòng)格式。
規(guī)則如下:
例如:以上結(jié)合本發(fā)明的優(yōu)選實(shí)施方式對(duì)//l0本發(fā)明//GBK進(jìn)行了描述//EG。(The present invention hasbeen described above in connection with the embodiments of the invention.)
當(dāng)“對(duì)”用于四主塊句時(shí),翻譯成英語(yǔ)需要在GBK2前面加介詞(如to、for等)。
(3)當(dāng)句子中存在GBK1(即主語(yǔ)不缺省)時(shí),翻譯成英語(yǔ)時(shí)采用主動(dòng)格式,并在位置(1)前增加介詞to/for。
規(guī)則如下:
例如:第二通信模塊//GBK對(duì)//l0計(jì)算機(jī)系統(tǒng)//GBK提供//EG第二格式的第二表示數(shù)據(jù)//GBK。(The second communications module transmits the second indicating data in a second format to the computer system.)
(4)當(dāng)句子中沒(méi)有GBK1(即主語(yǔ)缺?。r(shí),翻譯成英語(yǔ)時(shí)采用被動(dòng)格式。
規(guī)則如下:
沒(méi)有GBK1時(shí),翻譯成英語(yǔ)采用被動(dòng)格式。
例如:在持久操作期間,盡管電池包耗盡,仍可對(duì)//l0便攜式終端//GBK穩(wěn)定地提供//EG電源//GBK。(The power can be stably provided to the portable terminal in spite of depletion of a battery during a long-duration operation.)
隨機(jī)抽取了3 000個(gè)句子對(duì)排除規(guī)則和LEVEL=1的轉(zhuǎn)換規(guī)則進(jìn)行了人工評(píng)測(cè),評(píng)測(cè)結(jié)果能達(dá)到85%的準(zhǔn)確率。
對(duì)評(píng)測(cè)結(jié)果進(jìn)行分析,發(fā)現(xiàn)問(wèn)題主要集中在以下幾方面:
分詞的影響。如“則由軌跡結(jié)構(gòu)對(duì)調(diào)焦誤差信號(hào)的調(diào)制最小。”句中,“對(duì)調(diào)”被切成了一個(gè)詞。
EG規(guī)則的影響。如“將由數(shù)據(jù)排序裝置所排序的數(shù)據(jù)中的有效數(shù)據(jù)輸出到裝置外部,”中,當(dāng)“將”后面有“由”時(shí),EG識(shí)別制定的規(guī)則是“將”為QE。
輔塊規(guī)則的影響。如“反射區(qū)域內(nèi)液晶分子與聚合物的比比透射區(qū)域內(nèi)低。”中,第二個(gè)“比”被當(dāng)成了l1。
EG識(shí)別的影響。如“本發(fā)明所述方法對(duì)MPLS LSP的性能參數(shù)測(cè)量作了詳細(xì)的規(guī)定?!敝?,將“規(guī)定”識(shí)別為了E,因而影響了l0概念“對(duì)”的識(shí)別。
本文針對(duì)漢英專利格式轉(zhuǎn)換語(yǔ)料標(biāo)注了轉(zhuǎn)換現(xiàn)象、依據(jù)、結(jié)果和規(guī)則。定義了漢英專利格式轉(zhuǎn)換的規(guī)則符號(hào),對(duì)規(guī)則進(jìn)行了形式化表示。總結(jié)了漢英專利格式轉(zhuǎn)換的規(guī)則,包括排除規(guī)則、識(shí)別規(guī)則和轉(zhuǎn)換規(guī)則。并對(duì)轉(zhuǎn)換規(guī)則進(jìn)行了人工評(píng)測(cè),取得了較好的實(shí)驗(yàn)效果。
下一步的工作是,繼續(xù)對(duì)排除規(guī)則、識(shí)別規(guī)則和轉(zhuǎn)換規(guī)則都進(jìn)行人工評(píng)測(cè),針對(duì)性改進(jìn)規(guī)則,提高規(guī)則效果;同時(shí)改進(jìn)程序,提高系統(tǒng)的性能;另外,還需進(jìn)一步擴(kuò)大研究范圍和研究深度,將格式轉(zhuǎn)換的研究范圍擴(kuò)大到所有語(yǔ)言邏輯概念;并且探索格式轉(zhuǎn)換發(fā)生在語(yǔ)塊內(nèi)部的情形。
[1]黃曾陽(yáng).HNC(概念層次網(wǎng)絡(luò))理論[M].北京:清華大學(xué)出版社,1998.
[2]黃曾陽(yáng).語(yǔ)言概念空間的基本定理和數(shù)學(xué)物理表示式[M].北京:海洋出版社,2004.
[3]張艷紅.英漢互譯中的格式轉(zhuǎn)換[C]//張全,蕭國(guó)政.HNC與語(yǔ)言研究.武漢:武漢理工大學(xué)出版社,2001:302-307.
[4]Greenberg J H,Croft W.Genetic linguistics:essays on theory and method[M].USA:Oxford University Press,2005.
[5]晉耀紅.HNC(概念層次網(wǎng)絡(luò))語(yǔ)言理解技術(shù)及其應(yīng)用[M].北京:科學(xué)出版社,2006.
[6]孫廣范.句法調(diào)序的統(tǒng)計(jì)機(jī)器翻譯方法研究[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(36):142-144.
[7]孫雄勇.漢英翻譯中一般轉(zhuǎn)移句格式轉(zhuǎn)換[C]//苗傳江,杜燕玲.第二屆HNC與語(yǔ)言學(xué)研討會(huì)論文集.北京:海洋出版社,2004:362-367.
[8]曾維,張克亮.塊擴(kuò)句的漢英句類及句式轉(zhuǎn)換[C]//朱小健,張全,陳小盟.HNC與語(yǔ)言學(xué)研究(第4輯).北京:北京師范大學(xué)出版社,2009:338-344.
[9]張克亮.面向機(jī)器翻譯的漢英句類及句式轉(zhuǎn)換[M].開(kāi)封:河南大學(xué)出版社,2007.
[10]連巍巍,張克亮.面向漢英機(jī)器翻譯的格式自轉(zhuǎn)換研究[C]//朱小健,張全,陳小盟.HNC與語(yǔ)言學(xué)研究:第4輯.北京:北京師范大學(xué)出版社,2010:297-303.
[11]苗傳江.HNC(概念層次網(wǎng)絡(luò))理論導(dǎo)論[M].北京:清華大學(xué)出版社,2005.
LIU Zhiying1,2,GUO Yanbo3,JIN Yaohong1,2
1.Institute of Chinese Information Processing,Beijing Normal University,Beijing 100875,China
2.China Patent Information Center-Beijing Normal University Joint Laboratory of Machine Translation,Beijing 100875,China
3.Pangu Culture Media Company,Beijing 100162,China
The format in Hierarchical Network of Concepts(HNC)theory refers to the different arrangement methods of the main chunk in the general action sentence.The format conversion always occurs in the Chinese-English translation for the difference of the main chunk arrangements in two languages.Based on the HNC machine translation theory,this paper analyzes the patent documents Chinese-English sentence pairs,studies the format conversion laws in the general action sentences,makes the exclusion rules,recognition rules and conversion rules,evaluates the effects of part rules.The experiments show that translation precision of about 85%can be obtained.
format conversion;general action sentence;machine translation
A
TP391
10.3778/j.issn.1002-8331.1309-0428
LIU Zhiying,GUO Yanbo,JIN Yaohong.Format conversion in Chinese-English machine translation.Computer Engineering and Applications,2014,50(6):192-196.
國(guó)家高技術(shù)研究發(fā)展計(jì)劃(863)(No.2012AA011104);中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金。
劉智穎(1975—),女,博士,主要研究方向?yàn)橹形男畔⑻幚?;郭艷波(1987—),女,碩士,主要研究方向?yàn)橹形男畔⑻幚?;晉耀紅(1973—),男,教授,主要研究方向?yàn)樾盘?hào)與信息處理。E-mail:liuzhy@bnu.edu.cn
2013-09-27
2013-12-04
1002-8331(2014)06-0192-05