劉 洋, 畢玉德, 李 健
(解放軍外國(guó)語(yǔ)學(xué)院 a.語(yǔ)言工程系; b.基礎(chǔ)部計(jì)算機(jī)與網(wǎng)絡(luò)教研室, 河南洛陽(yáng) 471003)
基于句法知識(shí)的復(fù)句解構(gòu)對(duì)韓漢復(fù)句機(jī)器翻譯改進(jìn)芻議
劉 洋a, 畢玉德a, 李 健b
(解放軍外國(guó)語(yǔ)學(xué)院 a.語(yǔ)言工程系; b.基礎(chǔ)部計(jì)算機(jī)與網(wǎng)絡(luò)教研室, 河南洛陽(yáng) 471003)
為解決韓國(guó)語(yǔ)復(fù)句中,機(jī)器翻譯的邏輯語(yǔ)義處理問(wèn)題,提出了一種基于連接詞尾的“復(fù)句解構(gòu)思想”,其用在機(jī)器翻譯之前,可對(duì)復(fù)句進(jìn)行“解構(gòu)化”處理,從而提高韓國(guó)語(yǔ)復(fù)句機(jī)器翻譯質(zhì)量.經(jīng)過(guò)實(shí)驗(yàn)表明,基于連接詞尾的單重連接復(fù)句解構(gòu)可以有效提高復(fù)句的翻譯效果.
韓國(guó)語(yǔ);復(fù)句;連接詞尾;解構(gòu)化
基于規(guī)則、 統(tǒng)計(jì)或者綜合策略的機(jī)器翻譯系統(tǒng)的構(gòu)建過(guò)程十分復(fù)雜. 從以往的研究成果來(lái)看, 多種模型和特征的結(jié)合, 尤其是句法結(jié)構(gòu)信息和語(yǔ)義信息的利用, 已經(jīng)成為改進(jìn)和提高翻譯系統(tǒng)性能的有效途徑.
韓國(guó)語(yǔ)是黏著語(yǔ), 依靠復(fù)雜的詞尾和助詞實(shí)現(xiàn)語(yǔ)法功能. 其中, 連接詞尾不但可以在句法功能上銜接單句組成連接復(fù)句, 具有句法功能, 還可以顯示單句間邏輯語(yǔ)義關(guān)系, 本身帶有語(yǔ)義, 因此可以看作連接復(fù)句中句法信息和語(yǔ)義信息的結(jié)合. 所以, 筆者嘗試通過(guò)分析韓國(guó)語(yǔ)連接復(fù)句的特點(diǎn), 進(jìn)而探索通過(guò)連接詞尾對(duì)韓國(guó)語(yǔ)連接復(fù)句進(jìn)行解構(gòu)處理, 以期對(duì)提高韓國(guó)語(yǔ)復(fù)句翻譯質(zhì)量起到積極作用.
1.1 連接詞尾和連接復(fù)句
(1) 連接詞尾
韓國(guó)語(yǔ)連接復(fù)句的慣用分類(lèi)方法是基于連接詞尾的分類(lèi). 但并不是所有的連接詞尾都可以看作復(fù)句關(guān)系標(biāo)記[2]. 韓國(guó)語(yǔ)連接詞尾按功能可分為對(duì)等性、從屬性和輔助性三類(lèi).其中, 對(duì)等性和從屬性連接詞尾均可連接分句構(gòu)成復(fù)句, 而輔助性連接詞尾(共4個(gè))一般和補(bǔ)助謂詞連用, 構(gòu)成語(yǔ)法連語(yǔ), 但不構(gòu)成復(fù)句. 補(bǔ)助連接詞尾不能看作復(fù)句關(guān)系標(biāo)記的情況, 我們已經(jīng)在前期的工作中予以排除, 在此擬不贅述. 所以, 本文中所指的連接詞尾等同于連接復(fù)句關(guān)系標(biāo)記.
(2) 連接復(fù)句
討論連接詞尾對(duì)韓國(guó)語(yǔ)連接復(fù)句翻譯效果的改進(jìn), 首先需要明確連接復(fù)句概念, 所以需要審視連接復(fù)句的結(jié)構(gòu)特點(diǎn), 其主要包括兩個(gè)方面:
首先是句子概念. 基于不同的標(biāo)準(zhǔn)和視角, 句子可做不同分類(lèi). 例如:從語(yǔ)氣情態(tài)角度, 句子可分為陳述、 命令、 疑問(wèn)、 共動(dòng); 從包含主謂關(guān)系的數(shù)量出發(fā), 可分為簡(jiǎn)單句和復(fù)句. 其中, 復(fù)句又可根據(jù)主謂結(jié)構(gòu)之間是否存在包孕關(guān)系分為連接復(fù)句和包孕句. 本文的研究對(duì)象就是復(fù)句體系內(nèi)的連接復(fù)句(復(fù)句體系劃分尚存在爭(zhēng)議, 涉及到連接復(fù)句的主要是下位語(yǔ)義類(lèi)型及狀語(yǔ)從句, 對(duì)結(jié)構(gòu)分析影響不大. 本文的連接復(fù)句界定采用韓國(guó)國(guó)立國(guó)語(yǔ)院的教學(xué)體系分類(lèi)方法).
(a)構(gòu)成上的表現(xiàn), 指出所謂“復(fù)”即分句的復(fù)合.
(b)復(fù)句句末有終止性停頓.
(c)復(fù)句的構(gòu)成單位之間從構(gòu)成基礎(chǔ)看是小句, 從構(gòu)成結(jié)果看是分句.
也就是說(shuō), 一個(gè)復(fù)句一旦成立, 那么復(fù)句內(nèi)的各個(gè)分句就具有相對(duì)獨(dú)立和相互依存的特征. 其中的“相對(duì)獨(dú)立”就是指“每個(gè)分句都有‘句’的性質(zhì)和地位, 但分句互相不充當(dāng)成分”.
(3)連接復(fù)句的數(shù)學(xué)表示
結(jié)合上文連接復(fù)句的結(jié)構(gòu)特點(diǎn), 我們可以把所有的分句看作一個(gè)集合, 連接詞尾看作一個(gè)集合. 這樣一來(lái), 所有單重連接復(fù)句均可以表征為集合S, 集合內(nèi)元素由小句集合C和連接詞尾集合J內(nèi)的元素組成. 也就是說(shuō), 任意一個(gè)復(fù)句, 都可以通過(guò)從小句集合和連接詞尾集合中抽取元素來(lái)表示. 這種表征系統(tǒng)的三個(gè)概念及其所含元素如下:
復(fù)句:S={S1, S2, …Sn}; 分句:C={C1, C2, …Cm}; 連接詞尾:J={J1, J2, …J139}
對(duì)于任意一個(gè)韓國(guó)語(yǔ)復(fù)句, 其數(shù)學(xué)表達(dá)式可寫(xiě)為:S=Ci+Jm+Cu. 其中, Jm的邏輯語(yǔ)義決定了分句Ci、 Cu之間的邏輯語(yǔ)義關(guān)系. 試看下例.
結(jié)合以上分析可知, 韓國(guó)語(yǔ)連接復(fù)句在結(jié)構(gòu)上獨(dú)立, 語(yǔ)義上關(guān)聯(lián), 這種特點(diǎn)決定了韓國(guó)語(yǔ)復(fù)句的機(jī)器翻譯改進(jìn)可以從下述角度著眼考慮:
二是分層處理, 化繁為簡(jiǎn). 分層則是通過(guò)降低句子復(fù)雜度, “化繁為簡(jiǎn), 分而治之”. 也就是將復(fù)句分解為相對(duì)應(yīng)的分句, 分別處理.
1.2 相關(guān)研究及理論基礎(chǔ)
根據(jù)目前掌握的資料, 國(guó)內(nèi)關(guān)于韓國(guó)語(yǔ)復(fù)句的研究多立足于傳統(tǒng)語(yǔ)法, 且側(cè)重中韓對(duì)比和語(yǔ)言教學(xué), 代表性的有劉沛霖、 張光軍等專(zhuān)家的研究. 韓國(guó)語(yǔ)是小語(yǔ)種, 受限于技術(shù)和資源, 自然語(yǔ)言處理領(lǐng)域的研究發(fā)展相對(duì)滯后, 目前國(guó)內(nèi)可見(jiàn)的應(yīng)用性研究成果相對(duì)較少, 幾乎無(wú)法找到基于連接詞尾的復(fù)句分解專(zhuān)題研究.
基于連接詞尾的復(fù)句解構(gòu)體現(xiàn)出分類(lèi)和分層的研究思路, 以往研究成果中對(duì)本文有啟發(fā)的主要有漢語(yǔ)、 韓語(yǔ)和日語(yǔ)學(xué)界的研究.
分類(lèi)研究中, 田中康仁[8]提到在日英機(jī)器翻譯中將句子分類(lèi)的思想, 他認(rèn)為可以把句子分為簡(jiǎn)單句、 復(fù)句、 重句. 除此之外, 還可以將句子分為陳述、 疑問(wèn)、 命令、 共動(dòng)句. 雖然這些研究或多或少論及復(fù)句或者長(zhǎng)句的自然語(yǔ)言處理, 但均未形成體系, 也未體現(xiàn)出區(qū)分單句和復(fù)句, 以及根據(jù)復(fù)句層級(jí)數(shù)量分別處理的思想.
對(duì)句子進(jìn)行分層切分處理的思想較早見(jiàn)于標(biāo)點(diǎn)符號(hào)的處理. C.Meyer(1987)最早把標(biāo)點(diǎn)符號(hào)用于信息處理的研究, 他根據(jù)語(yǔ)料庫(kù)把標(biāo)點(diǎn)符號(hào)進(jìn)行分類(lèi)并介紹各自功能. G.Nunberg(1990)和B.jones(1994,1996,1997)通過(guò)大量理論和實(shí)驗(yàn)數(shù)據(jù)證明了將標(biāo)點(diǎn)符號(hào)信息融入句法分析的有效性. 其將標(biāo)點(diǎn)符號(hào)看作句子結(jié)構(gòu)的形態(tài)標(biāo)記, 并運(yùn)用到句法分析中, 體現(xiàn)了長(zhǎng)句分層處理的思想. 李幸[10]研究了漢語(yǔ)標(biāo)點(diǎn)符號(hào)在句子中的作用和使用規(guī)律, 提出了針對(duì)漢語(yǔ)長(zhǎng)句句法分析的分層處理方法.
范莉馨等[11]認(rèn)為應(yīng)該利用淺層變換知識(shí), 提出了根據(jù)句子結(jié)構(gòu)特征來(lái)進(jìn)行日中翻譯的手法, 由此而建立了一個(gè)中日機(jī)器翻譯實(shí)驗(yàn)系統(tǒng), 并通過(guò)部分實(shí)驗(yàn)驗(yàn)證了這一手法的有效性. 由于日語(yǔ)和韓語(yǔ)同屬黏著語(yǔ), 語(yǔ)言特點(diǎn)具有相似性, 范莉馨的研究對(duì)我們?cè)O(shè)計(jì)韓國(guó)語(yǔ)句子結(jié)構(gòu)解構(gòu)程序有一定借鑒作用.
為了量化噴施過(guò)程中的霧滴飄移情況,將輔助氣流出口下風(fēng)向5m處的位置定義為飄失邊界,霧滴運(yùn)動(dòng)至到噴頭下方0.5m以下認(rèn)為其沉積到標(biāo)靶或地面上(如圖1所示);把通過(guò)該邊界的霧滴質(zhì)量設(shè)定為飄移量,飄移量與噴施的藥液量的比值定義為飄移率。最終,把霧滴飄移率作為霧滴飄移的評(píng)價(jià)指標(biāo),具體公式為
2.1 連接復(fù)句的翻譯效果及分析
1) 語(yǔ)料說(shuō)明
2) 翻譯結(jié)果
2.2 基于連接詞尾的解構(gòu)思路
基于上述兩個(gè)事實(shí), 結(jié)合韓國(guó)語(yǔ)連接復(fù)句的結(jié)構(gòu)特點(diǎn), 即單重連接復(fù)句由連接詞尾和小句組成, 如果將連接詞尾拆解成終結(jié)詞尾和副詞, 并把韓國(guó)語(yǔ)復(fù)句轉(zhuǎn)換成對(duì)應(yīng)的單句組合, 翻譯后按照邏輯關(guān)系進(jìn)行重組, 則可能會(huì)對(duì)改進(jìn)翻譯效果起到幫助作用.
2.3 基于個(gè)案的實(shí)現(xiàn)
根據(jù)上文分析, 我們對(duì)例句S進(jìn)行了拆解處理. 將這一復(fù)句按照連接詞尾相對(duì)應(yīng)的終結(jié)詞尾和副詞的搭配拆分成兩個(gè)單句. 即將S拆解為S1和S2.
↓
之后對(duì)拆分后的兩個(gè)單句進(jìn)行了機(jī)器翻譯, 得出的翻譯結(jié)果如表3所示.
通過(guò)上例可以看到, 三個(gè)翻譯平臺(tái)對(duì)拆分后的單句翻譯效果相對(duì)于復(fù)句翻譯效果有一定提升. 除個(gè)別詞匯多義問(wèn)題未得到較好處理外, 三個(gè)翻譯平臺(tái)均正確處理了復(fù)句結(jié)構(gòu).
3.1 實(shí)驗(yàn)檢測(cè)
翻譯后進(jìn)行人工判別得出表4~表6和圖2.
為盡可能控制變量, 降低其他語(yǔ)法素對(duì)翻譯效果的影響, 我們所選的例句均為簡(jiǎn)單的復(fù)句. 通過(guò)實(shí)驗(yàn), 我們可以得出以下幾個(gè)實(shí)驗(yàn)結(jié)果:
(1)句子結(jié)構(gòu)解構(gòu)化對(duì)簡(jiǎn)單結(jié)構(gòu)復(fù)句的機(jī)器翻譯效果提升有明顯改進(jìn)作用, 對(duì)必應(yīng)翻譯質(zhì)量改進(jìn)優(yōu)于有道和Naver.
(2)復(fù)句中助詞的使用會(huì)降低解構(gòu)效果, 從而影響解構(gòu)后翻譯準(zhǔn)確度.
這里需要指出的是, 翻譯質(zhì)量判斷標(biāo)準(zhǔn)和參數(shù)具有不可避免的主觀性, 在后續(xù)研究中將通過(guò)增大實(shí)驗(yàn)樣本, 采取多方評(píng)判的方式對(duì)此進(jìn)行改善.
3.2 句子邏輯語(yǔ)義結(jié)構(gòu)解構(gòu)器編程思路
目前, 對(duì)韓國(guó)語(yǔ)復(fù)句和簡(jiǎn)單句的判別抽取程序編寫(xiě)已經(jīng)完成, 具體的句子結(jié)構(gòu)解構(gòu)程序編寫(xiě)還需要進(jìn)一步研究結(jié)果作為支撐. 其基本實(shí)現(xiàn)流程如下:
(1)對(duì)句子進(jìn)行預(yù)判斷處理, 如果為單句, 直接輸入翻譯器進(jìn)行翻譯; 如果為復(fù)句, 判斷復(fù)句層級(jí)結(jié)構(gòu);
(2)提取連接詞尾, 將連接詞尾重設(shè)為終結(jié)詞尾加連接詞尾形式. 即, 將復(fù)句轉(zhuǎn)換成兩個(gè)單句, 提前抽取出單句間通過(guò)連接詞尾表達(dá)的邏輯語(yǔ)義關(guān)系, 分置于單句前.;
(3)將兩個(gè)翻譯后的中文單句合并為復(fù)句.
本文主要觀點(diǎn)有:(1)認(rèn)為可以在進(jìn)行翻譯處理前, 對(duì)韓國(guó)語(yǔ)句子進(jìn)行結(jié)構(gòu)判別, 從而對(duì)單句和復(fù)句進(jìn)行分別處理; (2)在對(duì)復(fù)句進(jìn)行處理時(shí), 可以將復(fù)句的結(jié)構(gòu)標(biāo)記, 即將連接詞尾轉(zhuǎn)換為相對(duì)應(yīng)的終結(jié)詞尾和接續(xù)副詞, 然后進(jìn)行復(fù)句的翻譯和整合. 實(shí)驗(yàn)表明, 這種方法可以在一定程度上提高常見(jiàn)翻譯軟件對(duì)韓國(guó)語(yǔ)復(fù)句的翻譯質(zhì)量, 尤其是對(duì)必應(yīng)在線翻譯和有道在線翻譯的改進(jìn)效果明顯.
[3] 刑福義.漢語(yǔ)復(fù)句研究[M].北京:商務(wù)印書(shū)館, 2001,25-31.
[8] 田中康仁.關(guān)于機(jī)器翻譯系統(tǒng)未來(lái)的方向[A]; 自然語(yǔ)言理解與機(jī)器翻譯——全國(guó)第六屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C], 2001.
[9] 宗成慶, 統(tǒng)計(jì)自然語(yǔ)言理解[M]. 北京:清華大學(xué)出版社, 2006.165-166.
[10] 李幸, 宗成慶.引入標(biāo)點(diǎn)處理的層次化漢語(yǔ)長(zhǎng)句句法分析方法[J].中文信息學(xué)報(bào), 2006(4):8-15.
[11] 范莉馨, 任福繼, 宮永喜一, 等.一個(gè)利用句子結(jié)構(gòu)特征實(shí)現(xiàn)的中日機(jī)器翻譯系統(tǒng)[A]. 中國(guó)科學(xué)技術(shù)協(xié)會(huì)首屆青年學(xué)術(shù)年會(huì)論文集:工科分冊(cè)·上冊(cè)[C], 1992.
[責(zé)任編輯 徐 剛]
Improvement of Korean-Chinese Machine Translation Based on Complex Sentence Deconstruction
LIU Yang1, BI Yu-de1, LI Jian2
(1. Department of Language Engineering, PLAUFL, Luoyang 471003, China; 2. General Courses Division, PLAUFL, Luoyang 471003, China)
Popular Korean-Chinese machine translation (MT) platform can’t deal with complex sentence as well as simple sentence. The reason is believed to be the procession of connecting suffix. With this consideration, “Korean complex sentence de-construction method” based on connecting suffix is proposed, which shall be used before machine translation to improve the translation quality. Experiments show that MT based on the “Korean complex sentence deconstruction method” can achieve obvious improvements, which verify the feasibility of the method.
Korean; complex sentence; connecting suffix; deconstruction
2016-12-06
國(guó)家社會(huì)科學(xué)基金項(xiàng)目(16BYY157)
劉洋(1989─), 男, 博士. 研究方向: 韓國(guó)語(yǔ)自然語(yǔ)言處理, 機(jī)器翻譯.
畢玉德(1967─), 男, 博士, 教授. 研究方向: 韓國(guó)語(yǔ)句法語(yǔ)義學(xué), 計(jì)算語(yǔ)言學(xué).
TP391.2
A
1009-4970(2017)02-0049-06
洛陽(yáng)師范學(xué)院學(xué)報(bào)2017年2期