李哲(常州工學(xué)院 江蘇 常州 213002)
面向語言信息處理的漢日同義句式研究策略
李哲
(常州工學(xué)院 江蘇 常州 213002)
面向語言信息處理,對漢日同義句式的句法結(jié)構(gòu)和語義特征進行詳細(xì)系統(tǒng)的分析考察,利用語料庫抽取實例進行語義分類并提出相應(yīng)的機器翻譯規(guī)則,生成計算機識別流程圖。該研究策略的有效性需通過海量真實語料進行驗證,將信息處理的結(jié)果與人工翻譯和現(xiàn)有的在線機器翻譯對比,從而驗證生成的同義句式識別流程圖的效度。
語言信息處理;漢日同義句式;句法結(jié)構(gòu);語義特征
語言信息處理是將計算機科學(xué)應(yīng)用在語言學(xué)領(lǐng)域,兩門學(xué)科交叉形成的新型學(xué)科,是應(yīng)用語言學(xué)的重要組成部分。隨著網(wǎng)絡(luò)的普及和全球化趨勢的發(fā)展,語言信息處理領(lǐng)域的應(yīng)用范圍大大延伸,特別是機器翻譯的應(yīng)用形式更加多樣化,云計算和移動終端的普及等使機器翻譯、口語翻譯、文字掃描翻譯、照相翻譯等都開始實際應(yīng)用。然而語言信息處理過程中,不同種類的語言之間的句處理問題越來越突出。
1.1 先行研究
為解決計算機的句處理問題而進行的語言信息處理及機器翻譯研究不論在國內(nèi)還是國際上都是競爭激烈的研究領(lǐng)域之一,也是人工智能和信息處理領(lǐng)域中的實用技術(shù)之一。國內(nèi)漢日語言學(xué)界關(guān)于漢日同義句式對比的語言學(xué)基礎(chǔ)研究較常見,如李金蓮(2010)《基于平行語料庫的中日被動句對比研究》、付佳(2012)《漢日祈使句對比研究》以及張北林等(2013)《WH疑問詞轉(zhuǎn)折句式漢日對比研究》等。這些研究盡管角度不一,有的從類型學(xué)模式切入,有的在認(rèn)知模式下進行,但實質(zhì)上都屬于語言學(xué)的本體研究,面向語言信息處理的語言學(xué)應(yīng)用研究非常少見。目前我國漢日語言信息處理的研究主要集中在自然科學(xué)領(lǐng)域的研究者身上,如南京大學(xué)計算機軟件國家新技術(shù)重點實驗室的張鵬等(2002)在《從日語格語法表示生成漢語的難點分析》一文分析了基于轉(zhuǎn)換規(guī)則的日漢機器翻譯中的漢語生成方法,重點分析了基于日語格語法表示的漢語生成所面臨的難點,同時,還對句子的語氣、時體態(tài)、標(biāo)點符號和關(guān)聯(lián)詞的表層處理等進行了討論。戴新宇等(2003)在《從漢語格關(guān)系表示生成日語》一文中描述了一種基于格關(guān)系的漢語依存分析樹,給出基于規(guī)則的日語生成系統(tǒng)的組織結(jié)構(gòu)。清華大學(xué)的杜偉、陳秀群等(2008)在《多策略漢日機器翻譯系統(tǒng)中的核心技術(shù)研究》中通過生成各翻譯核心子系統(tǒng)所使用的核心技術(shù)和算法,構(gòu)建了一個多策略的漢日機器翻譯系統(tǒng)。另外還有黃金柱等(2012)在《依存語法在日漢自動句法轉(zhuǎn)換中的應(yīng)用》中分析了根據(jù)日漢語言的特點及差別,利用依存語法來處理在日漢機器翻譯中遇到的一些問題。劉穎(2014)在《計算語言學(xué)》一書中提到了目前日本主流的開源自動詞性賦碼器,詳細(xì)介紹了日語的分詞、分詞歧義、分詞算法等。
在日本,漢日語言信息處理的研究主要啟動與2006年。日本筑波大學(xué)石原徹也以及岐阜大學(xué)的池田研究室都對漢日機器翻譯有較深入的研究,并開發(fā)出了跨語言信息檢索和中日機器翻譯系統(tǒng)等。另外,日本的企業(yè)研究所在這方面實力也非常強,如東芝致力于解決漢日機器翻譯時的歧義問題,開發(fā)了“基于統(tǒng)計的中文解析技術(shù)”。面向中日語言信息處理的日語生成在日本起步較早,已有一些研究,IBM日本研究院Taijiro等(1986)曾經(jīng)對一些技術(shù)手冊進行機器翻譯,日語生成采用的是基于轉(zhuǎn)換方法。Sumumu(1994)等則提出了實例轉(zhuǎn)換和規(guī)則相結(jié)合的日語生成方法。日本京都大學(xué)長尾真和佐藤的MTBI和MTB2系統(tǒng)是比較有名的基于實例的機器翻譯系統(tǒng)。
綜上,在語言學(xué)領(lǐng)域,面向語言信息處理的漢日同義句式研究方面,漢日句式對比的語言學(xué)本體研究較多,應(yīng)用研究較少,將語言學(xué)與計算機科學(xué)相結(jié)合的更是少之又少。在自然科學(xué)領(lǐng)域的日漢機器翻譯研究相對豐富,但是,幾乎所有此方面的研究人員都提出,高質(zhì)量的中日翻譯系統(tǒng)開發(fā),需要精通中日兩種語言的語言學(xué)研究人員參與進來,以完善翻譯系統(tǒng)的精度,解決其中漢日語言結(jié)構(gòu)不同所帶來的諸多問題。
1.2 研究價值
語言信息處理特別是機器翻譯中,最大的難題是句處理問題。面向語言信息處理中的難題,選取最為經(jīng)典和常用的漢日同義句式進行句法結(jié)構(gòu)和語義特征分析,對比中日同義句式在結(jié)構(gòu)上的異同,然后將其改寫為計算機識別流程圖。在理論上可以擴展?jié)h日語言對比的研究視角,將普通的語言學(xué)本體研究與自然科學(xué)研究相結(jié)合,豐富語言學(xué)理論的使用范圍和研究功能。
從應(yīng)用價值看,對漢日同義句式進行結(jié)構(gòu)分析和深層語義解析,并由此生成計算機識別流程圖,可為自然科學(xué)領(lǐng)域的漢日機器翻譯系統(tǒng)的進一步研發(fā)提供線索和指導(dǎo),以達(dá)到開發(fā)出精度更高的漢日語言識別系統(tǒng)或機器翻譯軟件的成效。面向語言信息處理的語言對比研究可以促進機器翻譯的發(fā)展,與此同時機器翻譯的研究也可以促進語言研究的發(fā)展。基于以上方面,面向語言信息處理的漢日同義句式對比研究極具學(xué)術(shù)和實際應(yīng)用價值。
2.1 漢日翻譯軟件中的語言信息處理問題
目前市場上比較成熟的在線翻譯軟件網(wǎng)易有道在線翻譯、百度在線翻譯、Goole在線翻譯等。面向語言信息處理的漢日同義句式對比研究,首先要從漢日機器翻譯著手,找到漢日同義句式在語言信息處理流程中亟待解決的主要問題,即提出計算機要處理的語言學(xué)問題。以漢日比較句式“X比Y+形容詞”句式為例解析:
句式:“X比Y+形容詞”
例句(1)我比他高
使用目前市場上主要漢日機器翻譯軟件生成的句式:
有道在線翻譯:私はボーグスよりもっと高い
百度在線翻譯:私は彼より高い
Google在線翻譯:私は彼より背が高いんだ
例句(2)今天下雨,比昨天冷多了
有道在線翻譯:今日は雨が降っても、は昨日より寒いですがありました
百度在線翻譯:今日も雨、昨日より寒い
Google在線翻譯:昨日より今日、雨、寒さかなり良く
以上譯文中標(biāo)記下劃線的部分為各軟件翻譯不當(dāng)之處。從翻譯結(jié)果來看,三個翻譯軟件的日文生成各有正誤。例句(1)結(jié)構(gòu)簡單,三個軟件均表現(xiàn)出了較高的準(zhǔn)確率,語言信息處理的詞對詞翻譯顯示出了較大的成熟度。對例句(2)的翻譯識別三種軟件均有不同程度的失誤,究其原因在于目前的翻譯軟件難以準(zhǔn)確完成高質(zhì)量的句法結(jié)構(gòu)處理和語義特征識別。
2.2 句法結(jié)構(gòu)描述和語義特征分析
針對上一步的發(fā)現(xiàn)的具體問題,對漢日比較句式進行詳細(xì)的句法結(jié)構(gòu)和語義特征分析。從信息處理的角度重新觀察語言學(xué),將漢日同義句式的句法和語義問題形式化,使之能嚴(yán)謹(jǐn)規(guī)范并能對應(yīng)于計算機信息處理的規(guī)則方法。比如“X比Y+形容詞”可擬做以下分析:
句式特點:漢日比較句式是兩種語言中的經(jīng)典句式,表示兩種事物(包括人在內(nèi))之間在某種性質(zhì)上的程度差別。這里的X、Y代表兩種事物,形容詞表示程度差別。X是比較主體,Y是比較客體,由介詞或助詞引導(dǎo)。而日語比較句式一般格式為“AはBより+形容詞”。日語中的A和B分別對應(yīng)了漢語中X和Y的主體和客體功能,但是,從句法結(jié)構(gòu)上來描述,日語助詞“は”的添加和比較助詞“より”的位置是此類句式分析的要點。
語義特征及條件:X、Y往往是同類事物,形容詞一般是表示性質(zhì)的形容詞,如:冷、高、聰明、能干、繁華、窮,等等。X、Y主要由名詞或體詞性短語充當(dāng),也可由動詞、形容詞或非體詞性短語充當(dāng)。日語中的A 和B在語義范疇上大致等同于漢語比較句的X和Y,但是又存在細(xì)微差別。漢日比較句式的分析,要考慮到具體的語義范疇、句法形式甚至語用功能。
2.3 漢日同義句式計算機識別流程圖生成及有效性驗證
基于1、2兩個步驟的分析,設(shè)計計算機算法,生成漢日比較句式計算機識別流程圖。按照共性規(guī)則窮盡式描述漢日語中比較句的句法構(gòu)成。把具有相同語言現(xiàn)象的知識放入同一個流程步驟。比如格助詞識別流程、用言識別流程、時體態(tài)識別流程等規(guī)則。特別注意對其中的一些特殊用法、特殊的語言現(xiàn)象進行識別流程描述。建立嚴(yán)謹(jǐn)?shù)目捎嬎愕男问交P突蚩山y(tǒng)計的概率模型。
以比較句式為例,識別流程如下圖:
以上流程圖變?yōu)榉g程序,用海量真實語料進行驗證,與人工翻譯和現(xiàn)有的在線機器翻譯對比,驗證同義句式識別流程圖的效度。
3.1 研究思路和研究方法
傳統(tǒng)的日漢語言學(xué)研究主要專注于個別問題或語言中的某個特殊現(xiàn)象的研究,面向語言信息處理的漢日同義句式對比研究應(yīng)從計算語言學(xué)的角度出發(fā),研究語言處理的普遍性和總體性的一般問題。將漢日同義句式的句法結(jié)構(gòu)和語義特征形式化,使其具有可操作性。
作為該問題的研究方法,應(yīng)采用從計算語言學(xué)、生成語法和語義學(xué)的角度,利用定量和定性的方法來分析代表性漢日同義句式的句法結(jié)構(gòu)和語義特征。認(rèn)知語言學(xué)中的構(gòu)式語法理論以及配價語法理論和語義指向分析是也是可借鑒的主要方法。從實證分析的角度來看,研究策略可基于平行語料庫,從《現(xiàn)代日語書面語均衡語料庫》中抽出實例檢驗、評價檢測計算機識別流程圖的有效性并對存在的問題進行分析。
3.2 重點和難點
作為一種新視角的語言研究,面向語言信息處理的漢日同義句式對比研究應(yīng)著力于以下幾個方面:①計算機可識別的漢日同義句式的句法結(jié)構(gòu)描述。在句法結(jié)構(gòu)描述過程中,確定句子中每個詞的詞性,確定成分與成分之間的關(guān)系以便構(gòu)成計算機能夠識別的表示形式,即漢日同義句式句法結(jié)構(gòu)形式化。②計算機可識別的漢日同義句式的語義特征分析。語義分析涉及的面較多,既缺乏統(tǒng)一的表示,也缺乏有效的處理機制。目前語義分析比較困難,有一些系統(tǒng)語義分析和句法分析同時進行,互相連接在一起。面向語言信息處理,將復(fù)雜的語義信息形式化成計算機能識別的語言。③漢日同義句式計算機識別流程圖的生成。特別是流程圖生成過程中,漢日兩種語言的歧義消除問題更加復(fù)雜。面向基于句法的分析方式展開,輔以基于轉(zhuǎn)換的分析方式生成漢日同義句式的計算機識別流程圖。
以漢日語言信息處理特別是漢日機器翻譯中遇到的實際問題和需求為前提,深層對比漢日同義句式,對漢日同義句式的句法結(jié)構(gòu)和語義特征分析,最終目標(biāo)是生成行之有效的漢日常用
句式的計算機識別流程圖。基于以上策略的研究既能為漢日語言信息處理特別是機器翻譯提供高質(zhì)量的語言學(xué)參考,又能解決部分漢日語言信息處理中的同義句句處理問題。
[1]張鵬等.從日語格語法表示生成漢語的難點分析,計算機應(yīng)用研究,2002
(12):10.
[2]戴新宇等.從漢語格關(guān)系表示生成日語,中文信息處理,2003(6):17.
[3]杜偉,陳群秀.多策略漢日機器翻譯系統(tǒng)中的核心技術(shù)研究,中文信息學(xué)報,2008(5):60.
[4]劉穎.計算語言學(xué),清華大學(xué)出版社,2014,9:67-71.
[5]馮志偉.計算語言學(xué)基礎(chǔ),商務(wù)印書館,2008,1:29.
H36
A
2095-7327(2016)-04-0163-02
課題項目:課題來源于常州工學(xué)院科研基金資助項目《面向語言信息處理的漢日同義句式對比研究》(項目編號YN1441)。
李哲(1981.11—),女,山東淄博人,講師,碩士,研究方向為語言學(xué)及應(yīng)用語言學(xué)。