亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

面向語(yǔ)言信息處理的漢日同義句式研究策略

2016-05-06 06:10:50李哲常州工學(xué)院江蘇常州213002

山東農(nóng)業(yè)工程學(xué)院學(xué)報(bào) 2016年4期

李哲（常州工學(xué)院江蘇常州 213002）

李哲
（常州工學(xué)院江蘇常州 213002）

面向語(yǔ)言信息處理，對(duì)漢日同義句式的句法結(jié)構(gòu)和語(yǔ)義特征進(jìn)行詳細(xì)系統(tǒng)的分析考察，利用語(yǔ)料庫(kù)抽取實(shí)例進(jìn)行語(yǔ)義分類并提出相應(yīng)的機(jī)器翻譯規(guī)則，生成計(jì)算機(jī)識(shí)別流程圖。該研究策略的有效性需通過(guò)海量真實(shí)語(yǔ)料進(jìn)行驗(yàn)證，將信息處理的結(jié)果與人工翻譯和現(xiàn)有的在線機(jī)器翻譯對(duì)比，從而驗(yàn)證生成的同義句式識(shí)別流程圖的效度。

語(yǔ)言信息處理；漢日同義句式；句法結(jié)構(gòu)；語(yǔ)義特征

語(yǔ)言信息處理是將計(jì)算機(jī)科學(xué)應(yīng)用在語(yǔ)言學(xué)領(lǐng)域，兩門學(xué)科交叉形成的新型學(xué)科，是應(yīng)用語(yǔ)言學(xué)的重要組成部分。隨著網(wǎng)絡(luò)的普及和全球化趨勢(shì)的發(fā)展，語(yǔ)言信息處理領(lǐng)域的應(yīng)用范圍大大延伸，特別是機(jī)器翻譯的應(yīng)用形式更加多樣化，云計(jì)算和移動(dòng)終端的普及等使機(jī)器翻譯、口語(yǔ)翻譯、文字掃描翻譯、照相翻譯等都開始實(shí)際應(yīng)用。然而語(yǔ)言信息處理過(guò)程中，不同種類的語(yǔ)言之間的句處理問(wèn)題越來(lái)越突出。

1.問(wèn)題提起

1.1 先行研究

為解決計(jì)算機(jī)的句處理問(wèn)題而進(jìn)行的語(yǔ)言信息處理及機(jī)器翻譯研究不論在國(guó)內(nèi)還是國(guó)際上都是競(jìng)爭(zhēng)激烈的研究領(lǐng)域之一，也是人工智能和信息處理領(lǐng)域中的實(shí)用技術(shù)之一。國(guó)內(nèi)漢日語(yǔ)言學(xué)界關(guān)于漢日同義句式對(duì)比的語(yǔ)言學(xué)基礎(chǔ)研究較常見，如李金蓮（2010）《基于平行語(yǔ)料庫(kù)的中日被動(dòng)句對(duì)比研究》、付佳（2012）《漢日祈使句對(duì)比研究》以及張北林等（2013）《WH疑問(wèn)詞轉(zhuǎn)折句式漢日對(duì)比研究》等。這些研究盡管角度不一，有的從類型學(xué)模式切入，有的在認(rèn)知模式下進(jìn)行，但實(shí)質(zhì)上都屬于語(yǔ)言學(xué)的本體研究，面向語(yǔ)言信息處理的語(yǔ)言學(xué)應(yīng)用研究非常少見。目前我國(guó)漢日語(yǔ)言信息處理的研究主要集中在自然科學(xué)領(lǐng)域的研究者身上，如南京大學(xué)計(jì)算機(jī)軟件國(guó)家新技術(shù)重點(diǎn)實(shí)驗(yàn)室的張鵬等（2002）在《從日語(yǔ)格語(yǔ)法表示生成漢語(yǔ)的難點(diǎn)分析》一文分析了基于轉(zhuǎn)換規(guī)則的日漢機(jī)器翻譯中的漢語(yǔ)生成方法，重點(diǎn)分析了基于日語(yǔ)格語(yǔ)法表示的漢語(yǔ)生成所面臨的難點(diǎn)，同時(shí)，還對(duì)句子的語(yǔ)氣、時(shí)體態(tài)、標(biāo)點(diǎn)符號(hào)和關(guān)聯(lián)詞的表層處理等進(jìn)行了討論。戴新宇等（2003）在《從漢語(yǔ)格關(guān)系表示生成日語(yǔ)》一文中描述了一種基于格關(guān)系的漢語(yǔ)依存分析樹，給出基于規(guī)則的日語(yǔ)生成系統(tǒng)的組織結(jié)構(gòu)。清華大學(xué)的杜偉、陳秀群等（2008）在《多策略漢日機(jī)器翻譯系統(tǒng)中的核心技術(shù)研究》中通過(guò)生成各翻譯核心子系統(tǒng)所使用的核心技術(shù)和算法，構(gòu)建了一個(gè)多策略的漢日機(jī)器翻譯系統(tǒng)。另外還有黃金柱等（2012）在《依存語(yǔ)法在日漢自動(dòng)句法轉(zhuǎn)換中的應(yīng)用》中分析了根據(jù)日漢語(yǔ)言的特點(diǎn)及差別，利用依存語(yǔ)法來(lái)處理在日漢機(jī)器翻譯中遇到的一些問(wèn)題。劉穎（2014）在《計(jì)算語(yǔ)言學(xué)》一書中提到了目前日本主流的開源自動(dòng)詞性賦碼器，詳細(xì)介紹了日語(yǔ)的分詞、分詞歧義、分詞算法等。

在日本，漢日語(yǔ)言信息處理的研究主要啟動(dòng)與2006年。日本筑波大學(xué)石原徹也以及岐阜大學(xué)的池田研究室都對(duì)漢日機(jī)器翻譯有較深入的研究，并開發(fā)出了跨語(yǔ)言信息檢索和中日機(jī)器翻譯系統(tǒng)等。另外，日本的企業(yè)研究所在這方面實(shí)力也非常強(qiáng)，如東芝致力于解決漢日機(jī)器翻譯時(shí)的歧義問(wèn)題，開發(fā)了“基于統(tǒng)計(jì)的中文解析技術(shù)”。面向中日語(yǔ)言信息處理的日語(yǔ)生成在日本起步較早，已有一些研究，IBM日本研究院Taijiro等（1986）曾經(jīng)對(duì)一些技術(shù)手冊(cè)進(jìn)行機(jī)器翻譯，日語(yǔ)生成采用的是基于轉(zhuǎn)換方法。Sumumu（1994）等則提出了實(shí)例轉(zhuǎn)換和規(guī)則相結(jié)合的日語(yǔ)生成方法。日本京都大學(xué)長(zhǎng)尾真和佐藤的MTBI和MTB2系統(tǒng)是比較有名的基于實(shí)例的機(jī)器翻譯系統(tǒng)。

綜上，在語(yǔ)言學(xué)領(lǐng)域，面向語(yǔ)言信息處理的漢日同義句式研究方面，漢日句式對(duì)比的語(yǔ)言學(xué)本體研究較多，應(yīng)用研究較少，將語(yǔ)言學(xué)與計(jì)算機(jī)科學(xué)相結(jié)合的更是少之又少。在自然科學(xué)領(lǐng)域的日漢機(jī)器翻譯研究相對(duì)豐富，但是，幾乎所有此方面的研究人員都提出，高質(zhì)量的中日翻譯系統(tǒng)開發(fā)，需要精通中日兩種語(yǔ)言的語(yǔ)言學(xué)研究人員參與進(jìn)來(lái)，以完善翻譯系統(tǒng)的精度，解決其中漢日語(yǔ)言結(jié)構(gòu)不同所帶來(lái)的諸多問(wèn)題。

1.2 研究?jī)r(jià)值

語(yǔ)言信息處理特別是機(jī)器翻譯中，最大的難題是句處理問(wèn)題。面向語(yǔ)言信息處理中的難題，選取最為經(jīng)典和常用的漢日同義句式進(jìn)行句法結(jié)構(gòu)和語(yǔ)義特征分析，對(duì)比中日同義句式在結(jié)構(gòu)上的異同，然后將其改寫為計(jì)算機(jī)識(shí)別流程圖。在理論上可以擴(kuò)展?jié)h日語(yǔ)言對(duì)比的研究視角，將普通的語(yǔ)言學(xué)本體研究與自然科學(xué)研究相結(jié)合，豐富語(yǔ)言學(xué)理論的使用范圍和研究功能。

從應(yīng)用價(jià)值看，對(duì)漢日同義句式進(jìn)行結(jié)構(gòu)分析和深層語(yǔ)義解析，并由此生成計(jì)算機(jī)識(shí)別流程圖，可為自然科學(xué)領(lǐng)域的漢日機(jī)器翻譯系統(tǒng)的進(jìn)一步研發(fā)提供線索和指導(dǎo)，以達(dá)到開發(fā)出精度更高的漢日語(yǔ)言識(shí)別系統(tǒng)或機(jī)器翻譯軟件的成效。面向語(yǔ)言信息處理的語(yǔ)言對(duì)比研究可以促進(jìn)機(jī)器翻譯的發(fā)展，與此同時(shí)機(jī)器翻譯的研究也可以促進(jìn)語(yǔ)言研究的發(fā)展?；谝陨戏矫?，面向語(yǔ)言信息處理的漢日同義句式對(duì)比研究極具學(xué)術(shù)和實(shí)際應(yīng)用價(jià)值。

2.語(yǔ)言信息處理中的漢日同義句式研究

2.1 漢日翻譯軟件中的語(yǔ)言信息處理問(wèn)題

目前市場(chǎng)上比較成熟的在線翻譯軟件網(wǎng)易有道在線翻譯、百度在線翻譯、Goole在線翻譯等。面向語(yǔ)言信息處理的漢日同義句式對(duì)比研究，首先要從漢日機(jī)器翻譯著手，找到漢日同義句式在語(yǔ)言信息處理流程中亟待解決的主要問(wèn)題，即提出計(jì)算機(jī)要處理的語(yǔ)言學(xué)問(wèn)題。以漢日比較句式“X比Y+形容詞”句式為例解析：

句式：“X比Y+形容詞”

例句（1）我比他高

使用目前市場(chǎng)上主要漢日機(jī)器翻譯軟件生成的句式：

有道在線翻譯：私はボーグスよりもっと高い

百度在線翻譯：私は彼より高い

Google在線翻譯：私は彼より背が高いんだ

例句（2）今天下雨，比昨天冷多了

有道在線翻譯：今日は雨が降っても、は昨日より寒いですがありました

百度在線翻譯：今日も雨、昨日より寒い

Google在線翻譯：昨日より今日、雨、寒さかなり良く

以上譯文中標(biāo)記下劃線的部分為各軟件翻譯不當(dāng)之處。從翻譯結(jié)果來(lái)看，三個(gè)翻譯軟件的日文生成各有正誤。例句（1）結(jié)構(gòu)簡(jiǎn)單，三個(gè)軟件均表現(xiàn)出了較高的準(zhǔn)確率，語(yǔ)言信息處理的詞對(duì)詞翻譯顯示出了較大的成熟度。對(duì)例句（2）的翻譯識(shí)別三種軟件均有不同程度的失誤，究其原因在于目前的翻譯軟件難以準(zhǔn)確完成高質(zhì)量的句法結(jié)構(gòu)處理和語(yǔ)義特征識(shí)別。

2.2 句法結(jié)構(gòu)描述和語(yǔ)義特征分析

針對(duì)上一步的發(fā)現(xiàn)的具體問(wèn)題，對(duì)漢日比較句式進(jìn)行詳細(xì)的句法結(jié)構(gòu)和語(yǔ)義特征分析。從信息處理的角度重新觀察語(yǔ)言學(xué)，將漢日同義句式的句法和語(yǔ)義問(wèn)題形式化，使之能嚴(yán)謹(jǐn)規(guī)范并能對(duì)應(yīng)于計(jì)算機(jī)信息處理的規(guī)則方法。比如“X比Y+形容詞”可擬做以下分析：

句式特點(diǎn)：漢日比較句式是兩種語(yǔ)言中的經(jīng)典句式，表示兩種事物（包括人在內(nèi)）之間在某種性質(zhì)上的程度差別。這里的X、Y代表兩種事物，形容詞表示程度差別。X是比較主體，Y是比較客體，由介詞或助詞引導(dǎo)。而日語(yǔ)比較句式一般格式為“AはBより+形容詞”。日語(yǔ)中的A和B分別對(duì)應(yīng)了漢語(yǔ)中X和Y的主體和客體功能，但是，從句法結(jié)構(gòu)上來(lái)描述，日語(yǔ)助詞“は”的添加和比較助詞“より”的位置是此類句式分析的要點(diǎn)。

語(yǔ)義特征及條件：X、Y往往是同類事物，形容詞一般是表示性質(zhì)的形容詞，如：冷、高、聰明、能干、繁華、窮，等等。X、Y主要由名詞或體詞性短語(yǔ)充當(dāng)，也可由動(dòng)詞、形容詞或非體詞性短語(yǔ)充當(dāng)。日語(yǔ)中的A 和B在語(yǔ)義范疇上大致等同于漢語(yǔ)比較句的X和Y，但是又存在細(xì)微差別。漢日比較句式的分析，要考慮到具體的語(yǔ)義范疇、句法形式甚至語(yǔ)用功能。

2.3 漢日同義句式計(jì)算機(jī)識(shí)別流程圖生成及有效性驗(yàn)證

基于1、2兩個(gè)步驟的分析，設(shè)計(jì)計(jì)算機(jī)算法，生成漢日比較句式計(jì)算機(jī)識(shí)別流程圖。按照共性規(guī)則窮盡式描述漢日語(yǔ)中比較句的句法構(gòu)成。把具有相同語(yǔ)言現(xiàn)象的知識(shí)放入同一個(gè)流程步驟。比如格助詞識(shí)別流程、用言識(shí)別流程、時(shí)體態(tài)識(shí)別流程等規(guī)則。特別注意對(duì)其中的一些特殊用法、特殊的語(yǔ)言現(xiàn)象進(jìn)行識(shí)別流程描述。建立嚴(yán)謹(jǐn)?shù)目捎?jì)算的形式化模型或可統(tǒng)計(jì)的概率模型。

以比較句式為例，識(shí)別流程如下圖：

以上流程圖變?yōu)榉g程序，用海量真實(shí)語(yǔ)料進(jìn)行驗(yàn)證，與人工翻譯和現(xiàn)有的在線機(jī)器翻譯對(duì)比，驗(yàn)證同義句式識(shí)別流程圖的效度。

3.研究策略及重點(diǎn)難點(diǎn)

3.1 研究思路和研究方法

傳統(tǒng)的日漢語(yǔ)言學(xué)研究主要專注于個(gè)別問(wèn)題或語(yǔ)言中的某個(gè)特殊現(xiàn)象的研究，面向語(yǔ)言信息處理的漢日同義句式對(duì)比研究應(yīng)從計(jì)算語(yǔ)言學(xué)的角度出發(fā)，研究語(yǔ)言處理的普遍性和總體性的一般問(wèn)題。將漢日同義句式的句法結(jié)構(gòu)和語(yǔ)義特征形式化，使其具有可操作性。

作為該問(wèn)題的研究方法，應(yīng)采用從計(jì)算語(yǔ)言學(xué)、生成語(yǔ)法和語(yǔ)義學(xué)的角度，利用定量和定性的方法來(lái)分析代表性漢日同義句式的句法結(jié)構(gòu)和語(yǔ)義特征。認(rèn)知語(yǔ)言學(xué)中的構(gòu)式語(yǔ)法理論以及配價(jià)語(yǔ)法理論和語(yǔ)義指向分析是也是可借鑒的主要方法。從實(shí)證分析的角度來(lái)看，研究策略可基于平行語(yǔ)料庫(kù)，從《現(xiàn)代日語(yǔ)書面語(yǔ)均衡語(yǔ)料庫(kù)》中抽出實(shí)例檢驗(yàn)、評(píng)價(jià)檢測(cè)計(jì)算機(jī)識(shí)別流程圖的有效性并對(duì)存在的問(wèn)題進(jìn)行分析。

3.2 重點(diǎn)和難點(diǎn)

作為一種新視角的語(yǔ)言研究，面向語(yǔ)言信息處理的漢日同義句式對(duì)比研究應(yīng)著力于以下幾個(gè)方面：①計(jì)算機(jī)可識(shí)別的漢日同義句式的句法結(jié)構(gòu)描述。在句法結(jié)構(gòu)描述過(guò)程中，確定句子中每個(gè)詞的詞性，確定成分與成分之間的關(guān)系以便構(gòu)成計(jì)算機(jī)能夠識(shí)別的表示形式，即漢日同義句式句法結(jié)構(gòu)形式化。②計(jì)算機(jī)可識(shí)別的漢日同義句式的語(yǔ)義特征分析。語(yǔ)義分析涉及的面較多，既缺乏統(tǒng)一的表示，也缺乏有效的處理機(jī)制。目前語(yǔ)義分析比較困難，有一些系統(tǒng)語(yǔ)義分析和句法分析同時(shí)進(jìn)行，互相連接在一起。面向語(yǔ)言信息處理，將復(fù)雜的語(yǔ)義信息形式化成計(jì)算機(jī)能識(shí)別的語(yǔ)言。③漢日同義句式計(jì)算機(jī)識(shí)別流程圖的生成。特別是流程圖生成過(guò)程中，漢日兩種語(yǔ)言的歧義消除問(wèn)題更加復(fù)雜。面向基于句法的分析方式展開，輔以基于轉(zhuǎn)換的分析方式生成漢日同義句式的計(jì)算機(jī)識(shí)別流程圖。

4.結(jié)語(yǔ)

以漢日語(yǔ)言信息處理特別是漢日機(jī)器翻譯中遇到的實(shí)際問(wèn)題和需求為前提，深層對(duì)比漢日同義句式，對(duì)漢日同義句式的句法結(jié)構(gòu)和語(yǔ)義特征分析，最終目標(biāo)是生成行之有效的漢日常用

句式的計(jì)算機(jī)識(shí)別流程圖。基于以上策略的研究既能為漢日語(yǔ)言信息處理特別是機(jī)器翻譯提供高質(zhì)量的語(yǔ)言學(xué)參考，又能解決部分漢日語(yǔ)言信息處理中的同義句句處理問(wèn)題。

［1］張鵬等.從日語(yǔ)格語(yǔ)法表示生成漢語(yǔ)的難點(diǎn)分析，計(jì)算機(jī)應(yīng)用研究，2002

（12）：10.

［2］戴新宇等.從漢語(yǔ)格關(guān)系表示生成日語(yǔ)，中文信息處理，2003（6）：17.

［3］杜偉，陳群秀.多策略漢日機(jī)器翻譯系統(tǒng)中的核心技術(shù)研究，中文信息學(xué)報(bào)，2008（5）：60.

［4］劉穎.計(jì)算語(yǔ)言學(xué)，清華大學(xué)出版社，2014，9：67-71.

［5］馮志偉.計(jì)算語(yǔ)言學(xué)基礎(chǔ)，商務(wù)印書館，2008，1：29.

H36

2095-7327（2016）-04-0163-02

課題項(xiàng)目：課題來(lái)源于常州工學(xué)院科研基金資助項(xiàng)目《面向語(yǔ)言信息處理的漢日同義句式對(duì)比研究》（項(xiàng)目編號(hào)YN1441）。

李哲（1981.11—），女，山東淄博人，講師，碩士，研究方向?yàn)檎Z(yǔ)言學(xué)及應(yīng)用語(yǔ)言學(xué)。