亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向信息處理的漢語(yǔ)復(fù)句研究

        2008-01-01 00:00:00洪鹿平張霄軍
        現(xiàn)代語(yǔ)文 2008年3期

        摘要:面向信息處理的漢語(yǔ)復(fù)句研究是一項(xiàng)文理交叉的大型跨學(xué)科研究,對(duì)于漢外翻譯、漢語(yǔ)篇章理解都十分重要。本文介紹了面向信息處理的漢語(yǔ)復(fù)句研究領(lǐng)域采用的主要方法、關(guān)鍵技術(shù)以及研究成果。

        關(guān)鍵詞:漢語(yǔ)復(fù)句 信息處理 語(yǔ)法分析 語(yǔ)義分析

        一、前言

        中文信息處理包括字處理、詞處理、句處理、篇章處理。目前已經(jīng)完成了字處理,較好地解決了詞處理,正在向句處理邁進(jìn)。句處理內(nèi)容復(fù)雜,包括句法知識(shí)、語(yǔ)義知識(shí)和語(yǔ)用知識(shí)等。目前對(duì)于漢語(yǔ)單句的計(jì)算機(jī)處理研究較多,而對(duì)于漢語(yǔ)復(fù)句的計(jì)算機(jī)處理研究較少。復(fù)句是由兩個(gè)或更多的相對(duì)獨(dú)立的主謂結(jié)構(gòu)按照一定組合規(guī)律構(gòu)成一個(gè)結(jié)合體,表達(dá)思想確切周密,傳遞信息內(nèi)涵豐富。從結(jié)構(gòu)上看,復(fù)句是由小句聯(lián)結(jié)而成的,由于它下連小句,上連篇章,在單句和篇章之間起到了一個(gè)很好的銜接作用,同時(shí)兼有語(yǔ)法、語(yǔ)義和語(yǔ)用等多方面的屬性。深入研究漢語(yǔ)復(fù)句,對(duì)于漢外翻譯、漢語(yǔ)篇章理解都是十分重要的。幾年來(lái),隨著信息處理的發(fā)展,漢語(yǔ)復(fù)句研究領(lǐng)域出現(xiàn)了新視野、新角度、新方法,有不少研究者加入漢語(yǔ)復(fù)句的信息處理工作中。

        二、研究主要方法

        復(fù)句的信息處理最早是出于機(jī)器翻譯的需要。20世紀(jì)90年代初,周明、李生等人提出了一整套計(jì)算機(jī)對(duì)漢語(yǔ)復(fù)句的分析方法,并將該方法應(yīng)用于CEMTI漢英機(jī)器翻譯系統(tǒng)中。在這之后的十幾年時(shí)間里,漢語(yǔ)復(fù)句的信息處理方法大致分為兩類(lèi):基于語(yǔ)法形式的分析和基于語(yǔ)義分析。隨著技術(shù)的不斷發(fā)展,理論的不斷創(chuàng)新,呈現(xiàn)出兩類(lèi)方法綜合起來(lái)進(jìn)行處理的發(fā)展趨勢(shì)。

        (一)語(yǔ)法形式分析方法

        該方法從復(fù)句的結(jié)構(gòu)入手,幾乎不涉及語(yǔ)義范疇的概念。分析的目標(biāo)是:給出復(fù)句的深層句法分析,包括關(guān)聯(lián)詞語(yǔ)的識(shí)別、分句邏輯關(guān)系確定、形式化地表示出復(fù)句的層次結(jié)構(gòu)關(guān)系等。

        對(duì)復(fù)句作深層句法分析,一般首先從單復(fù)句的區(qū)分、復(fù)句的定義出發(fā)來(lái)分析復(fù)句的結(jié)構(gòu),并利用一種模型把復(fù)句結(jié)構(gòu)化。分析過(guò)程通常包括以下幾個(gè)步驟:

        (1)詞法分析:包括自動(dòng)分詞、詞性處理、對(duì)關(guān)聯(lián)詞語(yǔ)加以確認(rèn)。

        (2)分句處理:分句數(shù)目確定,分句間的關(guān)系分析,解決分句的省略、指代現(xiàn)象。

        (3)綜合結(jié)果:綜合各個(gè)分句的分析結(jié)果,構(gòu)成語(yǔ)法分析樹(shù)或功能結(jié)構(gòu)樹(shù)。

        基于上述方法,張仕仁(1994)提出用盒式圖來(lái)表示復(fù)句的形式結(jié)構(gòu),用復(fù)雜特征集來(lái)表示復(fù)句的意義結(jié)構(gòu)。通過(guò)對(duì)復(fù)句結(jié)構(gòu)的分析,把復(fù)句歸結(jié)為由三種基本成份構(gòu)成:分句、聯(lián)合結(jié)構(gòu)、偏正結(jié)構(gòu),并用盒式圖表示這些結(jié)構(gòu),以此構(gòu)造出各式各樣的復(fù)句來(lái)。為了能正確地劃分復(fù)句基本結(jié)構(gòu)的類(lèi)型,采用了復(fù)雜特征集描述。首先由詞庫(kù)給出單詞、給出單詞的復(fù)雜特征集,進(jìn)而分別形成短語(yǔ)、分句、復(fù)句復(fù)雜特征集。最后構(gòu)造出一棵復(fù)句的“功能結(jié)構(gòu)樹(shù)”。該方法單純從語(yǔ)法結(jié)構(gòu)出發(fā),當(dāng)復(fù)句存在語(yǔ)義歧義的時(shí)候,就不能很好地處理。而且文中也沒(méi)有論述如何處理結(jié)構(gòu)歧義問(wèn)題。另外,文中提到復(fù)句的形式結(jié)構(gòu)的三種基本成分分類(lèi)似乎欠妥,因?yàn)閺?fù)句是由分句構(gòu)成的,“分句”這個(gè)所謂的成分是從組成或構(gòu)成角度來(lái)說(shuō)的,聯(lián)合結(jié)構(gòu)、偏正結(jié)構(gòu),是從分句之間的邏來(lái)說(shuō)的。因此是把不同范疇的概念混淆在一起作為復(fù)句的三種基本成分了。

        深層句法分析需要綜合考慮多種因素,因而難度總是比較大。集中力量解決復(fù)句分析中的某一個(gè)問(wèn)題,是許多研究者采取的策略。在詞、短語(yǔ)、單句教學(xué)與研究中,分析的主要是結(jié)構(gòu)、功能,尤其強(qiáng)調(diào)這三者的語(yǔ)法構(gòu)造是一致的。分析復(fù)句,則不得不拋開(kāi)語(yǔ)法結(jié)構(gòu),而轉(zhuǎn)為邏輯分析。所以形式化地表示出復(fù)句的層次結(jié)構(gòu)關(guān)系,成為許多學(xué)者研究的目標(biāo)。

        文獻(xiàn)在依托復(fù)句本體研究的成果基礎(chǔ)上,考察了復(fù)句關(guān)系詞語(yǔ)的包孕機(jī)制對(duì)二重復(fù)句結(jié)構(gòu)層次自動(dòng)分析的輔助作用。對(duì)于關(guān)系詞語(yǔ)沒(méi)有省略的二重復(fù)句,通過(guò)三個(gè)步驟實(shí)現(xiàn)結(jié)構(gòu)層次的自動(dòng)分析:第一,計(jì)算機(jī)掌握關(guān)系詞語(yǔ)之間的常規(guī)組配形式;第二,最臨近配對(duì)分句首先構(gòu)成復(fù)句模塊;第三,確定復(fù)句模塊的層次歸屬。另外,對(duì)于關(guān)系詞語(yǔ)省略的復(fù)句,根據(jù)關(guān)系詞語(yǔ)的包孕機(jī)制,來(lái)判斷或輔助分析復(fù)句的層次情況。顯然,此篇論文研究有其局限性。首先,論文中分析的手段是關(guān)聯(lián)詞語(yǔ),但是從文中得出的結(jié)論可以看出,依據(jù)關(guān)系詞語(yǔ)只能解決部分情況下二重復(fù)句的結(jié)構(gòu)層次自動(dòng)分析,在更多情況下多重復(fù)句結(jié)構(gòu)層次的自動(dòng)分析僅憑關(guān)系詞語(yǔ)是無(wú)法解決的。其次,分析的對(duì)象是限于二重復(fù)句的。然而實(shí)際運(yùn)用中,三重復(fù)句也是比較常見(jiàn)的,因此有必要把對(duì)象擴(kuò)展為多重復(fù)句。多重復(fù)句的結(jié)構(gòu)層次劃分,是語(yǔ)篇內(nèi)部不同層級(jí)意義相對(duì)完整的體現(xiàn),對(duì)于語(yǔ)篇的理解具有非常重要的作用。

        中國(guó)社會(huì)科學(xué)院的魯松、白碩將目標(biāo)聚焦在多重關(guān)系復(fù)句的層次分析上。并且提出“關(guān)系層次樹(shù)”這個(gè)概念來(lái)形式化地表示多重關(guān)系復(fù)句的層次結(jié)構(gòu)。文章首先引入了上下文無(wú)關(guān)文法來(lái)表述多重復(fù)句,然后給出了一種具有預(yù)測(cè)機(jī)制、自底向上、部分?jǐn)?shù)據(jù)驅(qū)動(dòng)的確定性移進(jìn)——規(guī)約關(guān)系層次分析算法。整個(gè)分析算法的形式化基礎(chǔ)是關(guān)聯(lián)詞語(yǔ)。層次的分析過(guò)程是以關(guān)聯(lián)詞語(yǔ)提取預(yù)處理為前提,針對(duì)關(guān)聯(lián)詞語(yǔ)進(jìn)行移進(jìn)——規(guī)約操作。通過(guò)開(kāi)放測(cè)試,得出復(fù)句關(guān)系層次分析的正確率達(dá)到93.56%。算法分析仍然是以關(guān)聯(lián)詞語(yǔ)為著眼點(diǎn),對(duì)于沒(méi)有任何關(guān)聯(lián)詞語(yǔ)指示的多重復(fù)句算法無(wú)能為力。

        (二)語(yǔ)義分析方法

        漢語(yǔ)的形態(tài)不發(fā)達(dá),因此漢語(yǔ)中語(yǔ)法分析比較困難。并且漢語(yǔ)是一種“重意合”、“輕形式”的語(yǔ)言,即它是以語(yǔ)義為主,不大注重形式。因此,在中文信息處理中,要理解漢語(yǔ)復(fù)句并進(jìn)行處理,就要分析復(fù)句的句法,顯式地描述復(fù)句各組成成分之間的語(yǔ)義。研究者尋求一種有效的進(jìn)行漢語(yǔ)復(fù)句語(yǔ)義分析,生成復(fù)句語(yǔ)義表示的方法。

        最具代表性的是華中師范大學(xué)的胡金柱、羅旋、王琳等人所作的一系列的研究工作。他們將本體技術(shù)用于復(fù)句領(lǐng)域的概念建模。據(jù)介紹,建立復(fù)句的本體模型有助于更好地理解復(fù)句領(lǐng)域所有的概念和概念之間隱藏的語(yǔ)義,能為漢語(yǔ)復(fù)句語(yǔ)義上的計(jì)算機(jī)自動(dòng)識(shí)別提供支持。

        胡金柱(2005)首先介紹了本體研究現(xiàn)狀,然后介紹了本體元模型建模方法,通過(guò)對(duì)復(fù)句靜態(tài)結(jié)構(gòu)及與小句關(guān)系的分析,在漢語(yǔ)小句元模型的基礎(chǔ)上初步構(gòu)造了漢語(yǔ)復(fù)句靜態(tài)本體模型。正式引入了本體理論來(lái)研究復(fù)句領(lǐng)域的建模問(wèn)題。概括地說(shuō),把一個(gè)模型應(yīng)用到概念的結(jié)果就是本體,建模的方式也就是將事物表示成一個(gè)五元組:1.類(lèi)/概念;2.關(guān)系;3.函數(shù);4.公理;5.實(shí)例,即從這五個(gè)視角來(lái)觀察事物。基于上述思想,在分析了復(fù)句領(lǐng)域涉及的詞匯和復(fù)句結(jié)構(gòu)的基礎(chǔ)上,構(gòu)建了復(fù)句本體模型。

        從文中的闡述可知,復(fù)句領(lǐng)域概念本體描述了該領(lǐng)域的靜態(tài)知識(shí),論文也提出可以進(jìn)一步嘗試描述領(lǐng)域的動(dòng)態(tài)知識(shí)。另外,還需要對(duì)富含的語(yǔ)義進(jìn)行擴(kuò)充,將模型形式化地表示出來(lái)。建立面向復(fù)句句法標(biāo)注的本體也是需要努力的目標(biāo)。王琳、羅旋(2006)就針對(duì)上述問(wèn)題進(jìn)行了研究。王琳所研究的復(fù)句語(yǔ)義分析采用的算法思想是:利用本體元建模方法建構(gòu)了漢語(yǔ)小句元模型,并采用本體網(wǎng)絡(luò)語(yǔ)言O(shè)WL對(duì)小句本體進(jìn)行描述,對(duì)小句進(jìn)行語(yǔ)義分析。然后利用構(gòu)成的小句元模型再去描述復(fù)句模型,最后生成整個(gè)復(fù)句的OWL表示。需要指出的是,論文中模型的構(gòu)建是從句子的功能構(gòu)造層面進(jìn)行分析,對(duì)于句子的組成成分關(guān)系分析得還不夠深入。另外算法大多還處于理論研究階段,沒(méi)有接受計(jì)算機(jī)的真實(shí)測(cè)試,必定還包含許多隱藏的因素。但是有問(wèn)題存在就有繼續(xù)研究下去的希望,也為后來(lái)的研究者指明了一條道路。至于文獻(xiàn)所做的主要是資源建設(shè)方面的工作。通過(guò)建立漢語(yǔ)復(fù)句的本體語(yǔ)義標(biāo)注模型,給出了一個(gè)有標(biāo)復(fù)句本體標(biāo)注說(shuō)明和標(biāo)注規(guī)范。在研究了漢語(yǔ)關(guān)系詞詞類(lèi)自動(dòng)標(biāo)注、復(fù)句層次自動(dòng)標(biāo)注、短語(yǔ)自動(dòng)標(biāo)注以及復(fù)句類(lèi)型認(rèn)定方法的基礎(chǔ)上,建立了一個(gè)大規(guī)模的有標(biāo)復(fù)句語(yǔ)料庫(kù)和一些標(biāo)注好的復(fù)句庫(kù)。目前,語(yǔ)義標(biāo)注都是需要手工操作來(lái)實(shí)現(xiàn),對(duì)于大量的文檔,這種方法就不是很適用了。所以半自動(dòng)化的標(biāo)注研究,是今后深入研究的又一個(gè)目標(biāo)。

        (三)研究發(fā)展趨勢(shì)

        自然語(yǔ)言理解系統(tǒng)都是以句法分析的結(jié)果作為理解的起點(diǎn),即首先分析出“語(yǔ)法樹(shù)”,然后賦予其語(yǔ)義。然而,漢語(yǔ)是一種“意合型”的語(yǔ)言,這一特點(diǎn)導(dǎo)致在漢語(yǔ)理解過(guò)程中,單純把語(yǔ)法分析和語(yǔ)義分析隔離開(kāi)來(lái)是件很困難的事,因此在漢語(yǔ)復(fù)句的分析中應(yīng)尋求一種結(jié)合語(yǔ)法分析和語(yǔ)義分析的方法。

        邢福義先生(1995)提出的“小句中樞說(shuō)”以及之后陸續(xù)提出的有關(guān)小句和復(fù)句方面的理論,為復(fù)句的信息處理奠定了堅(jiān)實(shí)的理論基礎(chǔ)。羅進(jìn)軍、尹蔚(2006)發(fā)展了“小句中樞說(shuō)”的思想,提出了“小句關(guān)聯(lián)理論”,它包括:(1)小句句法關(guān)聯(lián);(2)小句語(yǔ)義關(guān)聯(lián);(3)小句表里關(guān)聯(lián)。小句句法關(guān)聯(lián)是小句句法形式上的某種聯(lián)系,在有標(biāo)復(fù)句中就體現(xiàn)在關(guān)系詞之間的關(guān)聯(lián)。但是隨著研究的深入,僅僅搞清楚小句之間的“句法關(guān)聯(lián)”是不夠的,“語(yǔ)義關(guān)聯(lián)”才能夠挖掘小句之間深層次的關(guān)系。前者是處理的基礎(chǔ),后者則被稱為“攻堅(jiān)手段”,而“小句表里關(guān)聯(lián)”則被視為復(fù)句信息處理的金鑰匙。所謂表里關(guān)聯(lián),也就是語(yǔ)表形式(句法關(guān)聯(lián))和語(yǔ)里意義(語(yǔ)義關(guān)聯(lián))之間存在對(duì)應(yīng)關(guān)系。邢福義先生在“小三角”理論中總結(jié)為“表里印證”。在理論的指導(dǎo)下,作者又提出了有標(biāo)復(fù)句層次關(guān)系自動(dòng)識(shí)別的思想和方法。顯然,“小句關(guān)聯(lián)理論”在復(fù)句的本體研究與復(fù)句信息處理之間搭建了一座理論溝通的橋梁。在理論的指導(dǎo)下,可以制定研究?jī)?nèi)容,確立目標(biāo),并且切實(shí)的展開(kāi)研究工作。近年來(lái),邢福義先生主持華中師范大學(xué)重點(diǎn)建設(shè)學(xué)科項(xiàng)目“小句中樞說(shuō)在漢語(yǔ)與臨界領(lǐng)域研究中的應(yīng)用與驗(yàn)證”。其中“小句中樞理論的應(yīng)用與復(fù)句信息工程”是其中的一個(gè)子項(xiàng)目。姚雙云(2005)介紹了該工程研究?jī)?nèi)容的網(wǎng)絡(luò)以及工程的具體規(guī)劃。文章詳細(xì)介紹了工程的階段性成果——復(fù)句語(yǔ)料庫(kù)。目前,已經(jīng)完成了5000個(gè)有標(biāo)復(fù)句的句法信息標(biāo)注,正在準(zhǔn)備研制復(fù)句自動(dòng)標(biāo)注系統(tǒng)。

        三、小結(jié)

        復(fù)句信息工程的研究是一個(gè)文理交叉的大型跨學(xué)科專(zhuān)題研究課題。在漢外翻譯、漢語(yǔ)篇章理解、句法分析中對(duì)于復(fù)句的理解與分析都遇到很大的困難。開(kāi)展復(fù)句研究工程是很有必要的,有利于推動(dòng)本體研究,更有利于在涉及“句處理”方面取得進(jìn)展。由于目前還處于起步階段,并且采用的方法和思路比較單一,如何把語(yǔ)法分析方法和語(yǔ)義分析方法緊密地結(jié)合起來(lái),充分顯示復(fù)句的深層結(jié)構(gòu)和語(yǔ)義,都有待于進(jìn)一步研究。另外,目前復(fù)句的研究主要集中在有標(biāo)復(fù)句,畢竟從關(guān)系詞這個(gè)顯性標(biāo)志著手,研究會(huì)比較容易一些,而且它的研究成果也會(huì)帶動(dòng)無(wú)標(biāo)復(fù)句的處理,實(shí)現(xiàn)從“有標(biāo)”向“無(wú)標(biāo)”過(guò)渡,這對(duì)于“意合型”的漢語(yǔ)語(yǔ)法來(lái)說(shuō)具有重大的意義。

        參考文獻(xiàn):

        [1]張仕仁.漢語(yǔ)復(fù)句的結(jié)構(gòu)分析[J].中文信息學(xué)報(bào),1994,(4).

        [2]胡金柱.本體論在復(fù)句領(lǐng)域概念建模中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用研究,2006,(10).

        [3]周明,李生,石淼.計(jì)算機(jī)對(duì)漢語(yǔ)復(fù)句的分析[J].情報(bào)科學(xué),1990,(1).

        [4]李晉霞,劉云.面向計(jì)算機(jī)的二重復(fù)句層次劃分研究[A].語(yǔ)言計(jì)算與基于內(nèi)容的文本處理——全國(guó)第七屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C].2003.

        [5]魯松.漢語(yǔ)多重關(guān)系復(fù)句的關(guān)系層次分析[J].軟件學(xué)報(bào),2001,(7).

        [6]胡金柱. 漢語(yǔ)復(fù)句本體模型初探[J].華中師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2005,(4).

        [7]王琳. 基于本體的漢語(yǔ)復(fù)句語(yǔ)義分析[D].華中師范大學(xué),2006.

        [8]羅旋. 基于復(fù)句領(lǐng)域本體的語(yǔ)義標(biāo)注方法研究[D].華中師范大學(xué),2006.

        [9]羅進(jìn)軍尹蔚.面向復(fù)句信息處理的小句關(guān)聯(lián)理論[J].湘潭師范學(xué)院學(xué)報(bào)(社會(huì)科學(xué)版),2006 6).

        [10]姚雙云.小句中樞理論的應(yīng)用與復(fù)句信息工程[J].漢語(yǔ)學(xué)報(bào),2005,(4).

        [11]劉云俞士汶.“句管控”與中文信息處理[J].漢語(yǔ)學(xué)報(bào), 2004,(2).

        [12]魯松 宋柔.漢英機(jī)器翻譯中描述型復(fù)句的關(guān)系識(shí)別與處理[J].軟件學(xué)報(bào),2001.

        [13]邢福義. 漢語(yǔ)復(fù)句研究[M].北京:商務(wù)印書(shū)館,2001.

        (洪鹿平,南京師范大學(xué)文學(xué)院)

        国产成人av一区二区三区在线观看| 亚洲综合日韩精品一区二区| 久久无码高潮喷水| 91一区二区三区在线观看视频| 国产jizzjizz视频免费看| 人妻少妇偷人精品久久人妻 | 中文人妻av大区中文不卡| 69一区二三区好的精华| 国产洗浴会所三级av| 黄视频国产| 亚洲综合网站久久久| 久久无人码人妻一区二区三区| 宝贝把腿张开我要添你下边动态图| 最新中文字幕人妻少妇| 久久洲Av无码西西人体| 国产亚洲日韩欧美一区二区三区| 日韩大片高清播放器大全| 中文字幕一区二区三区97| 老湿机香蕉久久久久久| 亚洲av成人一区二区三区本码 | 国产真人无码作爱视频免费| 亚洲精品在线视频一区二区| 亚洲精品黄网在线观看| 无码小电影在线观看网站免费 | 国产一区二区不卡老阿姨| 无码人妻丰满熟妇区免费| 亚洲区福利视频免费看| 又硬又粗又大一区二区三区视频 | 丰满人妻被持续侵犯中出在线| 国产午夜精品一区二区三区视频| 无码精品人妻一区二区三区av| 亚洲乱码av一区二区蜜桃av| 国产视频网站一区二区三区| 黄色a级国产免费大片| 国产在线观看91一区二区三区| 国产av麻豆精品第一页| 婷婷色国产精品视频一区| 人妻av中文字幕无码专区| 日本孕妇潮喷高潮视频| 久久精品天堂一区二区| 青青草视频华人绿色在线|