郭建芳
(1.中北大學(xué)人文社會(huì)科學(xué)學(xué)院,山西太原030051;2.華中師范大學(xué)語(yǔ)言與語(yǔ)言教育研究中心,湖北武漢430079)
從自然語(yǔ)言處理視域新探漢英詞類差異
郭建芳1,2
(1.中北大學(xué)人文社會(huì)科學(xué)學(xué)院,山西太原030051;2.華中師范大學(xué)語(yǔ)言與語(yǔ)言教育研究中心,湖北武漢430079)
擬從自然語(yǔ)言處理的角度探討21世紀(jì)漢語(yǔ)詞類劃分標(biāo)準(zhǔn),詳細(xì)分析中文信息處理與漢語(yǔ)詞類研究的關(guān)系及其相互作用和影響,進(jìn)而嘗試找出在此形勢(shì)下漢語(yǔ)和英語(yǔ)詞類研究存在的問(wèn)題及差異,并對(duì)詞類問(wèn)題研究的發(fā)展方向提出建議。
語(yǔ)言本體;自然語(yǔ)言處理;相互作用;詞類差異
早在計(jì)算機(jī)出現(xiàn)之前,英國(guó)數(shù)學(xué)家圖靈(A.M.Turing)就預(yù)見(jiàn)到未來(lái)的計(jì)算機(jī)將會(huì)對(duì)自然語(yǔ)言研究提出新的問(wèn)題。21世紀(jì)是信息時(shí)代,信息時(shí)代的主要特點(diǎn)就是利用計(jì)算機(jī)來(lái)逐步減輕人的體力勞動(dòng)和腦力勞動(dòng)。早在20世紀(jì)90年代,我國(guó)就已明確提出了建造信息高速公路和研制智能計(jì)算機(jī)的任務(wù)。但不管是建造信息高速公路還是研制智能計(jì)算機(jī)都離不開語(yǔ)言學(xué)研究成果的支撐。目前,世界上已形成了三個(gè)研制智能計(jì)算機(jī)的中心:一是美國(guó),二是日本,三是歐盟。在研制和開發(fā)智能計(jì)算機(jī)的過(guò)程中,它們都不約而同地將自然語(yǔ)言信息處理(Natural Language Processing,NLP)放在極其重要的地位。在計(jì)算機(jī)硬件技術(shù)突飛猛進(jìn)的今天,真正成為語(yǔ)言信息處理技術(shù)中的“瓶頸”卻是語(yǔ)言信息的計(jì)算機(jī)處理。
中國(guó)在中文信息處理方面的研究起步較早,在20世紀(jì)50年代末、60年代初就已開始研究機(jī)器翻譯,且在當(dāng)時(shí)還處于世界先進(jìn)水平。進(jìn)入80年代后,中文信息處理尤其是在漢字信息處理方面也有比較大的發(fā)展,而且在全國(guó)成立了一些研究機(jī)構(gòu),但中文文本的自動(dòng)分詞(Cutting)和自動(dòng)詞性標(biāo)注(Tagging)一直是中文信息處理中最基本的兩大技術(shù)難題。從計(jì)算機(jī)技術(shù)的角度來(lái)說(shuō),目前已初步解決了自動(dòng)分詞和自動(dòng)詞性標(biāo)注的問(wèn)題。劉遷等在《中文信息處理中自動(dòng)分詞技術(shù)的研究與展望》一文中提出中文文本自動(dòng)分詞技術(shù)取得了令人矚目的成果,國(guó)內(nèi)也研制出了一些實(shí)用的自動(dòng)分詞系統(tǒng)。這些系統(tǒng)在分詞的精確度(精度達(dá)到99%以上)和分詞速度(速度達(dá)到千字/s)方面都具有相當(dāng)高的水平[1],但是漢語(yǔ)自動(dòng)分詞技術(shù)卻依然面臨著“詞”概念模糊等實(shí)際困難。造成這些困難的根源之一是對(duì)于漢語(yǔ)詞類的劃分標(biāo)準(zhǔn)不一,即對(duì)于中文信息處理中詞類到底該按意義標(biāo)準(zhǔn)、形態(tài)標(biāo)準(zhǔn)、語(yǔ)法功能標(biāo)準(zhǔn)還是按綜合標(biāo)準(zhǔn)來(lái)實(shí)施,我國(guó)漢語(yǔ)學(xué)界一直存有不同的見(jiàn)解。
2.1 漢語(yǔ)的詞類劃分問(wèn)題介紹
早在漢代中國(guó)學(xué)者就開始了漢語(yǔ)詞類問(wèn)題的研究。由于受到西方思想及印歐語(yǔ)等體系的影響,中國(guó)學(xué)者對(duì)于漢語(yǔ)詞類問(wèn)題的研究經(jīng)歷了許多坎坷。在漢語(yǔ)語(yǔ)法學(xué)史上,最早出現(xiàn)的詞類劃分是以意義為標(biāo)準(zhǔn)的劃分方法,代表作有馬建忠的《馬氏文通》[2]、黎錦熙的《新著國(guó)語(yǔ)文法》[3]、呂叔湘的《中國(guó)文法要略》[4]、王力的《中國(guó)語(yǔ)法理論》和《中國(guó)現(xiàn)代語(yǔ)法》[5]。馬建忠鑒于漢語(yǔ)沒(méi)有足以區(qū)分詞類的形態(tài)變化,主張根據(jù)意義劃分詞類。后來(lái)隨著漢語(yǔ)語(yǔ)法學(xué)研究的進(jìn)一步發(fā)展,又出現(xiàn)了以漢語(yǔ)語(yǔ)法特點(diǎn)為標(biāo)準(zhǔn)的劃分詞類的方法以及多標(biāo)準(zhǔn)劃分詞類的觀點(diǎn)。然而直到今天,中國(guó)學(xué)者對(duì)于漢語(yǔ)詞類問(wèn)題的劃分標(biāo)準(zhǔn)仍未達(dá)成一致意見(jiàn)。
2.2 21世紀(jì)漢語(yǔ)詞類劃分的研究
在20世紀(jì)50年代~70年代的漢語(yǔ)詞類劃分研究中占流的是由“詞匯·語(yǔ)法范疇”理論指導(dǎo)下的多標(biāo)準(zhǔn)論,20世紀(jì)80年代至今則是結(jié)構(gòu)主義語(yǔ)言學(xué)理論影響下的單一的語(yǔ)法功能標(biāo)準(zhǔn)論占主流的時(shí)期。
單一的語(yǔ)法功能(句法功能)標(biāo)準(zhǔn)最早由陳望道明確提出。早在“文法革新討論”時(shí),他就提出只有功能標(biāo)準(zhǔn)才能劃分漢語(yǔ)詞類。朱德熙也是堅(jiān)決主張根據(jù)單一的功能標(biāo)準(zhǔn)區(qū)分詞類的。他在《語(yǔ)法講義》里又進(jìn)一步強(qiáng)調(diào)“漢語(yǔ)的詞分類不能根據(jù)形態(tài),只能根據(jù)詞的語(yǔ)法功能”[6]。他在《語(yǔ)法答問(wèn)》里再次強(qiáng)調(diào)“劃分詞類的根據(jù)只能是詞的語(yǔ)法功能”[7]。胡裕樹本來(lái)主張區(qū)分詞類應(yīng)以形態(tài)(指“廣義形態(tài)”)為標(biāo)準(zhǔn),但在其主編的《現(xiàn)代漢語(yǔ)》提出分類的基本根據(jù)是詞的語(yǔ)法功能。田申瑛也認(rèn)為詞類是詞在語(yǔ)法上的功能類別,主張以語(yǔ)法功能作為劃分詞類的根據(jù)或標(biāo)準(zhǔn)。郭銳也認(rèn)為“詞的語(yǔ)法功能為劃類標(biāo)準(zhǔn)”[8]。
呂叔湘在大討論時(shí)傾向于把結(jié)構(gòu)關(guān)系作為分類的主要標(biāo)準(zhǔn),然后兼顧形態(tài)、意義等標(biāo)準(zhǔn)(多標(biāo)準(zhǔn)),但在《漢語(yǔ)語(yǔ)法分析問(wèn)題》中提出“漢語(yǔ)沒(méi)有嚴(yán)格意義的形態(tài)變化,就不能不主要依靠句法功能”,所以他也明確主張用“句法功能”做劃分詞類的依據(jù)[9]。邢福義在《詞類問(wèn)題的思考》中提出“語(yǔ)法特征是劃分詞類、判別詞性的根本依據(jù)”[10]。詞的語(yǔ)法特征主要表現(xiàn)為詞具有組合能力。在《詞類辯難》中他認(rèn)為“劃分詞類時(shí),既要根據(jù)語(yǔ)法特點(diǎn),又要參酌詞的意義,這樣才能做到準(zhǔn)確、合理”[11]。
在漢語(yǔ)詞類劃分標(biāo)準(zhǔn)問(wèn)題上,目前的研究現(xiàn)狀是單標(biāo)準(zhǔn)和多標(biāo)準(zhǔn)并存的局面,二者各有利弊。單標(biāo)準(zhǔn)難以做到窮盡劃分詞類,而多標(biāo)準(zhǔn)在判斷起來(lái)相對(duì)復(fù)雜一些,尤其對(duì)于計(jì)算機(jī)而言。
3.1 中文信息處理與漢語(yǔ)本體研究
進(jìn)入21世紀(jì),中文信息處理的快速發(fā)展無(wú)疑給漢語(yǔ)本體研究帶來(lái)了巨大的挑戰(zhàn),但同時(shí)也對(duì)漢語(yǔ)本體研究發(fā)揮著巨大的推動(dòng)和促進(jìn)作用。
3.1.1 自動(dòng)分詞對(duì)漢語(yǔ)本體研究的啟示
中文信息處理中的自動(dòng)分詞跟漢語(yǔ)本體中的分詞的目標(biāo)基本是一致的,但考慮到如何更有利于中文信息處理,中文信息處理中的分詞和漢語(yǔ)本體研究中的分詞不完全相同。比如,對(duì)于“二分之一”,按漢語(yǔ)本體研究的方法應(yīng)切分為“二”、“分”、“之”、“一”,但在中文信息處理過(guò)程中處理為三部分,即“二”、“分之”、“一”。中文信息處理注定優(yōu)先考慮計(jì)算機(jī)識(shí)別和使用,因此對(duì)今后的漢語(yǔ)本體研究也是一種啟示。
3.1.2 詞性自動(dòng)標(biāo)注軟件現(xiàn)狀——以“小句”為最好的觀測(cè)點(diǎn)
詞性自動(dòng)標(biāo)注是中文信息處理的基礎(chǔ)平臺(tái)。毫無(wú)疑問(wèn),這個(gè)平臺(tái)的質(zhì)量直接決定了中文信息處理后續(xù)工程(包括機(jī)器翻譯、信息檢索、自動(dòng)文摘等)的水平。實(shí)踐表明,現(xiàn)行的詞類體系無(wú)法滿足中文信息處理的需要,其弊端是非常明顯的。
溫鎖林在其《從詞性標(biāo)注看小句的中樞地位》一文中明確提出歷史上曾出現(xiàn)過(guò)五種“本位”①語(yǔ)法學(xué)界曾出現(xiàn)的五種本位:馬建忠的“詞類本位”、黎錦熙的“句本位”、朱德熙的“詞組本位”、徐通鏘的“字本位”和邢福義的“小句本位”。,而以邢福義先生的“小句本位”得出的規(guī)則為詞性自動(dòng)標(biāo)注的準(zhǔn)確率最高(98%),極其適合計(jì)算機(jī)識(shí)別[12]。
對(duì)于漢語(yǔ)這種缺乏形態(tài)變化的語(yǔ)言來(lái)說(shuō),詞的語(yǔ)法特點(diǎn)只有在小句中才能觀察得更為詳盡、準(zhǔn)確。如果不把詞放在小句的大本營(yíng)中觀察,視野不寬,對(duì)詞的語(yǔ)法性質(zhì)就可能把握不準(zhǔn),難以達(dá)到觀察、描寫和解釋的充分性。與語(yǔ)法學(xué)家所提出和使用過(guò)的幾種主要的語(yǔ)法描寫和表述系統(tǒng)相比,小句中樞說(shuō)在中文信息處理中具有其獨(dú)到的優(yōu)勢(shì)。
3.1.3 句處理對(duì)漢語(yǔ)本體研究提出新要求
句處理所需要的漢語(yǔ)知識(shí)實(shí)際上是一種涉及到語(yǔ)音、語(yǔ)匯、語(yǔ)法、語(yǔ)義等方面的綜合性知識(shí)。目前,中文信息處理學(xué)界都深感漢語(yǔ)本體知識(shí)的匱乏,深知目前的漢語(yǔ)本體知識(shí)遠(yuǎn)遠(yuǎn)不能滿足中文信息處理的需要。而加強(qiáng)漢語(yǔ)本體研究,無(wú)疑會(huì)加快中文信息處理技術(shù)中句處理的進(jìn)程。
3.1.4 語(yǔ)言研究形式化問(wèn)題——用數(shù)學(xué)方法研究自然語(yǔ)言
計(jì)算機(jī)是根據(jù)人們給它編制的程序進(jìn)行工作的。計(jì)算機(jī)沒(méi)有思維能力,它所能做的就是執(zhí)行命令,而且所有的指令都必須是精確的信息,它無(wú)法直接接受自然語(yǔ)言的指揮。于是,建立一種“一是一,二是二”的形式化的語(yǔ)言就成為人機(jī)溝通的必要途徑。也就是說(shuō),計(jì)算機(jī)在加工語(yǔ)言信息時(shí)首要的一條是要求語(yǔ)言形式化,只有形式化才能算法化、自動(dòng)化。語(yǔ)言研究的形式化就是用數(shù)學(xué)或形式邏輯的方法來(lái)研究語(yǔ)言,即用符號(hào)、公式把紛繁復(fù)雜的具體的語(yǔ)言現(xiàn)象抽象化、概念化,然后把這種研究成果編成計(jì)算機(jī)可以識(shí)別的規(guī)則。
漢語(yǔ)的形式化研究任重而道遠(yuǎn)。我們現(xiàn)在對(duì)漢語(yǔ)的研究還很不深入,很不透徹,對(duì)自己語(yǔ)言的認(rèn)知、理解還缺乏精細(xì)的刻畫,所以我們距離漢語(yǔ)形式化的描寫、距離計(jì)算機(jī)對(duì)漢語(yǔ)理解的真正實(shí)現(xiàn)還有一段相當(dāng)遙遠(yuǎn)的路程,這有待于計(jì)算機(jī)技術(shù)的進(jìn)一步提高,但最主要的還是語(yǔ)言本體研究的問(wèn)題。
3.2 自然語(yǔ)言處理與英語(yǔ)詞類
3.2.1 英語(yǔ)詞類在自然語(yǔ)言處理中的問(wèn)題
在英語(yǔ)中,大多數(shù)單詞都沒(méi)有歧義,所以在自然語(yǔ)言處理中通常只有一個(gè)單獨(dú)的標(biāo)記。但在最常用的英語(yǔ)單詞中很多都是有歧義的。例如,can可以做助動(dòng)詞,表示“能夠”,相當(dāng)于英語(yǔ)中的“be able to”;也可以充當(dāng)名詞,表示“罐頭”,相當(dāng)于英語(yǔ)中的“a metal container”;也可以充當(dāng)動(dòng)詞,表示“把某物裝進(jìn)罐頭中”,相當(dāng)于英語(yǔ)中的“to put something in a metal container”。詞類標(biāo)注主要是對(duì)于兼類詞進(jìn)行消歧。兼類詞的判定實(shí)際上是在詞匯中進(jìn)行詞類的消歧,兼類詞的消歧是英語(yǔ)自動(dòng)分析中必須認(rèn)真對(duì)待的問(wèn)題[13]。
3.2.2 兼類詞的排歧
英語(yǔ)詞類在自然語(yǔ)言處理中最主要的問(wèn)題就是兼類詞的排歧。兼類詞的排歧主要有三種方法:
1)從形態(tài)上進(jìn)行排歧。英語(yǔ)是具有豐富形態(tài)變化的語(yǔ)言,所以英語(yǔ)中各類詞的形態(tài)變化不盡相同,對(duì)于發(fā)生了形態(tài)變化的兼類詞,可以通過(guò)形態(tài)變化方式來(lái)判定它們所屬的詞類。例如,list兼有動(dòng)詞和名詞兩種詞性。但在例句:I have listed all the contents中,listed是過(guò)去分詞形式,而名詞list不可能有這樣的變化形式,因此斷定此時(shí)的listed是動(dòng)詞,詞義表示“列出”,而不是表示詞義“目錄、名單”等名詞。
2)按照上下文所提供的語(yǔ)境進(jìn)行排歧。所謂詞的上下文就是指詞的分布。詞的分布是一種廣義的形態(tài),可以反映詞的句法功能。在英語(yǔ)中,名詞前可以出現(xiàn)數(shù)詞、形容詞、限定詞,由此分布語(yǔ)境可以判定動(dòng)詞-名詞兼類詞是名詞;在英語(yǔ)中,動(dòng)詞前可以出現(xiàn)助動(dòng)詞,據(jù)此可以判斷助動(dòng)詞后面的動(dòng)詞-名詞兼類詞是動(dòng)詞。在英語(yǔ)中,形容詞前可以出現(xiàn)副詞,而名詞前面不能出現(xiàn)副詞,根據(jù)這樣的分布可以判定形容詞和名詞的兼類詞情況。
3)按照語(yǔ)義進(jìn)行排歧。詞與詞之間的搭配關(guān)系從本質(zhì)上來(lái)講是存在著一定的優(yōu)先序列關(guān)系的。例如,在及物動(dòng)詞 make(制作)之后是 list時(shí),由于make之后一般為人或物(somebody or something),所以其后的作為動(dòng)詞-名詞兼類詞的list可以判定是名詞。
3.3 自然語(yǔ)言處理中漢英詞類差異的研究
3.3.1 漢英詞類的本質(zhì)差異
眾所周知,語(yǔ)言可以根據(jù)其詞匯形態(tài)特征分為孤立語(yǔ)、粘著語(yǔ)、屈折語(yǔ)和綜合語(yǔ)等4種主要類型。漢語(yǔ)是一種相當(dāng)接近于孤立語(yǔ)型的語(yǔ)言。從形態(tài)語(yǔ)與非形態(tài)語(yǔ)對(duì)立的角度來(lái)看,漢英詞類的語(yǔ)法功能是有很大差別的。一般說(shuō)來(lái),漢語(yǔ)語(yǔ)法關(guān)系主要是通過(guò)詞序和虛詞等手段表現(xiàn)的。英語(yǔ)主要是通過(guò)形態(tài)變化表現(xiàn)的;而在漢語(yǔ)中,則不存在嚴(yán)格意義上的形態(tài)變化,具體形態(tài)上的變化手段主要使用的是重疊。在漢語(yǔ)中大部分動(dòng)詞以及部分形容詞可以重疊。例如:看看、說(shuō)說(shuō)、圓圓、漂漂亮亮等。另外,指人的名詞一般可加“們”,表示復(fù)數(shù);動(dòng)詞能加“著”、“了”、“過(guò)”等。
與漢語(yǔ)相比,英語(yǔ)采用的主要語(yǔ)法手段有附加、內(nèi)部屈折和異根等,因?yàn)檫@些變化是在詞的內(nèi)部進(jìn)行的,通常稱之為形態(tài)變化。例如,英語(yǔ)中名詞的數(shù)、性、格,動(dòng)詞的時(shí)、體、態(tài),形容詞的比較級(jí)、最高級(jí)等,在表示不同語(yǔ)法意義時(shí)不是采用附加的方式就是采用內(nèi)部屈折或異根的方式(flower的復(fù)數(shù)是flowers,sleep的過(guò)去時(shí)slept,good的比較級(jí)better等)。與英語(yǔ)不同,漢語(yǔ)的動(dòng)詞、形容詞可以在不進(jìn)行任何形態(tài)變化的情況下放在主語(yǔ)或賓語(yǔ)的位置上。
雖然漢語(yǔ)和英語(yǔ)都利用前綴和后綴構(gòu)詞,但漢語(yǔ)的前綴和后綴規(guī)模小,數(shù)量少,而且種類不多,而英語(yǔ)無(wú)論是前綴還是后綴,都是規(guī)模大,數(shù)量多,種類齊全。形態(tài)構(gòu)詞在漢語(yǔ)中仍處于發(fā)展階段,具有較強(qiáng)的生命力,是漢語(yǔ)擴(kuò)充詞匯量的一種輔助手段。雖然目前利用這種構(gòu)詞法構(gòu)成的派生詞在整個(gè)詞匯中占的比例還不是很大,但有增長(zhǎng)的趨勢(shì)。英語(yǔ)的形態(tài)構(gòu)詞(詞綴法)是最能產(chǎn)的構(gòu)詞手段,是英語(yǔ)擴(kuò)充詞匯量的主要方式,通過(guò)這種方式構(gòu)成的詞在整個(gè)英語(yǔ)詞匯中占的比例很大。但是漢語(yǔ)形態(tài)構(gòu)詞法中引進(jìn)了句法關(guān)系,這是漢語(yǔ)形態(tài)構(gòu)詞的一大特點(diǎn),動(dòng)賓關(guān)系、動(dòng)補(bǔ)關(guān)系、并列關(guān)系、偏正關(guān)系和主謂關(guān)系都在這種構(gòu)詞法中得到了運(yùn)用。
3.3.2 自然語(yǔ)言處理中漢英詞類的差異
在自然語(yǔ)言處理中,鑒于英語(yǔ)單詞之間本身就有間隔,所以在自然語(yǔ)言處理中無(wú)需象漢語(yǔ)那樣進(jìn)行分詞。同時(shí),由于漢語(yǔ)屬于孤立語(yǔ),英語(yǔ)屬于屈折語(yǔ),漢英詞類之間的語(yǔ)法功能存在著很大的差別。英語(yǔ)主要是通過(guò)形態(tài)變化,而在漢語(yǔ)中則不存在嚴(yán)格意義上的形態(tài)變化。所以在詞性標(biāo)注中,相比漢語(yǔ)而言,英語(yǔ)在更多的情況下可以根據(jù)形態(tài)的諸多形式來(lái)進(jìn)行,其難度較漢語(yǔ)的要小得多。
3.4 漢語(yǔ)詞類劃分對(duì)中文信息處理的影響及發(fā)展走向
3.4.1 目前詞類劃分問(wèn)題對(duì)于中文信息處理的影響
目前,影響中文信息處理的詞類問(wèn)題的關(guān)鍵就是各家學(xué)派對(duì)于詞類劃分標(biāo)準(zhǔn)的觀點(diǎn)不一致,沒(méi)有統(tǒng)一的詞類劃分標(biāo)準(zhǔn)。
詞類和意義有著無(wú)法否認(rèn)的密切聯(lián)系。這種聯(lián)系主要表現(xiàn)在詞的語(yǔ)法功能類和意義類大體是一致的。通常情況下,名詞用來(lái)表示事物,動(dòng)詞用來(lái)表示動(dòng)作、行為、變化,形容詞用來(lái)表示性質(zhì)、狀態(tài)。但如果把意義作為該類詞的分類標(biāo)準(zhǔn)的話,卻不能反過(guò)來(lái)說(shuō)表示事物的詞是名詞,表示動(dòng)作、行為、變化的詞是動(dòng)詞,表示性質(zhì)、狀態(tài)的詞是形容詞。所以說(shuō)把詞的意義作為劃分詞類的標(biāo)準(zhǔn)是不可行的,詞的意義在必要時(shí)只是可以作為一種參考而已。
形態(tài)指詞的形態(tài)變化,即構(gòu)詞和構(gòu)形的語(yǔ)法形式。漢語(yǔ)是一種缺乏形態(tài)標(biāo)記的語(yǔ)言,所以在給漢語(yǔ)劃分詞類時(shí),單純依靠詞的形態(tài)劃分詞類是不符合漢語(yǔ)本身的特點(diǎn)的,是行不通的。形態(tài)在劃分詞類上可以作為參考項(xiàng),但不能作為主要評(píng)判標(biāo)準(zhǔn)。
朱德熙、陸儉明、邢福渝和胡明揚(yáng)都提出了劃分詞類根本上要依據(jù)句法標(biāo)準(zhǔn)。但事實(shí)上,完全依據(jù)詞的語(yǔ)法功能并不能窮盡地把詞類劃分出來(lái),例如“開外”、“見(jiàn)方”等詞。
漢語(yǔ)本身既缺乏形態(tài)標(biāo)記,又有諸多一詞多意等復(fù)雜現(xiàn)象,因此,所有的單標(biāo)準(zhǔn)詞類劃分方法都很難窮盡劃分漢語(yǔ)的詞類。邢福義先生在《詞類辯難》中認(rèn)為詞類要“根據(jù)詞的語(yǔ)法特點(diǎn),結(jié)合詞的意義”來(lái)劃分,提出在判別詞性時(shí)應(yīng)該考慮三方面因素:①詞的形態(tài);②組合能力;③造句功能;最后還可藝輔助參酌詞義。顯然,采用綜合標(biāo)準(zhǔn)可以窮盡劃分漢語(yǔ)詞類,但這對(duì)于中文信息處理的應(yīng)用無(wú)疑是有一定難度的。
就中文信息處理而言,漢語(yǔ)詞類劃分存在兩個(gè)嚴(yán)重的問(wèn)題:一是沒(méi)有統(tǒng)一的漢語(yǔ)詞類劃分標(biāo)準(zhǔn);二是漢語(yǔ)詞類劃分系統(tǒng)沒(méi)有劃分詞類最窮盡、而且最容易掌握和使用的漢語(yǔ)詞類劃分標(biāo)準(zhǔn)。
3.4.2 漢語(yǔ)詞類問(wèn)題發(fā)展方向
針對(duì)漢語(yǔ)詞類劃分中出現(xiàn)的問(wèn)題,要想結(jié)合中文信息處理技術(shù)就是要簡(jiǎn)化漢語(yǔ)詞類劃分問(wèn)題和方法,劃分的方法越簡(jiǎn)單越公式就越好,越是利于與計(jì)算機(jī)結(jié)合,越利于操作。根據(jù)我國(guó)目前詞類研究現(xiàn)狀,詞類劃分的主流還是要憑借功能形式來(lái)探求驗(yàn)證功能意義作為最根本的原則。語(yǔ)法功能是個(gè)語(yǔ)法范疇,而語(yǔ)法范疇都是語(yǔ)法意義和語(yǔ)法形式的統(tǒng)一,所以無(wú)論是句法功能、語(yǔ)義功能還是語(yǔ)用功能,它們都既含有意義又含有表現(xiàn)意義的形式。意義是隱層的、內(nèi)蘊(yùn)的,形式是表層的、外顯的。意義容易見(jiàn)仁見(jiàn)智,而形式比較顯豁,所以在給詞分類的時(shí)候,應(yīng)該更多地憑借形式去探求、驗(yàn)證。
在劃分詞類時(shí),還要注意分清一般規(guī)律和特殊現(xiàn)象,即要分清一個(gè)詞的一般功能和特殊功能以及特定情況下的臨時(shí)用法。就句法功能而言,在靜態(tài)語(yǔ)境下的功能是一般功能,在動(dòng)態(tài)語(yǔ)境下的功能在多數(shù)情況下跟一般功能一致,但有時(shí)也會(huì)出現(xiàn)跟一般功能不一致的情況。名詞的一般的句法功能是作主語(yǔ)和賓語(yǔ),在一定條件下作謂語(yǔ)就是特殊功能,如“淑女”、“香港”在一般情況下是名詞,可以做主語(yǔ)和賓語(yǔ),但在“她很淑女”、“他的發(fā)型很香港”中的“淑女”和“發(fā)型”是臨時(shí)用法,都臨時(shí)變成形容詞,從而可以與“很”結(jié)合充當(dāng)句子的謂語(yǔ)成分。當(dāng)然,詞的分類或定性應(yīng)當(dāng)根據(jù)詞的一般功能,而不是特殊功能和臨時(shí)用法。
3.4.3 關(guān)于詞類問(wèn)題研究的幾點(diǎn)拙見(jiàn)
1)根植于漢語(yǔ)語(yǔ)法事實(shí)。漢語(yǔ)語(yǔ)法研究始終都是圍繞漢語(yǔ)語(yǔ)法事實(shí)來(lái)進(jìn)行的。但有些漢語(yǔ)語(yǔ)法事實(shí)的重要現(xiàn)象至今仍未得到充分的觀察,有些漢語(yǔ)事實(shí)的本質(zhì)和客觀規(guī)律性至今仍未得到充分挖掘,因此對(duì)于詞類問(wèn)題的研究仍會(huì)出現(xiàn)這樣那樣難以解決的問(wèn)題。在今后的漢語(yǔ)語(yǔ)法研究中,我們?nèi)匀槐仨殘?jiān)持以漢語(yǔ)語(yǔ)法事實(shí)的客觀規(guī)律性作為漢語(yǔ)語(yǔ)法包括詞類在內(nèi)的根本原則以及最終目標(biāo)。
2)加強(qiáng)理論性思考及理論和事實(shí)的互證。在當(dāng)前發(fā)展日新月異的時(shí)代里,除了分析語(yǔ)法事實(shí),我們還需要發(fā)揚(yáng)創(chuàng)新精神,提出一些建設(shè)性的理論來(lái)。邢福義先生1997年1月在華中師范大學(xué)舉行的一次座談會(huì)上也認(rèn)為“中國(guó)語(yǔ)言學(xué)的發(fā)展已經(jīng)到了需要更多地進(jìn)行理論思考的階段?!币磺须x開了事實(shí)的理論都是灰色的。
3) 漢語(yǔ)特性和語(yǔ)言共性的有機(jī)結(jié)合。在現(xiàn)代漢語(yǔ)語(yǔ)法研究中一定要擺正漢語(yǔ)特性和語(yǔ)言共性的關(guān)系,決不要片面強(qiáng)調(diào)漢語(yǔ)的特性。簡(jiǎn)單搬用西方普通語(yǔ)言學(xué)理論來(lái)處理漢語(yǔ)是不可取的;但片面地強(qiáng)調(diào)漢語(yǔ)的特性,也是不可取的。徐烈炯先生指出“語(yǔ)言學(xué)就是語(yǔ)言學(xué)。如果還要提倡‘有中國(guó)特色的語(yǔ)言學(xué)’,在 21世紀(jì)就會(huì)落后于別人。[14]”
自 1999 年以來(lái) ,Intel、IBM、Microsoft、Motorola等國(guó)外大公司登陸并進(jìn)駐北京、上海等城市,設(shè)立中文信息處理研究機(jī)構(gòu),來(lái)爭(zhēng)奪中文信息處理的制高點(diǎn)。許嘉璐指出,現(xiàn)在必須有組織、有計(jì)劃地為漢語(yǔ)言學(xué)界和中文信息界搭起一座橋,使雙方在很大的范圍內(nèi)走到一起,不但一起解決當(dāng)前中文信息處理所遇到的語(yǔ)言學(xué)瓶頸問(wèn)題,而且促使語(yǔ)言學(xué)的研究更面向?qū)嶋H、面向現(xiàn)代化,進(jìn)而培養(yǎng)出一批高水平的跨學(xué)科人才。
中文信息處理研究和漢語(yǔ)本體研究?jī)烧咧g是密切相關(guān)、密不可分,并相互影響和相互促進(jìn)的。漢語(yǔ)本體研究成果是中文信息處理研究的前提條件和基礎(chǔ)工作,而中文信息處理研究過(guò)程中出現(xiàn)的問(wèn)題將引導(dǎo)或指導(dǎo)漢語(yǔ)本體研究進(jìn)行更加深入的研究。同時(shí),在自然語(yǔ)言處理中,英語(yǔ)詞類雖與漢語(yǔ)詞類有著很大的不同,但是仍然存在著很多共性。正是由于漢英語(yǔ)之間具有相似性,語(yǔ)言之間的翻譯才成為可能,在自然語(yǔ)言處理過(guò)程中才具有系統(tǒng)性。
[1]劉遷,賈惠波.中文信息處理中自動(dòng)分詞技術(shù)的研究與展望[J].計(jì)算機(jī)工程與應(yīng)用,2006(3):175-182.
[2]馬建忠.馬氏文通[M].北京:商務(wù)印書館,1998.
[3]黎錦熙.新著國(guó)語(yǔ)文法[M].北京:商務(wù)印書館,2000:15-16.
[4]呂叔湘.中國(guó)文法要略[M].北京:商務(wù)印書館,1982:16-18.
[5]王力.中國(guó)現(xiàn)代語(yǔ)法[M].北京:商務(wù)印書館,2000:17-18.
[6]朱德熙.語(yǔ)法講義[M].北京:商務(wù)印書館,1998.
[7]朱德熙.語(yǔ)法答問(wèn)[M].北京:商務(wù)印書館,2007.
[8]郭銳.現(xiàn)代漢語(yǔ)詞類研究[M].北京:商務(wù)印書館,2004:111-118.
[9]呂叔湘.漢語(yǔ)語(yǔ)法分析問(wèn)題[M].北京:商務(wù)印書館,2005:28.
[10]邢福義.邢福義學(xué)術(shù)論著選[G].武漢:華中師范大學(xué)出版社,1999:144.
[11]邢福義.詞類辯難[M].北京:商務(wù)印書館,2003.
[12]溫鎖林.從詞性標(biāo)注看小句的中樞地位[J].漢語(yǔ)學(xué)報(bào),2004(1):52-60.
[13]馮志偉.機(jī)器翻譯研究[M].北京:中國(guó)對(duì)外翻譯出版公司,2005:156.
[14]徐烈炯.語(yǔ)言學(xué)就是語(yǔ)言學(xué)[J].語(yǔ)言文字應(yīng)用,1998(1):7-8.
On Further Exploration of Category Divergence Between Modern Chinese and English from NLP
GUO Jianfang1,2
(1.School of Humanities and Social Sciences,North University of China,Taiyuan030051,China;2.Center for Language&Language Education,Central China Normal University,Wuhan430079,China)
From the perspective of Natural Language Processing,the author explores the criteria of modern Chinese,and makes a full analysis of interrelation and interaction between the study of Natural Language Processing and category in Chinese,in order that category divergence can be found.Therefore,some helpful suggestions can be proposed.
ontological language;natural language processing;interaction;category divergence
H313
A
10.3969/j.issn.1673-1646.2011.02.023
1673-1646(2011)02-0098-05
2010-09-19
國(guó)家社科基金資助項(xiàng)目:基于網(wǎng)絡(luò)媒體監(jiān)測(cè)語(yǔ)料庫(kù)(漢語(yǔ))的性別語(yǔ)言比較研究 (09BYY018)
郭建芳(1977-),女,講師,博士生,從事專業(yè):中外語(yǔ)言比較。