周衛(wèi)華,胡家全
(1.三峽大學文學與傳媒學院,湖北宜昌 443002;2.荊楚理工學院,湖北荊門 448000)
中文信息處理中離合詞的處理策略
周衛(wèi)華1,胡家全2
(1.三峽大學文學與傳媒學院,湖北宜昌 443002;2.荊楚理工學院,湖北荊門 448000)
離合詞是現(xiàn)代漢語中一種特殊的語言現(xiàn)象。文章對動賓式和并列式離合詞的擴展形式進行了細致的描寫,并分析了這兩類離合詞的擴展形式的特點,認為動賓式和并列式離合詞的擴展形式不同于典型的動賓結(jié)構(gòu),在中文信息處理系統(tǒng)中,應該建立離合詞詞庫,對離合詞的擴展形式做出專門的符號標注。
中文信息處理; 離合詞
漢語中有這樣一種較為特殊的語言現(xiàn)象:對于一個AB組合,從靜態(tài)的角度看,一般由A、B兩個成分構(gòu)成,在形式和結(jié)構(gòu)上和復合詞是一致的;從動態(tài)的角度看,當該組合進入一定具體語言環(huán)境后,它們既可以獨立使用,又可以在中間插入其他成分,其用法和短語極為相似。
對于這種既可“離”又可“合”的語言現(xiàn)象,較早就引起漢語學界的關(guān)注,很多學者都對這一現(xiàn)象做過研究。陸志韋先生在《漢語的構(gòu)詞法》中最早提出“離合詞”這一說法[1]。他認為,動賓結(jié)構(gòu)的合成詞,如能擴展,在未擴展時是一個單詞,擴展后,至少是兩個詞,因此這種詞稱為“離合詞”。
離合詞到底是詞還是短語?學界對此問題存在不同的看法,比如王力稱為“仂語”[2]10、林漢達稱為“結(jié)合動詞”[3]、趙元任稱為“離子化”[4]等。歸納起來也就是三種主要的觀點:詞、短語、離合詞。此外,也有少數(shù)學者把離合詞看作是一個連續(xù)統(tǒng),將離合詞看作是詞和短語的中間狀態(tài)。
漢語中像“撒謊”這樣既可“離”又可“合”的語法單位,究竟是應該看作詞比較合理,還是看作短語比較合理呢?我們認為,各家之說都有其合理之處。正如邢福義先生所說:“不管用什么辦法來解釋有關(guān)事實,不同的人在處理上總難免出現(xiàn)分歧。在各抒己見的情況下,可以認為各種處理都對。事實上,各種處理都不影響對構(gòu)成成分間關(guān)系的認識?!保?]2-3
離合詞作為漢語中一種特殊的語法現(xiàn)象,在語言應用領(lǐng)域較早就引起了從事對外漢語教學工作的研究人員的關(guān)注,近些年,在中文信息處理領(lǐng)域也受到重視。在中文信息處理領(lǐng)域,我們更多的是需要關(guān)注這類現(xiàn)象在句法和語義上有哪些特點,相應地應該采取什么樣的處理策略。
我們認為,如果一個組合AB,既可以作為一個詞單獨使用,也可以在它中間插入其他成分而被分離,但被分離后仍然是一個整體,而且所表達的基本語義也具有凝固性,只能從整體上去理解其意義,這樣的組合就是離合詞。比如:
(1)我們沒時間與加木措見面,其實也沒這必要。(池莉《讓夢穿越你的心》)
(2)自從我爸爸一當“右派”,我沒見過媽媽的面。(鮑昌《芨芨草》)
在例(1)中,“見面”作動詞單獨使用,表示“彼此對面相見”的意思;在例(2)中,“見面”中間插入了其他成分,在形式上看起來是一個短語,但實際上在語義上還是具有整體性,仍然是“見面”這個詞語所包含的意思,不像動賓短語“吃糖、喝酒、喝茶”的意義是組合成分在意義上的自相組合。我們可以比較:
從例(3)中可以看出,離合詞中間插入其他成分后,盡管從形式上看起來和典型的動賓短語是一樣的,但實質(zhì)上二者還是有所區(qū)別。離合詞中間插入其他成分后仍然只能作為一個整體使用。比如例(3)中,“見過媽媽的面”是一個離合詞的擴展形式,它不能用于“把”字句、“被”字句,賓語也不能前移;相反,“吃了媽媽的糖”就可以用于“把”字句、“被”字句,賓語也可以前移。呂叔湘先生曾說過,“有些組合只有單一的意義,難于把這個意義分割開來交給這個組合的成分”[6]22。呂叔湘先生所說的情況就是離合詞擴展后在意思上具有整體性,不像一般動賓短語是組合成分意義的自相組合。
我們認為離合詞單獨使用時是一個詞,但它又可以擴展使用,所以是一種特殊的詞,在中文信息處理中,應該采取特殊的處理策略。
1.可插入助詞“著、了、過”
本文對《現(xiàn)代漢語詞典》(第5版)的2281個動賓式和并列式離合詞進行了考察,約有1938個中間能插入“了”,約占85%;能插入“過”的約有1551個,約占67%;能插入“著”的約有433個,約占19%。這說明離合詞中間插入“了”和“過”是動賓式和并列式離合詞較為常見的擴展方式之一。
2.可插入補語
很多動賓式和并列式離合詞中間能插入時量、動量、結(jié)果、趨向等補語,形成“動詞+補語+賓語”結(jié)構(gòu)。一部分離合詞能插入時量或動量補語,用于補充說明動詞持續(xù)的時間或動作的次數(shù)。比如:說了一會兒話、游了一天泳、洗過三次澡。根據(jù)對語料的考察,能夠插入時量補語和動量補語的離合詞不是很多,在2281個動賓式和并列式離合詞中,大約只有10%左右的離合詞可以插入這兩種補語。
有些離合詞中間能插入結(jié)果補語,表示動作行為的結(jié)果。插入離合詞中間的結(jié)果補語一般由單音節(jié)動詞或形容詞充當。比如:辦完事、放開手、纏住手。離合詞中間插入結(jié)果補語的用例比較少,而且不同的離合詞可以插入哪些補語,也沒有一定規(guī)律性,屬于離合詞的個體特征。
有些離合詞中間可以插入趨向補語。趨向補語一般由趨向動詞充當,趨向動詞既可以是單音節(jié)的趨向動詞,也可以是復合趨向動詞。如果趨向補語是單音節(jié)趨向動詞,就可以直接插入離合詞中間。比如:放下心、標上價、落下了幕。如果趨向補語是復合趨向動詞,它就不能直接插入離合詞中間,一般都是把離合詞的后一個成分放在復合趨向動詞中間。比如:跑起步來、說起話來、放出風來。
有些離合詞中間可以插入“得”和“不”,在插入“得”和“不”的同時,一般還要插入其他成分,用于表示可能或不可能。比如:使得/不上勁、放得/不下心。
3.可插入定語
根據(jù)對語料的觀察,在動賓式和并列式離合詞中間插入一個數(shù)量短語、代詞、名詞、形容詞等,作離合詞后一個語素的定語的用例比較多。離合詞中間插入定語主要有以下幾種類型。
第一,插入數(shù)量短語作定語。由于大多數(shù)動賓式離合詞的后一個構(gòu)成成分一般都是名詞或名語素,即使后一個成分不是名詞或名語素,擴展后也因為動賓結(jié)構(gòu)的類化作用而被名詞化,所以動賓式離合詞可以擴展成為一個動賓結(jié)構(gòu)的短語。少數(shù)并列式離合詞都可以按照“動+X+賓”的插入離析形式強制成為動賓格式。一般名詞都能受數(shù)量短語的修飾,所以動賓式和并列式離合詞中間插入數(shù)量短語的可能性就大大增強。比如:說幾句話、開一個價、看一個相、撒一個謊、唱一臺戲。
第二,插入名詞或代詞作定語。有些離合詞中間能插入名詞或人稱代詞充當定語。一般情況下,名詞或人稱代詞后面都要添加助詞“的”。比如:握領(lǐng)導的手、幫你的忙。有一些離合詞中間可以插入指示代詞作定語。比如:我還從來沒吃過這種虧、我敢跟你打這個賭。還有些離合詞中間可以插入疑問代詞“什么”。插入疑問代詞“什么”后,句子主要用于表示一種否定、不滿或反問的語氣。比如:
(4)抹什么黑呀?我看這很好嘛。(《編輯部的故事·侵權(quán)之爭(上)》)
(5)你著什么急呀!什么也看不清。就看一月亮,還模模糊糊的。(同上)
第三,插入形容詞作定語。有一部分離合詞中間可以插入單音節(jié)形容詞作定語。比如:出大力、吃大苦、打硬仗。根據(jù)對語料的考察,離合詞中插入單音節(jié)形容詞作定語的用例不多,插入的單音節(jié)形容詞中,“大”的使用頻率最高。
4.部分離合詞可重疊
根據(jù)對語料的考察,有一部分離合詞可以重疊,但其重疊方式比較特殊,只重疊前一個構(gòu)成成分。一些離合詞的前一個構(gòu)成成分,可以按照VV、V一V、V了V的方式重疊,在這三種重疊方式中前兩種方式使用頻率較高。比如:談談心、打一打雜、點了點頭。
還有一些離合詞可以重疊前一個構(gòu)成成分,并且在重疊成分中插入“不∕沒”。比如:生不生氣、生沒生氣。值得注意的是,有些離合詞中間,可以同時插入多種句法成分,前面討論的表示時體的助詞、補語、定語等可以同時插入一個離合詞中間。比如:吃了一次大虧、洗了三次熱水澡。
5.離合詞的幾種主要擴展形式
通過上文的分析可以看出,動賓式和并列式離合詞中間可以插入不同的句法成分,可以有多種擴展方式。現(xiàn)將常見的擴展形式歸納為以下幾種主要類型:
A.V+著/了/過 +O
B.V+補語+O
C.V+定語+O
D.V+著、了、過/補語/定語 +O
E.V+補語/了、過/定語 +O
F.V+不/得 +補語/了、過/定語 +O
G.V+一/了/不/沒 +V+O
H.V+什么+O
1.確定離合詞的數(shù)量
離合詞是漢語特有的一種語言現(xiàn)象,我們把它的擴展用法歸為邊緣語法,可以為其建立一個詞庫。在建立詞庫之前,需要確定離合詞的數(shù)量。確定離合詞的數(shù)量既可以避免離合詞詞庫的容量過大,同時也可以有效地區(qū)分離合詞的擴展形式和典型的短語結(jié)構(gòu)。因為離合詞和短語是一個連續(xù)統(tǒng),漢語語法界對離合詞的確認還存在著爭議。
我們以《現(xiàn)代漢語詞典》(第5版)中標注的離合詞作為依據(jù),在離合詞詞庫中只收錄動賓式和并列式離合詞,大約有3千條左右。
2.離合詞擴展形式的描寫
動賓式和并列式離合詞只有3千條左右,它們在漢語詞匯中所占的比例并不是很大,但其在中文信息處理中卻較為重要,需要單獨進行處理。從中文信息處理的角度來看,由于離合詞的擴展形式是一種邊緣語法現(xiàn)象,其數(shù)量不是很大,而且每個離合詞的擴展形式又各有其特點,宜于建立一個詞庫。
由于離合詞的擴展形式有限,而且每個詞中間可以插入的成分各不相同,在離合詞詞庫中,首先就需要根據(jù)上文總結(jié)出來A-H八種擴展形式,對每個離合詞有可能的擴展形式做出標注,然后對其擴展成分的詞類做出具體描寫。傅愛平認為,在離合詞構(gòu)詞規(guī)則的條件部分應該標明離合詞擴展形式和擴展參數(shù)[7]7-13。用個性規(guī)則和共性規(guī)則配合的方法,就有可能在識別離合詞時解決一部分構(gòu)詞和句法交錯的問題。本文通過對2281個動賓式和并列式離合詞的研究,總結(jié)出以下幾種擴展形式及參數(shù)。
A.V+u+O:u={了,過}
B.V+補語 +O:補語={m+q,v:={到}}
C.V+定語 +O:定語={m+q,m,q,n+u:= {的},r+u:={的}}
D.V+u/補語/定語 +O:u={了;過};補語= {m+q};定語={m+q,m,q,n+u:={的},r+u:= {的}}
E.V+補語/u/定語 +O:補語={v:={到,上}};u={了};定語={m+q,m,n+u:={的},r+ u:={的}}
F.V+d/u+補語/u/定語 +O:d={不};u= {得,了,過};補語={v:={到,上}};定語={m+q,m,q,n+u:={的},r+u:={的}}
G.V+m/u/d+V+O:m={一};u={了};d ={不,沒}
H.V+r+O:r={什么}
如果我們建立一個離合詞詞庫,對其中的每一個離合詞都按照一定的方式進行描寫,那么,在識別單音節(jié)動詞和名詞賓語構(gòu)成的動賓短語時,就可以把離合詞的擴展形式構(gòu)成的特殊動賓短語排除,有利于對有多個義項的單音節(jié)動詞進行詞義排歧,也有利于機器翻譯時從整體上理解離合詞擴展形式的意義。
建立了一個離合詞詞庫,并在詞庫中將每個離合詞的擴展形式都做詳細的描寫,在對文本進行分詞和詞性標注時,可以利用詞庫中的信息,將離合詞的擴展形式標注出來。一個語料庫對離合詞的擴展形式做出標注,可以很大的程度上提高后續(xù)分析的效率。
[1] 陸志韋.漢語構(gòu)詞法[M].北京:科學出版社,1957.
[2] 王 力.中國現(xiàn)代語法[M].北京:商務印書館,1985.
[3] 林漢達.動詞的連寫問題[J].中國語文,1950(10).
[4] 趙元任.漢語口語語法[M].北京:商務印書館,1979.
[5] 邢福義.漢語語法學[M].長春:東北師范大學出版社,1996.
[6] 呂叔湘.漢語語法分析問題[M].北京:商務印書館,1979.
[7] 傅愛平.漢英機器翻譯源語分析中詞的識別[J].中文信息學報,1999(5).
[責任編輯:楊 勇]
H 136.5
A
1672-6219(2010)06-0039-03
2010-06-25
周衛(wèi)華(1970-),男,湖北宜昌人,三峽大學文學與傳媒學院副教授,博士,主要從事語言學及應用語言學研究。