摘 要:詞性標(biāo)注是語言研究者進(jìn)行句法分析和其他研究的基礎(chǔ),其劃分是否得當(dāng)直接影響著語料庫的下一步建設(shè)。本文從句法分析實(shí)際操作的角度對國內(nèi)幾個(gè)常用分詞系統(tǒng)的詞性標(biāo)記問題進(jìn)行了對比分析,著重探討了其中一些標(biāo)記給句法標(biāo)注帶來的問題,如習(xí)用語和簡稱、前接成分和后接成分。針對這些問題,本文從實(shí)用的角度,在參考多方建議的基礎(chǔ)上,提出了相應(yīng)的標(biāo)注策略。
關(guān)鍵詞:詞性標(biāo)注 句法分析 習(xí)用語 詞綴 語素字
一、引言
對語料進(jìn)行詞性標(biāo)注,只是語料庫建設(shè)的初期階段,也是進(jìn)行下一步句法標(biāo)注的基礎(chǔ)。我們在對語料進(jìn)行句法標(biāo)注的過程中發(fā)現(xiàn),分詞系統(tǒng)中一些不恰當(dāng)?shù)脑~類標(biāo)記不僅影響到句法標(biāo)注的效率,也影響到標(biāo)注的準(zhǔn)確性和一致性。因此,本著節(jié)省人力、物力的原則,在綜合考慮詞類標(biāo)記對句法層面的影響之后,本文力圖在詞性標(biāo)注這一問題上提出更加科學(xué)的可行性建議,以促進(jìn)基于語料庫的進(jìn)一步的語言研究。
首先,分詞類別(或POS標(biāo)記)應(yīng)該在句法上有功能意義,例如名詞、動(dòng)詞等。不是從句法層面劃分出來的標(biāo)記即使標(biāo)示出來也無法在句法分析中進(jìn)行處理。
其次,在有意義的基礎(chǔ)上,需要把握一個(gè)度。在語料庫的標(biāo)注過程中,詞類劃分不宜過多或過少。詞類過少,對句法分析的深度和精度不夠,詞類過多,又會(huì)使語言分析和處理的過程太復(fù)雜,代價(jià)太高。那么,到底劃分多少詞類才能在句法層面達(dá)到自足呢?通過對世界上13種語言依存句法的考察表明,在進(jìn)行自動(dòng)句法分析時(shí),一種語言所劃分出的詞類數(shù)量一般應(yīng)當(dāng)控制在10~20之間。
本文針對兩個(gè)與句法有關(guān)的詞性標(biāo)注問題即習(xí)用語和簡稱、前接成分后接成分和語素字,對比了當(dāng)前國內(nèi)的幾個(gè)分詞標(biāo)注系統(tǒng)①,經(jīng)過綜合分析探討之后,提出了一些具有可行性的建議。
二、習(xí)用語和簡稱
關(guān)于習(xí)用語(也就是熟語)的界定,學(xué)術(shù)界的看法并不統(tǒng)一。黃伯榮的《現(xiàn)代漢語》對其做了界定:“熟語結(jié)構(gòu)上比較固定,功能上相當(dāng)于一個(gè)詞,包括成語、慣用語、歇后語等”。周薦則認(rèn)為習(xí)用語在功能上大于等于詞,它既指成語、慣用語、歇后語等詞匯單位,又指諺語、格言、警句等非詞匯單位。
簡稱和略語,國家語委的《信息處理用現(xiàn)代漢語詞類標(biāo)記集規(guī)范》中將其定義為“專有名詞或常用語的簡略表達(dá)形式”,并提到“簡稱和略語通常起名詞或區(qū)別詞的作用,少數(shù)有動(dòng)詞的作用”。
對比國內(nèi)現(xiàn)在通用的幾個(gè)分詞系統(tǒng)后,我們發(fā)現(xiàn),各系統(tǒng)在對習(xí)用語和簡稱標(biāo)記的處理上存在一定的差異。有幾個(gè)系統(tǒng)將習(xí)用語i(或慣用語l)和簡稱j下面分出了小類,標(biāo)記出了詞性,如分出了名詞性、動(dòng)詞性習(xí)用語,標(biāo)記為in、iv等;有的系統(tǒng)將成語和習(xí)用語分開,各給出一個(gè)標(biāo)記,但沒有再細(xì)分出詞性;有的則只分出習(xí)用語i(或慣用語l)和簡稱j兩類。
從語言信息處理的角度來看,分詞系統(tǒng)分出來的單位,應(yīng)該都在詞匯層面,這樣才能有利于進(jìn)一步的句法分析。如果分詞的結(jié)果既有用法與詞相當(dāng)?shù)膯挝?,又有不作任何句子成分而作為?dú)立語句出現(xiàn)的單位,這樣無論是在短語結(jié)構(gòu)語法下還是在依存句法下,都難以處理。因此,從自然語言信息處理的實(shí)用性原則出發(fā),可以認(rèn)為習(xí)用語包含兩部分,一部分是詞匯單位,其用法相當(dāng)于一個(gè)詞,如“葉公好龍”“簡而言之”這樣的成語或慣用語等,可按詞匯的方法來處理,內(nèi)部不再分析,另一部分是非詞匯單位,如格言、警句等,應(yīng)當(dāng)對其內(nèi)部單位進(jìn)行標(biāo)注,像普通句子一樣處理,而不應(yīng)將其整體劃為一個(gè)單位。
關(guān)于簡稱,從定義來看,它大體和習(xí)用語中的詞匯單位相當(dāng),這兩部分應(yīng)該做同樣的處理。習(xí)用語i、簡稱j這類標(biāo)記并不是按照語法功能劃分出來的,那么這種標(biāo)記對于進(jìn)一步的句法分析有什么影響呢?我們對哈工大信息檢索室的依存樹庫中習(xí)用語i的句法關(guān)系分布情況,進(jìn)行了統(tǒng)計(jì),結(jié)果如表1:
表1:依存樹庫中習(xí)用語i的句法關(guān)系分布
習(xí)用語做支配詞習(xí)用語從屬詞
句法關(guān)系出現(xiàn)次數(shù)占總數(shù)百分比句法關(guān)系出現(xiàn)次數(shù)占總數(shù)百分比
adv狀中結(jié)構(gòu)1828.93%sbv主謂關(guān)系38415.90%
att定中關(guān)系1648.05%vv連謂結(jié)構(gòu)1837.58%
coo并列關(guān)系1457.12%att定中關(guān)系24610.23%
de“的”字結(jié)構(gòu)33816.59%adv狀中結(jié)構(gòu)46519.25%
di“地”字結(jié)構(gòu)773.78%coo并列關(guān)系1375.67%
ic獨(dú)立分句1145.60%cnj關(guān)聯(lián)結(jié)構(gòu)構(gòu)321.33%
pob介賓關(guān)系502.45%ic獨(dú)立分句963.98%
sbv主謂關(guān)系1055.15%lad前附加關(guān)系311.28%
vob動(dòng)賓關(guān)系42120.67%其他84134.82%
vv連謂結(jié)構(gòu)1758.59%
cmp動(dòng)補(bǔ)結(jié)構(gòu)7<1%
dei“得”字結(jié)構(gòu)16<1%
is獨(dú)立結(jié)構(gòu)281.40%
其他21510.55%
由上表可以看出,習(xí)用語i展現(xiàn)出非常分散的句法關(guān)系分布,說明在句法層面不能籠統(tǒng)地將其視為一種詞類標(biāo)記,而應(yīng)根據(jù)語法功能進(jìn)行細(xì)分,給出功能性小類標(biāo)記(如in、iv等),否則,習(xí)用語的這種功能上的多樣性,會(huì)導(dǎo)致句法剖析器精度的下降,也不方便句法標(biāo)注者進(jìn)行標(biāo)注。
同樣,簡稱j也存在類似的問題,雖然簡稱大部分是名詞性的,句法關(guān)系上的分布相對習(xí)用語來說比較集中,但是鑒于簡稱j同樣不是句法層面的標(biāo)記,同樣會(huì)對標(biāo)注、研究工作造成一定的影響,我們建議簡稱和習(xí)用語一樣,按照句法功能進(jìn)行細(xì)分(如jn、jv)。
當(dāng)然,in、iv的細(xì)分造成了標(biāo)記的增加,雖然有利于語言學(xué)的研究,卻不利于機(jī)器學(xué)習(xí)和使用。因此,我們需根據(jù)研究目的來進(jìn)行取舍。對于這個(gè)問題,可以將這樣的詞進(jìn)行雙層標(biāo)記,即先給出詞性標(biāo)記(如n、v、a等)為下一步句法標(biāo)注做準(zhǔn)備,進(jìn)而再給出詞匯范疇標(biāo)記(如習(xí)用語i、簡稱j等)以滿足多層次語言研究的需要(如“畢恭畢敬/a/i”),這樣不失為一種好的解決方案。
三、前接成分后接成分和語素字
前接成分、后接成分,即前綴、后綴。在黃伯榮、廖序東的《現(xiàn)代漢語》中,對詞綴下了定義:“有一類不成詞語素同別的語素組合成詞時(shí),位置是固定的,只表示一些附加的意義,又叫詞綴。”
《中學(xué)教學(xué)語法系統(tǒng)提要(試用)》認(rèn)為:“語素是小的語音語義結(jié)合體,是最小的語法單位?!边@是一個(gè)集眾家意見,能為最大多數(shù)人接受的語素定義。
在對國內(nèi)現(xiàn)在幾個(gè)分詞系統(tǒng)作對比后,我們發(fā)現(xiàn),有的系統(tǒng)將語素字非語素字列入標(biāo)記集,有的系統(tǒng)則沒有,還有的系統(tǒng)在語素字大類下劃分名詞性語素、動(dòng)詞性語素、形容詞性語素、時(shí)語素、副語素等小類。多數(shù)系統(tǒng)作了前接成分(前綴)、后接成分(后綴)的劃分,還有的進(jìn)一步在大類下區(qū)分名前接成分、數(shù)前接成分、名后接成分、動(dòng)后接成分。
從定義可知,語素字非語素字和前接成分后接成分這些概念,并不是按照語法功能劃分出來的,不屬于詞層面,而是屬于構(gòu)詞法層面。如果在詞層面的集合中摻雜了語素成分,則不利于進(jìn)一步的句法分析。
那么各大系統(tǒng)將語素字非語素字作為切分單位的原因是什么呢?我們發(fā)現(xiàn),在系統(tǒng)自動(dòng)分詞的處理過程中,將語素和非語素字作為切分單位,主要包含兩種情況:一,某些雙音節(jié)離合詞分開使用時(shí);二,單字名詞或名詞性語素后接單純方位詞。其中,第二種情況的劃分,實(shí)質(zhì)未在最終切分結(jié)果中體現(xiàn)語素字,只是將語素字的標(biāo)記作為合成處所詞或時(shí)間詞的一個(gè)中間步驟,不會(huì)對句法分析造成影響。而第一種情況,則因?yàn)樵谧罱K切分結(jié)果中包含語素字這個(gè)非詞單位,給句法分析造成了困擾。
那么如何處理涉及離合詞標(biāo)注的語素字問題?目前主要有兩種做法:其一,也是目前有些系統(tǒng)采用的方法,即進(jìn)行小類區(qū)分,將語素字分為名詞性語素、動(dòng)詞性語素、形容詞性語素等;其二,對離合詞進(jìn)行標(biāo)注。
對于第一種處理方法,靳光瑾等提出:“所以必須按照語法功能進(jìn)行細(xì)分,給出功能性小類標(biāo)記,以方便后續(xù)的自動(dòng)句法分析?;谶@種想法,我們采納了專家們的意見,對縮略語、習(xí)用語、語素字等都給出了小類標(biāo)記?!?/p>
王春霞主張?jiān)谧匀徽Z言處理中標(biāo)注離合詞。認(rèn)為許多語素孤立地來看是多義的,但在離合詞里其意義是確定的,而且常常需要從整體上來理解離合詞的意義。在王春霞的研究中,封閉測試和開放測試的結(jié)果顯示,標(biāo)注召回率達(dá)到98.27%,正確率達(dá)到81.74%,這說明,離合詞的標(biāo)注是有可行性的。對比以上兩種做法,我們傾向于對離合詞進(jìn)行標(biāo)注,這樣可以不必增加標(biāo)記數(shù)量,更利于句法分析。
在處理前接成分后接成分時(shí),以A系統(tǒng)為例,是以與前后接成分結(jié)合的成分的長短為標(biāo)準(zhǔn)來決定是否獨(dú)立劃分前后接成分的。前接成分以“非”為例,當(dāng)“非”管轄的范圍在一個(gè)詞內(nèi)的時(shí)候,按具體情況組成名詞、專有名詞等,而一旦“非”所管轄的范圍超過一個(gè)詞,則仍然切分開,如“非國家工作人員”被處理成“非/h國家/n工作/vn人員/n”,這里的“非”作為前接成分標(biāo)記為“h”。后接成分以“者”為例,當(dāng)“者”前面為較短的詞或短語時(shí),它和前面的詞一起合成一個(gè)切分單位,標(biāo)注為n,“者”前面為較長的短語或句子時(shí),分開來,標(biāo)注為k,如“經(jīng)過苦苦追求而獲得幸福者”被處理為“經(jīng)過/p苦苦/d追求/v而/c獲得/v幸福/a者/k”,這里的“者”作為后接成分標(biāo)記為“k”。
當(dāng)前后接成分所附著的成分超過兩個(gè),確實(shí)可以劃分開時(shí),能夠進(jìn)行句法分析,只是如上切分出來的“h”和“k”,只是構(gòu)詞成分,并不屬于詞層面,無法進(jìn)行句法分析,所以應(yīng)該另尋一種處理方式。從信息分析處理的角度看,可以提升“非”“者”等前后接成分的地位,將其切分為形容詞或名詞,如把“非國家工作人員”處理為“非/a國家/n工作/vn人員/n”,“經(jīng)過苦苦追求而獲得幸福者”處理為“經(jīng)過/p苦苦/d追求/v而/c獲得/v幸福/a者/n”。
四、結(jié)語
本文從句法分析實(shí)際操作的角度對分詞系統(tǒng)進(jìn)行了分析探討,并提出了一些意見和解決方案,希望能對語料庫的建設(shè)有所幫助。首先,從句法分析的可操作角度講,分詞結(jié)果必須是從句法層面劃分出來的單位。因此,我們建議將習(xí)用語中的詞匯單位和簡稱按句法功能細(xì)分,給出in、iv、jn、jv之類的小類。習(xí)用語中的非詞匯單位按普通句子處理。前接成分、后接成分我們建議將其和中心成分劃為一個(gè)整體單位,在中心詞可以分析的時(shí)候?qū)⑶昂蠼映煞值匚惶嵘?,按詞性標(biāo)注。去掉語素字和非語素字的標(biāo)記,在出現(xiàn)離合詞的時(shí)候?qū)㈦x合詞單獨(dú)標(biāo)記,而不再標(biāo)出語素。第二,從語料庫工程建設(shè)的角度講,我們堅(jiān)持經(jīng)濟(jì)省力原則,對于不必要的詞類標(biāo)記建議能簡則簡。對于兼類詞,除少數(shù)名詞活用之外,應(yīng)嚴(yán)格按功能區(qū)分詞性,將其劃到各個(gè)詞類之中。而對于區(qū)別詞、狀態(tài)詞,我們建議不再和形容詞區(qū)分開來。
(本文受中國傳媒大學(xué)“211工程”三期重點(diǎn)學(xué)科建設(shè)項(xiàng)目支持,項(xiàng)目名稱為“漢語有聲媒體語言依存句法樹庫構(gòu)建與應(yīng)用研究?!?
注 釋:
①A系統(tǒng):北京大學(xué)現(xiàn)代漢語語料庫加工規(guī)范,中文信息學(xué)報(bào),16
卷第5期;B系統(tǒng):國家語言文字應(yīng)用研究所計(jì)算語言學(xué)研究室,信息處理用現(xiàn)代漢語詞類標(biāo)記集規(guī)范,語言文字應(yīng)用,2001年8月(3);C系統(tǒng):哈工大信息檢索研究室漢語依存樹庫;D系統(tǒng):中科院計(jì)算所漢語詞性標(biāo)記集
參考文獻(xiàn):
[1]郭銳.現(xiàn)代漢語詞類研究[M].北京:商務(wù)印書館,2002.
[2]Liu, Haitao Huang, Wei. A Chinese Dependency Syntax
for Treebanking. Proceedings of the 20th Pacific Asia Conference on Language, Information and Computation[Z].Beijing: Tsinghua University Press,2006.
[3]黃伯榮,廖序東.現(xiàn)代漢語[M].北京:高等教育出版社,2002.
[4]周薦.熟語的典型性與非典型性[J].語文研究,1994,(3).
[5]安娜,劉海濤,侯敏.語料庫中熟語的標(biāo)記問題[J].中文信息學(xué)
報(bào),2004,(1).
[6]謝承志.語素定義中的偏頗[J].上海師范大學(xué)學(xué)報(bào),1997,(4).
[7]靳光瑾,郭曙綸,肖航,章云帆.語料庫加工中的規(guī)范問題——
談《信息處理用現(xiàn)代漢語詞類標(biāo)記集規(guī)范》[J].語言文字應(yīng)用,2003,(4).
[8]王春霞.基于語料庫的離合詞研究[D].北京:北京語言大學(xué),2001.
(牛雅嫻 劉丙麗 萬紅雅 董藝 北京 中國傳媒大學(xué)應(yīng)用語言學(xué)研究所 100024)