李 瓊,李 志
(華中師范大學(xué)國(guó)際文化交流學(xué)院,武漢430079)
基于詞性信息自動(dòng)識(shí)別和標(biāo)注非分句
李 瓊,李 志
(華中師范大學(xué)國(guó)際文化交流學(xué)院,武漢430079)
在完成自動(dòng)分詞和詞性標(biāo)注工作的基礎(chǔ)上,進(jìn)行分句層次和關(guān)系的自動(dòng)劃分和標(biāo)注,以期建設(shè)一個(gè)面向中文信息處理的大規(guī)模復(fù)句“精加工”語(yǔ)料庫(kù)。可以利用詞性信息制定一系列規(guī)則去實(shí)現(xiàn)部分非分句的自動(dòng)識(shí)別和標(biāo)注,同時(shí)建設(shè)一個(gè)短語(yǔ)庫(kù),把短語(yǔ)語(yǔ)言片段收錄其中。
詞性;短語(yǔ)庫(kù);詞性標(biāo)注
同屬于一類的詞往往呈現(xiàn)出諸多相同的語(yǔ)法屬性,因此詞性對(duì)于語(yǔ)言信息處理是最便于應(yīng)用的。詞性標(biāo)注也成為語(yǔ)法分析和大規(guī)模語(yǔ)料庫(kù)深加工的必要步驟,是后續(xù)的句法分析、語(yǔ)義分析和語(yǔ)境分析的基礎(chǔ)。目前,由華中師范大學(xué)語(yǔ)言研究所設(shè)計(jì)開(kāi)發(fā)的現(xiàn)代漢語(yǔ)復(fù)句語(yǔ)料庫(kù),包括摘自《人民日?qǐng)?bào)》、《長(zhǎng)江日?qǐng)?bào)》等各種報(bào)紙、雜志和小說(shuō)的65萬(wàn)個(gè)復(fù)句,已基本完成了自動(dòng)分詞和詞性標(biāo)注,這是一切后續(xù)工作的重要基礎(chǔ)。今天,面對(duì)自然語(yǔ)言的計(jì)算機(jī)處理形勢(shì),對(duì)詞性進(jìn)行標(biāo)注更有多種意義:為更高層次的自然語(yǔ)言文本加工提供素材;為語(yǔ)言學(xué)的研究,提供翔實(shí)的資料;從加工過(guò)的文本中獲取詞類及頻度的詞性標(biāo)注知識(shí)等。
詞性是詞在語(yǔ)法意義上的性別,它表示詞所屬的類別;而語(yǔ)法上的詞類正好就是根據(jù)詞的語(yǔ)法特征,包括詞的形態(tài)、組合能力、造句功能三方面表現(xiàn)出來(lái)的特征,劃分出來(lái)的。不過(guò)對(duì)不同的語(yǔ)言來(lái)說(shuō),這三方面的特征在劃分詞類時(shí)所起的作用并不一樣。給漢語(yǔ)的詞分類,主要應(yīng)根據(jù)詞的組合能力和造句功能,特別是組合能力。反過(guò)來(lái)說(shuō),筆者認(rèn)為一旦把詞語(yǔ)歸入了某個(gè)特定的類別,就好像給這個(gè)詞貼上了標(biāo)簽,它就至少應(yīng)該表現(xiàn)出這類詞所共有的典型組合能力和造句功能。比方說(shuō),根據(jù)能受表示物量的數(shù)量短語(yǔ)修飾、不能受副詞修飾等語(yǔ)法特征把“老師”這個(gè)詞歸入名詞類;而一旦“老師”的詞性被標(biāo)為名詞n后,它就表現(xiàn)出可以作主賓語(yǔ)、一般不能作謂語(yǔ)、可以有條件地充當(dāng)定語(yǔ)等句法功能。正是在這個(gè)基礎(chǔ)上,又由于65萬(wàn)復(fù)句語(yǔ)料庫(kù)已基本完成了詞性標(biāo)注的工作,所以在這一階段可以利用標(biāo)注的詞性信息對(duì)語(yǔ)料庫(kù)中的一部分非分句語(yǔ)言片段實(shí)現(xiàn)自動(dòng)識(shí)別。
當(dāng)然,有些語(yǔ)言片段本身就是一個(gè)詞,如連詞、副詞等經(jīng)常單獨(dú)充當(dāng)一個(gè)語(yǔ)言片段,這樣的語(yǔ)言片段就更可以在詞性標(biāo)注的時(shí)候解決了。
目前在語(yǔ)料的信息屬性標(biāo)注方面,最重要的工作是詞性標(biāo)注,就是標(biāo)明詞的語(yǔ)法范疇和功能類別。在筆者看來(lái),一個(gè)詞的詞類屬性,僅僅是該詞一個(gè)比較重要的功能值而已。給詞定一個(gè)詞性,不是自然語(yǔ)言處理的最終目的;詞性只是分析的手段之一。
如果在詞性標(biāo)注階段能夠多解決一些問(wèn)題,相信會(huì)為后面的非分句自動(dòng)識(shí)別工作提供更多的信息。為此,筆者在北京大學(xué)計(jì)算語(yǔ)言研究所研制的詞性標(biāo)注體系的基礎(chǔ)上,針對(duì)本項(xiàng)研究的實(shí)際情況對(duì)一部分詞性的標(biāo)注工作進(jìn)行了適量調(diào)整。具體說(shuō)明如下:
1.把人名、地名、機(jī)構(gòu)團(tuán)體和其他專名從一般名詞中分離出來(lái),單獨(dú)進(jìn)行標(biāo)注。如:人名標(biāo)注為nr、地名ns、機(jī)構(gòu)團(tuán)體nt、其他專名nz。
2.對(duì)語(yǔ)素g進(jìn)行更細(xì)致的標(biāo)注,下分為形語(yǔ)素ag、副語(yǔ)素dg、名語(yǔ)素ng、時(shí)語(yǔ)素tg和動(dòng)語(yǔ)素vg。
3.依照句法功能詳細(xì)標(biāo)注兼類詞,如副形詞ad、副動(dòng)詞vd、名形詞an和名動(dòng)詞vn。舉例來(lái)說(shuō):
(1)我們要搞好農(nóng)村兒童受教育狀況的調(diào)查。
“調(diào)查”的詞性,就漢語(yǔ)本身的研究來(lái)看,應(yīng)是動(dòng)詞。在這里之所以將它們標(biāo)注為名動(dòng)詞vn,是因?yàn)閮牲c(diǎn):第一,“調(diào)查”的語(yǔ)法功能更接近名詞,確實(shí)有了一些與在謂語(yǔ)動(dòng)詞位置上不同的語(yǔ)法功能,只是因?yàn)闈h語(yǔ)沒(méi)有形態(tài)變化,找不到形式上的標(biāo)記;所以有些學(xué)者認(rèn)為,它們是動(dòng)詞,但已經(jīng)“名物化”了。第二,動(dòng)詞在何時(shí)成為名動(dòng)詞,包括三種情況:直接受名詞修飾與直接修飾名詞,直接受“的”字結(jié)構(gòu)修飾成為體詞性短語(yǔ)的中心語(yǔ),在形式動(dòng)詞或其他準(zhǔn)謂賓動(dòng)詞及“有”之后。第三,如果在詞性標(biāo)注階段就把名形詞、名動(dòng)詞和形容詞、動(dòng)詞分開(kāi)標(biāo)注清楚,讓計(jì)算機(jī)知道這些詞不再充當(dāng)小句或分句的謂語(yǔ),將為今后的非分句識(shí)別工作提供更多信息。
當(dāng)然,詞性標(biāo)注并不屬于我們的工作內(nèi)容,前面也已經(jīng)說(shuō)過(guò)本項(xiàng)研究是在詞性標(biāo)注工作已大致完成的基礎(chǔ)上進(jìn)行的。
雖然本文的主要目標(biāo)是進(jìn)行非分句的自動(dòng)識(shí)別,暫不涉及標(biāo)注問(wèn)題;但筆者將盡可能地在探索非分句自動(dòng)識(shí)別規(guī)則的同時(shí)對(duì)標(biāo)注問(wèn)題也給予一定程度的關(guān)注,以期為今后的研究工作奠定良好的基礎(chǔ)。
書(shū)讀前后語(yǔ)言片段既有詞和短語(yǔ),也有小句,還有很多“四不象”。盡管如此,筆者還是可以大膽地推測(cè),這些語(yǔ)言片段除了小句之外,非小句(也就是非分句)中所占比例最大的顯然應(yīng)該是短語(yǔ)。因而,在此我們將主要討論非分句中短語(yǔ)的標(biāo)注問(wèn)題。
按照邢福義《漢語(yǔ)語(yǔ)法學(xué)》的分類,短語(yǔ)可以從不同的角度分為成分短語(yǔ)和非成分短語(yǔ)、關(guān)系類短語(yǔ)和標(biāo)志類短語(yǔ)、名詞短語(yǔ)、動(dòng)詞短語(yǔ)和形容詞短語(yǔ)。因?yàn)楸卷?xiàng)研究是面向計(jì)算機(jī)的,是要實(shí)現(xiàn)非分句中短語(yǔ)的自動(dòng)標(biāo)注,因此標(biāo)志類短語(yǔ)將成為本文的重點(diǎn)標(biāo)注對(duì)象。
標(biāo)志類短語(yǔ)是結(jié)構(gòu)成分之間語(yǔ)義關(guān)系比較模糊,只從語(yǔ)表上找出標(biāo)志的短語(yǔ)。所謂“語(yǔ)表上的標(biāo)志”包括前標(biāo)志和后標(biāo)志,前標(biāo)志是短語(yǔ)的前面一個(gè)結(jié)構(gòu)成分,后標(biāo)志是后面一個(gè)結(jié)構(gòu)成分。根據(jù)一個(gè)短語(yǔ)是具有前標(biāo)志還是具有后標(biāo)志還是前后標(biāo)志兼有,標(biāo)志類短語(yǔ)可分為:
前標(biāo)志短語(yǔ),如能愿短語(yǔ)和介詞短語(yǔ),前者的前一個(gè)結(jié)構(gòu)成分是能愿動(dòng)詞,后者的前一個(gè)結(jié)構(gòu)成分是介詞;
后標(biāo)志短語(yǔ),如“的”字短語(yǔ)、方位短語(yǔ)、趨向短語(yǔ)和比況短語(yǔ),它們的后一個(gè)結(jié)構(gòu)成分分別是“的”字、方位詞、趨向動(dòng)詞和比況助詞;
雙標(biāo)志短語(yǔ),如數(shù)量短語(yǔ),前一個(gè)結(jié)構(gòu)成分是數(shù)詞,后面的一個(gè)結(jié)構(gòu)成分是量詞。
結(jié)合研究的實(shí)際情況,我們對(duì)《漢語(yǔ)語(yǔ)法學(xué)》中的標(biāo)志類短語(yǔ)進(jìn)行了適當(dāng)?shù)奶砑雍蛣h并,并增加了一些非標(biāo)志類短語(yǔ)。本文非分句中的短語(yǔ)包括:
表1 本文非分句中的短語(yǔ)
西方語(yǔ)法的傳統(tǒng)句子分析格局是主謂兩分的格局,這是受古典形式邏輯主詞謂詞兩分格局的影響而形成的,謂語(yǔ)再兩分為核心動(dòng)詞和補(bǔ)語(yǔ)。在機(jī)器翻譯和自然語(yǔ)言理解的研究領(lǐng)域里,經(jīng)常使用謂詞邏輯來(lái)描述知識(shí)和進(jìn)行邏輯推理?!皠?dòng)詞中心論”恰巧和現(xiàn)代謂詞邏輯以謂詞為中心相吻合。動(dòng)詞中心論認(rèn)為動(dòng)詞是句子的核心和重心,主語(yǔ)和其他補(bǔ)語(yǔ)都是核心動(dòng)詞的“補(bǔ)語(yǔ)”,主語(yǔ)和賓語(yǔ)都是修飾或限制核心動(dòng)詞的,在一個(gè)層次上。而我國(guó)語(yǔ)言學(xué)家呂淑湘則于1942年正式出版的《中國(guó)文法要略》就提出了“動(dòng)詞中心觀”和動(dòng)詞的“方向”問(wèn)題。呂叔湘說(shuō):“句子的重心就在那個(gè)動(dòng)詞上,此外凡動(dòng)作之所由起,所于止。以及所關(guān)涉的各方面,都是補(bǔ)充這個(gè)動(dòng)詞把句子的意義說(shuō)明白,都可稱為“補(bǔ)詞”。
根據(jù)小句聯(lián)結(jié)律,兩個(gè)或多個(gè)小句聯(lián)結(jié)在一起并且小句分句化后就能產(chǎn)生復(fù)句。那么針對(duì)本項(xiàng)研究,一個(gè)語(yǔ)言片段要想成為復(fù)句中的分句,首先必須具備成為小句的條件。而小句中樞理論在講到小句成分配置的時(shí)候說(shuō),除了單詞句,小句都有核心,而且充當(dāng)小句核心的詞一般是動(dòng)詞。綜合以上兩點(diǎn)得出結(jié)論:要判斷或者說(shuō)識(shí)別一個(gè)語(yǔ)言片段是分句還是非分句,首先得看這個(gè)語(yǔ)言片段有沒(méi)有動(dòng)詞。當(dāng)然,名詞也可以充當(dāng)核心詞,但相對(duì)于動(dòng)詞來(lái)說(shuō)數(shù)量要少得多。
因此,筆者從研究策略的角度出發(fā),首先編制了一個(gè)程序讓計(jì)算機(jī)把子語(yǔ)料庫(kù)中所有不含動(dòng)詞的語(yǔ)言片段標(biāo)注為非分句,因?yàn)榇蟛糠址志涞暮诵脑~是動(dòng)詞。對(duì)已經(jīng)標(biāo)注了詞性的語(yǔ)料,計(jì)算機(jī)是很容易做到這一點(diǎn)的。只需要對(duì)一個(gè)語(yǔ)言片段進(jìn)行逐詞或字符掃描即可,如果掃描后沒(méi)有發(fā)現(xiàn)V,就可以先斷定這是個(gè)非分句。對(duì)不含形容詞(可謂形容詞,不包括非謂形容詞或區(qū)別詞)的語(yǔ)言片段也做同樣處理,因?yàn)樾稳菰~在句中的表現(xiàn)和功能類似于不及物動(dòng)詞。這純粹是考慮到研究策略而采取的權(quán)宜之計(jì),因?yàn)檎Z(yǔ)料庫(kù)中還有少量以名詞為核心詞的分句,即名詞謂語(yǔ)句,但本文對(duì)這種情況暫時(shí)不予考慮,因?yàn)檫@種類型的分句在大規(guī)模語(yǔ)料庫(kù)中所占比例微不足道,對(duì)非分句識(shí)別的正確率不會(huì)有太大影響。
規(guī)則一:以方位詞“中、下、底、里、內(nèi)、間、前、以前、后、以后、之后、前后、左右”等結(jié)尾的語(yǔ)言片段標(biāo)注為方位短語(yǔ)op(orientation phrase)。舉例來(lái)說(shuō):
(2)[八/m點(diǎn)/n三十/m分/n左右/f]op,/w該輪剛駛進(jìn)青山岬水域,江面突起大霧,駕駛?cè)藛T立刻采取措施,慢車減速。
該例的第一個(gè)語(yǔ)言片段不包含動(dòng)詞,也沒(méi)有形容詞,計(jì)算機(jī)根據(jù)編制的程序很容易識(shí)別出它們是非分句,然后調(diào)用規(guī)則庫(kù)中設(shè)定的“規(guī)則一”對(duì)它進(jìn)行自動(dòng)標(biāo)注,“八點(diǎn)三十分左右”以復(fù)合方位詞“左右”結(jié)尾,放在方括號(hào)內(nèi),標(biāo)注為方位短語(yǔ)op。
規(guī)則二:以時(shí)間詞或時(shí)語(yǔ)素“前夕、時(shí)刻、時(shí)候、月份、時(shí)節(jié)、世紀(jì)、凌晨、清晨、早晨、傍晚、黃昏、期間、時(shí)期、春天、夏天、秋天、冬天、前夕、分、點(diǎn)、天、日、月、旬、季、節(jié)、年、年代、葉、午、晚、初、末、期、時(shí)、春、夏、秋、冬”等結(jié)尾的語(yǔ)言片段標(biāo)注為時(shí)間短語(yǔ)tp(time phrase)。
規(guī)則三:以助詞“起、來(lái)、以來(lái)、左右”等結(jié)尾的語(yǔ)言片段標(biāo)為時(shí)間短語(yǔ)tp(time phrase)。
規(guī)則四:以表時(shí)間處所的介詞“在”開(kāi)頭,以表范圍的名詞“方面”或“上、下、之下、中、里、面前”等方位詞結(jié)尾的語(yǔ)言片段標(biāo)注為狀語(yǔ)性短語(yǔ)adp(adverbial phrase),因?yàn)檫@些語(yǔ)言片段的功能大致相當(dāng)于全句的狀語(yǔ)成分。
規(guī)則五:語(yǔ)言片段以“在、為、為了、從、根據(jù)、據(jù)、隨著、按、按照、依、關(guān)于、通過(guò)、經(jīng)、經(jīng)過(guò)、用、以、對(duì)、對(duì)于、把、與、供、包括、鑒于、比起、至于、作為、如、像、到、到了、憑借、乘著、面對(duì)、除、除了、除去、自、相對(duì)于、同、當(dāng)、向著”等介詞或功能類似于介詞的成分開(kāi)頭的,一律標(biāo)為介詞短語(yǔ)pp(preposition phrase)。
規(guī)則六:如果一個(gè)語(yǔ)言片段的詞性序列為“/r/m/n、/r/m/q/n、/r/n、/r/vn、/r/q/n、/r/q/vn、/m/q/n、/m/q/vn、/r/q/n、/r/q/vn、/r/u/n、/r/u/vn、/n/u/n、/m/q/n/u/n、/r/m/q/n/u/n、/r/q/n/u/n ”等,或者以這樣的詞性序列結(jié)尾,這個(gè)語(yǔ)言片段應(yīng)標(biāo)注為量詞短語(yǔ)qp(quantifier phrase),其中又包括數(shù)量短語(yǔ)和指量短語(yǔ)。。
規(guī)則七:某個(gè)語(yǔ)言片段如果是復(fù)句的第一個(gè)語(yǔ)言片段,且以“跟/p、和/p、同/p、與/p、像/p”等介詞開(kāi)頭,以“似的/u、一般/u、一樣/u”等助詞結(jié)尾,一律標(biāo)為助詞短語(yǔ)ap(auxiliary phrase)。
規(guī)則八:某個(gè)語(yǔ)言片段如果以復(fù)數(shù)助詞“們”或準(zhǔn)復(fù)數(shù)助詞“等”、“等等”、“等等等等”結(jié)尾,則這個(gè)語(yǔ)言片段標(biāo)注為助詞短語(yǔ)ap。
規(guī)則九:以語(yǔ)氣助詞“也罷”、“也好”等結(jié)尾的語(yǔ)言片段標(biāo)注為助詞短語(yǔ)ap。
本文所說(shuō)的短語(yǔ)庫(kù)跟喬姆斯基的詞庫(kù)同中有異,它不是一種語(yǔ)言中儲(chǔ)存在人類大腦里所有詞語(yǔ)的匯合;而是針對(duì)我們的研究任務(wù)設(shè)計(jì)的,專指那些不能用規(guī)則識(shí)別、只能以清單方式一個(gè)一個(gè)貯存的非分句的集合。它們是大于詞的結(jié)構(gòu)。
上文提到,有些副詞、連詞或復(fù)句關(guān)系詞語(yǔ)會(huì)單獨(dú)充當(dāng)一個(gè)語(yǔ)言片段,這種情況直接通過(guò)詞性標(biāo)注信息就可以識(shí)別為非分句了。還有些形式相對(duì)固定的短語(yǔ)經(jīng)常單獨(dú)充當(dāng)復(fù)句的一個(gè)語(yǔ)言片段,但不和前后分句發(fā)生任何邏輯上的語(yǔ)義聯(lián)系,因此也不參加復(fù)句層次關(guān)系的標(biāo)注,應(yīng)排除它們。這些短語(yǔ)是一個(gè)相對(duì)封閉的類,所以我們采取窮盡性列舉的方法,盡可能把它們都收入短語(yǔ)庫(kù)中。目前我們發(fā)現(xiàn)的這類非分句主要有:
規(guī)則十:“近年來(lái)、不一會(huì)兒、不多久、前不久、久而久之、那陣子、這陣子、長(zhǎng)期以來(lái)、此時(shí)此刻、到時(shí)候”等單獨(dú)充當(dāng)一個(gè)語(yǔ)言片段時(shí)標(biāo)注為時(shí)間短語(yǔ)tp,某個(gè)語(yǔ)言片段以它們結(jié)尾的也標(biāo)注為tp。
規(guī)則十一:“很可惜、很明顯、沒(méi)辦法、事實(shí)上、那當(dāng)然、那好、實(shí)際上、果然如此、算了算了、對(duì)不起、說(shuō)實(shí)話、講心里話、依我看、據(jù)分析、要知道、你看、你們看、你看看、你們看看、表面上看、想想看、你想、你們想、你想想、你們想想、你瞧、你們瞧、你瞧瞧、你們瞧瞧、要知道、按理講、按理說(shuō)、照理說(shuō)、這就是說(shuō)、不也可以說(shuō)、退一步講、進(jìn)一步講、換句話講、比如說(shuō)”等單獨(dú)充當(dāng)一個(gè)語(yǔ)言片段時(shí)標(biāo)注為插說(shuō)語(yǔ)ip(inserted phrase),某個(gè)語(yǔ)言片段如果以它們結(jié)尾也同樣標(biāo)為ip。
規(guī)則十二:“相反地、也就是說(shuō)、具體地說(shuō)、反過(guò)來(lái)說(shuō)、恰恰相反、唯其如此、既然如此、不僅如此、簡(jiǎn)言之、究其原因、相比之下、更重要的、總而言之”等標(biāo)注為連詞(關(guān)系詞)短語(yǔ)cp(connection phrase),某個(gè)語(yǔ)言片段以它們結(jié)尾的也標(biāo)注為cp。
規(guī)則十三:以“從、在、僅從、以、相對(duì)于”等介詞或副介組合成分開(kāi)頭,以“說(shuō)、來(lái)說(shuō)、上說(shuō)、看、來(lái)看、看來(lái)、上看、講、來(lái)講、而言、而論”等結(jié)尾的語(yǔ)言片段標(biāo)注為話題短語(yǔ)TP(topic phrase)。為了與時(shí)間短語(yǔ)的代碼tp相區(qū)別,這里用大寫(xiě)字母表示。
規(guī)則十四:以“可以、能、能夠、應(yīng)該”等能愿動(dòng)詞開(kāi)頭的語(yǔ)言片段標(biāo)注為能愿短語(yǔ)mp(modal phrase)。如“可以說(shuō)、可以斷言、可以毫不夸張地說(shuō)、可以無(wú)愧地說(shuō)、可以看出、可以設(shè)想、可以相信、可以肯定、可以肯定地認(rèn)為、可以預(yù)期、可以預(yù)料”等。
短語(yǔ)庫(kù)具有一定的開(kāi)放性和可增補(bǔ)性,隨著研究工作的進(jìn)展,筆者將不斷添加新的類似于上述五類的短語(yǔ)進(jìn)庫(kù)。
做了自動(dòng)分詞工作的語(yǔ)料庫(kù)是“粗加工”語(yǔ)料庫(kù),標(biāo)注了詞性信息的語(yǔ)料庫(kù)是“深加工”的語(yǔ)料庫(kù);這兩類語(yǔ)料庫(kù)雖然都是語(yǔ)言研究工作可以利用的知識(shí)庫(kù),但“利用價(jià)值”顯然還不夠高。如果能對(duì)語(yǔ)料庫(kù)中的語(yǔ)料進(jìn)一步進(jìn)行“精加工”,標(biāo)注上更多的詞法、句法甚至語(yǔ)義信息,并使標(biāo)注正確率不斷得到提高;這個(gè)語(yǔ)料庫(kù)就會(huì)成為語(yǔ)言研究比較理想的知識(shí)源,在語(yǔ)言研究工作中發(fā)揮更大的作用。然而,分詞和詞性信息對(duì)語(yǔ)料庫(kù)的“精加工”來(lái)說(shuō)又是最基本和最重要的。一方面,語(yǔ)料的分詞和詞性標(biāo)注信息是從事其他語(yǔ)料加工活動(dòng)的基礎(chǔ),如果沒(méi)有這個(gè)基礎(chǔ),就根本談不上對(duì)語(yǔ)料進(jìn)行更深入的信息標(biāo)注;另一方面,自動(dòng)分詞和詞性標(biāo)注也是后續(xù)工作的關(guān)鍵一環(huán),其正確率會(huì)直接影響到其他語(yǔ)料加工活動(dòng)的準(zhǔn)確性,應(yīng)盡量避免出現(xiàn)不必要的錯(cuò)誤。拿本文來(lái)說(shuō),根據(jù)“小句中樞”理論,小句都有核心,而充當(dāng)小句核心的詞大多是動(dòng)詞。因此從研究策略的角度出發(fā),筆者暫時(shí)把不包含動(dòng)詞和(或)形容詞的語(yǔ)言片段統(tǒng)一標(biāo)注為非分句,盡管這樣會(huì)對(duì)少量以名詞或其他詞類為核心的分句產(chǎn)生誤判,而這項(xiàng)工作就必須建立在詞性標(biāo)注的基礎(chǔ)上,其正確率也依賴于詞性標(biāo)注的正確率。
接下來(lái),本項(xiàng)目還對(duì)憑借詞性信息識(shí)別出來(lái)的一部分非分句進(jìn)行類型標(biāo)注,并制定了自動(dòng)標(biāo)法的九條規(guī)則,但要注意,這九條規(guī)則針對(duì)的語(yǔ)言片段都是或前或后或前后都有明顯形式標(biāo)記的。
最后,對(duì)于那些形式相對(duì)固定的短語(yǔ)單獨(dú)充當(dāng)?shù)姆欠志湔Z(yǔ)言片斷,采取建立短語(yǔ)庫(kù)的方式進(jìn)行識(shí)別。因?yàn)檫@些短語(yǔ)是可以窮盡性列舉的,每碰到一個(gè)新的成員就把它收入短語(yǔ)庫(kù)中,不斷擴(kuò)大短語(yǔ)庫(kù)的規(guī)律,直至把所有符合條件的語(yǔ)言片斷都收錄進(jìn)來(lái)。
[1] 邢福義.漢語(yǔ)語(yǔ)法學(xué)[M].長(zhǎng)春:東北師范大學(xué)出版社,1998:439-474.
[2]呂叔湘.中國(guó)文法要略[M].北京:商務(wù)印書(shū)館,1956:53.
Automatic identification and labeling of non-clauses based on part of speech
LI Qiong,et al.
(School of International Culture Exchanges CCnU,Wuhan 430079,China)
Inorder to build a“finishing”compoundsentence corpus for Chinese Information Process,automatic word segmentation and POS tagging work should be completed first of all.On this basis,automatic classification and labeling of levels and relationship between clauses should be conducted.We can use the POS information to develop a set of rules to achieve some nonclause of automatic identification and labeling,but also can build a phrase library,which includes the phrase language fragments.
part of speech;phrase library;rules
H08
A
1009-8976(2011)01-0077-04
2010-10-29
教育部人文社會(huì)科學(xué)研究青年項(xiàng)目的研究成果(項(xiàng)目編號(hào):09YJC740032)
華中師范大學(xué)“丹桂計(jì)劃”項(xiàng)目
李瓊(1979—),女(漢),湖北荊州,講師,博士主要研究中文信息處理、對(duì)外漢語(yǔ)教學(xué)。
長(zhǎng)春工程學(xué)院學(xué)報(bào)(社會(huì)科學(xué)版)2011年1期