摘 要:本文分析了最長名詞短語的內(nèi)部構(gòu)成特征,提出了一種基于基本名詞短語中心歸約的最長名詞短語識別方法,并使用條件隨機場模型識別了最長名詞短語。實驗取得了87.58%的正確率和88.31%的召回率。
關(guān)鍵詞:最長名詞短語 基本名詞短語 條件隨機場 中心規(guī)約
一、引言
最長名詞短語(MNP)的識別能夠顯著地改善句法分析等系統(tǒng)的性能。如對于句法分析而言,最長名詞短語在句子中主要充當(dāng)主語和賓語,其內(nèi)部結(jié)構(gòu)復(fù)雜多樣。正確地識別出這些結(jié)構(gòu),可以大大降低句法分析過程中的淺層歧義,提高句法分析器的性能。
最長名詞短語的識別研究涉及自然語言處理中常見的統(tǒng)計和規(guī)則方法。李文捷等(1995)使用邊界分布信息構(gòu)造概率模型識別MNP;周強、孫茂松等(2000)提出兩種不同的識別算法,其中基于內(nèi)部結(jié)構(gòu)組合的算法通過基本組合成分向左迭代組合,形成新的最長名詞短語,取得了良好效果;代翠等(2008)則使用了條件隨機場模型識別最長名詞短語,并針對識別錯誤使用后繼規(guī)則進行修正。
總的來說,隨著一些新的統(tǒng)計模型和新方法的應(yīng)用,漢語最長名詞短語的識別效果逐步提高,但由于MNP自身構(gòu)造的復(fù)雜性,MNP識別問題還有待進一步的研究。在前人研究的基礎(chǔ)上,本文提出了一種基于基本名詞短語中心壓縮的最長名詞短語的方法,并基于條件隨機場模型實現(xiàn)了該方法,實驗證實了這種方法的有效性。
二、最長名詞短語及其構(gòu)成
中文信息處理學(xué)界所說的“名詞短語”與本體語言學(xué)的定義大體一致,是“名詞性短語”“體詞性短語”的意思。周強、孫茂松等(2000)從組成結(jié)構(gòu)上將名詞短語分為最短名詞短語(MNP)、最長名詞短語(MNP)、一般名詞短語(GNP)三類,其中,最長名詞短語的定義沿承了Kuang-hua Chen (1994)關(guān)于英語MNP的定義,指“不被其他名詞短語所包含的名詞短語”。我們把最長名詞短語定義為不被其他任何名詞短語所包含的名詞短語,最長名詞短語是句子級的短語單位,其上層結(jié)構(gòu)即為句子根節(jié)點S。本文定義的最長名詞短語包含單詞短語,下面的句子用括號標注了MNP:
(1)[羅馬/nS 時代/n]也/d 有/v[“/“想象/v 比/p 模仿/v 是/vC 更為/dD 巧妙/a 的/u 一/m 位/qN 藝術(shù)家/n ”/” 的/u 評說/vN]。/。
(2)[電荷/n 周圍/s]伴有/v [電場/n],/,[電場/n]對/p [電荷/n]產(chǎn)生/v [力/n 的/u 作用/n]。/。
從內(nèi)部結(jié)構(gòu)看,可以把最長名詞短語分為后附式結(jié)構(gòu)、定中式結(jié)構(gòu)和聯(lián)合式結(jié)構(gòu)。通常后附式結(jié)構(gòu)內(nèi)部較為復(fù)雜,以“的”字結(jié)構(gòu)、“者”字結(jié)構(gòu)等最為典型:
(3)[它/rN]是/vC 【以/p 情報/n 技術(shù)/n 的/u 發(fā)展/vN 與/c 聯(lián)機/b 情報/n 系統(tǒng)/n 的/u 建立/vN 為/vC 特征/n 的/u】。/。
(4)“/“ 在/p [學(xué)術(shù)/n 研究/vN]上/f 有/v [創(chuàng)新/n]才/d 能/vM 有/v [建樹/n],/,凡/d [自己/rN]在/p [學(xué)術(shù)/n]上/f 提出/v [新說/n],/,一旦/d 發(fā)現(xiàn)/v [其/rN]有/v 【與/p 別人/rN 偶同/a、/、而/c 別人/rN 確/d 已/d 發(fā)布/v 在/p 先/f 者/k】,/,則/c 盡行/d 削去/v 。/?!?”
此外,后附式結(jié)構(gòu)還包括一些簡單的構(gòu)形結(jié)構(gòu):
(5)[我/rN]最/dD 不/dN 習(xí)慣/v 也/d 最/dD 討厭/v 【男人/n 們/k】 指/v 著/u [自己/rN 的/u 鼻尖/n]數(shù)落/v “/“ [你們/rN 女人/n]……/…… ”/”[女人/n]怎么/rV 啦/y 。/。
定中式結(jié)構(gòu)是最長名詞短語最主要的結(jié)構(gòu)類型,其中包括含“的”的定中式結(jié)構(gòu)和不含“的”的定中式結(jié)構(gòu)。正如“的”字結(jié)構(gòu)一樣,含“的”的定中式結(jié)構(gòu)內(nèi)部比較復(fù)雜,可以是簡單結(jié)構(gòu),如“形容詞+的+名詞”的模式,也可以是復(fù)雜的“動詞短語+的+名詞短語”模式:
(6)不/dN 在/p【想/vM 哭/v 的/u 時候/n】佯裝/v [笑臉/n],/, 也/d 不/dN 會/vM 在/p【高興/a 的/u 時候/n】收斂/v【自己/rN 的/u 情緒/n】。/。
不含“的”的最長名詞短語以簡單結(jié)構(gòu)居多,如例(4)中的“學(xué)術(shù)/n 研究/vN”,但也存在極少數(shù)復(fù)雜結(jié)構(gòu),如“動詞短語+名詞”構(gòu)成的MNP:
(7)“/“ [偉大/a 的/u 理論/n]指導(dǎo)/v [偉大/a 的/u 實踐/vN],/, 【建設(shè)/v 有/v 中國/nS 特色/n 社會主義/n 理論/n】 為/p [中華/nR 民族/n]指出/v 了/u [騰飛/v 之/u 路/n]。/。 ”/”
聯(lián)合式MNP也可以分為簡單聯(lián)合結(jié)構(gòu)和復(fù)雜聯(lián)合結(jié)構(gòu),簡單聯(lián)合結(jié)構(gòu)由不含“的”的簡單定中式結(jié)構(gòu)聯(lián)合而成,復(fù)雜聯(lián)合結(jié)構(gòu)由簡單MNP與復(fù)雜MNP、復(fù)雜MNP與復(fù)雜MNP、甚至復(fù)雜MNP與謂詞性短語聯(lián)合而成,下面是一個復(fù)雜聯(lián)合結(jié)構(gòu)的例子:
(8)可是/c,/,在/p[目前/t 經(jīng)濟/n 體制/n 轉(zhuǎn)型/v 時期/n],/, 由于/p【法律/n 法規(guī)/n 的/u 不/dN 健全/a 以及/c 監(jiān)督/vN 機制/n 的/u 薄弱/a】,/, 由于/p [利己主義/n 、/、拜金主義/n 的/u 影響/vN],/,[一些/m 人/n][社會/n 責(zé)任感/n 和/c 社會/n 道德/n 觀念/n]淡薄/a ,/,[有的/rN 人/n]甚至/d 擾亂/v [社會/n 秩序/n],/,敗壞/v [社會/n 風(fēng)氣/n]。/。
可以看出,相對于組塊分析中的基本名詞短語,最長名詞短語長度較大,內(nèi)部結(jié)構(gòu)較為復(fù)雜。我們的想法是先識別基本名詞短語,對基本名詞短語進行規(guī)約,再識別最長名詞短語。這在一定程度上可以化解底層歧義,縮短結(jié)構(gòu)長度,提高識別效率。
三、條件隨機場模型
條件隨機場是Lafferty在2001年提出的一個序列切分和標注模型。令X表示一個待標記數(shù)據(jù)序列的隨機變量,Y表示相應(yīng)的標記的序列,則條件隨機場(X,Y)是以X為全局條件的無向圖模型。條件隨機場的定義如下:
令G=(V,E)是一個無向圖,Y=(Yv),那么,Y以G的頂點為索引。如果當(dāng)以X為條件,隨機變量Yv遵從圖的馬爾科夫?qū)傩?=,其中,w~v表示w和v是圖中相鄰的結(jié)點,那么(X,Y)就是一個條件隨機場。
常見的圖G是一個簡單的鏈結(jié)構(gòu)。比如,序列X=(X1,X2,…,Xn)和Y=(Y1,Y2,…,Yn)。這樣,在給定x的情況下,標記序列y的聯(lián)合分布具有以下形式:
其中,x表示觀察數(shù)據(jù),y表示一個標記序列,和是特征函數(shù)。和分別是它們的權(quán)值。是歸一化函數(shù)。
最長名詞短語識別可以看作是文本中詞語序列、詞性標記序列等特征選擇邊界標記的過程,因此,可以采用適當(dāng)?shù)淖R別策略,利用CRF進行邊界識別。
四、基于基本名詞短語中心規(guī)約的最長名詞短語識別
(一) 基本名詞短語的識別
趙軍(1998)針對漢語動詞可以充當(dāng)定語的特點,從基本名詞短語內(nèi)部結(jié)構(gòu)的角度提出了漢語基本名詞短語的定義:
baseNP#61664;baseNP+baseNP
baseNP#61664;baseNP+名詞|名動詞
baseNP #61664;限定性定語+baseNP
baseNP#61664;限定性定語+名詞|名動詞
限定性定語#61664;形容詞 | 區(qū)別詞 | 動詞 | 名詞 | 處所詞 | 西文字串 | 數(shù)量詞
本文的研究針對最長名詞短語識別,將基本名詞短語定義為以名詞性成分為中心,同時不包括謂詞性結(jié)構(gòu)的最大名詞性短語。如:
(9)對/p 企業(yè)/n ,/, 保證/v 其/rN 實現(xiàn)/v [生產(chǎn)/vN 計劃/n 任務(wù)/n]和/c [流通/vN 計劃/n 任務(wù)/n]所/u 需要/v 的/u [資金/n 供給/vN];/; 對/p [整個/b 經(jīng)濟/n],/, 保證/v 實現(xiàn)/v [生產(chǎn)/vN 資料/n]和/c [消費/vN 資料/n]進行/v [計劃/vN 流轉(zhuǎn)/vN]所/u 必需/v 的/u [貨幣/n 供給/vN]。/。
我們使用CRF模型,選擇前后3個詞和詞性作為簡單特征,語料格式如下:
表1:基本名詞短語標注格式樣例
詞語詞性baseNP標記
多數(shù)mB
人nI
持vO
肯定aB
意見nI
,,O
(二)最長名詞短語的識別
首先基于基本名詞短語的識別結(jié)果進行規(guī)約,以中心詞替代基本名詞短語本身,使用上文的例子,過程如下所示:
基本名詞短語識別結(jié)果:[多數(shù)/m 人/n]持/v[肯定/a 意見/n],/,
基本名詞短語規(guī)約結(jié)果:[人/n]持/v[意見/n],/,
同時,我們記錄了中心規(guī)約過程中的基本名詞短語結(jié)構(gòu)長度,是否中心詞等信息,單詞基本名詞短語的結(jié)構(gòu)長度規(guī)定為0,是否中心詞為“否”。新的模型選擇前后3個詞及詞性,以及當(dāng)前詞是否為中心詞、當(dāng)前基本名詞短語的長度作為特征。語料格式如下:
表2:中心規(guī)約實驗標注格式樣例
詞語詞性是否中心詞baseNP長度 MNP標記
人nHead2B
持vNo0O
意見nHead2B
,,No0O
五、實驗結(jié)果及分析
實驗從清華大學(xué)TCT樹庫中隨機抽取10000個無重復(fù)的段落,其中9000段用作訓(xùn)練語料,另外1000句用作測試語料。
(一)基本名詞短語實驗
基本名詞短語的實驗語料及其比例與上文劃分的最長名詞短語實驗語料相同,以其中9000段用作訓(xùn)練語料,另外1000句用作測試語料。實驗結(jié)果如下:
表3:基本名詞短語識別實驗結(jié)果
測試類型SCRCCCPRF
封閉測試17261172621726099.9999.9999.99
開放測試18921915172289.9291.0190.46
其中,SC、RC、CC分別表示結(jié)構(gòu)數(shù)、識別數(shù)和正確數(shù),P表示正確率,R表示召回率,F(xiàn)表示調(diào)和平均值??梢钥闯?,開放測試中,由于基本名詞短語內(nèi)部結(jié)構(gòu)相對簡單,實驗取得了較好的效果,基本名詞短語識別的F值達到90.46%,為最長名詞短語的識別奠定了一定的基礎(chǔ)。
(二)最長名詞短語實驗
我們選擇不同的窗口長度,以及中心規(guī)約特征構(gòu)成不同的特征模板觀察特征對于MNP識別結(jié)果的影響。評測結(jié)果是將中心規(guī)約的語料還原為原始標注語料后進行的。表4報告了開放測試的實驗結(jié)果。
表4:中心規(guī)約的特征模板測試
模板窗口中心規(guī)約特征SCRCCCPRF
1[-1,1]中心詞41224146355885.8286.3286.07
2[-2,2]中心詞41224141361187.2087.6087.40
3[-3,3]中心詞41224156314087.5888.3187.94
4[-3,3]中心詞+長度41224154363687.5388.2187.87
5[-3,3]長度41224155363787.5388.2387.88
6[-3,3]-41224152362787.3688.0087.68
7--41224164360386.5387.4186.97
其中,模板7對應(yīng)了不采用基本名詞短語中心規(guī)約的簡單實驗??梢钥闯觯诨久~短語中心規(guī)約的方法優(yōu)于簡單實驗方法。其中,模板3和模板5,即在3元詞、詞性加中心規(guī)約的復(fù)雜特征取得了比較好的效果。
六、結(jié)語
最長名詞短語識別是中文信息處理的一個重要課題。本文分析了最長名詞短語的內(nèi)部構(gòu)成特征,提出了一種基于基本名詞短語中心規(guī)約的最長名詞短語識別方法,并使用條件隨機場模型識別了最長名詞短語。實驗取得了87.58%的正確率和88.31%的召回率,對比實驗表明該方法優(yōu)于基于線性特征的方法。
本文所使用的TCT語料庫由清華大學(xué)周強老師提供,在此表示真摯的感謝。
本文收稿時間:2009年5月26日。
參考文獻:
[1]Chen Kuang-hua,Chen Hsin-hsi.Extracting noun phrases
from large-scale texts:a hybrid approach and its automatice-valuation[A].In:Proceedings of the 32nd Annual Meeting of Association of Computational Linguistics[C].New York:Association for Computational Linguistics,1994.
[2]代翠.統(tǒng)計和規(guī)則相結(jié)合的漢語最長名詞短語自動識別[C].中文
信息學(xué)報,2008,(6).
[3]李文捷,周明.基于語料庫的中文最長名詞短語的自動提取[A].
陳力為,袁琦.計算語言學(xué)進展與應(yīng)用[C].北京:清華大學(xué)出版社,1995.
[4]周強,孫茂松,黃昌寧.漢語最長名詞短語的自動識別[J].軟件
學(xué)報,2000,(2).
(錢小飛 北京 中國傳媒大學(xué)文學(xué)院 100024)