王仲華,盧嬌麗
(1.太原師范學(xué)院 數(shù)學(xué)系,山西 晉中 030619; 2.山西大學(xué) 現(xiàn)代教育技術(shù)中心, 山西 太原 030006)
?
*1基于SVM和詞性對(duì)分析的VN組合關(guān)系識(shí)別
王仲華1,盧嬌麗2
(1.太原師范學(xué)院 數(shù)學(xué)系,山西 晉中 030619; 2.山西大學(xué) 現(xiàn)代教育技術(shù)中心, 山西 太原 030006)
〔摘要〕在動(dòng)詞+名詞關(guān)系是中文句子結(jié)構(gòu)中一種非常重要的語(yǔ)言現(xiàn)象,它在中文句法分析和組塊分析時(shí)經(jīng)常引起歧義,文章在充分分析了詞性對(duì)統(tǒng)計(jì)信息的基礎(chǔ)上,首先對(duì)動(dòng)詞+名詞關(guān)系重要性進(jìn)行了舉例和統(tǒng)計(jì)說(shuō)明,然后將動(dòng)賓關(guān)系和偏正關(guān)系這兩種重要的歧義關(guān)系識(shí)別問(wèn)題看作分類問(wèn)題,由于支持向量機(jī)在高維度、小樣本數(shù)據(jù)中具有良好的泛化能力,將其作為分類器,最后將分類的結(jié)果用于指導(dǎo)中文句法分析的語(yǔ)義消歧,實(shí)驗(yàn)結(jié)果表明,該模型能獲得很好的關(guān)系識(shí)別效果.
〔關(guān)鍵詞〕動(dòng)詞+名詞;支持向量機(jī);詞性對(duì)分析;關(guān)系識(shí)別
0引言
在中文完全句法分析和淺層句法分析和語(yǔ)料處理過(guò)程中,發(fā)現(xiàn)自然語(yǔ)言處理中存在大量的歧義現(xiàn)象,這些歧義直接影響著句子分析的質(zhì)量和效率,而VN結(jié)構(gòu)(動(dòng)詞+名詞或v+n關(guān)系)是常見的歧義結(jié)構(gòu),為了自動(dòng)獲取歧義消除的知識(shí),文獻(xiàn)[1]對(duì)漢語(yǔ)中的動(dòng)詞和名稱的交融從語(yǔ)言學(xué)角度給出了深層次分析,文獻(xiàn)[2]利用了復(fù)雜的特征構(gòu)造方法處理VN組合,文獻(xiàn)[3]中使用了動(dòng)詞、名詞本身及其上下文信息作為特征,而動(dòng)詞+名詞常見的結(jié)構(gòu)關(guān)系為動(dòng)賓和偏正關(guān)系,能形式化為分類問(wèn)題,利用樸素貝葉斯分類器對(duì)動(dòng)詞+名詞結(jié)構(gòu)進(jìn)行標(biāo)注取得了較高的準(zhǔn)確率.在組塊分析方面的主流方法是統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法,文獻(xiàn)[4-6]使用支持向量機(jī)進(jìn)行組塊識(shí)別,給出了更好的推廣預(yù)測(cè)能力,這些方法都進(jìn)行了大量的語(yǔ)料預(yù)處理工作,使用了局部的特征作為動(dòng)詞+名詞結(jié)構(gòu)關(guān)系識(shí)別的依據(jù);而實(shí)際語(yǔ)料處理中若能直接利用上下文詞性和詞性對(duì)局部特征信息將會(huì)極大地提高處理效率,本文在對(duì)句子的詞性對(duì)特征進(jìn)行統(tǒng)計(jì)分析的基礎(chǔ)上,得到完整的句子對(duì)應(yīng)的詞性對(duì)序列,使用支持向量機(jī)模型進(jìn)行對(duì)動(dòng)詞+名詞關(guān)系進(jìn)行識(shí)別,獲得了較高的識(shí)別率,結(jié)果將用于指導(dǎo)完整句法分析,能消除句法歧義,提高句法分析的效率和質(zhì)量.
1VN關(guān)系和詞性對(duì)分析
1.1動(dòng)詞+名詞關(guān)系舉例
動(dòng)詞+名詞關(guān)系分析是部分句法分析的一個(gè)重要內(nèi)容,中文部分句法分析也叫組塊分析,由于各研究單位使用的數(shù)據(jù)集不同,出現(xiàn)了許多不同的定義,本文根據(jù)文獻(xiàn)[7]的漢語(yǔ)句法樹庫(kù)標(biāo)注體系中的組塊定義和常用組塊表示方法:名詞短語(yǔ)標(biāo)記為NP,動(dòng)詞短語(yǔ)標(biāo)記為VP.
根據(jù)語(yǔ)委的句法樹庫(kù)10 000句語(yǔ)料統(tǒng)計(jì)發(fā)現(xiàn)包含有VN現(xiàn)象的句子占50.25%,其中組塊為NP和VP的分別占780句和1420句.
VN關(guān)系舉例如下:
1)測(cè)量/v體溫/n通常/d要/vu用/v體溫計(jì)/n.
2)他們/rr向/p勛爵/n夫婦/n表示/v歉意/n.
[測(cè)量/v體溫/n]VP;[表示/v歉意/n]VP.
在1)、2)句子中VN是動(dòng)賓關(guān)系.
3)這種/rz計(jì)算/v方法/n一直/d沿用/v到/v今天/t.
4)她/rr成/v了/ul藝術(shù)團(tuán)/n的/ud獨(dú)唱/v演員/n.
[計(jì)算/v方法/n]NP;[獨(dú)唱/v演員/n]NP
在3)、4)句子中VN是偏正關(guān)系.
1.2詞性對(duì)序列分析
VN關(guān)系屬于詞性對(duì)中的常見結(jié)構(gòu),詞性對(duì)的信息是句子的局部特征,句子分析需要轉(zhuǎn)換為詞性對(duì)序列分析,保留句子的全局信息,比如(ud,v)和(v,n)兩個(gè)特征同時(shí)出現(xiàn)時(shí)分類為NP,而(d,v)和(v,n)同時(shí)出現(xiàn)時(shí),分類為VP;VN關(guān)系識(shí)別需要構(gòu)造出詞性對(duì)字典.詞性對(duì)字典是詞性對(duì)序列向量化的基礎(chǔ),從國(guó)家語(yǔ)委20 000句的完全句法語(yǔ)料中統(tǒng)計(jì)得出不同詞性對(duì)為2 314個(gè),表1給出了隨著句子數(shù)增多,不同詞性對(duì)數(shù)量的增加情況,從中發(fā)現(xiàn)新的詞性對(duì)已經(jīng)很少加入詞性對(duì)字典.
表1 詞性對(duì)與句子數(shù)關(guān)系表
不同詞對(duì)的詞頻也在字典中.統(tǒng)計(jì)排序結(jié)果顯示前100個(gè)詞性對(duì)占總詞性對(duì)比例為90.62%,而當(dāng)增加為前200個(gè)詞性對(duì)時(shí),提高不到1%,因此考慮到計(jì)算效率將前100個(gè)詞性對(duì)作為完整的向量字典,基本上可以包含所有句子的詞性對(duì).表2列出了統(tǒng)計(jì)所得排在前十位的詞性對(duì)出現(xiàn)頻率表,作為特征字典的選取依據(jù).
表2 詞性對(duì)出現(xiàn)頻率表
2SVM模型
支持向量機(jī)[6](Support Vector Machine, SVM)建立在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上, 應(yīng)用 VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理,借助于最優(yōu)化方法等, 在很大程度上克服了傳統(tǒng)機(jī)器學(xué)習(xí)面臨的維數(shù)災(zāi)難、 局部最小化以及過(guò)學(xué)習(xí)等難以解決的問(wèn)題, 并具有良好的泛化能力, 是一種新型的機(jī)器學(xué)習(xí)方法.其算法可總結(jié)如下:
1)已知訓(xùn)練集T={(x1,y1),(x2,y2),…,(xl,yl)}∈(X,Y)l,其中xi∈X=Rn,yi∈Y∈{-1,1},i=1,2,…,l;
4)解決上述問(wèn)題后可得最優(yōu)分類面函數(shù)(分類器):
將測(cè)試樣本輸入分類器即可得到輸出結(jié)果:正類或負(fù)類.
3實(shí)驗(yàn)分析
3.1語(yǔ)料處理
我們使用了國(guó)家語(yǔ)委的20 000句語(yǔ)料,這些語(yǔ)料已經(jīng)根據(jù)清華大學(xué)的漢語(yǔ)句法樹庫(kù)標(biāo)注體系[7]進(jìn)行過(guò)人工標(biāo)注和校對(duì),從中選取了5 000句包含VN關(guān)系的句子進(jìn)行處理,然后抽取其中的詞性對(duì)得到270個(gè)包含VN的偏正結(jié)構(gòu)的詞性對(duì)序列,685個(gè)包含VN為動(dòng)賓結(jié)構(gòu)的詞性對(duì)序列.
語(yǔ)料處理過(guò)程如下:
1) [BH[ZW[SB測(cè)量/v體溫/n]VP[ZZ通常/d[SB要/vu[SB用/v體溫計(jì)/n]VP]VP]VP]SP./wj]DJ.
2) 測(cè)量/v體溫/n通常/d要/vu用/v體溫計(jì)/n./wj.
3) (v,n) (n,d) (d,vu) (vu,v) (v,n) (n,wj).
此處1)是國(guó)家語(yǔ)委的完全句法語(yǔ)料,其中左方括號(hào)[后面的標(biāo)記為句法關(guān)系標(biāo)記集中的結(jié)構(gòu)類型,BH表示標(biāo)號(hào)結(jié)構(gòu),ZW表示主謂結(jié)構(gòu),DZ表示定中結(jié)構(gòu),SB表示述補(bǔ)結(jié)構(gòu),ZZ表示狀中結(jié)構(gòu),已經(jīng)做過(guò)人工校對(duì),2)是對(duì)原始語(yǔ)料1)進(jìn)行抽取得到的句子和詞性序列;3)是抽取的詞性對(duì)序列;訓(xùn)練和測(cè)試語(yǔ)料如3)所示形式.
3.2識(shí)別效果
使用支持向量機(jī)進(jìn)行二分類時(shí),選擇150句分類為NP的句子和300句分類為VP的句子作為訓(xùn)練語(yǔ)料,其余的分別選100句NP和200句VP句子作為測(cè)試語(yǔ)料.
首先將前100個(gè)詞性對(duì)作為特征構(gòu)成了100維的向量,每個(gè)句子都對(duì)應(yīng)于一個(gè)特征向量,包含詞性對(duì)(v,n)的句子,包含偏正關(guān)系的句子對(duì)應(yīng)的向量被標(biāo)為正類,包含動(dòng)賓關(guān)系的句子對(duì)應(yīng)的向量被標(biāo)為負(fù)類,這些信息在特征向量中能得到體現(xiàn),SVM通過(guò)對(duì)訓(xùn)練樣本學(xué)習(xí)就可得出w和b的值,這時(shí)分類器就確定了.在測(cè)試階段,對(duì)新的句子分析時(shí),先得到它的詞性對(duì)序列,也就是特征向量,就可得出對(duì)應(yīng)的類別,作為自動(dòng)識(shí)別的結(jié)果.實(shí)驗(yàn)中使用了LIBSVM工具包實(shí)現(xiàn)SVM模型,此處核函數(shù)選用高斯核,懲罰參數(shù)默認(rèn)為500,對(duì)訓(xùn)練語(yǔ)料進(jìn)行學(xué)習(xí),在測(cè)試語(yǔ)料上顯示出在對(duì)包含v+n的句子進(jìn)行分類時(shí),本文使用精確率(用P表示)、召回率(用R表示)和F1測(cè)量作為評(píng)價(jià)指標(biāo).自動(dòng)識(shí)別結(jié)果見表3.
表3 實(shí)驗(yàn)結(jié)果比較 (%)
從表3中看出,本文的方法精確率比文獻(xiàn)[2]的方法略有下降,但召回率和F1測(cè)量都有一定的提高,而與其他方法相比各方面都有較大的提高,取得了較好的識(shí)別效果.使用所得VN關(guān)系識(shí)別結(jié)果,對(duì)已經(jīng)詞性標(biāo)注的句子進(jìn)行詞性對(duì)序列化,自動(dòng)標(biāo)注動(dòng)詞+名詞的組塊關(guān)系,將極大提高句法分析和組塊分析的效率和質(zhì)量.
4結(jié)論
本文在VN組合關(guān)系識(shí)別過(guò)程中,充分利用了詞性對(duì)信息,與只用詞性或者詞作為特征的方法相比考慮了局部特征的重要性,而與專門構(gòu)造復(fù)雜的局部特征相比處理過(guò)程得到簡(jiǎn)化,同時(shí)考慮了全局特征信息,取得了較好的識(shí)別效果,下一步將考慮將部分長(zhǎng)距離的復(fù)雜特征局部信息加入特征向量以便提高VN關(guān)系識(shí)別效果.
參考文獻(xiàn):
[1]吳長(zhǎng)安.漢語(yǔ)名詞、動(dòng)詞交融模式的歷史形成[J].中國(guó)語(yǔ)文,2012,29(1):17-28
[2]趙軍,黃昌寧.基于復(fù)雜特征的VN結(jié)構(gòu)模板獲取模型[J].軟件學(xué)報(bào),1999,10(1):92-99
[3]李珩,朱靖波,姚天順.基于SVM的中文組塊分析[J].中文信息學(xué)報(bào),2004,18(2):1-7
[4]李麗江.基于多分類器決策的VN組合自動(dòng)標(biāo)注[J].計(jì)算機(jī)工程,2008,34(5):79-82
[5]JOACHIMS T,HOFMANN T.Predicting structured objects with support vector machines[J]. Communications of the Acm,2009,11(52): 97-104
[6]鄧乃揚(yáng),田英杰.數(shù)據(jù)挖掘中的新方法——支持向量機(jī)[M].北京:科學(xué)出版社,2004
[7]周強(qiáng).漢語(yǔ)句法樹庫(kù)標(biāo)注體系[J].中文信息學(xué)報(bào),2004,18(4):1-8
Chinese VN Relation Identification Research Based on SVM and POS Pairs
WANG Zhonghua1, LU Jiaoli2
(1.Department of Mathematics,Taiyuan Normal University,Jinzhong 030619;2.Modern Education Technology Center,Shanxi University, Taiyuan 030006, China)
〔Abstract〕Verb+noun relation called VN structure is an important language phenomenon in Chinese sentence structure, but it can cause ambiguities in parsing and chunk analysis. This paper gives some examples and statistics about the importance of VN relations after the analysis of the basis of statistical information on POS pairs, then ambiguous relationship identification problem between the verb-object relationship and the modifier-head relationship is taken as a classification problem, because of the support vector machine has a good generalization ability in high dimension, small sample data, it can be used as a classifier. Finally, the classification results for the semantic analysis to guide Chinese syntactic disambiguation. The results of experiment show a better relation identification effect.
〔Key words〕VN structure; SVM;POS pairs analysis; relations identification
*收稿日期:2015-12-11
作者簡(jiǎn)介:王仲華(1977-),男,山西昔陽(yáng)人,碩士,太原師范學(xué)院數(shù)學(xué)系講師,主要從事統(tǒng)計(jì)機(jī)器學(xué)習(xí),自然語(yǔ)言處理研究.
〔文章編號(hào)〕1672-2027(2016)01-0035-04〔中圖分類號(hào)〕TP391
〔文獻(xiàn)標(biāo)識(shí)碼〕A