亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于統(tǒng)計(jì)和規(guī)則的常用詞的兼類識(shí)別研究

2013-07-25 02:28:46柴玉梅昝紅英

計(jì)算機(jī)工程與設(shè)計(jì) 2013年2期

夏靜，柴玉梅，昝紅英

(鄭州大學(xué)信息工程學(xué)院，河南鄭州450001)

0 引言

在中文信息處理領(lǐng)域的研究中，漢語語料庫的質(zhì)量具有舉足輕重的作用，高質(zhì)量的語料庫越來越受到學(xué)者們的關(guān)注。目前有許多研究領(lǐng)域都使用到了漢語語料庫，比如:機(jī)器翻譯、語音識(shí)別、文字識(shí)別、信息檢索等。要得到高質(zhì)量的語料庫，詞性標(biāo)注是基礎(chǔ)，目前漢語的詞性標(biāo)注已經(jīng)成為一個(gè)很重要的研究課題。由于詞的兼類現(xiàn)象的普遍存在，給詞性標(biāo)注帶來了很大困難，因此，正確識(shí)別兼類詞的詞性是詞性標(biāo)注問題的關(guān)鍵之一。

“兼類詞“指的是在一定的詞類體系中兼屬兩個(gè)或兩個(gè)以上不同詞類的詞。那么，兼類詞的數(shù)量與給定的詞性標(biāo)記集有關(guān)，一般情況下，詞性標(biāo)記集越詳細(xì)，詞的兼類情況就越復(fù)雜。兼類詞的數(shù)量雖然不多，但使用頻率很高，因此解決好兼類詞的詞性標(biāo)注問題對(duì)于提高詞性標(biāo)注的正確率具有重要意義。目前對(duì)于兼類詞的詞性標(biāo)注的研究，有許多相關(guān)的技術(shù)和文獻(xiàn):基于分類器集成的兼類詞消歧研究［1］、基于條件隨機(jī)場 (CRFs)的中文詞性標(biāo)注方法［2］、基于分類的漢語語料庫詞性標(biāo)注一致性檢查［3］等。這些研究中有些僅僅是選取詞作為特征，在數(shù)據(jù)稀疏時(shí)會(huì)影響分類的結(jié)果;有些僅僅是采用了一種方法對(duì)兼類詞進(jìn)行了研究沒有充分的對(duì)比說明，并且沒有考慮到上下文窗口對(duì)標(biāo)注的影響，針對(duì)目前的研究現(xiàn)狀兼類詞的識(shí)別問題還有待進(jìn)一步的研究。

本文基于兼類詞的詞性與它所在的上下文環(huán)境之間的依賴關(guān)系，綜合考慮了影響兼類詞識(shí)別的詞語信息、詞性信息以及詞語和詞性的復(fù)合信息作為特征，通過對(duì)上下文窗口的設(shè)置來改變特征語料的提取，不斷進(jìn)行測試以找到合適的窗口。采用統(tǒng)計(jì)的不同方法和規(guī)則的方法分別對(duì)兼類詞的識(shí)別進(jìn)行了進(jìn)一步的研究，并取得了較好的結(jié)果。

1 常用詞的兼類識(shí)別

近年來，在自然語言處理 (NLP)研究中，已經(jīng)有許多機(jī)器學(xué)習(xí)的統(tǒng)計(jì)模型，其中有隱馬爾科夫模型 (HMM)、支持向量機(jī) (SVM)、最大熵 (ME)以及條件隨機(jī)場(CRF)等，本文采用了在詞性標(biāo)注方面應(yīng)用較多且效果比較好的條件隨機(jī)場模型、最大熵模型和k最近鄰算法對(duì)兼類詞進(jìn)行標(biāo)注，針對(duì)統(tǒng)計(jì)方法效果不夠理想的詞，又嘗試了規(guī)則的方法進(jìn)行標(biāo)注，最后給出了相應(yīng)的實(shí)驗(yàn)結(jié)果，并進(jìn)行對(duì)比分析。

1.1 基于條件隨機(jī)場模型的識(shí)別

條件隨機(jī)場 (conditional RandomFields，CRF)的概念自2001年被J.Lafferty等人［4］提出以來，被廣泛應(yīng)用在信息抽取、命名實(shí)體識(shí)別、語義角色標(biāo)注［5］、漢語詞義消歧［6］等領(lǐng)域。CRF的突出優(yōu)點(diǎn)就是可以相對(duì)任意地加入任何與處理對(duì)象相關(guān)的語言學(xué)特征，并且能夠充分考慮上下文中的特征，綜合利用詞和詞性等資源，所以，對(duì)于基于CRF模型的兼類詞識(shí)別，主要考慮選取哪些特征對(duì)詞性識(shí)別有利，而不必顧及其他的因素。

兼類詞的詞性識(shí)別看做是一個(gè)序列標(biāo)注任務(wù)，通過判斷該兼類詞所在的不同的上下文環(huán)境，即考慮詞語、詞性以及詞語和詞性的復(fù)合信息進(jìn)行特征的選取，并根據(jù)這些特征判斷其所屬的詞性。

在基于CRF的兼類詞詞性標(biāo)注中，需要將訓(xùn)練文件和測試文件轉(zhuǎn)換成一定的文件格式。訓(xùn)練和測試文件必須包含多個(gè)塊，一個(gè)中文句子對(duì)應(yīng)一個(gè)塊，塊與塊之間用空格間隔，每個(gè)塊包含多個(gè)tokens，每個(gè)token必須寫在一行上，且包含多個(gè)列，各列之間用空格間隔。Token的定義可以根據(jù)具體的要求來選擇，如詞語信息、詞性信息等。我們需要對(duì)語料進(jìn)行預(yù)處理，把含有該兼類詞的所有句子都提取出來。表1為上下文窗口為4的數(shù)據(jù)格式。

在表1中，W代表的是該兼類詞，W-i(i=1、2、3……)，P-i(i=1、2、3……)分別代表在上下文環(huán)境中該兼類詞左邊 (上文)緊鄰的詞語和詞性信息。W+i(i=1、2、3……)，P+i(i=1、2、3……)分別表示在上下文環(huán)境中該兼類詞右邊 (下文)緊鄰的詞語和詞性。P表示該兼類詞的詞性編碼。

表1 上下文窗口為4的數(shù)據(jù)格式

例如，兼類詞“以”的上下文窗口為4的數(shù)據(jù)格式如下

以根本 a利益 n，wd并 c此 rz作為 vl改革 v發(fā)展 v p

模板文件可以定義一元特征、二元特征及n元特征，同時(shí)也可以定義復(fù)合特征。模板的格式樣例如下所示:

#Unigram

U01:%x［0，1］/%x ［0，2］

U02:%x［0，3］/%x ［0，4］

U03:%x［0，5］/%x ［0，6］

U04:%x［0，7］/%x ［0，8］

U05:%x［0，9］/%x ［0，10］

U06:%x［0，11］/%x ［0，12］

U07:%x［0，13］/%x ［0，14］

U08:%x［0，15］/%x ［0，16］

#Bigram

通過選擇不同的模板進(jìn)行標(biāo)注，我們需要得到以下結(jié)果，用兼類詞“以”為例，如下是標(biāo)注后的結(jié)果:

以根本a利益n，wd并c此rz作為vl改革v發(fā)展v p p

對(duì)比標(biāo)注后的結(jié)果，第17列代表兼類詞“以”在未標(biāo)注語料句子中的原始詞性，即標(biāo)注前的詞性;第18列表示實(shí)驗(yàn)標(biāo)注后的詞性，即CRF標(biāo)注的結(jié)果。

1.2 基于最大熵模型的識(shí)別

最大熵模型的概念最早是由E.T.Jaynes在1957年提出［7］，其基本原理就是當(dāng)把不完整的信息當(dāng)做依據(jù)去做預(yù)測時(shí)，應(yīng)當(dāng)由滿足分布限制條件且熵最大的概率分布得到，也就是對(duì)未知的知識(shí)進(jìn)行預(yù)測時(shí)根據(jù)已有的知識(shí)建模，而對(duì)未知的知識(shí)不做任何的假設(shè)。在自然語言處理中，最大熵模型已經(jīng)有許多重要的應(yīng)用，在詞義消歧［8］、詞性標(biāo)注［9］、文本情感傾向性分類［10］、組塊分析等方面取得了較好的效果，因?yàn)槠鋵?duì)特征之間不要求其獨(dú)立性，所以不用考慮它們之間是否會(huì)相互影響。

針對(duì)最大熵模型在兼類詞識(shí)別的問題上，可以把兼類詞的目標(biāo)類看成是在其上下文的環(huán)境中所發(fā)生的概率，這個(gè)語境條件可以包括上下文的詞語、詞性以及句子結(jié)構(gòu)等信息特征。在本文中主要考慮選取哪些特征對(duì)兼類詞的識(shí)別有用而不用顧及其它的因素，通過對(duì)語料的大量分析，主要選擇兼類詞所在上下文中的“詞語”信息、 “詞性”信息、“詞語+詞性”復(fù)合信息作為ME模型的特征，對(duì)于不同的兼類詞來說，特征選擇不同識(shí)別結(jié)果也會(huì)不同。本文把最大熵模型應(yīng)用在兼類詞的識(shí)別方面，并取得了較好的實(shí)驗(yàn)結(jié)果。

在基于ME的兼類詞詞性標(biāo)注中，需要將訓(xùn)練文件和測試文件轉(zhuǎn)換成如下的文件格式

其中，lable是兼類詞標(biāo)注的類別，f1，f2，…，fn是提取特征的相應(yīng)標(biāo)號(hào)，v1，v2，…，vn是所提取的不同特征。

例如，上下文窗口為4的兼類詞“以”所使用的訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)格式:

“p w0=以 w-4=根本 p-4=a wp-4=根本a w-3=利益 p-3=n wp-3=利益n w-2=，p-2=wd wp-2=，wd w-1=并 p-1=c wp-1=并 c w+1=此p+1=rz wp+1=此rz w+2=作為 p+2=vl wp+2=作為vl w+3=改革 p+3=v wp+3=改革v w+4=發(fā)展 p+4=v wp+4=發(fā)展v”

其中，w表示詞語，p表示詞性，wp表示詞語與詞性的組合特征，，w0表示待標(biāo)注的兼類詞，p為待標(biāo)注兼類詞的詞性編碼。對(duì)于測試數(shù)據(jù)來說第一列可以去掉，但為了便于實(shí)驗(yàn)結(jié)果的統(tǒng)計(jì)，保留測試數(shù)據(jù)中的第一列。當(dāng)標(biāo)準(zhǔn)語料經(jīng)過預(yù)處理得到上述格式后，就可以根據(jù)需要的不同特征對(duì)數(shù)據(jù)進(jìn)行不同的預(yù)處理。

1.3 基于K最近鄰算法的識(shí)別

K近鄰方法 (k-nearest neighbor，KNN)是基于統(tǒng)計(jì)的分類算法，是數(shù)據(jù)挖掘分類算法中比較常用的一種方法，它是由Cover和Hart在1968年首次提出的，屬于懶惰學(xué)習(xí)方法，思想十分簡單直觀，原理上依賴于極限定理。分類思想是:給定一個(gè)待分類的樣本x，首先找出與x最接近的或最相似的K個(gè)已知類別標(biāo)簽的訓(xùn)練集樣本，然后根據(jù)這K個(gè)訓(xùn)練樣本的類別標(biāo)簽確定樣本x的類別。

在KNN算法中，所選擇的鄰居都是已經(jīng)正確分類的對(duì)象，該方法在定類決策上只依據(jù)最鄰近的一個(gè)或者幾個(gè)樣本的類別來決定待分樣本所屬的類別，主要靠周圍有限的鄰近的樣本，而不是靠判別類域的方法來確定所屬類別的，因此對(duì)于類域的交叉或重疊較多的待分樣本集來說，KNN方法較其他方法更為適合。同時(shí)，在類別分類的時(shí)候，影響分類的結(jié)果只與少量的最相似樣本相關(guān)，所以，KNN算法可以有效的避免樣本分布不平衡所帶來的影響。在這里k的選擇比較關(guān)鍵，如果k值太小，可能對(duì)數(shù)據(jù)的局部特征比較敏感導(dǎo)致分類結(jié)果不穩(wěn)定，k值太大，也會(huì)平滑掉單個(gè)數(shù)據(jù)點(diǎn)產(chǎn)生的影響，造成結(jié)果偏差。

在基于k最近鄰算法的識(shí)別中，我們選擇數(shù)據(jù)挖掘中最常用的工具weka進(jìn)行實(shí)驗(yàn)，針對(duì)需要得到的不同特征結(jié)果，編寫預(yù)處理程序，不需要寫特征模板。在這里，我們分別選取了 (詞、詞性、詞+詞性)3種不同特征對(duì)實(shí)驗(yàn)語料進(jìn)行了處理，并且通過選擇合適的窗口得到不同的特征信息，綜合考慮了在KNN方法中，這3種特征對(duì)兼類詞識(shí)別的影響。

1.4 基于規(guī)則的方法

基于規(guī)則的兼類詞識(shí)別，就是針對(duì)兼類詞在不同上下文中的使用構(gòu)建識(shí)別規(guī)則，然后通過編制識(shí)別程序，對(duì)語料庫中的兼類詞進(jìn)行詞性識(shí)別和標(biāo)注。目前，鄭州大學(xué)自然語言處理實(shí)驗(yàn)室根據(jù)現(xiàn)代漢語虛詞用法特征的不同表現(xiàn)，構(gòu)建了三位一體的虛詞知識(shí)庫［11-12］。

本文主要是針對(duì)一些用統(tǒng)計(jì)方法識(shí)別效果不夠好的兼類詞考慮基于規(guī)則的方法，即根據(jù)它們不同詞性的不同特征，抽取其中具有可操作性的判斷條件，利用BNF范式對(duì)兼類詞的詞性進(jìn)行了描述。具體做法是:首先根據(jù)這些兼類詞在上下文中的詞語、詞性信息以及在句子中的結(jié)構(gòu)關(guān)系構(gòu)建一組規(guī)則，未來得到正確性和完備性更好的規(guī)則，需要在大量的語料上對(duì)規(guī)則進(jìn)行反復(fù)測試、改進(jìn)，最終得到識(shí)別效果比較好的規(guī)則庫。

兼類詞詞性的規(guī)則可以形式化描述為:

＜ID ＞ → ［F］［M］［L］［R］［N］［E］

F→＜詞1＞|＜詞2＞|…|a|v|n|…

M→＜詞1＞|＜詞2＞|…|a|v|n|…

L→＜詞1＞|＜詞2＞|…|a|v|n|…

R→＜詞1＞|＜詞2＞|…|a|v|n|…

N→＜詞1＞|＜詞2＞|…|a|v|n|…

E→＜詞1＞|＜詞2＞|…|a|v|n|…

其中，ID為所識(shí)別的兼類詞的詞性編碼，F(xiàn)表示句首信息，M表示其左邊搭配的詞語或詞性信息，L表示其左邊緊鄰的信息，R表示其右邊緊鄰的信息，N表示其右邊搭配的信息，E表示句末信息。

如下是兼類詞“首先”的規(guī)則描述樣例:

MYM首先

@ ＜c＞→N^N→其次|第二|然后|隨后|之后|再

@ ＜d＞→R^R→v

@ ＜c＞→F^F→ ～

@ ＜d＞→N^N→ ［w］*v

兼類詞的每一個(gè)詞性規(guī)則都可以看做是一個(gè)模式表達(dá)式，因?yàn)榉?hào)的特殊性，這個(gè)模式語言的定義并不能認(rèn)為是正則表達(dá)式。在本文中我們考慮把兼類詞的識(shí)別問題看成是字符串的匹配問題，而正則表達(dá)式在文本字符的處理方面具有高效、易用的優(yōu)點(diǎn)，所以考慮將BNF范式的規(guī)則轉(zhuǎn)換成正則表達(dá)式，即將BNF形式的規(guī)則中各種特征所定義的詞性進(jìn)行實(shí)例化，然后用實(shí)例化后所得到的詞集去替換對(duì)應(yīng)的詞性字符，在對(duì)其它的匹配字符也做相應(yīng)的轉(zhuǎn)化，就得到了規(guī)則的正則表達(dá)式，最后對(duì)語料在特征屬性匹配器上進(jìn)行字符串的匹配，根據(jù)匹配結(jié)果確定兼類詞的詞性編碼。

具體的算法思想如下:

(1)初始化語料庫和兼類詞的規(guī)則庫，讀取的語料按行存放，即將文本語料切分成一個(gè)個(gè)的句子，并以動(dòng)態(tài)數(shù)組的形式讀入內(nèi)存中，兼類詞的規(guī)則是以哈希表的形式寫入內(nèi)存。

(2)讀取待識(shí)別的一個(gè)整句，并找出句子中所要識(shí)別的兼類詞以及對(duì)應(yīng)的規(guī)則，然后對(duì)整句進(jìn)行預(yù)處理，得出兼類詞在原始語句中的位置。

(3)第三步是一個(gè)規(guī)則解析、識(shí)別匹配的過程，在找到待標(biāo)兼類詞的規(guī)則后，按照規(guī)則順序讀取規(guī)則，按照規(guī)則的描述由匹配器調(diào)度程序確定出發(fā)的匹配器類型，然后由相應(yīng)的匹配器解析規(guī)則并進(jìn)行對(duì)應(yīng)的匹配。

(4)最后根據(jù)匹配的結(jié)果確定兼類詞的詞性標(biāo)注結(jié)果，如果這個(gè)句子中的所有兼類詞都已經(jīng)標(biāo)注完畢，就轉(zhuǎn)到上一步中繼續(xù)讀取下一個(gè)句子，循環(huán)進(jìn)行，直到所有句子都標(biāo)注完畢。

以2000年1月份分詞和詞性標(biāo)注的《人民日?qǐng)?bào)》語料作為兼類詞識(shí)別研究的語料庫之一，下面是包含兼類詞“首先”的語料樣例:

機(jī)器在對(duì)其進(jìn)行識(shí)別的時(shí)候，首先要讀取語料文件和規(guī)則文件，也就是對(duì)語料和規(guī)則進(jìn)行初始化，語料以行為單位讀入數(shù)組中，規(guī)則是以哈希表的形式存放在內(nèi)存中，讀取一條規(guī)則判斷是否與數(shù)組中的語料匹配，如果匹配不成功，則繼續(xù)讀取第二條規(guī)則，判斷是否與語料進(jìn)行匹配，如果匹配成功，則把該規(guī)則所表示的詞性代碼標(biāo)注在語料上。如下是兼類詞“首先“標(biāo)注后的結(jié)果樣例:

2 實(shí)驗(yàn)設(shè)計(jì)與分析

實(shí)驗(yàn)語料采用的是2000年1月的已完成切詞和詞性標(biāo)注的《人民日?qǐng)?bào)》語料，并進(jìn)行人工校對(duì)后作為實(shí)驗(yàn)用的標(biāo)準(zhǔn)語料。標(biāo)注系統(tǒng)的性能很大程度上取決于訓(xùn)練和測試模型所使用的特征，根據(jù)不同模型訓(xùn)練數(shù)據(jù)的格式和兼類詞語境的特點(diǎn)，我們把上下文窗口的有效范圍控制在 (-5，5)，即考慮該兼類詞在句子中上下文窗口5以內(nèi)的詞語、詞性及 (詞語+詞性)復(fù)合信息，這樣可以獲得較好的識(shí)別結(jié)果，如果窗口再增大，有效信息也不會(huì)明顯的增加，反而會(huì)帶來更多的噪音。

2.1 基于條件隨機(jī)場方法

本文采用CRF++工具包 (CRF++:Yet Another Toolkit［CP/OL］.http://www.chasen.org/ ～ taku/software/CRF++)作為自動(dòng)標(biāo)注工具。為了更好地驗(yàn)證模型的性能，對(duì)每個(gè)詞都采用了4折交叉驗(yàn)證，最后得到各個(gè)詞的平均交叉結(jié)果。

表2是3種不同特征的CRF模型實(shí)驗(yàn)結(jié)果對(duì)比，對(duì)常用的兼類詞進(jìn)行了實(shí)驗(yàn)，下表中選取了幾個(gè)具有代表性的兼類詞。其中，a代表使用詞語為特征的信息，b代表使用詞性為特征的信息，c代表使用 (詞語+詞性)復(fù)合特征的信息。

表2 CRF準(zhǔn)確率

從表2的實(shí)驗(yàn)結(jié)果可以看出，用基于統(tǒng)計(jì)CRF模型的方法進(jìn)行兼類詞的識(shí)別，正確率基本上可以達(dá)到90%以上，當(dāng)選取兼類詞上下文的詞性信息做為特征進(jìn)行兼類詞的識(shí)別時(shí)，正確率比其他兩種特征 (詞語或者詞語+詞性)都要高，由此可見，特征模板b能夠有效的提高兼類詞標(biāo)注的正確率。當(dāng)然也不排除出現(xiàn)的個(gè)別現(xiàn)象，比如上面的兼類詞“首先”就是在選取詞語為特征時(shí)正確率比較高。

2.2 基于最大熵方法

本文在基于最大熵的兼類詞識(shí)別實(shí)驗(yàn)中，模型的訓(xùn)練和測試使用了Zhang Le的最大熵工具包maxent maxent(http://homepages.inf.ed.ac.uk/s0450736/maxent_too lkit.html)。

在本文實(shí)驗(yàn)中，我們對(duì)實(shí)驗(yàn)所用的標(biāo)準(zhǔn)語料按照maxent工具包可識(shí)別的格式進(jìn)行預(yù)處理。我們選取了不同的特征(a詞語特征、b詞性特征、c詞語+詞性復(fù)合特征)進(jìn)行實(shí)驗(yàn)，對(duì)每個(gè)詞的ME模型都采用了4折交叉驗(yàn)證，得到各個(gè)詞的平均交叉結(jié)果，并把3種不同特征的結(jié)果進(jìn)行比較分析。表3是三種不同特征的ME模型的實(shí)驗(yàn)結(jié)果對(duì)比。

表3 ME準(zhǔn)確率

由表3的實(shí)驗(yàn)結(jié)果可以得出，用基于最大熵模型的方法對(duì)兼類詞進(jìn)行識(shí)別時(shí)，大部分兼類詞在選取特征模板b(上下文的詞性信息)進(jìn)行實(shí)驗(yàn)時(shí)正確率比較高，但整體分類效果不如CRF模型的好。也有一些個(gè)別現(xiàn)象，如兼類詞“首先”的ME正確率略高于CRF模型的結(jié)果。

2.3 基于k最近鄰的方法

我們用的是數(shù)據(jù)挖掘最常用的工具weka進(jìn)行分類實(shí)驗(yàn)，首先通過預(yù)處理程序?qū)?shí)驗(yàn)語料進(jìn)行不同特征的處理，通過實(shí)驗(yàn)選取合適的k值，并且經(jīng)過大量的交叉驗(yàn)證實(shí)驗(yàn)得出，大部分的詞都是在交叉系數(shù)為10或者11時(shí)正確率比較高。表4是3種不同特征的KNN方法的實(shí)驗(yàn)結(jié)果對(duì)比。

表4 KNN準(zhǔn)確率

由表4的實(shí)驗(yàn)結(jié)果可以得出，用基于k最近鄰的方法對(duì)兼類詞進(jìn)行識(shí)別時(shí)可以有效的提高識(shí)別的正確率，并且標(biāo)注正確率可以達(dá)到90%左右。當(dāng)我們選取上下文的 (詞+詞性)為特征時(shí)，也就是用特征模板c可以更好地提高識(shí)別正確率，但整體效果不如前兩種方法。有些兼類詞的個(gè)別現(xiàn)象主要是由于它的詞性在語料中分布不均勻所造成的。

圖1 三種統(tǒng)計(jì)方法的實(shí)驗(yàn)結(jié)果

從圖1的結(jié)果可以看出，在用基于條件隨機(jī)場方法對(duì)兼類詞進(jìn)行識(shí)別，并且選取詞性信息作為特征模板時(shí)，正確率比較高，總體上優(yōu)于ME方法和KNN方法，并且在用不同的統(tǒng)計(jì)方法進(jìn)行兼類詞的識(shí)別時(shí)，針對(duì)不同的方法選取對(duì)其有效的特征信息也是很重要的。但觀察圖1中兼類詞的實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)，這些詞并不是都存在一致的現(xiàn)象，如:“首先”就是ME模型識(shí)別效果比較好，針對(duì)這些個(gè)別現(xiàn)象，我們考慮了規(guī)則的方法。

2.4 基于規(guī)則的方法

針對(duì)以上統(tǒng)計(jì)方法識(shí)別效果不夠好的兼類詞，如:“首先”、“只有”等，這些兼類詞在用統(tǒng)計(jì)方法以及特征選取時(shí)跟大部分兼類詞的情況不一致，對(duì)于這些個(gè)別現(xiàn)象的詞，又嘗試了利用規(guī)則的識(shí)別方法，以下是規(guī)則的實(shí)驗(yàn)結(jié)果。

表5 規(guī)則結(jié)果對(duì)比

對(duì)于統(tǒng)計(jì)方法識(shí)別結(jié)果不好的詞，可能是由于這些詞在不同上下文的語境中很難找到一個(gè)整體一致的特征，其特征呈現(xiàn)多樣化，以此影響了識(shí)別的準(zhǔn)確率。由表5結(jié)果可以看出，這幾個(gè)兼類詞的規(guī)則識(shí)別效果高于統(tǒng)計(jì)方法的結(jié)果，所以針對(duì)基于統(tǒng)計(jì)方法識(shí)別準(zhǔn)確率不高的兼類詞，可以嘗試?yán)靡?guī)則的方法來進(jìn)一步的提高其正確率，當(dāng)然這里邊獲得一個(gè)綜合性很高的規(guī)則是很重要的，需要經(jīng)過在大量的語料上進(jìn)行測試，不斷發(fā)現(xiàn)規(guī)則的問題，并且反復(fù)的修改規(guī)則庫來提高識(shí)別的正確率。

3 結(jié)束語

本文主要使用了基于條件隨機(jī)場、最大熵、K最近鄰三種統(tǒng)計(jì)方法對(duì)常用的兼類詞進(jìn)行識(shí)別研究，并針對(duì)不同的方法分別考慮了兼類詞本身的特點(diǎn)以及在上下文中的詞語、詞性以及詞語+詞性的綜合信息對(duì)其產(chǎn)生的影響，通過對(duì)上下文窗口的設(shè)置進(jìn)一步改變對(duì)特征的提取以達(dá)到較高的識(shí)別準(zhǔn)確率。針對(duì)統(tǒng)計(jì)方法中的個(gè)別現(xiàn)象又考慮了用規(guī)則的方法進(jìn)行研究，并介紹了規(guī)則的形式化描述及基于規(guī)則的兼類詞識(shí)別算法思想。進(jìn)一步的工作是針對(duì)更多的兼類詞嘗試用規(guī)則的方法進(jìn)行識(shí)別，完善規(guī)則庫，并且嘗試用聚類的方法對(duì)兼類詞的識(shí)別進(jìn)行研究。

［1］ZHANG Yizhe，QU Weiguang，LIU Jinke.Research on disambiguation of multiple syntactic category words based on ensemble of classifiers［J］.Journal of Nanjing Normal University，2010，33(4):144-147(in Chinese).［張一哲，曲維光，劉金克.基于分類器集成的兼類詞消歧研究［J］.南京師大學(xué)報(bào)，2010，33(4):144-147.］

［2］HONG Mingcai，ZHANG Kuo，TANG Jie.A Chinese part of speech tagging approach using conditional random fields ［J］.Computer Science，2006，33(10):148-151(in Chinese).［洪銘材，張闊，唐杰.基于條件隨機(jī)場 (CRFs)的中文詞性標(biāo)注方法［J］.計(jì)算機(jī)科學(xué)，2006，33(10):148-151.］

［3］ZHANGHu，ZHENG Jiaheng.Consistency check on POStagging of Chinese corpus based on classification ［J］.Computer Engineering，2008，34(8):90-92(in Chinese).［張虎，鄭家恒.基于分類的漢語語料庫詞性標(biāo)注一致性檢查［J］.計(jì)算機(jī)工程，2008，34(8):90-92.］

［4］Lafferty J，McCallum A，Pereira F.Conditional random fields:probabilistic models for segmenting and labeling sequence data［C］//Proceedings of the 18th ICML-01，2001:282-289.

［5］Cohn T，Blunsom P.Semantic role labeling with tree conditio-nal random fields［C］//Proceedings of the Ninth Conference on Computational Natural Language Learning.Ann Arbor，Michigan:Association for Computational Linguistics，2005:169-172.

［6］MIAO Xuelei.Chinese word sense disambiguation method based on conditional random fields［D］.Shenyang:Shenyang Aerospace U-niversity，2007(in Chinese).［苗雪雷.基于條件隨機(jī)場的漢語詞義消歧方法研究［D］.沈陽:沈陽航空工業(yè)學(xué)院，2007.］

［7］Jaynes E T.Information theory and statistical mechanics ［J］.Physics Reviews，1957.

［8］CHEN Xiaorong，QIN Jin.Maximum entropy-based chinese word sense disambiguation ［J］.Computer Science，2005，32(5):174-176(in Chinese).［陳笑蓉，秦進(jìn).基于最大熵原理的漢語詞義消歧［J］.計(jì)算機(jī)科學(xué)，2005，32(5):174-176.］

［9］ZHANG Lei.Chinese POStagging study based on maximum entropy［D］.Dalian:Dalian University of Technology，2008(in Chinese).［張磊.基于最大熵模型的漢語詞性標(biāo)注研究［D］.大連:大連理工大學(xué)，2008.］

［10］PENG Qiwei.Classification of emotional tendency of the Chinese text based on statistical methods［D］.Taiyuan:Shanxi University，2007(in Chinese).［彭其偉.基于統(tǒng)計(jì)方法的中文文本情感傾向分類研究［D］.太原:山西大學(xué)，2007.］

［11］ZAN Hongying，ZHANG Kunli，CHAI Yumei.The formal description of the modern Chinese adverb usage［C］//The8th Chinese Lexical Semantics Workshop Proceedings，The Hong Kong Polytechnic University，2007(in Chinese).［昝紅英，張坤麗，柴玉梅.現(xiàn)代漢語副詞用法的形式化描述［C］//第八屆漢語詞匯語義學(xué)研討會(huì)論文集，香港理工大學(xué)，2007.］

［12］ZAN Hongying，ZHANG Kunli，CHAI Yumei.Studies on the functional word knowledge base of modern Chinese［J］.Journal of Chinese Information Processing，2007，21(5):107-111(in Chinese).［昝紅英，張坤麗，柴玉梅.現(xiàn)代漢語虛詞知識(shí)庫的研究［J］.中文信息學(xué)報(bào)，2007，21(5):107-111.］