亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于統(tǒng)計(jì)和規(guī)則的常用詞的兼類識(shí)別研究

        2013-07-25 02:28:46柴玉梅昝紅英
        關(guān)鍵詞:兼類語料正確率

        夏 靜,柴玉梅,昝紅英

        (鄭州大學(xué)信息工程學(xué)院,河南鄭州450001)

        0 引言

        在中文信息處理領(lǐng)域的研究中,漢語語料庫的質(zhì)量具有舉足輕重的作用,高質(zhì)量的語料庫越來越受到學(xué)者們的關(guān)注。目前有許多研究領(lǐng)域都使用到了漢語語料庫,比如:機(jī)器翻譯、語音識(shí)別、文字識(shí)別、信息檢索等。要得到高質(zhì)量的語料庫,詞性標(biāo)注是基礎(chǔ),目前漢語的詞性標(biāo)注已經(jīng)成為一個(gè)很重要的研究課題。由于詞的兼類現(xiàn)象的普遍存在,給詞性標(biāo)注帶來了很大困難,因此,正確識(shí)別兼類詞的詞性是詞性標(biāo)注問題的關(guān)鍵之一。

        “兼類詞“指的是在一定的詞類體系中兼屬兩個(gè)或兩個(gè)以上不同詞類的詞。那么,兼類詞的數(shù)量與給定的詞性標(biāo)記集有關(guān),一般情況下,詞性標(biāo)記集越詳細(xì),詞的兼類情況就越復(fù)雜。兼類詞的數(shù)量雖然不多,但使用頻率很高,因此解決好兼類詞的詞性標(biāo)注問題對(duì)于提高詞性標(biāo)注的正確率具有重要意義。目前對(duì)于兼類詞的詞性標(biāo)注的研究,有許多相關(guān)的技術(shù)和文獻(xiàn):基于分類器集成的兼類詞消歧研究[1]、基于條件隨機(jī)場 (CRFs)的中文詞性標(biāo)注方法[2]、基于分類的漢語語料庫詞性標(biāo)注一致性檢查[3]等。這些研究中有些僅僅是選取詞作為特征,在數(shù)據(jù)稀疏時(shí)會(huì)影響分類的結(jié)果;有些僅僅是采用了一種方法對(duì)兼類詞進(jìn)行了研究沒有充分的對(duì)比說明,并且沒有考慮到上下文窗口對(duì)標(biāo)注的影響,針對(duì)目前的研究現(xiàn)狀兼類詞的識(shí)別問題還有待進(jìn)一步的研究。

        本文基于兼類詞的詞性與它所在的上下文環(huán)境之間的依賴關(guān)系,綜合考慮了影響兼類詞識(shí)別的詞語信息、詞性信息以及詞語和詞性的復(fù)合信息作為特征,通過對(duì)上下文窗口的設(shè)置來改變特征語料的提取,不斷進(jìn)行測試以找到合適的窗口。采用統(tǒng)計(jì)的不同方法和規(guī)則的方法分別對(duì)兼類詞的識(shí)別進(jìn)行了進(jìn)一步的研究,并取得了較好的結(jié)果。

        1 常用詞的兼類識(shí)別

        近年來,在自然語言處理 (NLP)研究中,已經(jīng)有許多機(jī)器學(xué)習(xí)的統(tǒng)計(jì)模型,其中有隱馬爾科夫模型 (HMM)、支持向量機(jī) (SVM)、最大熵 (ME)以及條件隨機(jī)場(CRF)等,本文采用了在詞性標(biāo)注方面應(yīng)用較多且效果比較好的條件隨機(jī)場模型、最大熵模型和k最近鄰算法對(duì)兼類詞進(jìn)行標(biāo)注,針對(duì)統(tǒng)計(jì)方法效果不夠理想的詞,又嘗試了規(guī)則的方法進(jìn)行標(biāo)注,最后給出了相應(yīng)的實(shí)驗(yàn)結(jié)果,并進(jìn)行對(duì)比分析。

        1.1 基于條件隨機(jī)場模型的識(shí)別

        條件隨機(jī)場 (conditional RandomFields,CRF)的概念自2001年被J.Lafferty等人[4]提出以來,被廣泛應(yīng)用在信息抽取、命名實(shí)體識(shí)別、語義角色標(biāo)注[5]、漢語詞義消歧[6]等領(lǐng)域。CRF的突出優(yōu)點(diǎn)就是可以相對(duì)任意地加入任何與處理對(duì)象相關(guān)的語言學(xué)特征,并且能夠充分考慮上下文中的特征,綜合利用詞和詞性等資源,所以,對(duì)于基于CRF模型的兼類詞識(shí)別,主要考慮選取哪些特征對(duì)詞性識(shí)別有利,而不必顧及其他的因素。

        兼類詞的詞性識(shí)別看做是一個(gè)序列標(biāo)注任務(wù),通過判斷該兼類詞所在的不同的上下文環(huán)境,即考慮詞語、詞性以及詞語和詞性的復(fù)合信息進(jìn)行特征的選取,并根據(jù)這些特征判斷其所屬的詞性。

        在基于CRF的兼類詞詞性標(biāo)注中,需要將訓(xùn)練文件和測試文件轉(zhuǎn)換成一定的文件格式。訓(xùn)練和測試文件必須包含多個(gè)塊,一個(gè)中文句子對(duì)應(yīng)一個(gè)塊,塊與塊之間用空格間隔,每個(gè)塊包含多個(gè)tokens,每個(gè)token必須寫在一行上,且包含多個(gè)列,各列之間用空格間隔。Token的定義可以根據(jù)具體的要求來選擇,如詞語信息、詞性信息等。我們需要對(duì)語料進(jìn)行預(yù)處理,把含有該兼類詞的所有句子都提取出來。表1為上下文窗口為4的數(shù)據(jù)格式。

        在表1中,W代表的是該兼類詞,W-i(i=1、2、3……),P-i(i=1、2、3……)分別代表在上下文環(huán)境中該兼類詞左邊 (上文)緊鄰的詞語和詞性信息。W+i(i=1、2、3……),P+i(i=1、2、3……)分別表示在上下文環(huán)境中該兼類詞右邊 (下文)緊鄰的詞語和詞性。P表示該兼類詞的詞性編碼。

        表1 上下文窗口為4的數(shù)據(jù)格式

        例如,兼類詞“以”的上下文窗口為4的數(shù)據(jù)格式如下

        以根本 a利益 n,wd并 c此 rz作為 vl改革 v發(fā)展 v p

        模板文件可以定義一元特征、二元特征及n元特征,同時(shí)也可以定義復(fù)合特征。模板的格式樣例如下所示:

        #Unigram

        U01:%x[0,1]/%x [0,2]

        U02:%x[0,3]/%x [0,4]

        U03:%x[0,5]/%x [0,6]

        U04:%x[0,7]/%x [0,8]

        U05:%x[0,9]/%x [0,10]

        U06:%x[0,11]/%x [0,12]

        U07:%x[0,13]/%x [0,14]

        U08:%x[0,15]/%x [0,16]

        #Bigram

        B

        通過選擇不同的模板進(jìn)行標(biāo)注,我們需要得到以下結(jié)果,用兼類詞“以”為例,如下是標(biāo)注后的結(jié)果:

        以根本a利益n,wd并c此rz作為vl改革v發(fā)展v p p

        對(duì)比標(biāo)注后的結(jié)果,第17列代表兼類詞“以”在未標(biāo)注語料句子中的原始詞性,即標(biāo)注前的詞性;第18列表示實(shí)驗(yàn)標(biāo)注后的詞性,即CRF標(biāo)注的結(jié)果。

        1.2 基于最大熵模型的識(shí)別

        最大熵模型的概念最早是由E.T.Jaynes在1957年提出[7],其基本原理就是當(dāng)把不完整的信息當(dāng)做依據(jù)去做預(yù)測時(shí),應(yīng)當(dāng)由滿足分布限制條件且熵最大的概率分布得到,也就是對(duì)未知的知識(shí)進(jìn)行預(yù)測時(shí)根據(jù)已有的知識(shí)建模,而對(duì)未知的知識(shí)不做任何的假設(shè)。在自然語言處理中,最大熵模型已經(jīng)有許多重要的應(yīng)用,在詞義消歧[8]、詞性標(biāo)注[9]、文本情感傾向性分類[10]、組塊分析等方面取得了較好的效果,因?yàn)槠鋵?duì)特征之間不要求其獨(dú)立性,所以不用考慮它們之間是否會(huì)相互影響。

        針對(duì)最大熵模型在兼類詞識(shí)別的問題上,可以把兼類詞的目標(biāo)類看成是在其上下文的環(huán)境中所發(fā)生的概率,這個(gè)語境條件可以包括上下文的詞語、詞性以及句子結(jié)構(gòu)等信息特征。在本文中主要考慮選取哪些特征對(duì)兼類詞的識(shí)別有用而不用顧及其它的因素,通過對(duì)語料的大量分析,主要選擇兼類詞所在上下文中的“詞語”信息、 “詞性”信息、“詞語+詞性”復(fù)合信息作為ME模型的特征,對(duì)于不同的兼類詞來說,特征選擇不同識(shí)別結(jié)果也會(huì)不同。本文把最大熵模型應(yīng)用在兼類詞的識(shí)別方面,并取得了較好的實(shí)驗(yàn)結(jié)果。

        在基于ME的兼類詞詞性標(biāo)注中,需要將訓(xùn)練文件和測試文件轉(zhuǎn)換成如下的文件格式

        其中,lable是兼類詞標(biāo)注的類別,f1,f2,…,fn是提取特征的相應(yīng)標(biāo)號(hào),v1,v2,…,vn是所提取的不同特征。

        例如,上下文窗口為4的兼類詞“以”所使用的訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)格式:

        “p w0=以 w-4=根本 p-4=a wp-4=根本a w-3=利益 p-3=n wp-3=利益n w-2=,p-2=wd wp-2=,wd w-1=并 p-1=c wp-1=并 c w+1=此p+1=rz wp+1=此rz w+2=作為 p+2=vl wp+2=作為vl w+3=改革 p+3=v wp+3=改革v w+4=發(fā)展 p+4=v wp+4=發(fā)展v”

        其中,w表示詞語,p表示詞性,wp表示詞語與詞性的組合特征,,w0表示待標(biāo)注的兼類詞,p為待標(biāo)注兼類詞的詞性編碼。對(duì)于測試數(shù)據(jù)來說第一列可以去掉,但為了便于實(shí)驗(yàn)結(jié)果的統(tǒng)計(jì),保留測試數(shù)據(jù)中的第一列。當(dāng)標(biāo)準(zhǔn)語料經(jīng)過預(yù)處理得到上述格式后,就可以根據(jù)需要的不同特征對(duì)數(shù)據(jù)進(jìn)行不同的預(yù)處理。

        1.3 基于K最近鄰算法的識(shí)別

        K近鄰方法 (k-nearest neighbor,KNN)是基于統(tǒng)計(jì)的分類算法,是數(shù)據(jù)挖掘分類算法中比較常用的一種方法,它是由Cover和Hart在1968年首次提出的,屬于懶惰學(xué)習(xí)方法,思想十分簡單直觀,原理上依賴于極限定理。分類思想是:給定一個(gè)待分類的樣本x,首先找出與x最接近的或最相似的K個(gè)已知類別標(biāo)簽的訓(xùn)練集樣本,然后根據(jù)這K個(gè)訓(xùn)練樣本的類別標(biāo)簽確定樣本x的類別。

        在KNN算法中,所選擇的鄰居都是已經(jīng)正確分類的對(duì)象,該方法在定類決策上只依據(jù)最鄰近的一個(gè)或者幾個(gè)樣本的類別來決定待分樣本所屬的類別,主要靠周圍有限的鄰近的樣本,而不是靠判別類域的方法來確定所屬類別的,因此對(duì)于類域的交叉或重疊較多的待分樣本集來說,KNN方法較其他方法更為適合。同時(shí),在類別分類的時(shí)候,影響分類的結(jié)果只與少量的最相似樣本相關(guān),所以,KNN算法可以有效的避免樣本分布不平衡所帶來的影響。在這里k的選擇比較關(guān)鍵,如果k值太小,可能對(duì)數(shù)據(jù)的局部特征比較敏感導(dǎo)致分類結(jié)果不穩(wěn)定,k值太大,也會(huì)平滑掉單個(gè)數(shù)據(jù)點(diǎn)產(chǎn)生的影響,造成結(jié)果偏差。

        在基于k最近鄰算法的識(shí)別中,我們選擇數(shù)據(jù)挖掘中最常用的工具weka進(jìn)行實(shí)驗(yàn),針對(duì)需要得到的不同特征結(jié)果,編寫預(yù)處理程序,不需要寫特征模板。在這里,我們分別選取了 (詞、詞性、詞+詞性)3種不同特征對(duì)實(shí)驗(yàn)語料進(jìn)行了處理,并且通過選擇合適的窗口得到不同的特征信息,綜合考慮了在KNN方法中,這3種特征對(duì)兼類詞識(shí)別的影響。

        1.4 基于規(guī)則的方法

        基于規(guī)則的兼類詞識(shí)別,就是針對(duì)兼類詞在不同上下文中的使用構(gòu)建識(shí)別規(guī)則,然后通過編制識(shí)別程序,對(duì)語料庫中的兼類詞進(jìn)行詞性識(shí)別和標(biāo)注。目前,鄭州大學(xué)自然語言處理實(shí)驗(yàn)室根據(jù)現(xiàn)代漢語虛詞用法特征的不同表現(xiàn),構(gòu)建了三位一體的虛詞知識(shí)庫[11-12]。

        本文主要是針對(duì)一些用統(tǒng)計(jì)方法識(shí)別效果不夠好的兼類詞考慮基于規(guī)則的方法,即根據(jù)它們不同詞性的不同特征,抽取其中具有可操作性的判斷條件,利用BNF范式對(duì)兼類詞的詞性進(jìn)行了描述。具體做法是:首先根據(jù)這些兼類詞在上下文中的詞語、詞性信息以及在句子中的結(jié)構(gòu)關(guān)系構(gòu)建一組規(guī)則,未來得到正確性和完備性更好的規(guī)則,需要在大量的語料上對(duì)規(guī)則進(jìn)行反復(fù)測試、改進(jìn),最終得到識(shí)別效果比較好的規(guī)則庫。

        兼類詞詞性的規(guī)則可以形式化描述為:

        <ID > → [F][M][L][R][N][E]

        F→<詞1>|<詞2>|…|a|v|n|…

        M→<詞1>|<詞2>|…|a|v|n|…

        L→<詞1>|<詞2>|…|a|v|n|…

        R→<詞1>|<詞2>|…|a|v|n|…

        N→<詞1>|<詞2>|…|a|v|n|…

        E→<詞1>|<詞2>|…|a|v|n|…

        其中,ID為所識(shí)別的兼類詞的詞性編碼,F(xiàn)表示句首信息,M表示其左邊搭配的詞語或詞性信息,L表示其左邊緊鄰的信息,R表示其右邊緊鄰的信息,N表示其右邊搭配的信息,E表示句末信息。

        如下是兼類詞“首先”的規(guī)則描述樣例:

        MYM首先

        @ <c>→N^N→其次|第二|然后|隨后|之后|再

        @ <d>→R^R→v

        @ <c>→F^F→ ~

        @ <d>→N^N→ [w]*v

        兼類詞的每一個(gè)詞性規(guī)則都可以看做是一個(gè)模式表達(dá)式,因?yàn)榉?hào)的特殊性,這個(gè)模式語言的定義并不能認(rèn)為是正則表達(dá)式。在本文中我們考慮把兼類詞的識(shí)別問題看成是字符串的匹配問題,而正則表達(dá)式在文本字符的處理方面具有高效、易用的優(yōu)點(diǎn),所以考慮將BNF范式的規(guī)則轉(zhuǎn)換成正則表達(dá)式,即將BNF形式的規(guī)則中各種特征所定義的詞性進(jìn)行實(shí)例化,然后用實(shí)例化后所得到的詞集去替換對(duì)應(yīng)的詞性字符,在對(duì)其它的匹配字符也做相應(yīng)的轉(zhuǎn)化,就得到了規(guī)則的正則表達(dá)式,最后對(duì)語料在特征屬性匹配器上進(jìn)行字符串的匹配,根據(jù)匹配結(jié)果確定兼類詞的詞性編碼。

        具體的算法思想如下:

        (1)初始化語料庫和兼類詞的規(guī)則庫,讀取的語料按行存放,即將文本語料切分成一個(gè)個(gè)的句子,并以動(dòng)態(tài)數(shù)組的形式讀入內(nèi)存中,兼類詞的規(guī)則是以哈希表的形式寫入內(nèi)存。

        (2)讀取待識(shí)別的一個(gè)整句,并找出句子中所要識(shí)別的兼類詞以及對(duì)應(yīng)的規(guī)則,然后對(duì)整句進(jìn)行預(yù)處理,得出兼類詞在原始語句中的位置。

        (3)第三步是一個(gè)規(guī)則解析、識(shí)別匹配的過程,在找到待標(biāo)兼類詞的規(guī)則后,按照規(guī)則順序讀取規(guī)則,按照規(guī)則的描述由匹配器調(diào)度程序確定出發(fā)的匹配器類型,然后由相應(yīng)的匹配器解析規(guī)則并進(jìn)行對(duì)應(yīng)的匹配。

        (4)最后根據(jù)匹配的結(jié)果確定兼類詞的詞性標(biāo)注結(jié)果,如果這個(gè)句子中的所有兼類詞都已經(jīng)標(biāo)注完畢,就轉(zhuǎn)到上一步中繼續(xù)讀取下一個(gè)句子,循環(huán)進(jìn)行,直到所有句子都標(biāo)注完畢。

        以2000年1月份分詞和詞性標(biāo)注的《人民日?qǐng)?bào)》語料作為兼類詞識(shí)別研究的語料庫之一,下面是包含兼類詞“首先”的語料樣例:

        機(jī)器在對(duì)其進(jìn)行識(shí)別的時(shí)候,首先要讀取語料文件和規(guī)則文件,也就是對(duì)語料和規(guī)則進(jìn)行初始化,語料以行為單位讀入數(shù)組中,規(guī)則是以哈希表的形式存放在內(nèi)存中,讀取一條規(guī)則判斷是否與數(shù)組中的語料匹配,如果匹配不成功,則繼續(xù)讀取第二條規(guī)則,判斷是否與語料進(jìn)行匹配,如果匹配成功,則把該規(guī)則所表示的詞性代碼標(biāo)注在語料上。如下是兼類詞“首先“標(biāo)注后的結(jié)果樣例:

        2 實(shí)驗(yàn)設(shè)計(jì)與分析

        實(shí)驗(yàn)語料采用的是2000年1月的已完成切詞和詞性標(biāo)注的《人民日?qǐng)?bào)》語料,并進(jìn)行人工校對(duì)后作為實(shí)驗(yàn)用的標(biāo)準(zhǔn)語料。標(biāo)注系統(tǒng)的性能很大程度上取決于訓(xùn)練和測試模型所使用的特征,根據(jù)不同模型訓(xùn)練數(shù)據(jù)的格式和兼類詞語境的特點(diǎn),我們把上下文窗口的有效范圍控制在 (-5,5),即考慮該兼類詞在句子中上下文窗口5以內(nèi)的詞語、詞性及 (詞語+詞性)復(fù)合信息,這樣可以獲得較好的識(shí)別結(jié)果,如果窗口再增大,有效信息也不會(huì)明顯的增加,反而會(huì)帶來更多的噪音。

        2.1 基于條件隨機(jī)場方法

        本文采用CRF++工具包 (CRF++:Yet Another Toolkit[CP/OL].http://www.chasen.org/ ~ taku/software/CRF++)作為自動(dòng)標(biāo)注工具。為了更好地驗(yàn)證模型的性能,對(duì)每個(gè)詞都采用了4折交叉驗(yàn)證,最后得到各個(gè)詞的平均交叉結(jié)果。

        表2是3種不同特征的CRF模型實(shí)驗(yàn)結(jié)果對(duì)比,對(duì)常用的兼類詞進(jìn)行了實(shí)驗(yàn),下表中選取了幾個(gè)具有代表性的兼類詞。其中,a代表使用詞語為特征的信息,b代表使用詞性為特征的信息,c代表使用 (詞語+詞性)復(fù)合特征的信息。

        表2 CRF準(zhǔn)確率

        從表2的實(shí)驗(yàn)結(jié)果可以看出,用基于統(tǒng)計(jì)CRF模型的方法進(jìn)行兼類詞的識(shí)別,正確率基本上可以達(dá)到90%以上,當(dāng)選取兼類詞上下文的詞性信息做為特征進(jìn)行兼類詞的識(shí)別時(shí),正確率比其他兩種特征 (詞語或者詞語+詞性)都要高,由此可見,特征模板b能夠有效的提高兼類詞標(biāo)注的正確率。當(dāng)然也不排除出現(xiàn)的個(gè)別現(xiàn)象,比如上面的兼類詞“首先”就是在選取詞語為特征時(shí)正確率比較高。

        2.2 基于最大熵方法

        本文在基于最大熵的兼類詞識(shí)別實(shí)驗(yàn)中,模型的訓(xùn)練和測試使用了Zhang Le的最大熵工具包maxent maxent(http://homepages.inf.ed.ac.uk/s0450736/maxent_too lkit.html)。

        在本文實(shí)驗(yàn)中,我們對(duì)實(shí)驗(yàn)所用的標(biāo)準(zhǔn)語料按照maxent工具包可識(shí)別的格式進(jìn)行預(yù)處理。我們選取了不同的特征(a詞語特征、b詞性特征、c詞語+詞性復(fù)合特征)進(jìn)行實(shí)驗(yàn),對(duì)每個(gè)詞的ME模型都采用了4折交叉驗(yàn)證,得到各個(gè)詞的平均交叉結(jié)果,并把3種不同特征的結(jié)果進(jìn)行比較分析。表3是三種不同特征的ME模型的實(shí)驗(yàn)結(jié)果對(duì)比。

        表3 ME準(zhǔn)確率

        由表3的實(shí)驗(yàn)結(jié)果可以得出,用基于最大熵模型的方法對(duì)兼類詞進(jìn)行識(shí)別時(shí),大部分兼類詞在選取特征模板b(上下文的詞性信息)進(jìn)行實(shí)驗(yàn)時(shí)正確率比較高,但整體分類效果不如CRF模型的好。也有一些個(gè)別現(xiàn)象,如兼類詞“首先”的ME正確率略高于CRF模型的結(jié)果。

        2.3 基于k最近鄰的方法

        我們用的是數(shù)據(jù)挖掘最常用的工具weka進(jìn)行分類實(shí)驗(yàn),首先通過預(yù)處理程序?qū)?shí)驗(yàn)語料進(jìn)行不同特征的處理,通過實(shí)驗(yàn)選取合適的k值,并且經(jīng)過大量的交叉驗(yàn)證實(shí)驗(yàn)得出,大部分的詞都是在交叉系數(shù)為10或者11時(shí)正確率比較高。表4是3種不同特征的KNN方法的實(shí)驗(yàn)結(jié)果對(duì)比。

        表4 KNN準(zhǔn)確率

        由表4的實(shí)驗(yàn)結(jié)果可以得出,用基于k最近鄰的方法對(duì)兼類詞進(jìn)行識(shí)別時(shí)可以有效的提高識(shí)別的正確率,并且標(biāo)注正確率可以達(dá)到90%左右。當(dāng)我們選取上下文的 (詞+詞性)為特征時(shí),也就是用特征模板c可以更好地提高識(shí)別正確率,但整體效果不如前兩種方法。有些兼類詞的個(gè)別現(xiàn)象主要是由于它的詞性在語料中分布不均勻所造成的。

        圖1 三種統(tǒng)計(jì)方法的實(shí)驗(yàn)結(jié)果

        從圖1的結(jié)果可以看出,在用基于條件隨機(jī)場方法對(duì)兼類詞進(jìn)行識(shí)別,并且選取詞性信息作為特征模板時(shí),正確率比較高,總體上優(yōu)于ME方法和KNN方法,并且在用不同的統(tǒng)計(jì)方法進(jìn)行兼類詞的識(shí)別時(shí),針對(duì)不同的方法選取對(duì)其有效的特征信息也是很重要的。但觀察圖1中兼類詞的實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),這些詞并不是都存在一致的現(xiàn)象,如:“首先”就是ME模型識(shí)別效果比較好,針對(duì)這些個(gè)別現(xiàn)象,我們考慮了規(guī)則的方法。

        2.4 基于規(guī)則的方法

        針對(duì)以上統(tǒng)計(jì)方法識(shí)別效果不夠好的兼類詞,如:“首先”、“只有”等,這些兼類詞在用統(tǒng)計(jì)方法以及特征選取時(shí)跟大部分兼類詞的情況不一致,對(duì)于這些個(gè)別現(xiàn)象的詞,又嘗試了利用規(guī)則的識(shí)別方法,以下是規(guī)則的實(shí)驗(yàn)結(jié)果。

        表5 規(guī)則結(jié)果對(duì)比

        對(duì)于統(tǒng)計(jì)方法識(shí)別結(jié)果不好的詞,可能是由于這些詞在不同上下文的語境中很難找到一個(gè)整體一致的特征,其特征呈現(xiàn)多樣化,以此影響了識(shí)別的準(zhǔn)確率。由表5結(jié)果可以看出,這幾個(gè)兼類詞的規(guī)則識(shí)別效果高于統(tǒng)計(jì)方法的結(jié)果,所以針對(duì)基于統(tǒng)計(jì)方法識(shí)別準(zhǔn)確率不高的兼類詞,可以嘗試?yán)靡?guī)則的方法來進(jìn)一步的提高其正確率,當(dāng)然這里邊獲得一個(gè)綜合性很高的規(guī)則是很重要的,需要經(jīng)過在大量的語料上進(jìn)行測試,不斷發(fā)現(xiàn)規(guī)則的問題,并且反復(fù)的修改規(guī)則庫來提高識(shí)別的正確率。

        3 結(jié)束語

        本文主要使用了基于條件隨機(jī)場、最大熵、K最近鄰三種統(tǒng)計(jì)方法對(duì)常用的兼類詞進(jìn)行識(shí)別研究,并針對(duì)不同的方法分別考慮了兼類詞本身的特點(diǎn)以及在上下文中的詞語、詞性以及詞語+詞性的綜合信息對(duì)其產(chǎn)生的影響,通過對(duì)上下文窗口的設(shè)置進(jìn)一步改變對(duì)特征的提取以達(dá)到較高的識(shí)別準(zhǔn)確率。針對(duì)統(tǒng)計(jì)方法中的個(gè)別現(xiàn)象又考慮了用規(guī)則的方法進(jìn)行研究,并介紹了規(guī)則的形式化描述及基于規(guī)則的兼類詞識(shí)別算法思想。進(jìn)一步的工作是針對(duì)更多的兼類詞嘗試用規(guī)則的方法進(jìn)行識(shí)別,完善規(guī)則庫,并且嘗試用聚類的方法對(duì)兼類詞的識(shí)別進(jìn)行研究。

        [1]ZHANG Yizhe,QU Weiguang,LIU Jinke.Research on disambiguation of multiple syntactic category words based on ensemble of classifiers[J].Journal of Nanjing Normal University,2010,33(4):144-147(in Chinese).[張一哲,曲維光,劉金克.基于分類器集成的兼類詞消歧研究[J].南京師大學(xué)報(bào),2010,33(4):144-147.]

        [2]HONG Mingcai,ZHANG Kuo,TANG Jie.A Chinese part of speech tagging approach using conditional random fields [J].Computer Science,2006,33(10):148-151(in Chinese).[洪銘材,張闊,唐杰.基于條件隨機(jī)場 (CRFs)的中文詞性標(biāo)注方法 [J].計(jì)算機(jī)科學(xué),2006,33(10):148-151.]

        [3]ZHANGHu,ZHENG Jiaheng.Consistency check on POStagging of Chinese corpus based on classification [J].Computer Engineering,2008,34(8):90-92(in Chinese).[張虎,鄭家恒.基于分類的漢語語料庫詞性標(biāo)注一致性檢查 [J].計(jì)算機(jī)工程,2008,34(8):90-92.]

        [4]Lafferty J,McCallum A,Pereira F.Conditional random fields:probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the 18th ICML-01,2001:282-289.

        [5]Cohn T,Blunsom P.Semantic role labeling with tree conditio-nal random fields[C]//Proceedings of the Ninth Conference on Computational Natural Language Learning.Ann Arbor,Michigan:Association for Computational Linguistics,2005:169-172.

        [6]MIAO Xuelei.Chinese word sense disambiguation method based on conditional random fields[D].Shenyang:Shenyang Aerospace U-niversity,2007(in Chinese).[苗雪雷.基于條件隨機(jī)場的漢語詞義消歧方法研究[D].沈陽:沈陽航空工業(yè)學(xué)院,2007.]

        [7]Jaynes E T.Information theory and statistical mechanics [J].Physics Reviews,1957.

        [8]CHEN Xiaorong,QIN Jin.Maximum entropy-based chinese word sense disambiguation [J].Computer Science,2005,32(5):174-176(in Chinese).[陳笑蓉,秦進(jìn).基于最大熵原理的漢語詞義消歧[J].計(jì)算機(jī)科學(xué),2005,32(5):174-176.]

        [9]ZHANG Lei.Chinese POStagging study based on maximum entropy[D].Dalian:Dalian University of Technology,2008(in Chinese).[張磊.基于最大熵模型的漢語詞性標(biāo)注研究 [D].大連:大連理工大學(xué),2008.]

        [10]PENG Qiwei.Classification of emotional tendency of the Chinese text based on statistical methods[D].Taiyuan:Shanxi University,2007(in Chinese).[彭其偉.基于統(tǒng)計(jì)方法的中文文本情感傾向分類研究[D].太原:山西大學(xué),2007.]

        [11]ZAN Hongying,ZHANG Kunli,CHAI Yumei.The formal description of the modern Chinese adverb usage[C]//The8th Chinese Lexical Semantics Workshop Proceedings,The Hong Kong Polytechnic University,2007(in Chinese).[昝紅英,張坤麗,柴玉梅.現(xiàn)代漢語副詞用法的形式化描述 [C]//第八屆漢語詞匯語義學(xué)研討會(huì)論文集,香港理工大學(xué),2007.]

        [12]ZAN Hongying,ZHANG Kunli,CHAI Yumei.Studies on the functional word knowledge base of modern Chinese[J].Journal of Chinese Information Processing,2007,21(5):107-111(in Chinese).[昝紅英,張坤麗,柴玉梅.現(xiàn)代漢語虛詞知識(shí)庫的研究 [J].中文信息學(xué)報(bào),2007,21(5):107-111.]

        猜你喜歡
        兼類語料正確率
        現(xiàn)代韓國語兼類詞表征研究
        ——以《新國語詞典》(第5版)為例
        外國語文(2021年4期)2021-09-16 07:17:50
        門診分診服務(wù)態(tài)度與正確率對(duì)護(hù)患關(guān)系的影響
        基于統(tǒng)計(jì)的《HSK詞匯等級(jí)大綱》動(dòng)名兼類詞標(biāo)注研究*
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        生意
        品管圈活動(dòng)在提高介入手術(shù)安全核查正確率中的應(yīng)用
        生意
        華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
        《苗防備覽》中的湘西語料
        國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
        在线观看日韩精品视频网站| 午夜精品久久久久久毛片| 又长又大又粗又硬3p免费视频| 中文字幕人妻丝袜美腿乱| 中日韩欧美成人免费播放| 久久深夜中文字幕高清中文| 国产自拍在线观看视频 | 精品国产97av一区二区三区| 女优av一区二区在线观看| 无码专区人妻系列日韩精品| 天天鲁在视频在线观看| 亚洲最大天堂无码精品区| 极品美女尤物嫩模啪啪| 国产午夜福利小视频在线观看 | 日韩精品一级在线视频| 国产乱人精品视频av麻豆网站| 久久久久夜夜夜精品国产| 精品久久人人爽天天玩人人妻| 禁止免费无码网站| 少妇性l交大片免费1一少| 精品人妻一区二区三区久久| 久久久久无码精品国产app| 久久亚洲国产精品成人av秋霞| 加勒比东京热综合久久| 日本一区二区三级在线| 国产av一区二区三区天堂综合网| 国产精品久久久久久52avav | 少妇被粗大的猛进69视频| 亚洲综合色无码| 亚洲欧洲偷自拍图片区| 高清国产亚洲va精品| 青青草视频在线播放观看| av人摸人人人澡人人超碰下载| a级大胆欧美人体大胆666| 99精品久久久中文字幕| 日韩视频午夜在线观看| 免费的日本一区二区三区视频| 99久久国产综合精品女图图等你| 亚洲欧美日韩高清中文在线| 一级a免费高清免在线| 亚洲精品在线国产精品|