亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        三位一體字標(biāo)注的漢語(yǔ)詞法分析

        2015-04-12 11:31:04于江德胡順義余正濤
        中文信息學(xué)報(bào) 2015年6期
        關(guān)鍵詞:特征模型

        于江德,胡順義,余正濤

        (1.安陽(yáng)師范學(xué)院計(jì)算機(jī)與信息工程學(xué)院,河南安陽(yáng)455000;2.昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院,云南昆明650051)

        1 引言

        在中文信息處理領(lǐng)域,漢語(yǔ)詞法分析是一項(xiàng)重要的基礎(chǔ)性研究課題。它不僅是句法分析、語(yǔ)義分析、篇章理解等深層中文信息處理的基礎(chǔ),也是機(jī)器翻譯、問(wèn)答系統(tǒng)、信息檢索和信息抽取等應(yīng)用的關(guān)鍵環(huán)節(jié)[1-3]。漢語(yǔ)詞法分析包括漢語(yǔ)分詞、詞性標(biāo)注與命名實(shí)體識(shí)別三項(xiàng)子任務(wù),在國(guó)內(nèi)外一些相關(guān)的評(píng)測(cè)中,常常將它們作為三個(gè)獨(dú)立的子任務(wù)進(jìn)行評(píng)測(cè)。在已有的研究中,大部分研究者也習(xí)慣將三項(xiàng)子任務(wù)獨(dú)立起來(lái)加以考慮,習(xí)慣于將漢語(yǔ)分詞和詞性標(biāo)注依次處理,分詞之后再在詞序列基礎(chǔ)上考慮詞性標(biāo)注問(wèn)題。這種將漢語(yǔ)詞法分析的三項(xiàng)子任務(wù)獨(dú)立處理的方法,雖然符合人們對(duì)漢語(yǔ)詞法分析的認(rèn)知規(guī)律,但容易造成錯(cuò)誤向上傳遞放大累加,且多類信息難以整合利用的不足。針對(duì)這一問(wèn)題,本文提出一種三位一體字標(biāo)注的漢語(yǔ)詞法分析方法,該方法將漢語(yǔ)詞法分析過(guò)程看作字序列的標(biāo)注過(guò)程,在每個(gè)字的標(biāo)記中融合了詞位、詞性、命名實(shí)體三類信息,采用序列數(shù)據(jù)標(biāo)注模型之一的最大熵模型實(shí)現(xiàn)了漢語(yǔ)分詞、詞性標(biāo)注、命名實(shí)體識(shí)別三位一體的漢語(yǔ)詞法分析。并在Bakeoff2007語(yǔ)料上進(jìn)行了實(shí)驗(yàn),分析了最大熵模型迭代次數(shù)對(duì)標(biāo)注性能的影響,將字標(biāo)注漢語(yǔ)分詞,詞語(yǔ)序列基礎(chǔ)上漢語(yǔ)詞性標(biāo)注,字標(biāo)注命名實(shí)體識(shí)別作為Baseline,通過(guò)大量實(shí)驗(yàn)對(duì)比了它們和三位一體字標(biāo)注漢語(yǔ)詞法分析方法的性能。

        2 相關(guān)研究和三位一體字標(biāo)注思路

        對(duì)于漢語(yǔ)詞法分析這一問(wèn)題,國(guó)內(nèi)外已經(jīng)進(jìn)行了大量研究,在已有的研究中,多數(shù)研究將漢語(yǔ)詞法分析的三項(xiàng)子任務(wù)獨(dú)立起來(lái)進(jìn)行,也有一些學(xué)者對(duì)漢語(yǔ)詞法分析的分詞、詞性標(biāo)注、命名實(shí)體識(shí)別三項(xiàng)任務(wù)的一體化進(jìn)行了探索。白栓虎在1996年就提出了基于統(tǒng)計(jì)的漢語(yǔ)詞語(yǔ)切分和詞性標(biāo)注一體化模型,在詞語(yǔ)切分中充分利用詞性標(biāo)注的信息,來(lái)消除切分歧義[4]。劉群、張華平等提出了基于層疊隱馬模型的漢語(yǔ)詞法分析方法,將漢語(yǔ)分詞、詞性標(biāo)注、切分排歧和未登錄詞識(shí)別集成到一個(gè)完整的理論框架中[2]。文獻(xiàn)[5]深入比較了分詞、詞性標(biāo)注兩步走和一體化的優(yōu)劣,認(rèn)為基于字標(biāo)注的一體化分詞和詞性標(biāo)注方法是最佳方案,其分詞系統(tǒng)獲得了SIGHAN2003四個(gè)測(cè)試語(yǔ)料中三項(xiàng)封閉測(cè)試第一,同時(shí)又肯定了兩步走方案在訓(xùn)練和測(cè)試時(shí)間上的優(yōu)勢(shì)。石民等探索了古代漢語(yǔ),特別是先秦文獻(xiàn)中的詞語(yǔ)切分和詞性標(biāo)注一體化的方法[6]。文獻(xiàn)[7-9]也都研究了漢語(yǔ)分詞和詞性標(biāo)注的一體化問(wèn)題。

        本文在前人研究的基礎(chǔ)上提出一種三位一體字標(biāo)注的漢語(yǔ)詞法分析方法,該方法將漢語(yǔ)詞法分析三個(gè)子任務(wù)全部統(tǒng)一到字標(biāo)注的框架中,在每個(gè)字的標(biāo)記中包含了詞位、詞性、命名實(shí)體三類信息,形式為“詞位_詞性或命名實(shí)體類別”,字標(biāo)記由兩部分組成,中間用下劃線隔開,下劃線之前是詞位信息,之后是詞性或命名實(shí)體類別信息。其中,詞位是指該字在所構(gòu)成的特定詞語(yǔ)中所占據(jù)的構(gòu)詞位置,本研究中規(guī)定字只有四種詞位:B(詞首)、M(詞中)、E(詞尾)和S(單字成詞)。根據(jù)字序列標(biāo)記中的詞位信息就可以實(shí)現(xiàn)漢語(yǔ)分詞。詞性是該字所在的特定詞語(yǔ)所屬詞語(yǔ)類別。本文所用詞性標(biāo)注集為北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所的詞性標(biāo)注集。如果該字所在的詞語(yǔ)為命名實(shí)體,則標(biāo)記中下劃線后為相應(yīng)命名實(shí)體類別。本文研究的命名實(shí)體包括人名、地名、組織機(jī)構(gòu)名三類,分別用PER、LOC、ORG標(biāo)識(shí)。根據(jù)字序列標(biāo)記中的詞性和命名實(shí)體類別部分可以分別實(shí)現(xiàn)漢語(yǔ)詞性標(biāo)注和命名實(shí)體識(shí)別。三位一體字標(biāo)注漢語(yǔ)詞法分析就是把詞法分析過(guò)程看作是一個(gè)字序列的標(biāo)注過(guò)程。如果一個(gè)漢語(yǔ)字串中每個(gè)字的標(biāo)記都確定了,那么該漢語(yǔ)字串的分詞、詞性標(biāo)注、命名實(shí)體識(shí)別也就完成了。例如,要對(duì)字串序列“中國(guó)政府順利恢復(fù)對(duì)香港行使主權(quán),”進(jìn)行詞法分析,只要得到該字串的標(biāo)注結(jié)果(圖1),然后再根據(jù)三位一體字標(biāo)注漢語(yǔ)詞法分析的思想,由標(biāo)注結(jié)果中的詞位部分可以得到分詞結(jié)果,由詞性或命名實(shí)體類別部分可以得到詞性標(biāo)注和命名實(shí)體識(shí)別結(jié)果,綜合這些結(jié)果就得到相應(yīng)的詞法分析結(jié)果。據(jù)此得到該字串的漢語(yǔ)詞法分析結(jié)果為“中國(guó)政府/ORG順利/ad恢復(fù)/v對(duì)/p香港/LOC行使/v主權(quán)/n,/wd”。

        圖1 三位一體字標(biāo)注示意圖

        另外,三位一體字標(biāo)注的漢語(yǔ)詞法分析中還有幾個(gè)問(wèn)題需要注意:(1)對(duì)于漢語(yǔ)真實(shí)文本中包含的標(biāo)點(diǎn)符號(hào)、西文字母、數(shù)字等少量非漢字字符和漢字是否應(yīng)該同等對(duì)待?(2)標(biāo)注結(jié)果中多字詞的多個(gè)字的標(biāo)記中,每個(gè)字的詞性或命名實(shí)體類別標(biāo)記部分未必一致,這時(shí)該如何確定該詞的詞性或命名實(shí)體類別呢?是取詞首字的,還是詞尾字的或詞中字的標(biāo)記作為整個(gè)詞的詞性或命名實(shí)體類別的呢?例如,字標(biāo)注結(jié)果“希B_v望M_v工M_n程E_n”使得詞語(yǔ)“希望工程”可以選取詞性“動(dòng)詞v”,也可以選取“名詞n”。本文根據(jù)實(shí)驗(yàn)對(duì)比選取詞尾字的標(biāo)記作為整個(gè)詞語(yǔ)的詞性或命名實(shí)體類別。

        3 基于最大熵模型的三位一體字標(biāo)注

        由于最大熵模型可以有效地把各種約束條件整合在一起,近年來(lái)在自然語(yǔ)言處理領(lǐng)域被廣泛應(yīng)用[10-14]。本文采用最大熵模型實(shí)現(xiàn)三位一體字標(biāo)注,本小節(jié)重點(diǎn)解釋最大熵模型如何對(duì)三位一體字標(biāo)注建模。

        3.1 最大熵模型簡(jiǎn)介

        最大熵模型是建立在最大熵理論基礎(chǔ)之上的。最大熵理論反映了自然界的一條基本原則:事物是約束和自由的統(tǒng)一體,并且在約束下事物總是爭(zhēng)取最大自由度,即最大熵。因此,在已知條件下,熵最大的事物,最可能接近它的真實(shí)狀態(tài)?;谧畲箪乩碚搶?duì)一個(gè)事物建模時(shí),往往只掌握該事物的部分情況,對(duì)其他情況一無(wú)所知。建模時(shí),對(duì)于已知的部分要盡量地?cái)M合,使模型符合已知的情況。對(duì)于未知情況,讓可能出現(xiàn)的每種結(jié)果保持平均分布,使該事物的熵最大,這樣構(gòu)建的模型就是最大熵模型。

        對(duì)于三位一體字標(biāo)注漢語(yǔ)詞法分析問(wèn)題,給定一些訓(xùn)練樣本(x,y),其中x表示上下文,即字序列,y表示字的標(biāo)注序列,可根據(jù)這些已知的樣本構(gòu)建一個(gè)能夠?qū)?shí)際問(wèn)題進(jìn)行準(zhǔn)確描述的概率統(tǒng)計(jì)模型p(y|x)用來(lái)預(yù)測(cè)未知的標(biāo)記。該模型的概率分布與訓(xùn)練語(yǔ)料中的經(jīng)驗(yàn)概率分布應(yīng)該相符。最大熵原理表明,x,y的正確分布應(yīng)該是在滿足訓(xùn)練語(yǔ)料中已知條件(約束)的情況下熵最大的分布,這樣構(gòu)建的模型是最大熵模型,其一般形式為式(1)。

        其中,

        Z(x)為歸一化因子,保證對(duì)所有可能的上下文x及其標(biāo)注y,p(y|x)=1。fi(x,y)是特征函數(shù),k為特征函數(shù)的數(shù)目,參數(shù)λi是反映特征函數(shù)fi對(duì)于模型重要程度的權(quán)重。這些特征函數(shù)用來(lái)描述已知的約束條件,一般情況下特征函數(shù)是一個(gè)二值函數(shù),形式如式(3)所示。

        3.2 最大熵模型對(duì)三位一體字標(biāo)注的建模

        基于最大熵模型進(jìn)行三位一體字標(biāo)注首先要建立模型,其中的關(guān)鍵問(wèn)題是針對(duì)三位一體字標(biāo)注這個(gè)特定任務(wù)為模型選擇合適的上下文特征,即篩選出對(duì)最大熵模型有表征意義的上下文特征,包括選取適當(dāng)?shù)纳舷挛姆秶驮O(shè)定特征模板集,即樣本窗口的大小設(shè)定和特征模板集的構(gòu)建。

        3.2.1 樣本窗口的大小設(shè)定

        采用最大熵模型進(jìn)行三位一體字標(biāo)注漢語(yǔ)詞法分析時(shí),上下文將為正確的標(biāo)注提供所需的語(yǔ)言知識(shí)和相關(guān)資源。通常情況下,上下文的選取是基于當(dāng)前字左右一定范圍進(jìn)行的,這個(gè)固定的范圍被稱為“窗口”。窗口中的上下文實(shí)質(zhì)是一個(gè)特定樣本,所以將該窗口稱為“樣本窗口”。進(jìn)行詞法分析時(shí)所需的語(yǔ)言知識(shí)將從該窗口產(chǎn)生的大量樣本中進(jìn)行統(tǒng)計(jì)學(xué)習(xí)得到。建模時(shí)首先要考慮上下文范圍,即樣本窗口開設(shè)大小問(wèn)題,這需要通過(guò)對(duì)比實(shí)驗(yàn)看看多大的樣本窗口使得漢語(yǔ)詞法分析的性能最好。圖2是可能的樣本窗口的圖示,顯然可以根據(jù)需要來(lái)選取上下文的范圍,即樣本窗口的大小??梢韵薅颖敬翱谑恰?字窗口”,即使用當(dāng)前字前后各兩個(gè)字作為上下文。也可以限定樣本窗口是“3字窗口”,即使用當(dāng)前字前后各一個(gè)字作為上下文。

        圖2 可能的樣本窗口

        3.2.2 特征模板集的構(gòu)建

        統(tǒng)計(jì)語(yǔ)言建模中上下文特征的刻畫是通過(guò)特征模板實(shí)現(xiàn)的。特征模板的主要功能是定義上下文中某些特定位置的語(yǔ)言成分或信息與某類待預(yù)測(cè)事件的關(guān)聯(lián)情況。由于本文是根據(jù)一個(gè)字串序列中的當(dāng)前字及其上下文來(lái)確定該字的標(biāo)記信息,因此就由該字前后出現(xiàn)的字、字的組合、詞位、詞性、命名實(shí)體類別等信息及這些信息出現(xiàn)的位置來(lái)確定上下文特征。習(xí)慣上,特征模板可以看作是對(duì)一組上下文特征按照共同的屬性進(jìn)行的抽象。在最大熵模型的訓(xùn)練學(xué)習(xí)中,每個(gè)特征都對(duì)應(yīng)了一組特征函數(shù),這些特征函數(shù)對(duì)最大熵模型的訓(xùn)練至關(guān)重要。而這些特征又是通過(guò)特征模板擴(kuò)展來(lái)的,所以設(shè)定合適的特征模板集就顯得尤為重要。

        在使用MaxEnt工具包進(jìn)行三位一體字標(biāo)注漢語(yǔ)詞法分析時(shí),在圖2所示的可能樣本窗口下,可以將上下文特征按照特征模板中出現(xiàn)的字與當(dāng)前字的字距屬性進(jìn)行抽象。表1給出了“5字窗口”下常用的十個(gè)特征模板及其表征的意義。表中的Cn代表當(dāng)前字和當(dāng)前字相距若干字位的字。例如,C0表示當(dāng)前字,C1表示當(dāng)前字的后一個(gè)字,C-1表示當(dāng)前字的前一個(gè)字,依此類推。從表1可以看到,最后一行的特征模板是:T-1T0,該模板用于表征上下文中相鄰兩個(gè)字標(biāo)記的轉(zhuǎn)移特征Ti-1→Ti。

        表1 特征模板列表

        根據(jù)圖2給出的可能樣本窗口,如果限定樣本窗口是“5字窗口”,則這一具體任務(wù)的上下文特征是指當(dāng)前字本身、以及當(dāng)前字前后各兩個(gè)字及其字標(biāo)記所組成的特征。針對(duì)三位一體字標(biāo)注漢語(yǔ)詞法分析這一具體任務(wù),“5字窗口”下常見(jiàn)上下文特征抽象為表1中列出的十類,記這種模板集為TMPT-10,該特征模板集包含的模板如表2所示。如果限定樣本窗口是“3字窗口”,即使用當(dāng)前字前后各一個(gè)字作為樣本窗口,則這一具體任務(wù)的字特征是指當(dāng)前字本身、以及當(dāng)前字前后各一個(gè)字及其標(biāo)記所組成的特征,此時(shí)的特征模板集為六特征模板集:TMPT-6。

        表2 特征模板集列表

        為了對(duì)漢語(yǔ)詞法分析中的特征模板有個(gè)“量”的認(rèn)識(shí),我們從多個(gè)角度進(jìn)行定量分析并設(shè)計(jì)了相關(guān)實(shí)驗(yàn)。表2列出了實(shí)驗(yàn)中用到的幾組特征模板集。其中,序號(hào)1~3的特征模板集是“5字窗口”的模板集,序號(hào)4~6的特征模板集是“3字窗口”的模板集。另外,后綴“Single”和“Double”分別表示相應(yīng)特征模板集中的只有單個(gè)字的特征模板集和有雙字組合構(gòu)成的特征模板集。例如,T10-Single是指TMPT-10中單個(gè)字特征模板。另外,這六組特征模板集中都包含字標(biāo)記轉(zhuǎn)移特征。

        4 實(shí)驗(yàn)及其分析

        4.1 實(shí)驗(yàn)環(huán)境及實(shí)驗(yàn)數(shù)據(jù)集

        本文所有實(shí)驗(yàn)的軟硬件環(huán)境為:實(shí)驗(yàn)所用計(jì)算機(jī)型號(hào)為DELL Optiplex 760臺(tái)式機(jī),其主要參數(shù)為:中央處理器:Intel(R)Core(TM)2Quad CPU Q8200 2.33GHZ;內(nèi)存:4GB;操作系統(tǒng):Microsoft Windows XP。

        圖3 語(yǔ)料處理過(guò)程示意圖

        本文采用的訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料是SIGHAN舉辦的第四屆國(guó)際漢語(yǔ)語(yǔ)言處理評(píng)測(cè)Bakeoff2007所使用的語(yǔ)料,是由北京大學(xué)(PKU)提供的漢語(yǔ)詞性標(biāo)注語(yǔ)料和命名實(shí)體語(yǔ)料,其中漢語(yǔ)詞性標(biāo)注語(yǔ)料大小為8.42MB,詞數(shù)為1 116 574個(gè)。命名實(shí)體語(yǔ)料大小為11.2MB。這兩種語(yǔ)料所標(biāo)注的文本內(nèi)容完全相同,進(jìn)行三位一體字標(biāo)注漢語(yǔ)詞法分析訓(xùn)練或測(cè)試時(shí)需要將這兩種語(yǔ)料進(jìn)行處理后融合到一起,圖3是語(yǔ)料處理過(guò)程的示意圖。首先是將原詞性標(biāo)注語(yǔ)料拆分為一字一標(biāo)記的格式,此時(shí)的標(biāo)記形式為“詞位_詞性類別”,然后再根據(jù)命名實(shí)體語(yǔ)料將所有命名實(shí)體的那部分字的標(biāo)記修改為“詞位_命名實(shí)體類別”,融合后的語(yǔ)料大小為15.0MB。然后將90%作為訓(xùn)練語(yǔ)料,10%作為測(cè)試語(yǔ)料。統(tǒng)計(jì)發(fā)現(xiàn),這些語(yǔ)料中共有字標(biāo)記257種,由于標(biāo)記較多,所以本文的實(shí)驗(yàn)采用最大熵模型實(shí)現(xiàn),而沒(méi)有采用序列數(shù)據(jù)標(biāo)注模型條件隨機(jī)場(chǎng)(conditional random fields,CRFs)實(shí)現(xiàn),因?yàn)椴捎肅RF++工具包訓(xùn)練時(shí),在標(biāo)記類別多和語(yǔ)料較大的情況下不能正常進(jìn)行訓(xùn)練,而最大熵模型則沒(méi)有此類問(wèn)題。采用Max-Ent工具包進(jìn)行模型訓(xùn)練時(shí),還需要對(duì)融合后的語(yǔ)料進(jìn)行預(yù)處理,按照設(shè)定的樣本窗口和特征模板集將語(yǔ)料處理為一行一個(gè)事件的語(yǔ)料,也就是對(duì)每一個(gè)樣本按照特征模板集擴(kuò)展出相應(yīng)的上下文特征作為一個(gè)事件。

        4.2 性能評(píng)估

        在對(duì)三位一體字標(biāo)注漢語(yǔ)詞法分析進(jìn)行性能評(píng)估時(shí),本文采用兩類評(píng)估方法。一類是對(duì)設(shè)定的特征模板集進(jìn)行整體評(píng)價(jià),采用的評(píng)價(jià)指標(biāo)是字標(biāo)注準(zhǔn)確率。該準(zhǔn)確率表示在測(cè)試語(yǔ)料全部字標(biāo)注中,正確的所占的比值;另一類是該方法和傳統(tǒng)分步處理的分詞、詞性標(biāo)注、命名實(shí)體識(shí)別的性能進(jìn)行對(duì)比,采用的評(píng)估指標(biāo)如下所述。

        在對(duì)漢語(yǔ)分詞性能進(jìn)行評(píng)估時(shí),采用了常用的五個(gè)評(píng)測(cè)指標(biāo):準(zhǔn)確率(P)、召回率(R)、綜合指標(biāo)F值(F)、未登錄詞召回率(OOV RR)、詞表詞召回率(IV RR)。準(zhǔn)確率表示在切分的全部詞語(yǔ)中,正確的所占的比值。召回率指正確切分的詞語(yǔ)占標(biāo)準(zhǔn)答案中詞語(yǔ)的比值。綜合指標(biāo)F值是綜合準(zhǔn)確率和召回率兩個(gè)值進(jìn)行評(píng)價(jià)的一種辦法。OOV RR和 IV RR分別指測(cè)試中未登錄詞和詞表詞的召回率。

        在對(duì)漢語(yǔ)詞性標(biāo)注性能進(jìn)行評(píng)估時(shí),采用了常用的評(píng)測(cè)指標(biāo):標(biāo)注精度。標(biāo)注精度表示在對(duì)全部詞語(yǔ)標(biāo)注的詞性中,正確標(biāo)注詞性的詞語(yǔ)所占的比值。

        在對(duì)漢語(yǔ)命名實(shí)體識(shí)別進(jìn)行評(píng)估時(shí),采用了常用的三個(gè)評(píng)測(cè)指標(biāo):準(zhǔn)確率(P)、召回率(R)、綜合指標(biāo)F值(F)。準(zhǔn)確率表示在識(shí)別的全部命名實(shí)體中,正確的所占的比值。召回率指正確識(shí)別的命名實(shí)體占標(biāo)準(zhǔn)答案中的比值。F值是綜合準(zhǔn)確率和召回率兩個(gè)值進(jìn)行評(píng)價(jià)的一種辦法。

        4.3 實(shí)驗(yàn)及其結(jié)果分析

        4.3.1 實(shí)驗(yàn)設(shè)計(jì)

        本文設(shè)計(jì)了兩個(gè)階段的實(shí)驗(yàn),分別配合兩類評(píng)估方法對(duì)三位一體字標(biāo)注的漢語(yǔ)詞法分析性能進(jìn)行評(píng)估。第一個(gè)階段是在測(cè)試語(yǔ)料的字標(biāo)注結(jié)果上進(jìn)行的,采用字標(biāo)注的準(zhǔn)確率進(jìn)行評(píng)估。在第一階段結(jié)果的基礎(chǔ)上,第二個(gè)階段分別就漢語(yǔ)分詞、詞性標(biāo)注、命名實(shí)體識(shí)別三項(xiàng)子任務(wù)的性能進(jìn)行三組對(duì)比實(shí)驗(yàn):(1)三位一體字標(biāo)注漢語(yǔ)詞法分析的分詞性能和基于字標(biāo)注的漢語(yǔ)分詞性能對(duì)比實(shí)驗(yàn);(2)三位一體字標(biāo)注漢語(yǔ)詞法分析的詞性標(biāo)注性能和詞序列基礎(chǔ)上的漢語(yǔ)詞性標(biāo)注性能對(duì)比實(shí)驗(yàn);(3)三位一體字標(biāo)注漢語(yǔ)詞法分析的命名實(shí)體識(shí)別性能和基于字標(biāo)注的命名實(shí)體識(shí)別性能對(duì)比實(shí)驗(yàn)。

        4.3.2 三位一體字標(biāo)注的漢語(yǔ)詞法分析性能

        我們首先分別使用表2中序號(hào)為1~6的六組特征模板集,在預(yù)處理后的訓(xùn)練語(yǔ)料上進(jìn)行了三位一體字標(biāo)注漢語(yǔ)詞法分析的訓(xùn)練,訓(xùn)練時(shí)采用不同迭代次數(shù),最大熵模型迭代次數(shù)從50增加到400,間隔50。表3給出了使用這六組特征模板集在部分迭代次數(shù)下的訓(xùn)練過(guò)程記錄數(shù)據(jù)。綜合分析表3中的數(shù)據(jù)可以得出如下結(jié)論:(1)同等條件下,訓(xùn)練出的模型大小與擴(kuò)展出的特征數(shù)成正比,訓(xùn)練出的模型大小隨迭代次數(shù)的變化很小。(2)模型訓(xùn)練的時(shí)間長(zhǎng)短和擴(kuò)展出的特征數(shù)并沒(méi)有必然聯(lián)系,和訓(xùn)練的迭代次數(shù)成正比。

        表3 PKU語(yǔ)料上不同迭代次數(shù)的訓(xùn)練過(guò)程記錄數(shù)據(jù)

        然后分別采用訓(xùn)練出的模型,對(duì)測(cè)試語(yǔ)料進(jìn)行三位一體字標(biāo)注測(cè)試,測(cè)試的字標(biāo)注準(zhǔn)確率如表4所示。從表4中的數(shù)據(jù)可以得出如下結(jié)論:(1)迭代次數(shù)到一定值時(shí)標(biāo)注準(zhǔn)確率不再提升,甚至有少許下降。例如,對(duì)于TMPT-10特征模板集來(lái)說(shuō),迭代次數(shù)從50增加到100,標(biāo)注準(zhǔn)確率增加最多,之后趨于平緩,迭代次數(shù)為200時(shí),標(biāo)注準(zhǔn)確率達(dá)到了最高,之后有少許下降。所以第二階段的對(duì)比實(shí)驗(yàn)都是在迭代次數(shù)為200下進(jìn)行的。(2)從樣本窗口大小的角度來(lái)分析,對(duì)比序號(hào)1~3和序號(hào)4~6的特征模板集下的標(biāo)注性能,可見(jiàn)“5字窗口”下的標(biāo)注性能比“3字窗口”的好。所以第二階段的對(duì)比實(shí)驗(yàn)中,三位一體字標(biāo)注漢語(yǔ)詞法分析都是在“5字窗口”下進(jìn)行的。

        表4 不同迭代次數(shù)的三位一體漢語(yǔ)詞法分析標(biāo)注準(zhǔn)確率

        4.3.3 三位一體字標(biāo)注詞法分析與其他方法比較

        在三位一體字標(biāo)注的基礎(chǔ)上,第二個(gè)階段分別就漢語(yǔ)分詞、詞性標(biāo)注、命名實(shí)體識(shí)別三項(xiàng)任務(wù)的性能進(jìn)行對(duì)比實(shí)驗(yàn)。首先是對(duì)三位一體字標(biāo)注漢語(yǔ)詞法分析中的分詞性能和基于單一字標(biāo)注的漢語(yǔ)分詞性能進(jìn)行對(duì)比。其中,單一字標(biāo)注漢語(yǔ)分詞采用條件隨機(jī)場(chǎng)模型實(shí)現(xiàn),設(shè)定的樣本窗口大小和特征模板集和三位一體字標(biāo)注方法相同,都是“5字窗口”和TMPT-10。表5給出了本文方法和字標(biāo)注方法漢語(yǔ)分詞性能對(duì)比。從表5的數(shù)據(jù)中可以看到,三位一體字標(biāo)注的漢語(yǔ)詞法分析中的漢語(yǔ)分詞性能比單一字標(biāo)注的漢語(yǔ)分詞方法的性能的綜合指標(biāo)F值提高了2.3個(gè)百分點(diǎn),這說(shuō)明在字的標(biāo)記中融入詞性和命名實(shí)體的信息使?jié)h語(yǔ)分詞性能有一定的提高。

        表5 不同方法的漢語(yǔ)分詞結(jié)果

        然后對(duì)三位一體字標(biāo)注漢語(yǔ)詞法分析的詞性標(biāo)注性能和詞序列基礎(chǔ)上的漢語(yǔ)詞性標(biāo)注性能進(jìn)行了對(duì)比實(shí)驗(yàn)。其中,詞序列基礎(chǔ)上的方法也采用最大熵模型實(shí)現(xiàn),設(shè)定的樣本窗口為“3詞語(yǔ)窗口”,特征模板集為“W-1,W0,W1,T-1T0”。表6給出了本文方法和詞序列基礎(chǔ)上的漢語(yǔ)詞性標(biāo)注性能對(duì)比情況,其中對(duì)于多字詞的詞性選取的是詞尾字的詞性標(biāo)記。從表6的數(shù)據(jù)可以看到,三位一體字標(biāo)注中的漢語(yǔ)詞性標(biāo)注性能比基于詞序列的漢語(yǔ)詞性標(biāo)注性能提高了0.7個(gè)百分點(diǎn)。

        表6 不同方法的漢語(yǔ)詞性標(biāo)注結(jié)果

        最后對(duì)三位一體字標(biāo)注漢語(yǔ)詞法分析的命名實(shí)體識(shí)別性能和基于單一字標(biāo)注的命名實(shí)體識(shí)別性能進(jìn)行對(duì)比實(shí)驗(yàn)。其中,單一字標(biāo)注的命名實(shí)體識(shí)別采用條件隨機(jī)場(chǎng)模型實(shí)現(xiàn),設(shè)定的樣本窗口大小和特征模板集分別為“5字窗口”和TMPT-10。表7給出了實(shí)驗(yàn)結(jié)果。從表7中的數(shù)據(jù)可見(jiàn),本文的方法比單一字標(biāo)注的方法提高了兩個(gè)百分點(diǎn)多。

        表7 不同方法的中文命名實(shí)體識(shí)別結(jié)果

        5 結(jié)語(yǔ)

        在中文信息處理領(lǐng)域,漢語(yǔ)詞法分析是其中一項(xiàng)重要的基礎(chǔ)性研究課題。針對(duì)漢語(yǔ)詞法分析中分詞、詞性標(biāo)注、命名實(shí)體識(shí)別三項(xiàng)子任務(wù)分步處理時(shí)多類信息難以整合利用,且錯(cuò)誤向上傳遞放大的不足,本文提出一種三位一體字標(biāo)注的漢語(yǔ)詞法分析方法,該方法將漢語(yǔ)詞法分析過(guò)程看作字序列的標(biāo)注過(guò)程,將每個(gè)字的詞位、詞性、命名實(shí)體三類信息融合到該字的標(biāo)記中,采用最大熵模型經(jīng)過(guò)一次標(biāo)注實(shí)現(xiàn)漢語(yǔ)詞法分析的三項(xiàng)任務(wù)。實(shí)驗(yàn)結(jié)果表明,三位一體字標(biāo)注方法的分詞、詞性標(biāo)注、命名實(shí)體識(shí)別的性能都有不同程度的提升。今后將進(jìn)一步完善該方法,力爭(zhēng)能在中文信息處理的實(shí)際任務(wù)中推廣應(yīng)用。

        [1] 姜維,王曉龍,關(guān)毅,等.基于多知識(shí)源的中文詞法分析系統(tǒng)[J].計(jì)算機(jī)學(xué)報(bào),2007,30(1):137-145.

        [2] 劉群,張華平,俞鴻魁,等.基于層疊隱馬模型的漢語(yǔ)詞法分析[J].計(jì)算機(jī)研究與發(fā)展,2004,41(8):1421-1429.

        [3] 孫曉,黃德根.基于最長(zhǎng)次長(zhǎng)匹配分詞的一體化中文詞法分析[J].大連理工大學(xué)學(xué)報(bào),2010,50(6):1028-1034.

        [4] 白栓虎.漢語(yǔ)詞切分及詞性自動(dòng)標(biāo)注一體化方法[J].中文信息學(xué)報(bào),1996,(2):46-48.

        [5] Hwee Tou Ng,Jin Kiat Low.Chinese part-of-speech tagging:One-at-a-time or all-at-once?Word-based or character-based?[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing,Barcelona:ACL Press,2004:277-284.

        [6] 石民,李斌,陳小荷.基于CRF的先秦漢語(yǔ)分詞標(biāo)注一體化研究[J].中文信息學(xué)報(bào),2010,24(2):39-45.

        [7] LUO Xiaoqiang.A maximum entropy Chinese character-based parser[C]//Proceedings of the 2003Conference on Empirical Methods in Natural Language Processing,Sapporo,Japan:ACL Press,2003:192-199.

        [8] Jiang Wenbin,Huang Liang,Liu Qun,et al.A cascaded linear model for joint Chinese word segmentation and part-of-speech tagging[C]//Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics,Columbus:ACL Press,2008:897-904.

        [9] 朱聰慧,趙鐵軍,鄭德權(quán).基于無(wú)向圖序列標(biāo)注模型的中文分詞詞性標(biāo)注一體化系統(tǒng)[J].電子與信息學(xué)報(bào),2010,32(3):700-704.

        [10] Berger A L,Della-Pietra S A,Della-Pietra V J.A maximum entropy approach to natural language processing[J].Computational Linguistics,1996,22(1):39-71.

        [11] 劉挺,車萬(wàn)翔,李生.基于最大熵分類器的語(yǔ)義角色標(biāo)注[J].軟件學(xué)報(bào),2007,18(3):565-573.

        [12] 何徑舟,王厚峰.基于特征選擇和最大熵模型的漢語(yǔ)詞義消歧[J].軟件學(xué)報(bào),2010,21(6):1287-1295.

        [13] 趙巖,王曉龍,劉秉權(quán),等.融合聚類觸發(fā)對(duì)特征的最大熵詞性標(biāo)注模型[J].計(jì)算機(jī)研究與發(fā)展,2006,43(2):268-274.

        [14] 張貫虹,斯·勞格勞,烏達(dá)巴拉.融合形態(tài)特征的最大熵模型蒙古文詞性標(biāo)注模型[J].計(jì)算機(jī)研究與發(fā)展,2011,48(12):2385-2390.

        猜你喜歡
        特征模型
        一半模型
        抓住特征巧觀察
        重要模型『一線三等角』
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        成人免费毛片内射美女-百度| 东北女人一级内射黄片| 欧美又粗又长又爽做受| 国产午夜三级一区二区三| 日本加勒比东京热日韩| 青青草视频在线观看视频免费| av天堂精品久久综合网| 尤物视频在线观看| 亚洲免费av电影一区二区三区| 日韩精品综合在线视频| 欧美高清视频手机在在线| 国产麻豆精品一区| 欧美日韩中文字幕久久伊人| 女人天堂av免费在线| 18禁裸体动漫美女无遮挡网站| 麻麻张开腿让我爽了一夜| 99久久国产亚洲综合精品| 亚洲第一女优在线观看| 久久久亚洲欧洲日产国码aⅴ| 人妻无码一区二区三区四区| 亚洲AV无码一区二区三区精神| 免费在线国产不卡视频| 国产偷久久久精品专区| 国产精品黄网站免费观看| 五月天亚洲av优女天堂| 手机看片自拍偷拍福利| 中文字幕精品一区二区2021年| 2021年最新久久久视精品爱| 亚洲av色精品国产一区二区三区| 日本丰满少妇裸体自慰| 男女18禁啪啪无遮挡| 日本岛国大片不卡人妻| 中文字幕有码人妻在线| 国产台湾无码av片在线观看| 国模无码视频专区一区| 国产二区中文字幕在线观看| 免费无遮挡无码永久视频| 五月天精品视频在线观看| 男女干逼视频免费网站| 一个人看的视频在线观看| 国产精品国产午夜免费看福利|