鄭秋生, 劉守喜
(中原工學(xué)院, 鄭州 450007)
?
基于CRF的互聯(lián)網(wǎng)文本命名實(shí)體識(shí)別研究
鄭秋生, 劉守喜
(中原工學(xué)院, 鄭州 450007)
摘要:針對(duì)互聯(lián)網(wǎng)文本形式多樣化造成的有效信息提取難度增加(尤其是命名實(shí)體識(shí)別方面)的問題,提出了一種統(tǒng)計(jì)和規(guī)則相結(jié)合的互聯(lián)網(wǎng)文本命名實(shí)體識(shí)別方法。首先進(jìn)行文本規(guī)范化,然后使用CRF模型,以詞及詞性作為特征進(jìn)行訓(xùn)練,結(jié)合互聯(lián)網(wǎng)文本的日常性、隨意性和娛樂性等特點(diǎn),以及若干匹配規(guī)則對(duì)文本進(jìn)行命名實(shí)體識(shí)別。實(shí)驗(yàn)結(jié)果表明,該方法的準(zhǔn)確率、召回率和F值分別達(dá)到了94.76%、85.34%、89.80%,能夠有效地進(jìn)行命名實(shí)體識(shí)別。
關(guān)鍵詞:命名實(shí)體識(shí)別;CRF;互聯(lián)網(wǎng)文本;匹配規(guī)則;特征
隨著互聯(lián)網(wǎng)的快速發(fā)展,人們的溝通方式已經(jīng)慢慢轉(zhuǎn)變,尤為顯著的是越來越依賴于互聯(lián)網(wǎng)應(yīng)用。微博、網(wǎng)絡(luò)新聞、評(píng)論等紛紛出現(xiàn),對(duì)網(wǎng)民的生活影響非常大(由于信息量很大,提取這些文本中的重要信息非常關(guān)鍵)。命名實(shí)體識(shí)別(Named Entity Recognition)就是一種對(duì)文本分析并從文本中獲取有效信息的方式。
命名實(shí)體識(shí)別的任務(wù)主要是識(shí)別文本中的人名、地名、機(jī)構(gòu)名等專有名詞[1]。命名實(shí)體識(shí)別是自然語言處理技術(shù)中信息抽取、句法分析、機(jī)器翻譯、問答系統(tǒng)等的重要基礎(chǔ)。
本文在分析獲取互聯(lián)網(wǎng)文本特點(diǎn)的基礎(chǔ)上,采用統(tǒng)計(jì)和規(guī)則相結(jié)合的方法[2]進(jìn)行命名實(shí)體識(shí)別研究,通過統(tǒng)計(jì)和規(guī)則結(jié)合,減少規(guī)則方法的復(fù)雜性與盲目性,降低統(tǒng)計(jì)方法對(duì)語料庫規(guī)模的要求。
命名實(shí)體識(shí)別研究至今已經(jīng)有近20年的發(fā)展歷史,最初主要基于規(guī)則的方法進(jìn)行命名實(shí)體識(shí)別,目前,基于統(tǒng)計(jì)的方法已經(jīng)成為自然語言處理領(lǐng)域的一項(xiàng)重要技術(shù)。不同的方法有不同效果,也都存在著一些缺陷。如何達(dá)到最好效果,學(xué)界至今仍在不斷研究。
對(duì)于命名實(shí)體識(shí)別的研究,國外先于國內(nèi)。1991年,Rau在第七屆IEEE人工智能應(yīng)用會(huì)議上發(fā)表有關(guān)實(shí)體識(shí)別的研究文章,1996年國內(nèi)開始將命名實(shí)體識(shí)別作為一項(xiàng)評(píng)測(cè)任務(wù),在MUC(Message Understanding Conference)會(huì)議上提出。
以中文和英文進(jìn)行命名實(shí)體識(shí)別存在著很大的差異。就英文而言,基于規(guī)則的命名實(shí)體識(shí)別評(píng)測(cè)系統(tǒng)有謝菲爾德大學(xué)的LaSIE-II系統(tǒng)[3]、 NTU系統(tǒng)[4]等;基于統(tǒng)計(jì)的研究方面,Borthwich A[5]使用最大熵模型進(jìn)行命名實(shí)體識(shí)別,以段落、詞匯、字典信息等作為所需要的特征。
在中文方面,王昊利用規(guī)則進(jìn)行命名實(shí)體識(shí)別,從文本提取需要的表達(dá)式,嘗試構(gòu)建完整的模式集[6];王寧等基于規(guī)則對(duì)金融領(lǐng)域的公司名進(jìn)行識(shí)別,通過對(duì)公司名的結(jié)構(gòu)特征以及文本的上下文信息進(jìn)行分析,構(gòu)建公司名知識(shí)庫,對(duì)文本進(jìn)行兩次掃描來獲取識(shí)別結(jié)果[7];馮元勇以單字提示特征進(jìn)行命名實(shí)體識(shí)別,以機(jī)構(gòu)名和地名尾字作為小規(guī)模單字提示特征,僅使用了少量的字元組和詞性特征[8]。單獨(dú)基于統(tǒng)計(jì)或者規(guī)則的方法都有一些缺陷。基于規(guī)則的命名實(shí)體識(shí)別系統(tǒng)開發(fā)昂貴,覆蓋度差,不便于移植;基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法利用人工的標(biāo)注語料進(jìn)行訓(xùn)練,對(duì)語言依賴小,代價(jià)小,可移植性好;但也有其相應(yīng)缺點(diǎn),如對(duì)人工標(biāo)注的語料要求高,花費(fèi)較大。
至今,命名實(shí)體識(shí)別對(duì)正規(guī)文本處理效果較好,但是在互聯(lián)網(wǎng)文本的研究方面仍然有待提高?;ヂ?lián)網(wǎng)文本較口語化,非常不規(guī)范,無法使用和正規(guī)文本相同的方法。因此,首先要對(duì)互聯(lián)網(wǎng)文本進(jìn)行處理,得到處理結(jié)果后才能夠進(jìn)一步分析,使識(shí)別的難度相應(yīng)增加。
1命名實(shí)體識(shí)別方法
1.1文本規(guī)范化
因?yàn)榛ヂ?lián)網(wǎng)文本內(nèi)容不夠規(guī)范,其中一些字符對(duì)于文本分析來說并沒有實(shí)際意義,而且有可能造成對(duì)命名實(shí)體識(shí)別的干擾,所以,對(duì)其進(jìn)行規(guī)范化非常重要。文本規(guī)范化的目的是為消除干擾、去噪,以便進(jìn)一步有效地對(duì)命名實(shí)體識(shí)別[9]。
(1)分詞。利用nlpir分詞系統(tǒng)進(jìn)行分詞,獲取文本的詞及詞性,了解每種詞性所對(duì)應(yīng)的詞是否對(duì)實(shí)體識(shí)別有用。詞性主要包含名詞、副詞、形容詞等20多種。
(2)去除干擾。根據(jù)分詞所分的詞及詞性,對(duì)文本進(jìn)行去噪處理,主要是根據(jù)詞性對(duì)其進(jìn)行處理。對(duì)于命名實(shí)體識(shí)別出的人名、地名、組織名,除保留名詞和形容詞外,去除其他詞匯。表1為文本規(guī)范化的前后對(duì)比。
表1 文本規(guī)范化的對(duì)比
1.2條件隨機(jī)場(chǎng)(CRF模型)
條件隨機(jī)場(chǎng)(Conditional Random Fields,CRF)集合了最大熵模型[10]和HMM(Hidden Markov Model)模型[11]兩種模型的特點(diǎn),是一種條件概率模型,由Lafferty J[12]等人在2001年提出,由分析最大熵模型得到,可以看作無向圖模型。
首先從文本中獲取特征,設(shè)置相關(guān)參數(shù),選取特征模板;然后對(duì)訓(xùn)練語料進(jìn)行訓(xùn)練,得到一個(gè)model;再通過model對(duì)測(cè)試語料進(jìn)行預(yù)測(cè),得到所需結(jié)果。
(1)參數(shù)設(shè)置。有4個(gè)主要參數(shù)可以進(jìn)行調(diào)整:
-aCRF-L2 規(guī)范化算法選擇;
-cfloat 參數(shù)用于調(diào)整擬合度,擬合度c值大小對(duì)應(yīng)于擬合訓(xùn)練數(shù)據(jù)程度的高低;
-fNUM 訓(xùn)練數(shù)據(jù)中特征出現(xiàn)的次數(shù),使用至少NUM次;
-pNUM 提高訓(xùn)練速度,主要使用多線程方法。
(2)特征模板。特征方面主要選取的是詞和詞性,一般選取一組模板(見表2)。
表2 特征模板
word[0,0]、pos[0,1]分別表示當(dāng)前詞及其詞性。詞及其詞性以數(shù)列為表現(xiàn)形式。其中,行數(shù)有正負(fù)之分:正表示在當(dāng)前詞下方;負(fù)表示在當(dāng)前詞上方。
(3)語料集。語料集選取首先選已標(biāo)注好的,還有對(duì)格式的要求,必須按照CRF模型訓(xùn)練格式進(jìn)行調(diào)整。
傳統(tǒng)的標(biāo)記語料集形式都是把實(shí)體分開進(jìn)行標(biāo)記。例如:劉/nf德/nc華/ne,其中nf、nc、ne分別表示實(shí)體的開始詞、中間詞和結(jié)束詞。
本文提出一種新的標(biāo)記方法。例如,上面提到的劉德華是一個(gè)人名,用新的標(biāo)記方法處理后為:劉德華/n。對(duì)分開的實(shí)體進(jìn)行處理,然后再標(biāo)記,地名及機(jī)構(gòu)名也一樣進(jìn)行整體標(biāo)記。這樣能夠有效提高標(biāo)記的正確率。
1.3匹配規(guī)則
基于CRF模型的統(tǒng)計(jì)方法存在許多不足,因此,本文利用若干匹配規(guī)則對(duì)識(shí)別出的結(jié)果進(jìn)行再次修正。通過對(duì)命名實(shí)體的構(gòu)成結(jié)構(gòu)和文本上下文信息分析,提取所需的結(jié)果。命名實(shí)體的構(gòu)成結(jié)構(gòu)主要包括內(nèi)部關(guān)鍵詞、后綴特征詞、詞性序列等,局部上下文信息的分析主要是結(jié)合實(shí)體前后的用詞特點(diǎn)判斷出命名實(shí)體,用前后詞的作用來提高命名實(shí)體的準(zhǔn)確性。
對(duì)于不同類型的實(shí)體,可選取不同的規(guī)則來建立規(guī)則庫。對(duì)訓(xùn)練語料進(jìn)行分析后,獲得若干個(gè)匹配規(guī)則,從中提取出規(guī)律性較強(qiáng)的規(guī)則。本文用到的規(guī)則主要有3大類:選擇規(guī)則、合并規(guī)則、邊界修正規(guī)則[13]。為了避免規(guī)則之間發(fā)生沖突,同時(shí)對(duì)規(guī)則的優(yōu)先級(jí)進(jìn)行調(diào)整,這樣可達(dá)到最好的規(guī)劃庫建立結(jié)果。表3所示為3大類規(guī)則的舉例。
表3 對(duì)3大類規(guī)則舉例
2實(shí)驗(yàn)結(jié)果及分析
2.1實(shí)驗(yàn)語料
本文使用的實(shí)驗(yàn)語料由哈爾濱工業(yè)大學(xué)智能技術(shù)與自然語言處理研究室提供,主要來源于2013年5月的報(bào)紙新聞和網(wǎng)絡(luò)新聞,總計(jì)160萬個(gè)詞,該語料已有標(biāo)注。為了排除新聞發(fā)布時(shí)間造成所選取的實(shí)體重復(fù)出現(xiàn)頻率過高,從而導(dǎo)致其他實(shí)體出現(xiàn)概率小的問題,實(shí)驗(yàn)選取了8 000篇作為實(shí)驗(yàn)語料。
2.2評(píng)價(jià)標(biāo)準(zhǔn)
以準(zhǔn)確率P(Precision)、召回率R(Recall)和F(F-measure)值[14]作為評(píng)價(jià)指標(biāo),具體定義如下:
2.3實(shí)驗(yàn)結(jié)果
2.3.1與SEGTAG系統(tǒng)比較實(shí)體識(shí)別效果
對(duì)于已標(biāo)注好的語料,分別用SEGTAG系統(tǒng)[15]和本文的方法進(jìn)行命名實(shí)體識(shí)別,比較兩種方法的差異(見表4)。
表4 與SEGTAG系統(tǒng)進(jìn)行實(shí)驗(yàn)結(jié)果比較 %
比較上面兩種方法可看出,在命名實(shí)體識(shí)別的效果上,本文方法在準(zhǔn)確率、召回率和F值上比使用SEGTAG系統(tǒng)都有相應(yīng)提高。
2.3.2文本規(guī)范化對(duì)本文方法的影響
文本規(guī)范化對(duì)命名實(shí)體識(shí)別有很大的影響。對(duì)文本語料進(jìn)行規(guī)范化的命名實(shí)體識(shí)別效果如表5所示。
表5 文本規(guī)范化后的識(shí)別效果 %
實(shí)驗(yàn)結(jié)果表明,規(guī)范化對(duì)命名實(shí)體識(shí)別很重要。對(duì)命名實(shí)體識(shí)別的任務(wù)分析后,發(fā)現(xiàn)其中的人名、地名、組織名均由名詞或者形容詞組成,理論上,去除其他詞性能夠提高識(shí)別的效果,實(shí)驗(yàn)結(jié)果也表明,去除其他詞性后識(shí)別效果有很大提高。
2.3.3加入規(guī)則后的影響
匹配規(guī)則的加入可進(jìn)一步精確實(shí)驗(yàn)結(jié)果。對(duì)使用CRF模型得到的實(shí)驗(yàn)結(jié)果,加入上述提到的匹配規(guī)則,進(jìn)行結(jié)果修正,所得結(jié)果如表6所示。
實(shí)驗(yàn)表明,加入規(guī)則后,準(zhǔn)確率、召回率和F值都有相應(yīng)提高。對(duì)文本進(jìn)行的分詞,在效果上獲得的結(jié)果與預(yù)期的結(jié)果存在差異,尤其是在組織名上,分詞所得的結(jié)果可能會(huì)把組織名分開變成兩個(gè)詞,這樣很容易降低識(shí)別的準(zhǔn)確率。
表6 加入規(guī)則后的識(shí)別效果 %
規(guī)則的引入主要是對(duì)第一次識(shí)別后得到的結(jié)果進(jìn)行修正,獲取更加準(zhǔn)確的結(jié)果。使用中可結(jié)合互聯(lián)網(wǎng)文本的特點(diǎn),引入上述規(guī)則。
由于分詞是命名實(shí)體識(shí)別的基礎(chǔ),分詞的正確與否對(duì)識(shí)別十分重要。第一次識(shí)別使用CRF模型,識(shí)別出的數(shù)據(jù)存在一些錯(cuò)誤;加入匹配規(guī)則,對(duì)結(jié)果進(jìn)行二次修正,所得結(jié)果的準(zhǔn)確率有了相應(yīng)提高。
3結(jié)語
本文提出使用條件隨機(jī)場(chǎng)(CRF)并結(jié)合匹配規(guī)則的方法對(duì)互聯(lián)網(wǎng)文本進(jìn)行命名實(shí)體識(shí)別。通過分析互聯(lián)網(wǎng)文本特點(diǎn),對(duì)文本進(jìn)行規(guī)范化,利用統(tǒng)計(jì)和規(guī)則相結(jié)合的方法進(jìn)行識(shí)別。實(shí)驗(yàn)獲得了良好效果,但仍然存在缺陷,識(shí)別效果有待提高。下一步要進(jìn)行的工作包括擴(kuò)大訓(xùn)練語料規(guī)模、獲取更加簡(jiǎn)單有效的規(guī)則以及對(duì)上下文信息的處理等。
參考文獻(xiàn):
[1]Zhang X Y, Wang T, Chen H W. Research on Named Entity Recognition[J]. Computer Science, 2005,32(4): 44-48.
[2]何炎詳,羅楚威,胡彬堯.基于CRF和規(guī)則相結(jié)合的地理命名實(shí)體識(shí)別方法[J].計(jì)算機(jī)應(yīng)用與軟件,2015,32(1):179-185.
[3]Humphreys K, Gaizauskas R, Azzam S,et al. NYU:Description of the LaSIE-II system As Used for MUC-7[C]//Proceeding of the 7th Message Understanding Conference(MUC-7). Washington:IEEE, 1998:145-150.
[4]Chen H H, Ding Y W, Cai S, et al.Description of the NTU System Used for MET2[C]//Proceeding of the 7th Message Understanding Conference(MUC-7). Washington: IEEE,1998:121-129.
[5]Borthwich A.Maximum Entropy Approach to Named Entity Recognition[D].NewYork:New York University,1999:18-25.
[6]王昊.基于層次模式匹配的命名實(shí)體識(shí)別模型[J].現(xiàn)代圖書情報(bào)技術(shù),2007(5):62-68.
[7]王寧,葛瑞芳,苑春法,等.中文金融新聞中公司名的識(shí)別[J].中文信息學(xué)報(bào),2002,16(2):1-6.
[8]馮元勇, 孫樂, 李文波,等. 基于單字提示特征的中文命名實(shí)體識(shí)別快速算法[J].中文信息學(xué)報(bào),2008,22(1):104-110.
[9]Wang D, Fan X H. Named Entity Recognition for Short Text[J]. Journal of Computer Applications,2009,29(1): 143-145.
[10]楊華. 基于最大熵模型的中文命名實(shí)體識(shí)別方法研究[D].哈爾濱:哈爾濱工程大學(xué), 2008.
[11]Le J, Zhao X. Algorithm of Beijing Opera Organization Names Entity RecognitionBased on HMM[J].Computer Engineering, 2013,39(6):266-271.
[12]Lafferty J,Mccallum A,Pereira F.Conditional Random fields:Probabilistic Models for Segmenting and Labeling Sequence Data[C]//Proceedings of the 8th International Conference of Machine Learning.New York: ACM,2001:282-289
[13]Jiang R H, Wang T, Tang J T. Named Entity Recognition For Micro-blog[J]. Computer & Digital Engineering, 2014,42(4): 647-651.
[14]Qiu Q Q,Miao D Q, Zhang Z F. Named Entity Recognition on Chinese Microblog[J]. Computer Science,2013,40(6):196-198.
[15]Xiang X W,Shi X D,Zeng H L. Chinese Named Entity Recognition System Using Statistics-based and Rules-based method[J]. Computer Applications, 2005, 25(10): 2404-2406.
(責(zé)任編輯:王長通)
Research of Web Text Named Entity Recognition Based on CRF
ZHENG Qiu-sheng, LIU Shou-xi
(Zhongyuan University of Technology, Zhengzhou 450007, China)
Abstract:Because of the form diversification of the web text, name entity is difficult. A method for the named entity recognition based on the combining of statistic and rules is put forward. First, the text is standardized, then using CRF model, words and part of speech as features are trained. Combined with the daily, random and entertainment of web text and a number of matching rules, text named entity recognition is carried out. The experimental results show that the method can effectively improve the named entity recognition and the precision, recall and F-score reach 94.76%,85.34% and 89.80%.
Key words:named entity; CRF; web text; match rule; feature
中圖分類號(hào):TP391
文獻(xiàn)標(biāo)志碼:A
DOI:10.3969/j.issn.1671-6906.2016.01.017
文章編號(hào):1671-6906(2016)06-0070-04
作者簡(jiǎn)介:鄭秋生(1965—),男,河南輝縣人,教授,碩士,主要研究方向?yàn)樾畔踩?、?shù)據(jù)資源管理、網(wǎng)絡(luò)安全。
基金項(xiàng)目:國家自然科學(xué)基金項(xiàng)目(U1304611);國家社會(huì)科學(xué)基金項(xiàng)目(15BTQ022);河南省教育廳科技資助項(xiàng)目(14A520-015)
收稿日期:2015-11-27