朱顥東,楊立志,丁溫雪,馮嘉美
(鄭州輕工業(yè)學院計算機與通信工程學院,河南鄭州450002)
面向中文微博命名實體識別的對比研究
朱顥東,楊立志,丁溫雪,馮嘉美
(鄭州輕工業(yè)學院計算機與通信工程學院,河南鄭州450002)
命名實體識別是自然語言處理的重要基礎(chǔ),同時也是信息抽取,機器翻譯等應用的關(guān)鍵技術(shù).近年來,網(wǎng)絡媒體微博的迅速發(fā)展,為命名實體識別研究提供了全新的載體.針對中文微博文本短、表達不清、網(wǎng)絡化嚴重等特點,對目前命名實體識別兩種應用比較廣泛的方法,基于最大熵模型的識別方法和基于條件隨機場模型的識別,進行對比研究.在真實的微博數(shù)據(jù)上進行對比實驗.通過實驗結(jié)果的對比得出這兩種方法在中文微博命名實體識別上的優(yōu)缺點.
命名實體;最大熵;條件隨機場
隨著現(xiàn)代社會信息化的迅速發(fā)展,信息處理已經(jīng)變得非常重要.在互聯(lián)網(wǎng)中,語言文本是信息的基本表現(xiàn)形式.而命名實體是語言文本信息的基本組成元素,是信息的主要載體.命名實體是指識文本中以名稱為標識的實體名詞,主要包括人名,地方名,組織名,時間等名詞.命名實體的識別是指對命名實體進行篩選并加以分類.命名實體識別是多領(lǐng)域發(fā)展和研究的基礎(chǔ),如信息抽取和機器翻譯等.因此,命名實體識別的發(fā)展關(guān)系著其他領(lǐng)域的進步與發(fā)展.
目前,國內(nèi)外對命名實體識別的研究已趨于成熟,主要是針對正式文本.但是隨著社交網(wǎng)絡的發(fā)展,微博已成為新的信息載體,而國內(nèi)外針對微博文本的命名實體識別研究還處于起步階段,尤其是中文微博(如新浪、QQ等).美國的Twitter是互聯(lián)網(wǎng)的第一家微博平臺,自2006年上線以來受到了許多網(wǎng)民的青睞.隨后國內(nèi)各大互聯(lián)網(wǎng)公司也相繼推出了各自的中文微博平臺,其中最具代表性的是新浪微博(weibo.com).早在2013年,新浪微博的注冊用戶已經(jīng)超過5億,最新統(tǒng)計,2015年第四季度新浪微博月活躍用戶達到2.36億,日活躍用戶達到1.06億,每天產(chǎn)生的微博文本達上億條[1].由于微博的即時性,信息在微博上的傳播速度較快,與人們的日常生活息息相關(guān).因此,對微博文本內(nèi)容進行命名實體識別,從而挖掘出社交網(wǎng)絡中包含的重要信息是一項很有意義的研究.
與其他正式文本(如新聞、公告等)相比,微博具有其獨有的結(jié)構(gòu)與特點.每條微博文本的長度限制在140字以內(nèi),據(jù)相關(guān)統(tǒng)計,每條微博文本的平均長度約為50字.由于微博的原創(chuàng)性和無標準性,在表達形式上較為隨意,表達不清楚,口語化,網(wǎng)絡化較為嚴重.這些特點與結(jié)構(gòu)使得微博命名實體識別更加的困難.
因此,本文為了去除這些結(jié)構(gòu)和特點為研究帶來的困難,在中科院漢語分詞系統(tǒng)ICTCLAS 2016的分詞基礎(chǔ)上,對微博數(shù)據(jù)進行規(guī)范化處理,選取合適的特征,分別應用最大熵模型和條件隨機場模型進行中文微博命名實體識別,對分析結(jié)果進行對比研究.
MUC-6(第六屆Message Understanding Conference)在1996年第一次提出將命名實體識別作為信息抽取的一個子任務[2].隨后在眾多國際會議上,命名實體識別都作為其中一項重要的指定任務被廣泛提及[3].目前,對于傳統(tǒng)文本的識別研究已經(jīng)較為成熟,國內(nèi)外的研究方法主要分為三類:以ANNIE系統(tǒng)、FACILE系統(tǒng)、OKI系統(tǒng)等為代表的基于規(guī)則的方法[4],以馬爾科夫模型(Hidden Markov Models,HMM)[5]、最大熵馬爾科夫模型(Maximum Entropy Markov Models,MEMM)、n元模型、決策樹[6-8]等為代表基于統(tǒng)計的方法,規(guī)則與統(tǒng)計相結(jié)合的方法[9-11].基于規(guī)則的方法往往依賴于具體語言,領(lǐng)域和文本風格,系統(tǒng)可移植性差,代價較大[12-13].基于統(tǒng)計的方法的性能比基于規(guī)則的方法低,且對語料庫的依賴較大[14].規(guī)則與統(tǒng)計相結(jié)合的方法是目前使用較多,性能也較為理想[15].
2.1 最大熵模型的定義
假設訓練數(shù)據(jù)集是由n個(x,y)數(shù)據(jù)組成的數(shù)據(jù)集合,對于命名實體來說,x代表輸入序列,一般表示文本的字或者詞語等,y代表的是標注類別.數(shù)據(jù)集分布如下所示:
式(1)表示將n個(x,y)組成的數(shù)據(jù)集作為訓練樣本,從而建立模型.f(x,y)為一個二值特征函數(shù),取值為0或者1,在文本對比研究中,選取詞性為特征.N個特征函數(shù)的期望分布如下:
特征的經(jīng)驗概率為:
對每個特征都進行一定的條件限制,期望概率和經(jīng)驗概率相等.若要選取最優(yōu)的p(y x )值,就需要選擇熵值最大的表達式:
最大熵模型就是在所有滿足限制條件的模型中,選取熵最大的那個,即:
2.2 條件隨機場模型
設G=(V,E)是一個無向圖,Y={Yv|v∈V}是以G中節(jié)點v為索引的隨機變量Yv構(gòu)成的集合.在已知X的條件下,如果每個隨機變量Yv具有馬爾可夫?qū)傩?離目標元素比較遠的元素對目標元素的性質(zhì)影響可以忽略),即P(Yv|X,Yu,u≠v)=P(Yv|X,Yu,u~v),其中u~v表示兩個定點之間有連接邊,則(X,Y)就構(gòu)成一個條件隨機場.最常用且最簡單的CRF是一階鏈式結(jié)構(gòu),即線性結(jié)構(gòu)(Linear-chain CRFs),如圖1所示.
其中:
式(6)表示給定給定觀察序列x,對狀態(tài)序列Y的條件概率,式(7)為規(guī)范化因子.兩式中tk(yi-1,yi,x,i)是序列i-1和i之間的特征轉(zhuǎn)移函數(shù),sl(yi,x,i)是觀察序列i位置的狀態(tài)特征函數(shù),λk和μl是通過參數(shù)估計確定的參數(shù).
圖1 線性結(jié)構(gòu)的CRF模型圖Fig.1 Linear structure of CRF
3.1 實驗語料
1)北京大學收集并且已標注過的1998年1月的《人名日報》語料庫,該部分語料主要用于提取指示詞和常用組織名,生成相對應的數(shù)據(jù)字典,不參與本文的模型訓練.
2)新浪微博數(shù)據(jù).本文使用的實驗數(shù)據(jù)是新浪微博2014-05-03至2014-05-11的84168條微博數(shù)據(jù).由于數(shù)據(jù)量較大,為避免微博之間由于發(fā)布時間過近而造成某些實體重復率過高,故從收集的數(shù)據(jù)中,按照時間平均的選取8000條微博數(shù)據(jù).首先使用中科院的ICTCLAS2016系統(tǒng)進行分詞和詞性標注,然后人工標注微博語料的實體信息.
3.2 特征模板的選取
為了充分反映語言文本規(guī)律,可以通過選取合適的特征模板來建立模型.通過特征可以對特征進行配置,得到特征函數(shù).選取合適的特征模板,對試驗的識別率非常的重要.針對微博命名實體識別任務,本文選取的特征模板如圖2所示.括號中的數(shù)字表示與當前詞的距離,負數(shù)表示在目標詞的左側(cè),正數(shù)表示目標詞的右側(cè).
3.3 評價標準
命名實體識別的評價指標主要有準確率Pr(Precision)、召回率Re(Recall).為了防止準確率和召回率的片面性,還采用F值(F-Measure)進行評價,F(xiàn)值綜合了準確率和召回率.三者在命名實體識別中的具體定義如下:
3.4 實驗結(jié)果及對比分析
3.4.1 基于最大熵模型的微博命名實體識別.利用最大熵模型,對微博預料分別進行訓練和測試,得到的命名實體識別結(jié)果,如表1所示.
3.4.2 基于CRF模型的微博命名實體識別.對微博文本數(shù)據(jù)利用條件隨機場模型進行試驗,實驗結(jié)果如表2所示.
3.4.3 對比分析.由表1和表2的實驗結(jié)果對比分析可知,CRF模型在中文微博數(shù)據(jù)上的命名實體識別效果均高于最大熵模型.所以,在未來對中文微博數(shù)據(jù)的命名實體識別研究中,可優(yōu)先選擇條件隨機場模型,再在其識別基礎(chǔ)上進行改進優(yōu)化,從而達到希望的效果.
圖2 特征模板Fig.2 Feature template
表1 最大熵模型實驗結(jié)果%Tab.1 Result of Maximum Entropy%
表2 條件隨機場實驗結(jié)果%Tab.2 Result of CRF%
本文對目前命名實體識別方面應用較為廣泛的兩種識別方法,基于最大熵模型和基于條件隨機場模型,分別在中文微博文本上進行試驗.在對數(shù)據(jù)進行規(guī)范化處理后,選取相同的特征模板,對試驗結(jié)果進行分析對比,從而得出結(jié)論.但是由于中文微博的特殊性,兩種方法對組織名的識別率都遠不如任命和地名,還有著較大的研究空間,因此,將來的重點研究方向應該偏向于提高組織名的識別率.
參考文獻:
[1] 第37次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告[R].北京:中國互聯(lián)網(wǎng)絡信息中心,2016.
[2] 劉建晶.基于新浪微博開放平臺的iPhone手機SDK的研究[D].廈門:廈門大學,2012.
[3] 郭家清.基于條件隨機場的命名實體識別研究[D].沈陽:沈陽航空工業(yè)學院,2007.
[4] AARON L,DEREK F.Chinese Named Entity Recognition with Conditional Random Fields in the Light of Chinese Characteristics[M].Berlin: Springer,2013.
[5] 陸銘,康雨潔,俞能海.簡約語法規(guī)則和最大熵模型相結(jié)合的混合實體識別[J].小型微型計算機系統(tǒng),2012,33(3):537-541.
[6] 張曉艷,王挺,陳火旺.命名實體識別研究[J].計算機科學,2005,32(4):44-48.
[7] EkT,KIRKEGAARD C,JONSSONH,et al.Named entity recognition for short text messages[J].Procedia-Social and Behavioral Sciences,2011,27 (5):178-187.
[8] 尚志剛.基于自然語言理解的中文自動問答系統(tǒng)研究[D].天津:天津工業(yè)大學,2007.
[9] LAFFERTY J,MCCALLUM A,PEREIRA F.Conditional random fields:probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the 8th International Conference of Machine Learning,USA:IEEE,2001:282-289.
[10] 唐釗.條件隨機場模型在中文人名識別中的研究與實現(xiàn)[J].現(xiàn)代計算機,2012,14(7):3-7.
[11] ZHANG Y,XUZ,ZHANG T.Fusion of Multiple Features for Chinese Named Entity Recognition Based on CRF Model[C]//Proceedings of 4th A-sia Infomation Retrieval Symposium,China:Haerbin,2008:95-106.
[12] 何靜,郭進利.微博用戶行為統(tǒng)計特性及其動力學分析[J].情報分析與研究,2013,7(1):21-23.
[13] 鈕焱.基于馬爾科夫模型的詞序因子的文本相似度研究[D].武漢:湖北工業(yè)大學,2012.
[14] HAVELIWALA T H.Topic-sensitive pagerank:A context-sensitive ranking algorithm for web search[J].Knowledge and Data Engineering,2003,15(4):784-796.
[15] WENG J,LIM E P,JIANG J,et al.Twitterrank:finding topic-sensitive influential twitterers[C]//Proceedings of the third ACM international conference on Web search and data mining,ACM,2010:261-270.
責任編輯:高 山
Comparison of Named Entity Recognition for Chinese Microblogs
ZHU Haodong,YANG Lizhi,DING Wenxue,F(xiàn)ENG Jiamei
(School of Computer and Communication Engineering,Zhengzhou University of Light Industry,Zhengzhou 450002,China)
Named entity recognition is an important basis for natural language processing,and it is also the key technology of information extraction,machine translation and other applications.In recent years,the rapid development of network media micro-blogs provides a new carrier for the research of named entity recognition.Considering the Chinese micro-blog text is short,the expression is not clear,the networking trend is serious and so on,the paper,based on maximum entropy model and conditional random field model,contrasts two methods widely used in named entity recognition.The advantages and disadvantages of the two methods are compared through experiments.
named entity recognition;maximum entropy;conditional random fields(CRF)
TP301
A
1008-8423(2017)01-0019-04
10.13501/j.cnki.42-1569/n.2017.03.005
2016-12-06.
國家自然科學基金青年科學基金項目(61201447);河南省科技計劃項目(152102210149,152102210357);河南省高等學校青年骨干教師資助計劃項目(2014GGJS-084);河南省高等學校重點科研項目(16A520030);鄭州輕工業(yè)學院校級青年骨干教師培養(yǎng)對象資助計劃項目(XGGJS02);鄭州輕工業(yè)學院博士科研基金項目(2010BSJJ038).
朱顥東(1980-),男,博士,副教授,主要從事智能信息處理、智能計算的研究.