劉冰洋, 伍大勇, 劉欣然, 程學(xué)旗
融合全局詞語(yǔ)邊界特征的中文命名實(shí)體識(shí)別方法
劉冰洋1,2, 伍大勇1, 劉欣然3, 程學(xué)旗1
(1. 中國(guó)科學(xué)院 計(jì)算技術(shù)研究所網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與工程研究中心,北京 100190;2. 中國(guó)科學(xué)院大學(xué),北京 100190;3. 國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京 100029)
目前在中文命名實(shí)體識(shí)別的任務(wù)中經(jīng)常采用有監(jiān)督的字序列標(biāo)注模型。我們?cè)趯?shí)際應(yīng)用中發(fā)現(xiàn),基于字序列標(biāo)注模型的中文命名實(shí)體識(shí)別模型對(duì)于詞語(yǔ)邊界的識(shí)別錯(cuò)誤是影響識(shí)別效果的主要因素之一,邊界錯(cuò)誤平均占錯(cuò)誤結(jié)果中的47.5%。該文通過(guò)在平均感知機(jī)模型中引入全局的詞語(yǔ)邊界特征,使得人名、地名、機(jī)構(gòu)名識(shí)別的F值平均提升了0.04并降低了邊界錯(cuò)誤占錯(cuò)誤結(jié)果的比例。
命名實(shí)體識(shí)別; 字序列標(biāo)注; 全局特征; 詞語(yǔ)邊界特征;
命名實(shí)體即實(shí)體在文本中的命名性指稱,是文本中重要的語(yǔ)言單位,一般分為人名、地名、機(jī)構(gòu)名、時(shí)間、日期、貨幣和百分比七大類。與命名實(shí)體相關(guān)的任務(wù)包括但不限于: 識(shí)別、消歧、關(guān)聯(lián)、屬性抽取、關(guān)系抽取等。
命名實(shí)體識(shí)別(Named Entity Recognition)是命名實(shí)體相關(guān)任務(wù)的基礎(chǔ)環(huán)節(jié),也是自然語(yǔ)言處理和信息抽取中的基礎(chǔ)工作。在實(shí)際應(yīng)用中,時(shí)間、日期、貨幣和百分比由于具有良好的規(guī)則性,通常采用規(guī)則方法進(jìn)行識(shí)別。命名實(shí)體識(shí)別的主要研究難點(diǎn)集中在人名、地名和機(jī)構(gòu)名這三大類上。本文的研究?jī)?nèi)容即面向中文中此三類命名實(shí)體的識(shí)別。
目前中文命名實(shí)體識(shí)別的主流方法是使用統(tǒng)計(jì)模型,把命名實(shí)體識(shí)別轉(zhuǎn)化為序列標(biāo)注問(wèn)題來(lái)解決。一種常用的字序列標(biāo)注方案把命名實(shí)體的首字標(biāo)為B、命名實(shí)體末字標(biāo)為E、命名實(shí)體的非首末字標(biāo)為M,其他字標(biāo)為O。通過(guò)對(duì)此標(biāo)注方案的錯(cuò)誤識(shí)別結(jié)果的分析,我們發(fā)現(xiàn),邊界型錯(cuò)誤分別占人名、地名、機(jī)構(gòu)名識(shí)別的錯(cuò)誤識(shí)別結(jié)果的73.1%、22.2%和47.2%。邊界錯(cuò)誤占總錯(cuò)誤的比例在使用相同的序列標(biāo)注方案和不同的模型時(shí)保持相對(duì)穩(wěn)定。本文通過(guò)引入全局的詞語(yǔ)邊界特征,降低了邊界錯(cuò)誤占總錯(cuò)誤的比例,同時(shí)也降低了總錯(cuò)誤率,在人名、地名、機(jī)構(gòu)名的識(shí)別中F值平均提升0.04。
目前性能較好的序列標(biāo)注模型是條件隨機(jī)場(chǎng)(Conditional Random Fields)[1]、平均感知機(jī)算法[2]等判別式模型。序列標(biāo)注是分類問(wèn)題,在分類問(wèn)題中,相對(duì)于生成式模型,判別式模型的優(yōu)勢(shì)在于直接計(jì)算p(y|x)而不需要對(duì)p(x)建模。在命名實(shí)體識(shí)別任務(wù)中,p(x)往往包含了很多不相互獨(dú)立的特征,因此很難直接建模[3-4]。
中文命名實(shí)體識(shí)別相對(duì)于英文存在一些固有的困難: 詞語(yǔ)之間沒(méi)有間隔符,沒(méi)有大寫標(biāo)識(shí),單字的應(yīng)用場(chǎng)景更多樣化。其中尤其以詞語(yǔ)之間沒(méi)有間隔符最難以處理,即識(shí)別命名實(shí)體的邊界。當(dāng)前主流的字序列標(biāo)注方法通常把識(shí)別命名實(shí)體邊界和判定命名實(shí)體的類別合并在同一個(gè)模型下解決。
字序列標(biāo)注模型通常使用的是局部特征。局部特征是在一定長(zhǎng)度的窗口范圍內(nèi)抽取字的上下文信息。引入全局特征可以進(jìn)一步增強(qiáng)處理歧義和邊界的能力。文獻(xiàn)[5]的工作研究了利用全局特征來(lái)提升中文分詞的效果。
中文命名實(shí)體識(shí)別與中文分詞在字序列標(biāo)注模型下的問(wèn)題類似,因此在中文命名實(shí)體任務(wù)中有效的借鑒了分詞的模型和特征。
文獻(xiàn)[6]提出了使用條件隨機(jī)場(chǎng)把中文命名實(shí)體識(shí)別問(wèn)題轉(zhuǎn)化為字序列標(biāo)注問(wèn)題的方案。字序列標(biāo)注模型可以很好的利用上下文窗口內(nèi)的局部特征。在此基礎(chǔ)上,文獻(xiàn)[7-8]引入了無(wú)監(jiān)督分詞中的鄰接類別特征(Accessor Variety)[9]來(lái)改進(jìn)命名實(shí)體識(shí)別的效果。
文獻(xiàn)[10]在平均感知機(jī)基礎(chǔ)上,融入了非局部特征來(lái)擴(kuò)展感知機(jī)的能力,并給出了同時(shí)訓(xùn)練局部特征與全局特征的框架。同時(shí)與其他引入非局部特征的模型[11-15]進(jìn)行了比對(duì)。在感知機(jī)模型中可以比條件隨機(jī)場(chǎng)更方便和靈活地引入全局特征。本文的主要貢獻(xiàn)是基于平均感知機(jī)和文獻(xiàn)[10]的訓(xùn)練局部與全局特征的框架,提出了融合全局詞語(yǔ)邊界特征的中文命名實(shí)體識(shí)別方法。
3.1 基線訓(xùn)練算法
本文采用文獻(xiàn)[10]的平均感知機(jī)訓(xùn)練算法和B、M、E、S、O五類基本標(biāo)注(第4節(jié)特征選擇)作為基線方法,訓(xùn)練命名實(shí)體識(shí)別的字序列分類器。
表1 平均感知機(jī)訓(xùn)練算法
3.2 全局特征訓(xùn)練算法
(1)
其中,
(2)
(3)
我們需要求解y′=argmaxy∈Y|x|Φa(x,y)·α,但是由于存在非局部特征,無(wú)法直接使用表1中的算法進(jìn)行訓(xùn)練。表2中描述了如何訓(xùn)練加入了全局特征的平均感知機(jī): 首先使用局部特征得到n-best結(jié)果集,然后在n-best結(jié)果集中搜索可以在全局特征達(dá)到最優(yōu)的y′。文獻(xiàn)[10]的結(jié)果表明,n-best取值越大效果越好。但是在本文的后續(xù)實(shí)驗(yàn)中,考慮到訓(xùn)練時(shí)的計(jì)算量,通過(guò)在人名識(shí)別中分別嘗試不同的n-best值,并計(jì)算結(jié)果中分類標(biāo)簽的正確率Ptag(此正確率非命名實(shí)體識(shí)別的正確率),如圖1所示。最終選定n-best為10。
表2 全局特征的平均感知機(jī)訓(xùn)練算法
圖1 n-best不同取值時(shí)Ptag變化
本文采用字序列標(biāo)注的判別式的命名實(shí)體標(biāo)注方法。采用五種位置標(biāo)記表示漢字與命名識(shí)體的關(guān)系: “B”表示命名實(shí)體首字,“M”表示命名實(shí)體的詞中,“E”表示命名實(shí)體的末字,“S”表示單字的命名實(shí)體,“O”表示非命名實(shí)體。
表3中人名、地名、機(jī)構(gòu)名采用了獨(dú)立標(biāo)注的方式。也可以采用聯(lián)合標(biāo)注的方式,添加命名實(shí)體的類別作為B、M、E、S的前綴,“新華社”即為“ORG_B, ORG_M, ORG_E”。本文為了在實(shí)驗(yàn)部分獨(dú)立比較不同的命名實(shí)體類別的全局邊界特征對(duì)結(jié)果的改進(jìn)效果,不采用聯(lián)合標(biāo)注的方式。
表3 命名實(shí)體基礎(chǔ)標(biāo)注方法示例
由于基礎(chǔ)標(biāo)注方案不能有效的提取除命名實(shí)體外的其他詞語(yǔ)的特征,因此本文在基礎(chǔ)標(biāo)注方法上拓展了含有其它詞語(yǔ)信息的標(biāo)注方法。把類型“O”按照其所在詞語(yǔ)中的首末位置,區(qū)分為“OB”,“OM”,“OE”和“OS”。表4中為擴(kuò)展了詞語(yǔ)信息的命名實(shí)體標(biāo)注方法示例。
4.1 局部特征
字序列標(biāo)注模型的局部特征是指在當(dāng)前字前后一定范圍的窗口內(nèi)的特征。與文獻(xiàn)[6]的工作類似,用C0表示當(dāng)前的漢字,C-i表示C0左邊第i個(gè)漢字,Ci表示C0右邊的第i個(gè)漢字,表5中列出了本文使用的局部特征模板。
表4 命名實(shí)體擴(kuò)展詞語(yǔ)信息標(biāo)注方法示例
表5 局部特征模板
假設(shè)當(dāng)前分析的是表3中例句的“王”字,特征模板生成的特征如下:
1) C-2=沙,C-1=特,C0=王,C1=儲(chǔ),C2=納;
2) C-2C-1=沙特,C-1C0=特王,C0C1=王儲(chǔ),C1C2=儲(chǔ)納;
3) C-2C0=沙王,C-1C1=特儲(chǔ),C0C2=王納;
4) C-2C-1C0=沙特王,C-1C0C1=特王儲(chǔ),C0C1C2=王儲(chǔ)納。
4.2 全局特征
字序列標(biāo)注模型中的全局特征泛指所有不能在當(dāng)前字前后一定范圍的窗口內(nèi)得到的字特征。例如,“當(dāng)前字所屬的詞語(yǔ)”。在字序列標(biāo)注模型的求解過(guò)程中,無(wú)法得知當(dāng)前字的最終標(biāo)注結(jié)果,因此也無(wú)法得知當(dāng)前字所屬的詞語(yǔ)。與此類似的還有詞語(yǔ)的頻率信息等。
在字序列標(biāo)注的命名實(shí)體識(shí)別任務(wù)中,實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)命名實(shí)體識(shí)別的邊界錯(cuò)誤是導(dǎo)致最終錯(cuò)誤的主要原因之一。所以本文在訓(xùn)練字序列標(biāo)注的命名實(shí)體識(shí)別模型時(shí),引入了全局的詞語(yǔ)邊界特征用以改善識(shí)別的效果。
文獻(xiàn)[8]的工作中總結(jié)了描述詞語(yǔ)邊界的特征: 文獻(xiàn)[9]提出的鄰接量(Accessor Variety)和文獻(xiàn)[16]提出的分支熵(Branching Entropy)。鄰接量與分支熵都是基于文獻(xiàn)[17]中的假設(shè): 當(dāng)一個(gè)位置
的后續(xù)字符的不確定性比前一個(gè)位置增加,這個(gè)位置即是一個(gè)分界。鄰接量與分支熵可以分別看作此假設(shè)的離散形式與連續(xù)形式。
字符串S的鄰接量AV(S)定義如式(4)所示。
(4)
Lav(s)與Rav(s)分別表示與字符串S左、右相鄰的不同字符的個(gè)數(shù)。以“微博”一詞為例,下面是真實(shí)網(wǎng)頁(yè)中的例句:
浙江組織部門開官方微博聽(tīng)取民意
新浪微博是全中國(guó)最主流 最具人氣當(dāng)前最火爆的微博產(chǎn)品。
網(wǎng)易微博秉承讓每個(gè)人都成為中心做中國(guó)脈搏的思想 讓個(gè)人的力量不再微薄
微博又叫微博客(micro blog)是微型博客的簡(jiǎn)稱
NBA官方微博落戶騰訊聯(lián)手打造第一球迷社區(qū)
Lav(微博)=|{方浪的易BOS叫}|=6,Rav(微博)=|{聽(tīng)是產(chǎn)秉又客落}|=7,AV(微博)=6。
字符串S的分支熵BE(S)定義如式(5)所示。
(5)
X是與字符串S相鄰的所有字符的集合。為了方便記錄S的左右鄰接,采用與鄰接量相同的方式計(jì)算左、右的分支熵LBE(S)、RBE(S)。本文中使用分支熵代替鄰接量計(jì)算邊界特征。
本文以搜狐新聞數(shù)據(jù)語(yǔ)料(SogouCS 2008)*http://www.sogou.com/labs/dl/cs.html為基礎(chǔ)計(jì)算語(yǔ)料中詞語(yǔ)的左、右分支熵。由于原始文本沒(méi)有分詞信息,所以計(jì)算了所有相鄰的雙字組合,共計(jì)2 165 484項(xiàng),其中1 511 866項(xiàng)的雙字組合頻率大于1。閾值δ用來(lái)過(guò)濾不顯著的詞語(yǔ)邊界特征。本文實(shí)驗(yàn)中δ的取值為1.5(1 511 866項(xiàng)雙字組合的min{LBE(S),RBE(S)}的中位數(shù))。表6為使用的全局特征模板,通過(guò)選取當(dāng)前詞語(yǔ)的前后邊界的兩側(cè)雙字組合在模型中引入詞語(yǔ)的邊界特征。
表6 全局特征模板
續(xù)表
本文采用微軟亞洲研究院命名實(shí)體語(yǔ)料(訓(xùn)練語(yǔ)料46 364句,測(cè)試語(yǔ)料4 365句;測(cè)試語(yǔ)料中含人名1 510項(xiàng),地名1 657項(xiàng),機(jī)構(gòu)名1 090項(xiàng))進(jìn)行實(shí)驗(yàn)。在人名、地名、機(jī)構(gòu)名上分別比對(duì)如下三種不同方案的結(jié)果。
1) 局部特征訓(xùn)練與B、M、E、S、O五種基本標(biāo)注(avgPerc+5);
2) 局部特征訓(xùn)練與B、M、E、S、OB、OM、OE、OS八種擴(kuò)展標(biāo)注(avgPerc+8);
3) 全局特征訓(xùn)練與B、M、E、S、OB、OM、OE、OS八種擴(kuò)展標(biāo)注(global+8)。
基線訓(xùn)練方法與全局特征訓(xùn)練方法都需要確定迭代次數(shù)T。通過(guò)在訓(xùn)練語(yǔ)料上的10-折交叉驗(yàn)證可以得到最優(yōu)的T。表7~表9分別列出了三種不同方案下人名、地名、機(jī)構(gòu)名的識(shí)別結(jié)果。
表7 人名識(shí)別實(shí)驗(yàn)結(jié)果
表8 地名識(shí)別實(shí)驗(yàn)結(jié)果
表9 機(jī)構(gòu)名識(shí)別實(shí)驗(yàn)結(jié)果
從以上結(jié)果可以看到,擴(kuò)展的八類別標(biāo)注方案相比五類別的基礎(chǔ)標(biāo)注方案可以顯著地提高準(zhǔn)確率和召回率,尤其在機(jī)構(gòu)名的識(shí)別中獲得了最大的提升。機(jī)構(gòu)名相比人名、地名要更長(zhǎng),加入分詞信息的標(biāo)注類別之后,可以更好的利用局部的詞語(yǔ)邊界特征。這也從另一方面說(shuō)明,詞語(yǔ)邊界特征在局部尺度上也可以大幅度提升識(shí)別的效果。
全局特征的引入進(jìn)一步提升了識(shí)別效果。值得一提的是,本文中使用的全局特征詞表和分支熵是由獨(dú)立的語(yǔ)料訓(xùn)練得來(lái),由此證明可以通過(guò)引入其它未標(biāo)注語(yǔ)料中的全局特征來(lái)改善已有的命名實(shí)體識(shí)別模型的效果。
在表8(地名)的第1、2行實(shí)驗(yàn)結(jié)果中,盡管F值得到了少量提升,但是邊界錯(cuò)誤的個(gè)數(shù)并未下降,即邊界錯(cuò)誤所占的比例反而上升了。通過(guò)查看錯(cuò)誤識(shí)別案例我們發(fā)現(xiàn),地名的上下文中雙字詞語(yǔ)相比人名、機(jī)構(gòu)名更少,單字詞更多,比如“去上?!?,“北京人”,因此分詞信息以及全局的雙字組合邊界特征并不能很有效地提升地名識(shí)別效果。
本文在字序列命名實(shí)體識(shí)別模型中引入了全局詞語(yǔ)邊界特征,并且在平均感知機(jī)的訓(xùn)練中使用了全局特征訓(xùn)練方法。實(shí)驗(yàn)結(jié)果表明該方法有效地提升了人名、地名、機(jī)構(gòu)名的識(shí)別效果。在后續(xù)的研究中,將對(duì)不同的全局詞語(yǔ)邊界特征進(jìn)行對(duì)比,定量分析各項(xiàng)特征對(duì)于命名實(shí)體識(shí)別的獨(dú)立貢獻(xiàn)。
[1] Lafferty J, McCallum A, Pereira F. Conditional Random Fields : Probabilistic Models for Segmenting and Labeling Sequence Data[C]//Proceedings of the Eighteenth International Conference on Machine Learning, 2001: 282-289.
[2] Collins M. Discriminative training methods for hidden markov models: Theory and experiments with perceptron algorithms[C]//Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10, 2002: 1-8.
[3] Sutton C, McCallum A. An Introduction to Conditional Random Fields[J]. Machine Learning, 2011, 4(4):267-373.
[4] Ng A, Jordan M. On Discriminative vs. Generative classifiers: A comparison of logistic regression andna?ve Bayes[J]. Advances in neural information processing systems, 2002, 2:841-848.
[5] 孟凡東,謝軍,劉群.中文分詞和詞性標(biāo)注的在線重排序方法[C].第六屆全國(guó)青年計(jì)算語(yǔ)言學(xué)會(huì)議論文集, 2012: 44-50.
[6] Chen W, Zhang Y, Isahara H. Chinese named entity recognition with conditional random fields[C]//Proceedings of the 5th SIGHAN Workshop on Chinese Language Processing, 2006.
[7] Zhao H, Kit C. Unsupervised Segmentation Helps Supervised Learning of Character Tagging for Word Segmentation and Named Entity Recognition[C]//Proceedings of IJCNLP 2008, 2008: 106-111.
[8] Zhao H, Kit C. Incorporating global information into supervised learning for Chinese word segmentation[C]//Proceedings of the 10th Conference of the Pacific Association for Computation Linguistics, 2007: 66-74.
[9] Feng H, Chen K, Deng X, et al. Accessor Variety Criteria for Chinese Word Extraction[J]. Computational Linguistics, 2004, 30(1): 75-93.
[10] Kazama J, Torisawa K. A new perceptron algorithm for sequence labeling with non-local features[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2007: 315-324.
[11] Sutton C, McCallum A. Collective segmentation and labeling of distant entities in information extraction[J]. University of Massachusetts TR, 2004,04(49): 1-7.
[12] Bunescu R, Mooney RJ. Collective information extraction with relational Markov networks[C]//Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics, 2004.
[13] Finkel JR, Grenager T, Manning C. Incorporating non-local information into information extraction systems by gibbs sampling[C]//Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics, 2005: 363-370.
[14] Roth D, Yih W. Integer linear programming inference for conditional random fields[C]//Proceedings of the 22nd international conference on Machine learning, 2005: 736-743.
[15] Krishnan V, Manning C. An effective two-stage model for exploiting non-local dependencies in named entity recognition[C]//Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics, 2006: 1121-1128.
[16] Jin Z, Tanaka-Ishii K. Unsupervised segmentation of Chinese text by use of branching entropy[C]//Proceedings of the COLING/ACL on Main conference poster sessions, 2006: 428-435.
[17] Harris Z. Morpheme boundaries within words: Report on a computer test[C]//Proceedings of the Papers in Structural and Transformational Linguistics in Spinger,1970: 68-77.
Chinese Named Entity RecognitionIncorporatingGlobal Word Boundary Features
LIU Bingyang1,2, WU Dayong1, LIU Xinran3, CHENG Xueqi1
(1. Research Center of Web Data & Engineering, Institute of Computing Technology, Beijing 100190, China;2. Graduate University of Chinese Academy of Sciences, Beijing 100190, China;3. CNCERT/CC, Beijing 100029, China)
Supervised character sequence labeling model is a popular method in Chinese named entity recognition(NER) task. It is found in practice suffering from word boundary error, covering roughly 47.5% of all errors. This paper incorporates global words boundary features in averaged perceptron model. Experiments indicate that the F value of recognizing people name, location names and organization names is improved by 0.04, reducing the proportion of boundary errors in overall errors.
named entity recognition; sequence labeling; global feature; word boundary feature
劉冰洋(1987—),博士,主要研究領(lǐng)域?yàn)橹形淖匀徽Z(yǔ)言處理。E?mail:liuctic@gmail.com伍大勇(1977—),博士,高級(jí)工程師,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理,數(shù)據(jù)挖掘。E?mail:wudayong@ict.a(chǎn)c.cn劉欣然(1971—),博士,研究員,主要研究領(lǐng)域?yàn)樾畔踩头植际接?jì)算。E?mail:lxr@cert.org.cn
2015-03-15 定稿日期: 2016-06-27
國(guó)家自然科學(xué)基金(61232010,61100083);國(guó)家973課題(2012CB316303);國(guó)家863課題(2012AA011003);國(guó)家科技支撐計(jì)劃(2012BAH46B04);國(guó)家安全專項(xiàng)(2013A140)
1003-0077(2017)02-0086-06
TP391
A