付宇新,王 鑫+,馮志勇,徐 強
1.天津大學 計算機科學與技術學院,天津 300354
2.天津市認知計算與應用重點實驗室,天津 300354
3.天津大學 軟件學院,天津 300354
DBpedia Spotlight上的命名實體識別優(yōu)化*
付宇新1,2,王 鑫1,2+,馮志勇2,3,徐 強1,2
1.天津大學 計算機科學與技術學院,天津 300354
2.天津市認知計算與應用重點實驗室,天津 300354
3.天津大學 軟件學院,天津 300354
+Corresponding autho author:r:E-mail:wangx@tju.edu.cn
FU Yuxin,WANG Xin,FENG Zhiyong,et al.Nam ed entity recognition optim ization on DBpedia Spotlight.Journalof Frontiersof Com puter Science and Technology,2017,11(7):1044-1055.
命名實體識別任務能夠搭建知識庫與自然語言之間的橋梁,為關鍵字提取、機器翻譯、主題檢測與跟蹤等研究工作提供支撐。通過對目前命名實體識別領域的相關研究進行分析,提出了一套通用的命名實體識別優(yōu)化方案。首先,設計并實現(xiàn)了利用候選集的增量式擴展方法,降低了對訓練集的依賴性;其次,通過點互信息率對實體上下文進行特征選擇,大幅度降低了上下文空間,同時提高了標注性能;最后,提出了基于主題向量的二次消歧方法,進一步增強了標注準確率。通過在廣泛使用的開源命名實體識別系統(tǒng)DBpedia Spotlight上進行多種比較實驗,驗證了所提優(yōu)化方案與已有系統(tǒng)相比具有較優(yōu)的性能指標。
命名實體識別;鏈接數(shù)據(jù);DBpedia Spotlight
作為信息提取領域的任務之一,命名實體識別能夠在給定的文本中識別出所有實體的命名性指稱,并鏈接到其在知識庫中的參照,從而搭建起知識庫與自然語言文本之間的橋梁。隨著維基百科的發(fā)展以及包括DBpedia[1]、YAGO[2]等知識庫的發(fā)布,使用命名實體識別豐富文本背后的語義并為應用提供智能服務變得越來越重要,因此如何提高命名實體識別的性能成為許多研究工作的焦點。
命名實體識別宏觀上包括3個步驟:第一步是命名性指稱識別,即盡可能地識別出文本中可能出現(xiàn)的命名性指稱;第二步是候選集生成,即對于每個命名性指稱,構成一個由知識庫中可能與之對應實體組成的候選集;最后一步是候選集消歧,即在每個命名性指稱對應的候選集中確定唯一的實體匹配。
本文提出了一套命名實體識別優(yōu)化方案,能夠適用于目前大部分的命名實體識別系統(tǒng),并從三方面改善命名實體識別的性能。
本文的主要貢獻如下:
(1)提出了使用候選集對一個命名實體識別系統(tǒng)進行增量式擴展的方法,降低了對訓練數(shù)據(jù)集的依賴,提高了靈活性。
(2)通過考慮上下文單詞與實體的相關性,提出了點互信息率的概念,并使用其作為閾值對每個實體的上下文進行特征選擇,大幅度降低了上下文空間,同時提高了系統(tǒng)的標注性能。
(3)使用維基百科文章之間的鏈接為實體和文本構建主題向量代替M ilne-W itten語義關聯(lián)度,并基于主題向量提出了二次消歧算法,進一步提高了系統(tǒng)標注的準確率。
(4)通過將優(yōu)化方案實現(xiàn)在目前廣泛使用的開源命名實體識別系統(tǒng)DBpedia Spotlight上,并在多個測試數(shù)據(jù)集上設計完善的實驗,驗證了所提優(yōu)化方案與已有系統(tǒng)相比具有較優(yōu)的性能指標。
本文組織結構如下:第2章介紹相關研究工作;第3章給出命名實體識別優(yōu)化方案的三方面內容;第4章介紹基于命名實體識別系統(tǒng)DBpedia Spotlight的優(yōu)化方案實現(xiàn);第5章詳細描述對比實驗設計和實驗結果;第6章對全文進行總結。
由于命名實體形式多變并且語言環(huán)境復雜,正確地對候選集進行消歧尤為重要。例如,實體China可以在文本中通過命名性指稱“China”或“PRC”等來指代,而命名性指稱“Apple”也可能指代的是水果或蘋果公司。
Cucerzan[3]最先提出了基于詞袋的方法,利用維基百科的標注數(shù)據(jù)構造實體的上下文向量和類別向量,并將文本中的表現(xiàn)形式標注到與之相似度最高的實體上。Medelyan等人[4]考慮到文本應該具有一個中心主題,因此選擇候選集中與文本之間的語義關聯(lián)度最高的實體作為消歧結果。M ilne和Witten[5]在利用語義關聯(lián)度的同時,考慮了實體的流行度和上下文質量,并結合樸素貝葉斯、C4.5決策樹、支持向量機等機器學習方法對候選集進行消歧。Olieman[6]、Lipczak[7]等人的工作選取了更多的特征,使消歧的效果得到了進一步的提高。Kulkarni等人[8]的工作結合了上下文向量的余弦相似度和實體之間的語義相似度,將標注問題規(guī)約到了線性優(yōu)化問題,通過選擇一個最優(yōu)的標注結果,使得最終文本得到的實體之間局部相似度和全局相似度之和最大。Han等人[9]提出了基于圖的候選集消歧算法,利用所有表現(xiàn)形式和候選集構造“指示圖”,并為圖上的每個點賦予一個初始得分,利用隨機游走算法,最終選擇穩(wěn)定后的最高得分實體。Hoffart[10]和Usbeck[11]等人也同樣使用基于圖的候選集消歧方法,并將不同的圖構建算法和圖消歧算法作為研究的重點。
已有的工作仍然具有以下幾點問題:(1)命名實體識別系統(tǒng)普遍使用維基百科知識庫中的人工標注結果作為支持數(shù)據(jù),因此維基百科中沒有出現(xiàn)過的標注也不可能出現(xiàn)在系統(tǒng)的標注結果中;(2)實體上下文是候選集消歧的最重要的特征,而所有命名實體識別系統(tǒng)僅僅選擇去除其中的停用詞,而忽略了一些“類停用詞”帶來的噪音;(3)主題一致性同樣是一個重要的用于候選集消歧的特征,而一部分命名實體識別系統(tǒng)受限于本身的核心消歧算法,缺少高效的手段來與主題一致性相融合。圍繞這些問題,本文提出了一套命名實體識別優(yōu)化方案,可以有效地提高命名實體識別系統(tǒng)的性能。
下面主要介紹命名實體識別優(yōu)化方案的三部分:基于候選集的增量擴展方法,基于點互信息率的特征選擇以及基于主題向量的二次消歧。
3.1 基于候選集的增量擴展方法
原有的包括DBpedia Spotlight在內的命名實體識別系統(tǒng)中,例如TagMe(http://acube.di.unipi.it/tagme)、AIDA(http://www.mpi-inf.mpg.de/yago-naga/aida)、Wikipedia M iner(http://w ikipedia-miner.cms.waikato.ac.nz)等普遍都需要使用基于維基百科數(shù)據(jù)得到的字典和候選集來識別文本中的命名性指稱以及實體候選集。這樣做的問題是,如果維基百科中并不存在正確的實體與命名性指稱的匹配,那么在給定文本中該命名性指稱也永遠不會得到正確的標注。例如命名性指稱“Justin”在維基百科中僅僅被標記為實體Justin Bieber,則對于輸入文本中出現(xiàn)的命名性指稱“Justin”,將永遠不會被標記為其他實體,即便正確的結果希望將該命名性指稱標記到實體Justin Timberlake。
通過人工構建這些命名性指稱和實體之間的對應關系作為候選集,可以直接對命名性指稱模型和候選集模型進行擴展。基于拉普拉斯平滑[12]的思想,對于這些新的實體與命名性指稱對應關系,如果它并沒有在訓練集中出現(xiàn)過,不是認為它不可能作為標注出現(xiàn),而是給予它一個最低的概率,即認為它的被標記次數(shù)為1次。對于模型中未出現(xiàn)的命名性指稱,需要設定一個初始的被標記概率,本文選擇使用命名性指稱和實體的聯(lián)合被標記概率(式(1))來對新命名性指稱的被標記概率(式(2))進行估計。
其中,count(NIL,s)代表命名性指稱s并未被標記的次數(shù);S(e)是實體e所有已知的命名性指稱集合。
3.2 基于點互信息率的特征選擇
特征選擇能夠通過減少有效的詞匯空間來提高分類器訓練和應用的效率,同時也能夠去除噪音特征,從而提高分類的精度。對于命名實體識別任務來說,候選集消歧的問題也可以抽象成為一個分類問題,因此合理地使用特征選擇能夠改善命名實體識別問題。
在候選集消歧的過程中能夠利用的最重要特征是每個實體周圍的上下文。所有命名實體識別系統(tǒng)都需要離線的處理過程,目的是將維基百科中出現(xiàn)在實體周圍的單詞過濾掉停用詞后作為實體的上下文。這些上下文中的單詞有很多和實體的出現(xiàn)只是偶然的關系,換句話說,這些單詞對于實體而言和停用詞的作用是近似的。通過將這些相對實體的類停用詞過濾掉,不僅可以減小實體上下文模型的占用空間,提高系統(tǒng)的性能;同時可以有效地避免這些類停用詞給消歧帶來的噪音,優(yōu)化系統(tǒng)的標注效果。
信息論中,點互信息量[13](pointw isemutual information,PM I)能夠有效地度量兩個事件同時發(fā)生的關聯(lián)程度。Islam等人[14-15]使用點互信息量來計算兩個單詞或文本之間的相似性。因此,結合DBpedia Spotlight的命名實體識別過程,本文定義一個實體e與該實體上下文中的某個單詞t之間的點互信息量為:
其中,N為訓練集中單詞的總數(shù);count(e,t)代表實體e和單詞t在維基百科中同一個上下文環(huán)境下出現(xiàn)的次數(shù);count(e)和count(t)分別表示實體e和單詞t在維基百科中出現(xiàn)的總次數(shù)。通過上式可以計算得到單詞t和實體e之間的點互信息量,從而衡量兩者的關聯(lián)程度。兩者之間的點互信息量值越大,說明這個單詞的出現(xiàn)和實體的出現(xiàn)之間的關聯(lián)性越大,反之,說明這個單詞的出現(xiàn)和實體的出現(xiàn)接近于偶然,兩者的聯(lián)系比較小,可以把單詞作為停用詞處理。
對于點互信息量樸素的使用方法是將所有與實體之間的點互信息量低于一定閾值的單詞從其上下文模型中剔除掉,避免這些單詞在消歧時帶來的噪音。然而實際證明這樣的策略并不是最優(yōu)的,原因是模型中每個實體所具有的信息量各不相同,與其上下文中的單詞之間點互信息量能夠達到的最大值也各不相同,因此將所有實體的上下文單詞使用相同的閾值進行過濾是不合理的。通過考慮以上因素,本文提出了點互信息率的概念(式(4)),即單詞t和實體e之間的點互信息量與實體e所具有的信息量的比值。
其中,H(e)是實體e具有的信息量,通過式(5)計算。
3.3 基于主題向量的二次消岐
通常一段文本都具有一個主題,文本內部的實體之間具有緊密的聯(lián)系,Medelyan[4]和Ferragina[16]等人都將主題一致性作為候選集消歧的主要依據(jù),可以一定程度上提高命名實體識別的性能。而部分命名實體識別系統(tǒng)從截然不同的思路入手來解決候選集消歧問題,缺少一些高效的手段將主題一致性整合到消歧過程中。
3.3.1 主題向量的構造
基于維基百科文章的M ilne-Witten語義關聯(lián)度[17]被廣泛應用在命名實體識別領域。M ilne-Witten語義關聯(lián)度借鑒了谷歌距離,充分考慮了維基百科文章之間的超鏈接構成的圖結構,而不是使用分類的層次結構和文本內容。給定一篇文章,計算任意實體與文章的主題一致性需要分別計算該實體與其他所有文章中實體的M ilne-Witten語義關聯(lián)度并求和,對于較長文章或實體出現(xiàn)密集的文章具有較低的效率。通過借鑒M ilne-Witten語義關聯(lián)度的方法,本節(jié)提出了使用實體所出現(xiàn)的維基百科文章集合來表示實體主題和文章主題的方法。
令W={w1,w2,…,wM}為維基百科中所有文章的集合。給出一個實體e,通過統(tǒng)計所有包含它的維基百科中的文章,可以得到該實體主題的01向量表示。
其中,維基百科中的每篇文章對應topic(e)向量中的一位,由該實體是否在該文章中出現(xiàn)決定該位是0還是1。
同樣,給出一個文章D,可以通過對文章中出現(xiàn)的所有實體主題向量求和得到文章對應的主題向量。
3.3.2 基于主題向量的二次消岐
對于任意一個命名實體識別系統(tǒng),最終候選集消歧的結果是對每個命名性指稱給予唯一的實體匹配。如果一個候選集中的兩個實體消歧的得分比較接近,那么直接選擇得分更高的實體很容易出現(xiàn)錯誤。利用上節(jié)提到的主題向量,可以對這部分容易發(fā)生錯誤的標注結果進行二次消歧。
給定一篇文章和候選集實體,利用上節(jié)的方法構造文章的主題向量和每個實體的主題向量。對于每個實體,計算其主題向量和文章主題向量的余弦相似度作為兩者的主題相似度,并選擇主題相似度最高的實體作為最終標注的實體。
為了得到文章的主題向量,需要獲得文章中出現(xiàn)的所有實體。然而要想得到文章中出現(xiàn)的所有實體,又需要首先獲得文章的標注結果,這就使得兩者出現(xiàn)了循環(huán)依賴的關系。對于這個問題,本文采取的解決辦法是利用一次消歧結果來近似得到文章中出現(xiàn)的實體。
本文認為在一次消歧后滿足以下兩個條件的候選實體可以作為正確的標注結果,不參與二次消歧,并利用這些實體構建文章的近似主題向量。
(1)該實體在候選集中擁有最高的消歧得分,且不低于一定閾值(取決于具體的系統(tǒng))。
(2)候選集中沒有其他實體的支持度(即維基百科中的出現(xiàn)次數(shù))大于該實體。
在得到文章的主題向量之后,通過計算剩下的候選實體和文章主題之間的主題相似度,將主題相似度最高的實體作為最終的消歧結果。
本文用于實驗的命名實體識別系統(tǒng)是DBpedia Spotlight基于統(tǒng)計的版本[18],也是目前使用最廣泛的開源命名實體識別系統(tǒng)之一。本章主要對系統(tǒng)原理進行簡單介紹,并闡述優(yōu)化方案的實現(xiàn)。
4.1 開源系統(tǒng)DBpediaSpotlight
DBpedia Spotlight可以識別文本中的命名性指稱,并與DBpedia知識庫中的對應實體關聯(lián)起來,從而豐富文本的信息。系統(tǒng)所需要的統(tǒng)計模型包括實體、命名性指稱、候選集、單詞和上下文五部分,是通過對維基百科的dump解析得到的,并序列化到硬盤。維基百科文章中包含了大量超鏈接形式的高質量人工標注,其中鏈接指向的文章就是標注的實體,鏈接處的文本是實體在文本中的命名性指稱,鏈接處周圍的文本則作為實體出現(xiàn)的上下文。
DBpedia Spotlight的命名實體識別過程也包括命名性指稱識別、候選集生成和候選集消歧3個步驟。
(1)命名性指稱識別
DBpedia Spotlight通過利用維基百科中出現(xiàn)的所有命名性指稱,構建有限自動機字典,然后使用有限自動機算法識別出文本中所有可能出現(xiàn)的命名性指稱。系統(tǒng)還會計算出維基百科中每個命名性指稱s的被標記概率 P(annotation|s)(式(9)),來刻畫一個命名性指稱的重要程度,用于在線標注處理時對命名性指稱的選擇,從而將低于一定閾值的命名性指稱舍棄。
(2)候選集生成
利用候選集模型中保存的統(tǒng)計信息,系統(tǒng)對于識別出的每個命名性指稱,構造該命名性指稱可能對應的實體集合作為候選集。
(3)候選集消歧
DBpedia Spotlight系統(tǒng)的消歧過程基于生成概率模型[19]。對于給定的標記m(命名性指稱是s,上下文是c),它被標記為實體e的概率為:
式中,P(e)、P(s|e)、P(c|e)分別對應實體 e出現(xiàn)的概率、實體e出現(xiàn)時命名性指稱為s的概率、實體e出現(xiàn)時上下文為c的概率,在維基百科數(shù)據(jù)集上使用極大似然估計得到(式(11))。PLM(t)是在訓練集中所有單詞上估計得到的用于平滑的一元語言生成語言模型。
對于候選集中的每個實體,系統(tǒng)計算得到了命名性指稱被標記為該實體的概率,對該概率進行標準化,從而得到一個介于0到1.0之間的消歧得分。最終系統(tǒng)將實體按照消歧得分進行排序,并且將得分最高的實體作為最終標記結果。對于當前上下文,系統(tǒng)還將生成一個NIL實體,用來表示命名性指稱不屬于任何一個候選實體時的標記結果。通過計算得到NIL實體的消歧得分(式(12)),所有低于該NIL實體得分的結果將被移除。
4.2 基于候選集的增量擴展實現(xiàn)
DBpedia Spotlight系統(tǒng)的統(tǒng)計模型是離線過程中序列化到硬盤的,基于候選集的增量擴展需要對其命名性指稱模型、候選集模型進行處理。因此,最終利用候選集擴展DBpedia Spotlight模型的步驟如下所示。
步驟1將DBpedia Spotlight的統(tǒng)計模型反序列化導入內存。
步驟2對于輸入候選集中每一對實體和命名性指稱的匹配關系(e,s),如果e在實體模型中不存在,則跳過這條關系,否則獲得e對應的e_id。
步驟3如果s在命名性指稱模型中不存在,則使用式(2)估計被標記概率,并將s加入系統(tǒng)原有的命名性指稱模型中,設置初始標記次數(shù)為1。
步驟4從擴展后的命名性指稱模型中獲得s對應的s_id,并使用(s_id,e_id)對候選集模型進行擴展,并將出現(xiàn)次數(shù)設為1。
步驟5將擴展后的統(tǒng)計模型重新序列化到硬盤。
人工構建這樣的高質量候選集是很困難的,需要大量繁瑣的工作。因此,為了驗證使用候選集對系統(tǒng)模型進行擴展的方法,本節(jié)選擇通過使用規(guī)則生成一些相對質量較低的匹配關系來近似地評價。本文通過選擇3個基本的規(guī)則(表1),生成了一系列實體與命名性指稱的對應關系,從而擴展已有的候選集來驗證候選集擴展方法。
Table1 Generative rulesof named references表1 命名性指稱的生成規(guī)則
4.3 基于點互信息率的特征選擇實現(xiàn)
對于DBpedia Spotlight系統(tǒng)來說,候選集消歧過程所使用到的上下文信息保存在上下文模型中,包括訓練集中出現(xiàn)在每個實體周圍的單詞以及對應的出現(xiàn)次數(shù)。通過實驗調優(yōu)選擇一定閾值,對系統(tǒng)上下文模型進行遍歷。對每個實體的上下文中單詞,使用離線處理得到的維基百科統(tǒng)計信息計算兩者之間的點互信息率,從而將低于閾值的單詞過濾掉,完成對上下文模型的特征選擇,步驟如下。
步驟1將系統(tǒng)上下文模型反序列化到內存,并對其進行遍歷。
步驟2對于每個實體e對應的上下文單詞集合中的單詞token,從維基百科的統(tǒng)計信息中獲得e的出現(xiàn)次數(shù)、token的出現(xiàn)次數(shù)以及維基百科單詞的總數(shù)。
步驟3使用式(10)計算得到e和token之間的點互信息率pmi_rate。
步驟4如果pmi_rate小于預先設定的閾值,則將token從e的上下文空間中移除。
步驟5重新將特征選擇后的上下文模型序列化到硬盤。
為了驗證對于上下文模型使用點互信息率進行特征選擇的效果,本文同樣實現(xiàn)了利用互信息以及χ2統(tǒng)計量兩個主流的特征,并將特征選擇之后的模型在多個測試數(shù)據(jù)集上進行標注,證明了點互信息率要優(yōu)于以上兩種方法。
4.4 基于主題向量的二次消岐實現(xiàn)
DBpedia Spotlight的消歧過程中,僅僅利用一元語言模型計算候選集中每個實體的生成概率,并將生成概率最高的實體作為標注結果,這其中并沒有考慮到實體與實體之間的語義關聯(lián)度,或者說實體和整個文本主題之間的關聯(lián)度。
原有的DBpedia Spotlight系統(tǒng)消歧之后得到的是文章中所有可能的命名性指稱以及對應的所有候選實體集。候選實體集中的每個實體都計算得到了一個消歧得分,最后得分最高的實體將會被保留并作為最終的標注結果,即便最高的得分可能非常低。因此,本文對第一次消歧得到的錯誤可能性較高的命名性指稱進行基于主題向量的二次消歧,從而提高標注的準確率。
本文在DBpedia Spotlight上實現(xiàn)的二次消歧算法表述如下所示。
算法基于主題向量的二次消歧
輸入:一次消歧結果TmpResult,維基百科鏈接數(shù)據(jù)Links
輸出:二次消歧結果FinalResult
1.initFinalResult={};//定義FinalResult為保存最終消歧結果的集合
2.for(sf,entities)←TmpResultdo
3.(top_entity,top_score)=getTop(entities);
4.iftop_score>0.9 then
5.top_support=getSupport(top_entity);//得到消歧得分最高實體的支持度
6.for(entity,score)←entitiesdo
7. if getSupport(entity)>top_supportthen
8. Break;
9. end if
10.add calculateTopic(top_entity)totextTopic;//計算文章的主題向量textTopic
11.add(sf,top_entity)toFinalResult,remove(sf,entities)inTmpResult;
12.end for
13.end if
14.end for
15.for(sf,entities)←TmpResultdo
16.(top_entity,top_score)=getTop(entities);
17.topSim=calculateSim(calculateTopic(top_entity),textTopic);//計算實體和文章之間的主題相似度topSim
18.for(entity,score)←entitiesdo
19.entitySim←calculateSim(calculateTopic(entity),textTopic);
20.ifentitySim>topSimthen
21.topSim=entitySim;
22.top_entity=entity;
23.end if
24.end for
//得到候選集中與文章主題相似度最高的實體
25.add(sf,top_entity)toFinalResult;
26.end for
其中維基百科鏈接數(shù)據(jù)(Links)中保存著每一個DBpedia實體所出現(xiàn)的維基百科文章的集合,是通過對維基百科文章數(shù)據(jù)離線處理解析得到的。由于算法只需要對一次消歧的結果進行線性遍歷,顯然其時間復雜度是O(N),其中N是文章中識別出所有候選集實體的數(shù)目。
下面通過實驗方法評價本文命名實體識別優(yōu)化方案,全部實驗在Intel?Xeon?CPU E5620@2.40GHz的PC機上運行,內存為64 GB,并配置4 TB硬盤。5.1節(jié)介紹實驗使用的測試框架、數(shù)據(jù)集以及評測標準;5.2節(jié)給出本文方案的實驗結果以及與包括DBpedia Spotlight在內的多個開源命名實體識別系統(tǒng)的對比和分析。
5.1 測試框架、數(shù)據(jù)集與評測標準
目前已知的標準測試平臺BAT-Framework[20]是由Cornolti等人在2013年提出的,它可以公平地針對一個命名實體識別系統(tǒng)進行評估。該框架基于一系列命名實體識別的任務,提出了一套包括上文介紹的所有參數(shù)在內的用于評估命名實體識別系統(tǒng)性能的方法,并且容易進行配置來全面地評測一個系統(tǒng)的性能。另外,系統(tǒng)覆蓋了多個公開的測試數(shù)據(jù)集,并且可以很容易地使用新的測試數(shù)據(jù)集、命名實體識別系統(tǒng)以及評測方法進行擴展。
在本文的實驗中,使用了最常用的弱匹配方法對系統(tǒng)的性能進行評估,即只需要兩個命名性指稱之間有交集并且兩個實體在重定向后具有一致性就認為是正確的匹配。本文主要使用的評價指標包括準確率(precision)、召回率(recall)以及F值(F-measure)。
其中,tp(true positive),即系統(tǒng)標注結果中正確的數(shù)目;fp(false positive),即系統(tǒng)標注結果中錯誤的數(shù)目;fn(false negative),即標準標注結果中沒有被系統(tǒng)標注出來的數(shù)目。
為了實驗的公平性,本文所有實驗中的參數(shù)在未提及的情況下都使用默認值。同時,本文選取兩個具有代表性的數(shù)據(jù)集AIDA/CoNLL和MSNBC作為實驗的測試數(shù)據(jù)集,每個數(shù)據(jù)集的介紹如表2所示。
Table 2 Benchmark datasetsused in experiments表2 實驗使用的標準測試數(shù)據(jù)集
5.2 Ontology層結果分析
本節(jié)主要圍繞本文三方面的優(yōu)化在3個測試數(shù)據(jù)集上進行綜合全面的實驗。5.2.1節(jié)主要介紹使用候選集擴展方法相關的實驗結果和分析。5.2.2節(jié)主要介紹基于點互信息率的特征選擇相關的實驗結果和分析。5.2.3節(jié)主要介紹基于主題向量的二次消歧相關的實驗結果和分析。最后將對三方面優(yōu)化整合后的系統(tǒng)進行實驗和分析,并與多個開源的命名實體識別系統(tǒng)進行比較。
5.2.1 模型擴展框架
本文通過第3章總結的3個簡單的規(guī)則,利用DBpedia知識庫中的5 235 952個實體生成了541 607個實體-命名性指稱的匹配。將生成的匹配關系利用候選集擴展的方法融入到原有系統(tǒng)的統(tǒng)計模型中,用DBpedia Spotlight-α來指代擴展模型后的系統(tǒng)。
為了驗證DBpediaSpotlight-α的性能,本文在AIDA/CoNLL和MSNBC數(shù)據(jù)集上分別運行了原系統(tǒng)和DBpedia Spotlight-α,得到的實驗結果如表3所示。
從實驗結果可以看出,通過利用規(guī)則產生候選集,并將這個集合融入到原有的候選集中,可以一定程度增加在測試數(shù)據(jù)集上識別正確實體的數(shù)目,從而提高系統(tǒng)的召回率。同時,由于增加了大量的質量不高的實體命名性指稱對應關系,也會增加許多標注錯誤的情況,從而導致識別的準確率有所下降。DBpedia Spotlight-α所增加的標注正確的數(shù)目要遠小于候選集中新增的匹配關系數(shù)目,是因為使用規(guī)則產生的關系,如果在訓練集中沒有出現(xiàn),通常實際應用時出現(xiàn)的情況也比較少。因此,如果使用一些人工或機器的手段,獲取大量實體與命名性指稱高質量的對應關系集合,利用本節(jié)的方法融入到字典中,將可以得到更好的結果。另外,盡管系統(tǒng)增加了一些標記錯誤的結果,但是本文提到的二次消歧方法可以有效地增加準確率,減少標記錯誤的情況,兩者的結合可以得到更好的結果。
5.2.2 基于點互信息率的特征選擇
本小節(jié)主要介紹基于點互信息率的特征選擇方面的實驗,其中包括對用于過濾的閾值參數(shù)的選擇調優(yōu)。本小節(jié)的系統(tǒng)用DBpedia Spotlight-β指代。
為了找到一個最優(yōu)的用于過濾的閾值參數(shù),本文將閾值從0開始逐步提高,同時觀察特征選擇后的上下文模型空間的變化,以及系統(tǒng)在測試數(shù)據(jù)集上的標注性能變化。圖1和圖2、圖3分別對應隨著閾值參數(shù)的變化,上下文模型的空間占用的變化以及系統(tǒng)在兩個測試數(shù)據(jù)集上的標注結果的變化。
通過觀察圖1可以發(fā)現(xiàn),系統(tǒng)上下文模型中平均每個實體對應的單詞數(shù)目隨著閾值的提高下降得非常迅速,在閾值設為0.4的時候已經達到了原有模型大小的1/4,這說明了絕大部分的單詞與實體同時出現(xiàn)都是具有偶然性的。而從圖2和圖3中可以看出,盡管模型空間隨著閾值的提高成倍地下降,但是系統(tǒng)的消歧效果并沒有受到太大的影響。在最初閾值從0提高到0.3的過程中,系統(tǒng)在兩個測試數(shù)據(jù)集上的F值和原系統(tǒng)相比略微下降,從0.3開始系統(tǒng)的標注結果反而開始得到提高,直到閾值為0.4到0.5之間時達到頂峰,其性能也超過了原系統(tǒng)。最后從0.5再繼續(xù)提高閾值,系統(tǒng)的標注效果又開始逐漸下降。
Table3 Experimental results1表3 實驗結果1
Fig.1 Threshold parameter and contextmodelspace圖1 閾值參數(shù)與上下文模型空間
Fig.2 Threshold parameterandF-measureon AIDA/CoNLL dataset圖2 閾值參數(shù)在測試數(shù)據(jù)集AIDA/CoNLL上的F值
Fig.3 Threshold parameterandF-measureon MSNBC dataset圖3 閾值參數(shù)在測試數(shù)據(jù)集MSNBC上的F值
因此,最終本文采用能夠在兩個測試數(shù)據(jù)集上得到較好結果的閾值0.45,此時原有的上下文模型空間從平均每個實體具有66個上下文單詞減少到了只有17個上下文單詞。表4是將閾值參數(shù)設置為0.45時得到的上下文模型整合到系統(tǒng)后,在AIDA/CoNLL和MSNBC數(shù)據(jù)集上的實驗結果。
通過實驗結果可以發(fā)現(xiàn),新的模型在大大削減了空間的情況下,并沒有影響到標注的性能,而且可以在準確率和召回率上都有略微的提升。
5.2.3 基于主題向量的二次消岐
本小節(jié)主要介紹基于主題向量的二次消歧相關的實驗。將融入二次消歧算法的系統(tǒng)用DBpedia Spotlight-θ指代,表5是DBpedia Spotlight-θ在兩個測試數(shù)據(jù)集AIDA/CoNLL和MSNBC上的實驗結果。
從實驗結果中可以看出,通過對原有系統(tǒng)中標注錯誤可能性較大的命名性指稱進行二次消歧,可以有效地降低系統(tǒng)中標注錯誤實體的數(shù)量,從而提高標注的準確率和F值。
Table 4 Experimental results2表4 實驗結果2
Table5 Experimental results3表5 實驗結果3
Table6 Experimental results4表6 實驗結果4
5.2.4 整合后系統(tǒng)
本小節(jié)將上述的三部分整合到了一起,整合后的系統(tǒng)用DBpedia Spotlight*指代。通過在測試數(shù)據(jù)集AIDA/CoNLL和MSNBC上運行實驗,得到的實驗結果如表6所示。
從實驗結果可以看出,通過將三方面工作結合到一起,DBpedia Spotlight*能夠得到比每個單一部分更好的標注效果。這說明三方面工作對于系統(tǒng)而言都有著自己獨立的優(yōu)點,將三方面結合起來可以讓系統(tǒng)更加完善。另外,對比表6可以看出,在數(shù)據(jù)集MSNBC上的結果要比數(shù)據(jù)集AIDA/CoNLL上提升得更加明顯,主要是因為數(shù)據(jù)集MSNBC的特點是只有非常重要的實體才會被標記,所以標注結果集中的實體之間的聯(lián)系也更加緊密,文本內部的主題一致性更加突出,更適用于本文提出的二次消歧算法。而AIDA/CoNLL數(shù)據(jù)集會過多地標注一些不重要的實體,為主題向量的構建帶來了噪音。
5.2.5 與其他開源系統(tǒng)的比較
本文還與其他4個廣泛使用的命名實體識別系統(tǒng)進行了比較,包括AIDA、IllinoisWikifier、TagMe2以及WikipediaM iner。同時,為了與其他系統(tǒng)公平地比較性能,本文將DBpedia Spotlight的一些參數(shù)通過調整,取能夠使得標注結果達到最優(yōu)的值。表7是DBpedia Spotlight*在兩個測試數(shù)據(jù)集AIDA/CoNLL和MSNBC上的運行結果同包括原系統(tǒng)在內的5個開源系統(tǒng)的比較。
通過與其他著名的開源系統(tǒng)在AIDA/CoNLL數(shù)據(jù)集和MSNBC數(shù)據(jù)集上進行對比的結果可以看出,DBpedia Spotlight系統(tǒng)本身已經能夠具有目前接近最好的標注性能,而本文提出的優(yōu)化框架可以進一步提高原系統(tǒng)的性能,從而超過了其他開源的命名實體識別系統(tǒng)。
Table7 Resultsof comparison experimentsbetween DBpedia Spotlight*and open-source systems表7 DBpedia Spotlight*與開源系統(tǒng)對比實驗結果
需要指出的是,在5.2.4小節(jié)中實驗對比DBpedia Spotlight*與DBpedia Spotlight原系統(tǒng)時,使用的閾值參數(shù)為0.4,也是DBpedia Spotlight默認的參數(shù)。而本小節(jié)的實驗是DBpedia Spotlight*和其他幾個開源系統(tǒng)之間的對比,鑒于每個系統(tǒng)都有各自的配置參數(shù),用來調節(jié)標注的準確率和召回率,為了公平起見,將每個系統(tǒng)都取其能夠達到最好標注效果(也就是F值最大)的參數(shù),因此表7中DBpedia Spotlight*的實驗數(shù)據(jù)與表6中的數(shù)據(jù)不同。
由于知識庫中實體在文本中存在形式的多樣性,提高命名實體識別的綜合性能一直是一個挑戰(zhàn)性問題。本文通過對現(xiàn)有的命名實體識別方法進行研究與分析,提出了一套通用的命名實體識別優(yōu)化框架。通過設計并實現(xiàn)使用候選集對系統(tǒng)模型進行擴展的方法,降低了對訓練集的依賴,增加了靈活性;同時,提出了點互信息率的概念,通過使用點互信息率對上下文模型進行特征選擇,將上下文空間降低為原有的1/4,并且能夠提高標注的準確率和召回率。本文還提出了利用主題向量代替M ilne-W itten語義關聯(lián)度對錯誤可能性較高的標注結果進行二次消歧,提高了標注的準確率。通過在目前廣泛使用的開源命名實體識別系統(tǒng)DBpedia Spotlight中實現(xiàn)所提優(yōu)化方案,并在兩個標準的測試集上設計完善的實驗方案,驗證了本文優(yōu)化方案與已有系統(tǒng)相比具有較優(yōu)的性能指標。
[1]Bizer C,Lehmann J,Kobilarov G,et al.DBpedia—a crystallization point for theWeb of data[J].Web Semantics:Science,Services and Agents on theWorld WideWeb,2009,7(3):154-165.
[2]Hoffart J,Suchanek FM,Berberich K,et al.YAGO2:exploring and querying world know ledge in time,space,context,andmany languages[C]//Proceedings of the 20th International Conference onWorld WideWeb,Hyderabad,India,Mar28-Apr1,2011.New York:ACM,2011:229-232.
[3]Cucerzan S.Large-scale named entity disambiguation based on Wikipedia data[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning,Prague,Czech Republic,Jun 28-30,2007.Stroudsburg,USA:ACL,2011:708-716.
[4]Medelyan O,W itten IH,M ilne D.Topic indexing w ith Wikipedia[C]//Proceedingsof the 2008AAAIWorkshop on Wikipedia and Artificial Intelligence:An Evolving Synergy,Chicago,USA,Jul 13-14,2008.Palo A lto,USA:AAAI,2008:19-24.
[5]M ilne D,Witten IH.Learning to link w ith Wikipedia[C]//Proceedings of the 17th ACM Conference on Information and Know ledge Management,Napa Valley,USA,Oct 26-30,2008.New York:ACM,2008:509-518.
[6]Olieman A,Azarbonyad H,DehghaniM,etal.Entity linking by focusing DBpedia candidate entities[C]//Proceedings of the 1st International Workshop on Entity Recognition and Disambiguation,Gold Coast,Australia,Jul 11,2014.New York:ACM,2014:13-24.
[7]Lipczak M,KoushkestaniA,M ilios E.Tulip:lightweight entity recognition and disambiguation using Wikipediabased topic centroids[C]//Proceedings of the 1st International Workshop on Entity Recognition and Disambiguation,Gold Coast,Australia,Jul11,2014.New York:ACM,2014:31-36.
[8]Kulkarni S,Singh A,Ramakrishnan G,etal.Collective annotation of Wikipedia entities in Web text[C]//Proceedings of the 15th ACM SIGKDD International Conference on Know ledge Discovery and Data M ining,Paris,Jun 28-Jul 1,2009.New York:ACM,2009:457-466.
[9]Han Xianpei,Sun Le,Zhao Jun.Collective entity linking in Web text:a graph-based method[C]//Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval,Beijing,Jul 24-28,2011.New York:ACM,2011:765-774.
[10]Hoffart J,Yosef M A,Bordino I,et al.Robust disambiguation of named entities in text[C]//Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing,Edinburgh,UK,Jul 27-31,2011.Stroudsburg,USA:ACL,2011:782-792.
[11]Usbeck R,Ngomo A C N,R?der M,etal.AGDISTIS—agnostic disambiguation of named entities using linked open data[C]//Proceedings of the 21st European Conference on Artificial Intelligence,Prague,Czech Republic,Aug 18-22,2014.Amsterdam:IOSPress,2014:1113-1114.
[12]Chen S F,Goodman J.An empirical study of smoothing techniques for language modeling[C]//Proceedings of the 34th Annual Meeting on Association for Computational Linguistics,Santa Cruz,USA,Jun 24-27,1996.Stroudsburg,USA:ACL,1996:310-318.
[13]Church KW,Hanks P.Word association norms,mutual information,and lexicography[J].Computational Linguistics,1990,16(1):22-29.
[14]Islam A,Inkpen D.Second order co-occurrence PM I for determ ining the semantic sim ilarity of words[C]//Proceedings of the 5th International Conference on Language Resources and Evaluation,Genoa,Italy,May 24-26,2006.Paris:ELRA,2006:1033-1038.
[15]Islam A,Inkpen D.Semantic similarity of short texts[J].Re-cent Advances in Natural Language Processing,2009,309:227-236.
[16]Ferragina P,Scaiella U.TagMe:on-the-fly annotation of short text fragments(by w ikipedia entities)[C]//Proceedings of the 19th ACM International Conference on Information and Know ledge Management,Toronto,Canada,Oct 26-30,2010.New York:ACM,2010:1625-1628.
[17]Witten I,M ilne D.An effective,low-costmeasureof semantic relatedness obtained from Wikipedia links[C]//Proceedings of the 2008 AAAIWorkshop on Wikipedia and Artificial Intelligence:An Evolving Synergy,Chicago,USA,Jul 13-14,2008.Palo Alto,USA:AAAI,2008:25-30.
[18]Han Xianpei,Sun Le.A generative entity-mention model for linking entitiesw ith know ledge base[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technolgies,Portland,USA,Jun 19-24,2011.Stroudsburg,USA:ACL,2011:945-954.
[19]Daiber J,Jakob M,Hokamp C,et al.Improving efficiency and accuracy in multilingual entity extraction[C]//Proceedings of the 9th International Conference on Semantic Systems,Graz,Austria,Sep 4-6,2013.New York:ACM,2013:121-124.
[20]Cornolti M,Ferragina P,Ciaram ita M.A framework for benchmarking entity-annotation systems[C]//Proceedings of the 22nd International Conference on World Wide Web,Rio de Janeiro,Brazil,May 13-17,2013.New York:ACM,2013:249-260.
FU Yuxinwasborn in 1991.He isan M.S.candidate at Tianjin University.His research interests include named entity recognition and keyword search.
付宇新(1991—),男,吉林通化人,天津大學碩士研究生,主要研究領域為命名實體識別,關鍵字搜索。
王鑫(1981—),男,天津人,2009年于南開大學獲得博士學位,現(xiàn)為天津大學副教授,CCF高級會員,主要研究領域為語義數(shù)據(jù)管理,圖數(shù)據(jù)庫,大規(guī)模知識處理。
FENG Zhiyong was born in 1965.He received the Ph.D.degree from Tianjin University in 1996.Now he isa professor and Ph.D.supervisor at Tianjin University,and the seniormember of CCF.His research interests include know ledge engineering,services computing and security software engineering.
馮志勇(1965—),男,內蒙古呼和浩特人,1996年于天津大學獲得博士學位,現(xiàn)為天津大學教授、博士生導師,CCF高級會員,主要研究領域為知識工程,服務計算,安全軟件工程。
XU Qiangwasborn in 1993.She isan M.S.candidate at Tianjin University.Her research interests include semantic Web and graph databases.
徐強(1993—),女,山西臨汾人,天津大學碩士研究生,主要研究領域為語義網(wǎng),圖數(shù)據(jù)庫。
Named Entity Recognition Optim ization on DBpedia Spotlight*
FU Yuxin1,2,WANG Xin1,2+,FENG Zhiyong2,3,XUQiang1,2
1.Schoolof Computer Science and Technology,Tianjin University,Tianjin 300354,China
2.Tianjin Key Laboratory of Cognitive Computing and Application,Tianjin 300354,China
3.Schoolof Computer Software,Tianjin University,Tianjin 300354,China
The task of named entity recognition can bridge the gap between know ledge bases and nature languages,and support the research work in keyword extraction,machine translation,topic detection and tracking,etc.Based on the analysisof current research in the field of named entity recognition,this paper proposesa general-purpose optimization scheme for named entity recognition.Firstly,this paper designs and implements an incremental extending method,by using a candidate set,which can reduce the dependency on the training set.Secondly,by leveraging the conceptof pointw isemutual information ratio,thispapereffectivelymakes feature selection on the contextsof entities,whichmay reduce the contextspace significantly andmeanwhile improve the performance of annotation results.Finally,this paper presents the secondary disambiguationmethod based on topic vectors,which can further enhance the precision of annotation.This paper conductsextensive comparison experiments on thew idely-used open-source named entity recognition system DBpedia Spotlight.Ithas been verified that the proposed optim ization scheme out-performs the state-of-the-artmethods.
named entity recognition;linked data;DBpedia Spotlight
was born in 1981.He
the Ph.D.degree from NankaiUniversity in 2009.Now he isan associate professor at Tianjin University,and the seniormember of CCF.His research interests include semantic data management,graph databasesand large-scale know ledge processing.
A
:TP391
*The National Natural Science Foundation of China under GrantNos.61572353,61373035(國家自然科學基金);the National High Technology Research and DevelopmentProgram of China underGrantNo.2013AA013204(國家高技術研究發(fā)展計劃(863計劃)).
Received 2016-06,Accepted 2016-08.
CNKI網(wǎng)絡優(yōu)先出版:2016-08-15,http://www.cnki.net/kcms/detail/11.5602.TP.20160815.1659.004.htm l