實(shí)體名稱規(guī)范的研究探索*

2016-11-18 05:49:58劉建華郭紅梅

數(shù)字圖書(shū)館論壇 2016年5期

關(guān)鍵詞：規(guī)范信息研究

劉建華，郭紅梅

（1. 中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心，北京 100190；2. 中國(guó)科學(xué)院大學(xué)，北京 100190）

實(shí)體名稱規(guī)范的研究探索*

劉建華1,2，郭紅梅1

（1. 中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心，北京 100190；2. 中國(guó)科學(xué)院大學(xué)，北京 100190）

以實(shí)體名稱規(guī)范為主題，闡明其中兩種類型的任務(wù)：一個(gè)實(shí)體多個(gè)名稱的實(shí)體共指消解問(wèn)題和一個(gè)名稱指代不同實(shí)體的實(shí)體歧義問(wèn)題；針對(duì)這兩類任務(wù)，綜合分析相關(guān)研究成果，重點(diǎn)介紹現(xiàn)今解決實(shí)體名稱規(guī)范的典型思路與方法，以及推動(dòng)實(shí)體名稱規(guī)范研究的重要項(xiàng)目與評(píng)測(cè)會(huì)議；結(jié)合當(dāng)前研究中仍存在的問(wèn)題，分析探討實(shí)體名稱規(guī)范的研究趨勢(shì)。

實(shí)體名稱規(guī)范；實(shí)體消歧；大規(guī)模知識(shí)庫(kù)；社會(huì)網(wǎng)絡(luò)

1　引言

現(xiàn)實(shí)世界中不同的人經(jīng)常會(huì)給予同一事物不同的名稱或描述。隨著信息科技的不斷發(fā)展，網(wǎng)絡(luò)資源越來(lái)越多，這類事物的名稱也越來(lái)越多樣化，這給計(jì)算機(jī)的自動(dòng)理解和計(jì)算帶來(lái)很大挑戰(zhàn)。為支撐相應(yīng)的文本處理任務(wù)，如機(jī)器翻譯、信息檢索、數(shù)據(jù)挖掘等，將這些名稱、描述與其對(duì)應(yīng)的事物對(duì)應(yīng)起來(lái)，并從中選擇一種規(guī)范的表達(dá)作為不同名稱或描述之間的核心關(guān)聯(lián)非常必要，由此產(chǎn)生了實(shí)體名稱規(guī)范這一概念。

從主題角度而言，與實(shí)體名稱規(guī)范密切相關(guān)的研究主題包括實(shí)體名稱共指消解、縮略語(yǔ)識(shí)別、實(shí)體名稱消歧等，其對(duì)應(yīng)的英文名稱為“Named Entity Disambiguation，Abbreviation Reorganization，Coreference Resolution，Named Entity Normalization”等。從任務(wù)角度而言，實(shí)體名稱規(guī)范包括兩種類型的任務(wù)：（1）一個(gè)實(shí)體有多種名稱的實(shí)體共指問(wèn)題。該問(wèn)題既包括代詞的共指消解，如“he”“she”等人稱代詞實(shí)際指稱對(duì)象的查找，也包括名詞性稱呼的消解，如“44th Present of US”“Barack Obama”“Present Obama”等可能均指代同一個(gè)人，這就需要明確這些實(shí)體名稱是否確定指代同一個(gè)實(shí)體概念。（2）一個(gè)名稱可能指代不同實(shí)體的實(shí)體歧義問(wèn)題[1]。實(shí)體由于一個(gè)詞義的表達(dá)方法（從含義的有限集合枚舉到基于規(guī)則的新含義的產(chǎn)生）、含義列表的細(xì)粒度（從細(xì)微的區(qū)別到反義詞）、面向領(lǐng)域的與非嚴(yán)格定義的自然文本等原因，往往會(huì)出現(xiàn)一個(gè)實(shí)體名稱可以對(duì)應(yīng)到多個(gè)命名實(shí)體概念上的問(wèn)題，比如“Washington”既可能指代華盛頓州，也可能指代美國(guó)第一任總統(tǒng)。對(duì)此就需要明確這些實(shí)體名稱具體是什么概念。

本文以實(shí)體名稱規(guī)范為主題，重點(diǎn)介紹當(dāng)前解決實(shí)體名稱規(guī)范的典型思路與方法，以及推動(dòng)實(shí)體名稱規(guī)范研究的重要項(xiàng)目與評(píng)測(cè)會(huì)議，并結(jié)合當(dāng)前研究中仍存在的問(wèn)題，分析探討實(shí)體名稱規(guī)范的研究趨勢(shì)。

2　實(shí)體名稱規(guī)范的主要思路與方法

實(shí)體名稱規(guī)范是一個(gè)以計(jì)算的方式自動(dòng)辨析詞語(yǔ)在上下文中的真實(shí)含義的過(guò)程[2]，與常規(guī)的詞義消歧任務(wù)（Word Sense Disambiguation）有很多相似之處，但由于命名實(shí)體概念列表的缺乏、實(shí)體名稱指稱形式更為多樣（全稱、縮略語(yǔ)、別稱、代詞、簡(jiǎn)稱、不同語(yǔ)系的拼寫(xiě)差異-英美語(yǔ)系等）等問(wèn)題的存在，實(shí)體名稱規(guī)范的任務(wù)更加復(fù)雜。要完成這樣的任務(wù)，其中需要涉及很多知識(shí)，不僅需要語(yǔ)言學(xué)方面的常用知識(shí)，如淺層的詞匯、語(yǔ)法、句法等的分析，還需要用到很多語(yǔ)義及其背景知識(shí)信息。本文對(duì)當(dāng)前的一些主要研究進(jìn)行梳理，提煉出三種主流的方法思路，具體闡述如下。

2.1基于Web對(duì)象屬性信息的實(shí)體名稱規(guī)范研究

Web頁(yè)面中往往嵌入了各種各樣的對(duì)象，如人、產(chǎn)品、組織機(jī)構(gòu)等實(shí)體名稱。從Web頁(yè)中抽取并集成這些對(duì)象，可以實(shí)現(xiàn)功能強(qiáng)大的對(duì)象層內(nèi)容揭示。此類方法的優(yōu)勢(shì)在于其來(lái)源數(shù)據(jù)的特殊性，這些來(lái)源于Web網(wǎng)頁(yè)的資源在獲取其屬性方面具有很大的便利性，從而為基于屬性模板的共指消解提供了很大的便利條件。

Nie等認(rèn)為，Web對(duì)象是描述某一Web信息的數(shù)據(jù)單元，通?？梢钥醋髋c應(yīng)用領(lǐng)域相關(guān)的概念[3]。一個(gè)Web對(duì)象可以通過(guò)一系列的屬性表示，如A={a1, a2,…, am}。對(duì)象的屬性集可根據(jù)領(lǐng)域的需要預(yù)先設(shè)置。在實(shí)際研究中，Nie等將Web上一系列有一定結(jié)構(gòu)的相同條目（如產(chǎn)品列表、服務(wù)列表等）稱為數(shù)據(jù)記錄，首先從數(shù)據(jù)源中抽取出與領(lǐng)域相關(guān)的數(shù)據(jù)記錄，形成對(duì)象記錄級(jí)別的標(biāo)識(shí)；其次，進(jìn)行對(duì)象屬性級(jí)別（attributelevel）的抽取，這一過(guò)程主要是對(duì)上一步抽取出的數(shù)據(jù)記錄進(jìn)行分析，將數(shù)據(jù)記錄中的不同部分標(biāo)識(shí)成為不同的屬性，并且從多個(gè)來(lái)源的記錄中，實(shí)現(xiàn)同一對(duì)象不同屬性值的獲取；最后，依據(jù)所獲取的屬性值來(lái)實(shí)現(xiàn)對(duì)象的融合[4]。

盡管該類方法實(shí)現(xiàn)的便利性和準(zhǔn)確習(xí)慣都較高，但該類方法也有較大限制，對(duì)于來(lái)源數(shù)據(jù)的格式限制較多，僅適用于少量結(jié)構(gòu)化或半結(jié)構(gòu)化描述實(shí)體的網(wǎng)頁(yè)。

2.2基于大規(guī)模知識(shí)庫(kù)的實(shí)體名稱規(guī)范研究

實(shí)體消歧的關(guān)鍵問(wèn)題是測(cè)度實(shí)體名稱出現(xiàn)的相似度，傳統(tǒng)的測(cè)度方法是利用BOW（bag-of-word）模型，但它忽略了語(yǔ)義關(guān)系。隨著網(wǎng)絡(luò)上結(jié)構(gòu)化、半結(jié)構(gòu)化知識(shí)庫(kù)的出現(xiàn)，為彌補(bǔ)以往方法的不足，不少學(xué)者提出利用如Wikipedia[5]、Yago[6]等資源庫(kù)構(gòu)建大規(guī)模的知識(shí)庫(kù)，基于這些知識(shí)庫(kù)提供的背景知識(shí)來(lái)提升實(shí)體名稱規(guī)范的效果，這也是當(dāng)前實(shí)體名稱規(guī)范研究中的核心內(nèi)容之一。

Wikipedia由于覆蓋概念多，每篇文章中都包含一個(gè)實(shí)體或一個(gè)概念的信息，具有豐富的語(yǔ)義信息且內(nèi)容時(shí)時(shí)更新等特點(diǎn)，往往成為研究者們?cè)陂_(kāi)展此類研究或構(gòu)建其他大規(guī)模知識(shí)庫(kù)時(shí)的首選。Fader等介紹了GROUNDER系統(tǒng)，通過(guò)利用Wikipedia上用戶貢獻(xiàn)的信息和新的消歧模型，有效利用先驗(yàn)信息，組合先驗(yàn)信息和語(yǔ)境信息以提高消歧精度[7]。Nguyen等將文本提到的實(shí)體映射到Wikipedia中正確的實(shí)體，在基于候選實(shí)體統(tǒng)計(jì)秩序模型基礎(chǔ)上，證明Wikipedia和文本的功能組合是消歧的最好選擇[8]。Ploch等將實(shí)體名稱消歧看作將文本中的實(shí)體提及與預(yù)定義在知識(shí)庫(kù)中的指稱詞相關(guān)聯(lián)的任務(wù)，他們?cè)谘芯恐型ㄟ^(guò)挖掘共現(xiàn)的實(shí)體間在Wikipedia里的關(guān)聯(lián)關(guān)系，通過(guò)實(shí)體共現(xiàn)與歧義形式的關(guān)系推導(dǎo)出可用于分類候選實(shí)體的功能范圍，并將消歧功能進(jìn)行組合，利用SVM分類器得到有效結(jié)果[9]。

但是由于Wikipedia在數(shù)據(jù)的準(zhǔn)確性、概念結(jié)構(gòu)的表達(dá)方面仍存在不足，因此，不少研究者又將眼光轉(zhuǎn)向了近年來(lái)的熱門知識(shí)庫(kù)之一LOD（Linked Open Data），經(jīng)過(guò)人工篩選、組織過(guò)的LOD在準(zhǔn)確性和關(guān)聯(lián)表達(dá)方面具備更強(qiáng)的知識(shí)處理優(yōu)勢(shì)。Damljanovic等認(rèn)為L(zhǎng)inked Data是擴(kuò)充已可用語(yǔ)境的有效資源，并將先進(jìn)的命名實(shí)體工具與基于Linked Data相似度測(cè)度方法進(jìn)行結(jié)合，證明該方法能提高Wikipedia消歧精度[10]。Nebhi等采用FreeBase和句法分析結(jié)合的方式完成詞義消歧的任務(wù)，試驗(yàn)顯示了消歧效果的提升[11]。

除LOD外，各種語(yǔ)義層級(jí)關(guān)聯(lián)更為豐富的本體也是研究者們探索實(shí)體名稱規(guī)范的重要知識(shí)庫(kù)。Saggion等基于歐盟的MUSING（MUlti-industry，Semanticbased next generation business INtelliGence，基于語(yǔ)義的下一代多產(chǎn)業(yè)商業(yè)情報(bào)）平臺(tái)，在跨數(shù)據(jù)源的知識(shí)單元獲取與集成任務(wù)方面作出了一定探索，整個(gè)研究過(guò)程分為基于本體的信息抽取和跨數(shù)據(jù)源對(duì)象集成兩部分。其中由領(lǐng)域?qū)＜覙?gòu)建的商業(yè)本體是系統(tǒng)的首要特征，包含商業(yè)領(lǐng)域的類層次結(jié)構(gòu)、關(guān)系和屬性。在對(duì)每一篇文檔進(jìn)行標(biāo)注后，獲取各標(biāo)注對(duì)象所在的文檔和描述內(nèi)容部分，計(jì)算其相似度，實(shí)現(xiàn)多數(shù)據(jù)源中同一個(gè)標(biāo)識(shí)對(duì)象的聚類，從而實(shí)現(xiàn)命名實(shí)體的規(guī)范[12]。Han等綜合利用WordNet、Wikipedia、網(wǎng)頁(yè)信息等多種知識(shí)源挖掘?qū)嶓w指稱項(xiàng)的上下文語(yǔ)義信息，并提出基于圖的知識(shí)表示模型，將異構(gòu)語(yǔ)義信息融合在統(tǒng)一的基于圖的知識(shí)表示框架下，以此為基礎(chǔ)挖掘概念之間的潛在語(yǔ)義關(guān)聯(lián)，從而同時(shí)集成來(lái)自于不同知識(shí)源的語(yǔ)義知識(shí)，有效提升實(shí)體名稱規(guī)范的效率[13]。

2.3基于社會(huì)網(wǎng)絡(luò)的實(shí)體名稱規(guī)范研究

隨著搜索引擎和社會(huì)網(wǎng)絡(luò)挖掘技術(shù)的不斷發(fā)展，利用人物社會(huì)關(guān)系構(gòu)建社會(huì)網(wǎng)絡(luò)，進(jìn)而實(shí)現(xiàn)相應(yīng)的實(shí)體消解也逐漸成為目前的關(guān)鍵思路之一，主要應(yīng)用于人名消歧，通常是先使用譜聚類對(duì)社會(huì)網(wǎng)絡(luò)中的人名聚類，然后根據(jù)不同社會(huì)網(wǎng)絡(luò)邊權(quán)值和不同圖劃分準(zhǔn)則對(duì)人名消歧效果的影響，引入模塊度閾值作為社會(huì)網(wǎng)絡(luò)劃分的停止條件[14]。

在基于社會(huì)網(wǎng)絡(luò)的實(shí)體名稱規(guī)范方面，Bekkerman等提出了一種非監(jiān)督的框架來(lái)解決檢索某個(gè)特定人物時(shí)返回大量無(wú)關(guān)人員頁(yè)面的問(wèn)題。其中兩個(gè)關(guān)鍵內(nèi)容包括網(wǎng)頁(yè)間的鏈接關(guān)系與Agglomerative重復(fù)聚類。在該方法中，網(wǎng)頁(yè)間的鏈接關(guān)系即主要用于構(gòu)建人物的社會(huì)網(wǎng)絡(luò)[15]。郎君等依據(jù)同名的不同人物具有不同社會(huì)網(wǎng)絡(luò)的思想，利用檢索結(jié)果中共現(xiàn)的人名發(fā)現(xiàn)并拓展檢索人物相關(guān)的潛在社會(huì)網(wǎng)絡(luò)，結(jié)合圖譜分割算法和模塊度指標(biāo)進(jìn)行社會(huì)網(wǎng)絡(luò)的自動(dòng)聚類，在此基礎(chǔ)上實(shí)現(xiàn)人名檢索結(jié)果的重名消解。在人工標(biāo)注的中文人名語(yǔ)料上進(jìn)行實(shí)驗(yàn)，整體性能達(dá)到較好水平，圖聚類算法能幫助連通社會(huì)網(wǎng)絡(luò)的進(jìn)一步劃分，從而提高消解效果[16]。PABICO針對(duì)社交網(wǎng)絡(luò)中的實(shí)體名稱歧義問(wèn)題，提出采用圖-字圖的方式來(lái)確定不同實(shí)體的相似性，從而解決實(shí)體名稱的歧義[17]。

3　實(shí)體名稱規(guī)范相關(guān)的重要項(xiàng)目及評(píng)測(cè)會(huì)議

實(shí)體名稱規(guī)范的研究離不開(kāi)重大項(xiàng)目、國(guó)際評(píng)測(cè)會(huì)議的推動(dòng)發(fā)展，本文對(duì)這些重點(diǎn)內(nèi)容進(jìn)行梳理。

3.1國(guó)內(nèi)外主要的實(shí)體名稱規(guī)范項(xiàng)目

（1）英國(guó)國(guó)家檔案館TNA-Search項(xiàng)目[18]

英國(guó)國(guó)家檔案館TNA（the National Archives，作為Government Web Archive Project中的一部分，主旨在于如何用簡(jiǎn)單直觀的機(jī)制，提高TNA中與政府網(wǎng)站相關(guān)的記錄的開(kāi)放利用度）是大規(guī)模實(shí)體名稱規(guī)范的代表性項(xiàng)目。為解決項(xiàng)目中的實(shí)體名稱規(guī)范問(wèn)題，TNASearch項(xiàng)目主要利用GATE，聯(lián)合了FactForge和SKB（Semantic Knowledge Base）Ontology，構(gòu)建了大規(guī)模的語(yǔ)義倉(cāng)儲(chǔ)庫(kù)（Large Knowledge Base，LKB），通過(guò)倉(cāng)儲(chǔ)庫(kù)所提供的詳細(xì)的對(duì)象描述等背景信息，計(jì)算實(shí)現(xiàn)實(shí)體名稱的規(guī)范。

具體而言，該項(xiàng)目基于LKB直接將文檔中的實(shí)體與各種不同的本體建立關(guān)聯(lián)，或者通過(guò)其中的實(shí)例，或者通過(guò)概念。LKB使用一系列SPARQL查詢集合的配置文件到SKB中檢索。標(biāo)注的實(shí)體與SKB中的實(shí)例關(guān)聯(lián)是通過(guò)兩個(gè)互補(bǔ)的途徑完成：通過(guò)LKB詞典找到一個(gè)匹配時(shí)，SKB中類與實(shí)例信息被添加到文本中的相關(guān)實(shí)體上；文本中的實(shí)體與SKB中的類或?qū)嶓w沒(méi)有直接關(guān)聯(lián)時(shí)，通過(guò)共指的方式實(shí)現(xiàn)關(guān)聯(lián)。即如果文本中某段提及在上述過(guò)程中已經(jīng)與SKB建立關(guān)聯(lián)時(shí)，該實(shí)體所有共指提及均可通過(guò)TNA Instance Generator自動(dòng)獲得相同類和實(shí)例信息。在進(jìn)行規(guī)范標(biāo)注時(shí)，項(xiàng)目將一篇文檔中同一個(gè)實(shí)體的不同表達(dá)關(guān)聯(lián)在一起，同時(shí)還添加通過(guò)semantic tagger發(fā)現(xiàn)的標(biāo)注間的特征關(guān)系。通過(guò)這種規(guī)范標(biāo)注方式，TNA-Search實(shí)現(xiàn)了人物、地理名稱、機(jī)構(gòu)、時(shí)間等11種命名實(shí)體的自動(dòng)標(biāo)注與規(guī)范。

（2）OKKAM[19]

OKKAM是由歐盟委員會(huì)資助的第七框架項(xiàng)目（FP7）下的一個(gè)大規(guī)模集成項(xiàng)目，其基本理念是根據(jù)14世紀(jì)的“奧卡姆剃刀”（Occam’s razor）原則，提倡如果沒(méi)有必要?jiǎng)t不增加實(shí)體的標(biāo)識(shí)符。OKKAM為內(nèi)容創(chuàng)建者、編輯和開(kāi)發(fā)人員等提供一個(gè)全球性的基礎(chǔ)設(shè)施，稱為實(shí)體命名系統(tǒng)（Entity Name System，ENS），該系統(tǒng)包含一種基于特征的實(shí)例匹配方法FBEM，通過(guò)集成兩個(gè)實(shí)例標(biāo)識(shí)符的多種不同特征屬性及其屬性值之間的相似度，識(shí)別出可能的對(duì)象共指。例如，F(xiàn)BEM使用了基于Levenstein編輯距離的方法來(lái)比較實(shí)例標(biāo)識(shí)符的本地名。

（3）國(guó)內(nèi)典型的項(xiàng)目

共指消解和實(shí)體消歧是文本處理中的重要任務(wù)，對(duì)于提高信息檢索的效率、深度文本挖掘有著非常重要的作用，國(guó)內(nèi)目前在此方面也有不少相關(guān)的研究項(xiàng)目在開(kāi)展。比較典型的有清華大學(xué)的RiMOM[20]和南京大學(xué)的ObjectCoref[21]。

RiMOM是清華大學(xué)研發(fā)的一種集成多種本體匹配方法的多策略本體匹配系統(tǒng)，其中也包含多種實(shí)例匹配方法。針對(duì)實(shí)例匹配，RiMOM將每個(gè)實(shí)例所含信息分為六類：URL、元信息、名稱、字符串類型信息、非字符串類型信息和鄰居信息。通過(guò)基于編輯距離的方法和向量空間模型，計(jì)算實(shí)例所含各種信息之間的相似度，并使用元信息和非字符串類型信息進(jìn)一步過(guò)濾，最后通過(guò)多種策略將各種相似度集成起來(lái)用于發(fā)現(xiàn)對(duì)象共指。

與RiMOM不同，南京大學(xué)的ObjectCoref基于語(yǔ)義Web搜索系統(tǒng)Falcons提供的數(shù)據(jù)集，目前已經(jīng)包含超過(guò)7 300萬(wàn)個(gè)實(shí)例標(biāo)識(shí)符。ObjectCoref首先利用語(yǔ)義等價(jià)推理，構(gòu)建初始訓(xùn)練集；隨后基于這個(gè)訓(xùn)練集不斷學(xué)習(xí)，自舉式地識(shí)別對(duì)象共指。該系統(tǒng)還考慮了頻繁屬性組合，同時(shí)使用兩個(gè)屬性識(shí)別對(duì)象共指（例如經(jīng)度和緯度、姓和名），進(jìn)一步提高消解的準(zhǔn)確度。另外，還基于語(yǔ)義等價(jià)關(guān)系是否可以解引以及實(shí)例標(biāo)識(shí)符在不同RDF文檔中的出現(xiàn)次數(shù)等，對(duì)共同指稱同一對(duì)象的實(shí)例標(biāo)識(shí)符進(jìn)行排序。ObjectCoref提出一種新的語(yǔ)義等價(jià)推理與相似度計(jì)算相集成的體系結(jié)構(gòu)，能夠較為全面地識(shí)別對(duì)象共指，但是訓(xùn)練集中的錯(cuò)誤共指關(guān)系可能會(huì)導(dǎo)致學(xué)習(xí)過(guò)程中的錯(cuò)誤積累，使得識(shí)別的準(zhǔn)確性降低。

3.2實(shí)體名稱規(guī)范的相關(guān)評(píng)測(cè)會(huì)議

為促進(jìn)實(shí)體名稱規(guī)范研究的不斷發(fā)展，國(guó)際上有不少與之相關(guān)的評(píng)測(cè)會(huì)議，通過(guò)細(xì)化評(píng)測(cè)任務(wù)，提供相應(yīng)的語(yǔ)料集合，提供交流的平臺(tái)，推動(dòng)相關(guān)研究的不斷發(fā)展。本文篩選了幾個(gè)比較典型的評(píng)測(cè)會(huì)議進(jìn)行介紹，以期為其他研究提供參考。

（1）Automatic Context Extraction（ACE）與Text Analysis Conference（TAC）

ACE會(huì)議自1999年7月開(kāi)始醞釀，2000年12月正式啟動(dòng)，由美國(guó)國(guó)家安全局（NSA）、美國(guó)國(guó)家標(biāo)準(zhǔn)和技術(shù)學(xué)會(huì)（NIST）以及中央情報(bào)局（CIA）共同主管，截至2016年已經(jīng)舉辦過(guò)八屆[22]。ACE的測(cè)評(píng)任務(wù)定義：實(shí)體探測(cè)與識(shí)別（Entity Detection and Recognition，EDR）、價(jià)值探測(cè)與識(shí)別（Value Detection and Recognition，VAL）、時(shí)間表達(dá)識(shí)別與標(biāo)準(zhǔn)化（Time Expression Recognition and Normalization，TERN）、關(guān)系探測(cè)與識(shí)別（Relation Detection and Recognition，RDR）以及事件探測(cè)與識(shí)別（Event Detection and Recognition，VDR）。共指消解的評(píng)測(cè)任務(wù)主要蘊(yùn)含于實(shí)體探測(cè)與識(shí)別EDR中，將篇章中出現(xiàn)的各種提及表述指向?qū)?yīng)的實(shí)體，從而給出一個(gè)實(shí)體全面的描述。這項(xiàng)任務(wù)中首先需要識(shí)別出各種表述，然后將描述同一實(shí)體的表述合并，該合并過(guò)程就是共指消解的過(guò)程。值得一提的是，從2003年開(kāi)始ACE中開(kāi)始包含中文的相關(guān)評(píng)測(cè)，至今已經(jīng)開(kāi)展5次評(píng)測(cè)。其中的共指消解也是迄今為止唯一的中文共指消解國(guó)際評(píng)測(cè)。

在2008年后，ACE會(huì)議被TAC會(huì)議（Text Analysis Conference）[23]所取代，TAC-KBP從2009年開(kāi)始到現(xiàn)在共進(jìn)行了六屆，該評(píng)測(cè)任務(wù)中直接與實(shí)體名稱規(guī)范相關(guān)的即實(shí)體鏈接（Entity Linking）評(píng)測(cè)。目前，TAC實(shí)體鏈接任務(wù)的目標(biāo)實(shí)體知識(shí)庫(kù)使用2008年10月版本的Wikipedia構(gòu)建，包含近82個(gè)實(shí)體，其中有人物實(shí)體11萬(wàn)，組織實(shí)體5.5萬(wàn)，地理實(shí)體11萬(wàn)，其他類別實(shí)體53萬(wàn)，目標(biāo)知識(shí)庫(kù)總量約2.6G[24]。

（2）Web環(huán)境中人名消歧任務(wù)評(píng)測(cè)會(huì)議（Web People Search Evaluation，WePS）

WePS是針對(duì)英文網(wǎng)頁(yè)中人名消歧任務(wù)進(jìn)行評(píng)測(cè)的一個(gè)專門會(huì)議，由 Gonzalo和 Sekine主要負(fù)責(zé)組織，至今共組織過(guò)3次[25]。該任務(wù)集中于在Web檢索場(chǎng)景中人名的消歧。參加測(cè)試的系統(tǒng)將在接收到一個(gè)以人名為檢索式的Web檢索后，確定有多少個(gè)不同的涉及人員在檢索結(jié)果中，并將特定的指稱分配給相應(yīng)的文檔。從總體上來(lái)說(shuō)，這個(gè)任務(wù)是個(gè)聚類問(wèn)題。對(duì)給定的一組文檔，按照文檔中出現(xiàn)的某個(gè)指定的人名所指向的人進(jìn)行聚類。最后，在每個(gè)類中，所有指定的人名都必須是指向現(xiàn)實(shí)生活中的同一個(gè)人。從WePS3發(fā)布的評(píng)測(cè)任務(wù)看，在該評(píng)測(cè)中，需要重點(diǎn)從人物的屬性角度出發(fā)，包括人員的生日、出生地、別名、工作、所屬機(jī)構(gòu)、獲得獎(jiǎng)項(xiàng)、學(xué)校、學(xué)位、專業(yè)、民族、電話等多個(gè)方面年代信息。受該項(xiàng)目啟發(fā)，李文捷等也于2010年組織發(fā)起了專門針對(duì)中文人名消歧的評(píng)測(cè)任務(wù)[26]，至今已經(jīng)舉辦了二屆。

（3）指代消解練習(xí)（ARE）[27]

2006年11月—2007年3月，英國(guó)伍爾佛漢普敦大學(xué)發(fā)起了一個(gè)名為指代消解練習(xí)的共指消解評(píng)測(cè)。這項(xiàng)評(píng)測(cè)是迄今為止在英文上進(jìn)行的最全面的共指消解評(píng)測(cè)，包含四項(xiàng)評(píng)測(cè)任務(wù)：①預(yù)標(biāo)注文檔上的人稱代詞消解。文檔內(nèi)的名詞短語(yǔ)都被識(shí)別出來(lái)，而且需要消解的代詞也被標(biāo)注出來(lái)。參加系統(tǒng)需要對(duì)每個(gè)人稱代詞在一個(gè)不包含人稱代詞的名詞短語(yǔ)列表中找到正確的先行語(yǔ)。②預(yù)標(biāo)注文檔上的共指消解。文檔內(nèi)所有的名詞短語(yǔ)都被識(shí)別出來(lái)，參加系統(tǒng)需要將文檔內(nèi)的所有共指鏈識(shí)別出來(lái)。③生語(yǔ)料上的人稱代詞消解。和第一項(xiàng)任務(wù)不同的是，評(píng)測(cè)文檔沒(méi)有經(jīng)過(guò)任何標(biāo)注，需要參加系統(tǒng)自行識(shí)別相關(guān)信息。④生語(yǔ)料上的共指消解。和第二項(xiàng)任務(wù)不同的是，評(píng)測(cè)文檔沒(méi)有經(jīng)過(guò)任何標(biāo)注，需要參加系統(tǒng)自行識(shí)別相關(guān)信息。

除上述的四種不限于領(lǐng)域的評(píng)測(cè)外，還有一些領(lǐng)域特定的共指消解任務(wù)評(píng)測(cè)，如生物醫(yī)藥領(lǐng)域的生物醫(yī)藥領(lǐng)域的自然語(yǔ)言處理及應(yīng)用聯(lián)合工作組JNLPBA（Joint Workshop on Natural Language Processing in Biomedicine and Its App Locations）以及生物學(xué)領(lǐng)域信息抽取的關(guān)鍵評(píng)價(jià)BioCreAtIve（Critical Assessment of Information Extraction Systems in Biology）。這些評(píng)測(cè)會(huì)議不斷推動(dòng)著實(shí)體名稱規(guī)范研究的開(kāi)展。

4　實(shí)體名稱規(guī)范的研究趨勢(shì)

盡管目前針對(duì)實(shí)體名稱規(guī)范的研究已經(jīng)開(kāi)展得較為成熟，但從評(píng)測(cè)會(huì)議的結(jié)果（2012年參加TAC entity linking測(cè)評(píng)的系統(tǒng)平均效率為72.1%[28]）來(lái)看，目前的識(shí)別效率仍不足以滿足大規(guī)模的實(shí)際應(yīng)用，其中還面臨很多問(wèn)題需要解決。比如，空目標(biāo)實(shí)體問(wèn)題、知識(shí)庫(kù)的覆蓋度問(wèn)題、知識(shí)庫(kù)不確切的問(wèn)題、知識(shí)庫(kù)使用的問(wèn)題等[29]。因此，圍繞著這些問(wèn)題，此領(lǐng)域的研究主要存在以下幾種發(fā)展趨勢(shì)。

（1）算法趨于多模型的融合

在過(guò)去的研究中，基于語(yǔ)言學(xué)特征的統(tǒng)計(jì)學(xué)方法和機(jī)器學(xué)習(xí)方法主流是分開(kāi)思考的，很多研究都是在機(jī)器學(xué)習(xí)的分類或聚類中選擇特征時(shí)再考慮加入一些語(yǔ)言學(xué)特征，這種融合方式對(duì)提高識(shí)別的效率比較有限。目前的研究中，研究者們逐漸開(kāi)始考慮利用語(yǔ)言學(xué)思路來(lái)構(gòu)建更加豐富的機(jī)器學(xué)習(xí)模型。Elango提出了一種初始化的建議，結(jié)合中心理論和條件隨機(jī)域模型（CRF）來(lái)實(shí)現(xiàn)人稱代詞消解?；贑RF模型的靈活性，依賴于上下文的傳遞優(yōu)選性能被很好地融入模型中[30]。Poesio等將子句作為話語(yǔ)單元，將篇章可以表示成一系列子句的集合，進(jìn)而將篇章表示為一系列預(yù)指中心集合的特征空間。這個(gè)預(yù)指中心列表構(gòu)成的特征空間可以融合一些相關(guān)特征，如語(yǔ)法角色、性別、單復(fù)數(shù)等[31]。類似的序列CRF模型上的推理和估計(jì)，還可以采用 Sutton和 McCallum討論的技術(shù)[32]。

（2）消歧特征的篩選越來(lái)越多樣化

從當(dāng)前發(fā)表的研究論文較為集中的研究主題看，研究者越來(lái)越重視在實(shí)體名稱規(guī)范中引入越來(lái)越多的特征，單純從算法上進(jìn)行改進(jìn)而實(shí)施基于“知識(shí)匱乏”的研究方法越來(lái)越不被主流研究所看重。歸納起來(lái)，目前常用的實(shí)體消歧特征主要如表1所示。

表1　實(shí)體消歧特征歸納

被應(yīng)用的特征越來(lái)越多，而不斷涌現(xiàn)出的各種語(yǔ)料資源庫(kù)恰恰為這些深層的語(yǔ)言學(xué)知識(shí)獲取提供了非常好的途徑，主要包括：①常規(guī)的知識(shí)庫(kù)，如WordNet、HowNet、WikiPedia、DBPedia、Yago等。②利用大規(guī)模的語(yǔ)料庫(kù)挖掘模式信息，如Hearst等通過(guò)構(gòu)建了“is-a”等模板，用于從文本中發(fā)現(xiàn)同義詞[33]；Bergsma在一個(gè)經(jīng)過(guò)Minipar依存分析的語(yǔ)料庫(kù)上獲取了大量的指代信息，實(shí)現(xiàn)了英文名詞短語(yǔ)性別和單復(fù)數(shù)信息的模板化提取[34]；Yang和Su利用語(yǔ)料庫(kù)中發(fā)現(xiàn)的模板信息來(lái)增強(qiáng)共指消解[35]。③充分利用互聯(lián)網(wǎng)這一語(yǔ)料庫(kù)，利用搜索引擎顯示的各個(gè)查詢得到的返回?cái)?shù)來(lái)計(jì)算各種相關(guān)信息。該方法是將整個(gè)互聯(lián)網(wǎng)當(dāng)成一個(gè)巨大的語(yǔ)料庫(kù)，利用搜索引擎顯示的各個(gè)查詢得到的返回?cái)?shù)來(lái)計(jì)算各種相關(guān)信息，例如Poesio等通過(guò)計(jì)算互信息來(lái)考察兩個(gè)短語(yǔ)的關(guān)聯(lián)程度[31]。

（3）大規(guī)模知識(shí)庫(kù)的自動(dòng)構(gòu)建成為實(shí)體規(guī)范研究的重要組成之一

實(shí)驗(yàn)充分表明，高質(zhì)量的大規(guī)模知識(shí)庫(kù)對(duì)提升實(shí)體名稱規(guī)范的效率有很強(qiáng)的支撐作用。面對(duì)當(dāng)前指數(shù)級(jí)增長(zhǎng)的網(wǎng)絡(luò)數(shù)據(jù)，依靠人工的專家構(gòu)建知識(shí)庫(kù)方式顯然費(fèi)時(shí)費(fèi)力，且會(huì)造成信息的滯后。因此，富含語(yǔ)義信息關(guān)聯(lián)的大規(guī)模知識(shí)庫(kù)的自動(dòng)構(gòu)建顯得尤為重要。開(kāi)放式信息抽取技術(shù)的研究以及Wikipedia、Freebase等大規(guī)模半結(jié)構(gòu)化的網(wǎng)絡(luò)知識(shí)庫(kù)的出現(xiàn)，為大規(guī)模知識(shí)庫(kù)的自動(dòng)構(gòu)建提供了良好的基礎(chǔ)。目前，較有代表性的工作有基于Wikipedia的YAGO，該語(yǔ)料庫(kù)采用實(shí)例、實(shí)例間關(guān)聯(lián)三元組的方式存儲(chǔ)知識(shí)，所有的實(shí)例和實(shí)例間的關(guān)系均來(lái)源于Wikipedia的category pages，并與WordNet進(jìn)行銜接，對(duì)于每一個(gè)實(shí)體事實(shí)YAGO還賦予了可信度的標(biāo)注，準(zhǔn)確率達(dá)到95%。目前YAGO2中包含了1 000萬(wàn)個(gè)實(shí)體及1.2億條描述實(shí)體關(guān)聯(lián)的事實(shí)記錄[6]。此外，中國(guó)科學(xué)院自動(dòng)化所的徐立恒等利用在信息抽取方面的技術(shù)積累，以《中國(guó)大百科全書(shū)》知識(shí)體系作為目標(biāo)知識(shí)庫(kù)的結(jié)構(gòu)，從網(wǎng)絡(luò)知識(shí)庫(kù)中抽取概念實(shí)例并綜合利用網(wǎng)絡(luò)百科網(wǎng)頁(yè)中蘊(yùn)含的豐富的語(yǔ)義標(biāo)簽、半結(jié)構(gòu)化信息和非結(jié)構(gòu)化信息進(jìn)行概念實(shí)例掛載，將百科知識(shí)庫(kù)從8萬(wàn)條目擴(kuò)展為百萬(wàn)條目級(jí)別，在此基礎(chǔ)上進(jìn)行概念屬性抽取，為下一步研發(fā)面向開(kāi)放式的自動(dòng)問(wèn)答系統(tǒng)提供了知識(shí)資源的支撐[36]。

[1] NGUYEN H T, CAO T H. A knowledge-based approach to named entity disambiguation in news articles[C]. AI 2007: Advances in Artificial Intelligence. Gold Coast: 20th Australian Joint Conference2007, 4830:619-624.

[2] NAVIGLI R.Word sense disambiguation: a survey[J].ACM Computing Surveys, 2009, 41(2): 10-69.

[3] NIE Z Q, MA Y X, SHI S M, et al. Web object retrieval[C]. Proceedings of the 16th international conference.Banff: International World Wide Web Conference Committee (IW3C2), 2007: 81-90.

[4] NIE Z Q, ZHANG Y Z, WEN J R, et al. Object-level ranking: bringing order to web objects[C]. Proceedings of the 14th international conference. Chiba: International World Wide Web Conference Committee (IW3C2), 2005: 567-574.

[5] Wikipedia[EB/OL]. [2014-11-26].http://www.wikipedia.org.

[6] YAGO2s: a high-quality knowledgebase[EB/OL]. [2014-11-26]. http:// www.mpi-inf.mpg.de/departments/databases-and-information-systems/ research/yago-naga/yago/.

[7] FADER A,SODERLAND S, ETZIONI O. Scaling Wikipedia-based named entity disambiguation to arbitrary web text[C]. Proceedings of the IJCAI Workshop. Pasadena:2009:21-26.

[8] NGUYEN H T,CAO T H. Exploring Wikipedia and text features for named entity disambiguation[J].Intelligent Information and Database Systems Lecture Notes in Computer Science, 2010, 5991: 11-20.

[9] PLOCH D. Exploring entity relations for named entity disambiguation[C]. Proceedings of the ACL. Portland: The 49th Annual Meeting of the Association for Computational Linguistics, 2011.

[10] DAMLJANOVIC D, BONTCHEVA K. Named entity disambiguation using linked data[EB/OL]. [2014-11-26]. http://2012.eswc-conferences. org/sites/default/files/eswc2012_submission_334.pdf.

[11] NEBHI K. Named entity disambiguation using freebase and syntactic parsing[C]. Proceedings of the First International Workshop.The 12th International Semantic Web Conference (ISWC 2013), 2013.

[12] SAGGION H,FUNK A,MAYNARD D, et al. Ontology-based information extraction for business intelligence[EB/OL]. [2014-11-26]. https://gate.ac.uk/sale/iswc07/musing/musing-iswc07.pdf.

[13] HAN X P,ZHAO J. Named entity disambiguation by leveraging Wikipedia semantic knowledge[C]. Hong Kong: Proceedings of the 18th ACM conference, 2009: 215-224.

[14] 陳晨,王厚峰.基于社會(huì)網(wǎng)絡(luò)的跨文本同名消歧[J].中文信息學(xué)報(bào), 2011(5):75-82.

[15] BEKKERMAN R, ANDREW M C. Disambiguating web appearance of people in a social network[C]. WWW '05 Proceedings of the 14th international conference. World Wide Web,2005:463-470.

[16] 郎君,秦兵,宋巍,等.基于社會(huì)網(wǎng)絡(luò)的人名檢索結(jié)果重名消解[J].計(jì)算機(jī)學(xué)報(bào), 2009(7):1-10.

[17] PABICO J P. An analysis of named entity disambiguation in social networks[J].Asia Pacific Journal of Multidisciplinary Research, 2014(2):31-38.

[18] MAYNARD D, GREENWOOD M A. Large scale semantic annotation, Indexing and search at the National Archives[EB/OL]. [2014-11-26]. https://gate.ac.uk/sale/lrec2012/tna/tna.pdf.

[19] BOUQUET P,PALPANNAS T, STOERMER H, et al. A conceptual model for a web-scale entity name system[EB/OL]. [2014-11-26].http:// www.inf.unibz.it/krdb/events/swap2010/paper-19.pdf.

[20] LI J Z, TANG J, LI Y, et al. RiMOM: a dynamic multistrategy ontology alignment framework[J]. IEEE Trans. on Knowledge and Data Engineering, 2009, 21(8):1218-1232.

[21] ObjectCoref [EB/OL]. [2014-11-26].http://ws.nju.edu.cn/objectcoref/.

[22] Automatic Content Extraction (ACE) Evaluation[EB/OL]. [2014-11-26]. http://www.itl.nist.gov/iad/mig/tests/ace/.

[23] Text Analysis Conference[EB/OL]. [2014-11-26].http://www.nist.gov/tac/.

[24] Entity linking at TAC 2013 task description[EB/OL]. (2013-04-09) [2014-11-26].http://www.nist.gov/tac/2013/KBP/EntityLinking/ guidelines/KBP2013_EntityLinkingTaskDescription_1.0.pdf.

[25] ARTILES J,BORTHWOCK A, GONZALO J,et al. WePS-3 evaluation campaign: overview of the Web people search Clustering and attribute extraction tasks[C]. Padua: 2010.

[26] CLP2012.Chinese language processing[EB/OL]. (2012-06-30) [2014-11-26].http://www.cipsc.org.cn/clp2012/bakeoff-cn.html.

[27] OR?SAN C, CRISTEA D,MITKOV R, et al. Anaphora resolution exercise: an overview[EB/OL]. [2014-11-26]. http://www.lrec-conf.org/ proceedings/lrec2008/pdf/713_paper.pdf.

[28] DALTON J,DIETZ L. A neighborhood relevance model for entity linking [EB/OL]. [2014-11-26].http://ciir.cs.umass.edu/～dietz/entitylinking/ oair2013.pdf.

[29] 趙軍,劉康,周光有,等.開(kāi)放式文本信息抽取[J].中文信息學(xué)報(bào), 2011(6):98-110.

[30] ELANGO P. Coreference resolution: a survey project report of the course "Advanced natural language processing"[D].Madison: the University of Wisconsin, 2006.

[31] POESIO M,KABADJOV M.A general-purpose, off-the-shelf anaphora resolution module: implementation and preliminary evaluation[C]. The proceedings of the national academy of sciences. Lisbon: The 4th International Conference on Language Resources and Evaluation, 2011.

[32] SUTTON C,MCCALLUM A. An introduction to conditional random fields for relational learning[C]. L. Getoor and B. Taskar, eds..Boston: MIT Press, 2006.

[33] HEARST M A. Automatic acquisition of hyponyms from large text corpora[C].Proceedings of the 14th International Conference on Computational Linguistics, 1992.

[34] BERGSMA S. Automatic acquisition of gender information for anaphora resolution[C]. B. Kégl and G. Lapalme eds. Canadian Conference on AI,Victoria: Springer-Verlag, 2005:342-353.

[35] YANG X,SU J. Coreference resolution using semantic relatedness information from automatically discovered patterns[C]. J. Carroll, A. Bosch, and A. Zaenen eds. Proc. of the 45th Annual Meeting of the Association of Computational Linguistics. Prague: Association for Computational Linguistics, 528-535.

[36] 徐立恒,劉洋,來(lái)斯惟,等.基于多特征表示的本體概念掛載[J].中文信息學(xué)報(bào), 2012(3):122-128.

郭紅梅，女，1985年生，博士，研究方向：文本挖掘、科學(xué)計(jì)量。

Study on Named Entity Normalization

LIU JianHua1,2, GUO HongMei1
(1. National Science Library, Chinese Academy of Sciences, Beijing 100190, China; 2. University of Chinese Academy of Sciences, Beijing 100190, China)

This article focus on the Named Entity Normalization (NEN), which is a basic task of text processing. It describes two types sub-tasks of NEN, Coreference Resolution and Entity Disambiguation. Combined with the mentioned two su-tasks, it reviews current related research, introduces the typical methods, importance projects and evaluation conference closed to the theme. Besides, it analyzes the research trend of NEN based on current problems.

Named Entity Normalization; Entity Disambiguation; Large-scale Knowledge; Social Network

G254

10.3772/j.issn.1673-2286.2016.5.010

* 本研究得到中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心青年人才項(xiàng)目“基于開(kāi)放KOS的領(lǐng)域主題學(xué)術(shù)關(guān)系網(wǎng)絡(luò)擴(kuò)展方法研究”（編號(hào)：青1303）資助。

劉建華，女，1984年生，博士在讀，研究方向：文本挖掘、信息抽取，E-mail：liujh@mail.las.ac.cn。

（2016-05-10）

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

實(shí)體名稱規(guī)范的研究探索*

1 引言

2 實(shí)體名稱規(guī)范的主要思路與方法

3 實(shí)體名稱規(guī)范相關(guān)的重要項(xiàng)目及評(píng)測(cè)會(huì)議

4 實(shí)體名稱規(guī)范的研究趨勢(shì)

1　引言

2　實(shí)體名稱規(guī)范的主要思路與方法

3　實(shí)體名稱規(guī)范相關(guān)的重要項(xiàng)目及評(píng)測(cè)會(huì)議

4　實(shí)體名稱規(guī)范的研究趨勢(shì)