李雁群,何云琪,錢龍華,周國棟
(1. 蘇州大學(xué) 自然語言處理實(shí)驗(yàn)室,江蘇 蘇州 215006; 2. 蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
信息抽取的目的是從無結(jié)構(gòu)文本中抽取出實(shí)體及其相互關(guān)系并轉(zhuǎn)化為結(jié)構(gòu)化表達(dá)形式,從而為知識庫的構(gòu)造提供數(shù)據(jù)基礎(chǔ)[1-5]。嵌套命名實(shí)體中含有豐富的實(shí)體信息以及實(shí)體之間的相互關(guān)系,其結(jié)構(gòu)相對而言也較為簡單,因而嵌套命名實(shí)體的識別成為信息抽取中值得研究的話題之一。
目前的嵌套命名實(shí)體識別都采用有監(jiān)督的機(jī)器學(xué)習(xí)方法,因而需要一定規(guī)模的語料庫。GENIAV3.02[6]是生物醫(yī)學(xué)領(lǐng)域內(nèi)的命名實(shí)體語料庫,其中包含了嵌套實(shí)體,被廣泛應(yīng)用于生物醫(yī)學(xué)領(lǐng)域的命名實(shí)體識別研究。該語料庫包含2 000條MEDLLINE摘要,94 014個(gè)實(shí)體引用,其中約有17%的實(shí)體嵌套在其他實(shí)體中。EPPI[7]是生物醫(yī)學(xué)領(lǐng)域內(nèi)另一個(gè)標(biāo)注了蛋白質(zhì)及其相互作用關(guān)系的語料庫,它包含217個(gè)從PubMed和PubMedCentral選出來的摘要和全文文獻(xiàn),總共有134 059個(gè)實(shí)體引用。RCAHMS[8]是一個(gè)標(biāo)注實(shí)體及其語義關(guān)系的歷史檔案語料庫,包含1 546個(gè)文本,28 272個(gè)實(shí)體引用,其中18.7%的實(shí)體嵌套在其他實(shí)體中。
中文方面沒有被廣泛認(rèn)可的嵌套命名實(shí)體語料庫,中文命名實(shí)體語料有來源廣泛的MSRA語料、新聞?lì)I(lǐng)域的1998年1月的 《人民日報(bào)》語料和多領(lǐng)域的ACE2005中文語料,因?yàn)椤度嗣袢請?bào)》語料和ACE2005中文語料包含嵌套命名實(shí)體的標(biāo)注信息,所以中文嵌套實(shí)體識別研究大都基于《人民日報(bào)》語料[9-11]和ACE2005中文語料[12],但是這些標(biāo)注信息并不完整,存在漏標(biāo)問題,如“[中共中央/nt 臺灣/ns 工作/vn 辦公室/n]nt”轉(zhuǎn)換為嵌套結(jié)構(gòu)為“[[中共中央]nt [臺灣]ns 工作辦公室]nt”[注]嵌套實(shí)體的類型標(biāo)注采用《人民日報(bào)》語料的格式,即nr表示人名,ns表示地名,nt表示組織名。,漏標(biāo)了“[中共]nt”這個(gè)實(shí)體。本文提出用半自動的方法構(gòu)建完善的中文嵌套命名實(shí)體識別語料庫,該方法首先自動抽取嵌套命名實(shí)體,然后人工調(diào)整自動標(biāo)注的嵌套命名實(shí)體。
目前的中文嵌套命名實(shí)體識別的研究少有考慮嵌套命名實(shí)體語料庫的構(gòu)建,主要側(cè)重于方法的研究。嵌套實(shí)體識別方法主要分為基于規(guī)則的方法和基于機(jī)器學(xué)習(xí)的方法。最初的方法是在識別最外層實(shí)體的基礎(chǔ)上采用基于規(guī)則的后處理方法識別嵌套實(shí)體[13-14]。基于機(jī)器學(xué)習(xí)的方法大都采用層次模型,即將嵌套實(shí)體的識別轉(zhuǎn)換成多個(gè)層次的序列標(biāo)注問題[7-8,11]。與序列化標(biāo)注方法不同,F(xiàn)inkel和Manning[15]采用判別式成分句法分析器來訓(xùn)練嵌套命名實(shí)體識別模型。該方法把每個(gè)句子轉(zhuǎn)換成一棵句法分析樹,其中每一個(gè)詞均作為該樹的葉子節(jié)點(diǎn),而每個(gè)實(shí)體作為該樹的子樹。其優(yōu)點(diǎn)是樹的表示方法可以清晰地表示任意層數(shù)的嵌套實(shí)體。
中文嵌套命名實(shí)體識別的研究都是在《人民日報(bào)》語料和ACE2005中文語料上進(jìn)行的,前者大都采用層次化模型,后者采用層次標(biāo)號的方法在分詞的基礎(chǔ)上進(jìn)行多層嵌套實(shí)體提及的識別[12]。然而在這些語料上進(jìn)行嵌套命名實(shí)體識別時(shí),語料都是自動生成的,并沒有人工校驗(yàn)的過程,語料的質(zhì)量得不到保證,而且這些語料的領(lǐng)域較單一。因此本文提出構(gòu)建一個(gè)完善的嵌套命名實(shí)體識別語料庫,并將其發(fā)布出去。
根據(jù)命名實(shí)體中是否包含其他實(shí)體,將命名實(shí)體分為簡單命名實(shí)體和嵌套命名實(shí)體。簡單命名實(shí)體是由一個(gè)詞或多個(gè)詞構(gòu)成的實(shí)體,它的內(nèi)部不包含其他的命名實(shí)體。嵌套命名實(shí)體是指實(shí)體內(nèi)部嵌套一個(gè)或多個(gè)簡單命名實(shí)體的命名實(shí)體,該類型的命名實(shí)體主要存在于地名和機(jī)構(gòu)名中。嵌套在里面的實(shí)體稱為內(nèi)部實(shí)體,最外層的實(shí)體稱為外部實(shí)體。如外部實(shí)體“[[[中共]nt [北京]ns 市委]nt 宣傳部]nt”包含“[中共]nt”、“[北京]ns”和“[中共北京市委]nt”等三個(gè)內(nèi)部實(shí)體。
目前中文命名實(shí)體識別中常用的語料有《人民日報(bào)》語料[16]、微軟語料[17]和ACE2005中文語料[18-19],其中《人民日報(bào)》語料和ACE2005中文語料含有嵌套命名實(shí)體的標(biāo)注信息。因此,為了減少標(biāo)注工作量,我們把《人民日報(bào)》語料和ACE2005中文語料作為嵌套命名實(shí)體語料?!度嗣袢請?bào)》語料規(guī)模較大,但是來源單一。該語料屬于新聞?lì)I(lǐng)域,語料整體比較正規(guī),都是嚴(yán)格的命名實(shí)體,人名都是簡單命名實(shí)體。ACE2005中文語料雖規(guī)模較小,但來源多樣。
我們定義嵌套實(shí)體的出發(fā)點(diǎn)是盡可能地挖掘出更多的實(shí)體以及實(shí)體之間的語義關(guān)系,因此比《人民日報(bào)》和ACE2005定義了更細(xì)粒度和更多層次的嵌套實(shí)體結(jié)構(gòu)?!度嗣袢請?bào)》定義的嵌套實(shí)體都是兩層的,即只標(biāo)注了外部實(shí)體中嵌套的最底層內(nèi)部實(shí)體,如嵌套實(shí)體“[中共/j 北京/ns 市委/n 宣傳部/n]nt”,而我們所定義的嵌套實(shí)體要求包含所有嵌套層次的內(nèi)部實(shí)體。ACE2005中文語料中的實(shí)體是指一個(gè)不能再劃分的完整概念,因此理論上說一個(gè)實(shí)體不能再包含另一個(gè)實(shí)體,如實(shí)體“[西安飛機(jī)工業(yè)公司]nt”中的“西安”并沒有標(biāo)注,不過ACE通過實(shí)體的中心詞和外延來指明每個(gè)實(shí)體的覆蓋范圍。
2.2.1 《人民日報(bào)》語料人工標(biāo)注
該語料只標(biāo)注了二層嵌套結(jié)構(gòu),且都是命名實(shí)體。如嵌套實(shí)體“[中共/j 北京/ns 市委/n 宣傳部/n]nt”不能滿足我們對嵌套實(shí)體的定義,其正確的標(biāo)注應(yīng)該是“[[[中共]nt [北京]ns 市委]nt 宣傳部]nt”。
本文采用自動抽取加人工調(diào)整的方式來產(chǎn)生中文嵌套實(shí)體識別語料,同時(shí)為了減少重復(fù)標(biāo)注,我們只對實(shí)體而非一個(gè)實(shí)體的多個(gè)引用進(jìn)行標(biāo)注,具體過程為:
(1) 自動抽取: 從1998年1月的《人民日報(bào)》語料中抽取出復(fù)雜命名實(shí)體,并去除重復(fù)的實(shí)體引用,保留其中的命名實(shí)體標(biāo)注。如實(shí)體“[中共/j 北京/ns 市委/n 宣傳部/n]nt”提取后變成實(shí)體“[中共 [北京]ns 市委宣傳部]nt”。
(2) 人工調(diào)整: 人工標(biāo)注提取出的嵌套實(shí)體,通常是添加新的內(nèi)部實(shí)體。如第(1)步中的實(shí)體“[中共 [北京]ns 市委宣傳部]nt” 經(jīng)人工調(diào)整后為“[[[中共]nt [北京]ns 市委]nt 宣傳部]nt”。
2.2.2 ACE2005中文語料人工標(biāo)注
作為中文信息抽取的基準(zhǔn)語料,ACE2005中文語料庫被廣泛應(yīng)用于命名實(shí)體識別和關(guān)系抽取,它定義了七個(gè)大類(包括人物、組織、地理政治、處所、設(shè)施、車輛和武器)的實(shí)體,涉及廣播新聞、新聞專線和博客等多個(gè)領(lǐng)域,因而可作為潛在的中文嵌套實(shí)體語料庫。
ACE2005中文語料庫并沒有直接定義嵌套實(shí)體,而是定義了一個(gè)實(shí)體的中心詞(headword)和外延(extension)。所謂實(shí)體中心詞就是常規(guī)意義上的實(shí)體指稱(mention),而實(shí)體外延則是指包含這個(gè)實(shí)體修飾語的最小名詞短語。如短語“[內(nèi)蒙古]ns [歌舞團(tuán)]nt”中包含兩個(gè)實(shí)體,而第二個(gè)實(shí)體的外延則包含了第一個(gè)實(shí)體,因此可以利用這種特點(diǎn)來生成初始的可選嵌套實(shí)體,具體流程如下:
(1) 選出ACE2005中文語料庫中指稱類型為“NAM”的實(shí)體,即命名實(shí)體。ACE定義了三種類型的實(shí)體指稱,即NAM(名稱)、NOM(名詞)和PRO(代詞),命名實(shí)體指第一種,因此過濾后兩種的類型。
(2) 對于語料文本的每一句中的所有命名實(shí)體,如果一個(gè)實(shí)體的外延包含另一個(gè)實(shí)體的外延,且第一個(gè)實(shí)體的中心詞緊跟第二個(gè)實(shí)體的中心詞,則第一個(gè)實(shí)體包含第二個(gè)實(shí)體。以此類推,第二個(gè)實(shí)體可以包含第三個(gè)實(shí)體。
(3) 產(chǎn)生多層嵌套的實(shí)體,并把類型為地理政治實(shí)體、處所和設(shè)施的實(shí)體轉(zhuǎn)換為地名類型。如果嵌套實(shí)體原來都是地理政治實(shí)體,則把它們分成多個(gè)獨(dú)立的不嵌套實(shí)體。如“[西藏]ns [達(dá)孜縣]ns”,盡管ACE定義為嵌套實(shí)體,但我們不認(rèn)為連續(xù)的多層地名為嵌套實(shí)體。
根據(jù)上述處理流程,我們得到了一個(gè)初始的嵌套實(shí)體列表,但這個(gè)列表里面仍然存在漏標(biāo)問題。如上文提到的實(shí)體“[西安飛機(jī)工業(yè)公司]nt”,ACE2005并沒有標(biāo)出其中的內(nèi)部實(shí)體“[西安]ns”。因此我們進(jìn)一步人工標(biāo)注,以得到較高質(zhì)量的中文嵌套實(shí)體語料庫。
2.2.3 語料庫一致性檢驗(yàn)
為了衡量語料庫標(biāo)注的一致性,我們安排了兩名志愿者同時(shí)進(jìn)行標(biāo)注。標(biāo)注分兩個(gè)階段進(jìn)行,第一個(gè)階段兩名志愿者經(jīng)過初步培訓(xùn)后對語料庫進(jìn)行標(biāo)注,然后比較他們之間的差異,重新調(diào)整標(biāo)注要求,再進(jìn)行第二個(gè)階段的標(biāo)注調(diào)整,調(diào)整結(jié)束后計(jì)算最終一致性。在一致性檢驗(yàn)時(shí),以一個(gè)志愿者的標(biāo)注為標(biāo)準(zhǔn)集,另一個(gè)志愿者的標(biāo)注為預(yù)測集,采用常規(guī)的P/R/F1指數(shù)來評估嵌套命名實(shí)體語料庫標(biāo)注的一致性,其中P為準(zhǔn)確率,R為召回率,F(xiàn)1為兩者的調(diào)和平均值。
以《人民日報(bào)》為例,第一階段標(biāo)注的一致性結(jié)果:P為92.50%,R為93.43%,F(xiàn)1為92.96%。兩名志愿者的差異主要體現(xiàn)在對地名的嵌套結(jié)構(gòu)理解不一致。第二階段標(biāo)注后的一致性結(jié)果:P為99.24%,R為99.31%,F(xiàn)1為99.29%。由此可見,經(jīng)過適當(dāng)?shù)恼{(diào)整,嵌套實(shí)體的標(biāo)注一致性非常高。
2.3.1 《人民日報(bào)》嵌套實(shí)體統(tǒng)計(jì)
標(biāo)注后的《人民日報(bào)》中所有實(shí)體統(tǒng)計(jì)情況如表1所示,實(shí)體分為外部實(shí)體和內(nèi)部實(shí)體,外部實(shí)體還可分為無嵌套和有嵌套兩種。從表中可以看出,內(nèi)部實(shí)體約占所有實(shí)體的14%。另外:
(1) 無嵌套結(jié)構(gòu)的外部實(shí)體中,大部分是地名(~47%)和人名(~43%),再加少量的組織名(~10%),如“[中國]ns”“[鄧小平]nr”“[聯(lián)合國]nt”。
(2) 有嵌套結(jié)構(gòu)的外部實(shí)體中,絕大部分是組織名(~90%),再加少量的地名(~10%);如“[[上海市]ns 紅十字會]nt”中的“[上海市紅十字會]nt”,“[[北京]ns 圓山大酒店]ns”中的“[北京圓山大酒店]ns”。
(3) 內(nèi)部實(shí)體的組成大部分是地名(~75%),小部分是組織名(~24%),還有極少數(shù)是人名(~1%),如“[[上海市]ns 紅十字會]nt”中的“[上海市]ns”,“[[北京]ns 圓山大酒店]ns”中的“[北京]ns”,“[[[華南]ns 師范大學(xué)]nt 函授學(xué)院]nt”中的“[華南]ns”和“[華南師范大學(xué)]nt”。
表1 《人民日報(bào)》語料嵌套實(shí)體統(tǒng)計(jì)
2.3.2 ACE2005中文語料嵌套實(shí)體統(tǒng)計(jì)
標(biāo)注后的ACE2005中文語料中所有實(shí)體統(tǒng)計(jì)情況如表2所示。其中,內(nèi)部實(shí)體約占所有實(shí)體的11%,略低于《人民日報(bào)》中的比例,從表中還可以看出:
(1) 無嵌套結(jié)構(gòu)的外部實(shí)體中的組成與《人民日報(bào)》差別不大,大部分是地名(~52%)和人名(~30%),再加少量的組織名(~18%)。
(2) 與《人民日報(bào)》有所不同,有嵌套結(jié)構(gòu)的外部實(shí)體中組織名只占到約76%,低于《人民日報(bào)》中的比例(~90%);而內(nèi)部實(shí)體中的絕大部分是地名(~90%),高于《人民日報(bào)》中的比例(~75%)。
表2 ACE2005中文語料嵌套實(shí)體統(tǒng)計(jì)
2.3.3 ACE2005中文語料的領(lǐng)域分析
《人民日報(bào)》的內(nèi)容來源于人民日報(bào)社,體裁均為新聞,而ACE2005中文語料內(nèi)容來源于國內(nèi)外多個(gè)媒體機(jī)構(gòu),體裁有新聞、廣播和網(wǎng)絡(luò)日志等,因此領(lǐng)域更加寬泛。其中各個(gè)領(lǐng)域的嵌套命名實(shí)體統(tǒng)計(jì)情況如表3所示。
表3 ACE2005中文語料各領(lǐng)域的嵌套實(shí)體統(tǒng)計(jì)
續(xù)表
為了評估所構(gòu)建的中文嵌套命名實(shí)體語料庫的特點(diǎn),首先設(shè)計(jì)了嵌套命名實(shí)體識別的三種方法及所用的模型和特征,然后通過實(shí)驗(yàn)比較了三種識別模型的性能,分析了嵌套實(shí)體識別的錯(cuò)誤類型,并且將構(gòu)建的新語料與舊語料進(jìn)行對比分析,最后,在《人民日報(bào)》和ACE2005中文語料上進(jìn)行了跨語料測試分析。
3.1.1 嵌套命名實(shí)體識別方法
目前,有關(guān)中文嵌套命名實(shí)體識別的研究相對較少,本文采用基于機(jī)器學(xué)習(xí)的層次標(biāo)記和層疊模型等兩大類方法來識別嵌套命名實(shí)體。
(1) 標(biāo)簽層次化,即擴(kuò)充一個(gè)詞的標(biāo)簽,使它反映出該詞所參與的所有實(shí)體類型,然后用一個(gè)序列化標(biāo)注模型來識別,該方法也可以叫聯(lián)合標(biāo)簽[7]。
(2) 模型層次化,即采用多個(gè)疊加的序列化標(biāo)注模型,每一層嵌套的實(shí)體識別都轉(zhuǎn)化為單獨(dú)的實(shí)體識別問題,識別的順序可以分為兩種: 由內(nèi)到外和由外到內(nèi)。由內(nèi)到外指第一個(gè)序列化模型首先識別出基本實(shí)體,然后再用第二個(gè)模型識別出由第一層實(shí)體組成的實(shí)體,以此類推。由外到內(nèi)指第一個(gè)序列化模型首先識別出最外層的實(shí)體,然后再用第二個(gè)模型識別出第一層實(shí)體中嵌套的實(shí)體,以此類推[7]。
表4 列出了嵌套實(shí)體“[[[中共]nt [北京]ns 市委]nt宣傳部]nt”在以上模型中的層次標(biāo)簽。
3.1.2 CRF特征
以往的中文命名實(shí)體識別研究表明[20],以字為單位的CRF模型在資源最少(即不進(jìn)行分詞)的情況下能取得較好的識別性能,因此本文也采用CRF模型。本文沒有增加額外特征,只采用了最基本的上下文特征,具體如下:
表4 各個(gè)模型的層次化標(biāo)簽表示樣例
Cn(n= -2, -1, 0, 1, 2)
CnCn+1(n= -1 ,0)
其中C0代表當(dāng)前的字,Cn代表當(dāng)前位置之后第n位的字,CnCn+1代表第n位及其下一個(gè)字的組合。例如,對于序列“中華人民共和國”來說,當(dāng)以字為單位時(shí),若C0為“人”,則C1代表“民”,C-1代表“華”,而C0C1代表“人民”。
需要說明的是,訓(xùn)練第一層模型時(shí)只有字特征,而訓(xùn)練多層模型時(shí)除包含字特征外,還包含所有下層的標(biāo)簽作為特征,而在測試時(shí)多層模型選用下層識別的結(jié)果作為其特征。
3.1.3 評估方法
我們采用常規(guī)的P/R/F1指數(shù)來評估實(shí)體識別的性能。為了減少評估性能的偏差,我們和其他《人民日報(bào)》語料上的研究工作一樣[10],采用十折交叉方法,即將所有語料按順序劃分為十份,其中一份作為測試集,另外九份作為訓(xùn)練集,總體性能取十次結(jié)果的平均值。
3.2.1 三種嵌套實(shí)體識別模型的交叉驗(yàn)證性能
表5列出了在《人民日報(bào)》語料上分別用聯(lián)合標(biāo)簽、由內(nèi)到外和由外到內(nèi)三種嵌套實(shí)體識別模型來進(jìn)行嵌套實(shí)體識別的交叉驗(yàn)證性能,同時(shí)列出了外部實(shí)體、內(nèi)部實(shí)體以及全部實(shí)體各自識別的性能,表5的結(jié)果每一列最高性能需要用粗體表示。外部實(shí)體包含上述所說的無嵌套結(jié)構(gòu)和有嵌套結(jié)構(gòu)的外部實(shí)體,這就是我們通常所說的不考慮嵌套實(shí)體的命名實(shí)體(即無嵌套命名實(shí)體),內(nèi)部實(shí)體即嵌套在外部實(shí)體內(nèi)的內(nèi)部實(shí)體(即嵌套命名實(shí)體)。從表中可以看出:
(1) 外部實(shí)體、內(nèi)部實(shí)體、全部實(shí)體都是由內(nèi)到外的模型性能最好,全部實(shí)體F1值達(dá)到了約90%;
(2) 聯(lián)合標(biāo)簽的全部實(shí)體F1值雖只比由內(nèi)到外模型低0.24%,但是聯(lián)合標(biāo)簽?zāi)P蜕傻臅r(shí)間非常長,大概是由內(nèi)到外模型的40倍以上;
(3) 由外到內(nèi)模型的性能相對而言較低,比由內(nèi)到外模型的全部實(shí)體F1值低了2.5%,但這個(gè)模型的優(yōu)點(diǎn)是訓(xùn)練內(nèi)部實(shí)體時(shí)不需要上下文,因而可以利用外部資源來獲得嵌套實(shí)體語料。
綜上所述,由內(nèi)到外模型的實(shí)體識別F1值最高,且模型訓(xùn)練時(shí)間也短,因此接下來的實(shí)驗(yàn)都是采用該模型。
表5 《人民日報(bào)》語料上各模型的實(shí)體識別性能
3.2.2 由內(nèi)到外模型的各個(gè)實(shí)體類別性能
表6 列出了嵌套實(shí)體識別取得最好性能的由內(nèi)到外模型在各個(gè)實(shí)體類別上的性能(表6的結(jié)果每一列最高性能需要用粗體表示)。從表中可以看出:
(1) 地名、組織名、人名識別的性能與其實(shí)體數(shù)目密切相關(guān),數(shù)目越多,性能越好。地名數(shù)量最多,因此F值最高,人名數(shù)量次之,組織名數(shù)量最少。
(2) 內(nèi)部實(shí)體識別性能顯著低于外部實(shí)體識別性能,F(xiàn)值相差約10%,這主要是由于訓(xùn)練實(shí)例數(shù)量少而引起的。這說明與無嵌套命名實(shí)體識別相比,嵌套命名實(shí)體的識別仍存在困難。
為了進(jìn)行錯(cuò)誤分析,我們隨機(jī)抽出內(nèi)部實(shí)體識別錯(cuò)誤的100個(gè)例子,錯(cuò)誤情況如下:
(1) 大部分(80%)內(nèi)部實(shí)體識別錯(cuò)誤是由于該實(shí)體在語料中出現(xiàn)很少,因而這類實(shí)體較難識別出來。例如,“[[柳林]ns 電廠]ns”識別成了“[柳林電廠]ns”,漏掉了“[柳林]ns”這個(gè)實(shí)體。
(2) 少部分(20%)內(nèi)部實(shí)體由于上下文的誤導(dǎo),導(dǎo)致實(shí)體識別錯(cuò)誤,例如,“[[河北省]ns [張家口地區(qū)]ns ]ns”識別成了“[[河北省]ns [張家口]ns地區(qū)]ns”,這是因?yàn)檎Z料中“地區(qū)”有時(shí)和前面的地名構(gòu)成一個(gè)整體,有時(shí)又獨(dú)立。
表6 《人民日報(bào)》語料上分類型的實(shí)體識別性能
3.2.3 人工語料和自動語料的性能對比
為了說明人工構(gòu)建的嵌套命名實(shí)體語料庫的優(yōu)勢,我們把自動抽取后生成的嵌套命名實(shí)體語料和人工調(diào)整后的語料進(jìn)行嵌套命名實(shí)體識別對比實(shí)驗(yàn)。這實(shí)際上可以看作是一個(gè)語料的兩種標(biāo)注,即自動標(biāo)注和人工標(biāo)注。據(jù)統(tǒng)計(jì),與人工標(biāo)注語料相比,自動標(biāo)注語料的內(nèi)部實(shí)體漏掉了約48%,其中組織名漏掉了90%,人名漏掉了36%,地名漏掉了35%。實(shí)驗(yàn)仍采用十折交叉驗(yàn)證,自動標(biāo)注部分作為訓(xùn)練集,人工標(biāo)注部分作為測試集。表7列出了《人民日報(bào)》語料上各個(gè)實(shí)體類別上的嵌套實(shí)體識別性能。從表中可以看出:
(1) 與表6(人工標(biāo)注語料)相比,表7的外部實(shí)體識別性能F1值略有下降(~2%),而內(nèi)部實(shí)體識別F1值則大幅度下降(~16%)。這主要是因?yàn)樽詣映槿÷┑艉芏鄡?nèi)部實(shí)體(~48%),而外部實(shí)體并沒有減少。
(2) 與表6實(shí)驗(yàn)結(jié)果相比,在表7的內(nèi)部實(shí)體識別性能F1值中,組織名下降最多(~54%),地名次之(~12%),人名最少(~9%)。這主要是因?yàn)椤度嗣袢請?bào)》標(biāo)注的內(nèi)部實(shí)體中的組織名大多數(shù)由多個(gè)詞語組成,所以漏掉了大部分的組織名(~90%),而人名和地名漏掉的相對較少(分別為~36%和35%)。
表7 《人民日報(bào)》自動抽取語料上的實(shí)體識別性能
3.2.4 跨語料測試
為了對比《人民日報(bào)》語料和ACE2005中文語料之間的嵌套實(shí)體識別性能,我們進(jìn)行了跨語料測試。因?yàn)椤度嗣袢請?bào)》實(shí)體數(shù)量是ACE2005中文語料的四倍,為了公平比較兩個(gè)語料的差異,我們?nèi) 度嗣袢請?bào)》語料的四分之一。實(shí)驗(yàn)包含兩個(gè)部分,一是交叉驗(yàn)證,即分別在《人民日報(bào)》語料和ACE2005中文語料上進(jìn)行十折交叉驗(yàn)證;二是跨語料測試,即一個(gè)語料交叉驗(yàn)證時(shí),劃出的九份作為訓(xùn)練集,另一個(gè)語料作為測試集。實(shí)驗(yàn)結(jié)果如表8所示。
表8 跨語料實(shí)體識別性能
從表8可以看出,語料內(nèi)交叉驗(yàn)證性能總體上明顯高于跨語料測試性能,但《人民日報(bào)》和ACE2005兩個(gè)語料的情況不盡相同。
(1) 分析實(shí)驗(yàn)1和實(shí)驗(yàn)3的差異
盡管語料規(guī)模相同,但無論是外部實(shí)體還是內(nèi)部實(shí)體,《人民日報(bào)》的P/R/F1性能普遍高于ACE2005的性能,原因可能有以下幾點(diǎn):
① 兩者領(lǐng)域來源不同,《人民日報(bào)》語料來源于單一的新聞?lì)I(lǐng)域,而ACE2005中文語料來源于廣播、新聞和網(wǎng)絡(luò)日志等。ACE2005文本的多樣性導(dǎo)致性能較低;
② ACE2005中文語料存在約10%縮寫型實(shí)體,如“中科院/nt”、“二汽/nt”和“亞/ns”等,縮寫型實(shí)體訓(xùn)練數(shù)量較少,導(dǎo)致難于識別,而《人民日報(bào)》沒有縮寫型實(shí)體(縮寫都是用“j”標(biāo)注的)。
③ ACE2005中文語料中存在約2%的英文實(shí)體,如“VladimirPutin/nr”“Aceh/ns”“BaFin/nt”和“a/nr 小姐”等。
(2) 分析實(shí)驗(yàn)2和實(shí)驗(yàn)3的差異
實(shí)驗(yàn)2的內(nèi)部實(shí)體F1值(62.96%)略高于外部實(shí)體性能(61.99%)。這是因?yàn)楸M管ACE2005中文語料外部實(shí)體標(biāo)注與《人民日報(bào)》不一致(參見上面分析),但是內(nèi)部實(shí)體(即嵌套實(shí)體)標(biāo)注基本一致,因而實(shí)驗(yàn)2的內(nèi)部實(shí)體性能略低于實(shí)驗(yàn)3的內(nèi)部實(shí)體性能(~2%),甚至略高于實(shí)驗(yàn)2的外部實(shí)體性能。
(3) 分析實(shí)驗(yàn)3和實(shí)驗(yàn)4的差異
ACE2005跨語料外部實(shí)體性能和語料內(nèi)交叉驗(yàn)證性能相似。當(dāng)ACE2005中文語料作為訓(xùn)練集時(shí),所產(chǎn)生模型的交叉驗(yàn)證性能并不高,但由于ACE2005中的新聞?lì)愓Z料(~40%)和《人民日報(bào)》語料相似,所以該模型在《人民日報(bào)》測試集上的性能并沒有明顯降低。
針對中文嵌套命名實(shí)體語料庫不足的問題,本文通過半自動的標(biāo)注方法構(gòu)建了兩個(gè)中文嵌套命名實(shí)體語料庫。這兩個(gè)語料庫各有千秋,在《人民日報(bào)》語料上構(gòu)建的語料庫雖然領(lǐng)域較為單一,但規(guī)模較大,可以用于領(lǐng)域內(nèi)的中文嵌套實(shí)體識別研究;而在ACE2005基礎(chǔ)上構(gòu)建的語料雖規(guī)模較小,但領(lǐng)域來源多樣,適合于跨領(lǐng)域的中文嵌套實(shí)體識別研究。
語料內(nèi)的交叉驗(yàn)證和跨語料的嵌套命名實(shí)體識別實(shí)驗(yàn)結(jié)果表明,中文嵌套實(shí)體識別的性能還偏低,尤其是跨語料識別時(shí)。
今后的工作在于: 一方面如何提高中文嵌套實(shí)體識別的性能;另一方面如何利用目前的資源(如維基百科等)生成規(guī)模更大的中文嵌套語料庫,從而提供更寬泛的領(lǐng)域適應(yīng)性。