龐 寧 ,楊爾弘
(1. 太原科技大學(xué) 應(yīng)用科學(xué)學(xué)院, 山西 太原 030024; 2. 北京語(yǔ)言大學(xué) 國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心平面媒體語(yǔ)言分中心,北京 100083)
突發(fā)事件是媒體關(guān)注的焦點(diǎn)。每一個(gè)突發(fā)事件產(chǎn)生后,都有大量的相關(guān)報(bào)道同時(shí)涌現(xiàn)出來(lái)。突發(fā)事件的應(yīng)對(duì)是一個(gè)系統(tǒng)工程,其中一個(gè)重要環(huán)節(jié)就是信息的收集、整理、加工和發(fā)布。及時(shí)、客觀、準(zhǔn)確地收集信息,快速、高效地提取有用信息,為分析形勢(shì)、制定策略提供翔實(shí)可靠的參考數(shù)據(jù),已經(jīng)成為提高突發(fā)事件應(yīng)對(duì)能力的一個(gè)重要方面,也是衡量突發(fā)事件應(yīng)對(duì)能力的一個(gè)重要指標(biāo)。
共指消解的研究目的是在一篇文本中,找到指示同一實(shí)體的名詞、代詞、名詞短語(yǔ),并形成若干個(gè)指代鏈。共指消解的研究課題越來(lái)越受到廣泛關(guān)注[1],研究策略主要是在大規(guī)模語(yǔ)料庫(kù)的支持下開(kāi)展的,近年來(lái)利用語(yǔ)義特征進(jìn)行共指消解成為研究熱點(diǎn),例如,國(guó)外Ng[2]研究小組在前人的研究基礎(chǔ)上,提出一種自動(dòng)獲取語(yǔ)義類(lèi)的方法,引入ACE的語(yǔ)義分類(lèi)標(biāo)準(zhǔn),將名詞的語(yǔ)義類(lèi)特征代入指代消解模型中,在ACE測(cè)試語(yǔ)料上的實(shí)驗(yàn)結(jié)果表明,F(xiàn)值提高2個(gè)百分點(diǎn)。Yang[3]在預(yù)先定義的語(yǔ)義模式的基礎(chǔ)上,提出一種自動(dòng)發(fā)現(xiàn)和評(píng)估模式的方法,并從語(yǔ)義模式中挖掘出語(yǔ)義相關(guān)信息,再將獲得的信息應(yīng)用于指代消解,通過(guò)試驗(yàn)證明語(yǔ)義相關(guān)信息是消解的一個(gè)重要因素,實(shí)驗(yàn)表明模式信息有助于指代消解。國(guó)內(nèi)蘇州大學(xué)的王海東,孔芳等[4]通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)將語(yǔ)義角色特征和指代鏈特征以及代詞細(xì)化特征的結(jié)合,能夠顯著提高系統(tǒng)的性能, 特別是對(duì)代詞的消解有很好的效果。
突發(fā)事件語(yǔ)料與普通文本語(yǔ)料相比,具有以下幾個(gè)特點(diǎn)。
1) 命名實(shí)體的突顯性。在突發(fā)事件的語(yǔ)料中,圍繞事件本身的相關(guān)的人物、組織結(jié)構(gòu)、發(fā)生地點(diǎn)、發(fā)生時(shí)間等命名實(shí)體集中地突顯出來(lái),例如,馬德里爆炸案中,“西班牙 ns”、“ 阿斯納爾 nh”、“ 巴斯克民族分裂組織 ni”、“ 上午7時(shí)45分 nt”,命名實(shí)體在詞語(yǔ)中的比例高達(dá)38.24%,由于突發(fā)事件是同事件的多文本,這些命名實(shí)體出現(xiàn)在文本中的重復(fù)率很高,所以準(zhǔn)確識(shí)別和標(biāo)注命名實(shí)體是良好地消解共指現(xiàn)象的基礎(chǔ)。
2) 未登錄詞的集中性。由于突發(fā)事件新聞報(bào)道通常是集中描述某一突發(fā)事件的發(fā)生和發(fā)展,大量與事件特征相關(guān)的描述性詞語(yǔ)頻繁出現(xiàn),而這些詞語(yǔ)通常在分詞中均為未登錄詞,例如,在馬德里爆炸案中,“國(guó)際社會(huì)”、“恐怖襲擊事件”、“連環(huán)爆炸事件制造者”等,這些詞語(yǔ)往往涵蓋了事件的重要信息,由于反復(fù)出現(xiàn)的幾率很大,所以常被指代,因此這部分未登錄詞的標(biāo)注對(duì)共指消解是很關(guān)鍵的。
3) 標(biāo)注語(yǔ)料的事件性,將事件信息作為標(biāo)注的語(yǔ)言單位,突發(fā)事件報(bào)道以新聞六要素為關(guān)注點(diǎn),所以,本文標(biāo)注語(yǔ)料時(shí),將事件的這些要素,包括事件發(fā)生的時(shí)間、地點(diǎn)、人物、內(nèi)容、起因、結(jié)果等等作為事件信息重點(diǎn)標(biāo)注出來(lái),突發(fā)事件中事件的數(shù)量約為句子數(shù)量的2.3倍(突發(fā)事件信息的標(biāo)注研究),說(shuō)明一個(gè)句子中不是單一的一個(gè)事件,而是多事件,因此標(biāo)注語(yǔ)料是以事件為單元。
本文所用語(yǔ)料均來(lái)自新華網(wǎng),中新網(wǎng),東方網(wǎng),人民日?qǐng)?bào)網(wǎng)等新聞網(wǎng)站。在標(biāo)注語(yǔ)料時(shí),參考 HTML 超文本標(biāo)記語(yǔ)言格式方法,采用多組標(biāo)簽對(duì)有利于計(jì)算機(jī)自動(dòng)識(shí)別和人工處理。例如,分別表示實(shí)體編號(hào),實(shí)體字?jǐn)?shù)長(zhǎng)度,實(shí)體的類(lèi)型;表示實(shí)體的中心詞。
在突發(fā)事件新聞報(bào)道中,存在很多的共指現(xiàn)象,通過(guò)對(duì)同事件多文本的突發(fā)事件報(bào)道的分析,我們觀察到如下共指特點(diǎn)[5]。
1) 人稱代詞的指代現(xiàn)象
a. 指示語(yǔ)指稱的是一個(gè)人名實(shí)體,且指示語(yǔ)的候選先行語(yǔ)唯一,雖然有的距離跨越非常大,但是在先行語(yǔ)與指示語(yǔ)之間再?zèng)]有其他人名實(shí)體出現(xiàn);
b. 指示語(yǔ)指稱一個(gè)名詞短語(yǔ),這類(lèi)指代消解需要先進(jìn)行名詞的短語(yǔ)捆綁,表示復(fù)數(shù)概念的還需要并合連詞兩側(cè)的同類(lèi)名詞短語(yǔ);
c. 指示語(yǔ)指稱組織/人名的概率較大,由于突發(fā)事件新聞報(bào)道的突發(fā)性、集中性,大量文本的指代相對(duì)集中某些特定類(lèi)別的實(shí)體,例如,在“馬德里爆炸案”事件中,指示“組織”的指示語(yǔ)占32.9%,指代“人名”的占 45.4%。
2) 指示代詞的指稱現(xiàn)象
超聲輔助酸堿改性活性炭纖維對(duì)DBT脫硫性能的研究……………………………………………………………(1):7
指示代詞指稱的是一個(gè)事件或命名實(shí)體,這類(lèi)指代占到了共指現(xiàn)象的62.07%。
針對(duì)突發(fā)事件新聞的共指消解任務(wù),我們利用最大熵模型搭建了一個(gè)原型系統(tǒng)。所采取的解決策略是: 首先對(duì)語(yǔ)料庫(kù)進(jìn)行預(yù)處理,包括句子邊界識(shí)別、分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、名詞短語(yǔ)識(shí)別、名詞短語(yǔ)中心詞獲取等。從訓(xùn)練集中獲取到用于共指消解的正例和反例,再用GIS算法對(duì)最大熵模型進(jìn)行訓(xùn)練,利用訓(xùn)練好的模型計(jì)算各待消解對(duì)的共指概率并用歸并策略得到共指鏈[6]。針對(duì)漢語(yǔ)自身特點(diǎn)以及消解任務(wù)的需求將特征分為4大類(lèi),共8個(gè)特征[6]。4大類(lèi)特征分別是詞匯特征、語(yǔ)法特征、語(yǔ)義特征、距離特征、每種特征的具體特征分類(lèi)以及該特征值的取值方法見(jiàn)表1。
表1 特征選取說(shuō)明表
目前,可用于自然語(yǔ)言處理研究中的語(yǔ)義信息基本可以歸納為3類(lèi),語(yǔ)義類(lèi)別,語(yǔ)義角色,語(yǔ)義相似度[7]。語(yǔ)義類(lèi)別通常是指詞本身所屬的類(lèi)別,通常這類(lèi)信息可以用于初步過(guò)濾非指代的現(xiàn)象,而語(yǔ)義角色是指各種名詞短語(yǔ)對(duì)應(yīng)于句中動(dòng)詞所承擔(dān)的句法成分,語(yǔ)義相似度表示兩個(gè)名詞短語(yǔ)可以替換的程度,相似度越大的名詞短語(yǔ)就有可能相互指代。但是,能夠用于代詞消解,尤其是中性代詞,例如,它、它們、其、等這類(lèi)代詞的消解僅用上述語(yǔ)義信息是不能完全消解的,因此我們嘗試在消解系統(tǒng)中加入了上下文特征等其他特征,幫助提高消解效率。
本系統(tǒng)的語(yǔ)義特征共分為3大類(lèi),分別為基于詞典的語(yǔ)義類(lèi)別特征、基于句法的語(yǔ)義角色特征和基于維基百科的語(yǔ)義特征。
1) 基于詞典的語(yǔ)義特征
在原型系統(tǒng)中,我們采用了直接在HowNet上判斷各待消解項(xiàng)的語(yǔ)義類(lèi)別的方法,對(duì)多義詞沒(méi)有進(jìn)行排異,同時(shí)由于方法過(guò)于簡(jiǎn)單帶來(lái)較大噪音,因此,為了提高各待消解項(xiàng)的語(yǔ)義類(lèi)別的識(shí)別,我們將語(yǔ)義類(lèi)別細(xì)化,并采用了基于機(jī)器學(xué)習(xí)與基于字典相結(jié)合的方法。首先是對(duì)語(yǔ)料中命名實(shí)體的語(yǔ)義類(lèi)別的獲取,本文命名實(shí)體的類(lèi)別是基于HMM的命名實(shí)體識(shí)別,根據(jù) MUC會(huì)議的定義,命名實(shí)體有人名(person)、地名(location)、機(jī)構(gòu)名(organization)、日期(date)、時(shí)間(time)、百分?jǐn)?shù)(percentage)、貨幣(monetary value)這7類(lèi)。本文中命名實(shí)體的語(yǔ)義類(lèi)別就是指這個(gè)實(shí)體的類(lèi)別。其次,對(duì)于命名實(shí)體識(shí)別程序沒(méi)有識(shí)別出來(lái)的名詞短語(yǔ),我們獲得它的中心詞,然后在HowNet中查找其語(yǔ)義類(lèi)別信息。表2是本文關(guān)于語(yǔ)義類(lèi)別信息抽取的8種特征。
表2 語(yǔ)義類(lèi)別特征
2) 語(yǔ)義角色特征
語(yǔ)義角色標(biāo)注是淺層語(yǔ)義分析的應(yīng)用之一。語(yǔ)義角色是句子中的名詞短語(yǔ)在相應(yīng)動(dòng)詞驅(qū)動(dòng)下所承擔(dān)的句法成分。核心的語(yǔ)義角色為Arg0—5六種,Arg0通常表示動(dòng)作的施事,Arg1通常表示動(dòng)作的影響等。其余的語(yǔ)義角色為附加語(yǔ)義角色。依據(jù)中心理論,在一個(gè)句子中,主語(yǔ)最可能被指代,其次是賓語(yǔ),最后是其他的一些名詞短語(yǔ)。如果先行語(yǔ)是句子的中心,比如作為主語(yǔ)或賓語(yǔ),那么它很可能被指代。將語(yǔ)義角色和代詞特征結(jié)合,可以識(shí)別并排除一些不需要消解的固定搭配中的代詞。具體語(yǔ)義角色特征見(jiàn)表3。
目前維基百科被廣泛應(yīng)用在自然語(yǔ)言處理的各個(gè)領(lǐng)域中,維基百科頁(yè)面之間具有非常密集的站內(nèi)鏈接和便于機(jī)器訪問(wèn)的結(jié)構(gòu)化信息,利用其解釋頁(yè)面間超級(jí)鏈接之間的關(guān)系,可挖掘出語(yǔ)料中的更為深刻的語(yǔ)義關(guān)系。維基百科中一個(gè)解釋頁(yè)面對(duì)應(yīng)一個(gè)主題概念,解釋頁(yè)面有簡(jiǎn)潔的標(biāo)題,通常對(duì)應(yīng)目標(biāo)概念的標(biāo)準(zhǔn)名稱,解釋頁(yè)面開(kāi)頭的幾個(gè)段落,特別是第一個(gè)句子是對(duì)主題關(guān)鍵詞概念的定義和基本描述。
表3 語(yǔ)義角色特征
后續(xù)段落分別圍繞主題從各個(gè)角度展開(kāi)具體闡述。
(1) 語(yǔ)義相關(guān)性特征。本文利用解釋頁(yè)面中的鏈接文字相互引用關(guān)系抽取語(yǔ)義相關(guān)詞,假設(shè),若A的基本解釋或相關(guān)內(nèi)容中利用超級(jí)鏈接引用了關(guān)鍵詞B,而B(niǎo)頁(yè)面也包含了指向A的超級(jí)鏈接,那么A和B就可以被認(rèn)為是具有語(yǔ)義依賴關(guān)系的相關(guān)詞。根據(jù)超級(jí)鏈接所處的位置,A與B的語(yǔ)義依賴關(guān)系也不同,故設(shè)計(jì)的特征也不同,如從與主題語(yǔ)義相關(guān)性的角度考慮,位于頁(yè)面第一部分的基本描述段落最重要也最緊密,故設(shè)計(jì)了I/J_BASIC_CONTAINS特征,I/J_PARTIALBASIC_CONTAINS特征反映的語(yǔ)義相關(guān)性則次之,因?yàn)榭疾祉?xiàng)可以出現(xiàn)的位置范圍從基本描述段落擴(kuò)大至整個(gè)頁(yè)面,而假設(shè)一對(duì)候選共指對(duì)(i,j),具體特征如表4所示。
(2) 重定向特征。維基百科通過(guò)重定向頁(yè)面技術(shù)將同一概念的不同表達(dá)方式(簡(jiǎn)稱、別名和非正規(guī)名稱等)鏈接到其主題概念的解釋頁(yè)面。具體方法是,在解釋頁(yè)面中尋找到“重定向自”標(biāo)記,后面就是該實(shí)體的另一表述文字。另外在解釋頁(yè)面文檔的首段文本中有許多黑體標(biāo)注的詞,這些詞同樣也是同一實(shí)體的其他表達(dá)形式。突發(fā)事件新聞報(bào)道中存在大量專有名詞無(wú)法被常規(guī)規(guī)則識(shí)別,其別名或簡(jiǎn)稱更沒(méi)有專門(mén)的詞典或數(shù)據(jù)庫(kù)可以借鑒, 極大地影響了基于突發(fā)事件共指消解的效率,因此,借助維基百科的重定向技術(shù)可以很好地解決上述問(wèn)題。
表4 語(yǔ)義相關(guān)性特征
I/J _redirection: 如果i(或 j)是維基百科的某個(gè)詞條,而j(或i)是i(或 j)的重定向頁(yè)面上的詞條,則返回1 ,否則返回0。
(3) 上下文特征。由于代詞本身缺乏明顯語(yǔ)義,故本文特別設(shè)計(jì)了I_CONTEXT、J_CONTEXT兩個(gè)特征,分別計(jì)算出I、J的背景知識(shí)與上下文[8]之間的相似度,本文采用了一種基于維基百科的文本距離法來(lái)計(jì)算背景知識(shí)和上下文的相似度,首先分別定位詞對(duì)(ca,cb)到相關(guān)的維基百科的解釋頁(yè)面,抽取各自的解釋文本的基本段落(pa,pb),在解釋文本中統(tǒng)計(jì)共同出現(xiàn)的詞串。如果找到n個(gè)詞串分別包含mn個(gè)詞,則詞對(duì)(ca,cb)的相似度如式(1)所示。
(1)
具體特征見(jiàn)表5。
表5 上下文特征
本實(shí)驗(yàn)共標(biāo)注了25萬(wàn)字突發(fā)事件新聞?wù)Z料用于訓(xùn)練和測(cè)試,其中選取了5萬(wàn)字語(yǔ)料用于測(cè)試,本文采用MUC對(duì)指代消解結(jié)果技術(shù)評(píng)估的三個(gè)指標(biāo),召回率 R(Recall)、準(zhǔn)確率 P(Precision)和 F 值。其中: 召回率 R 是指代消解結(jié)果中正確消解的對(duì)象數(shù)目占消解系統(tǒng)應(yīng)消解對(duì)象總數(shù)的百分比,它反映的是指代消解系統(tǒng)的完備性;準(zhǔn)確率 P 是指代消解結(jié)果中正確消解的對(duì)象數(shù)目占實(shí)際消解的對(duì)象數(shù)目的百分比,它反映的是指代消解系統(tǒng)的準(zhǔn)確程度。比較兩個(gè)不同系統(tǒng)的性能時(shí),一般使用 F 值,F(xiàn) 值是召回率和準(zhǔn)確率的調(diào)和平均數(shù),定義如式(2)所示。
本文在原型系統(tǒng)和多種語(yǔ)義特征下的測(cè)試結(jié)果對(duì)比詳見(jiàn)表6。
語(yǔ)義類(lèi)別特征是在原型系統(tǒng)的語(yǔ)義一致性的基礎(chǔ)上,增加了專用名詞類(lèi)的判定,例如,人名、組織名、地名和事件,這些實(shí)體恰恰是突發(fā)事件中經(jīng)常出現(xiàn)的。因此召回率增加了1.12%,準(zhǔn)確率增加了2.44%。
在原型系統(tǒng)的基礎(chǔ)上單純加入語(yǔ)義角色特征,各指標(biāo)均有所下降,F(xiàn)值下降了1.31%。原因是語(yǔ)義角色特征有強(qiáng)化句子中心的作用,而代詞往往是作為句子的中心,所以單純加入角色信息會(huì)有一定的干擾作用。因此將語(yǔ)義角色與代詞特征相結(jié)合,能突顯代詞的語(yǔ)法角色,有助于提高系統(tǒng)性能。
原型系統(tǒng)加入語(yǔ)義相關(guān)性特征,之前沒(méi)有被正確識(shí)別的待消解項(xiàng)由于在維基百科頁(yè)面上同現(xiàn)而被正確識(shí)別,但同時(shí)也帶來(lái)了的噪聲。因此召回率升高的同時(shí),準(zhǔn)確率也會(huì)降低。
在維基百科網(wǎng)頁(yè)中,重定向頁(yè)面不包含具體的解釋內(nèi)容,僅通過(guò)重定向鏈接指向與當(dāng)前頁(yè)面標(biāo)題指向同一概念但包含解釋內(nèi)容的主頁(yè)面,因此,重定向特征有助于互為別稱,簡(jiǎn)稱等待消解項(xiàng)的識(shí)別,該特征對(duì)系統(tǒng)的各指標(biāo)都有所改善,F(xiàn)值提高了0.22%。
表6 原型系統(tǒng)和改進(jìn)系統(tǒng)的測(cè)試結(jié)果
代詞是所有待消解項(xiàng)中最缺乏語(yǔ)義信息的一類(lèi)詞,而上下文特征正是針對(duì)詞前后內(nèi)容提出的,不需要考慮詞本身,因此該特征會(huì)提高系統(tǒng)的精確率。
另外,本文對(duì)維基百科的各語(yǔ)義特征對(duì)原型系統(tǒng)的影響分別做了測(cè)試,測(cè)試結(jié)果見(jiàn)表7。
表7 各維基百科語(yǔ)義特征對(duì)原型系統(tǒng)的影響測(cè)試結(jié)果表
分析表7中的結(jié)果,發(fā)現(xiàn)語(yǔ)義相關(guān)性中的I/J_PARTIALBASIC_CONTAINS特征F值降低了0.1%,分析原因,我們認(rèn)為該特征是在整個(gè)網(wǎng)頁(yè)中尋找語(yǔ)義相關(guān)詞,會(huì)帶來(lái)大量噪音,因此雖然召回率提高,但準(zhǔn)確率下降了7.36%。
而上下文特征中的I_CONTEXT。該特征取先行詞I周?chē)脑~與指代詞J在維基百科中計(jì)算相似度。分析語(yǔ)料發(fā)現(xiàn)指代詞J極有可能是代詞,缺少對(duì)應(yīng)的維基百科的背景知識(shí)頁(yè)面,同時(shí)一般在句首的先行詞無(wú)法提取該詞的上文,所以相應(yīng)的計(jì)算結(jié)果不理想。
從上述實(shí)驗(yàn)結(jié)果分析,各語(yǔ)義信息特征對(duì)消解效果均有貢獻(xiàn),其中維基百科特征中I/J _BASIC_CONTAINS特征的貢獻(xiàn)最大,而同樣在代詞細(xì)化下的語(yǔ)義角色特征也使消解性能得以改善,但是也有各別特征對(duì)系統(tǒng)起到了負(fù)作用,例如,單純語(yǔ)義角色、I_CONTEXT、I/J_PARTIALBASIC_CONTAINS特征。這說(shuō)明對(duì)維基百科的背景知識(shí)的結(jié)構(gòu)信息還有待進(jìn)一步研究,例如,重定向和消歧頁(yè)面是維基百科語(yǔ)義挖掘需要重點(diǎn)關(guān)注的資源。實(shí)驗(yàn)表明,挖掘維基百科的深層語(yǔ)義信息將是共指消解研究的一個(gè)有意義的研究方向。
[1] 張牧宇. 基于中心語(yǔ)匹配的共指消解[J].中文信息學(xué)報(bào),2011,25(3):3-8.
[2] Vincent Ng.Shallow Semantics For Coreference Resolution[A].IJCAI,2007: 1689-1694.
[3] Xiaofeng Yang,Jian Su. Coreference Resolution Using Semantic Relatedness Information from Automatically Discovered Patterns[C]//Proceedings of ACL, 2007:528-535.
[4] 王海東,胡乃全,孔芳,等.指代消解中語(yǔ)義角色特征的研究[J].中文信息學(xué)報(bào),2009,23(1):23-29.
[5] 楊爾弘.突發(fā)事件信息提取研究[D]. 北京語(yǔ)言大學(xué)博士學(xué)位論文, 2005.
[6] 龐寧,楊爾弘.基于最大熵模型的共指消解研究[J].中文信息學(xué)報(bào),2008,22(2):24-27.
[7] 李艷翠.語(yǔ)義信息在指代消解中的應(yīng)用研究[D],蘇州大學(xué)碩士學(xué)位論文,2008.
[8] 郎君,等.集成多種背景語(yǔ)義知識(shí)的共指消解[J],中文信息學(xué)報(bào),2009,23(3):3-9.