小智
新聞的核心內(nèi)容是對(duì)事件的報(bào)道,不過(guò)一篇新聞稿中除了事件之外,還會(huì)充斥著背景、環(huán)境、評(píng)論等各種附加信息(圖1),事件抽取的任務(wù),就是要從這類非結(jié)構(gòu)化的文本中抽取出有用的事件信息。
形式各異的新聞文本雖然是非結(jié)構(gòu)化的,不過(guò)散落于這些文本之中的事件其實(shí)大有規(guī)律可尋。比如一個(gè)事件,它總是會(huì)發(fā)生在某個(gè)時(shí)間、某個(gè)地域,而事件必然涉及到一個(gè)或多個(gè)參與者(角色),它由某個(gè)行動(dòng)觸發(fā),最終引發(fā)事物狀態(tài)的改變等等。
①這條新聞除了時(shí)間、地點(diǎn)、參與者、動(dòng)作過(guò)程等事件要素之外,還包含了背景、預(yù)測(cè)、報(bào)道者資料等其他附加信息
②ACE事件示例(各事件元素以觸發(fā)詞“出生”為核心組織在一起)
每個(gè)領(lǐng)域都會(huì)根據(jù)自己的實(shí)際需要對(duì)事件進(jìn)行定義,在計(jì)算機(jī)信息領(lǐng)域,比較有代表性的是ACE( Automatic Content Extraction,自動(dòng)內(nèi)容抽?。┧龅亩x:事件是涉及參與者的特定事件,是發(fā)生的某些事情,通??梢悦枋鰹闋顟B(tài)的更改。
ACE更進(jìn)一步對(duì)事件的構(gòu)成進(jìn)行了分解,認(rèn)為它是由觸發(fā)詞( Trigger)、類型(Type)、論元(Argument)和論元角色(Argumentrole)等元素構(gòu)成(圖2)。
觸發(fā)詞:一般為動(dòng)詞(或動(dòng)詞化的名詞),是觸發(fā)事件的行動(dòng)。
類型:ACE為事件定義了8種大類型和33種子類型。
論元:事件參與者,主要有實(shí)體、值、時(shí)間、地點(diǎn)等。
角色:論元在事件中所占據(jù)的位置、充當(dāng)?shù)慕巧?p>
③支持向量機(jī)示意圖(H1不能把類別分開;H2可以,但只有很小的間隔;H3以最大間隔將它們分開。SVM的目標(biāo)就是將分類的間隔最大化)
事件抽取大致要經(jīng)過(guò)兩大步驟。
首先從新聞數(shù)據(jù)文本中檢測(cè)出表達(dá)事件的語(yǔ)句,再依據(jù)一定的特征判斷事件的類別。常用的方法是基于觸發(fā)詞進(jìn)行分類,把語(yǔ)句中的每個(gè)詞都當(dāng)作一個(gè)實(shí)例進(jìn)行訓(xùn)練,判斷其是否為觸發(fā)詞。確定觸發(fā)詞之后,再采用最大熵模型(MaximumEntropy Model,MEM)或支持向量機(jī)(Support VectorMachine,SVM)之類的分類器對(duì)事件進(jìn)行分類(圖3)。
觸發(fā)詞確定之后,接下來(lái)就是從眾多的命名實(shí)體(Entity)、時(shí)間表達(dá)式(Time Expression)和屬性值( Value)之中,找出與觸發(fā)詞真正相關(guān)的事件元素,并且加上準(zhǔn)確的角色標(biāo)注(Semantic RoleLabeling,SRL),其中涉及到分詞、句法分析、SRL等多種底層模塊的應(yīng)用。
目前的事件抽取主要有兩大類任務(wù),一個(gè)是元事件抽取,一個(gè)是主題事件抽取。元事件一般由動(dòng)詞驅(qū)動(dòng),表示一個(gè)動(dòng)作發(fā)生或者狀態(tài)變化。多個(gè)元事件聚焦在一個(gè)相關(guān)的主題下,便構(gòu)成了主題事件。
④運(yùn)用神經(jīng)網(wǎng)絡(luò)進(jìn)行事件抽取的DM-CNN結(jié)構(gòu)示意圖
元事件的抽取普遍應(yīng)用模式匹配、機(jī)器學(xué)習(xí)以及基于神經(jīng)網(wǎng)絡(luò)(圖4)的抽取技術(shù)。而主題事件包括核心事件及其他直接相關(guān)的多個(gè)動(dòng)作或狀態(tài),描述的信息相對(duì)較為分散,有時(shí)甚至?xí)稚⒃诙鄠€(gè)文檔中,元事件基于句子層級(jí)的抽取方法對(duì)它顯然不適用,所以主題事件的抽取通?;谑录蚣?,或者基于領(lǐng)域本體來(lái)進(jìn)行。
網(wǎng)絡(luò)時(shí)代信息呈爆炸式增長(zhǎng),依靠人工方式進(jìn)行處理顯然已經(jīng)無(wú)法滿足需要,由此信息抽取技術(shù)應(yīng)運(yùn)而生,而事件抽取作為信息抽取的一個(gè)重要組成部分,也隨之在信息服務(wù)領(lǐng)域得到廣泛應(yīng)用。
以網(wǎng)上的長(zhǎng)篇文章為例,如果等看完一整篇文章才能確定內(nèi)容是不是我們所需要的,未免太浪費(fèi)時(shí)間,這時(shí)提供相應(yīng)的文章摘要就非常有必要。人工摘要是最精準(zhǔn)的,但是人的精力畢竟有限,無(wú)法應(yīng)付海量的文檔。前幾年流行的計(jì)算機(jī)自動(dòng)摘要固然快速,但是摘要內(nèi)容有很多冗余信息,并且也不精確。而現(xiàn)在應(yīng)用事件抽取技術(shù),即可智能地識(shí)別出文本中的事件和非事件,過(guò)濾掉次要信息,精準(zhǔn)、快速地生成人類所感興趣的有用文摘,十分高效。
事件抽取另外一個(gè)與我們息息相關(guān)的應(yīng)用,就是自動(dòng)問(wèn)答服務(wù)。在線網(wǎng)購(gòu)時(shí)難免要和商家的智能客服打交道,以前它們采用的是關(guān)鍵字相關(guān)的技術(shù),答案也是數(shù)據(jù)庫(kù)中的固定內(nèi)容,因此對(duì)我們的提問(wèn)經(jīng)常答非所問(wèn)。事件抽取技術(shù)大大改善了這一局面,它通過(guò)分析用戶提問(wèn)中的核心內(nèi)容,再抽取數(shù)據(jù)庫(kù)中的相關(guān)信息,重新組合成我們剛剛好需要的答案,顯得更為人性化。
當(dāng)然,事件抽取在商業(yè)上的應(yīng)用也非常廣泛,比如本文主要討論的新聞事件的抽取,將它應(yīng)用到商業(yè)領(lǐng)域,就可以讓廠商及時(shí)了解行業(yè)動(dòng)態(tài),或者廠商產(chǎn)品在網(wǎng)絡(luò)上的反響,假設(shè)有負(fù)面影響,還可以及時(shí)危機(jī)公關(guān)以及進(jìn)行事態(tài)跟蹤等。另外事件抽取也可以應(yīng)用于股票、金融等方面的趨勢(shì)分析,掌握輿情,甚至在反詐騙等方面也可以起到很大的作用。