代 翔
(中國(guó)電子科技集團(tuán)公司第十研究所 成都 610036)
事件是重要的信息表現(xiàn)形式,具有典型的類(lèi)型及模式特征。事件模式體現(xiàn)事件的結(jié)構(gòu)化特征,由事件的角色及其關(guān)系構(gòu)成。不同類(lèi)型事件在模式特征上有各自的個(gè)性特征。事件檢測(cè)任務(wù)識(shí)別事件及其類(lèi)型,主流研究均基于觸發(fā)詞特征完成檢測(cè)。方法需專業(yè)人員對(duì)訓(xùn)練語(yǔ)料標(biāo)注觸發(fā)詞,標(biāo)注成本高且部分領(lǐng)域難以形成有效的標(biāo)注標(biāo)準(zhǔn)。
為解決上述問(wèn)題,本文提出面向事件模式及類(lèi)型特征的事件檢測(cè)深度學(xué)習(xí)模型(pattern and type bias neural network, PTNN)。模 型 不檢測(cè)觸發(fā)詞,通 過(guò)實(shí)體的語(yǔ)法、語(yǔ)義特征獲取潛在論元,判斷其對(duì)應(yīng)角色進(jìn)行抽象表示,凸顯事件模式信息;融合潛在論元的語(yǔ)法、語(yǔ)義及角色特征構(gòu)建嵌入表示,利用深度學(xué)習(xí)模型學(xué)習(xí)事件模式特征及文本語(yǔ)義,并結(jié)合事件類(lèi)型注意力機(jī)制實(shí)現(xiàn)事件檢測(cè)。
主要工作如下:
1)以實(shí)體類(lèi)型、依存關(guān)系、詞性定義論元特征約束,基于論元特征約束抽取潛在論元;
2)以角色抽象潛在論元并進(jìn)行表示替換,結(jié)合語(yǔ)法、語(yǔ)義、角色特征構(gòu)建詞嵌入表示,凸顯輸入的事件模式信息;
3)使用雙向長(zhǎng)短時(shí)網(wǎng)絡(luò)(Bi-long short-term memory, Bi-LSTM)及類(lèi)型注意力機(jī)制構(gòu)建深度學(xué)習(xí)模型,根據(jù)輸入的詞、句級(jí)特征,學(xué)習(xí)事件模式及特征類(lèi)型,實(shí)現(xiàn)事件檢測(cè)。
事件檢測(cè)的主流方法為面向觸發(fā)詞的檢測(cè),包括基于特征的方法和基于表示的方法?;谔卣鞯姆椒ㄒ杂|發(fā)詞統(tǒng)計(jì)特性為依據(jù),定義特征建模觸發(fā)詞。常用特征包括詞法、句法特征、篇章信息及外部知識(shí)等[1-8]。特征構(gòu)建耗時(shí)耗力,效果一般且不穩(wěn)定?;诒硎镜姆椒槟壳爸髁鞣椒ǎ淅脴?biāo)注觸發(fā)詞的訓(xùn)練語(yǔ)料,學(xué)習(xí)輸入的高維特征實(shí)現(xiàn)觸發(fā)詞識(shí)別[9-14]。雖避免了人工構(gòu)建特征,但語(yǔ)料需專業(yè)人員標(biāo)注,具有觸發(fā)詞標(biāo)準(zhǔn)難以制定、標(biāo)注成本高等問(wèn)題,且同一詞語(yǔ)可觸發(fā)多類(lèi)事件的問(wèn)題未很好解決。
而事件論元、模式等特征同樣體現(xiàn)事件本質(zhì),因此許多研究從這些特征入手。部分研究從事件實(shí)例出發(fā),利用同類(lèi)事件在實(shí)體組成、語(yǔ)句結(jié)構(gòu)上的相似性進(jìn)行事件檢測(cè)。文獻(xiàn)[15]基于相同事件擁有相似實(shí)體的假設(shè),根據(jù)實(shí)體元素對(duì)文本聚類(lèi),得到若干事件簇實(shí)現(xiàn)面向開(kāi)放域的事件檢測(cè)。方法避免了觸發(fā)詞標(biāo)注,但無(wú)法給出事件簇對(duì)應(yīng)的具體類(lèi)型,得到的結(jié)果是若干關(guān)鍵詞,無(wú)法用于后續(xù)任務(wù)。文獻(xiàn)[16]以實(shí)體和其類(lèi)型構(gòu)建“槽值對(duì)”,基于同類(lèi)事件具有相似“槽值對(duì)”集的假設(shè)分析事件類(lèi)型與槽值對(duì)的關(guān)聯(lián)。方法一定程度上實(shí)現(xiàn)了類(lèi)型判定,但“槽值對(duì)”不能全面體現(xiàn)事件框架特征,對(duì)部分事件區(qū)分度較低。部分研究根據(jù)不同類(lèi)型事件在實(shí)體、模式上的差別,預(yù)先定義事件表示框架實(shí)現(xiàn)事件檢測(cè)。文獻(xiàn)[17]結(jié)合事件的5W1H分析法,定義7 種突發(fā)事件類(lèi)型的事件框架,抽取突發(fā)事件用于公共安全預(yù)警;相似研究在科技、金融等領(lǐng)域也取得了一定成果[18-19]。該類(lèi)方法結(jié)合遠(yuǎn)程監(jiān)督可自動(dòng)生成標(biāo)注數(shù)據(jù),解決了語(yǔ)料標(biāo)注困難的問(wèn)題。但事件框架表示結(jié)構(gòu)復(fù)雜,嚴(yán)重依賴專家知識(shí),且不同領(lǐng)域和任務(wù)需要不同的表示框架,重復(fù)定義工作量大。文獻(xiàn)[20]提出了基于實(shí)體的TBNNAM 模型。其以實(shí)體為原始特征構(gòu)建輸入,使用LSTM 與基于類(lèi)型的注意力完成事件識(shí)別。但該方法僅利用了實(shí)體信息,沒(méi)有考慮事件模式特征,且只利用了單向語(yǔ)義信息。文獻(xiàn)[21]結(jié)合Bi-LSTM 與基于類(lèi)型的多層多頭注意力,基于詞向量生成長(zhǎng)文本的向量表示,識(shí)別電影劇本是否包含指定類(lèi)型事件。但其關(guān)注目標(biāo)為文檔級(jí)事件,弱化了細(xì)粒度事件的識(shí)別和判定。
本文提出一種基于事件模式及類(lèi)型的事件檢測(cè)模型PTNN。模型基于非觸發(fā)詞特征檢測(cè)事件,通過(guò)學(xué)習(xí)句中實(shí)體的語(yǔ)義、語(yǔ)法及角色信息,獲取隱含的事件語(yǔ)義、結(jié)構(gòu)特征,利用基于類(lèi)型的注意力機(jī)制強(qiáng)化對(duì)事件類(lèi)型和模式的學(xué)習(xí)。
模型分為潛在論元獲取、角色抽象及詞替換、深度學(xué)習(xí)檢測(cè)3 部分。潛在論元獲取從實(shí)體類(lèi)型、依存關(guān)系、詞性3 個(gè)角度構(gòu)建論元特征約束,獲取潛在論元。角色抽象及詞替換將具體的潛在論元抽象為角色進(jìn)行表示替換,增強(qiáng)輸入對(duì)事件模式的表示。深度學(xué)習(xí)檢測(cè)融合各特征構(gòu)建嵌入表示,使用Bi-LSTM 與基于類(lèi)型的注意力從詞、句兩維度提取事件的類(lèi)型、模式特征。模型原理如圖1 所示。
圖1 PTNN 模型
獲取句S={w1,w2,···,wk}中實(shí)體的語(yǔ)法、語(yǔ)義特征,包括實(shí)體類(lèi)型序列E、依存關(guān)系集D、詞性序列P。根據(jù)論元特征約束獲取潛在論元集A:
根據(jù)潛在論元的語(yǔ)法、語(yǔ)義特征,將其抽象為不同角色R并進(jìn)行表示替換,增強(qiáng)輸入對(duì)事件模式的表示,得到處理過(guò)的序列:
以Xw表 示詞向量、Xp表示詞性向量、Xe表示實(shí)體類(lèi)型向量,綜合潛在論元各特征構(gòu)建S′的向量序列XS′,與待判斷事件類(lèi)型T組成輸入對(duì):
XS′為Bi-LSTM 各時(shí)間步輸入,T用于從模型參數(shù)中獲取對(duì)應(yīng)詞、句級(jí)事件類(lèi)型向量Tloc、Tglo。結(jié)合Bi-LSTM 的隱層信息與事件類(lèi)型向量,獲取詞級(jí)特征Xloc與 句級(jí)特征Xglo,綜合兩種特征實(shí)現(xiàn)事件檢測(cè)及類(lèi)型判別。
事件論元包含事件角色和部分屬性,體現(xiàn)了事件模式并隱含部分類(lèi)型信息。時(shí)間、地點(diǎn)、參與者是最具代表性的論元。其中時(shí)間、地點(diǎn)在模式上不體現(xiàn)事件類(lèi)型信息,參與者則隨事件類(lèi)型的不同有著不同的實(shí)體類(lèi)型,如判決事件的參考者有被告、法官,比賽事件的參與者有裁判、運(yùn)動(dòng)隊(duì)。以句“ S1: Police arrested four suspects in Shenyang yesterday.”為例,police 和suspects 是參與者論元,Shenyang 和yesterday 分別為地點(diǎn)和時(shí)間論元。
事件論元基于事件存在。面向一般文本句時(shí)無(wú)法確定事件存在,故提出潛在論元概念,根據(jù)詞的語(yǔ)法、語(yǔ)義特征約束抽取潛在論元,幫助事件檢測(cè)。
2.1.1 潛在論元
定義1 潛在論元文本句S={w1,w2,···,wk}中具有時(shí)間、地點(diǎn)及參與者角色屬性的實(shí)體為S的潛在論元,表示為SA。
若實(shí)體wi在語(yǔ)義、語(yǔ)法特征上滿足論元特征約束,則wi∈SA語(yǔ)義特征包括實(shí)體類(lèi)型及詞性,語(yǔ)法特征為詞在句中對(duì)應(yīng)的依存關(guān)系,具體約束如下。
1)實(shí)體類(lèi)型約束δe
三類(lèi)論元中,時(shí)間、地點(diǎn)的實(shí)體類(lèi)型固定,分別以TIM 和LOC 表示,參與者的實(shí)體類(lèi)型與事件類(lèi)型相關(guān),表1 為ACE2005 數(shù)據(jù)集定義的部分類(lèi)型。
表1 不同類(lèi)事件的參與者對(duì)應(yīng)的實(shí)體類(lèi)型
以T={t1,t2,···,tn}表示指定的事件類(lèi)型,對(duì)于ti類(lèi) 事件,其參與者對(duì)應(yīng)的實(shí)體類(lèi)型集為Eti={eti1,eti2,···,etim},潛在論元應(yīng)滿足的實(shí)體類(lèi)型約束δe為:
常見(jiàn)實(shí)體類(lèi)型包括人名PER、國(guó)家NAT、機(jī)構(gòu)ORG 等。面向具體領(lǐng)域或特定事件類(lèi)型時(shí),潛在論元對(duì)應(yīng)的實(shí)體類(lèi)型對(duì)應(yīng)增減。
2)依存關(guān)系約束δd
考慮句子“Tom’s girlfriend Lisa bought a new car.”,Tom 符合“購(gòu)買(mǎi)”事件的實(shí)體類(lèi)型約束,但其沒(méi)有和事件動(dòng)作發(fā)生關(guān)聯(lián),不符合論元的語(yǔ)法特征。
事件的本質(zhì)是動(dòng)作發(fā)生或狀態(tài)改變,論元與謂詞、論元與論元間存在事實(shí)關(guān)聯(lián),并通過(guò)詞的依存體現(xiàn)。依存關(guān)系常表示為三元組{wi,wj,rk},wi,wj∈S,rk為依存關(guān)系類(lèi)型,關(guān)系由wi指 向wj,wi為頭實(shí)體,wj為尾實(shí)體。
參與者為事件主客體或運(yùn)用的工具、物品等。主客體直接發(fā)出或承受具體行為,依存關(guān)系中存在表主謂、動(dòng)賓關(guān)系的依存??;工具、物品等通過(guò)主客體與動(dòng)作關(guān)聯(lián),代表主客體的狀態(tài),通過(guò)狀語(yǔ)類(lèi)或動(dòng)賓關(guān)系體現(xiàn);時(shí)間、地點(diǎn)以狀語(yǔ)類(lèi)關(guān)系體現(xiàn)。故潛在論元依存句法約束 δd為:
3)詞性約束δp
參與者體現(xiàn)為事件主客體或運(yùn)用的工具、物品等,詞性為名詞或代詞;時(shí)間為數(shù)字或特定詞語(yǔ)如“today、month”,詞性為數(shù)詞或名詞;地點(diǎn)表現(xiàn)為名詞。潛在論元的詞性約束 δp為:
2.1.2 抽取算法
圖2 S 1語(yǔ)義語(yǔ)法分析
S1的實(shí)體類(lèi)型序列E為:
根據(jù)實(shí)體類(lèi)型約束 δA,選出滿足條件的實(shí)體:
以Stanford NLP 工具提取依存關(guān)系,根據(jù)依存關(guān)系約束 δd得滿足條件的三元組有:
nsubj 為名詞主語(yǔ),屬主謂類(lèi)依存;obj 為動(dòng)詞賓語(yǔ),屬賓語(yǔ)類(lèi)依存;obl 表名詞充當(dāng)附屬物,屬狀語(yǔ)類(lèi)依存;obl:tmod 則在前者基礎(chǔ)上進(jìn)一步指定為時(shí)間修飾語(yǔ)。定位對(duì)應(yīng)尾實(shí)體得到滿足依存約束的實(shí)體集:
對(duì)兩實(shí)體集取交集并以詞性進(jìn)行過(guò)濾,得到潛在論元集SA:
潛在論元通過(guò)其存在和角色體現(xiàn)事件模式,但其具體值體現(xiàn)的是具體信息而非模式信息。如參與者叫“張三”還是“李四”、發(fā)生時(shí)間是“今天”還是“昨天”并不決定事件是否存在,存在這些角色才是判定事件模式的要素。同時(shí)人名、時(shí)間等詞是靜態(tài)詞向量“未登陸詞”問(wèn)題的主要來(lái)源。為有效提取事件模式特征,提出基于角色的詞替換。將潛在論元按角色替換為對(duì)應(yīng)抽象表示,凸顯事件模式的同時(shí)緩解“未登錄詞”問(wèn)題。
根據(jù)論元的實(shí)體類(lèi)型及依存關(guān)系進(jìn)行角色分類(lèi),以ri表 示不同角色,形成角色集δR={r1,r2,···,ro},o∈R 。為每個(gè)角色ri定 義對(duì)應(yīng)抽象表示rwi,形成抽象實(shí)體集 δRW={rw1,rw2,···,rwo},o∈R,ri與rwi一一對(duì)應(yīng)。
根據(jù)潛在論元的實(shí)體類(lèi)型及存在的依存關(guān)系,判斷潛在論元對(duì)應(yīng)的角色,判別規(guī)則如表2 所示。
表2 最后一行涵蓋范圍大、具體含義不定,需根據(jù)具體事件領(lǐng)域、語(yǔ)料標(biāo)準(zhǔn)進(jìn)行替換,替換基本規(guī)則如下。
表2 潛在論元角色判別規(guī)則
1) 需保證分詞時(shí)被識(shí)別為一個(gè)詞,且不可與已有詞、常規(guī)中文詞相同;
2) 格式應(yīng)與已定義抽象詞保持一致;
3) 抽象詞應(yīng)能顯式體現(xiàn)類(lèi)別含義。
替換示例如圖3 所示。
圖3 潛在論元角色替換
建立基于Bi-LSTM 與類(lèi)型注意力的深度學(xué)習(xí)模型,將經(jīng)角色抽象后的句子S′的語(yǔ)義、語(yǔ)法、模式信息抽象為高維特征實(shí)現(xiàn)檢測(cè),原理如圖1所示。
2.3.1 輸入構(gòu)建
使用神經(jīng)網(wǎng)絡(luò)處理文本需對(duì)文字編碼?!笆录?lèi)型”向量通過(guò)訓(xùn)練得到穩(wěn)定表示,預(yù)測(cè)階段值固定不變,故采用靜態(tài)詞向量。
Word2Vec 是最常用的靜態(tài)詞向量獲取方法,其中Skip-gram 方法對(duì)生僻詞效果更好,選用此方法基于大規(guī)模文本訓(xùn)練生成詞向量表,查詢向量表即可獲得詞向量表示Xw。
使用Word2Vec 訓(xùn)練得到的詞向量包含一定語(yǔ)義信息,由于對(duì)潛在論元進(jìn)行了角色抽象,替換后的詞表示對(duì)應(yīng)的詞向量,同時(shí)隱含了一定的事件模式信息。但上述信息未完全覆蓋潛在論元信息,未覆蓋的信息通過(guò)詞性及實(shí)體類(lèi)型表達(dá)。PTNN 模型的輸入在Xw上 ,增加詞性Xp和 實(shí)體類(lèi)型Xe來(lái)強(qiáng)化表示效果。詞wi的嵌入表示為:
式中, ⊕表連接操作,詞性使用Stanford NLP 工具獲取,每個(gè)詞性對(duì)應(yīng)一條向量,訓(xùn)練初隨機(jī)初始化,通過(guò)訓(xùn)練得到其穩(wěn)定表示Xp。實(shí)體類(lèi)型向量的處理方式與詞性向量相同,表示為Xe。
2.3.2 事件類(lèi)型向量
同類(lèi)事件有相似類(lèi)型特征,這種特征除通過(guò)觸發(fā)詞表征,在事件的特定屬性論元及論元的實(shí)體類(lèi)型中也有反映。如某些事件必須擁有多個(gè)參與者,某些事件的實(shí)體有類(lèi)型限制等,如表1 所示。PTNN模型在不識(shí)別觸發(fā)詞的前提下,通過(guò)學(xué)習(xí)這類(lèi)信息獲取事件類(lèi)型特征。
模型通過(guò)詞級(jí)類(lèi)型向量Tloc和句級(jí)類(lèi)型向量Tglo表 示事件類(lèi)型。Tloc學(xué)習(xí)事件句中詞實(shí)體特征和事件類(lèi)型的隱含聯(lián)系,Tglo學(xué)習(xí)事件句整體特征和事件類(lèi)型的隱含聯(lián)系。具體地,隨機(jī)初始各事件類(lèi)型向量Tloc和Tglo,使用標(biāo)記事件類(lèi)型的訓(xùn)練語(yǔ)料對(duì)其進(jìn)行訓(xùn)練,迭代至Tloc和Tglo穩(wěn)定。
2.3.3 注意力機(jī)制
注意力機(jī)制可以使神經(jīng)網(wǎng)絡(luò)更關(guān)注所需信息。在不利用觸發(fā)詞特征進(jìn)行事件檢測(cè)的情況下,使用注意力機(jī)制能協(xié)助獲取句子的類(lèi)型特征。
Tloc建模詞級(jí)類(lèi)型信息,將其作為注意力機(jī)制的“查詢向量”Q,計(jì)算各時(shí)間步輸出與Q的關(guān)系,建模類(lèi)型信息。t時(shí)刻注意力分?jǐn)?shù)為:
式中,ht為Bi-LSTM 在t時(shí)刻的隱層向量,當(dāng)前輸入包含類(lèi)型信息越多則 αt越大,其信息在最終特征向量中的占比越大,進(jìn)而實(shí)現(xiàn)事件類(lèi)型識(shí)別。
2.3.4 Bi-LSTM 層
Bi-LSTM 模型能獲取長(zhǎng)時(shí)依賴并兼顧上下文信息,PTNN 將其作為特征提取器,獲取輸入的詞級(jí)特征和整體語(yǔ)義兩個(gè)維度的信息。
對(duì)詞級(jí)特征,拼接同位置的正、反向LSTM隱層向量作為當(dāng)前時(shí)間的特征表示ht,形成詞級(jí)特征矩陣H:
式中,t表示時(shí)間步;n表示輸入句長(zhǎng)度。計(jì)算各時(shí)間步的詞特征對(duì)Tloc的 注意力值 αt,得到注意力向量α =[α1,α2,···,αn]。
綜合隱層向量H、詞級(jí)注意力向量 α與詞級(jí)類(lèi)型向量Tloc得 到詞級(jí)特征Xloc:
對(duì)于句級(jí)特征,拼接正、反向LSTM 的最后一個(gè)單元的隱層輸出作為輸入的整體向量表示:
綜合句表示hs、句級(jí)類(lèi)型向量Tglo得到句級(jí)特征Xglo:
Xloc與Xglo分別描述了輸入在詞、句級(jí)上的事件特征,對(duì)兩部分特征按權(quán)加和作為輸入句對(duì)某類(lèi)事件的特征得分,即:
式中, γ為詞句信息比例系數(shù),用于調(diào)節(jié)最終輸出中詞級(jí)信息與句級(jí)信息的占比。
損失函數(shù)方面,任務(wù)本質(zhì)是判斷輸入S是否包含T類(lèi)型事件,不同T對(duì)應(yīng)的向量空間不同,不能以輸出直接構(gòu)筑二元交叉熵作為損失,故選取均方損失(mean square loss, MSE),同時(shí)引入L2正則避免過(guò)擬合。由于正負(fù)類(lèi)樣本不均衡,加大對(duì)正例損失的懲罰,損失函數(shù)為:
式中, β為懲罰因子,y為0 時(shí)其保持沉默,y為1 時(shí)對(duì)當(dāng)前樣本的損失進(jìn)行懲罰; ρ為L(zhǎng)2正則系數(shù); θ為所有參與反向傳播的參數(shù)集合。預(yù)測(cè)結(jié)果y? 與 模型的輸出o(x)的對(duì)應(yīng)關(guān)系為:
模型基于Pytorch 框架,使用python3.6 進(jìn)行編碼。詞性及依存關(guān)系使用Stanford CoreNLP 工具包獲取。
采用ACE2005 英文數(shù)據(jù)的timex2norm 文件夾作為語(yǔ)料。其包含599 篇標(biāo)注語(yǔ)料,定義了33 類(lèi)事件及35 類(lèi)論元。從所有類(lèi)別中隨機(jī)選取30 篇作為驗(yàn)證集,從nw 文件夾(通訊社新聞)隨機(jī)選取40 篇作為測(cè)試集,其余529 篇為訓(xùn)練集。以句為基本單位對(duì)語(yǔ)料進(jìn)行處理,同句內(nèi)多個(gè)同類(lèi)事件記錄一個(gè)標(biāo)簽,不同類(lèi)事件記錄多個(gè)標(biāo)簽。詳細(xì)統(tǒng)計(jì)如表3 所示。
表3 語(yǔ)料詳細(xì)信息
詞向量基于ACE2005 語(yǔ)料原始文本及1-billion-word-language-modeling-benchmark-r13 混合訓(xùn)練生成,維度為200 維;詞性向量及實(shí)體類(lèi)型向量均為50 維。L2正則系數(shù)為1×10?5,epoch 為25,batch_size 設(shè)置為100。
評(píng)價(jià)指標(biāo)采用精確率(precision,P)、召回率(recall,R)及F1值 (F1?score,F1),計(jì)算公式分別為:
式中,TP 表示識(shí)別對(duì)的正例數(shù);FN 表示識(shí)別錯(cuò)的正例數(shù);FP 表示識(shí)別錯(cuò)的負(fù)例數(shù)。
3.3.1 基線模型
由于不使用觸發(fā)詞,故采用文獻(xiàn)[20]定義的基線模型及文獻(xiàn)[20]提出的TBNNAM 作橫向比對(duì),如表4 所示。
表4 基線模型
MC-表示執(zhí)行多分類(lèi)任務(wù),輸出所有類(lèi)型中概率最高的一個(gè);BC-表示執(zhí)行二分類(lèi)任務(wù),判定待測(cè)句是否包含指定類(lèi)型事件。
由于PTNN 模型存在幾個(gè)可控變量,為驗(yàn)證不同條件下的效果,定義如下子模型:
M1:不進(jìn)行潛在論元識(shí)別與詞替換;
M2:進(jìn)行潛在論元識(shí)別,不進(jìn)行詞替換;
M3:進(jìn)行潛在論元識(shí)別,進(jìn)行詞替換(即PTNN)。
3.3.2 詞句信息比例系數(shù)γ 對(duì)結(jié)果的影響
信息比例系數(shù)即參數(shù) γ決定了輸出中詞、句級(jí)評(píng)分占比。不同信息占比會(huì)導(dǎo)致訓(xùn)練側(cè)重方向的變化,為此在驗(yàn)證集上考察模型M3在不同 γ值下的表現(xiàn),實(shí)驗(yàn)結(jié)果如圖4 所示??芍?,模型在 γ取0.25 時(shí)效果最佳。
圖4 不同γ 值對(duì)驗(yàn)證集的效果
3.3.3 基線模型與M1的效果對(duì)比
M1為不使用潛在論元識(shí)別與詞替換的子模型,通過(guò)其與基線模型對(duì)比,證明雙向信息的有效性。實(shí)驗(yàn)在測(cè)試集上進(jìn)行,取5 輪結(jié)果的均值以減小隨機(jī)性的影響,結(jié)果如表5 所示。
表5 基線模型與 M1效果對(duì)比
結(jié)果表明M1取得了比文獻(xiàn)[20]中基線模型更好的效果。證明在依靠實(shí)體信息進(jìn)行檢測(cè)時(shí),雙向信息比單向信息效果更好。
3.3.4 潛在論元識(shí)別與類(lèi)替換效果實(shí)驗(yàn)
為驗(yàn)證潛在論元及類(lèi)替換的有效性,在測(cè)試集上采用相同的參數(shù),比較M1,M2,M3的效果,實(shí)驗(yàn)結(jié)果如表6 所示。
表6 各子模型效果對(duì)比
表6 后3 行為基于觸發(fā)詞方法在相同測(cè)試集上取得的效果[12,14-15]。
由結(jié)果可知,潛在論元識(shí)別和詞替換兩個(gè)步驟逐步提升了檢測(cè)效果,原因在于通過(guò)精簡(jiǎn)實(shí)體信息,減少了對(duì)事件無(wú)關(guān)實(shí)體信息的關(guān)注,提升了對(duì)事件模式的表達(dá)效果;同時(shí)詞替換操作使得在表達(dá)剩余實(shí)體時(shí)更多的關(guān)注了其類(lèi)別信息,避免了無(wú)意義的語(yǔ)義分散,提升了后續(xù)特征提取的效果。
本文方法最終達(dá)到了使用觸發(fā)詞特征達(dá)到的檢測(cè)水平。驗(yàn)證了基于事件模式特征的PTNN 模型對(duì)事件檢測(cè)任務(wù)的有效性。
實(shí)驗(yàn)證明,PTNN 模型在不依靠觸發(fā)詞的情況下,僅依靠事件模式信息和潛在論元信息達(dá)到了觸發(fā)詞模型的檢測(cè)水平,同時(shí)其表現(xiàn)優(yōu)于同類(lèi)模型。驗(yàn)證了模式信息對(duì)事件檢測(cè)的意義,并驗(yàn)證了其在深度學(xué)習(xí)模型中的可用性。
后續(xù)擬進(jìn)一步探究如何更好的表示事件模式特征,同時(shí)探究如何進(jìn)行事件模式與類(lèi)型的聯(lián)合識(shí)別。