馬建紅, 郝亞娟, 張亞梅
(河北工業(yè)大學(xué) 計算機科學(xué)與軟件學(xué)院 天津 300401)
?
基于層疊跳躍鏈條件隨機場模型的因果關(guān)系標(biāo)注
馬建紅, 郝亞娟, 張亞梅
(河北工業(yè)大學(xué) 計算機科學(xué)與軟件學(xué)院 天津 300401)
針對因果關(guān)系事件中對象、屬性及其相互作用關(guān)系抽取工作的不足和因果關(guān)系中的長距離依賴問題,定義了創(chuàng)新問題的因果關(guān)系表達方式,提出了基于層疊跳躍鏈條件隨機場的因果關(guān)系標(biāo)注方法.首先通過低層線性鏈條件隨機場模型對預(yù)處理過的候選集進行因果關(guān)系邊界標(biāo)注,其次對標(biāo)注結(jié)果進行降噪和擴充,將其作為新的特征傳遞給高層跳躍鏈條件隨機場模型用于識別因果角色,最后對高層結(jié)果進行指代消解和降噪.對多種類別的真實語料進行了實驗,結(jié)果表明應(yīng)用本方法可取得較好的標(biāo)注效果.
因果關(guān)系; 跳躍鏈條件隨機場模型; 層疊跳躍鏈條件隨機場模型; 高層降噪模型
技術(shù)領(lǐng)域內(nèi)任何問題產(chǎn)生的原因都與其涉及的物質(zhì)、屬性及其相互作用所產(chǎn)生的有害功能密切相關(guān).從某種意義上來說,物質(zhì)的一切屬性都是解決發(fā)明問題的創(chuàng)新資源[1].因果分析是發(fā)明問題解決流程(teoriya resheniya izobreatatelskikh zadatch,TRIZ)中很重要的一環(huán),因此挖掘因果關(guān)系中的物質(zhì)、屬性、及其相互作用之間的內(nèi)在關(guān)聯(lián)具有重要的實際應(yīng)用價值.
因果關(guān)系根據(jù)在文本中是否出現(xiàn)因果連接詞,分為:顯式因果關(guān)系和隱式因果關(guān)系.本文主要研究的是專利中的顯式因果關(guān)系.針對因果事件的抽取問題,國內(nèi)外已經(jīng)做了一些定量和定性的研究.文獻[2]實現(xiàn)了COATIS系統(tǒng)通過分析法語中的因果關(guān)系動詞,抽取顯式因果關(guān)系.文獻[3]通過因果關(guān)系動詞、連詞、形容詞、副詞等,采用模式匹配的方法從手工標(biāo)注的Wall Street journal語料中抽取顯式因果關(guān)系.文獻[4]則采用了模式匹配和機器學(xué)習(xí)相結(jié)合的方法抽取句內(nèi)或者相鄰句子間的顯式因果關(guān)系.
國內(nèi)近期研究主要有:文獻[5]提出了一種事件因果關(guān)系結(jié)構(gòu)分析方法;文獻[6]實現(xiàn)了一個輔助法律咨詢系統(tǒng);文獻[7]基于層疊條件隨機場采用兩層條件隨機場模型標(biāo)注事件之間的因果關(guān)系;文獻[8]基于雙層模型的維吾爾族突發(fā)事件因果關(guān)系抽取,采用分治思想對事件序列進行因果關(guān)系語義角色標(biāo)注和邊界標(biāo)注;文獻[9]基于語義事件因果關(guān)系識別,根據(jù)因果關(guān)系共性特征列舉算式計算候選事件的關(guān)聯(lián)度,有效地抽取了文本中的因果關(guān)系事件對.
綜上所述,目前國內(nèi)外研究中,鮮有對因果關(guān)系事件的原因事件及結(jié)果事件的對象、屬性及其相互作用關(guān)系進行抽取.因此本文定義了創(chuàng)新問題的因果關(guān)系表達方式并針對因果關(guān)系中的長距離依賴問題提出了基于層疊跳躍鏈條件隨機場的因果關(guān)系標(biāo)注方法.
因果分析是對技術(shù)系統(tǒng)的問題做分析的必需步驟,其目的是獲得對問題在因果鏈上的多級分析結(jié)果,啟發(fā)人們找到恰當(dāng)?shù)膯栴}查詢方式[1].規(guī)范的語義因果關(guān)系表達為檢索提供了便利.因此本文在原因和結(jié)果的規(guī)范化描述上,采用了創(chuàng)新問題中功能的描述方式.
圖1 因果關(guān)系表達實例Fig.1 Example of causality expression
功能的語義表達并非只有一種,不同的功能語義表達方式代表了不同的含義,其中常用的是“VOP”格式.本文中因果關(guān)系表達也采用了這種格式,將原因和結(jié)果描述為:V+O+P.其中V:性能水平,表示因果關(guān)系中物體或者物體參數(shù)因達到某一種程度而沒有產(chǎn)生預(yù)期的效果,例如:不足、有害等;O:表示實體,即對象;P:表示該對象的某個屬性.針對因果關(guān)系的表達方式,本文定義了6種因果角色,包括:原因事件的實體、屬性、性能水平,分別用CO、CP、CV表示;結(jié)果事件的實體、屬性、性能水平,分別用RO、RP、RV表示.根據(jù)因果關(guān)系中實體相互作用產(chǎn)生的有害功能,本文將因果關(guān)系中的性能水平分成了以下7種類型[11],并針對其中的一些類型舉例表達了因果關(guān)系,如圖1所示.
缺乏:應(yīng)該有的作用,但是沒有.
存在:提供有用作用的同時,伴隨產(chǎn)生了有害作用.
有害:應(yīng)該沒有的作用,卻出現(xiàn)了.過度:有用的功能,因其性能水平超過了閾值而產(chǎn)生有害影響.不足:有用的功能,因其性能水平低于閾值而效果不足.不可控:有用的功能,但是無法有效地控制其性能水平.
不穩(wěn)定:有用的功能,但是其性能水平不夠穩(wěn)定,帶來了有害影響.
本文將因果關(guān)系的抽取問題轉(zhuǎn)化為對原因和結(jié)果中的實體、實體屬性及性能水平的因果角色標(biāo)注問題.本節(jié)主要介紹跳躍鏈條件隨機場模型、因果角色標(biāo)注的層疊跳躍鏈條件隨機場模型、特征選擇、高層降噪模型.
2.1 跳躍鏈條件隨機場模型
對于序列標(biāo)注問題,線性鏈條件隨機場模型已經(jīng)取得了不錯的標(biāo)注效果,但在因果關(guān)系提取時,經(jīng)常會遇到長距離依賴問題即:當(dāng)前句或者上下句中的實體或?qū)嶓w屬性可能與距離較遠的實體或?qū)嶓w屬性存在依賴關(guān)系.為此,本文引入了跳躍鏈條件隨機場模型,如圖2所示,在線性鏈模型的基礎(chǔ)上,在相似詞之間增加了跳邊,來解決長距離依賴問題[12].
把跳躍鏈條件隨機場模型看作兩部分,一部分是線性鏈部分,另一部分則是表達長距離依賴問題的跳躍鏈部分.給定輸入序列x=(x1,x2,…,xn),則跳躍鏈模型的輸出序列y=(y1,y2,…,yn) 概率分布為:
其中:Z(x) 是歸一化因子,Γ是所有跳躍鏈的集合,(u,v) 是跳躍鏈兩端的位置,跳躍鏈可以結(jié)合兩端的特征,當(dāng)兩個端點詞對標(biāo)簽標(biāo)注不一致時,確定標(biāo)簽的一端能夠影響不確定標(biāo)簽的一端,使相同的詞對獲得一致的標(biāo)簽.ψn和ψuv分別是跳躍鏈模型中線性鏈部分和跳躍鏈部分的勢函數(shù),公式為:
其中:fk1和λk1分別是跳躍鏈模型中的線性鏈部分的特征函數(shù)及其對應(yīng)的特征權(quán)重,fk2和λk2分別是跳躍鏈模型中跳躍鏈部分的特征函數(shù)及其特征權(quán)重.
跳躍鏈隨機場模型中的跳邊取決于詞對之間的相似度,根據(jù)結(jié)果決定該詞對是否包含在模型中.本文的相似度計算采用的是文獻[13]的平均互信息(average mutual information, AMI):
c(x,y) 為詞對x和y共同出現(xiàn)在訓(xùn)練集同一窗口的次數(shù),c(x) 是詞對x在訓(xùn)練集中出現(xiàn)的次數(shù).在本文中詞對之間的相似度為:
SIM(x,y)=AMI(x,y)×(1-logDis(x,y)),
Dis(x,y)為詞對x和y的平均距離.為了建立一個足夠有效的稀疏矩陣本文定義了閾值來判斷詞對之間是否存在跳邊,當(dāng)詞對的相似度大于閾值(根據(jù)經(jīng)驗本文將閾值定為0.8)時,它們之間建立跳邊,否則它們之間不產(chǎn)生關(guān)系.通過定義閾值來刪減依賴關(guān)系,在一定程度上彌補了由于長距離依賴關(guān)系增加帶來的計算量增加等負面影響.
2.2 因果角色標(biāo)注的層疊跳躍鏈條件隨機場模型
對復(fù)雜問題采用單層條件隨機場模型結(jié)果往往達不到預(yù)期.為此引入層疊條件隨機場模型,將復(fù)雜的問題分解成幾個子問題,針對每個子問題運用條件隨機場模型,多個模型之間呈線性組合.本文將事件因果角色標(biāo)注的過程分為兩個步驟:事件因果邊界標(biāo)注和事件因果角色標(biāo)注.在因果角色標(biāo)注時,相同的實體或者屬性在不同的位置被標(biāo)注了不同的角色,針對這一問題本文在層疊條件隨機場模型的高層選擇了跳躍鏈條件隨機場模型,層疊跳躍鏈模型如圖3所示.
由圖3可以看出事件序列通過低層線性鏈條件隨機場模型識別出因果事件邊界,中間模型對候選集進行擴充和降噪,然后將候選集傳遞到高層跳躍鏈條件隨機場模型中,高層模型實現(xiàn)原因事件和結(jié)果事件角色標(biāo)注,具體實現(xiàn)過程如圖4所示.該模型不僅解決了單層條件隨機場模型不能有效提取因果關(guān)系的實體、實體屬性及性能水平的不足,而且也解決了因果關(guān)系中多因多果造成的相同實體不同屬性標(biāo)注不一致問題.
圖2 跳躍鏈條件隨機場模型 Fig.2 The skip-chain conditional random field model
圖3 基于層疊跳躍鏈條件隨機場的因果角色標(biāo)注模型 Fig.3 The causal role labeling model based on the cascade skip-chain conditional random field
2.3 特征選擇
條件隨機場模型的特點就是可以靈活地定義各種特征,用特征集合及其權(quán)重擬合樣本的規(guī)律,以構(gòu)建相應(yīng)的模型[14].特征模板用來定義特定位置的上下文信息與待預(yù)測事件的關(guān)聯(lián)情況.本文在低層條件隨機場模型中選擇了詞性、上下文、狀態(tài)轉(zhuǎn)移特征作為特征模板并選擇了對稱的上下文窗口:[-2,2].語義角色是目前淺層語義分析所采用的主要方式,在高層條件隨機場模型的特征模板選擇上,引入了語義角色特征(采用哈工大的自然語言處理工具LTP對候選集進行語義角色標(biāo)注)和經(jīng)過中間模型處理過的標(biāo)注結(jié)果作為特征,針對上下文、詞性、語義角色、低層標(biāo)注結(jié)果采用了不同的特征窗口分別為:[-2,2]、[-1,1]、[-1,1]、[-3,3],由于篇幅原因,不在此列出特征模板.
圖4 事件因果角色標(biāo)注過程Fig.4 The labeling process of event causal role
2.4 中間模型和高層降噪模型
2.4.1 中間模型 高層條件隨機場模型的標(biāo)注結(jié)果高度依賴低層條件隨機場模型的結(jié)果,如果對低層錯誤結(jié)果不進行處理,這些錯誤結(jié)果將傳遞到高層模型中,經(jīng)過高層模型擴散和傳播,產(chǎn)生噪聲,降低標(biāo)注的準(zhǔn)確率.因此在低層模型和高層模型之間增加了中間模型,中間模型包括:補充模型和降噪模型.
1) 補充模型:該模型主要針對標(biāo)注不完整的候選集,包括:缺乏原因事件的候選集和缺乏結(jié)果事件的候選集,根據(jù)規(guī)則進行補充.在顯式因果關(guān)系中,不同的關(guān)鍵詞,原因和結(jié)果的位置不同.例如:“由于……導(dǎo)致……”和“……的原因是……”在這兩種類型的句子中,原因事件和結(jié)果事件的分布位置是不一致的.對于缺少不同內(nèi)容的候選集,根據(jù)因果關(guān)鍵詞不同采取相應(yīng)的因果知識提取規(guī)則將候選集補充完整[12].
2) 降噪模型:提出了以下規(guī)則進行降噪.
① 針對沒有劃分因果關(guān)系邊界的候選集進行過濾:在低層結(jié)果中,有的候選集沒有劃分原因事件和結(jié)果事件的邊界,為了提高標(biāo)注的準(zhǔn)確率,本文對于這種情況的候選集進行過濾.
② 對標(biāo)點進行過濾:在低層結(jié)果中,對于一個句子存在多個原因事件和多個結(jié)果事件的情況,在劃分因果關(guān)系邊界時,會把其中的“,”等標(biāo)點劃分到因果關(guān)系中.為了不影響高層結(jié)果,本文將對這種類型劃分多個因果關(guān)系邊界.
③ 過遠候選集的過濾:在顯式因果關(guān)系的句子中,計算原因事件和結(jié)果事件到因果連接詞的距離,本文定義該距離的閾值為2(原因事件距離因果連接詞兩個標(biāo)點以內(nèi)),對于超過閾值的候選集進行過濾.
2.4.2 高層降噪模型 高層跳躍鏈條件隨機場模型標(biāo)注結(jié)果的準(zhǔn)確率很大程度上取決于經(jīng)過中間層處理過的候選集,然而由于部分分詞、詞性標(biāo)注的不準(zhǔn)確可能會產(chǎn)生噪聲,對標(biāo)注結(jié)果造成影響.因此,為了提高因果關(guān)系的標(biāo)注效果,本文對高層跳躍鏈條件隨機場模型的標(biāo)注結(jié)果進行了降噪.降噪模型基于以下規(guī)則.
1) 指代消解[15]:指代主要有3種典型的形式:人稱代詞、指示詞、有定描述.針對候選集中的“其”,“它”,“上述材料”等進行指代消解時,結(jié)合當(dāng)前句及其上下文的語法將原因事件和結(jié)果事件的實體補充完整.
2) 根據(jù)實體、實體屬性以及性能水平的分布位置過濾:本文在考察大量句法分析和詞性的基礎(chǔ)上,對實體、實體屬性及性能水平的分布位置做了總結(jié).從詞性方面可以看出,實體和實體屬性為名詞,性能水平為動詞、形容詞或動詞加形容詞.然而由于分詞的不準(zhǔn)確性會把性能水平或者屬性的描述詞分開, 造成了性能水平分布在了實體和實體屬性之間,本文針對這種情況進行了糾正.
3) “的”字結(jié)構(gòu):根據(jù)“的”字結(jié)構(gòu)前后成分進行降噪.一般情況下,“的”字結(jié)構(gòu)前面的成分為實體,“的”字結(jié)構(gòu)后面的成分為實體屬性,根據(jù)這一原則,對錯誤的“的”字結(jié)構(gòu)前后成分進行降噪.
表1 實驗數(shù)據(jù)的類別以及規(guī)模
Tab.1 Category and scale of experimental data
類別含有因果關(guān)系的句子數(shù)量因果關(guān)系的句子+上下文的句子數(shù)量C084621386F023341002H04204612
3.1 語料準(zhǔn)備
本文分別從C08(有機高分子化合物;其制備或化學(xué)加工;以其為基料的組合物)類、F02(燃燒發(fā)動機;熱氣或燃燒生成物的發(fā)動機裝置)類、H04(電通信技術(shù))類的2 000篇專利中抽取了3 000句含有因果關(guān)系的句子以及上下文作為候選集進行實驗,具體每種專利類別的語料規(guī)模如表1所示,其中每種類別測試集和訓(xùn)練集的比例為1∶5.
3.2 實驗結(jié)果分析
本文使用Mallet工具包的GRMM擴展包進行實驗,為了驗證本文方法的實驗效果,采用了準(zhǔn)確率(P)、召回率(R)及綜合指標(biāo)(F)作為評價標(biāo)準(zhǔn),并針對所選的3種類別的專利分別做了8組對比實驗:層疊跳躍鏈CRFs_指代(SK_CCRFs_指代)在高層選擇了指代消解進行降噪、層疊跳躍鏈CRFs _位置過濾(SK_CCRFs_位置過濾)在高層選擇了位置過濾進行降噪、層疊跳躍鏈CRFs_“的”字結(jié)構(gòu)(SK_CCRFs_“的”字結(jié)構(gòu))在高層選擇了“的”字結(jié)構(gòu)進行過濾、層疊跳躍鏈CRFs_補充(SK_CCRFs_補充)在中間模型只選用了補充模型、層疊跳躍鏈CRFs_降噪(SK_CCRFs_降噪)在中間模型只選用了降噪模型、層疊跳躍鏈CRFs_補充_降噪(SK_CCRFs_補充_降噪)在中間模型選擇了補充模型和降噪模型進行降噪、層疊跳躍鏈CRFs(SK_CCRFs)未經(jīng)過中間層處理直接傳遞到高層模型中、層疊線性鏈CRFs_補充_降噪(CCRFs_補充_降噪)經(jīng)過中間模型處理的層疊線性鏈條件隨機場模型.
由于高層條件隨機場模型的標(biāo)注結(jié)果高度依賴低層條件隨機場模型的結(jié)果,因此本文在高層模型和低層模型之間增加了中間模型,并針對擴充模型和降噪模型分別做了實驗,如表2所示.由實驗結(jié)果可以看出,中間模型在很大程度上降低了噪聲產(chǎn)生的影響,提高了正確率.
本文在高層條件隨機場模型中分別對線性鏈條件隨機場模型和跳躍鏈條件隨機場模型進行了實驗,結(jié)果如表2所示.實驗表明,“有機高分子化合物等”、“燃燒發(fā)動機等”、“電通信技術(shù)”類別中高層選用跳躍鏈條件隨機場模型都比選用線性鏈條件隨機場模型在標(biāo)注的準(zhǔn)確率方面有所提升,不同類別提升的幅度不一樣.跳躍鏈條件隨機場模型有效解決了句子中長距離依賴問題,有助于因果關(guān)系事件中的實體、實體屬性、性能水平的抽取,彌補了線性鏈條件隨機場中相鄰節(jié)點之間的依賴關(guān)系最強的假設(shè).
表2 C08,F(xiàn)02,H04類因果關(guān)系標(biāo)注結(jié)果對比Tab.2 C08,F(xiàn)02,H04 causal relationship labeling results contrast %
為了提高因果關(guān)系標(biāo)注的效果,本文對高層結(jié)果采用了降噪模型,通過指代消解將因果關(guān)系中的實體補充完整,并對實體、實體屬性以及性能水平錯誤的位置分布進行糾正,針對“的”字結(jié)構(gòu)錯誤的前后成分進行了糾正.從表2中可以看出,不同類別的候選集經(jīng)過高層降噪模型處理之后,層疊線性鏈CRFs和層疊跳躍鏈CRFs在正確率方面都有所提高.高層降噪模型有效地降低了由于部分分詞、詞性不準(zhǔn)確以及“的”字短語前后成分劃分不正確而產(chǎn)生的噪聲,提高了因果關(guān)系標(biāo)注的準(zhǔn)確率.
本文根據(jù)創(chuàng)新問題的因果關(guān)系表達方式提出了基于層疊跳躍鏈條件隨機場的因果關(guān)系標(biāo)注方法.為了提高標(biāo)注的準(zhǔn)確率以及解決因果關(guān)系事件中的長距離依賴問題,在層疊條件隨機場模型的高層選擇了跳躍鏈條件隨機場模型進行因果角色識別,最后運用高層降噪模型對標(biāo)注結(jié)果進行降噪.實驗表明,針對專利中的顯式因果關(guān)系,本文取得了很好的標(biāo)注效果.
[1] 趙敏,張武城,王冠殊.TRIZ進階及實戰(zhàn)[M].北京:機械工業(yè)出版社,2016.
[2] GARCIA D. COATIS,an NLP system to locate expressions of actions connected by causality links[C] ∥ Proc of the 10th European Workshop on Knowledge Acquisition,Modeling and Management.Catalonia,1997: 347-352.
[3] KHOO C,KORNFILT J,ODDY R,et al. Automatic extraction of cause-effect information from newspaper text without knowledge-based inferencing[J].Literary and linguistic computing,1998,13(4) : 177-178.
[4] BLANCO E,CASTELL N,MOLDOVAN D. Causal relation extraction[C]∥Proc of the 6th International Conference on Language Resources and Evaluation.Morocco,2008: 310-313.
[5] 干紅華,潘云鶴.一種基于事件的因果關(guān)系的結(jié)構(gòu)分析方法[J].模式識別與人工智能,2003,16(1):56-62.
[6] 干紅華.基于事件的因果可計算化分析研究[D].杭州:浙江大學(xué),2003.
[7] 付劍鋒,劉宗田,劉煒,等.基于層疊條件隨機場的事件因果關(guān)系抽取[J].模式識別與人工智能,2011,24(3):567-573.
[8] 鐘軍,禹龍,田生偉,等.基于雙層模型的維吾爾語突發(fā)事件因果關(guān)系抽取[J].自動化學(xué)報,2014,40(4):771-779.
[9] 楊竣輝,劉宗田,劉煒,等.基于語義事件因果關(guān)系識別[J].小型微型計算機系統(tǒng),2016,37(3):433-437.
[10] 雷志城,廖祥文.結(jié)合領(lǐng)域知識的中文句子評價對象抽取[J].福州大學(xué)學(xué)報(自然科學(xué)版),2013,41(3):297-304.
[11] 創(chuàng)新方法研究會中國21世紀(jì)議程管理中心.創(chuàng)新方法教程(高級)[M].北京:高等教育出版社,2012.
[12] 朱道輝,肖基毅,程陽,等.基于長距離依賴條件隨機域的文本信息抽取[J].計算機應(yīng)用與軟件,2011,28(5):203-205.
[13] 朱鴻宇,劉瑰,陳左寧,等.實體關(guān)系識別中長距離依賴問題的研究[J].小型微型計算機系統(tǒng),2008,29(2):364-367.
[14] 鄭敏潔,雷志城,廖祥文,等.基于層疊CRFs的中文句子評價對象抽取[J].中文信息學(xué)報,2013,27(3):69-76.
[15] 王厚峰.指代消解的基本方法和實現(xiàn)技術(shù)[J].中文信息學(xué)報,2002,16(6):9-17.
(責(zé)任編輯:王浩毅)
Causal Relation Label Based on Cascading Skip-chain Conditional Random Fields
MA Jianhong, HAO Yajuan, ZHANG Yamei
(SchoolofComputerScienceandEngineering,HebeiUniversityofTechnology,Tianjin300401,China)
In order to explore the extraction of the entity, entity attribute and their interaction and long-distance dependence problem in causal relationship event, the causal relationship expression of the innovation problem was defined, by using cascade skip-chain conditional random fields method. The method labeled the boundaries of the event causal relation of the preprocesseds candidates by the lower-level line-chain conditional random fields model. Then the noise was filtered and the labeling result was extended. The results were put into the higher-level skip-chain conditional random fields model to identify causal role, and dealt with the higher-level results using anaphora resolution and filtering noise. Experiments were carried put on a variety of categories of real data and the results showed that the method achieved very good labeling effect in the patents.
causal analysis; skip-chain conditional random fields model; cascading skip-chain conditional random fields model; higher-level noise reduction model
2016-07-18
馬建紅(1965—),女,河北保定人,教授,主要從事計算機輔助創(chuàng)新設(shè)計軟件、軟件工程、自然語言處理研究,E-mail:m_zh2002@126.com.
馬建紅,郝亞娟,張亞梅.基于層疊跳躍鏈條件隨機場的因果關(guān)系標(biāo)注[J] .鄭州大學(xué)學(xué)報(理學(xué)版),2016,48(4):54-59.
TP391
A
1671-6841(2016)04-0054-06
10.13705/j.issn.1671-6841.2016663