摘 要:相較于問(wèn)答等經(jīng)典的自然語(yǔ)言處理任務(wù),腳本事件預(yù)測(cè)并未受到廣泛關(guān)注。腳本事件預(yù)測(cè)旨在通過(guò)給定的上下文事件對(duì)未來(lái)事件進(jìn)行準(zhǔn)確預(yù)測(cè),進(jìn)而為后續(xù)可能發(fā)生的事件作出相應(yīng)部署。為此,其研究具有重要意義,需要進(jìn)行歸納與總結(jié)。針對(duì)腳本事件預(yù)測(cè)任務(wù),首先給出腳本事件預(yù)測(cè)的基本概念;然后,梳理分析了事件表征中論元構(gòu)成和事件表示學(xué)習(xí)兩個(gè)子任務(wù),其中事件表示學(xué)習(xí)從嵌入編碼和語(yǔ)義增強(qiáng)兩個(gè)方面敘述;接著,又以腳本建模方法為主線,從事件對(duì)、事件鏈、事件圖以及結(jié)合型建模四個(gè)角度對(duì)其進(jìn)行總結(jié);并且,對(duì)現(xiàn)有模型進(jìn)行測(cè)試,分析各類模型效果;最后,總結(jié)當(dāng)前研究存在的問(wèn)題,并展望未來(lái)可能的研究方向。
關(guān)鍵詞:自然語(yǔ)言處理;腳本事件預(yù)測(cè);事件表征;腳本建模
中圖分類號(hào):TP181 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2023)05-003-1303-09doi: 10.19734/j.issn.1001-3695.2022.09.0494
理解文本中描述的事件對(duì)許多人工智能任務(wù)來(lái)說(shuō)至關(guān)重要,腳本事件預(yù)測(cè)正是其中一個(gè)具有挑戰(zhàn)性的任務(wù)。腳本的概念由Schank等人[1]提出的,用來(lái)理解自然語(yǔ)言文本。一個(gè)典型的案例是描述一個(gè)人去電影院的場(chǎng)景,“顧客進(jìn)入電影院”“顧客買電影票”“顧客進(jìn)入影廳”和“顧客觀看電影”等一系列活動(dòng)相繼發(fā)生,這種結(jié)構(gòu)化的表示方式稱之為腳本。腳本事件預(yù)測(cè)是對(duì)這種結(jié)構(gòu)化事件的演化推理。2008年,Chambers等人[2]提出了腳本事件預(yù)測(cè)的概念,將其定義為通過(guò)給定場(chǎng)景中已經(jīng)發(fā)生的一系列上下文事件,預(yù)測(cè)接下來(lái)最有可能發(fā)生的事件;另外,他們還提出了一種新的結(jié)構(gòu)化事件表示方法,稱為敘事事件鏈。敘事事件鏈?zhǔn)且砸粋€(gè)共同的主角為中心的部分有序的事件集,其中參與者和事件的結(jié)構(gòu)化序列被稱為腳本。他們的工作為腳本事件預(yù)測(cè)的發(fā)展奠定了重要基礎(chǔ)。
腳本事件預(yù)測(cè)的處理通常是從非結(jié)構(gòu)化文本中提取出與事件相關(guān)的信息后,將信息以結(jié)構(gòu)化的形式展現(xiàn),再利用文本來(lái)推斷出事件之間的關(guān)系,預(yù)測(cè)未來(lái)可能發(fā)生的事件。
1 事件表征
事件是現(xiàn)實(shí)世界中信息更為結(jié)構(gòu)化的表示形式,從事件中獲取有效的事件表征有助于推理出正確的后續(xù)事件。為獲取有效的事件表征,首先需確定事件要素構(gòu)成形式,再對(duì)事件表示進(jìn)行學(xué)習(xí)。下面將針對(duì)這兩個(gè)部分分別進(jìn)行介紹。
1.1 要素構(gòu)成
事件通常由動(dòng)詞和名詞短語(yǔ)等要素組成,動(dòng)詞描述主角的動(dòng)作,名詞短語(yǔ)則描述相關(guān)的實(shí)體。事件的組成要素包括動(dòng)作或事件的參與者、事件發(fā)生的時(shí)間或地點(diǎn)等,可以通過(guò)自然語(yǔ)言處理(natural language process,NLP)工具從事件的文本中提取。Chambers等人[2]針對(duì)事件表示的方法進(jìn)行了創(chuàng)新。他們認(rèn)為,雖然一個(gè)敘事事件鏈有多個(gè)參與者,但事件鏈只有一個(gè)核心角色即主角。因此,他們提出用(predicate; dependency)來(lái)表示一個(gè)事件,這種表示方式被稱做Predicate-GR。其中predicate指事件描述中的謂語(yǔ)動(dòng)詞,dependency指動(dòng)詞和主角之間的語(yǔ)法依賴關(guān)系,如“主語(yǔ)”“賓語(yǔ)”或“介詞”等。
文獻(xiàn)[2]所提出的事件表示方法雖然為后續(xù)的很多研究工作奠定了重要的基礎(chǔ),然而這種表示也有其不足之處。由于某些事件文本缺乏一致的主題,所以不同角色的事件就會(huì)被錯(cuò)誤地混合到單個(gè)角色中。對(duì)于“X去吃飯”和“Y去度假”,它們的表示方法都是〈go,obj〉,所以“go”表示的是“去吃飯”還是“去度假”就無(wú)從得知,且無(wú)法區(qū)分事件的主角是X還是Y。所以,Balasubramanian等人[3]提出了Rel-grams,其事件表示模式為(Arg1; relation; Arg2),這種關(guān)系三元組提供了更為具體的事件表示方法。其中Arg1表示事件的主語(yǔ),Arg2表示事件的賓語(yǔ),relation表示事件的核心動(dòng)詞。例如,“He cited a new study that was released by UCLA in 2008(他引用了加州大學(xué)洛杉磯分校2008年發(fā)布的一項(xiàng)新研究)”,事件被表示為“(He, cited, a new study)(a new study, was released by, UCLA)”。雖然這種事件表示更為具體,但增加了事件表示的稀疏性。為了減少稀疏性以及提高事件表示的泛化性能,他們對(duì)事件表示使用規(guī)范化的關(guān)系字符串,上述事件則表示為“(〈person〉, cite, study)(study, be release by, UCLA)”。
以上工作主要針對(duì)的是單個(gè)主角事件。對(duì)于多主角事件,例如“Mary emailed Jim and he responded to her immediately(Mary給Jim發(fā)了郵件,Jim立即回復(fù)了她)”,如果根據(jù)所涉及的實(shí)體進(jìn)行分組就會(huì)產(chǎn)生兩條事件鏈。第一條以Mary為實(shí)體,其事件鏈表示為(email,subject)(respond,object);而對(duì)于Jim,事件鏈則表示為(email,object)(respond,subject)??梢宰⒁獾絾蝹€(gè)動(dòng)詞可能會(huì)產(chǎn)生多個(gè)事件對(duì),并且離散的事件對(duì)之間彼此沒(méi)有聯(lián)系。因此,Pichotta等人[4]提出帶有多論元的事件表示方法,這種方法能夠直接捕獲多個(gè)實(shí)體之間的交互。他們將事件表示為v(es,eo,ep),其中v表示事件的核心動(dòng)詞,es表示事件的主語(yǔ),eo表示事件的賓語(yǔ),ep表示事件的介詞賓語(yǔ),除v之外的任何參數(shù)都可以是1(用-表示),1表示所指參數(shù)與動(dòng)詞沒(méi)有語(yǔ)義依賴關(guān)系。上述兩條事件鏈則被表示為email(Mary,Jim,-)和respond(Jim,Mary,-)。由此可見(jiàn),這種事件表示方法可以獲取更多的文本事件結(jié)構(gòu),更能表達(dá)一個(gè)事件的具體含義,非常適合作為腳本的表示。
接下來(lái)的研究也在不斷改進(jìn)多論元事件表示。文獻(xiàn)[4]提出來(lái)的多論元事件表示方法雖然可以提高預(yù)測(cè)的準(zhǔn)確性,但是這種更豐富的事件表示方法仍有不足。事件表示是基于共指事件鏈的,鏈中的實(shí)體在內(nèi)部映射到變量。但是對(duì)于長(zhǎng)度為1的實(shí)體而言,所有單個(gè)實(shí)體映射到另一個(gè)公共類別后,關(guān)于這些實(shí)體的信息都丟失了。以order(people,food,-)和order(people,car,-)為例,如果所給文本中沒(méi)有出現(xiàn)food和car,那么這兩個(gè)事件無(wú)法進(jìn)行區(qū)分?;诖藛?wèn)題,Ahrendt等人[5]提出了基于參與者的模型。模型將文本表示為由參與者標(biāo)記的事件鏈(PLE),PLE由一個(gè)動(dòng)詞和它的參與者標(biāo)簽組成,它的一般形式是verb(psubj,pdobj,piobj),其中psubj、pdobj和piobj不是直接表示事件的主語(yǔ)、直接賓語(yǔ)和間接賓語(yǔ),而是分別代表著主語(yǔ)、直接賓語(yǔ)和間接賓語(yǔ)的參與者標(biāo)簽。例如“The waitress brought us some water(服務(wù)員給了本文一些水)”,其中直接賓語(yǔ)water的參與者標(biāo)簽就對(duì)應(yīng)著customer,相應(yīng)的PLE表示形式為bring(waiter, drink, customer)。實(shí)驗(yàn)表明,明確地標(biāo)記事件參與者可以提高事件預(yù)測(cè)性能。為進(jìn)一步提高預(yù)測(cè)性能,Pichotta等人[6]將事件表示為五元組v(es,eo,ep,p),與以往的事件表示方法的不同之處在于多了一個(gè)介詞論元p。
事件中還有其他要素,如情緒、有生性、事件時(shí)間和位置信息等,這些要素都可以潛在地增強(qiáng)事件表示,進(jìn)而有效地表示事件。Lee等人[7]提出特征事件嵌入學(xué)習(xí)(featured event embedding learning,F(xiàn)EEL)。FEEL將事件表示為(tok(e),sub(e),obj(e),prep(e),f1(e),f2(e))的形式,它包含四個(gè)基本組件和兩個(gè)細(xì)粒度屬性,其中tok(e)是將謂詞及其依賴關(guān)系與事件聯(lián)系起來(lái)的標(biāo)記,另外三個(gè)基本組件sub(e)、obj(e)和prep(e)的含義與之前工作類似,分別代表事件的主語(yǔ)、賓語(yǔ)和介詞賓語(yǔ)。兩個(gè)細(xì)粒度屬性f1(e)、f2(e)分別代表句子級(jí)情感屬性和事件主角的生命性信息。f1(e)包含三種情感屬性標(biāo)簽,分別為消極、中立和積極,f2(e)同樣包含三種生命性信息類型,分別為有生命、無(wú)生命和未知。以“Jenny went to a restaurant and ordered a lasagna plate(Jenny去餐館點(diǎn)了一份千層面)”為例,F(xiàn)EEL可以捕獲到以Jenny為事件主角的兩個(gè)事件表示形式,分別為((go,subj),Jenny,-,restaurant, 中立,有生命性)和((order,subj),Jenny,plate,-,中立,有生命性)。除了事件主角,一個(gè)事件可能包含多個(gè)參與者,每個(gè)參與者對(duì)事件的發(fā)生都有一定影響。因此,為了獲得更全面的事件語(yǔ)義表示,Bai等人[8]將事件出現(xiàn)的原句子集成到事件表示中,即將事件表示成(v,a0,a1,a2,t),其中v、a0、a1和a2分別代表動(dòng)詞、主語(yǔ)、賓語(yǔ)和間接賓語(yǔ),t則代表事件出現(xiàn)的原句。
最初的事件表示主要針對(duì)單個(gè)事件主角來(lái)構(gòu)建敘事事件鏈,而忽略了事件腳本中的很多重要信息。為了解決這一問(wèn)題,研究了更為豐富的事件表示方法,考慮事件中更多的要素,以此獲得更全面的語(yǔ)義表示。各類事件要素構(gòu)成方法如表1所示。
1.2 事件表示學(xué)習(xí)
為保留事件豐富的語(yǔ)義信息,需將結(jié)構(gòu)化的信息表示為計(jì)算機(jī)可以理解的形式,即事件表示學(xué)習(xí)。通常是采用編碼的思想,使事件表示中盡可能地保留事件元素的信息。另外為了獲取更準(zhǔn)確的事件表示,還會(huì)考慮在事件表示中融合外部知識(shí),即語(yǔ)義增強(qiáng)。
1.2.1 嵌入編碼
事件表示通過(guò)事件結(jié)構(gòu)對(duì)事件元素的向量進(jìn)行語(yǔ)義組合,計(jì)算事件向量表示。按照組合方式的不同,可以分為基于詞向量與基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)義組合方式。
1) 基于詞向量的語(yǔ)義組合
最簡(jiǎn)單的語(yǔ)義組合方式莫過(guò)于自然組合。以“人民日?qǐng)?bào)”為例,將“人民”與“日?qǐng)?bào)”進(jìn)行自然組合后得到了“人民日?qǐng)?bào)”。但由于“日?qǐng)?bào)”可能也是一份報(bào)紙的名稱,所以它們組合后可能會(huì)得到另一份不同的報(bào)紙,所以使用自然組合的處理方式不能用來(lái)表示多個(gè)單詞組成的短語(yǔ)。
研究發(fā)現(xiàn),使用向量來(lái)表示整個(gè)短語(yǔ)會(huì)有效避免這種情況,即將詞轉(zhuǎn)換成一個(gè)分布式表示。基于此,Mikolov等人[9,10]提出了一種高效訓(xùn)練詞向量的模型—word2vec,來(lái)學(xué)習(xí)短語(yǔ)向量表示,根據(jù)詞匯的“共現(xiàn)”信息將詞匯編碼成一個(gè)向量。在一定程度上,他們的工作是對(duì)用矩陣向量表示短語(yǔ)的補(bǔ)充,推進(jìn)了推理工作的發(fā)展。除了提出word2vec來(lái)學(xué)習(xí)短語(yǔ)向量表示,Mikolov等人[9]還發(fā)現(xiàn)了向量的“加法”屬性,即簡(jiǎn)單的向量加法可以產(chǎn)生有意義的結(jié)果,如vec(“中國(guó)”)+vec(“首都”)的結(jié)果接近vec(“北京”)。通過(guò)將事件元素的詞向量進(jìn)行相加或拼接后映射到事件向量空間,可以充分利用詞向量信息,但在建模事件元素間的交互上較為薄弱。具體來(lái)說(shuō),通過(guò)與其相鄰詞的共現(xiàn)頻次統(tǒng)計(jì)得到的向量難以捕獲較長(zhǎng)短語(yǔ)的語(yǔ)義,因此限制了其對(duì)句意的理解。
2)基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)義組合
雖然文獻(xiàn)[9]提出的向量的“加法”屬性可以獲得有意義的結(jié)果,但利用“加法”屬性很難針對(duì)事件表面形式的細(xì)微差異進(jìn)行建模。例如,“She throw basketball(她扔籃球)”與“She throw bomb(她扔炸彈)”會(huì)得到相近的向量表示,但是這兩個(gè)事件在語(yǔ)義上并不相近。為了解決這一問(wèn)題,Weber等人[11]提出了基于張量(tensor)的神經(jīng)網(wǎng)絡(luò)組合模型,核心思想是:事件嵌入由主語(yǔ)元素和賓語(yǔ)元素的乘法之和構(gòu)成,其中的權(quán)重取決于謂語(yǔ),通過(guò)使用權(quán)重來(lái)獲取事件中主謂賓的關(guān)鍵信息。與以隱式或相加的方式學(xué)習(xí)語(yǔ)義組合相比,該模型可以通過(guò)乘法組合事件的語(yǔ)義。這種方式下,即使事件論元只有細(xì)微的表面差異,也能夠在事件表示中體現(xiàn)出語(yǔ)義上的較大差別。
隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,它被廣泛應(yīng)用于語(yǔ)義特征提取任務(wù)上,從文本數(shù)據(jù)中提取特征。Socher等人[12]提出一種用于組合語(yǔ)義的遞歸神經(jīng)網(wǎng)絡(luò)模型(matrix-vector recursive neural network,MVRNN),將每個(gè)單詞和短語(yǔ)都用一個(gè)向量和一個(gè)矩陣表示,通過(guò)解析樹(shù)的語(yǔ)法結(jié)構(gòu),自下而上遞歸組合單詞,從而學(xué)習(xí)任意語(yǔ)法類型和長(zhǎng)度的短語(yǔ)或句子的組合向量表示。2014年,Modi等人[13]提出使用一個(gè)簡(jiǎn)單的組合模型來(lái)表示事件謂詞及其論元的語(yǔ)義,然后通過(guò)組合神經(jīng)網(wǎng)絡(luò)將事件單個(gè)論元的向量表示組合得到事件的向量表示。類似地,Modi等人[14]又提出在計(jì)算事件表示的過(guò)程中,參數(shù)和模型的排序組件是從文本中聯(lián)合估計(jì)的,可以用事件排序任務(wù)來(lái)學(xué)習(xí)嵌入和評(píng)估模型。由于事件不是一個(gè)牢不可破的單位,而是由一些包含謂詞及其參數(shù)的可分離的組件組成,所以所有的組件可以表示為嵌入向
量,并從預(yù)測(cè)原型事件排序中學(xué)習(xí)得到,組件的嵌入是在相同的向量空間中,再通過(guò)組合神經(jīng)網(wǎng)絡(luò)獲得整個(gè)事件的向量表示。文獻(xiàn)[15]則是聯(lián)合使用word2vec和組合神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)事件嵌入,將事件元素的詞向量拼接后,輸入多層全連接神經(jīng)網(wǎng)絡(luò),對(duì)事件元素的詞向量進(jìn)行組合。文獻(xiàn)[16]認(rèn)為,事件是由一系列子事件組成,而且事件通常在兩個(gè)層次上表現(xiàn)出順序結(jié)構(gòu):a)描述特定子事件的詞按語(yǔ)義順序排列;b)屬于同一事件的多個(gè)子事件按順序進(jìn)行。由于這種順序結(jié)構(gòu)的存在,給準(zhǔn)確表示一個(gè)子事件帶來(lái)了難度,所以,Hu等人[16]提出上下文感知的層次長(zhǎng)短期記憶網(wǎng)絡(luò)(context-aware hierarchical long short-term memory,CH-LSTM),用于對(duì)未來(lái)的子事件進(jìn)行預(yù)測(cè)。CH-LSTM模型是一個(gè)兩層的LSTM架構(gòu),第一層用來(lái)編碼子事件,將每個(gè)子事件映射到一個(gè)向量空間中;第二層則是對(duì)觀察到的子事件序列進(jìn)行編碼,其中還結(jié)合了上下文的主題特征。
1.2.2 語(yǔ)義增強(qiáng)
基于神經(jīng)網(wǎng)絡(luò)方法的核心在于將事件嵌入到向量空間進(jìn)行編碼。嵌入的向量保留了事件中的語(yǔ)義信息,克服了事件元素建模較為薄弱的問(wèn)題。雖然以嵌入編碼的方式可以表達(dá)客觀事實(shí),但人類的主觀情感可能會(huì)對(duì)客觀事件的發(fā)生產(chǎn)生影響,且不同事件背后的意圖也有所不同。為更好地建模事件語(yǔ)義,在嵌入編碼工作的基礎(chǔ)上進(jìn)一步增加語(yǔ)義增強(qiáng)的工作,為事件表示學(xué)習(xí)帶來(lái)了新的突破。
不考慮事件語(yǔ)義的情況下,難以區(qū)分事件之間微妙的差別。一方面,如果兩個(gè)事件中單詞重疊較少,就會(huì)被映射為距離較遠(yuǎn)的兩個(gè)向量,例如“X threw bomb(X扔炸彈)”和“Y attacked school(Y襲擊學(xué)校)”;另一方面,如果兩個(gè)事件單詞重疊較多,即使它們關(guān)聯(lián)很小,也容易被映射為距離較近的兩個(gè)向量,被認(rèn)為具有很高的相似度,例如“X broke record(X打破記錄)”和“Y broke glass(Y打破杯子)”。但從事件發(fā)生的意圖來(lái)看,“扔炸彈”和“襲擊學(xué)?!倍紝儆诒┝κ录瑥亩鴳?yīng)具有很高的相似度;從事件參與者的情感來(lái)看,“打破記錄”可能會(huì)很高興,但“打破杯子”可能心情會(huì)很沮喪,因此應(yīng)被認(rèn)為關(guān)聯(lián)很小。為了避免這種情況,研究者在事件中考慮事件意圖以及參與者情感等信息來(lái)對(duì)事件的語(yǔ)義進(jìn)行增強(qiáng)。文獻(xiàn)[7]提出的FEEL模型正是歸屬于語(yǔ)義增強(qiáng)的工作之一。模型所采用的六元組表示方法考慮到了事件背后的意圖等細(xì)微信息,其表示方法可以更好地將文本信息用做常識(shí)性推理。類似地,2019年,Ding等人[17]為了更好地建模事件表示,提出學(xué)習(xí)事件表示時(shí)融入人的情感及意圖等外部常識(shí)知識(shí)。在學(xué)習(xí)事件表示過(guò)程中使用張量神經(jīng)網(wǎng)絡(luò)(neural tensor network,NTN)[18]作為事件表示模型,模型使用雙線性變換顯式地建模謂語(yǔ)與主語(yǔ)、謂語(yǔ)與賓語(yǔ)及三者間的交互關(guān)系。研究表明,具有順承關(guān)系的事件間情感的一致性可以幫助預(yù)測(cè)后續(xù)的事件,所以融入人的情感等外部常識(shí)性知識(shí)在腳本事件預(yù)測(cè)等任務(wù)上能取得更好的效果。
除了事件背后的意圖等信息,語(yǔ)義增強(qiáng)還會(huì)考慮到事件之間的邏輯關(guān)系,如事件之間的因果關(guān)系。因果關(guān)系不僅是一種知識(shí),也是推理和理解未知事件的基礎(chǔ)。Zhao等人[19]嘗試使用事件因果關(guān)系來(lái)預(yù)測(cè)事件,他們建立了一個(gè)抽象的新聞事件因果網(wǎng)絡(luò),從這個(gè)因果網(wǎng)絡(luò)中可以得到一般的因果模式,另外還將因果網(wǎng)絡(luò)嵌入到連續(xù)向量空間,簡(jiǎn)化了事件匹配過(guò)程,使其較易用于其他應(yīng)用。
經(jīng)觀察發(fā)現(xiàn),外部知識(shí)在理解和預(yù)測(cè)事件時(shí)起著重要的作用,為充分利用額外的事件知識(shí),運(yùn)用的方法可以分為使用預(yù)訓(xùn)練和使用圖神經(jīng)網(wǎng)絡(luò)融合外部知識(shí)兩種類型。針對(duì)將常識(shí)整合到語(yǔ)言模型中的預(yù)訓(xùn)練方法,文獻(xiàn)[20]提出了K-ADAPTER,其保持了預(yù)訓(xùn)練模型的原始參數(shù),支持持續(xù)的知識(shí)注入。關(guān)于整合外部知識(shí)的方法,文獻(xiàn)[21]提出了“只限尾”“事件模板”和“關(guān)系嵌入”三種方法,將外部知識(shí)集成到模型中,結(jié)果表明,與不使用外部知識(shí)相比,三種方法的效果均有超過(guò)0.44%的提升。雖然預(yù)訓(xùn)練的方法取得了巨大成功,但其缺乏可解釋性,即難以明確說(shuō)明使用到了訓(xùn)練語(yǔ)料庫(kù)中的哪些知識(shí)。而圖神經(jīng)網(wǎng)絡(luò)能提供良好的可解釋性,因此文獻(xiàn)[22]提出從事件圖中學(xué)習(xí)知識(shí),以引入一個(gè)潛在變量的方式對(duì)中間事件的信息建模,從而實(shí)現(xiàn)融合外部知識(shí)。
1.2.3 小結(jié)
本節(jié)針對(duì)事件表示學(xué)習(xí)方法中存在的問(wèn)題與挑戰(zhàn)進(jìn)行了總結(jié),如表2所示。
無(wú)論是用嵌入編碼的形式表示事件還是將外部信息融入事件表示進(jìn)行語(yǔ)義增強(qiáng),目的都在于將結(jié)構(gòu)化的事件信息表示為機(jī)器可理解的形式?;谠~向量的方法將詞轉(zhuǎn)換成稠密向量,優(yōu)點(diǎn)在于包含更多的信息,但面臨著元素間交互較為薄弱的問(wèn)題;基于神經(jīng)網(wǎng)絡(luò)的方法使用神經(jīng)網(wǎng)絡(luò)模型從文本中提取特征進(jìn)行編碼,有效解決了上述問(wèn)題,但由于事件中包含豐富的語(yǔ)義信息,所以缺乏對(duì)事件語(yǔ)義的充分保留;為保留事件的語(yǔ)義信息,在建模事件語(yǔ)義時(shí)考慮事件外部信息,即語(yǔ)義增強(qiáng)。
2 腳本建模
確定事件的表征后,對(duì)腳本進(jìn)行建模。根據(jù)建模方法的不同,將其分為基于統(tǒng)計(jì)學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。
2.1 基于統(tǒng)計(jì)學(xué)習(xí)
早期的腳本建模方法主要是統(tǒng)計(jì)學(xué)習(xí)方法,這類模型通過(guò)統(tǒng)計(jì)訓(xùn)練集中事件發(fā)生的概率來(lái)進(jìn)行后續(xù)的預(yù)測(cè)。Chambers等人[2]提出使用PMI(pairwise mutual information)學(xué)習(xí)敘事關(guān)系,度量事件和敘事鏈之間的關(guān)系。PMI統(tǒng)計(jì)訓(xùn)練集任意兩個(gè)事件同時(shí)發(fā)生的頻率作為這兩個(gè)事件同時(shí)發(fā)生的概率,以進(jìn)行后續(xù)事件的預(yù)測(cè)。敘事鏈?zhǔn)且唤M敘述事件,由元組(L,O)構(gòu)成,其中L由一系列的事件—關(guān)系對(duì)組成,O是事件的部分時(shí)序關(guān)系。為了生成敘事事件鏈,首先將依存句法分析器與共指消解相結(jié)合收集事件腳本統(tǒng)計(jì)數(shù)據(jù)并預(yù)測(cè)腳本事件,對(duì)于其訓(xùn)練語(yǔ)料庫(kù)中的每個(gè)文檔,使用共指消解識(shí)別所有實(shí)體,并使用依存句法分析器識(shí)別具有實(shí)體作為主語(yǔ)或賓語(yǔ)的所有動(dòng)詞。另外將事件定義為動(dòng)詞加上依賴類型(主語(yǔ)或賓語(yǔ)),并為每個(gè)實(shí)體收集共同論元所參與的事件鏈。然后,計(jì)算在語(yǔ)料庫(kù)中發(fā)生的事件鏈中所有事件對(duì)的PMI,再通過(guò)最大化來(lái)找到下一個(gè)最有可能發(fā)生的事件。
給定一個(gè)包含n個(gè)事件的事件鏈E=(e1,e2,…,en-1,en)以及一個(gè)候選事件c,事件ei采用Predicate-GR的表示方法。PMI計(jì)算過(guò)程如式(1)~(3)所示,其中,n是事件鏈中的事件數(shù),ei代表第i個(gè)事件,m是訓(xùn)練語(yǔ)料庫(kù)中的候選事件c的數(shù)量,C(ei,c)是事件對(duì)(ei,c)的共現(xiàn)次數(shù)。
由PMI可知,通過(guò)給定部分事件鏈,可以預(yù)測(cè)屬于該腳本的其他事件。進(jìn)一步地,Jans等人[23]基于Camp;J08的工作提出了Bigram。Bigram采用二元條件概率來(lái)表示兩個(gè)事件的關(guān)聯(lián)強(qiáng)度,并按照觀察事件鏈的順序建模事件鏈,其建模思想為:以個(gè)別先前已有事件為條件計(jì)算后來(lái)的每個(gè)事件元組的最大似然概率。這種方法按照觀察事件鏈的順序建模事件鏈。
計(jì)算事件間的條件概率如式(4)所示(以e1和e2為例)。
候選事件c的得分則是由上下文事件ei和候選事件之間的平均概率得到的,如式(5)所示。
總結(jié)起來(lái),PMI和Bigram這類基于統(tǒng)計(jì)學(xué)習(xí)方法的模型是通過(guò)統(tǒng)計(jì)訓(xùn)練集中的事件發(fā)生的概率來(lái)進(jìn)行后續(xù)預(yù)測(cè),但對(duì)訓(xùn)練集中沒(méi)有出現(xiàn)過(guò)的事件則無(wú)法進(jìn)行預(yù)測(cè)。
2.2 基于深度學(xué)習(xí)
由于統(tǒng)計(jì)學(xué)習(xí)方法是簡(jiǎn)單地從概率論的角度給出每個(gè)事件發(fā)生的概率,而忽略了事件之間內(nèi)在的聯(lián)系。隨著研究的進(jìn)一步深入,基于統(tǒng)計(jì)學(xué)習(xí)的方法逐步被基于深度學(xué)習(xí)的方法所代替。深度神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的表征能力,同時(shí)數(shù)據(jù)中的信息可以在模型中進(jìn)行有效編碼。本節(jié)根據(jù)任務(wù)發(fā)展階段,將基于深度學(xué)習(xí)的腳本事件預(yù)測(cè)方法劃分為基于事件對(duì)、事件鏈、事件圖和結(jié)合型建模四個(gè)部分進(jìn)行回顧。
2.2.1 事件對(duì)
基于事件對(duì)的方法研究主要集中在對(duì)事件對(duì)的關(guān)聯(lián)進(jìn)行建模,其建模方法是將候選事件c與整個(gè)腳本的關(guān)系拆解為和腳本中每個(gè)事件ei之間連貫性分?jǐn)?shù)的聚合,公式如式(6)所示。
coh(c,e)=Aggei∈e(coh(c,ei))(6)
word2vec[9]和eventcomp模型[15]正是其中的典型方法。word2vec采用兩個(gè)事件嵌入的余弦相似性作為事件對(duì)的關(guān)聯(lián)強(qiáng)度;eventcomp模型則是由輸入層、論元組合層和事件組合層組成,學(xué)習(xí)單詞的嵌入向量表示和事件的向量表示,以此來(lái)預(yù)測(cè)兩個(gè)事件是否會(huì)出現(xiàn)在同一個(gè)事件鏈中。如圖1所示,以兩個(gè)事件為例。在模型中,謂詞和論元進(jìn)行非線性組合,再通過(guò)一個(gè)共享權(quán)重的孿生神經(jīng)網(wǎng)絡(luò)(siamese network)將兩個(gè)事件的向量表示映射到新的空間,將其組合到一起,形成新的向量空間表示。最后利用損失函數(shù)計(jì)算出這兩個(gè)輸入事件在同一鏈中出現(xiàn)的關(guān)聯(lián)強(qiáng)度。訓(xùn)練后的eventcomp模型與基于統(tǒng)計(jì)學(xué)習(xí)的方法相比,在NYT英文數(shù)據(jù)集上,Acc指標(biāo)提升了905%,證明了將深度學(xué)習(xí)應(yīng)用在腳本事件預(yù)測(cè)領(lǐng)域是有效的。
基于事件對(duì)的方法重點(diǎn)關(guān)注事件和候選事件之間的相關(guān)性,因而可以用來(lái)應(yīng)對(duì)更靈活的事件順序。但它忽略了敘事事件鏈中各個(gè)事件之間的時(shí)序信息,而敘事事件鏈中各個(gè)事件的發(fā)生順序相互影響,先發(fā)生的事情必然影響后續(xù)事件的預(yù)測(cè)。
2.2.2 事件鏈
基于事件鏈的方法重點(diǎn)關(guān)注敘事事件鏈中各個(gè)事件之間的時(shí)序信息,將已知的事件組織成事件序列,并認(rèn)為待預(yù)測(cè)事件是序列的下一個(gè)元素。而遞歸神經(jīng)網(wǎng)絡(luò)(RNN)則常被用來(lái)處理時(shí)序信息,原因在于RNN將上個(gè)時(shí)間節(jié)點(diǎn)的隱節(jié)點(diǎn)狀態(tài)也作為了神經(jīng)網(wǎng)絡(luò)單元的輸入。但它也存在著一些問(wèn)題,首先是“長(zhǎng)距離依賴”問(wèn)題,所謂依賴,即某個(gè)單詞可能與其距離較遠(yuǎn)的某個(gè)單詞具有強(qiáng)依賴關(guān)系。以圖2為例,第一句話中,was受dog影響所以是單數(shù);而第二句話中,were則是受dogs影響,并非它們之前的單詞food。當(dāng)神經(jīng)網(wǎng)絡(luò)的節(jié)點(diǎn)經(jīng)過(guò)許多階段的計(jì)算后,之前較長(zhǎng)的時(shí)間片的特征已經(jīng)被覆蓋,所以難以建立跨度較大的依賴性。由于句子之間跨度很大,RNN則容易出現(xiàn)梯度消失問(wèn)題從而捕捉不到句一和句二之間的依賴關(guān)系,最終造成語(yǔ)法錯(cuò)誤。所以,為了解決RNN存在的問(wèn)題,提出了長(zhǎng)短期記憶(LSTM)[24]。LSTM引入了門控(gate)機(jī)制用于控制特征的流通和損失,從而解決了長(zhǎng)距離依賴和梯度消失問(wèn)題。
Pichotta等人[25]率先提出將LSTM用于腳本事件預(yù)測(cè)任務(wù),在任務(wù)中直接合并事件論元的名詞信息,并在模型中引入LSTM和GRU,在實(shí)現(xiàn)編碼遠(yuǎn)距離傳播事件的同時(shí)不丟失歷史信息。具體來(lái)說(shuō),他們將腳本學(xué)習(xí)任務(wù)定義為一個(gè)序列建模任務(wù),使用訓(xùn)練模型來(lái)預(yù)測(cè)下一個(gè)輸入,在每個(gè)時(shí)間步長(zhǎng)中,都有一個(gè)事件組件被輸入到LSTM模型中。在輸入整個(gè)事件鏈后,模型將輸出一個(gè)附加事件的預(yù)測(cè)。在推斷已有事件和新事件這兩項(xiàng)任務(wù)上進(jìn)行評(píng)估,使用LSTM后的方法表現(xiàn)均優(yōu)于之前的方法。但隨著事件文本數(shù)量的增多,序列模型進(jìn)行推斷的難度也會(huì)增大。進(jìn)一步地,Pichotta等人[26]提出事件鏈的原始文本可以被直接用來(lái)預(yù)測(cè)缺失事件。他們采用句子級(jí)RNN編碼器—解碼器[27]模型進(jìn)行文本預(yù)測(cè),在實(shí)驗(yàn)中將由原始文本訓(xùn)練的系統(tǒng)與由結(jié)構(gòu)化事件表示的相同文本的LSTM模型進(jìn)行了比較,研究結(jié)果表明兩者結(jié)果相當(dāng),僅在Acc指標(biāo)上有0.1的差別。
事件通常由一系列子事件組成,例如地震事件就會(huì)包含險(xiǎn)情預(yù)報(bào)、地震發(fā)生和救援工作等一系列的子事件,因此利用歷史事件來(lái)自動(dòng)預(yù)測(cè)未來(lái)的子事件預(yù)測(cè)是非常有必要的。Hu等人[16]提出了一個(gè)端到端的模型CH-LSTM(context-aware hierarchical long short-term memory),它無(wú)須手動(dòng)標(biāo)記特征,并且可以生成訓(xùn)練集中沒(méi)有的新事件。CH-LSTM正是使用了已發(fā)生的子事件進(jìn)行預(yù)測(cè),與文獻(xiàn)[26]的工作類似,將事件鏈原始的子事件的文本作為輸入,未來(lái)可能發(fā)生的子事件的文本描述作為輸出。CH-LSTM模型使用兩級(jí)LSTM架構(gòu),在第一層,編碼子事件后將子事件映射到另一個(gè)嵌入事件當(dāng)中;而在第二層,則是對(duì)觀察到的子事件順序進(jìn)行編碼;另外還結(jié)合了上下文的主題特征來(lái)增強(qiáng)語(yǔ)義。由于CH-LSTM模型考慮了兩個(gè)層次上的順序結(jié)構(gòu),還合并了額外的上下文特征,在單詞分類錯(cuò)誤任務(wù)上和困惑度(perplexity)這兩個(gè)指標(biāo)上相比LSTM,分別降低了5.17%和73.26%,所以證明考慮事件的兩級(jí)結(jié)構(gòu)可以有效提升模型的預(yù)測(cè)能力。
事件鏈中存在著豐富的事件片段關(guān)系,若能充分利用這些事件片段之間的關(guān)系,則能提升后續(xù)事件預(yù)測(cè)的準(zhǔn)確性。而自注意力機(jī)制[28]則可以用來(lái)提取不同的事件片段并將事件鏈表示成事件片段的組合,學(xué)習(xí)更準(zhǔn)確的事件表示?;诖?,Lyu等人[29]提出SAM-Net,采用動(dòng)態(tài)記憶網(wǎng)絡(luò)來(lái)提取事件鏈的特征,將事件鏈表示為一組事件片段。由于不同的個(gè)體事件或事件片段可能與后續(xù)事件有不同的語(yǔ)義關(guān)系,SAM-Net使用兩種注意力機(jī)制為每個(gè)個(gè)體事件和事件片段分配不同的對(duì)應(yīng)權(quán)重,而模型對(duì)后續(xù)事件的預(yù)測(cè)則是基于這兩種注意力機(jī)制的結(jié)合來(lái)實(shí)現(xiàn)的。SAM-Net解決了兩個(gè)很重要的問(wèn)題:
a)如何準(zhǔn)確地表示事件鏈。由于事件鏈?zhǔn)怯梢幌盗惺录M成,所以事件可能比句子中的單詞更稀疏。研究者在研究中使用自注意力機(jī)制,從事件鏈中獲取不同的事件片段,為了減少冗余,再采用DenseNet[30]進(jìn)行特征提取,同時(shí)得到事件鏈的向量表示。
b)如何將事件鏈和候選事件集成在一起并表示它們之間的關(guān)系。SAM-Net模型如圖3所示,首先使用事件級(jí)注意力機(jī)制匹配候選事件與單個(gè)事件,獲取事件級(jí)的上下文表征;然后,用鏈級(jí)注意力機(jī)制匹配候選事件和事件片段,獲得鏈級(jí)上下文表征;最后,整合事件級(jí)和鏈級(jí)上下文表征,與事件鏈表征進(jìn)行交互預(yù)測(cè)后續(xù)事件。
鑒于事件表示學(xué)習(xí)的方法主要關(guān)注事件或鏈級(jí)的粗粒度連接,而忽略了事件之間更細(xì)粒度的連接。Wang等人[31]提出了一種新的事件表示學(xué)習(xí)范式MCer,通過(guò)集成事件在多個(gè)粒度級(jí)別上的連接,包括論元級(jí)別、事件級(jí)別和鏈級(jí)別,來(lái)增強(qiáng)事件的表示學(xué)習(xí)。之前的大部分工作僅考慮單一參與者所對(duì)應(yīng)的事件鏈。在事件層面,以往的研究是將事件視為一個(gè)帶有參與者的動(dòng)詞,而忽略了其他有用的屬性,如參與者的意圖和狀態(tài)等;在腳本層面,大多數(shù)研究也只考慮與一個(gè)共同的主角對(duì)應(yīng)的單一事件序列,這種事件表示方法缺乏必要的信息來(lái)獲得更準(zhǔn)確的預(yù)測(cè)。因此,Bai等人[8]提出了一個(gè)基于Transformer的模型,利用不同參與者所對(duì)應(yīng)的敘事事件鏈來(lái)建模各自的行為趨勢(shì),稱為MCPredictor,該模型集成了深度事件級(jí)和腳本級(jí)信息。事件級(jí)信息包含描述事件的必要元素,如動(dòng)詞及其參與者,而腳本級(jí)信息則描述了事件是如何連接和結(jié)構(gòu)化的,例如通過(guò)時(shí)間順序或共同參與者。在事件層面,MCPredictor保留文本中描述事件的所有組成部分來(lái)獲得更全面的事件語(yǔ)義表示,它包含一個(gè)事件編碼組件和一個(gè)文本編碼組件,通過(guò)對(duì)兩個(gè)組件的輸出進(jìn)行聚合,就可以得到更全面的事件語(yǔ)義表示;在腳本層面上,通過(guò)注意力機(jī)制聚集了多個(gè)敘事事件鏈,以刻畫(huà)不同參與者各自的行為趨勢(shì)。集成了事件級(jí)和腳本級(jí)的信息后,模型預(yù)測(cè)性能實(shí)現(xiàn)了超11.45%的提升。
2.2.3 事件圖
與基于事件對(duì)和事件鏈的模型相比,基于圖的模型可以表達(dá)事件之間更密集、更廣泛的聯(lián)系,其中包含更豐富的腳本知識(shí)。
過(guò)去的研究大多是從語(yǔ)料庫(kù)中自動(dòng)地學(xué)習(xí)腳本知識(shí),由于一些腳本事件屬于常識(shí)性知識(shí),并未在文本中詳細(xì)闡述,這在一定程度上限制了腳本學(xué)習(xí)的發(fā)展。鑒于此,Regneri等人[32]提出從眾包數(shù)據(jù)中構(gòu)建特定場(chǎng)景的時(shí)間腳本圖,在構(gòu)建圖的過(guò)程中,關(guān)注哪些短語(yǔ)可以用來(lái)描述腳本中的同一事件,以及這些事件發(fā)生的時(shí)間順序有何約束條件。在這之后利用事件序列描述(event sequence descriptions,ESD)來(lái)區(qū)分發(fā)生在故事腳本中不同時(shí)間點(diǎn)上的事件,然后使用多序列比對(duì)(multiple sequence alignment,MSA)算法來(lái)識(shí)別相應(yīng)的事件描述,提取特定場(chǎng)景的釋義和時(shí)間順序信息,從而計(jì)算出該場(chǎng)景的時(shí)間腳本圖。這個(gè)腳本圖說(shuō)明了哪些短語(yǔ)可以描述場(chǎng)景中的同一事件,以及這些事件可以以什么順序發(fā)生。
現(xiàn)實(shí)生活中的兩個(gè)事件通常存在著各種各樣的關(guān)系,如時(shí)序關(guān)系等,但這種關(guān)系往往不能從文本中推斷出來(lái)。進(jìn)一步地,如果腳本事件以圖結(jié)構(gòu)表示,就可以使用各種圖算法來(lái)解決與腳本相關(guān)的任務(wù),并利用事件之間的關(guān)系。為了更好地處理面向事件的文本和信息需求,將文檔級(jí)事件表示為由句子級(jí)事件構(gòu)建的結(jié)構(gòu),Glava等人[33]提出用事件圖—EvGraph構(gòu)造文本信息的新方法,其中事件圖的節(jié)點(diǎn)表示單個(gè)事件提及,而邊表示事件提及之間的語(yǔ)義關(guān)系(例如時(shí)間關(guān)系)。不同的是,以往研究主要關(guān)注于單個(gè)事件提取任務(wù),而文獻(xiàn)[33]則是描述了一個(gè)完整的端到端系統(tǒng),用于從文本中提取事件圖,通過(guò)引入事件圖的方法彌補(bǔ)了目前句子級(jí)事件和文檔級(jí)事件之間存在的差距。
事件的演變和發(fā)展存在基本規(guī)則,發(fā)現(xiàn)事件之間的演變模式對(duì)事件預(yù)測(cè)、策略決斷和情景對(duì)話系統(tǒng)的發(fā)展有極大價(jià)值。隨著技術(shù)的發(fā)展,越來(lái)越多的研究者開(kāi)始關(guān)注一種基于事件的知識(shí)圖譜,即事理圖譜。相較傳統(tǒng)的知識(shí)圖譜,事理圖譜更加關(guān)注謂詞性事件及其關(guān)系。知識(shí)圖譜與事理圖譜的不同點(diǎn)以及相同點(diǎn)如表3所示。
基于此,Li等人[34]提出了一種新的方法來(lái)學(xué)習(xí)事件之間更稠密的連接信息,首先從語(yǔ)料庫(kù)中抽取敘事事件鏈來(lái)構(gòu)建敘事事理圖譜(narrative event evolutionary graph,NEEG),之后基于圖學(xué)習(xí)事件表示,圖中的節(jié)點(diǎn)代表事件,邊表示事件之間的關(guān)系,最后再利用得到的表示向量預(yù)測(cè)后續(xù)事件。由于事理圖譜規(guī)模較大,借鑒分治的思想提出了縮放圖神經(jīng)網(wǎng)絡(luò)(scaled graph neural network,SGNN),將當(dāng)前所需子圖作為樣本以解決NEEG上的推理問(wèn)題,即每次從事理圖譜中抽取一個(gè)子圖來(lái)建模事件交互并學(xué)習(xí)事件表示,如圖4所示。該研究進(jìn)一步表明了事件圖結(jié)構(gòu)可以顯著提高事件預(yù)測(cè)性能,并增加了模型的魯棒性。進(jìn)一步地,Xiong等人[35]發(fā)現(xiàn)使用預(yù)訓(xùn)練語(yǔ)言模型與圖神經(jīng)網(wǎng)絡(luò)相結(jié)合的框架進(jìn)行腳本事件預(yù)測(cè)會(huì)產(chǎn)生更好的效果。
基于事件圖的方法主要是使用圖神經(jīng)網(wǎng)絡(luò)對(duì)圖結(jié)構(gòu)信息進(jìn)行傳遞、聚合以及更新,這種方法在建模上顯示出了較明顯的優(yōu)勢(shì)。相比基于事件對(duì)的方法來(lái)說(shuō),性能有了超越21.93%的提升;相比基于事件圖的方法而言,性能有了超越1.62%的提升。
2.2.4 結(jié)合型建模
1)結(jié)合事件對(duì)和事件鏈
順序靈活的事件鏈可能存在過(guò)擬合問(wèn)題,而事件對(duì)可以將鏈中的時(shí)間順序作為事件對(duì)建模的特征,緩解LSTM過(guò)擬合問(wèn)題,同時(shí)LSTM具有編碼無(wú)界序列且不丟失歷史事件的優(yōu)勢(shì)。所以,Wang等人[36]提出了PairLSTM,整合了基于鏈的時(shí)間順序?qū)W習(xí)和基于事件對(duì)的一致性學(xué)習(xí)的優(yōu)勢(shì)。另外,事件的多論元結(jié)構(gòu)還存在稀疏性問(wèn)題,因此模型使用隱藏層來(lái)學(xué)習(xí)事件嵌入,在計(jì)算事件對(duì)關(guān)系中使用LSTM隱藏狀態(tài)作為現(xiàn)有事件的特征表示。文獻(xiàn)[36]還考慮到不同的事件對(duì)候選事件的重要性不同,使用了一個(gè)動(dòng)態(tài)記憶網(wǎng)絡(luò)(dynamic memory network)自動(dòng)地為每一個(gè)事件計(jì)算事件權(quán)值,以推斷出最佳的候選事件。
2)結(jié)合事件鏈和事理圖譜
單獨(dú)使用基于事件鏈或者是事件圖的方法來(lái)進(jìn)行事件預(yù)測(cè)時(shí),面臨著以下問(wèn)題:首先是無(wú)法充分考慮論元之間的相關(guān)性,其次是不能同時(shí)利用事件鏈和事件圖中的信息。為了解決以上問(wèn)題,克服事件表示不全面、信息融合不充分的問(wèn)題,孫盼等人[37]提出了一種結(jié)合事件鏈和事理圖譜的腳本事件預(yù)測(cè)方法(ECGNet)。具體來(lái)說(shuō),為得到更準(zhǔn)確的事件表示,先將每個(gè)事件的各個(gè)元素組成一個(gè)短句,使用Transformer獲取元素之間的序列信息;然后,構(gòu)建一個(gè)長(zhǎng)程時(shí)序模塊(LRTO)學(xué)習(xí)事件鏈中的時(shí)序信息;同時(shí),構(gòu)建一個(gè)全局事件演化模塊(GEEP),先根據(jù)訓(xùn)練集構(gòu)建敘事事件鏈,再通過(guò)可縮放的圖神經(jīng)網(wǎng)絡(luò)(scaled graph neural network,SGNN)獲取隱藏在事理圖譜中的演化模式;最后,通過(guò)門控注意力機(jī)制動(dòng)態(tài)融合時(shí)序信息和演化模式進(jìn)行腳本事件預(yù)測(cè)。
現(xiàn)有的方法主要關(guān)注候選事件和上下文事件之間的語(yǔ)義相似性,忽略了事件鏈尾部的事件,而尾部事件也很容易影響后續(xù)事件的發(fā)展方向。因此,Huang等人[38]提出了一個(gè)新的腳本事件預(yù)測(cè)模型。模型由Token編碼層、事件表示層
和預(yù)測(cè)層組成。其中事件預(yù)測(cè)層由事件得分和尾部事件得分兩個(gè)部分組成。事件得分模塊利用包含一個(gè)單一候選事件的整個(gè)事件鏈的信息來(lái)進(jìn)行預(yù)測(cè),而尾部事件得分模塊則是通過(guò)構(gòu)建事理圖譜,利用鄰接矩陣來(lái)計(jì)算尾部事件得分。
3)多模型結(jié)合
將不同建模方法結(jié)合起來(lái)可以充分利用它們的優(yōu)勢(shì),有效解決事件表示不充分等問(wèn)題,有助于后續(xù)事件的推理工作。文獻(xiàn)[31]提出的MCer,通過(guò)集成論元級(jí)別、事件級(jí)別和鏈級(jí)別的表示,增強(qiáng)事件的表示學(xué)習(xí)。此外,研究表明采用MCer與其LSTM變體(即MCer-LSTM)相結(jié)合會(huì)產(chǎn)生更好的效果,結(jié)合后的模型在NYT數(shù)據(jù)集上與單獨(dú)使用MCer相比,準(zhǔn)確率提升了412%。
預(yù)訓(xùn)練語(yǔ)言模型具有更強(qiáng)的提取特征能力,很多自然語(yǔ)言處理任務(wù)使用預(yù)訓(xùn)練+微調(diào)的機(jī)制產(chǎn)生了更好的效果,腳本事件預(yù)測(cè)也不例外。文獻(xiàn)[21]將預(yù)先訓(xùn)練過(guò)的RoBERTa模型轉(zhuǎn)移到事件序列的模型中,相較于SGNN模型,在MCNC任務(wù)上的準(zhǔn)確率提升了2.63%。Du等人[39]考慮使用BERT模型自動(dòng)構(gòu)建事件圖,在BERT中加入了一個(gè)額外的結(jié)構(gòu)化變量學(xué)習(xí)預(yù)測(cè)訓(xùn)練過(guò)程中的事件連接,稱之為GraphBERT,其可以預(yù)測(cè)不可見(jiàn)事件的連接強(qiáng)度,從而避免事件圖的稀疏性,提高了事件預(yù)測(cè)精度。與RoBerta相比,準(zhǔn)確率提升了2.06%。
2.2.5 小結(jié)
如表4所示,將腳本事件預(yù)測(cè)方法的發(fā)展歷程劃分為基于統(tǒng)計(jì)學(xué)習(xí)和深度學(xué)習(xí)的方法。早期的腳本建模方法主要是基于統(tǒng)計(jì)學(xué)習(xí)方法,即通過(guò)統(tǒng)計(jì)訓(xùn)練集中的事件發(fā)生的概率來(lái)進(jìn)行后續(xù)預(yù)測(cè),其中典型的方法為PMI(ponitwise mutual information)和Bigram方法。但是基于統(tǒng)計(jì)學(xué)習(xí)的方法忽略了敘事事件鏈中各個(gè)事件之間的時(shí)序信息,僅考慮各個(gè)事件和候選事件的相關(guān)性,這在很大程度上限制了模型的預(yù)測(cè)能力。
隨著深度學(xué)習(xí)進(jìn)入研究者的視野,上述的統(tǒng)計(jì)學(xué)習(xí)方法逐漸被基于深度學(xué)習(xí)的方法所替代。基于深度學(xué)習(xí)的方法可以自動(dòng)學(xué)習(xí)出模式特征,并將特征學(xué)習(xí)融入到建立模型的過(guò)程中,事件預(yù)測(cè)能力取得了極大的進(jìn)步。因此,按照發(fā)展歷程將后續(xù)的腳本建模方法從基于事件對(duì)、事件鏈、事件圖和結(jié)合型建模的角度進(jìn)行闡述?;谑录?duì)的方法核心為計(jì)算事件對(duì)之間的關(guān)聯(lián)強(qiáng)度,但忽略了各個(gè)事件之間的時(shí)序信息;基于事件鏈的方法則是對(duì)基于事件對(duì)方法的改進(jìn),關(guān)注敘事事件鏈中各個(gè)事件的時(shí)序信息,但事件間的連接信息未得到充分利用;基于事件圖的方法出發(fā)點(diǎn)正在于此,利用圖的方法對(duì)事件之間的連接信息進(jìn)行建模,但進(jìn)行事件預(yù)測(cè)時(shí)同樣存在著信息融合不充分的問(wèn)題;結(jié)合型建模的方法在一定程度上克服了上述問(wèn)題,取長(zhǎng)補(bǔ)短,將多種建模方法結(jié)合起來(lái),有效提高了事件預(yù)測(cè)效率。
3 實(shí)驗(yàn)分析
為了分析各種模型在腳本事件預(yù)測(cè)任務(wù)上的表現(xiàn),本章對(duì)經(jīng)典的方法進(jìn)行了分析。實(shí)驗(yàn)主要關(guān)注如下方面:采用對(duì)比實(shí)驗(yàn)的手段,對(duì)基于統(tǒng)計(jì)學(xué)習(xí)和深度學(xué)習(xí)的方法分別進(jìn)行了分析;通過(guò)在相同數(shù)據(jù)集下各種方法的性能,證明深度學(xué)習(xí)方法對(duì)事件預(yù)測(cè)的重要意義;通過(guò)對(duì)比深度學(xué)習(xí)方法下的不同建模方法,討論各種模型的準(zhǔn)確度的區(qū)別,證明多建模結(jié)合的方法顯示出更好的效果。
3.1 數(shù)據(jù)集
數(shù)據(jù)集中的事件鏈來(lái)自Gigaword語(yǔ)料庫(kù)的紐約時(shí)報(bào)(NYT)部分,其中每個(gè)事件元組由Camp;C工具進(jìn)行詞性標(biāo)注和依賴解析,使用OpenNLP進(jìn)行短語(yǔ)結(jié)構(gòu)解析和共指消解。按照140331∶10000∶10000的比例劃分訓(xùn)練集、驗(yàn)證集和測(cè)試集。每個(gè)上下文事件鏈有5個(gè)候選事件,其中只有一個(gè)是正確的。
3.2 評(píng)估方法及評(píng)價(jià)指標(biāo)
為了對(duì)腳本事件預(yù)測(cè)任務(wù)進(jìn)行評(píng)測(cè),對(duì)不同模型進(jìn)行比較,研究者們提出了不同的評(píng)測(cè)方法。Chambers等人[2]首先提出用敘事完形填空(narrative cloze,NC)評(píng)測(cè)腳本事件預(yù)測(cè)任務(wù)。敘事完型填空給定文檔中的一系列敘事事件(其中1個(gè)事件已被刪除)和5個(gè)隨機(jī)排序的候選事件(其中1個(gè)為該事件上下文的正確的后續(xù)事件,其余4個(gè)事件是從數(shù)據(jù)集中隨機(jī)抽樣出的處于別的事件上下文中的事件)。這些事件中,使用隨機(jī)抽樣出的事件主體替換為當(dāng)前事件上下文的主體。具體來(lái)說(shuō),以McCann為主角的文章為例:
a)McCann threw two interceptions early(McCann提前進(jìn)行了兩次攔截);
b)Toledo pulled McCann aside and told him he’d start(Toledo把McCann拉到一邊,告訴他自己要開(kāi)始了);
c)McCann quickly completed his first two passes(McCann很快就完成了他的前兩次傳球)。
以上敘事模型由五個(gè)事件表示:(threw, subject)(pulled, object)(told, object)(start, subject)(completed, subject)。這些動(dòng)詞/依賴事件構(gòu)成了一個(gè)敘事總結(jié)模型,本文可以刪除(threw, subject),并使用剩下的四個(gè)事件來(lái)對(duì)這個(gè)丟失的事件進(jìn)行排序。通過(guò)刪除一對(duì)這樣的配對(duì),以此來(lái)對(duì)模型進(jìn)行評(píng)估。但是NC任務(wù)評(píng)測(cè)仍存在不足之處,首先對(duì)于任意給定事件,后續(xù)事件都有多個(gè)可信的選擇;其次它需要搜索整個(gè)事件詞匯表,非常大的詞匯量會(huì)導(dǎo)致計(jì)算問(wèn)題。
敘事完形填空的另外一個(gè)問(wèn)題是有時(shí)會(huì)產(chǎn)生多個(gè)可信答案,這就需要手動(dòng)評(píng)估系統(tǒng)輸出的答案,導(dǎo)致成本過(guò)高。為了解決這一問(wèn)題,Modi[40]提出了對(duì)抗性敘事完形填空adversarial narrative cloze (ANC)任務(wù)。ANC任務(wù)顯示兩個(gè)事件序列,一個(gè)是正確的事件序列;另一個(gè)是除了有一個(gè)事件被一個(gè)隨機(jī)事件取代外,其他事件均與正確序列相同的序列。其任務(wù)是猜測(cè)這兩個(gè)事件中的哪一個(gè)是正確的事件序列。
與之前評(píng)估方法有所不同,為了評(píng)估模型對(duì)文本的理解能力,Mostafazadeh等人[41]提出了故事填空任務(wù)(story cloze test,SCT)來(lái)評(píng)估模型的效果,即預(yù)測(cè)一個(gè)未完成的故事結(jié)局。SCT并不是預(yù)測(cè)一個(gè)事件,而是選擇一個(gè)完整的句子來(lái)完成給定的故事。因此NC任務(wù)可以看做是故事結(jié)束任務(wù)中的一個(gè)子任務(wù),并且事件鏈之外的信息對(duì)于SCT任務(wù)也很有用。
另外,2016年,Granroth-Wilding等人[15]還提出了一種被稱為多選完形填空(multiple choice narrative cloze,MCNC)的評(píng)估標(biāo)準(zhǔn)來(lái)評(píng)價(jià)腳本事件預(yù)測(cè)模型的有效性(圖5)。MCNC根據(jù)特定場(chǎng)景下已經(jīng)發(fā)生的一系列事件,從給定的候選事件集中選擇接下來(lái)最有可能發(fā)生的后續(xù)事件,候選事件集中有且僅有一個(gè)事件是標(biāo)準(zhǔn)答案,并且候選事件集中的事件共享主語(yǔ)。MCNC對(duì)腳本事件預(yù)測(cè)任務(wù)進(jìn)行了簡(jiǎn)化,大大縮小了候選事件集的范圍,把候選事件集從所有的事件縮小至有限個(gè)事件。在MCNC中,系統(tǒng)能夠利用事件上下文中更豐富的信息。
為了評(píng)估學(xué)習(xí)模型的質(zhì)量,Lee等人[42]基于Granroth-Wilding等人[15]的工作,提出了額外的兩種評(píng)測(cè)指標(biāo):多選敘事序列(multiple-choice narrative sequence,MCNS)和多選敘事解釋(multiple-choice narrative explanation,MCNE)。與MCNC不同的是,MCNS任務(wù)是除了第一個(gè)事件外,為每個(gè)事件生成多個(gè)選項(xiàng),再將每個(gè)事件鏈建模為馬爾可夫鏈,最后用推理算法識(shí)別得分最高的事件鏈。MCNE任務(wù)則是同時(shí)提供了開(kāi)始事件和結(jié)束事件,而預(yù)測(cè)任務(wù)則是推斷兩者之間發(fā)生了什么??偟膩?lái)說(shuō),MCNS和MCNE旨在評(píng)估模型推斷更長(zhǎng)事件序列的能力,從而更好地解釋敘事結(jié)構(gòu)。
3.3 實(shí)驗(yàn)結(jié)果
選取Gigaword語(yǔ)料庫(kù)中NYT的一部分作為數(shù)據(jù)集,MCNC作為評(píng)估方法,準(zhǔn)確度(accuracy)作為評(píng)估指標(biāo)。為了對(duì)不同方法的性能差異進(jìn)行說(shuō)明,針對(duì)每一類方法選取了部分基線模型,其性能對(duì)比如表5所示。
3.4 結(jié)果分析
從表5的實(shí)驗(yàn)結(jié)果可以看出,相比于基于統(tǒng)計(jì)學(xué)習(xí)的方法PMI和Bigram,基于深度學(xué)習(xí)方法的準(zhǔn)確度有了超過(guò)19.05%的提升,極大地提高了預(yù)測(cè)事件的效率。原因在于,基于統(tǒng)計(jì)學(xué)習(xí)的方法魯棒性差且模型預(yù)測(cè)能力不足,而深度學(xué)習(xí)方法具備很強(qiáng)的學(xué)習(xí)能力。
通過(guò)對(duì)比基于深度學(xué)習(xí)的各種方法發(fā)現(xiàn),從基于事件對(duì)的方法eventcomp到基于事件鏈的方法LSTM到基于事件圖的方法NEEG再到結(jié)合型建模的方法ECGNet,預(yù)測(cè)性能正在逐步提升。與基于統(tǒng)計(jì)學(xué)習(xí)的方法相比,基于事件對(duì)的方法緩解了事件稀疏性,但它忽略了事件之間的時(shí)序關(guān)系,因此表現(xiàn)不如基于事件鏈和事件圖的方法。基于事件鏈的方法和基于事件圖的方法由于捕獲了事件之間的序列特征均取得不錯(cuò)的預(yù)測(cè)效果,但由于事件之間的演化模式對(duì)于腳本事件預(yù)測(cè)而言也很重要,而基于事件圖的方法正可以以構(gòu)建圖譜的方式獲取事件的發(fā)展規(guī)律,所以基于事件圖的方法預(yù)測(cè)效果優(yōu)于基于事件鏈的方法。從表5可以看出,結(jié)合型建模的方法性能整體表現(xiàn)最佳,MCer+MCer-LSTM取得了最好的實(shí)驗(yàn)效果。ECGNet相比于單純使用基于事件鏈或是事件圖的模型而言,準(zhǔn)確度至少提升了3.74%,NEEG+Eventcomp+PairLSTM相比這三個(gè)模型準(zhǔn)確度提升超過(guò)2.56%,MCer+MCer-LSTM相比MCer將準(zhǔn)確度從56.64%提升到了60.76%,GraphBERT采用預(yù)訓(xùn)練語(yǔ)言模型BERT自動(dòng)構(gòu)建事件圖,同樣表現(xiàn)出很好的預(yù)測(cè)效果。由于不同模型之間具有互補(bǔ)效應(yīng),存在各自的優(yōu)勢(shì),所以可以相互受益,從而表現(xiàn)出最佳的性能。
4 總結(jié)與展望
4.1 腳本事件預(yù)測(cè)總結(jié)
本文對(duì)腳本事件預(yù)測(cè)的已有研究進(jìn)行了總結(jié),主要是從事件表征、腳本建模和模型分析三個(gè)角度進(jìn)行敘述。
在事件表征部分,事件的要素構(gòu)成從單個(gè)論元演化至圍繞多個(gè)論元主角,事件的表示方式也從最初的(predicate;depen-dency)發(fā)展至更豐富的事件表示方法。事件表示學(xué)習(xí)的主要任務(wù)是組合事件元素向量,嵌入的向量保留了事件中的語(yǔ)義信息,但存在建模不足的問(wèn)題,因此需進(jìn)一步考慮如情感信息等外部知識(shí),以豐富事件的語(yǔ)義信息。
在腳本建模方面,主要分為基于統(tǒng)計(jì)學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。以PMI和Bigram為代表的基于統(tǒng)計(jì)學(xué)習(xí)的方法,模型根據(jù)訓(xùn)練集中事件出現(xiàn)的次數(shù)確定相關(guān)性,缺乏泛化性能。通過(guò)使用適當(dāng)?shù)纳窠?jīng)網(wǎng)絡(luò)架構(gòu)以及足夠大的數(shù)據(jù),深度學(xué)習(xí)網(wǎng)絡(luò)可以學(xué)習(xí)從一個(gè)向量空間到另一個(gè)向量空間的任何映射,因而深度學(xué)習(xí)的應(yīng)用使得腳本事件預(yù)測(cè)性能獲得明顯提升。在基于深度學(xué)習(xí)的各項(xiàng)方法中,結(jié)合型建模表現(xiàn)最佳,將不同的模型進(jìn)行組合,模型之間互相補(bǔ)充,產(chǎn)生了更優(yōu)的預(yù)測(cè)性能。
4.2 腳本事件預(yù)測(cè)挑戰(zhàn)
盡管近年來(lái)關(guān)于腳本事件預(yù)測(cè)的研究不斷涌現(xiàn),但相關(guān)研究仍面臨一些挑戰(zhàn)[43~46]。
a)標(biāo)準(zhǔn)的評(píng)價(jià)體系。
腳本事件預(yù)測(cè)領(lǐng)域目前沒(méi)有標(biāo)準(zhǔn)評(píng)價(jià)體系,這使得不同模型之間的比較更加困難。如果沒(méi)有標(biāo)準(zhǔn)的評(píng)價(jià)體系,就不能準(zhǔn)確地判斷一個(gè)模型是否真的有效。因此,建立一個(gè)標(biāo)準(zhǔn)的評(píng)價(jià)體系對(duì)于腳本事件預(yù)測(cè)的發(fā)展尤為重要。
b)結(jié)合事理圖譜。
用圖知識(shí)來(lái)捕獲事件間豐富的連接關(guān)系的研究相對(duì)較少,由于現(xiàn)實(shí)中很多元素的連接關(guān)系很復(fù)雜,而圖包含節(jié)點(diǎn)和連接,它可以更充分地表示事件,例如兩個(gè)事件之間的因果關(guān)系等,這樣就可以獲取更多信息用來(lái)推理后續(xù)事件。在實(shí)際工作中,由于事件包含的信息較多,所以事理圖譜的體量也會(huì)很大,這就給訓(xùn)練帶來(lái)了一定難度。為了提高運(yùn)行效率,在后續(xù)的研究中可以繼續(xù)沿用子圖的處理方法,探索出更高效的算法。
c)進(jìn)行更深層次的事件表示研究。
在根據(jù)上下文事件預(yù)測(cè)后續(xù)事件的情況中,事件對(duì)后續(xù)事件的影響程度不同,所以可以考慮給不同部分的事件賦予不同的權(quán)重以輔助事件預(yù)測(cè)。例如如果尾部事件與前續(xù)事件發(fā)生了明顯的轉(zhuǎn)折,在這種情況下,顯然尾部事件對(duì)預(yù)測(cè)結(jié)果的影響更大,因此就可以給尾部事件賦予更高的權(quán)重。針對(duì)事件表示研究來(lái)說(shuō),目前的腳本事件預(yù)測(cè)工作仍然需要提取與事件相關(guān)的事件參與者,如果事件的參與者是未知的話,這將會(huì)使預(yù)測(cè)的效率降低,所以在未來(lái)如何才能更高效地使用事件腳本仍是值得探索的。另外,為了充分利用事件文本來(lái)獲得更多有效信息輔助事件推理工作探索,可以通過(guò)挖掘事件之間更復(fù)雜的交互的方法,并嘗試引入如知識(shí)圖譜等外部背景信息。
d)其他挑戰(zhàn)。
腳本事件預(yù)測(cè)在未來(lái)很有研究前景,但是現(xiàn)在腳本事件預(yù)測(cè)的下游應(yīng)用較少,所以隨著腳本事件預(yù)測(cè)的發(fā)展,在未來(lái)的工作中,可以逐步將腳本事件預(yù)測(cè)方法用到更多的下游應(yīng)用中去?,F(xiàn)在腳本事件預(yù)測(cè)主要面向的是英文文本,中文的研究較少,加上中文文本的語(yǔ)法較為復(fù)雜,所以如何從中文文本中抽取出相關(guān)信息來(lái)進(jìn)行預(yù)測(cè)也是值得研究的。
4.3 腳本事件預(yù)測(cè)展望
通過(guò)對(duì)當(dāng)前腳本事件預(yù)測(cè)研究進(jìn)展的梳理,可以展望未來(lái)腳本事件預(yù)測(cè)的發(fā)展方向[47~50]:
a)在數(shù)據(jù)方面。由于大多數(shù)現(xiàn)有的腳本事件預(yù)測(cè)方法的處理范式都是建模成為多項(xiàng)選擇填空的形式,而這種數(shù)據(jù)集很少,所以構(gòu)建新的數(shù)據(jù)集的成本很高。那么如何花費(fèi)最少的成本達(dá)到最大的訓(xùn)練效果是未來(lái)值得關(guān)注的研究方向。
b)針對(duì)腳本事件預(yù)測(cè)的評(píng)測(cè),提出更有效的評(píng)測(cè)方法。雖然目前MCNC被廣泛用做任務(wù)評(píng)測(cè),但完型填空的方法在實(shí)際應(yīng)用當(dāng)中不便于驗(yàn)證結(jié)果的正確性。因此,隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,研究出更高效的評(píng)測(cè)方法也是未來(lái)研究的發(fā)展趨勢(shì)。
c)針對(duì)事件表示來(lái)說(shuō)。近年來(lái),圖神經(jīng)網(wǎng)絡(luò)在各個(gè)研究領(lǐng)域中大放異彩,但是如何才能更好地利用事件表示構(gòu)建圖?已有研究者嘗試用對(duì)比學(xué)習(xí)[51,52]的方法,考慮多個(gè)正例和負(fù)例,以此更好地利用事件的共現(xiàn)信息來(lái)學(xué)習(xí)事件表示。所以,如何更好地進(jìn)行事件表示學(xué)習(xí),采用何種形式學(xué)習(xí)到更多的相關(guān)知識(shí),這也是今后的一個(gè)研究方向。
d)基于其落地使用來(lái)看。目前腳本事件預(yù)測(cè)在工業(yè)界的落地場(chǎng)景中是很少見(jiàn)的。以金融場(chǎng)景的推理為例,如何才能確定一個(gè)推理模型是否正確,找到這樣的訓(xùn)練數(shù)據(jù)本身就是很難的。因此,在未來(lái)的研究中,將腳本事件預(yù)測(cè)以何種方式應(yīng)用到更多的現(xiàn)實(shí)落地場(chǎng)景中也是值得探索的。
5 結(jié)束語(yǔ)
腳本事件預(yù)測(cè)是通過(guò)給定已發(fā)生的事件上下文,預(yù)測(cè)后續(xù)最有可能發(fā)生的事件,它對(duì)于事件風(fēng)險(xiǎn)預(yù)測(cè)、事件演化挖掘等現(xiàn)實(shí)落地場(chǎng)景,能夠起到一定的參考意義。本文詳細(xì)闡述了對(duì)目前腳本事件預(yù)測(cè)的研究進(jìn)展。首先介紹了腳本事件預(yù)測(cè)的概念;然后以事件表征、腳本建模和任務(wù)評(píng)測(cè)為脈絡(luò)梳理了現(xiàn)有研究;最后分析了目前腳本事件預(yù)測(cè)面臨的挑戰(zhàn),對(duì)其前景進(jìn)行了展望。希望綜述內(nèi)容能夠?yàn)槟_本事件預(yù)測(cè)領(lǐng)域的研究提供理論指導(dǎo)和創(chuàng)新思路,在未來(lái)能夠應(yīng)用到更多的落地場(chǎng)景中。
參考文獻(xiàn):
[1]Schank R C,Abelson R P. Scripts,plans,and knowledge [C]// Proc of the 4th International Joint Conference on Artificial Intelligence. San Francisco: Morgan Kaufmann Publishers,1975: 151-157.
[2]Chambers N,Jurafsky D. Unsupervised learning of narrative event chains [C]// Proc of the 46th Annual Meeting of the Asssociation for Computational Linguistics.Stroudsburg,PA:ACL Press,2008:789-797.
[3]Balasubramanian N,Soderland S,Etzioni O. Generating coherent event schemas at scale [R]. Stroudsburg,PA: ACL Press,2013.
[4]Pichotta K,Mooney R. Statistical script learning with multi-argument events [C]// Proc of the 14th Conference of the European Chapter of the Association for Computational Linguistics. Stroudsburg,PA: ACL Press,2014: 220-229.
[5]Ahrendt S,Demberg V. Improving event prediction by representing script participants [C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg,PA: ACL Press,2016: 546-551.
[6]Pichotta K,Mooney R. Learning statistical scripts with LSTM recurrent neural networks [C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2016.
[7]Lee I T,Goldwasser D. Feel: featured event embedding learning [C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2018: 4840-4847.
[8]Bai Long,Guan Saiping,Guo Jiafeng,et al. Integrating deep event-level and script-level information for script event prediction [C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA: ACL Press,2021: 9869-9878.
[9]Mikolov T,Sutskever I,Chen Kai,et al. Distributed representations of words and phrases and their compositionality [J]. Advances in Neural Information Processing Systems,2013,2013(2): 3111-3119.
[10]Mikolov T,Chen K,Corrado G,et al. Efficient estimation of word re-presentations in vector space [EB/OL]. (2013). https://arxiv.org/abs/ 1301. 3781.
[11]Weber N,Balasubramanian N,Chambers N. Event representations with tensor-based compositions [C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2018: 4946-4953.
[12]Socher R,Huval B,Manning C D,et al. Semantic compositionality through recursive matrix-vector spaces [C]// Proc of Joint Confe-rence on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Stroudsburg,PA: ACL Press,2012: 1201-1211.
[13]Modi A,Titov I. Inducing neural models of script knowledge [C]// Proc of the 18th Conference on Computational Natural Language Learning. Stroudsburg,PA: ACL Press,2014: 49-57.
[14]Modi A,Titov I. Learning semantic script knowledge with event embeddings [EB/OL]. (2013).https://arxiv.org/abs/1312. 5198.
[15]Granroth-Wilding M,Clark S. What happens next?Event prediction using a compositional neural network model [C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2016: 2727-2733.
[16]Hu Linmei,Li Juanzi,Nie Liqiang,et al. What happens next?Future subevent prediction using contextual hierarchical LSTM [C]// Proc of the 31st AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2017: 3450-3456.
[17]Ding Xiao,Liao Kuo,Liu Ting,et al. Event representation learning enhanced with external commonsense knowledge [EB/OL]. (2019). https://arxiv.org/abs/1909. 05190.
[18]Ding Xiao,Zhang Yue,Liu Ting,et al. Deep learning for event-driven stock prediction [C]// Proc of the 24th International Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2015: 2327-2333.
[19]Zhao Sendong,Wang Quan,Massung S,et al. Constructing and embedding abstract event causality networks from text snippets [C]// Proc of the 10th ACM International Conference on Web Search and Data Mining. New York: ACM Press,2017: 335-344.
[20]Wang Ruize,Tang Duyu,Duan Nan,et al. K-adapter: infusing know-ledge into pre-trained models with adapters [EB/OL]. (2020).https://arxiv.org/abs/2002. 01808.
[21]Lyu Shangwen,Zhu Fuqing,Hu Songlin. Integrating external event knowledge for script learning [C]// Proc of the 28th International Conference on Computational Linguistics. 2020: 306-315.
[22]Du Li,Ding Xiao,Liu Ting,et al. Learning event graph knowledge for abductive reasoning [C]// Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. 2021: 5181-5190.
[23]Jans B,Bethard S,Vulic I,et al. Skip n-grams and ranking functions for predicting script events [C]// Proc of the 13th Conference of the European Chapter of the Association for Computational Linguistics. Stroudsburg,PA: ACL Press,2012: 336-344.
[24]Hochreiter S,Schmidhuber J. Long short-term memory [J]. Neural Computation,1997,9(8): 1735-1780.
[25]Pichotta K,Mooney R. Learning statistical scripts with LSTM recurrent neural networks [C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2016: 2800-2806.
[26]Pichotta K,Mooney R J. Using sentence-level LSTM language models for script inference [C]// Proc of the 54th Annual Meeting of the Association for Computational Linguistics. 2016: 279-289.
[27]Kiros R,Zhu Yukun,Salakhutdinov R R,et al. Skip-thought vectors [C]// Proc of the 28th International Conference on Neural Information Processing Systems. 2015: 3294-3302.
[28]Lin Zhouhan,F(xiàn)eng Minwei,Santos C N,et al. A structured self-attentive sentence embedding [EB/OL]. (2017). https://arxiv.org/abs/1703. 03130.
[29]Lyu Shangwen,Qian Wanhui,Huang Longtao,et al. SAM-Net: integrating event-level and chain-level attentions to predict what happens next [C]// Proc of the 33rd AAAI Conference on Artificial Intelligence and the 31st Innovative Applications of Artificial Intelligence Conference and 9th AAAI Symposium on Educational Advances in Artificial Intelligence. Palo Alto,CA: AAAI Press,2019: 6802-6809.
[30]Huang Gao,Liu Zhuang,Van Der Maaten L,et al.Densely connected convolutional networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:2261-2269.
[31]Wang Lihong,Yue Juwei,Guo Shu,et al. Multi-level connection enhanced representation learning for script event prediction [C]// Proc of Web Conference. New York: ACM Press,2021: 3524-3533.
[32]Regneri M,Koller A,Pinkal M. Learning script knowledge with Web experiments [C]// Proc of the 48th Annual Meeting of the Association for Computational Linguistics. Stroudsburg,PA: ACL Press,2010: 979-988.
[33]Glava G,najder J. Construction and evaluation of event graphs [J]. Natural Language Engineering,2015,21(4): 607-652.
[34]Li Zhongyang,Ding Xiao,Liu Ting. Constructing narrative event evolutionary graph for script event prediction [C]// Proc of the 27th International Joint Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2018: 4201-4207.
[35]Xiong Kai,Ding Xiao,Du Li,et al. Heterogeneous graph knowledge enhanced stock market prediction [J]. AI Open,2021,2012(2):168-174.
[36]Wang Zhongqing,Zhang Yue,Chang Chingyun. Integrating order information and event relation for script event prediction [C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA: ACL Press,2017: 57-67.
[37]孫盼,王琪,萬(wàn)懷宇. 結(jié)合事件鏈與事理圖譜的腳本事件預(yù)測(cè)模型 [J]. 計(jì)算機(jī)工程,2022,48(4): 119-125. (Sun Pan,Wang Qi,Wan Huaiyu. Event chains and graphs combined neural network for script event prediction [J]. Computer Engineering,2022,48(4): 119-125.)
[38]Huang Zhenyu,Wang Yongjun Xu Hongzuo,et al. Script event prediction based on pre-trained model with tail event enhancement [C]// Proc of the 5th International Conference on Computer Science and Artificial Intelligence. New York: ACM Press,2021: 242-248.
[39]Du Li,Ding Xiao,Zhang Yue,et al. A graph enhanced BERT model for event prediction [M]// Findings of the Association for Computatio-nal Linguistics. Stroudsburg,PA: ACL Press,2022: 2628-2638.
[40]Modi A. Event embeddings for semantic script modeling [C]// Proc of the 20th SIGNLL Conference on Computational Natural Language Learning. Stroudsburg,PA: ACL Press,2016: 75-83.
[41]Mostafazadeh N,Chambers N,He X,et al. A corpus and cloze evaluation for deeper understanding of commonsense stories [C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg,PA: ACL Press,2016: 839-849.
[42]Lee I T,Goldwasser D. Multi-relational script learning for discourse relations [C]// Proc of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg,PA: ACL Press,2019: 4214-4226.
[43]Taylor W L. Cloze procedure: a new tool for measuring readability [J]. Journalism Quarterly,1953,30(4): 415-433.
[44]Han Yi,Qiao Linbo,Zheng Jianming,et al. A survey of script learning [J]. Frontiers of Information Technology amp; Electronic Engineering,2021,22(3): 341-373.
[45]胡志磊,靳小龍,陳劍赟,等. 事件圖譜的構(gòu)建、推理與應(yīng)用 [J]. 大數(shù)據(jù),2021,7(3): 80-96. (Hu Zhilei,Jin Xiaolong,Chen Jianyun,et al. Construction,reasoning and applications of event graphs [J]. Big Data,2021,7(3): 80-96.)
[46]吳雨釗. 腳本事件預(yù)測(cè)綜述 [J]. 現(xiàn)代計(jì)算機(jī),2021(15): 113-116. (Wu Yuzhao. Overview of script event prediction [J]. Modern Computer,2021(15): 113-116.)
[47]李忠陽(yáng). 面向文本事件預(yù)測(cè)的事理圖譜構(gòu)建及應(yīng)用方法研究 [D]. 哈爾濱: 哈爾濱工業(yè)大學(xué),2021.( Li Zhongyang. Research on the construction and application method of affection atlas for text event prediction[D].Harbin:Harbin Institute of Technology,2021.)
[48]孫盼. 基于事理圖譜的腳本事件預(yù)測(cè)方法研究 [D]. 北京: 北京交通大學(xué),2021.(Sun Pan. Research on scripted event prediction method based on affair map[D].Beijing:Beijing Jiaotong University,2021.)
[49]Rudinger R,Rastogi P,F(xiàn)erraro F,et al. Script induction as language modeling [C]// Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:ACL Press,2015:1681-1686.
[50]Ding Xiao,Li Zhongyang,Liu Ting,et al. ELG: an event logic graph [EB/OL]. (2019).https://arxiv.org/abs/1907. 08015.
[51]Chen Ting,Kornblith S,Norouzi M,et al. A simple framework for contrastive learning of visual representations [C]// Proc of the 37th International Conference on Machine Learning. Ithaca: Cornell University Press,2020: 1597-1607.
[52]Zheng Jianming,Cai Fei,Liu Jun,et al. Multistructure contrastive learning for pretraining event representation [J/OL]. IEEE Trans on Neural Networks and Learning Systems.(2022).https://doi.org/10.1109 TNNLS.2022.3177641.