郭 鑫,高彩翔,陳 千,2,王素格,2,王雪婧
1.山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,太原 030006
2.山西大學(xué) 計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,太原 030006
新冠疫情于2019年底爆發(fā),面對該公共衛(wèi)生突發(fā)事件,各國政府積極采取應(yīng)對措施,新聞媒體實(shí)時(shí)聚焦疫情事件報(bào)道,世界各國學(xué)者迅速投身新冠病毒及防治領(lǐng)域的研究。如何從海量的新聞中梳理出疫情發(fā)展的脈絡(luò),成為科研人員研究的熱點(diǎn)問題。
作為信息抽取的一個(gè)子任務(wù),事件抽取[1]旨在從非結(jié)構(gòu)化數(shù)據(jù)中快速獲取關(guān)鍵的結(jié)構(gòu)化事件信息。事件抽取主要分為兩個(gè)任務(wù):事件類型檢測[2]、事件論元抽取[3]。事件類型檢測是識別句子中的觸發(fā)詞,接著對觸發(fā)詞分類,即對這句話所包含的事件進(jìn)行分類;事件論元抽取是基于已經(jīng)獲取的事件觸發(fā)詞及事件類型,去識別事件中其余的事件相關(guān)論元。
事件檢測中的觸發(fā)詞是指句子中能讓一個(gè)事件發(fā)生的核心詞語,觸發(fā)詞所對應(yīng)的類別就是該句子當(dāng)中所包含的事件類別;事件論元?jiǎng)t通常指一個(gè)事件的參與者,事件論元角色則是該參與者在事件當(dāng)中所代表的具體含義[4]。事件抽取任務(wù)中存在一些挑戰(zhàn),對于簡單事件可以直接從一句話中抽取出事件相關(guān)信息。但是對于部分復(fù)雜事件而言,句子級抽取不能涵蓋事件的全部論元,需要從多個(gè)句子中才能完整地抽取出整個(gè)事件。如圖1所示,s1中“捐贈”觸發(fā)一個(gè)愛心捐贈事件,“中國政府”“加拿大”“11日”在該事件中分別扮演捐贈方、接收方、時(shí)間的事件角色。但是只抽取出部分事件論元,在s2中補(bǔ)充了具體的捐贈物,即“醫(yī)用防護(hù)服”“護(hù)目鏡”“口罩”“隔離衣”。s1和s2組合抽取出該事件中所包含的所有事件論元以及在該事件中所扮演的角色,從而組成一個(gè)完整的事件:
圖1 愛心捐贈類篇章級事件抽取實(shí)例Fig.1 Doc-level event extraction sample of caring donation
s1:中國政府向加拿大捐贈的醫(yī)療物資11日晚運(yùn)抵加拿大。
s2:此次捐贈的醫(yī)療物資包括醫(yī)用防護(hù)服、護(hù)目鏡、口罩和隔離衣等。
從已有研究近況來看,面向新冠肺炎新聞的篇章級事件抽取還存在如下問題:(1)事件抽取主要還是集中在從單一句子中抽取事件;(2)大部分已有的事件聯(lián)合抽取工作都是基于ACE 2005數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)集僅在句子范圍內(nèi)標(biāo)記事件聯(lián)合模型,而且不包含面向新冠肺炎新聞數(shù)據(jù)集。
針對以上問題,本文的貢獻(xiàn)在于以下三點(diǎn):
(1)本文通過爬蟲技術(shù),構(gòu)建了近6 644條基于篇章級的面向新冠肺炎的精標(biāo)注新聞數(shù)據(jù)集以及15萬左右的未標(biāo)注新冠肺炎新聞數(shù)據(jù)集。
(2)通過改進(jìn)的TextRank算法抽取關(guān)鍵的事件句,接著利用序列標(biāo)注從篇章級角度進(jìn)行事件抽取,進(jìn)而獲取到更加全面的事件信息。
(3)提出一種三階段的管道方法,結(jié)合有監(jiān)督和無監(jiān)督模型,在降低人力成本的同時(shí),將句子級事件抽取任務(wù)擴(kuò)展到篇章級,實(shí)驗(yàn)證明該方法采用的篇章級事件抽取技術(shù)在新冠新聞數(shù)據(jù)集上的F1指標(biāo)達(dá)到74%,從而驗(yàn)證了方法的有效性。
已有的事件抽取方法大體上分為三大類:模式匹配方法、機(jī)器學(xué)習(xí)方法、深度學(xué)習(xí)方法。早期事件抽取方法采用模式匹配技術(shù),首先構(gòu)造特定事件模板,然后通過模板匹配從文本中提取事件。Riloff等人[5]通過建立觸發(fā)詞詞典和事件匹配模式進(jìn)行事件識別與抽取,但手動標(biāo)注事件模式耗時(shí)費(fèi)力,需要領(lǐng)域?qū)<业闹笇?dǎo)。近年來基于機(jī)器學(xué)習(xí)的事件抽取技術(shù)得到迅速發(fā)展。Li等在2013年[6]和2014年[7]提出基于結(jié)構(gòu)預(yù)測的事件抽取聯(lián)合模型。Liu等人[8]研究了事件與事件關(guān)聯(lián)和主題與事件關(guān)聯(lián)兩種全局信息。機(jī)器學(xué)習(xí)方法不僅需要人工設(shè)計(jì)特征,還需要借助外部NLP工具抽取特征,特征抽取過程中會產(chǎn)生誤差。隨著深度學(xué)習(xí)技術(shù)的興起,端對端的神經(jīng)網(wǎng)絡(luò)模型被廣泛應(yīng)用于事件抽取。Zeng[9]和Liu[10]分別結(jié)合CNN和BiLSTM來進(jìn)行事件觸發(fā)器檢測。Wu等人[11]應(yīng)用參數(shù)信息訓(xùn)練BiLSTM網(wǎng)絡(luò)的注意力來進(jìn)行事件抽取。Chen等人[12]提出了一個(gè)HBTNGMA模型用于提取和融合句內(nèi)和句間上下文信息,增強(qiáng)事件檢測。
事件抽取也可以分為句子級和篇章級?,F(xiàn)階段事件抽取的研究主要基于ACE 2005數(shù)據(jù)的句子級事件抽取任務(wù)上,Chen等人[13]提出了一種動態(tài)多池卷積神經(jīng)網(wǎng)絡(luò)來評估句子的每個(gè)部分,捕獲句子最重要的信息。Feng等人[14]基于遞歸神經(jīng)網(wǎng)絡(luò)對輸入句子進(jìn)行序列建模來獲取整個(gè)句子的上下文信息。Nguyen等人[15]提出一種基于RNN的事件識別和角色分類聯(lián)合學(xué)習(xí)模型。Miao等人[16]提出CNN-BiGRU模型,通過CNN獲取詞級別特征,BiGRU獲取句子級特征。Ding等人[17]提出分層語義融合模型。Wu等人[18]提出FB-Latiice-BiLSTM模型,對僅能捕獲字粒度語義信息的BiLSTM-CRF模型進(jìn)行詞語和實(shí)體維度的信息增強(qiáng),但句子級的事件抽取會造成論元角色的缺失,忽略重要事件信息。近年來篇章級事件抽取也有所突破。Huang等人[19]利用基于管道的方法進(jìn)行篇章級事件抽取。仲偉峰等人[20]提出基于自注意力機(jī)制的實(shí)體事件聯(lián)合標(biāo)注模型。Yang等人[21]基于句子抽取結(jié)果,利用上下文元素補(bǔ)齊策略得到篇章事件結(jié)構(gòu)化信息。Du等人[22]將文檔級事件角色填充符提取形式化為端到端序列標(biāo)記問題。關(guān)于新冠事件抽取,Dimitrov等人[23]構(gòu)建了COVID-19的語義標(biāo)注Tweets語料庫。Wang等人[24]提出從Twitter中抽取COVID-19事件。
綜上,現(xiàn)有的新冠數(shù)據(jù)集大多數(shù)是基于英文語料庫,且篇章級事件抽取任務(wù)存在輸入篇幅過長的問題。本文構(gòu)造中文新冠新聞數(shù)據(jù)集來擴(kuò)充語料庫,并提出一種事件句抽取的三階段篇章級事件抽取方法。
本文提出一種基于三階段的管道方法來實(shí)現(xiàn)篇章級的事件抽取。圖2描述了事件抽取模型的總體架構(gòu)。模型主要包含3個(gè)階段:(1)事件類型識別,利用無監(jiān)督算法進(jìn)行事件類型分類;(2)事件句抽取,基于改進(jìn)的TextRank算法進(jìn)行含有論元的事件句抽??;(3)篇章級事件論元抽取,利用BiLSTM-CRF的序列標(biāo)注模型,對事件句進(jìn)行預(yù)測標(biāo)注,采用拼接技術(shù)完成篇章級事件抽取。最終利用論元補(bǔ)充得到完整事件信息。
圖2 篇章級事件抽取模型框架Fig.2 Framework of document-level event extraction model
已抓取的新冠肺炎新聞數(shù)據(jù)集根據(jù)預(yù)定義事件類型采用多人協(xié)同標(biāo)注方式。根據(jù)卡帕值將事件大概分為六類,分別是確診病例溯源、數(shù)據(jù)通報(bào)、本土案例、愛心捐贈、疫苗研發(fā)和紀(jì)念英雄,在每個(gè)大類下建立不同的觸發(fā)詞和與之對應(yīng)的論元角色。如表1所示。
表1 新冠肺炎新聞事件類型Table 1 COVID-19 news event types
事件類型識別是發(fā)現(xiàn)事件的觸發(fā)詞并為其分配預(yù)定義的事件類型。只有識別出事件類型,才能指導(dǎo)事件句的抽取,并進(jìn)行相應(yīng)事件的要素抽取。
輸入是一個(gè)文檔的集合D={d1,d2,…,dl},同時(shí)還需要聚類的類別個(gè)數(shù)為t;然后算法會將每一篇文檔di在所有的主題上分布一個(gè)概率值p;這樣每篇文檔都會得到一個(gè)概率的集合di={dp1,dp2,…,dpt},通過概率值來對每篇文檔進(jìn)行聚類。
為了在大量的新聞中快速區(qū)分各種事件類型,采用無監(jiān)督聚類算法來分類。LDA和KMeans模型被廣泛應(yīng)用于文本分類。
2.4.1 事件句分布統(tǒng)計(jì)
一般新聞?lì)惖奈恼?,事件句出現(xiàn)在段首或者段尾的情況相當(dāng)普遍,大多數(shù)都采用先總后分的方式,并且段落之間存在聯(lián)系可能不是那么緊密,但是段落本身結(jié)構(gòu)更緊湊的情況。通過統(tǒng)計(jì)事件句在篇章中的分布,得到如圖3的匯總情況。
圖3 新冠新聞事件句分布情況Fig.3 Distribution of COVID-19 news event sentences
2.4.2 事件句抽取
事件句是包含事件觸發(fā)詞和事件論元的句子。由于事件句基本上是一篇新聞中較為重要的摘要句,為了從大量新聞中快速找到事件句,采用TextRank算法[25]來抽取。TextRank算法是一種基于圖的用于關(guān)鍵詞抽取和候選句抽取的排序算法,通過把文本分割成若干個(gè)句子,構(gòu)建節(jié)點(diǎn)連接圖,用句子之間的相似度作為邊的權(quán)重,通過循環(huán)迭代計(jì)算句子的TextRank值,給新聞?wù)牡拿總€(gè)句子進(jìn)行打分,之后選取排名靠前的k個(gè)句子最后抽取排名高的句子,作為文本候選句。然而原始的TextRank算法僅利用文本自身的信息進(jìn)行抽取,不能充分利用詞語之間的語義相關(guān)等信息?;诖?,提出基于衰減機(jī)制的詞嵌入TextRank算法。根據(jù)圖3統(tǒng)計(jì)可知,事件句往往會在段落開始位置提及。設(shè)計(jì)加權(quán)因子decay_rate,即對每個(gè)段落的段首做適當(dāng)?shù)募訖?quán),往后逐漸衰減,呈梯度模型。decay_rate取值范圍為(0,1],值越小,傾斜越大,默認(rèn)為1代表無任何傾斜。
詞語間語義信息可以通過預(yù)訓(xùn)練的詞向量來實(shí)現(xiàn)。首先對給定的篇章級文本d進(jìn)行了斷句處理,利用規(guī)則的方法進(jìn)行斷句di={s1,s2,…,sm};然后利用jieba分詞技術(shù)將句子進(jìn)行分詞,得到每個(gè)句子的詞集合si={w1,w2,…,wn};接著利用Word2vec將文檔集中所有詞匯進(jìn)行向量表征,在生成詞向量之后,基于Word2vec模型實(shí)現(xiàn)句子中每個(gè)詞語相似度的計(jì)算進(jìn)而計(jì)算句子相似度。即根據(jù)s1的句子,找到s1中第一個(gè)詞語在s2所有詞語中最大相似值的詞語,再依次找到s1中第二個(gè),第三個(gè),直到第n個(gè)詞語在s2所有詞語中最大相似值的詞語,取平均值作為s1和s2句子的單項(xiàng)匹配pipei_reverse(s1,s2);接著,同理反過來計(jì)算s2和s1句子的單項(xiàng)匹配pipei_reverse(s2,s1);最后取雙向匹配的平均值作為s1和s2的句子相似度。
為了實(shí)現(xiàn)對新冠肺炎新聞事件的抽取,本文構(gòu)建基于BiLSTM-CRF的事件抽取模型。雙向長短期記憶網(wǎng)絡(luò)(BiLSTM)具有捕獲數(shù)據(jù)的時(shí)序性和解決長序列信息依賴問題的優(yōu)點(diǎn),能主動學(xué)習(xí)新冠肺炎新聞事件的抽象特征和提高檢測性能。條件隨機(jī)場層(CRF)使用條件隨機(jī)場模型對全連接層的輸出進(jìn)行解碼,能有效地考慮了序列前后的標(biāo)簽信息,通過學(xué)習(xí)標(biāo)簽間的約束條件提升標(biāo)簽預(yù)測的準(zhǔn)確性,得到最終的預(yù)測標(biāo)簽序列。事件抽取模型的具體步驟如下:
在預(yù)處理階段,本文采用word-embedding將文本的每個(gè)字符映射成一個(gè)字符向量,即輸入向量s={x1,x2,…,xn},其中n表示該句中字符個(gè)數(shù),xi表示文本中每一個(gè)維度的數(shù)據(jù)。
首先,將s作為神經(jīng)網(wǎng)絡(luò)的輸入,得到輸入層輸出向量Oi={o1,o2,…,on}。其次,將Oi輸入到BiLSTM層前向的LSTML,通過前向?qū)W習(xí)輸出特征向量q={q1,q2,…,qn},qn為經(jīng)過BiLSTM層后每一維度的數(shù)據(jù);將Oi輸入到BiLSTM層后向的LSTMR,通過后向?qū)W習(xí)輸出特征向量h={h1,h2,…,hn};將前向特征q和后向特征h進(jìn)行拼接,得到BiLSTM提取出的抽象特征b=[q:h]={q1,q2,…,qn,h1,h2,…,hn}。然后,經(jīng)過softmax層,得到網(wǎng)絡(luò)輸出結(jié)果,做論元角色類別的分類處理。最后,加上CRF層融合。CRF層的作用在于加入一些約束來保證最終預(yù)測結(jié)果是有效的。目標(biāo)是讓真實(shí)序列的概率在整個(gè)序列所有概率中最大。最終得到預(yù)測標(biāo)簽序列y={y1,y2,…,yn}。當(dāng)前序列得分為:
式中,yi是第i個(gè)位置的標(biāo)簽值;Pi,yi是第i個(gè)位置softmax輸出為yi的概率;Ayi-1,yi為yi-1到y(tǒng)i的轉(zhuǎn)移概率。最后利用softmax計(jì)算歸一化后的概率,公式為:
采用最大化對數(shù)似然函數(shù)優(yōu)化目標(biāo)函數(shù),訓(xùn)練樣本(x,y)的對數(shù)似然為:
在預(yù)測時(shí),使用動態(tài)規(guī)劃的Viterbi算法求解最優(yōu)路徑,得到序列標(biāo)注任務(wù)中每個(gè)字對應(yīng)的標(biāo)簽概率,最大概率對應(yīng)的標(biāo)簽即為正確標(biāo)簽,概率公式為:
采用BIO標(biāo)注法對事件進(jìn)行標(biāo)注。B_label代表字符為觸發(fā)詞或論元的開始位置,I_label代表字符為觸發(fā)詞或論元的中間位置,O_label代表字符為非觸發(fā)詞或論元。
實(shí)驗(yàn)使用的面向新冠肺炎新聞數(shù)據(jù)集來自于網(wǎng)絡(luò)信息,借助網(wǎng)絡(luò)爬蟲技術(shù)從信息門戶網(wǎng)站、論壇等地獲取新冠疫情相關(guān)的新聞?wù)Z料,包括山西省人民政府網(wǎng)、CCTV新聞網(wǎng)、各省衛(wèi)健委網(wǎng)站、中國新聞網(wǎng)等。其中中國新聞網(wǎng)上爬取的新聞?wù)?0%(約5 500條新聞數(shù)據(jù))。這些網(wǎng)站上的新聞輿情通常都是緊跟時(shí)事熱點(diǎn)、內(nèi)容完整度較高、主題較明確的高質(zhì)量文本信息,對事件抽取模型具有較好訓(xùn)練作用。作為實(shí)驗(yàn)的數(shù)據(jù),根據(jù)定義的事件模型,對所有語料進(jìn)行標(biāo)注。其中,標(biāo)注內(nèi)容包括:事件類型、事件觸發(fā)詞、事件論元、事件角色,以及事件觸發(fā)詞和事件論元在文本中的位置信息。
在進(jìn)行標(biāo)注前,首先對篇章級文本進(jìn)行了斷句處理,包含“?!薄??”“;”“!”符號的位置進(jìn)行斷句處理。然后多人一起進(jìn)行標(biāo)注,標(biāo)注的時(shí)候同時(shí)進(jìn)行交叉檢驗(yàn),保證了標(biāo)注數(shù)據(jù)的質(zhì)量。具體標(biāo)注過后最終的生成格式為.ann格式,其中每列分別對應(yīng):標(biāo)號、論元角色、起始位置、結(jié)束位置、具體論元。如圖4所示。
圖4 新聞數(shù)據(jù)集.ann格式Fig.4 News dataset.ann format
卡帕值用于計(jì)算標(biāo)注者之間標(biāo)注結(jié)果的吻合程度。如表2所示,表2中統(tǒng)計(jì)了標(biāo)注者的標(biāo)注情況,第一行第一個(gè)數(shù)“698”表示R1和R2都判斷為確診病例溯源類行的個(gè)數(shù),第一行第二個(gè)數(shù)表示“R1判斷為確診病例溯源類而R2判斷為數(shù)據(jù)通報(bào)類”的個(gè)數(shù)?;诨煜仃嚨膋appa系數(shù)計(jì)算公式如下:
表2 事件類型分類檢驗(yàn)Table 2 Event type classification test
pe表示所有類別分別對應(yīng)的“實(shí)際與預(yù)測數(shù)量的乘積”總和除以“樣本總數(shù)的平方”。計(jì)算得到kappa值為0.978,因此將新冠肺炎新聞數(shù)據(jù)集分為6類,分別為確診病例溯源、數(shù)據(jù)通報(bào)、本土案例、愛心捐贈、疫苗研發(fā)和紀(jì)念英雄。
其中關(guān)于各類新聞事件的數(shù)據(jù)分布中數(shù)據(jù)通報(bào)類數(shù)據(jù)占多數(shù),本土案例和疫苗研發(fā)占比較少。采用無監(jiān)督方法對新聞數(shù)據(jù)進(jìn)行分類。按照8∶2劃分為訓(xùn)練集和測試集,數(shù)據(jù)集的統(tǒng)計(jì)基本情況如表3所示。
表3 新冠肺炎新聞數(shù)據(jù)集統(tǒng)計(jì)情況Table 3 Statistics on COVID-19 news dataset
事件類型分類階段本文采用無監(jiān)督聚類算法。判斷一個(gè)LDA模型是否合理的標(biāo)準(zhǔn)一般有兩個(gè),一個(gè)是一致性(coherence),另一個(gè)是困惑度(perplexity)。對于LDA主題模型中的困惑度用于在語料庫中確定合理的主題個(gè)數(shù)。
其中,M是測試語料庫中的文本的數(shù)量,Nd是第d篇文本的單詞數(shù),p(w)代表文本的概率。
如圖5、圖6所示,通過困惑度和一致性這兩個(gè)指標(biāo),確定最優(yōu)的主題個(gè)數(shù)為7。
圖5 困惑度隨主題個(gè)數(shù)的變化情況Fig.5 Perplexity varies with number of topics
圖6 一致性隨主題個(gè)數(shù)的變化情況Fig.6 Coherence varies with number of topics
事件句抽取階段中本文采用jieba分詞技術(shù)將句子進(jìn)行分詞,過濾掉文本中無意義的停用詞,然后使用Gensim庫中的Word2vec模塊,設(shè)置維度為60、窗口大小為2對該數(shù)據(jù)集進(jìn)行學(xué)習(xí)訓(xùn)練得到詞向量模型文件。通過多次實(shí)驗(yàn),選定的權(quán)重值decay_rate為0.1,達(dá)到效果最佳。
事件論元抽取階段本文實(shí)驗(yàn)基于TensorFlow框架,編程語言為Python 3.6。通過多次實(shí)驗(yàn),選定的實(shí)驗(yàn)參數(shù)如下:優(yōu)化器為Adam,learning-rate值為0.005,batchsize值為270,epoch值為20。
本文改進(jìn)的TextRank算法性能的評估中,算法為每篇文章都識別事件句,實(shí)驗(yàn)中使用準(zhǔn)確率作為算法的評估指標(biāo)。
本文利用系統(tǒng)自動抽取信息,再對抽取結(jié)果進(jìn)行評估。LDA、KMeans無監(jiān)督聚類算法和論元抽取模型在實(shí)驗(yàn)中的評估度量方式一致,都是使用準(zhǔn)確率(precision,P)、召回率(recall,R)、F1(F1-measure)值作為算法的評估指標(biāo)。其中,論元抽取是基于句子級和篇章級的多分類任務(wù),而論元是基于詞級別的,所以詞語的BIO標(biāo)簽預(yù)測都計(jì)入評估。精確率P是指分類結(jié)果預(yù)測為正確的數(shù)據(jù)占所有預(yù)測為正確的數(shù)據(jù)的比重,召回率R是指分類結(jié)果預(yù)測為正確的樣本占所有真實(shí)為正確的樣本的比重。其中,無監(jiān)督聚類算法評估是看預(yù)測正確的篇章數(shù);論元抽取模型算法評估是看預(yù)測正確的標(biāo)簽數(shù)。
將已有的6 644條新聞數(shù)據(jù)利用LDA和KMeans模型進(jìn)行聚類,定義主題個(gè)數(shù)num_topic=7,生成7個(gè)主題文檔;將分類結(jié)果得到的7個(gè)主題文檔和人工標(biāo)注好的6類數(shù)據(jù)作比較,計(jì)算P、R、F1值,結(jié)果取每類占比最大的類別(Max)。實(shí)驗(yàn)結(jié)果如表4。
由表4可知,LDA能識別出5類數(shù)據(jù)。愛心捐贈、疫苗研發(fā)、紀(jì)念英雄、數(shù)據(jù)通報(bào)這四類新冠疫情新聞聚類效果要比其他兩類好;確診病例溯源、本土案例這兩類新冠疫情新聞聚類效果相對較差一些。因?yàn)楸就涟咐悢?shù)據(jù)較少,不易識別,而且本土案例和確診病例溯源的事件論元較為相似,不易于區(qū)分,導(dǎo)致這兩類易于混淆,聚類效果相對較差。
表4中,KMeans只能識別出4類數(shù)據(jù),沒有識別出易于混淆的本土案例和確診病例溯源類數(shù)據(jù)。而且,從總的平均結(jié)果的評估指標(biāo)來看,也是LDA算法優(yōu)于KMeans算法。
表4 LDA、KMeans模型的事件聚類Table 4 Event clustering of LDA model and KMeans model
由上述分析可知,選擇利用LDA模型進(jìn)行聚類,效果更佳。所以,爬取到的6 644條新冠新聞數(shù)據(jù)選擇利用LDA模型進(jìn)行聚類,可以更快速準(zhǔn)確地獲取到愛心捐贈、疫苗研發(fā)、紀(jì)念英雄、數(shù)據(jù)通報(bào)這四類新冠疫情新聞。部分易于混淆的本土案例類和確診病例溯源類,可以加上人工干預(yù),進(jìn)行區(qū)分。
為證明加入衰減機(jī)制的TextRank算法能提高抽取關(guān)鍵事件句的精度,將未加衰減機(jī)制和加入衰減機(jī)制的TextRank進(jìn)行了消融實(shí)驗(yàn)。結(jié)果如表5所示。
表5中,2_Sents、3_Sents、5_Sents分別表示對每篇文檔分別抽取了2、3、5個(gè)事件句進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明,利用TextRank算法抽取事件句和人工抽取的正確事件句進(jìn)行論元識別相比,TextRank算法抽取事件句的效果欠佳。但確診病例溯源類、數(shù)據(jù)通報(bào)類論元的識別效果相對較好,這是因?yàn)檫@兩類事件構(gòu)成相對簡單,包含的修飾性詞語較少,結(jié)構(gòu)性較強(qiáng),如許多數(shù)據(jù)通報(bào)類實(shí)體都包含“新增確診病例”“新增疑似病例”“新增死亡病例”等詞。實(shí)驗(yàn)結(jié)果表明,數(shù)據(jù)通報(bào)類事件在2句事件句抽取的論元識別效果最好。本土案例、紀(jì)念英雄和疫苗研發(fā)類事件類型利用改進(jìn)過的+decay_rate算法抽取事件句抽取,效果明顯提升,且整體效果較好。確診病例溯源和愛心捐贈類事件抽取2個(gè)事件句,改進(jìn)過的+decay_rate算法效果更佳??傮w來看,抽取2、3個(gè)事件句,使用改進(jìn)過的+decay_rate算法效果更佳。
表5 抽取事件句2種算法準(zhǔn)確率比較Table 5 Comparison of accuracy of two algorithms for event sentences extraction 單位:%
選擇表5中抽取的事件句和人工精標(biāo)注的正確事件句作為事件抽取的訓(xùn)練數(shù)據(jù)對六類新冠疫情事件進(jìn)行實(shí)驗(yàn)。圖7顯示了不同標(biāo)注類別的實(shí)體識別結(jié)果,及自動抽取事件句和人工抽取事件句對論元識別的影響。
圖7 關(guān)于不同事件類型的P、R、F1值Fig.7 P,R,F(xiàn)1 values for different event types
實(shí)驗(yàn)結(jié)果表明,數(shù)據(jù)通報(bào)類事件在2句事件句抽取的論元識別效果最好,準(zhǔn)確率(precision,用P表示)、召回率(recall,用R表示)和F1(用F表示)分別為75.0%,73.0%、74.0%。
為進(jìn)一步確定篇章級事件抽取中關(guān)鍵事件句個(gè)數(shù),分別比較了2、3、5句事件句對篇章級事件抽取的論元識別的F1指標(biāo)效果影響,結(jié)果如圖8所示。
圖8 對比不同類型新聞事件句個(gè)數(shù)Fig.8 Number of sentences forvarious types of news events
實(shí)驗(yàn)結(jié)果表明,愛心捐贈、數(shù)據(jù)通報(bào)、確診病例溯源類事件在2句事件句抽取中性能較好,抽取更多的事件句,會減低篇章級事件抽取的效果。
針對新冠肺炎領(lǐng)域的事件抽取任務(wù)中存在缺乏中文的新冠疫情新聞數(shù)據(jù)集和跨句抽取論元的問題,本文設(shè)計(jì)了三階段的管道方法。并且通過人工參與的方式進(jìn)行數(shù)據(jù)集標(biāo)注。實(shí)驗(yàn)表明,該方法能夠更快捷地進(jìn)行事件抽取,對于數(shù)據(jù)通報(bào)、確診病例溯源類事件在事件句抽取的論元識別效果較好。
本文主要聚焦面向新冠肺炎的篇章新聞數(shù)據(jù),目前該領(lǐng)域未見公開數(shù)據(jù)集,因此未進(jìn)行其他領(lǐng)域的公開數(shù)據(jù)集下的對比實(shí)驗(yàn)。在利用TextRank算法進(jìn)行事件句抽取的過程中,發(fā)現(xiàn)愛心捐贈、紀(jì)念英雄等事件句的精度較低。對后續(xù)事件論元的抽取影響較大。在接下來的工作中,會考慮對TextRank算法進(jìn)行改進(jìn),通過引入句子位置、句子相似度和論元詞信息融合3個(gè)影響因素,以此計(jì)算句子之間的影響權(quán)重。進(jìn)而提升事件句的抽取精度。