食品安全領(lǐng)域的輿情事件抽取是當(dāng)前信息抽取領(lǐng)域的重要研究課題,也是食品安全輿情監(jiān)管和預(yù)測的重點(diǎn)技術(shù)之一。
如今,科研人員在研究事件抽取時,一般使用兩種方法。一是基于規(guī)則的方法,一般來說,這種方法更適用于英文報道,普適性較差,并不適用于中文輿情的事件抽取。第二種是基于神經(jīng)網(wǎng)絡(luò)模型的深度學(xué)習(xí)方法,近年來已成功地應(yīng)用于各領(lǐng)域的中文事件抽取任務(wù)中,并表現(xiàn)出了更好的性能。本文的模型是基于深度學(xué)習(xí)的研究方法。
事件抽取相關(guān)工作的有關(guān)研究
事件抽取作為信息抽取的子任務(wù),在知識挖掘領(lǐng)域起著非常重要的作用,也一直是經(jīng)典而又富有挑戰(zhàn)性的任務(wù),在過去十幾年的研究發(fā)展中也取得了很多階段性的突破。
事件抽取研究中,首先被提出的就是研究者們通過文本分析和自身的語言知識,把語料中每一個句子用一系列特征和規(guī)則進(jìn)行處理,我們稱之為基于規(guī)則的方法。2008年,Ji等人在不標(biāo)記數(shù)據(jù)的前提下,采用基于規(guī)則的方法在句子和文檔之間傳播一致的觸發(fā)詞分類和事件元素,提高了性能。
2009年,鄭家恒和毋菲等人 針對中文事件的特點(diǎn),提出了一種更適用于提取中文事件論元值的方法,他們的研究以決策樹為依托,對語料事件的觸發(fā)詞以及其上下文進(jìn)行分析并將語料分類,最后利用規(guī)則匹配抽取語料中的目標(biāo)詞。
后來,孟雷、丁效等人在依存句法的基礎(chǔ)上,提出了一種對事件元素抽取的方法,并根據(jù)短語結(jié)構(gòu)句法分析,進(jìn)一步確定事件元素的邊界情況。
研究發(fā)現(xiàn),通過句法關(guān)系結(jié)合抽取規(guī)則,能夠很好地抽取事件的元素核心詞,然后再利用短語結(jié)構(gòu)句法,就能夠很好地確定完整的事件元素。
區(qū)別于基于規(guī)則的方法,基于神經(jīng)網(wǎng)絡(luò)模型的深度學(xué)習(xí)的方法近年來受到越來越多的研究者的重視,已經(jīng)成為了最主流的事件抽取方法。Ahn明確指出對于事件元素識別分類問題,可以將其轉(zhuǎn)變?yōu)槎嘧兞糠诸悊栴},并通過分類學(xué)習(xí)的方法,在ACE語料庫中,有效地識別事件觸發(fā)詞、事件元素。Xia等人于2015年提出一種融合文本、圖像和地點(diǎn)等信息的一種聯(lián)合架構(gòu)模型,并用該模型抽取事件的空間和時間信息,然后在這一基礎(chǔ)上,將特定的事件信息抽取出來。Chen等人構(gòu)建出了動態(tài)多池化卷積神經(jīng)網(wǎng)絡(luò)(DMCNN),利用簡單的NLP工具,能夠自動提取出詞匯及句子級別的特征提取出來。他們采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)的框架來捕獲句子級線索,同時還提出了動態(tài)多池化卷積神經(jīng)網(wǎng)絡(luò)(DMCNN)來保留關(guān)鍵信息。實(shí)驗(yàn)結(jié)果表明該方法優(yōu)于其他最新方法,是深度學(xué)習(xí)在事件抽取任務(wù)上應(yīng)用的有效嘗試。
另一項(xiàng)里程碑的工作是Nguyen 等人提出在具有雙向遞歸神經(jīng)網(wǎng)絡(luò)的聯(lián)合框架中進(jìn)行事件抽取,它在考慮事件觸發(fā)詞的基礎(chǔ)上,還兼顧事件元素,并且對聯(lián)合模型的記憶特征進(jìn)行了深入地分析,并通過實(shí)驗(yàn)證明了所提出的模型在ACE2005數(shù)據(jù)集上達(dá)到了最好的性能。隨著深度學(xué)習(xí)研究的不斷深入,圖卷積網(wǎng)絡(luò)也被應(yīng)用于多事件抽取任務(wù),并且成效顯著。
BiLSTM神經(jīng)網(wǎng)絡(luò)近年來也有了長足的發(fā)展,何等人利用BiLSTM,在抽取生物事件通用語料MLEE 時,表現(xiàn)出了非常好的抽取性能。
食品安全輿情事件抽取模型
本文所提出的食品安全輿情事件抽取模型,主要用于實(shí)現(xiàn)食品安全輿情事件觸發(fā)詞的識別及分類和食品安全輿情事件的論元識別及抽取。在本章節(jié)中,我們將詳細(xì)介紹食品安全輿情事件抽取模型的網(wǎng)絡(luò)結(jié)構(gòu)和內(nèi)部的處理過程模型前期準(zhǔn)備工作。
1. 食品安全輿情事件模型
我們參照ACE2005 對事件定義的8種事件類型和33種子類型,構(gòu)建了實(shí)驗(yàn)所需的食品安全輿情事件模型。該模型可通過輿情事件類型、觸發(fā)詞、必要論元角色(唯一)和可出現(xiàn)論元角色四部分,為食品安全輿情事件進(jìn)行分類。具體分類如表1所示:
2.數(shù)據(jù)預(yù)處理
在神經(jīng)網(wǎng)絡(luò)中,數(shù)據(jù)輸入的質(zhì)量是至關(guān)重要的,因此我們需要對食品安全領(lǐng)域輿情語料庫中的語料進(jìn)行預(yù)處理,提高其數(shù)據(jù)質(zhì)量,保證模型不會受到噪聲干擾,發(fā)揮最佳的性能。
第一步,數(shù)據(jù)清洗,由于網(wǎng)絡(luò)中的輿情文本中經(jīng)常存在一些特殊字符,例如:表情符號,亂碼,中文文本中不會出現(xiàn)的【@#¥&~^*/】等與輿情本身無關(guān)且干擾模型訓(xùn)練效果的字符,所以我們首先要對其進(jìn)行處理,將文本中的無用符號去除。
第二步,通過構(gòu)建觸發(fā)詞詞典,將事件抽取視為分類工作。按照一定的知識邏輯和事件規(guī)律,按類別總結(jié)候選觸發(fā)詞,并在預(yù)料中驗(yàn)證候選觸發(fā)詞,最終構(gòu)建觸發(fā)詞詞典,并在后期實(shí)驗(yàn)中不斷更新補(bǔ)充。
第三步:由于食品安全輿情報道往往是長文本,無法全部輸入到神經(jīng)網(wǎng)絡(luò)中,因此我們讀取語料庫中經(jīng)第一步中處理過后的輿情語料,以‘。為分隔符,加入標(biāo)記符號“[SEP]”,最大長度為300字,對于長度大于300字的句子,選擇距離結(jié)尾最近逗號加入標(biāo)記符號,將處理好的句子存儲到數(shù)據(jù)庫新的字段中。
同時,我們根據(jù)食品安全輿情事件模型對輿情語料進(jìn)行人工標(biāo)注,將輿情事件中的輿情事件類型,觸發(fā)詞,論元,論元角色等四部分內(nèi)容做標(biāo)記,其中空值記為NULL。
3. 詞向量訓(xùn)練
詞向量訓(xùn)練是將字轉(zhuǎn)換為向量坐標(biāo)表示的方法,通過語言模型的訓(xùn)練,將模型詞典中的詞以向量形式表示,其中具有相似語義關(guān)系詞之間的坐標(biāo)距離會更接近,在訓(xùn)練時能夠更好的理解詞語的語義信息,是處理同義詞,相近詞等問題的有效手段。
本文通過Word2Vec,針對食品安全輿情預(yù)料,展開了一系列詞向量訓(xùn)練。Word2Vec可以有效實(shí)現(xiàn)詞語的向量編碼,保留文本上下文特征和位置特征等,具有較好的語義表達(dá)準(zhǔn)確性。
本研究完成的主要工作是基于BiLSTM-CRF構(gòu)建了一個事件抽取模型,應(yīng)用到食品安全領(lǐng)域輿情的事件抽取中。通過BiLSTM模型對語料進(jìn)行特征提取,并通過CRF模型對事件類別和元素種類進(jìn)行判別,這兩個模型共同組合成食品安全輿情事件抽取模型,其在測試集上取得了較好的效果。
本文的研究為食品安全輿情領(lǐng)域的事件抽取提供了新的方法及思路,為實(shí)現(xiàn)相關(guān)食品安全輿情監(jiān)管可視化平臺、食品安全輿情預(yù)測等應(yīng)用奠定了基礎(chǔ)。
此外如何對抽取后出現(xiàn)的噪音數(shù)據(jù)進(jìn)行識別、校正以及對食品領(lǐng)域詞、知識的補(bǔ)全將會是下一步工作的重點(diǎn)。未來可通過人工智能技術(shù)進(jìn)一步打造食品安全輿情監(jiān)管智能化系統(tǒng),實(shí)現(xiàn)資源共享,為大眾和監(jiān)管部門可以快速準(zhǔn)確的把握食品安全輿情提供便利。
作者:孫劭 北京工商大學(xué)電商與物流學(xué)院研究生