亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

食品安全輿情事件抽取模型研究

2021-06-06 00:33:40孫劭

中國質(zhì)量萬里行 2021年5期

食品安全領(lǐng)域的輿情事件抽取是當(dāng)前信息抽取領(lǐng)域的重要研究課題，也是食品安全輿情監(jiān)管和預(yù)測的重點(diǎn)技術(shù)之一。

如今，科研人員在研究事件抽取時，一般使用兩種方法。一是基于規(guī)則的方法，一般來說，這種方法更適用于英文報道，普適性較差，并不適用于中文輿情的事件抽取。第二種是基于神經(jīng)網(wǎng)絡(luò)模型的深度學(xué)習(xí)方法，近年來已成功地應(yīng)用于各領(lǐng)域的中文事件抽取任務(wù)中，并表現(xiàn)出了更好的性能。本文的模型是基于深度學(xué)習(xí)的研究方法。

事件抽取相關(guān)工作的有關(guān)研究

事件抽取作為信息抽取的子任務(wù)，在知識挖掘領(lǐng)域起著非常重要的作用，也一直是經(jīng)典而又富有挑戰(zhàn)性的任務(wù)，在過去十幾年的研究發(fā)展中也取得了很多階段性的突破。

事件抽取研究中，首先被提出的就是研究者們通過文本分析和自身的語言知識，把語料中每一個句子用一系列特征和規(guī)則進(jìn)行處理，我們稱之為基于規(guī)則的方法。2008年，Ji等人在不標(biāo)記數(shù)據(jù)的前提下，采用基于規(guī)則的方法在句子和文檔之間傳播一致的觸發(fā)詞分類和事件元素，提高了性能。

2009年，鄭家恒和毋菲等人針對中文事件的特點(diǎn)，提出了一種更適用于提取中文事件論元值的方法，他們的研究以決策樹為依托，對語料事件的觸發(fā)詞以及其上下文進(jìn)行分析并將語料分類，最后利用規(guī)則匹配抽取語料中的目標(biāo)詞。

后來，孟雷、丁效等人在依存句法的基礎(chǔ)上，提出了一種對事件元素抽取的方法，并根據(jù)短語結(jié)構(gòu)句法分析，進(jìn)一步確定事件元素的邊界情況。

研究發(fā)現(xiàn)，通過句法關(guān)系結(jié)合抽取規(guī)則，能夠很好地抽取事件的元素核心詞，然后再利用短語結(jié)構(gòu)句法，就能夠很好地確定完整的事件元素。

區(qū)別于基于規(guī)則的方法，基于神經(jīng)網(wǎng)絡(luò)模型的深度學(xué)習(xí)的方法近年來受到越來越多的研究者的重視，已經(jīng)成為了最主流的事件抽取方法。Ahn明確指出對于事件元素識別分類問題，可以將其轉(zhuǎn)變?yōu)槎嘧兞糠诸悊栴}，并通過分類學(xué)習(xí)的方法，在ACE語料庫中，有效地識別事件觸發(fā)詞、事件元素。Xia等人于2015年提出一種融合文本、圖像和地點(diǎn)等信息的一種聯(lián)合架構(gòu)模型，并用該模型抽取事件的空間和時間信息，然后在這一基礎(chǔ)上，將特定的事件信息抽取出來。Chen等人構(gòu)建出了動態(tài)多池化卷積神經(jīng)網(wǎng)絡(luò)（DMCNN），利用簡單的NLP工具，能夠自動提取出詞匯及句子級別的特征提取出來。他們采用卷積神經(jīng)網(wǎng)絡(luò)（CNN）的框架來捕獲句子級線索，同時還提出了動態(tài)多池化卷積神經(jīng)網(wǎng)絡(luò)（DMCNN）來保留關(guān)鍵信息。實(shí)驗(yàn)結(jié)果表明該方法優(yōu)于其他最新方法，是深度學(xué)習(xí)在事件抽取任務(wù)上應(yīng)用的有效嘗試。

另一項(xiàng)里程碑的工作是Nguyen 等人提出在具有雙向遞歸神經(jīng)網(wǎng)絡(luò)的聯(lián)合框架中進(jìn)行事件抽取，它在考慮事件觸發(fā)詞的基礎(chǔ)上，還兼顧事件元素，并且對聯(lián)合模型的記憶特征進(jìn)行了深入地分析，并通過實(shí)驗(yàn)證明了所提出的模型在ACE2005數(shù)據(jù)集上達(dá)到了最好的性能。隨著深度學(xué)習(xí)研究的不斷深入，圖卷積網(wǎng)絡(luò)也被應(yīng)用于多事件抽取任務(wù)，并且成效顯著。

BiLSTM神經(jīng)網(wǎng)絡(luò)近年來也有了長足的發(fā)展，何等人利用BiLSTM，在抽取生物事件通用語料MLEE 時，表現(xiàn)出了非常好的抽取性能。

食品安全輿情事件抽取模型

本文所提出的食品安全輿情事件抽取模型，主要用于實(shí)現(xiàn)食品安全輿情事件觸發(fā)詞的識別及分類和食品安全輿情事件的論元識別及抽取。在本章節(jié)中，我們將詳細(xì)介紹食品安全輿情事件抽取模型的網(wǎng)絡(luò)結(jié)構(gòu)和內(nèi)部的處理過程模型前期準(zhǔn)備工作。

1. 食品安全輿情事件模型

我們參照ACE2005 對事件定義的8種事件類型和33種子類型，構(gòu)建了實(shí)驗(yàn)所需的食品安全輿情事件模型。該模型可通過輿情事件類型、觸發(fā)詞、必要論元角色（唯一）和可出現(xiàn)論元角色四部分，為食品安全輿情事件進(jìn)行分類。具體分類如表1所示：

2.數(shù)據(jù)預(yù)處理

在神經(jīng)網(wǎng)絡(luò)中，數(shù)據(jù)輸入的質(zhì)量是至關(guān)重要的，因此我們需要對食品安全領(lǐng)域輿情語料庫中的語料進(jìn)行預(yù)處理，提高其數(shù)據(jù)質(zhì)量，保證模型不會受到噪聲干擾，發(fā)揮最佳的性能。

第一步，數(shù)據(jù)清洗，由于網(wǎng)絡(luò)中的輿情文本中經(jīng)常存在一些特殊字符，例如：表情符號，亂碼，中文文本中不會出現(xiàn)的【@#￥&～^*/】等與輿情本身無關(guān)且干擾模型訓(xùn)練效果的字符，所以我們首先要對其進(jìn)行處理，將文本中的無用符號去除。

第二步，通過構(gòu)建觸發(fā)詞詞典，將事件抽取視為分類工作。按照一定的知識邏輯和事件規(guī)律，按類別總結(jié)候選觸發(fā)詞，并在預(yù)料中驗(yàn)證候選觸發(fā)詞，最終構(gòu)建觸發(fā)詞詞典，并在后期實(shí)驗(yàn)中不斷更新補(bǔ)充。

第三步：由于食品安全輿情報道往往是長文本，無法全部輸入到神經(jīng)網(wǎng)絡(luò)中，因此我們讀取語料庫中經(jīng)第一步中處理過后的輿情語料，以‘。為分隔符，加入標(biāo)記符號“[SEP]”，最大長度為300字，對于長度大于300字的句子，選擇距離結(jié)尾最近逗號加入標(biāo)記符號，將處理好的句子存儲到數(shù)據(jù)庫新的字段中。

同時，我們根據(jù)食品安全輿情事件模型對輿情語料進(jìn)行人工標(biāo)注，將輿情事件中的輿情事件類型，觸發(fā)詞，論元，論元角色等四部分內(nèi)容做標(biāo)記，其中空值記為NULL。

3. 詞向量訓(xùn)練

詞向量訓(xùn)練是將字轉(zhuǎn)換為向量坐標(biāo)表示的方法，通過語言模型的訓(xùn)練，將模型詞典中的詞以向量形式表示，其中具有相似語義關(guān)系詞之間的坐標(biāo)距離會更接近，在訓(xùn)練時能夠更好的理解詞語的語義信息，是處理同義詞，相近詞等問題的有效手段。

本文通過Word2Vec，針對食品安全輿情預(yù)料，展開了一系列詞向量訓(xùn)練。Word2Vec可以有效實(shí)現(xiàn)詞語的向量編碼，保留文本上下文特征和位置特征等，具有較好的語義表達(dá)準(zhǔn)確性。

本研究完成的主要工作是基于BiLSTM-CRF構(gòu)建了一個事件抽取模型，應(yīng)用到食品安全領(lǐng)域輿情的事件抽取中。通過BiLSTM模型對語料進(jìn)行特征提取，并通過CRF模型對事件類別和元素種類進(jìn)行判別，這兩個模型共同組合成食品安全輿情事件抽取模型，其在測試集上取得了較好的效果。

本文的研究為食品安全輿情領(lǐng)域的事件抽取提供了新的方法及思路，為實(shí)現(xiàn)相關(guān)食品安全輿情監(jiān)管可視化平臺、食品安全輿情預(yù)測等應(yīng)用奠定了基礎(chǔ)。

此外如何對抽取后出現(xiàn)的噪音數(shù)據(jù)進(jìn)行識別、校正以及對食品領(lǐng)域詞、知識的補(bǔ)全將會是下一步工作的重點(diǎn)。未來可通過人工智能技術(shù)進(jìn)一步打造食品安全輿情監(jiān)管智能化系統(tǒng)，實(shí)現(xiàn)資源共享，為大眾和監(jiān)管部門可以快速準(zhǔn)確的把握食品安全輿情提供便利。

作者：孫劭北京工商大學(xué)電商與物流學(xué)院研究生