亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        食品安全輿情事件抽取模型研究

        2021-06-06 00:33:40孫劭
        中國質(zhì)量萬里行 2021年5期
        關(guān)鍵詞:分類文本方法

        食品安全領(lǐng)域的輿情事件抽取是當(dāng)前信息抽取領(lǐng)域的重要研究課題,也是食品安全輿情監(jiān)管和預(yù)測的重點(diǎn)技術(shù)之一。

        如今,科研人員在研究事件抽取時,一般使用兩種方法。一是基于規(guī)則的方法,一般來說,這種方法更適用于英文報道,普適性較差,并不適用于中文輿情的事件抽取。第二種是基于神經(jīng)網(wǎng)絡(luò)模型的深度學(xué)習(xí)方法,近年來已成功地應(yīng)用于各領(lǐng)域的中文事件抽取任務(wù)中,并表現(xiàn)出了更好的性能。本文的模型是基于深度學(xué)習(xí)的研究方法。

        事件抽取相關(guān)工作的有關(guān)研究

        事件抽取作為信息抽取的子任務(wù),在知識挖掘領(lǐng)域起著非常重要的作用,也一直是經(jīng)典而又富有挑戰(zhàn)性的任務(wù),在過去十幾年的研究發(fā)展中也取得了很多階段性的突破。

        事件抽取研究中,首先被提出的就是研究者們通過文本分析和自身的語言知識,把語料中每一個句子用一系列特征和規(guī)則進(jìn)行處理,我們稱之為基于規(guī)則的方法。2008年,Ji等人在不標(biāo)記數(shù)據(jù)的前提下,采用基于規(guī)則的方法在句子和文檔之間傳播一致的觸發(fā)詞分類和事件元素,提高了性能。

        2009年,鄭家恒和毋菲等人 針對中文事件的特點(diǎn),提出了一種更適用于提取中文事件論元值的方法,他們的研究以決策樹為依托,對語料事件的觸發(fā)詞以及其上下文進(jìn)行分析并將語料分類,最后利用規(guī)則匹配抽取語料中的目標(biāo)詞。

        后來,孟雷、丁效等人在依存句法的基礎(chǔ)上,提出了一種對事件元素抽取的方法,并根據(jù)短語結(jié)構(gòu)句法分析,進(jìn)一步確定事件元素的邊界情況。

        研究發(fā)現(xiàn),通過句法關(guān)系結(jié)合抽取規(guī)則,能夠很好地抽取事件的元素核心詞,然后再利用短語結(jié)構(gòu)句法,就能夠很好地確定完整的事件元素。

        區(qū)別于基于規(guī)則的方法,基于神經(jīng)網(wǎng)絡(luò)模型的深度學(xué)習(xí)的方法近年來受到越來越多的研究者的重視,已經(jīng)成為了最主流的事件抽取方法。Ahn明確指出對于事件元素識別分類問題,可以將其轉(zhuǎn)變?yōu)槎嘧兞糠诸悊栴},并通過分類學(xué)習(xí)的方法,在ACE語料庫中,有效地識別事件觸發(fā)詞、事件元素。Xia等人于2015年提出一種融合文本、圖像和地點(diǎn)等信息的一種聯(lián)合架構(gòu)模型,并用該模型抽取事件的空間和時間信息,然后在這一基礎(chǔ)上,將特定的事件信息抽取出來。Chen等人構(gòu)建出了動態(tài)多池化卷積神經(jīng)網(wǎng)絡(luò)(DMCNN),利用簡單的NLP工具,能夠自動提取出詞匯及句子級別的特征提取出來。他們采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)的框架來捕獲句子級線索,同時還提出了動態(tài)多池化卷積神經(jīng)網(wǎng)絡(luò)(DMCNN)來保留關(guān)鍵信息。實(shí)驗(yàn)結(jié)果表明該方法優(yōu)于其他最新方法,是深度學(xué)習(xí)在事件抽取任務(wù)上應(yīng)用的有效嘗試。

        另一項(xiàng)里程碑的工作是Nguyen 等人提出在具有雙向遞歸神經(jīng)網(wǎng)絡(luò)的聯(lián)合框架中進(jìn)行事件抽取,它在考慮事件觸發(fā)詞的基礎(chǔ)上,還兼顧事件元素,并且對聯(lián)合模型的記憶特征進(jìn)行了深入地分析,并通過實(shí)驗(yàn)證明了所提出的模型在ACE2005數(shù)據(jù)集上達(dá)到了最好的性能。隨著深度學(xué)習(xí)研究的不斷深入,圖卷積網(wǎng)絡(luò)也被應(yīng)用于多事件抽取任務(wù),并且成效顯著。

        BiLSTM神經(jīng)網(wǎng)絡(luò)近年來也有了長足的發(fā)展,何等人利用BiLSTM,在抽取生物事件通用語料MLEE 時,表現(xiàn)出了非常好的抽取性能。

        食品安全輿情事件抽取模型

        本文所提出的食品安全輿情事件抽取模型,主要用于實(shí)現(xiàn)食品安全輿情事件觸發(fā)詞的識別及分類和食品安全輿情事件的論元識別及抽取。在本章節(jié)中,我們將詳細(xì)介紹食品安全輿情事件抽取模型的網(wǎng)絡(luò)結(jié)構(gòu)和內(nèi)部的處理過程模型前期準(zhǔn)備工作。

        1. 食品安全輿情事件模型

        我們參照ACE2005 對事件定義的8種事件類型和33種子類型,構(gòu)建了實(shí)驗(yàn)所需的食品安全輿情事件模型。該模型可通過輿情事件類型、觸發(fā)詞、必要論元角色(唯一)和可出現(xiàn)論元角色四部分,為食品安全輿情事件進(jìn)行分類。具體分類如表1所示:

        2.數(shù)據(jù)預(yù)處理

        在神經(jīng)網(wǎng)絡(luò)中,數(shù)據(jù)輸入的質(zhì)量是至關(guān)重要的,因此我們需要對食品安全領(lǐng)域輿情語料庫中的語料進(jìn)行預(yù)處理,提高其數(shù)據(jù)質(zhì)量,保證模型不會受到噪聲干擾,發(fā)揮最佳的性能。

        第一步,數(shù)據(jù)清洗,由于網(wǎng)絡(luò)中的輿情文本中經(jīng)常存在一些特殊字符,例如:表情符號,亂碼,中文文本中不會出現(xiàn)的【@#¥&~^*/】等與輿情本身無關(guān)且干擾模型訓(xùn)練效果的字符,所以我們首先要對其進(jìn)行處理,將文本中的無用符號去除。

        第二步,通過構(gòu)建觸發(fā)詞詞典,將事件抽取視為分類工作。按照一定的知識邏輯和事件規(guī)律,按類別總結(jié)候選觸發(fā)詞,并在預(yù)料中驗(yàn)證候選觸發(fā)詞,最終構(gòu)建觸發(fā)詞詞典,并在后期實(shí)驗(yàn)中不斷更新補(bǔ)充。

        第三步:由于食品安全輿情報道往往是長文本,無法全部輸入到神經(jīng)網(wǎng)絡(luò)中,因此我們讀取語料庫中經(jīng)第一步中處理過后的輿情語料,以‘。為分隔符,加入標(biāo)記符號“[SEP]”,最大長度為300字,對于長度大于300字的句子,選擇距離結(jié)尾最近逗號加入標(biāo)記符號,將處理好的句子存儲到數(shù)據(jù)庫新的字段中。

        同時,我們根據(jù)食品安全輿情事件模型對輿情語料進(jìn)行人工標(biāo)注,將輿情事件中的輿情事件類型,觸發(fā)詞,論元,論元角色等四部分內(nèi)容做標(biāo)記,其中空值記為NULL。

        3. 詞向量訓(xùn)練

        詞向量訓(xùn)練是將字轉(zhuǎn)換為向量坐標(biāo)表示的方法,通過語言模型的訓(xùn)練,將模型詞典中的詞以向量形式表示,其中具有相似語義關(guān)系詞之間的坐標(biāo)距離會更接近,在訓(xùn)練時能夠更好的理解詞語的語義信息,是處理同義詞,相近詞等問題的有效手段。

        本文通過Word2Vec,針對食品安全輿情預(yù)料,展開了一系列詞向量訓(xùn)練。Word2Vec可以有效實(shí)現(xiàn)詞語的向量編碼,保留文本上下文特征和位置特征等,具有較好的語義表達(dá)準(zhǔn)確性。

        本研究完成的主要工作是基于BiLSTM-CRF構(gòu)建了一個事件抽取模型,應(yīng)用到食品安全領(lǐng)域輿情的事件抽取中。通過BiLSTM模型對語料進(jìn)行特征提取,并通過CRF模型對事件類別和元素種類進(jìn)行判別,這兩個模型共同組合成食品安全輿情事件抽取模型,其在測試集上取得了較好的效果。

        本文的研究為食品安全輿情領(lǐng)域的事件抽取提供了新的方法及思路,為實(shí)現(xiàn)相關(guān)食品安全輿情監(jiān)管可視化平臺、食品安全輿情預(yù)測等應(yīng)用奠定了基礎(chǔ)。

        此外如何對抽取后出現(xiàn)的噪音數(shù)據(jù)進(jìn)行識別、校正以及對食品領(lǐng)域詞、知識的補(bǔ)全將會是下一步工作的重點(diǎn)。未來可通過人工智能技術(shù)進(jìn)一步打造食品安全輿情監(jiān)管智能化系統(tǒng),實(shí)現(xiàn)資源共享,為大眾和監(jiān)管部門可以快速準(zhǔn)確的把握食品安全輿情提供便利。

        作者:孫劭 北京工商大學(xué)電商與物流學(xué)院研究生

        猜你喜歡
        分類文本方法
        分類算一算
        在808DA上文本顯示的改善
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        国内精品九九久久精品小草| 日日噜噜噜夜夜狠狠久久蜜桃| 国产精品黑丝美腿美臀| 精品亚洲av乱码一区二区三区| 亚洲天堂一区二区三区| 亚洲人妻御姐中文字幕| 一区二区亚洲精品国产精| 中文字幕亚洲入口久久| 亚洲精品无码av人在线观看国产| 亚洲人成网站在线播放2019| 亚洲国产精品久久精品| 国产精品免费看久久久无码| 亚洲中文字幕在线观看| 久久久久香蕉国产线看观看伊| 国产精品va无码一区二区| 首页 综合国产 亚洲 丝袜| 亚洲 都市 校园 激情 另类| 一级二级中文字幕在线视频| 国产精品亚洲A∨天堂| 国产亚洲精品自在久久77| 欧美在线成人免费国产| 胳膊肘上有白色的小疙瘩| 有码视频一区二区三区| 亚洲一区二区三区小说| 亚洲国产精品久久电影欧美| 国产色在线 | 亚洲| 三年片免费观看大全国语| 成人做爰高潮尖叫声免费观看| 国产精品久久久久久久专区| 91久久国产精品综合| 女人天堂国产精品资源麻豆| 国内永久福利在线视频图片| 亚洲中文字幕无码爆乳| 久久免费观看国产精品| 四虎国产精品免费久久麻豆| 精品国产一区二区三区av新片| 欧美精品一区二区精品久久| 97人妻精品一区二区三区| 国内精品大秀视频日韩精品| 女人一级特黄大片国产精品| 激情亚洲的在线观看|