亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于規(guī)則的動物衛(wèi)生事件輿情信息抽取研究

        2018-09-26 07:07:54丁晟春劉夢露
        計算機應(yīng)用與軟件 2018年9期
        關(guān)鍵詞:規(guī)則文本

        丁晟春 王 莉 劉夢露

        (南京理工大學(xué)經(jīng)濟管理學(xué)院 江蘇 南京 210094)

        0 引 言

        近年來,隨著經(jīng)濟全球化的發(fā)展,動物及其產(chǎn)品流通頻繁,疫病傳播機會大大增加,加之環(huán)境嚴(yán)重污染,使動物疫病更加復(fù)雜,呈現(xiàn)危害加重、種類增加、混合感染等特點,給防制工作帶來了新的挑戰(zhàn)和困難。除了動物養(yǎng)殖人員對動物健康持有高強度的關(guān)注外,禽類、魚、牛、羊等多種動物直接或間接的進入大眾餐盤,這也使得每一個民眾時時刻刻都關(guān)注著動物健康。在網(wǎng)絡(luò)媒體時代,動物衛(wèi)生事件一旦發(fā)生,很容易被推到風(fēng)口浪尖上。如果不對動物衛(wèi)生輿情加以有效管理和良性引導(dǎo),輕則引起企業(yè)和行業(yè)巨大損失,重則發(fā)展為公共安全事件,引起群體恐慌,謠言的散布會危害社會的安定秩序,甚至?xí)l(fā)群體性事件。在海量信息面前很難通過直接瀏覽的方式獲取信息,因此如何高效準(zhǔn)確地從動物衛(wèi)生輿情信息中抽取出衛(wèi)生事件的主體信息成為研究的要點。本文以動物衛(wèi)生事件新聞信息為研究對象,使用基于規(guī)則的抽取方法實現(xiàn)時間、地點、疫病名稱、動物數(shù)量、應(yīng)對措施等內(nèi)容的抽取。

        當(dāng)前事故信息抽取研究中的不足主要有:(1) 為了能夠達到較高的語言覆蓋度,現(xiàn)有研究會構(gòu)建大量抽取規(guī)則而且抽取關(guān)鍵字大都直接寫入抽取規(guī)則,這使得抽取規(guī)則的后續(xù)查閱和維護變得困難;(2) 對于涉及多個事故信息或包含多個同一屬性項值的文本,現(xiàn)有的基于規(guī)則抽取方法僅能抽取到屬性值,無法準(zhǔn)確區(qū)分抽取到的值哪個是最終有效信息,導(dǎo)致抽取效果差。

        為了改善以上缺點,本文總結(jié)待抽取屬性項的描述規(guī)律以及出現(xiàn)位置和方向,構(gòu)建觸發(fā)詞表,使用各類觸發(fā)詞的詞性標(biāo)注設(shè)計抽取規(guī)則,提高抽取規(guī)則的使用和維護效率。提出基于節(jié)點比較的方法有效區(qū)分文本中出現(xiàn)的多個動物數(shù)量屬性項,提高了抽取效果。

        1 相關(guān)工作

        在網(wǎng)絡(luò)信息量呈指數(shù)級增長的環(huán)境下,如何從大量的信息中及時并準(zhǔn)確地抽取、 過濾、歸類形成便于用戶使用的信息變得尤為重要。而信息抽取就是從一個文本中抽取指定信息并將其結(jié)構(gòu)化的存入數(shù)據(jù)庫中供用戶查詢使用的過程[1]。目前常用的信息抽取方法有:基于統(tǒng)計的信息抽取方法[2-3]和基于規(guī)則的信息抽取方法[4-5]。基于統(tǒng)計的信息抽取是一種基于概率性的非確定性的信息抽取方法。該方法首先需要構(gòu)造一個模型模擬信息抽取過程,應(yīng)用統(tǒng)計學(xué)方法從訓(xùn)練語料中得到模型的參數(shù),然后利用訓(xùn)練好的模型進行信息抽取[6]。但是,統(tǒng)計模型通常借助于獨立性假設(shè)使模型只能處理結(jié)構(gòu)關(guān)系依賴性不強的對象?;谝?guī)則的信息抽取技術(shù)是相對應(yīng)用比較廣和比較成熟的一種抽取技術(shù)?;裟鹊萚7]以火山爆發(fā)、泥石流、客輪沉沒三種災(zāi)難性追蹤事件作為研究對象,分析相關(guān)事件報道之間的連續(xù)性、多角度性等文本特點,構(gòu)建了54條抽取規(guī)則對災(zāi)難性追蹤事件文本抽取。丁學(xué)軍等[8]通過大量領(lǐng)域內(nèi)文獻的閱讀、分析和歸納構(gòu)建屬性描述的規(guī)則,對《情報學(xué)報》2007年和2008年的文章里的學(xué)術(shù)概念進行抽取。蔣德良[9]把突發(fā)事件的結(jié)果總共分為20類,并為自然災(zāi)害事件、人為事件及疾病爆發(fā)事件三大類事件共建立了284條抽取規(guī)則,實現(xiàn)突發(fā)事件結(jié)果信息的抽取。余晨等[10]對長江海事局網(wǎng)站險情報告版塊中描述海事險情概況的文本進行分析,人工編制規(guī)則實現(xiàn)對海事文本中時間、地點、船名和事故類型四個屬性項的抽取。

        本文的研究對象為新聞數(shù)據(jù),由于各網(wǎng)站對動物衛(wèi)生事件新聞報道的描寫風(fēng)格相對一致,且書寫手法發(fā)生變化的可能性小,所以本文將總結(jié)待抽取實體描述的規(guī)律(如在新聞文本的表達方式及位置等),人工構(gòu)建抽取規(guī)則,實現(xiàn)對動物衛(wèi)生事件輿情信息的抽取。

        2 動物衛(wèi)生事件輿情信息的抽取

        本文處理的動物衛(wèi)生事件新聞數(shù)據(jù)主要來自我國政府官方網(wǎng)站和人民網(wǎng)、新華網(wǎng)、中國新聞網(wǎng)等新聞網(wǎng)站,從中抽取出動物衛(wèi)生事件的報道時間、發(fā)生地點、引發(fā)衛(wèi)生事件的疫病、衛(wèi)生事件中涉及的動物數(shù)量(染疫、死亡、撲殺)以及為應(yīng)對該衛(wèi)生事件采取的措施。

        2.1 信息抽取流程

        本文的信息抽取主要包括詞庫構(gòu)建、文本預(yù)處理和信息抽取三個模塊,信息抽取流程如圖1所示。

        圖1 信息抽取流程

        (1) 詞庫構(gòu)建模塊:為了提高分詞效果和規(guī)則制定需要構(gòu)建動物疫病詞典和信息抽取觸發(fā)詞表。動物疫病詞典的主要來源為2016年世界動物衛(wèi)生組織OIE(Office International Des Epizooties)公布的動物疫病名錄,我國農(nóng)業(yè)部2008年修訂的《一、二、三類動物疫病病種名錄》以及中國動物衛(wèi)生與流行病學(xué)中心較為關(guān)注的疫病。

        (2) 文本預(yù)處理模塊:文本預(yù)處理模塊主要包括分句、分詞和詞性標(biāo)注。本模塊使用動物衛(wèi)生事件新聞的標(biāo)題和正文作為實驗語料,將標(biāo)題拼接到正文前形成一整段文本。首先對待抽取語料以“,”、“?!薄ⅰ?!”、“;”、“?”等符號進行分句,再對分句后的文本使用中科院ICTCLAS分詞工具進行分詞并標(biāo)注詞性。

        (3) 信息抽取模塊:本模塊將通過對待抽取語料的分析,基于觸發(fā)詞表制定抽取規(guī)則,并使用正則表達式描述抽取規(guī)則建立規(guī)則庫,最后進行動物衛(wèi)生事件新聞的信息抽取實驗。

        2.2 觸發(fā)詞表的構(gòu)建

        信息抽取規(guī)則是說明目標(biāo)信息的約束條件,抽取規(guī)則主要有觸發(fā)詞、特征詞、開始位置、結(jié)束條件等幾項構(gòu)成。觸發(fā)詞是指對某一屬性的抽取起著識別、標(biāo)志作用,可以觸發(fā)抽取任務(wù)的詞語。以往研究表明觸發(fā)詞一般是動詞或名詞,所以對其他詞性的詞語不予考慮[11]。通過對待抽取語料的文本特征和新聞描述習(xí)慣進行分析,構(gòu)建待抽取屬性項的觸發(fā)詞表。

        (1) 時間觸發(fā)詞 網(wǎng)絡(luò)新聞通常會包含新聞發(fā)表時間和報道時間,發(fā)表時間是指新聞網(wǎng)站刊登新聞時系統(tǒng)自動生成的時間,報道時間是指新聞內(nèi)容向讀者報道的時間。在網(wǎng)絡(luò)中,同一件新聞事件會有多個新聞網(wǎng)站對其進行報道或轉(zhuǎn)載,而不同網(wǎng)站新聞的發(fā)表時間是不同的,并且在數(shù)據(jù)抓取時不能保證抓取到的新聞為該事件的首條報道,所以新聞的發(fā)表時間不能準(zhǔn)確地表示輿情信息的出現(xiàn)時間。由此,本文將抽取新聞的報道時間作為輿情信息的出現(xiàn)時間。報道時間作為新聞報道的六大元素之一,一般出現(xiàn)在新聞?wù)氖拙?,包括年、月、日,不會精確到小時,如:“中新網(wǎng)11月17日電”、“農(nóng)民日報12月6日訊”。根據(jù)對待抽取語料統(tǒng)計得出時間觸發(fā)詞有:“電”、“訊”、“報道”、“消息”、“發(fā)布”等。

        (2) 疫病名稱觸發(fā)詞 疫病名稱作為動物衛(wèi)生事件報道的核心,基本上會直接出現(xiàn)在動物衛(wèi)生事件新聞的標(biāo)題中,如:“香港活禽檢出H7N9病毒,撲殺約兩萬只家禽”、“立陶宛野生豬染非洲豬瘟”。如果標(biāo)題中未出現(xiàn)疫病名稱,新聞?wù)牡那皟删涠紩σl(fā)動物衛(wèi)生事件的疫病進行描述。疫病名稱觸發(fā)詞有:“檢出”、“出現(xiàn)”、“發(fā)現(xiàn)”、“暴發(fā)”等。

        (3) 動物數(shù)量觸發(fā)詞 動物衛(wèi)生事件中涉及的動物數(shù)量可以用來判斷事件的暴發(fā)程度,因此準(zhǔn)確地獲取事件動物數(shù)量十分重要。動物衛(wèi)生事件動物數(shù)量主要包括染疫(疑似染疫)動物數(shù)量、死亡動物數(shù)量和撲殺動物數(shù)量三類。在醫(yī)學(xué)上“染疫”和“發(fā)病”是兩種概念,染疫是發(fā)病的必要條件,所以染疫動物數(shù)量包含發(fā)病動物數(shù)量,本文將發(fā)病動物數(shù)量納入到染疫動物數(shù)量進行抽取。對應(yīng)上述三類動物數(shù)量將動物數(shù)量觸發(fā)詞分為三類。染疫(疑似染疫)動物數(shù)量觸發(fā)詞主要有:“感染”、“發(fā)病”、“染病”等;死亡數(shù)量觸發(fā)詞有:“死亡”、“暴斃”等;撲殺動物數(shù)量觸發(fā)詞有:“撲殺”、“捕殺”、“宰殺”、“銷毀”等。

        (4) 應(yīng)對措施觸發(fā)詞 動物衛(wèi)生事件是否采取應(yīng)對措施對該事件的危及程度有重要的影響,而且采取怎樣的應(yīng)對措施可以在后續(xù)事件處理起到借鑒作用。但是,只有少部分新聞會具體描述動物衛(wèi)生事件的應(yīng)對措施,而大部分新聞通常是大而空的描述采取應(yīng)對措施,例如:“疫情發(fā)生后,當(dāng)?shù)匕凑沼嘘P(guān)預(yù)案和防治技術(shù)規(guī)范要求,堅持依法防控、科學(xué)防控,切實做好疫情處置工作”。大而范的應(yīng)對措施對后續(xù)事件處理的借鑒意義不大,因此本文從控制傳染源、切斷傳播途徑、保護易感群體三個方面抽取具體的應(yīng)對措施。通過對動物衛(wèi)生事件常用的應(yīng)對措施進行總結(jié)和對已有的新聞報道進行分析得到應(yīng)對措施專用詞語,如:“撲殺”、“宰殺”、“滅殺”、“消毒”、“隔離”、“無害化處理”等,將應(yīng)對措施專用詞作為該類的觸發(fā)詞使用。在撲殺動物數(shù)量觸發(fā)詞中有部分與應(yīng)對措施觸發(fā)詞相同,將這部分詞語以共用觸發(fā)詞進行標(biāo)注。

        根據(jù)信息抽取流程在觸發(fā)詞表構(gòu)建之后需進行待抽取文本的預(yù)處理。本文將動物疫病詞典和觸發(fā)詞表中的詞語加入到ICTCLAS分詞工具進行文本的分詞和詞性標(biāo)注,自定義詞性標(biāo)注見表1。

        表1 自定義詞性標(biāo)注

        2.3 抽取規(guī)則表示

        為了得知各待抽取項在本文的位置和觸發(fā)詞的觸動方向,本文選取了300條動物衛(wèi)生事件新聞進行待抽取項在文本語料的位置和觸發(fā)詞前后的位置進行統(tǒng)計分析。地點和應(yīng)對措施待抽取屬性項是通過觸發(fā)詞詞性標(biāo)注進行抽取的,所以只對時間、疫病名稱和動物數(shù)量三個待抽取屬性項的文本位置和觸發(fā)詞位置進行統(tǒng)計分析。統(tǒng)計結(jié)果如表2所示。

        表2 抽取位置及方向統(tǒng)計分析結(jié)果

        續(xù)表2

        由表2中的待抽取屬性項文本位置的統(tǒng)計結(jié)果可以看出,地點和疫病名稱待抽取項可以直接從新聞標(biāo)題中獲得。因此,本文將新聞標(biāo)題作為首句文本加入到正文中進行信息抽取。對觸發(fā)詞位置的統(tǒng)計結(jié)果可知,時間待抽取屬性項為前向觸發(fā),疫病名稱和動物數(shù)量待抽取屬性項觸發(fā)詞為雙向觸發(fā),根據(jù)位置前后概率可以確定其先行觸發(fā)方向。

        觸發(fā)詞主要是用來識別待抽取項的大概位置,可以通過使用正則表達式來匹配該屬性項。根據(jù)對動物衛(wèi)生事件新聞本文特征的分析,各待抽取屬性項的抽取規(guī)則具體如下:

        (1) 時間 根據(jù)對新聞文本特征的分析發(fā)現(xiàn),時間屬性項通常出現(xiàn)在正文首句,所以,對待抽取文本的第二句使用規(guī)則Regex1根據(jù)觸發(fā)詞向前查找標(biāo)注為/t的詞。

        Regex1:([0-9u4e00-u9fa5]*/t)+(?=((?!/t).)*/date)

        (2) 地點 根據(jù)表2看出地點待抽取屬性項可以直接從新聞標(biāo)題中獲得,因此在第一句文本中使用規(guī)則Regex2查找標(biāo)注為/ns或/nsf的詞。

        Regex2:([0-9u4e00-u9fa5]+/ns[a-z]*)+

        (3) 疫病名稱 疫病名稱屬性項將從新聞標(biāo)題和正文首句中進行抽取。首先使用規(guī)則Regex3根據(jù)觸發(fā)詞向后查找標(biāo)注為/disease的詞,如果沒有找到則使用規(guī)則Regex4據(jù)觸發(fā)詞向前查找標(biāo)注為/disease的詞,如果不存在觸發(fā)詞則使用規(guī)則Regex5查找標(biāo)注為/disease的詞。具體規(guī)則見表3。

        表3 疫病名稱屬性項抽取規(guī)則

        (4) 動物數(shù)量 對于染疫(疑似染疫)動物數(shù)量,首先使用Regex6根據(jù)觸發(fā)詞向前查找與量詞(標(biāo)注為/q)相連標(biāo)注為/m的詞。如果沒有找到則使用規(guī)則Regex7向后查找與量詞(標(biāo)注為/q)相連標(biāo)注為/m的詞。死亡動物數(shù)量和撲殺動物數(shù)量的抽取方式與染疫(疑似染疫)動物數(shù)量相同。具體規(guī)則見表4。

        (5) 應(yīng)對措施 從第一句文本開始,使用規(guī)則Regex12查找標(biāo)注為/measure或/q_m的詞語。

        Regex12:[u4e00-u9fa5]+(?=/measure|/q_m)

        2.4 實驗結(jié)果分析

        本文從新華網(wǎng)、環(huán)球網(wǎng)、中國新聞網(wǎng)等網(wǎng)站抓取了2017年1月至2017年6月期間共計800條動物衛(wèi)生事件新聞數(shù)據(jù)。經(jīng)過分詞、分句、詞性標(biāo)注等文本預(yù)處理之后進行抽取實驗。實驗結(jié)果使用準(zhǔn)確率(P)、召回率(R)及F1值進行測評,得到的測評結(jié)果如表5所示。

        表5 動物衛(wèi)生事件輿情信息抽取實驗結(jié)果

        從表5中可以看出:

        (1) 時間屬性項抽取的召回率和準(zhǔn)確率最高,這是因為不同新聞網(wǎng)站對對新聞報道時間的表達方式高度統(tǒng)一。

        (2) 地點作為新聞六大要素之一,而且動物衛(wèi)生事件新聞的標(biāo)題都會對地點進行描述。本文地點屬性項的抽取僅依靠詞性標(biāo)注進行,導(dǎo)致地點抽取結(jié)果對ICTCLAS分詞工具地名識別的準(zhǔn)確度存在較大的依賴。例如:新聞中出現(xiàn)的國家名稱簡寫“澳”和地名“圣海倫娜”ICTCLAS不能正確進行標(biāo)注,還有少數(shù)國內(nèi)的市、區(qū)、縣和國外的州不能準(zhǔn)確的標(biāo)注,導(dǎo)致準(zhǔn)確率低。如果將地點粒度變粗(國內(nèi)精確到省,國外精確到國家),地點屬性項的準(zhǔn)確率可以達到92.4%,召回率達到87.7%。

        (3) 疫病名稱也是動物衛(wèi)生事件新聞一定會描述的內(nèi)容,其準(zhǔn)確率達到97.4%,召回率達到94.9%。疫病名稱屬性項根據(jù)觸發(fā)詞對本文提供的動物疫病詞典中的疫病名稱進行抽取,由此可知,疫病名稱的準(zhǔn)確率和召回率與動物疫病詞典中的疫病名稱完備性有較大關(guān)聯(lián)。后續(xù)研究中可以加入動物疫病知識本體以提高抽取效果。

        (4) 根據(jù)本文動物數(shù)量的三類抽取規(guī)則對屬性項進行抽取,抽取結(jié)果較其他屬性項的效果差距較大。三種動物數(shù)量抽取結(jié)果的準(zhǔn)確率和召回率普遍偏低,主要存在以下幾種錯誤情況:

        ① 在抽取過程中,本文抽取實驗中默認(rèn)返回抽取到的第一個匹配項。有些新聞會在標(biāo)題或者正文前部分先描寫一個粗略的動物數(shù)量,再在下文中描寫詳細(xì)數(shù)據(jù),還有部分新聞會在一個報道中對兩個動物衛(wèi)生事件進行描述。所以,在包含多個動物數(shù)量值的情況下根據(jù)抽取機制不能獲取到準(zhǔn)確結(jié)果。

        ② 本文制定的動物數(shù)量抽取規(guī)則是根據(jù)觸發(fā)詞和量詞詞性標(biāo)注來定位抽取項,并未對具體量詞進行定義,造成了大量錯誤。

        ③ 本文設(shè)定在死亡和撲殺動物數(shù)量觸發(fā)詞在抽取中有不錯的適用性,但在對染疫動物數(shù)量抽取時新聞文本中出現(xiàn)了多種側(cè)面描述方式,如:“表現(xiàn)出……癥狀”、“檢測呈陽性”、“檢測出……病毒”等,抽取觸發(fā)詞的不完善導(dǎo)致染疫動物數(shù)量抽取的效果差。

        由以上分析可知,動物數(shù)量的抽取規(guī)則存在很多漏洞,需對其進行改進以改善其準(zhǔn)確率和召回率。

        (5) 動物衛(wèi)生事件新聞對應(yīng)對措施的描述方式差異大,而且大部分新聞對動物衛(wèi)生事件應(yīng)對措施的描述比較空泛。本文選取了應(yīng)對動物衛(wèi)生事件常用的具體措施作為觸發(fā)詞直接根據(jù)詞性進行抽取。根據(jù)詞性直接從文本中進行抽取可以做到抽取的高召回率,但是對其準(zhǔn)確率的高低有影響。例如:文本“馬拉維已經(jīng)采取隔離檢疫措施,尚未對受影響的動物接種疫苗”,根據(jù)抽取規(guī)則會將“隔離”、“接種疫苗”抽取出來,但是接種疫苗是尚未執(zhí)行的措施不應(yīng)該抽取出來。還有部分新聞在描述完當(dāng)前時間會對過去事件進行描述,而根據(jù)抽取規(guī)則會將去年事件的應(yīng)對措施抽取出來。后續(xù)研究需要對應(yīng)對措施的抽取內(nèi)容和抽取方式進行更詳細(xì)的探討。

        3 動物數(shù)量屬性項抽取的改進

        3.1 基于節(jié)點關(guān)系比較的抽取方法

        根據(jù)2.4節(jié)中對動物數(shù)量屬性項抽取結(jié)果的分析可知,量詞定義和染疫動物數(shù)量觸發(fā)詞不準(zhǔn)確的問題可以通過表6中的抽取規(guī)則解決。但是,抽取效果差的核心問題在于抽取實驗?zāi)J(rèn)返回第一個匹配結(jié)果。如果抽取實驗不再默認(rèn)返回第一個匹配結(jié)果,而是返回新聞文本中根據(jù)規(guī)則可以匹配到的結(jié)果,那么如何判斷和處理所有返回結(jié)果的關(guān)系就成為了改善動物數(shù)量屬性項抽取的關(guān)鍵。

        表6 修改及新增的抽取規(guī)則

        本文提出基于節(jié)點關(guān)系比較的方法對動物數(shù)量屬性項的抽取效果進行改進。將動物數(shù)量抽取所返回的結(jié)果記錄在動物數(shù)量節(jié)點中,并為動物數(shù)量節(jié)點設(shè)置屬性,通過各動物數(shù)量節(jié)點的屬性值來判斷節(jié)點之間的關(guān)系。動物數(shù)量節(jié)點包含的屬性有:時間、地點、疫病、動物種類、結(jié)果精度。其中:時間表示該動物數(shù)量的動物染疫、死亡或被撲殺的時間;地點表示該動物數(shù)量所對應(yīng)動物衛(wèi)生事件發(fā)生的地點;疫病名稱表示該動物數(shù)量的動物染疫、死亡或被撲殺的病因;動物種類表示該動物數(shù)量所對應(yīng)的動物種類;結(jié)果精度表示抽取結(jié)果是精確值還是模糊值,用T和F表示。依據(jù)對動物數(shù)量屬性項所在文本的位置分析,使用抽取規(guī)則從動物數(shù)量節(jié)點值前方文本中匹配獲取動物數(shù)量節(jié)點的時間、地點和疫病屬性值,選取距離動物數(shù)量節(jié)點值最近的名詞作為動物數(shù)量節(jié)點的動物種類屬性值,而結(jié)果精度屬性值則通過判斷動物數(shù)量節(jié)點值是否包含“多”、“余”等詞語來確定。

        為了簡化判斷各動物數(shù)量節(jié)點間的關(guān)系,本文設(shè)置一個參考節(jié)點。參考節(jié)點是用來表示該新聞報道的動物衛(wèi)生事件的相關(guān)信息。參考節(jié)點本身沒有值,其包含時間、地點、疫病三個屬性。因為參考節(jié)點作為篩選動物數(shù)量節(jié)點的基礎(chǔ)參照,所以參考節(jié)點的屬性值為新聞描述的動物衛(wèi)生事件的最粗粒度數(shù)據(jù)值。即選取新聞報道的時間作為參考節(jié)點的時間,地點則選取動物衛(wèi)生事件發(fā)生的國家或省份,不細(xì)化到州或區(qū)縣,疫病即引發(fā)動物衛(wèi)生事件的疫病。

        動物數(shù)量屬性項的值需要經(jīng)過參考節(jié)點與動物數(shù)量節(jié)點和動物數(shù)量節(jié)點間的兩次關(guān)系判斷才能最終確定。參考節(jié)點與動物數(shù)量節(jié)點之間的關(guān)系分為相關(guān)關(guān)系和無關(guān)關(guān)系兩種;動物數(shù)量節(jié)點之間的關(guān)系包括:相等關(guān)系、包含關(guān)系和并列關(guān)系。動物數(shù)量屬性項值確定流程如下:

        輸入:參考節(jié)點,動物數(shù)量節(jié)點集合。

        輸出:動物數(shù)量屬性項值。

        Step1進行參考節(jié)點與動物數(shù)量節(jié)點集合中每個節(jié)點的關(guān)系判斷,與參考節(jié)點呈相關(guān)關(guān)系的動物數(shù)量節(jié)點進入Step2,刪除與參考節(jié)點呈無關(guān)關(guān)系的動物數(shù)量節(jié)點;

        Step2如果僅有一個動物數(shù)量節(jié)點則以該節(jié)點值作為動物數(shù)量屬性項的值,進入Step5,如果存在多個動物數(shù)量節(jié)點則判斷各動物數(shù)量節(jié)點間的關(guān)系,進入Step3;

        Step3將動物數(shù)量節(jié)點以樹形結(jié)構(gòu)排列,進入Step4;

        Step4選擇樹形結(jié)構(gòu)頂層的節(jié)點,根據(jù)節(jié)點值及其精度判斷最終結(jié)果,進入Step5;

        Step5輸出動物數(shù)量屬性項值。

        3.2 節(jié)點關(guān)系判斷

        參考節(jié)點與動物數(shù)量節(jié)點之間的關(guān)系分為相關(guān)關(guān)系和無關(guān)關(guān)系。相關(guān)關(guān)系是指動物數(shù)量節(jié)點值所描述的是當(dāng)前新聞報道的動物衛(wèi)生事件中涉及的動物數(shù)量;無關(guān)關(guān)系是指動物數(shù)量節(jié)點值描述的不是當(dāng)前新聞報道的動物衛(wèi)生事件,一般為過往類似動物衛(wèi)生事件中涉及的動物數(shù)量。

        設(shè)參考節(jié)點R{t1,add1,disease1},動物數(shù)量節(jié)點N{t2,add2,disease2,animal},R和N的關(guān)系判斷方法為:

        判定規(guī)則1若R和N滿足t2∈[t1-1month,t1]、add2?add1、disease2=disease1,那么R和N兩個節(jié)點為相關(guān)關(guān)系,否則為無關(guān)關(guān)系。

        在判斷完參考節(jié)點與動物數(shù)量節(jié)點之間的關(guān)系后,與參考節(jié)點呈相關(guān)關(guān)系的動物數(shù)量節(jié)點進行動物數(shù)量節(jié)點間的關(guān)系判斷。動物數(shù)量節(jié)點之間的關(guān)系分為相等關(guān)系、包含關(guān)系和并列關(guān)系。由于進行動物數(shù)量節(jié)點間關(guān)系判斷的節(jié)點都是與參考節(jié)點呈相關(guān)關(guān)系的節(jié)點,各動物數(shù)量節(jié)點疫病屬性值是一致的,所以將從時間、地點、動物種類屬性值對動物數(shù)量節(jié)點關(guān)系進行判斷。相等關(guān)系表示兩個節(jié)點描述的為動物衛(wèi)生事件中的同一個數(shù)量值;包含關(guān)系表示兩個動物數(shù)量節(jié)點值在時序或地點或動物種類上存在包含關(guān)系;并列關(guān)系表示兩個動物數(shù)量節(jié)點值是對動物衛(wèi)生事件在地點或動物種類上的細(xì)化描述。

        設(shè)動物數(shù)量節(jié)點N1{t1,add1,disease1,animal1},N2{t2,add2,disease2,animal2},N1和N2間的關(guān)系判斷方法如下:

        判定規(guī)則2若N1和N2滿足t1=t2、add1=add2、animal1=animal2,那么N1和N2為相等關(guān)系。

        判定規(guī)則3若N1和N2滿足t1≤t2、add1?add2、animal1?animal2,那么N2包含N1。

        判定規(guī)則4若N1和N2滿足add1≠add2或animal1≠animal2,那么N1和N2為并列關(guān)系。

        在各動物數(shù)量節(jié)點關(guān)系判斷之后,根據(jù)節(jié)點樹形結(jié)構(gòu)中頂層節(jié)點的個數(shù)和各節(jié)點的結(jié)果精度確定動物數(shù)量屬性項的值,判定方法如下:

        判定規(guī)則5如果頂層節(jié)點只有一個,則以該節(jié)點的值作為動物數(shù)量屬性項的值。

        判定規(guī)則6如果頂層節(jié)點有多個且這些節(jié)點呈相等關(guān)系,則選擇結(jié)果精度屬性為“T”的節(jié)點值作為動物數(shù)量屬性項的值。

        判定規(guī)則7如果頂層節(jié)點有多個且這些節(jié)點呈并列關(guān)系,則以這些節(jié)點值的和作為動物數(shù)量屬性項的值。

        3.3 基于節(jié)點關(guān)系比較方法抽取實驗

        使用表6中完善后的抽取規(guī)則和基于節(jié)點關(guān)系比較方法在2.4節(jié)的實驗數(shù)據(jù)上重新進行動物數(shù)量屬性項的抽取實驗?;?.4節(jié)中實驗結(jié)果分析可知,動物數(shù)量節(jié)點屬性值的抽取效果對分詞工具、動物疫病詞典和語法分析工具有較大依賴性,這可能會導(dǎo)致基于節(jié)點關(guān)系比較的動物數(shù)量抽取方法結(jié)果較之前的規(guī)則抽取結(jié)果更差。本文在此不再對節(jié)點屬性值的抽取進行深入研究,所以為了減小節(jié)點屬性值抽取結(jié)果對節(jié)點關(guān)系比較的影響,在自動抽取得到的參考節(jié)點和動物數(shù)量節(jié)點屬性值進行人工審核。審核之后再進行節(jié)點關(guān)系判斷,最終輸出動物數(shù)量屬性項的值。實驗結(jié)果使用準(zhǔn)確率(P)、召回率(R)及F1值進行測評。得到的測評結(jié)果如表7所示,與2.4節(jié)動物數(shù)量屬性項抽取(改進前)結(jié)果對比如圖2和圖3所示。

        表7 動物數(shù)量屬性項抽取實驗結(jié)果

        圖2 準(zhǔn)確率對比圖

        圖3 召回率對比圖

        根據(jù)表7、圖2、圖3可以看出,基于節(jié)點比較的抽取方法提升了三種動物數(shù)量屬性項的抽取效果。實驗?zāi)苋〉幂^好的抽取效果有以下幾個原因:

        (1) 基于節(jié)點關(guān)系比較的抽取方法的抽取效果依賴于動物數(shù)量節(jié)點值的抽取效果。如果進入節(jié)點關(guān)系比較的動物數(shù)量節(jié)點是錯誤的,那么對節(jié)點間的關(guān)系比較會帶來影響。表6對抽取規(guī)則進行補充并對抽取規(guī)則中的具體量詞“只”、“頭”、“例”進行定義,減少了因標(biāo)注“/q”定位而獲取的錯誤抽取結(jié)果個數(shù),從而提高了動物數(shù)量節(jié)點值的抽取效果。

        (2) 之前的抽取方法只能返回第一個抽取結(jié)果,無法判斷新聞中多個動物數(shù)量值的關(guān)系。而動物數(shù)量節(jié)點和參考節(jié)點的關(guān)系比較排除了過往事件中的動物數(shù)量值,動物數(shù)量節(jié)點的關(guān)系比較可以很好地處理新聞中多個動物數(shù)量值的關(guān)系,提高了抽取結(jié)果的準(zhǔn)確率和召回率。

        4 結(jié) 語

        本文總結(jié)了各待抽取屬性項文本描述和分布規(guī)律,并使用正則表達式構(gòu)建抽取規(guī)則實現(xiàn)了動物衛(wèi)生事件輿情信息的抽取。本文還提出基于節(jié)點關(guān)系比較的方法對動物數(shù)量屬性項的抽取進行改進。兩次抽取實驗可以證明本文提出的方法是可行的,且準(zhǔn)確率較高。但是本文未對動物數(shù)量節(jié)點屬性值的抽取方法進行改進,動物數(shù)量節(jié)點屬性值抽取的錯誤結(jié)果影響了節(jié)點間關(guān)系的判斷。下一步將對動物數(shù)量節(jié)點屬性值的抽取方法進行研究,實現(xiàn)準(zhǔn)確高效的自動抽取,減少人工工作量。

        猜你喜歡
        規(guī)則文本
        撐竿跳規(guī)則的制定
        數(shù)獨的規(guī)則和演變
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        在808DA上文本顯示的改善
        規(guī)則的正確打開方式
        幸福(2018年33期)2018-12-05 05:22:42
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        TPP反腐敗規(guī)則對我國的啟示
        搜索新規(guī)則
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        亚洲av色香蕉第一区二区三区| 天美传媒一区二区| 国产精品美女一区二区三区| 久久久久亚洲女同一区二区| 日本无吗一区二区视频| 国内精品亚洲成av人片| 久久久久久久久毛片精品| 国产微拍精品一区二区| 国内精品久久久久影院蜜芽| 久久精品国产亚洲av天美| 美女mm131爽爽爽| 装睡被陌生人摸出水好爽| 亚洲欧洲日产国码无码| 亚州av高清不卡一区二区| 人妻少妇久久久久久97人妻 | 射精区-区区三区| 日本护士吞精囗交gif| 99综合精品久久| 亚洲av手机在线播放| 日韩人妻无码一区二区三区久久| 四虎成人精品无码永久在线| 蜜桃av噜噜一区二区三区香| 91日韩东京热中文字幕| 久久久国产精品免费a片3d| 人妻久久999精品1024| 一区二区在线观看日本免费| 国产精品无码一区二区三级| 亚洲av综合色区无码一二三区| 日本一区二区三区中文字幕最新| 天堂久久一区二区三区| 免费大片黄国产在线观看| 国产在线观看免费观看| 日韩av无码午夜福利电影| 华人在线视频精品在线| 久久久亚洲av成人网站 | 免费一级肉体全黄毛片| 一区二区三区精品亚洲视频| 亚洲成av人片乱码色午夜| 亚洲日韩精品国产一区二区三区| 午夜一区二区三区av| 国产精品一区二区三区在线蜜桃 |