亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種面向突發(fā)事件的文本語料自動標(biāo)注方法

        2017-06-01 11:29:47張雨嘉劉宗田
        中文信息學(xué)報 2017年2期
        關(guān)鍵詞:文本

        劉 煒,王 旭,張雨嘉,劉宗田

        (上海大學(xué) 計算機(jī)工程與科學(xué)學(xué)院,上海 200444)

        一種面向突發(fā)事件的文本語料自動標(biāo)注方法

        劉 煒,王 旭,張雨嘉,劉宗田

        (上海大學(xué) 計算機(jī)工程與科學(xué)學(xué)院,上海 200444)

        事件語料庫是研究語義Web中事件知識的抽取、表示、推理和挖掘的基礎(chǔ)和關(guān)鍵技術(shù)之一。該文以事件作為文本知識單元,在LTP分析的基礎(chǔ)上,用序列模式挖掘算法PrefixSpan從現(xiàn)有的小規(guī)模語料庫中挖掘事件要素的詞性規(guī)則等,用同義詞詞林(擴(kuò)展版)對觸發(fā)詞表進(jìn)行了擴(kuò)充,結(jié)合自定義的事件要素詞典,采用多遍過濾、逐遍完善的思想提出一種針對大規(guī)模突發(fā)事件語料庫構(gòu)建的自動標(biāo)注方法,在實驗部分不僅與人工標(biāo)注做了對比,同時與Stanford CoreNLP NER進(jìn)行了對比,實驗效果理想。

        突發(fā)事件;語料庫;自動標(biāo)注

        1 引言

        當(dāng)前,國內(nèi)外各類突發(fā)事件頻發(fā),反映在互聯(lián)網(wǎng)上則是各類新聞、社交網(wǎng)站關(guān)于突發(fā)事件的信息呈現(xiàn)爆發(fā)式增長。通過對海量突發(fā)事件信息的結(jié)構(gòu)化處理和語義分析實現(xiàn)突發(fā)事件的判斷和預(yù)測具有重要意義。傳統(tǒng)的文本分析手段局限于樣本數(shù)量和定性研究,無法適應(yīng)大數(shù)據(jù)時代在內(nèi)容挖掘上對廣度和深度的要求[1]。語料庫的分析方法,符合大數(shù)據(jù)的思維邏輯,通過對海量文本數(shù)據(jù)的處理,可以對文本內(nèi)容進(jìn)行深入挖掘,而不僅僅局限于表層研究或定性分析。通過構(gòu)建突發(fā)事件語料庫,可以對突發(fā)事件對象進(jìn)行分析,確定突發(fā)事件領(lǐng)域的概念以及概念之間的語義關(guān)系,從而可構(gòu)建針對突發(fā)事件的領(lǐng)域本體模型,并進(jìn)行推理應(yīng)用。語料庫對于實現(xiàn)突發(fā)事件領(lǐng)域知識的共享和重用也具有重要意義[2-4]。

        語料庫建設(shè)是自然語言處理技術(shù)中的基礎(chǔ)性的研究工作。由于事件的特殊性,普通的語料標(biāo)注方法并不適應(yīng)于事件標(biāo)注,因此,學(xué)者們對面向事件的語料標(biāo)注進(jìn)行了研究。但是限于研究目的和對象的不同,現(xiàn)有的事件語料庫分別采用了不同的標(biāo)注體系[5]。這些標(biāo)注體系主要關(guān)注某些特定類型的事件或事件要素,忽略了一般意義上的事件以及人們對于事件的理解和認(rèn)識。目前,影響較大的事件標(biāo)注語料庫有ACE評測語料[6-7]和TimeBank語料[8]。其中ACE的評測任務(wù)只針對特定類型的事件及其子類事件,因此語料中也只標(biāo)注了這些特定類型的事件信息,除了事件的類型和子類型之外,ACE中的事件還具有四種屬性: 事件的極性、事件的時態(tài)、事件的指屬、事件的形態(tài);TimeBank標(biāo)注了事件、時間、時間指示詞以及事件和時間之間的關(guān)聯(lián)關(guān)系等等,另外其采用了一種改進(jìn)的XML語言-TimeML進(jìn)行標(biāo)注,增強(qiáng)了它在描述時間信息方面的能力。國內(nèi)在事件標(biāo)注方面的工作起步較晚,而且缺少大規(guī)模的語料庫作為研究工作的支撐。主要的工作有上海大學(xué)的中文突發(fā)事件語料庫*https://github.com/daselab/CEC-Corpus(Chinese Emergency Corpus, CEC)。CEC與ACE、TimeBank語料庫相比,規(guī)模雖然偏小,但是對事件和事件要素的標(biāo)注更為全面,詳見表1的對比分析。縱觀現(xiàn)有大部分事件語料庫,多是通過手工方式標(biāo)注,缺點是標(biāo)注效率低,而且標(biāo)注過程中人為的主觀性容易造成標(biāo)注標(biāo)準(zhǔn)的不一致,進(jìn)而影響語料質(zhì)量。本文在結(jié)合CEC語料庫標(biāo)注規(guī)范基礎(chǔ)上,提出一種基于事件模型的突發(fā)事件語料自動標(biāo)注方法*https://github.com/daselab/CEC-Automatic-Annotation。

        表1 CEC與ACE和TimeBank對比

        2 事件模型

        在自然語言處理領(lǐng)域,“事件”是一個非常重要的概念。事件關(guān)系到多方面的靜態(tài)概念,是比靜態(tài)概念粒度更大的知識單元。本文所標(biāo)注的文本語料將在文本中標(biāo)注關(guān)于突發(fā)事件的完整信息,包括事件的各類要素以及一篇文本中不同事件之間的語義關(guān)系。本節(jié)簡要地介紹事件相關(guān)的概念。

        2.1 事件定義

        定義1 事件(Event),指在某個特定的時間和地點發(fā)生的,由若干角色參與,表現(xiàn)出若干動作特征,并伴隨著對象內(nèi)部狀態(tài)變化的一件事情[9]。對事件的定義可以通過一個形式化的六元組表示,如式(1)所示。

        (1)

        A表示動作;O表示對象;T表示時間;V表示地點;P表示斷言;L表示語言表現(xiàn)。

        定義2 事件關(guān)系,事件之間的關(guān)系分為分類關(guān)系和非分類關(guān)系。分類關(guān)系指事件類之間的包含關(guān)系或父子關(guān)系,非分類關(guān)系指事件或事件類之間內(nèi)在的語義關(guān)系,包括組成關(guān)系(isComposedOf)、跟隨關(guān)系(follow)、因果關(guān)系(causal)、并發(fā)關(guān)系(concurrence)和意念包含關(guān)系(thoughtContent)。分類關(guān)系通常存在于事件類之間,而在語料標(biāo)注中,一般只標(biāo)注非分類關(guān)系。關(guān)于事件和事件關(guān)系的語義定義見文獻(xiàn)[9]。

        3 CEC及標(biāo)注規(guī)范

        3.1 CEC(Chinese Emergency Corpus)

        CEC是前期工作中構(gòu)建的一個小規(guī)模的事件語料庫,合計332篇。語料文本分為五類,分別是地震、火災(zāi)、交通事故、恐怖襲擊、食物中毒。CEC與ACE、TimeBank語料庫相比,規(guī)模雖然偏小,但是對事件和事件要素的標(biāo)注更為全面。因此,本文將CEC作為自動標(biāo)注研究的訓(xùn)練集與規(guī)則挖掘的知識庫。

        對CEC進(jìn)行分析,其中Sentences without Event指不包含事件的句子數(shù)目,Event Elements指事件的所有要素。由表2可知包含事件的句子占句子總數(shù)的93.48%,觸發(fā)詞占事件所有要素的41.34%,觸發(fā)詞和事件為一一對應(yīng)。

        定義3 事件觸發(fā)詞,指在文本中清晰地表示事件發(fā)生的詞語。

        從CEC中抽取不同類別的觸發(fā)詞構(gòu)建觸發(fā)詞表,再用同義詞詞林?jǐn)U充觸發(fā)詞表,進(jìn)而可以用來識別事件。

        表2 CEC標(biāo)注數(shù)據(jù)統(tǒng)計

        定義4 意念事件,一個意念事件是某人心中產(chǎn)生一段意語的事件,這段意語或用口語表達(dá),或用文字描述,或留在心中自知。

        定義5 意念事件觸發(fā)詞,是一個詞或詞的集合,這些詞能夠引出意念事件中描述對象內(nèi)心想法、決策及態(tài)度等各方面內(nèi)容。

        意念事件按照動作分類可分為兩類: 一是訴說類;二是自知類。一段話是一個意念事件,一篇文章是一個意念事件,一個想象是一個意念事件,一個夢也是一個意念事件。如果將意念事件的類型做進(jìn)一步細(xì)分的話,根據(jù)對CEC的統(tǒng)計可以得到如下分類和舉例(表3)。

        表3 意念事件觸發(fā)詞分類及舉例

        定義6 意語,表示行為人用來表達(dá)想法、觀點、態(tài)度和所要描述事實的內(nèi)容。

        簡單來說,意念事件觸發(fā)詞所引發(fā)的內(nèi)容即為意語,意語是由意念事件任意一個或共同組成。

        3.2 標(biāo)注規(guī)范

        CEC標(biāo)注的格式采用XML語言,在自動標(biāo)注研究中沿用XML語言來存儲標(biāo)注的語料,各標(biāo)簽的定義以及標(biāo)簽之間的嵌套關(guān)系詳見圖1。

        圖1中,Denoter表示事件的觸發(fā)詞,類型共包括七種: 突發(fā)事件(emergency)、移動事件(movement)、聲明類事件(statement)、原子動作事件(action)、操作事件(operation)、狀態(tài)改變事件(stateChange)、感知事件(perception);Time表示時間要素,其類型包括: 相對時間(relTime)、絕對時間(absTime)、段時間(timeInterval);Location表示地點要素;Participant表示事件參與者,其類型包括: 主體Agent、客體Recipient[10]。事件的類型還可以標(biāo)注為thoughtEvent,表示意念事件。如果為非意念事件,那么Event標(biāo)簽不添加類型屬性。Title、ReportTime、Content及eRelation處于并列結(jié)構(gòu),一個Content標(biāo)簽可以包括多個Paragraph標(biāo)簽,一個Paragraph標(biāo)簽可以包括多個Sentence標(biāo)簽,一個Sentence標(biāo)簽內(nèi)可以包括零個或多個Event標(biāo)簽。

        其中Event、Denoter、Participant、Time、Location標(biāo)簽均具有id屬性,分別為: eid="eN"、did="dN"、sid="sN"、oid="oN"、tid="tN"、lid="lN",屬性值中的N表示在整篇文章中,其所處的序號。eid表示事件編號,did表示觸發(fā)詞編號,sid表示事件參與者主體的編號,oid表示事件參與者客體的編號,tid表示時間編號,lid表示地點編號。eRelation表示事件關(guān)系,它的relType表示事件關(guān)系類型,定義了五種類型的值,分別是: causal(因果)、accompany(伴隨)、follow(跟隨)、composite(組成)以及thoughtContent(意念包含)。

        3.3 標(biāo)注質(zhì)量保證

        標(biāo)注語料采用XML格式進(jìn)行存儲,可以通過DTD或者XML Schema對XML文件的結(jié)構(gòu)以及嵌套要素進(jìn)行校驗,如果一篇語料有多個不同的標(biāo)注版本,則計算其一致性,如式(2)所示。

        (2)

        圖1 自動標(biāo)注XML標(biāo)簽規(guī)范

        |A1|表示語料A1中被標(biāo)注為事件指示詞及事件要素的詞的個數(shù),|A1∩A2∩…∩An|表示n種標(biāo)注版本中標(biāo)注相同的詞的個數(shù)。如果agreement大于指定的閾值,則將該語料加入語料庫中,完成標(biāo)注,否則,該語料分歧性太大,重新標(biāo)注,直至其一致性大于指定的閾值。

        4 自動標(biāo)注

        實現(xiàn)自動化標(biāo)注需要多項基礎(chǔ)性工作,包括分詞、詞性識別、命名實體識別、要素識別等[11]。因此,選擇合適的分詞工具是實現(xiàn)自動化標(biāo)注的第一步工作。由于一個事件必有一個觸發(fā)詞,我們的方案是借助識別觸發(fā)詞來識別事件,進(jìn)而識別事件的其它要素,完成基于事件的自動標(biāo)注。

        4.1 分詞工具

        在現(xiàn)有的分詞工具中,LTP(Language Technology Platform)[12]制定了基于XML的語言處理結(jié)果表示,并在此基礎(chǔ)上提供了一整套自底向上的豐富、高效、高精度的中文自然語言處理模塊。

        LTP詞性標(biāo)注采用“863”詞性標(biāo)注集,命名實體識別模塊采用O-S-B-I-E標(biāo)注形式,其中O表示這個詞不是NE(Named Entity),S表示這個詞單獨構(gòu)成一個NE,B表示這個詞為一個NE的開始,I表示這個詞為一個NE的中間,E表示這個詞為一個NE的結(jié)尾;核心的語義角色為A0-A5,A0通常是動作的施事,A1通常表示動作的影響,A2-A5根據(jù)謂語動詞不同含義不同;LTP中的NE模塊可以識別三種NE,分別是: Nh表示人名、Ni表示機(jī)構(gòu)名、Ns表示地名。其余的語義角色為附加語義角色,如LOC表示地點,TMP表示時間等。

        4.2 識別觸發(fā)詞(Denoter)

        圖2是從CEC語料中提取出的八類觸發(fā)詞統(tǒng)計結(jié)果圖,使用LTP對CEC所使用的生語料(未標(biāo)注文本)進(jìn)行分析,可以獲得分詞與詞性標(biāo)注信息,稱之為Doc-LTP,將CEC中人工標(biāo)注的文本稱為Doc-CEC。針對每一篇文本文件進(jìn)行處理,將Doc-LTP與Doc-CEC中的同一篇文本進(jìn)行比較,找到Doc-CEC標(biāo)注出的Denoter內(nèi)容在Doc-LTP中所對應(yīng)的詞性,經(jīng)過統(tǒng)計,得到觸發(fā)詞的詞性是動詞、名詞(或者包含動詞、名詞)的次數(shù)是5 548次,占所有觸發(fā)詞的比例為94.097 6%。因此,在自動標(biāo)注時可基于觸發(fā)詞表以及統(tǒng)計得到的觸發(fā)詞詞性規(guī)律來識別觸發(fā)詞。

        統(tǒng)計觸發(fā)詞詞性算法描述如下:

        圖2 CEC語料中八類觸發(fā)詞數(shù)量統(tǒng)計圖

        Step1:將CEC語料進(jìn)行去標(biāo)簽處理,還原為未經(jīng)過任何處理的狀態(tài),記為RC(RawCorpus);Step2:對RC進(jìn)行遍歷,得到一篇生語料,記RCi;Step3:用LTP對RCi進(jìn)行分析,得到分詞、id號、詞性標(biāo)注、命名實體識別、語義角色標(biāo)注信息等;Step4:將LTP分析的結(jié)果存入鍵值對的集合中,所有的鍵值對集合的Key都是id號,這樣能夠根據(jù)分詞內(nèi)容獲取到其對應(yīng)的詞性等信息;Step5:開始解析RCi所對應(yīng)的CEC中經(jīng)過人工標(biāo)注之后的同一篇語料,取得標(biāo)簽中所標(biāo)注的所有內(nèi)容,記為TW(TriggerWords);Step6:對TW進(jìn)行遍歷,記為TWi,與LTP分詞的結(jié)果進(jìn)行比較,得到與觸發(fā)詞內(nèi)容相同的分詞串;Step7:得到分詞串所對應(yīng)的id號,根據(jù)id號查找(pos表示詞性標(biāo)注)鍵值對,獲得id號對應(yīng)的詞性標(biāo)注結(jié)果。

        4.3 擴(kuò)充觸發(fā)詞表

        由于CEC語料庫規(guī)模有限,構(gòu)建的觸發(fā)詞表規(guī)模必然有限,難以做到大規(guī)模的覆蓋度。本文使用

        《同義詞詞林(擴(kuò)展版)》[13]來擴(kuò)充觸發(fā)詞表。如觸發(fā)詞“出生”可擴(kuò)展為:

        誕生 出生 降生 生 落地 墜地 出世

        擴(kuò)充觸發(fā)詞表算法描述如下:

        Step1:對某一類觸發(fā)詞表,遍歷觸發(fā)詞表中的每一個詞Wi,在同義詞詞林中查出它的全部同義詞項;Step2:取該詞所在的同義詞項的總詞數(shù)為S;Step3:統(tǒng)計該詞項中其他的詞匯出現(xiàn)在該類觸發(fā)詞表中的個數(shù)為N(包括Wi自身);Step4:計算N/S,如果N/S∈[0.4,1],本次實驗下限閾值取為0.4;Step5:那么取出這個義項中所有不在當(dāng)前觸發(fā)詞表中的詞匯,并且計算該詞匯的長度,以便識別是單字還是詞匯;Step6:將屬于詞匯的同義詞項全部擴(kuò)展到觸發(fā)詞表中(舍棄單字的同義詞項)。同樣的,使用該方法擴(kuò)展其他類別的觸發(fā)詞表;

        經(jīng)過擴(kuò)充后得到的觸發(fā)詞表分類統(tǒng)計如圖3。

        圖3 擴(kuò)充后觸發(fā)詞數(shù)量統(tǒng)計圖

        4.4 識別Participant、Location、Time要素

        同樣的,使用識別Denoter的方法,還可以從CEC中抽取出Participant、Location、Time要素所對應(yīng)的詞性集合,對于抽取出來的詞性集合,每一個要素內(nèi)容所對應(yīng)的詞性規(guī)則是有序且可重復(fù)的。例如,一個Location要素內(nèi)容的詞性規(guī)則是: [ns,nd,ns,ns,nd],之后使用序列模式挖掘算法從大量的詞性規(guī)則中挖掘頻繁序列,對于挖掘的結(jié)果要進(jìn)行人工篩選,并添加一些人工構(gòu)建的規(guī)則,序列模式挖掘算法采用文獻(xiàn)[14]提出的PrefixSpan算法,雖然文本內(nèi)容的形式會多種多樣,但是不同的文本其詞性是固定的。因此,構(gòu)建基于詞性的識別方法是可以應(yīng)付文本內(nèi)容多樣化的情況的。限于篇幅,僅列舉幾例作為說明。

        例1 “當(dāng)?shù)貢r間7日凌晨1點45分左右, 我們出發(fā)了”

        LTP分詞及詞性標(biāo)注: “當(dāng)?shù)?nl 時間/n 7日/nt 凌晨/nt 1點/nt 45分/nt 左右m,/wp 我們/r 出發(fā)/v 了/u”,在識別時間要素時,可以從開始的nt節(jié)點一直掃描到連續(xù)的最后一個nt節(jié)點,即nt+,(“+”表示出現(xiàn)1次或多次,“*”表示出現(xiàn)0次或多次,“?”表示出現(xiàn)一次或一次也沒有,“|”表示或者,“&”表示并且,“->”表示緊跟)將其作為Time要素。

        例2 “中國國家主席習(xí)近平、國務(wù)院總理李克強(qiáng)”

        LTP返回的XML格式標(biāo)注結(jié)果:

        由上例得出,使用S-Ns+(S-Nh+)S-Ni?S-Nh+可以識別Participant要素。

        例3 “云南省昆明市石林彝族自治縣境內(nèi)”

        LTP返回的XML格式標(biāo)注結(jié)果:

        根據(jù)LTP的命名實體的標(biāo)識說明,我們用B-Ns(I-Ns*)E-Ns(nl?|nd?)識別Location要素。

        對所挖掘的詞性規(guī)則以及人工構(gòu)建的規(guī)則進(jìn)行匯總?cè)绫?所示。

        表4 事件要素識別規(guī)則

        上述各列均可以作為獨立的識別規(guī)則。

        4.5 多遍過濾的自動標(biāo)注方法

        在自動標(biāo)注過程中,一遍標(biāo)注很難識別出所有的要素以及事件的邊界,而采用多遍過濾的方法可以對文本標(biāo)注的結(jié)果不斷修正和逐步完善。圖4所示為自動標(biāo)注的流程圖。

        以下對其中主要的步驟進(jìn)行詳細(xì)的說明,次要的步驟簡略說明。

        續(xù)表

        用戶自定義事件要素詞典可以收錄特殊行業(yè)或者自動標(biāo)注中難以識別的文本,而這些文本是人工可以認(rèn)定的確是事件某要素的情況,經(jīng)過多次的迭代,自定義事件要素詞典得到不斷的擴(kuò)充與完善,使得自動標(biāo)注的準(zhǔn)確率進(jìn)一步提高。

        5 實驗與分析

        5.1 實驗1—要素識別

        本文通過準(zhǔn)確率、召回率和F1值三個標(biāo)準(zhǔn)來評價自動標(biāo)注的效果。采用CEC作為實驗數(shù)據(jù),使用程序自動標(biāo)注之后將其與人工標(biāo)注語料進(jìn)行詳細(xì)的對比。

        由于研究的目的在于實現(xiàn)自動標(biāo)注,而不是進(jìn)行精確的文本匹配。所以在實現(xiàn)過程中,更側(cè)重于要素的識別。例如,人工標(biāo)注過程中將“當(dāng)?shù)貢r間1月14日晚”識別為時間要素,而在自動標(biāo)注中可能會將“當(dāng)?shù)貢r間1月14日”或者“當(dāng)?shù)貢r間1月14日晚,”(含標(biāo)點符號)識別為時間要素。在實驗過程中,認(rèn)為這兩種自動標(biāo)注情況都是正確的。

        定義自動標(biāo)注識別正確個數(shù)為Er,自動標(biāo)注識別總個數(shù)為Et,人工標(biāo)注識別總個數(shù)為Ea,準(zhǔn)確率、召回率、F1值的計算方法如下。

        準(zhǔn)確率(P):

        (3)

        召回率(R):

        (4)

        F1值(F1):

        (5)

        在實驗過程中,由于沒有權(quán)威的對比語料以及評價方法,暫且認(rèn)為人工標(biāo)注的準(zhǔn)確率已足夠高。但是未必達(dá)到百分之百,所以在計算召回率的時候,首先計算了自動標(biāo)注識別個數(shù)與人工標(biāo)注識別個數(shù)的平均值作為分母,這樣在沒有標(biāo)準(zhǔn)對比實驗語料的情況下,既考慮到了自動識別,也兼顧了人工識別。經(jīng)過對CEC的實驗,標(biāo)注要素個數(shù)統(tǒng)計如表5所示,實驗結(jié)果如表6所示。

        表5 CEC要素標(biāo)注統(tǒng)計

        表6 CEC要素自動標(biāo)注實驗結(jié)果

        5.2 實驗2—事件識別

        對CEC人工標(biāo)注的語料進(jìn)行統(tǒng)計,發(fā)現(xiàn)共標(biāo)注了5 954個事件,使用程序?qū)?32篇生語料完成自動標(biāo)注之后,統(tǒng)計顯示共標(biāo)注了7 523個事件,如表7所示。從數(shù)量上來看,使用程序標(biāo)注出的事件多于人工標(biāo)注出的事件。這是因為相對于人工來說,程序?qū)崿F(xiàn)的自動標(biāo)注都是基于分詞工具的分詞結(jié)果,而分詞工具都是較細(xì)粒度的對字詞進(jìn)行切分。自動標(biāo)注在識別觸發(fā)詞之后會基于一個事件必有一個觸發(fā)詞的原則,認(rèn)為這個觸發(fā)詞一定是屬于某個事件的,而事件的其他要素是可以缺省的,從而導(dǎo)致了自動標(biāo)注的事件數(shù)量比人工標(biāo)注的事件數(shù)量多。這也是本方法的不足之處,在后期需要進(jìn)一步改進(jìn)。

        表7 CEC事件識別對比

        5.3 實驗3—與Stanford Named Entity Recognizer (NER)識別對比

        為了更客觀的對本文方法進(jìn)行驗證,采用Stanford Named Entity Recognizer (NER)[15]進(jìn)行對比實驗。Stanford NER也叫條件隨機(jī)場分類器,是一個Java實現(xiàn)的命名實體識別程序(以下簡稱NER)。NER基于一個訓(xùn)練而得的Model工作,用于訓(xùn)練的數(shù)據(jù)即大量人工標(biāo)記好的文本,理論上用于訓(xùn)練的數(shù)據(jù)量越大,NER的識別效果就越好。但是對于中文識別,NER要求輸入集是中文分詞的輸出集,并且僅識別GPE(Geo-Political Entity)、PERSON、LOC(Location)、ORG(Organization)、MISC(Names of Miscellaneous Entities),可以看出MISC作為雜項結(jié)果集,也就是不能夠準(zhǔn)確識別為某一種具體的NER集合。

        使用NER對CEC語料進(jìn)行識別, 基于上面的說明,在本文的事件自動標(biāo)注過程中,Participant要素對應(yīng)ORG和PERSON,Location要素對應(yīng)LOC和GPE,因為MISC是雜項結(jié)果集,所以將其分別與Participant和Location進(jìn)行對比,但是任一個識別項只會擇Participant或Location其一,不會出現(xiàn)同時匹配兩者的情況。從NER標(biāo)注過的同一篇文本中,統(tǒng)計與自動標(biāo)注的語料有交集的數(shù)目,對332篇語料匯總之后,實驗結(jié)果如表8、表9所示。

        表8 CTB非均衡語料識別對比

        表9 PKU非均衡語料識別對比

        由實驗結(jié)果可以看出,自動標(biāo)注方法識別的要素在NER中同樣被識別或者說NER識別的實體中有部分可被自動標(biāo)注方法的Participant和Location要素所識別,同時兩者所共同識別或者有交集部分對自動標(biāo)注識別的要素的覆蓋度在88%以上。實驗結(jié)果說明基于挖掘的規(guī)則以及LTP標(biāo)注出的命名實體識別Participant和Location要素正確率較高。

        5.4 實驗4—CEEC語料庫要素識別

        CEEC*https://github.com/daselab/CEEC-Corpus(Chinese Environment Emergency Corpus)是利用人工標(biāo)注所構(gòu)建的環(huán)境污染類突發(fā)事件語料庫,共包括六類,分別是: 噪聲污染、土壤污染、水污染、海洋污染、空氣污染和社會效應(yīng),合計100篇。參考實驗1的步驟,經(jīng)過對CEEC的自動標(biāo)注實驗,標(biāo)注要素個數(shù)統(tǒng)計如表10所示,實驗結(jié)果如表11所示。

        表10 CEEC要素標(biāo)注統(tǒng)計

        表11 CEEC要素自動標(biāo)注實驗結(jié)果

        由實驗結(jié)果可以看出,ReportTime和Time要素格式統(tǒng)一,成分單一,識別效果較理想;由于事件觸發(fā)詞表是基于CEC所構(gòu)建,將其用于識別CEEC類語料,亦具有較高的識別率;Participant通常包括施動者(人)、參與者(機(jī)構(gòu)、組織等),成分復(fù)雜,因此自動識別率偏低。

        6 結(jié)束語

        本文針對現(xiàn)有手工構(gòu)建事件語料庫的不足,提出一種新的語料自動標(biāo)注方法。通過實驗表明,對于新聞報道類的文本,本文所提出的方法能夠有效地對生語料進(jìn)行自動化標(biāo)注,提高了語料標(biāo)注的效率。相比于傳統(tǒng)的人工標(biāo)注方法具有以下優(yōu)點。

        (1) 該方法采用程序?qū)崿F(xiàn)自動標(biāo)注,可以極大地提高標(biāo)注速度。

        (2) 在識別準(zhǔn)確率不高的情況下,可以作為人工標(biāo)注的前期工作。用程序自動標(biāo)注之后,人工對部分內(nèi)容做調(diào)整,非常有利于大規(guī)模的語料標(biāo)注工作。

        (3) 對標(biāo)注后的XML內(nèi)容進(jìn)行格式檢查,確保自動標(biāo)注語料的質(zhì)量,同時標(biāo)注格式滿足中文突發(fā)事件語料庫規(guī)范。

        (4) 采用多遍過濾的思想,便于后期對識別方法進(jìn)行改進(jìn),一旦有更好的識別方法,可以將其加入到過濾鏈條之中。

        本文方法仍存在需改進(jìn)的地方,主要體現(xiàn)在觸發(fā)詞和事件要素的自動識別準(zhǔn)確度尚未達(dá)到非常理想的程度,另外事件關(guān)系的識別及推理還需深入研究。

        [1] 喻國明, 李慧娟. 大數(shù)據(jù)時代傳播研究中語料庫分析方法的價值[J]. 傳媒, 2014 (2): 64-66.

        [2] LI Xiang, LIU Gang, LING Anhong, et al.Building a practical ontology for emergency response systems[C]//Proceedings of 2008 International Conference on Computer Science and Software Engineering. 2008: 222-225.

        [3] Q YU Kai, WANG Qingquan, RONG Lili. Emergency ontology construction in emergency decision support system[C]//Proceedings of 2008 IEEE International Conference on Service Operations and Logistics, and Informatics. 2008: 801-805.

        [4] 付劍鋒. 面向事件的知識處理研究[D]. 上海大學(xué)博士學(xué)位論文, 2010.

        [5] 趙軍, 劉康, 周光有, 等. 開放式文本信息抽取[J]. 中文信息學(xué)報, 2011, 25(6): 98-110.

        [6] Doddington G R, Mitchell A, Przybocki M A, et al. The Automatic Content Extraction (ACE) Program-Tasks, Data, and Evaluation[C]//Proceedings of the LREC. 2004.

        [7] Consortium L D. ACE(Automatic Content Extraction)chinese annotation guidelines for events[DB/OL]. http://projects.ldc.upenn.edu/ace/docs/Chinese-Entities-Guidelines_v5.5.pdf.

        [8] Pustejovsky J, Hanks P, Sauri R, et al. The timebank corpus [EB]. In Corpus Linguistics, 2003, pp.647-656, http://ucrel.lancs.ac.uk/publications/cl2003/papers/pustejovsky.pdf.

        [9] 劉宗田, 黃美麗, 周文, 等. 面向事件的本體研究[J]. 計算機(jī)科學(xué), 2009, 36(11): 189-192.

        [10] Zhang X, Liu Z, Liu W, et al. Research on event-based semantic annotation of Chinese[C]//Proceedings of the Computer Science and Network Technology (ICCSNT), 2012 2nd International Conference on. IEEE, 2012: 1883-1888.

        [11] 劉茂福, 李妍, 姬東鴻. 基于事件語義特征的中文文本蘊含識別[J]. 中文信息學(xué)報, 2013, 27(5): 129-136.

        [12] Wanxiang Che, Zhenghua Li, Ting Liu. LTP: A Chinese Language Technology Platform[C]//Proceedings of the Coling 2010:Demonstrations. 2010.08, pp13-16, Beijing, China

        [13] 同義詞詞林?jǐn)U展版 [A Thesaurus of Chinese Words][DB],http://www.ltp-cloud.com/download/#down_cilin.

        [14] Pei J, Han J, Mortazavi-Asl B, et al.Mining sequential patterns by pattern-growth: The prefixspan approach[J]. Knowledge and Data Engineering, IEEE Transactions on, 2004, 16(11): 1424-1440.

        [15] Jenny Rose Finkel, Trond Grenager, Christopher Manning. Incorporating Non-local Information into Information Extraction Systems by Gibbs Sampling[C]//Proceedings of the 43nd Annual Meeting of the Association for Computational Linguistics,2005: 363-370.

        An Automatic-Annotation Method for Emergency Text Corpus

        LIU Wei, WANG Xu, ZHANG Yujia, LIU Zongtian

        (School of Computer Engineering and Science, Shanghai University, Shanghai 200444, China)

        Event-based text corpus is the foundation for the research on detection, representation, reasoning and exploitation of events in the Semantic Web. This paper proposes an automatic-annotation method for event-based texts to construct large-scale emergencies news corpus. Firstly, this paper presents an event structure model as event-based knowledge unit; Secondly, on the basis of text process by LTP , we apply the PrefixSpan to mine the rules of event elements from small-scale available corpus; Thirdly, by combining a customized dictionary of event elements, the denoters are expanded by Tonyici Cilin (Extended). In the experiment, the automatic annotation method is compared with manual tagging method and Stanford CoreNLP NER, showing that this method can improve the efficiency of event-based text annotation effectively.

        emergency events; corpus; automatic; annotation

        劉煒(1978—),博士,副研究員,主要研究領(lǐng)域為知識表示與推理,語義網(wǎng)與本體技術(shù)。E?mail:liuw@shu.edu.cn王旭(1989—),碩士研究生,主要研究領(lǐng)域為自然語言處理與機(jī)器學(xué)習(xí)。E?mail:wangx89@126.com張雨嘉(1992—),碩士研究生,主要研究領(lǐng)域為自然語言處理,知識表示,機(jī)器學(xué)習(xí),統(tǒng)計機(jī)器翻譯等。E?mail:yujia_zhang@shu.edu.cn

        2015-05-15 定稿日期: 2015-08-22

        國家自然科學(xué)基金(61305053);國家自然科學(xué)基金(61273328)

        1003-0077(2017)00-0076-10

        TP391

        A

        猜你喜歡
        文本
        文本聯(lián)讀學(xué)概括 細(xì)致觀察促寫作
        重點:論述類文本閱讀
        重點:實用類文本閱讀
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        作為“文本鏈”的元電影
        在808DA上文本顯示的改善
        “文化傳承與理解”離不開對具體文本的解讀與把握
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        從背景出發(fā)還是從文本出發(fā)
        語文知識(2015年11期)2015-02-28 22:01:59
        久久不见久久见免费视频7| 免费黄片小视频在线播放| 亚洲第一狼人天堂网亚洲av| 精品亚洲成在人线av无码| 99国产精品视频无码免费| av亚洲在线一区二区| 手机在线播放av网址| 人妻夜夜爽天天爽三区麻豆av网站 | 午夜福利理论片在线观看播放| 99久久婷婷国产综合精品电影| 久久久久久久久久久熟女AV| 国产精品成人久久一区二区| 亚洲一区二区在线观看免费视频| 岳好紧好湿夹太紧了好爽矜持 | 中国精品视频一区二区三区| 精品国产一区二区三区九一色| 亚洲国产精品成人天堂| 伊人久久大香线蕉av一区| 国产短视频精品区第一页| 亚洲av熟女天堂久久天堂| 蜜桃视频一区二区在线观看| 免费a级毛片出奶水| 欧美精品久久久久久三级| 宅男视频一区二区三区在线观看| 无码无套少妇毛多18pxxxx| 美女自卫慰黄网站| 亚洲无码美韩综合| 中文字幕亚洲视频一区| 农村欧美丰满熟妇xxxx| 精品人妻VA出轨中文字幕| 国产成人自拍视频视频| 成人无码av免费网站| 精品人人妻人人澡人人爽牛牛| 亚洲无码观看a| 91九色最新国产在线观看| 又黄又硬又湿又刺激视频免费| 欧美成人在线A免费观看| 日韩女优在线一区二区| 久久午夜羞羞影院免费观看| 婷婷亚洲综合五月天小说| 亚洲妇女av一区二区|