亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于關(guān)鍵詞語義與作用域擴(kuò)展的事件檢測(cè)

        2014-09-29 10:32:36褚衍杰李云照
        計(jì)算機(jī)工程 2014年8期
        關(guān)鍵詞:類別關(guān)聯(lián)語義

        褚衍杰,魏 強(qiáng),李云照

        (盲信號(hào)處理重點(diǎn)實(shí)驗(yàn)室,成都 610041)

        1 概述

        事件檢測(cè)與描述由自動(dòng)文本抽取(Automatcic Content Extraction,ACE)會(huì)議提出,主要研究從新聞?wù)Z料中自動(dòng)檢測(cè)事件及其描述信息,是ACE會(huì)議除實(shí)體識(shí)別和實(shí)體關(guān)系識(shí)別的又一研究熱點(diǎn)。在微博、論壇、短信等應(yīng)用中,除了本身內(nèi)容外文本一般還具有瀏覽與被瀏覽、轉(zhuǎn)發(fā)與被轉(zhuǎn)發(fā)、發(fā)送與接收等關(guān)聯(lián)要素,本文研究從具有關(guān)聯(lián)要素的中文文本中檢測(cè)目標(biāo)事件的問題,以實(shí)現(xiàn)從此類文本中挖掘目標(biāo)事件信息的目的。

        事件檢測(cè)主要使用聚類、分類等機(jī)器學(xué)習(xí)方法,如文獻(xiàn)[1]提出利用MegaM和Timbl這2種機(jī)器學(xué)習(xí)方法分別實(shí)現(xiàn)事件類別檢測(cè)和元素識(shí)別;文獻(xiàn)[2]提出基于觸發(fā)詞指導(dǎo)的自相似度聚類方法,利用觸發(fā)詞及命名實(shí)體信息解決了對(duì)事件類別模板的依賴性問題;文獻(xiàn)[3]提出基于情感計(jì)算的微博突發(fā)事件檢測(cè)方法,利用突發(fā)情感特征及譜聚類方法實(shí)現(xiàn)微博突發(fā)事件檢測(cè)及抽取;還有很多學(xué)者致力于研究如何提升事件檢測(cè)的性能[4]。

        本文在ACE事件檢測(cè)與描述框架的基礎(chǔ)上結(jié)合文本的關(guān)聯(lián)要素分析和內(nèi)容分析,提出基于關(guān)鍵詞語義和作用域擴(kuò)展的事件檢測(cè)方法。

        2 ACE的事件檢測(cè)框架

        自由文本中出現(xiàn)的事件,都有明確的當(dāng)事者或者實(shí)施者,有構(gòu)成事件的基本要素:時(shí)間,地點(diǎn),人物等。ACE2005的思想是如果能夠把事件的特征要素識(shí)別出來,填入事件列表,那么維護(hù)此列表即可實(shí)現(xiàn)對(duì)事件的檢測(cè)和跟蹤。ACE2005對(duì)事件檢測(cè)技術(shù)進(jìn)行分割,劃分為事件類別識(shí)別和事件元素提取2個(gè)主要步驟:

        (1)事件類別識(shí)別:ACE2005定義了8種事件類別以及33種子類別。每種事件類別/子類別(簡稱為事件類別)對(duì)應(yīng)唯一的事件模板,事件類別和模板如表1和表2所示(事件模版內(nèi)容較多,僅列出部分,詳細(xì)內(nèi)容可參見 ACE2005[5]相關(guān)章節(jié))。

        表1 ACE定義的事件類別

        表2 ACE定義的事件模版

        (2)事件元素提取:根據(jù)所屬的事件模板,提取相應(yīng)的元素,并為其標(biāo)上正確的元素標(biāo)簽。

        在事件類別識(shí)別中[6-8],一般分 2 步進(jìn)行:確定候選事件集合和候選事件識(shí)別。其中,確定候選事件集合是根據(jù)語句中出現(xiàn)的觸發(fā)詞決定事件類別,如“小明出生在2000年”,其中觸發(fā)詞是“出生”,決定了該事件屬于“Life/Born”類。觸發(fā)詞-事件的對(duì)應(yīng)關(guān)系由訓(xùn)練得到。利用該方法可以對(duì)一段文本分析形成一個(gè)候選事件集合。候選事件識(shí)別是判斷該候選事件是否屬于該事件類別,一般根據(jù)詞法、上下文等特征進(jìn)行判斷。

        3 基于關(guān)鍵詞語義與作用域擴(kuò)展的事件檢測(cè)

        3.1 問題分析及改進(jìn)方法

        具有關(guān)聯(lián)要素的中文文本事件檢測(cè)問題,可以描述為從具有關(guān)聯(lián)要素的N個(gè)文本T={t1,t2,…,tN}中,發(fā)現(xiàn)與目標(biāo)事件相關(guān)的所有文本ti,并提取出每個(gè)文本的簡要信息。每個(gè)文本由關(guān)聯(lián)要素和字符文本組成,即:ti={fromer,toer,time,c1c2…cMi},其中,fromer和toer分別表示文本關(guān)聯(lián)關(guān)系的雙方,比如評(píng)論人和被評(píng)論人、發(fā)送人和接收人等;time表示文本產(chǎn)生的時(shí)間,c1c2…cMi表示文本的內(nèi)容;目標(biāo)事件通常用一組關(guān)鍵詞向量 W={w1,w2,…,wK}表示,其中,wi(1≤i≤K)可能是事件涉及的人、物、時(shí)間、地點(diǎn)、動(dòng)作等。

        本文提出的事件檢測(cè)模型的基本思想是利用關(guān)聯(lián)關(guān)系分析擴(kuò)展關(guān)鍵詞的作用域,利用基于文本庫的訓(xùn)練擴(kuò)展關(guān)鍵詞的語義,從而提高事件的檢測(cè)率,具體介紹如下:

        (1)關(guān)聯(lián)關(guān)系分析:對(duì)于同一事件的不同發(fā)展階段,可能會(huì)涉及到不同的話題,例如一宗商業(yè)交易的事件中,一般會(huì)涉及合同簽訂、貨物運(yùn)輸、貨物驗(yàn)收、匯款交付等不同話題,其中涉及的關(guān)鍵詞可能相差甚遠(yuǎn)。在沒有關(guān)聯(lián)要素的事件檢測(cè)中只能夠利用事件跟蹤技術(shù)跟蹤事件的發(fā)展變化,而在有關(guān)聯(lián)要素[9]的情況下,問題可以得到簡化,即利用關(guān)聯(lián)關(guān)系就可以將事件的不同階段組合起來,形成完整的事件流。但是從另一個(gè)角度來講,若文本集T中含有事件參與者參與非目標(biāo)事件的文本時(shí),使用關(guān)聯(lián)關(guān)系進(jìn)行文本關(guān)聯(lián)會(huì)將其他事件也納入檢測(cè)結(jié)果。為了解決該問題,本文利用剪枝處理的方法濾除噪聲文本,即通過歷史經(jīng)驗(yàn)剪掉一條關(guān)聯(lián)鏈路,從而濾除該關(guān)聯(lián)鏈路涉及的大量文本,如圖1所示,假設(shè)A,B,C,D這4個(gè)文本是某事件的所有文本,但是由于B和E之間有一次關(guān)聯(lián),導(dǎo)致了引入E,F(xiàn),G,H的噪聲文本,由于本文討論的文本一般較短,目標(biāo)文本量也較少,單純從文本內(nèi)容相似度的角度很難區(qū)分噪聲,因此利用歷史經(jīng)驗(yàn)剪掉B,E間的鏈路,濾除E,F(xiàn),G,H。

        圖1 剪枝方法示意圖

        (2)關(guān)鍵詞語義擴(kuò)展:由于表達(dá)方式的多樣性,關(guān)鍵詞向量W={w1,w2,…,wK}并不能完全描述目標(biāo)事件,以該向量為關(guān)鍵詞,極有可能無法檢測(cè)到事件的相關(guān)文本,因此使用關(guān)鍵詞語義擴(kuò)展[10-12]的方法,即在文本資料庫中檢索每個(gè)關(guān)鍵詞,統(tǒng)計(jì)在關(guān)鍵詞周圍一定范圍內(nèi)出現(xiàn)的名詞、動(dòng)詞、時(shí)間詞,然后根據(jù)出現(xiàn)位置、出現(xiàn)頻次選取與關(guān)鍵詞語義關(guān)系最近的L個(gè)詞,依此形成擴(kuò)展詞向量:W′={w1,w11,w12,…,w1L,w2,w21,w22,…,w2L,…,wK,wK1,wK2,…,wKL}。其中,L表示擴(kuò)展詞的數(shù)量。在模式匹配模塊,同一關(guān)鍵詞及其擴(kuò)展詞之間是“或”關(guān)系,而不同關(guān)鍵詞之間是“與”關(guān)系。分析顯示,擴(kuò)展詞的數(shù)量越多,匹配的結(jié)果越多,但會(huì)引入很多噪聲文本,本文一般選取4個(gè)~6個(gè)擴(kuò)展詞,以歷史數(shù)據(jù)和北大CCL語料庫作為訓(xùn)練文本資料庫。

        (3)關(guān)鍵詞作用域擴(kuò)展:當(dāng)關(guān)鍵詞數(shù)量較多時(shí),由于事件描述過于精確,容易造成漏檢問題,例如同一商業(yè)事件的2個(gè)文本中分別出現(xiàn)了“采購”和“合同”2個(gè)關(guān)鍵詞,若使用“采購&合同”作為關(guān)鍵詞進(jìn)行搜索,就會(huì)造成這2個(gè)文本的漏檢。為了避免上述問題,本文通過采用關(guān)鍵詞分組并進(jìn)行2次關(guān)鍵詞匹配和關(guān)聯(lián)要素分析的方法來擴(kuò)展關(guān)鍵詞的作用域。文中將 W={w1,w2,…,wK}分為2個(gè)組,W1={w1,w2,…,wθ}和 W2={wθ+1,wθ+2,…,wK}。其中,θ為關(guān)鍵詞分組的邊界。本文方法利用W1進(jìn)行松散匹配,并通過關(guān)聯(lián)要素分析得到有關(guān)系的文本群,然后利用W2在文本群中進(jìn)行匹配和關(guān)聯(lián)要素分析。在這種方法下如果W1出現(xiàn)在某個(gè)文本中,而W2出現(xiàn)在與該文本有關(guān)聯(lián)的另一個(gè)文本中,也不會(huì)出現(xiàn)漏檢現(xiàn)象,相當(dāng)于將W1和W2的“與”關(guān)系的作用域擴(kuò)展到具有關(guān)聯(lián)關(guān)系的文本群。分析顯示,關(guān)鍵詞分組數(shù)越多,作用域擴(kuò)展效果越好,但關(guān)聯(lián)分析帶來的運(yùn)算量越大。

        3.2 算法框架介紹

        本文提出的基于關(guān)鍵詞語義和作用域擴(kuò)展的事件檢測(cè)流程如圖2所示。

        圖2 基于通信關(guān)系和內(nèi)容分析的事件檢測(cè)流程

        歷史數(shù)據(jù)庫中包含按照政治、經(jīng)濟(jì)、軍事、體育等主題劃分的歷史文本和新聞?lì)愇谋?,以及在過往處理中已經(jīng)確認(rèn)的事件參與者的關(guān)聯(lián)關(guān)系網(wǎng)。

        關(guān)鍵詞語義擴(kuò)展模塊通過歷史數(shù)據(jù)庫中的歷史文本以及新聞?lì)愇谋?,?xùn)練得到關(guān)鍵詞向量的擴(kuò)展詞向量,對(duì)每個(gè)關(guān)鍵詞wi(1≤i≤K)擴(kuò)展的具體步驟如下:

        (1)以關(guān)鍵詞wi作為條件,對(duì)所有訓(xùn)練文本進(jìn)行搜索。

        (2)在匹配的文本中找到wi出現(xiàn)的位置P,對(duì)以P為中心,長度為2D的文本進(jìn)行分詞處理。

        (3)以P為中心,向前、向后分別搜索長度D,記錄出現(xiàn)的名詞、動(dòng)詞、時(shí)間詞,并記錄出現(xiàn)的次數(shù)和到位置P的距離。

        (4)完成對(duì)所有匹配文本的處理,計(jì)算每個(gè)詞的得分:

        其中,w為詞頻和距離的權(quán)重比例;n為該擴(kuò)展詞出現(xiàn)的次數(shù);nmax為所有詞出現(xiàn)的最大次數(shù);d為該詞與wi的平均距離。

        (5)選取排名前L位的詞,與wi一起組成擴(kuò)展詞向量={wi,wi1,wi2,…,wiL}。模式匹配模塊按照擴(kuò)展詞向量對(duì)文檔執(zhí)行匹配操作,選取所有匹配文本,供關(guān)聯(lián)關(guān)系分析模塊使用,本文采用正則表達(dá)式完成模式匹配。

        關(guān)聯(lián)關(guān)系分析模塊對(duì)擴(kuò)展詞向量的匹配文本進(jìn)行處理,分析關(guān)聯(lián)關(guān)系,形成關(guān)聯(lián)關(guān)系網(wǎng),并進(jìn)行剪枝處理,形成該事件的待選文檔集合,具體步驟如下:

        (1)提取每篇匹配文檔的fromer和toer。

        (2)以fromer和toer為關(guān)鍵詞,對(duì)原始文檔集中所有文檔的進(jìn)行匹配,選取所有匹配文本,并提取其 fromer和 toer。

        (3)重復(fù)步驟(2)若干次,一般不超過5次。

        (4)以獲取的所有fromer和toer信息為基礎(chǔ),構(gòu)造關(guān)聯(lián)關(guān)系網(wǎng),利用歷史數(shù)據(jù)庫中的同類事件關(guān)系網(wǎng),判斷每個(gè)fromer/toer是否可能涉及目標(biāo)事件,并以此為標(biāo)準(zhǔn)進(jìn)行剪枝操作。

        (5)剪枝操作后,剩余的所有文檔形成事件的待選文檔集。

        事件信息提取及確認(rèn)模塊提取每個(gè)待選文本的事件元素信息,并按事件順序組織文本,形成對(duì)事件的整體描述,然后人工根據(jù)事件的描述信息判決是否是目標(biāo)事件。由于本文涉及的文本一般較短,因此適合使用ACE的事件類別識(shí)別、事件元素提取方法。

        3.3 算法步驟

        算法具體步驟如下:

        (1)將關(guān)鍵詞 W={w1,w2,…,wK}分成 2組:W1={w1,w2,…,wθ}和 W2={wθ+1,wθ+2,…,wK}。

        (2)分別對(duì)W1和W2進(jìn)行關(guān)鍵詞語義擴(kuò)展,形成擴(kuò)展詞向量 W′1和 W′2。

        (3)利用擴(kuò)展詞向量W′1對(duì)原始文本集進(jìn)行模式匹配,得到匹配文本,然后在匹配文本的基礎(chǔ)上進(jìn)行關(guān)聯(lián)關(guān)系分析,得到中間文本集。

        (4)利用擴(kuò)展詞向量W′2對(duì)中間文本集進(jìn)行模式匹配,得到匹配文本,然后在匹配文本的基礎(chǔ)上進(jìn)行關(guān)聯(lián)關(guān)系分析,得到待選文本集。

        (5)在待選文本集的基礎(chǔ)上按照ACE框架判斷事件類別,提取事件信息,確認(rèn)目標(biāo)事件,將目標(biāo)事件的文本、關(guān)聯(lián)關(guān)系存儲(chǔ)到歷史數(shù)據(jù)庫。

        4 實(shí)驗(yàn)及分析

        本文在以下實(shí)驗(yàn)環(huán)境中對(duì)算法進(jìn)行了測(cè)試。實(shí)驗(yàn)平臺(tái)為Windows XP操作系統(tǒng),系統(tǒng)配置為Intel(R)Core(TM)i7 -2600 CPU@3.4 GHz,內(nèi)存4 GB,算法在Microsoft Visual Studio 2010環(huán)境下實(shí)現(xiàn)。測(cè)試目標(biāo)事件是一個(gè)商業(yè)上關(guān)于物資發(fā)送-索賠的事件樣本,共包含12個(gè)具有關(guān)聯(lián)要素的文本;測(cè)試噪聲數(shù)據(jù)為4988個(gè)具有關(guān)聯(lián)要素的其他文本。關(guān)鍵詞語義擴(kuò)展的訓(xùn)練數(shù)據(jù)為北大CCL語料庫。在下面的測(cè)試結(jié)果中,事件群是指具有關(guān)聯(lián)關(guān)系的文本組成集合,例如12個(gè)目標(biāo)文本就是一個(gè)事件群;事件群數(shù)量是指事件檢測(cè)結(jié)果中包含事件群的數(shù)量。

        為了驗(yàn)證算法效果,表3~表5分別給出了在單關(guān)鍵詞條件下,使用不同關(guān)鍵詞和不同擴(kuò)展詞數(shù)量時(shí)的實(shí)驗(yàn)結(jié)果,從實(shí)驗(yàn)數(shù)據(jù)可以看出,由于算法使用了關(guān)鍵詞語義擴(kuò)展,因此利用目標(biāo)文本中未出現(xiàn)的詞作為關(guān)鍵詞時(shí)依然能夠發(fā)現(xiàn)目標(biāo)事件,而且擴(kuò)展詞數(shù)量越多,發(fā)現(xiàn)目標(biāo)事件的概率越大;但是擴(kuò)展詞越多會(huì)使運(yùn)算量增大,且檢測(cè)結(jié)果中非目標(biāo)事件群越多,本文推薦使用4個(gè)~6個(gè)擴(kuò)展詞。

        表3 目標(biāo)文本中的詞作為關(guān)鍵詞的檢索結(jié)果

        表4 目標(biāo)文本外的詞作為關(guān)鍵詞的檢索結(jié)果(4個(gè)擴(kuò)展詞)

        表5 目標(biāo)文本外的詞作為關(guān)鍵詞的檢索結(jié)果(6個(gè)擴(kuò)展詞)

        表6給出了使用含有2個(gè)詞的關(guān)鍵詞向量作為檢索條件時(shí)的實(shí)驗(yàn)結(jié)果,而且在目標(biāo)文本中不會(huì)同時(shí)出現(xiàn)關(guān)鍵詞向量中的詞或其擴(kuò)展詞。如果按照正常的關(guān)鍵詞匹配,無法檢測(cè)到目標(biāo)事件;由于本文算法采用了關(guān)鍵詞分組及2次匹配的方法擴(kuò)展了關(guān)鍵詞作用域,相當(dāng)于將事件群中的所有文本作為一個(gè)整體進(jìn)行“與”關(guān)系的匹配,因而能夠檢測(cè)到目標(biāo)事件,而且檢測(cè)結(jié)果中非目標(biāo)事件群數(shù)量比單關(guān)鍵詞的結(jié)果顯著減少。

        表6 關(guān)鍵詞向量檢索結(jié)果

        5 結(jié)束語

        本文研究具有關(guān)聯(lián)要素的中文文本事件檢測(cè)問題,通過關(guān)鍵詞語義擴(kuò)展提高關(guān)鍵詞匹配的概率;通過關(guān)鍵詞分組、關(guān)聯(lián)關(guān)系分析和二次匹配實(shí)現(xiàn)了關(guān)鍵詞邏輯關(guān)系作用域的擴(kuò)展,從而降低關(guān)鍵詞向量匹配的漏檢率;綜合上述方法提出的事件檢測(cè)算法能夠有效地從有關(guān)聯(lián)要素的中文文本中檢測(cè)到目標(biāo)事件。實(shí)驗(yàn)結(jié)果顯示,該算法能夠有效減少漏檢率,提高檢測(cè)率。

        下一步將針對(duì)算法性能的定性分析、運(yùn)算復(fù)雜度的簡化等問題開展研究,以提高其在實(shí)際應(yīng)用中的使用效果。

        [1]Ahn D.The Stages of Event Extraction[C]//Proc.of Workshop on Annotations and Reasoning About Time and Events.[S.l.]:ACM Press,2006:1-8.

        [2]張先飛,郭志剛.基于觸發(fā)詞指導(dǎo)的自相似度聚類事件檢測(cè)[J].計(jì)算機(jī)科學(xué),2010,37(3):212-220.

        [3]張魯民,賈 焰,周 斌.基于情感計(jì)算的微博突發(fā)事件檢測(cè)方法研究[C]//第27次全國計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集.九寨溝,四川:[出版者不詳],2012:143-145.

        [4]王穎穎,張 赟,胡乃靜.在線新事件檢測(cè)系統(tǒng)中的性能提升策略[J].計(jì)算機(jī)工程,2008,34(15):72-74.

        [5]Linguistic Data Consortium.ACE(Automatic Content Extraction)Chinese Annotation Guidelines for Events[EB/OL].(2005-05-09).https://www.ldc.upenn.edu/Projects/ACE.

        [6]付劍鋒,劉宗田,劉 煒,等.基于特征加權(quán)的事件要素識(shí)別[J].計(jì)算機(jī)科學(xué),2010,37(3):239-241.

        [7]將德良.基于規(guī)則匹配的突發(fā)事件結(jié)果信息抽取研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31(14):3294-3297.

        [8]姜吉發(fā).一種跨語句漢語事件信息抽取方法[J].計(jì)算機(jī)工程,2005,31(2):27-29.

        [9]李 瀟,羅軍勇,尹美娟.基于郵件通聯(lián)關(guān)系的郵箱用戶權(quán)威別名評(píng)估[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(4):271-273.

        [10]王昭龍,李 霞,許瑞芳.多關(guān)鍵詞查詢中LCA剪枝概念數(shù)的查詢擴(kuò)展技術(shù)[J].計(jì)算機(jī)科學(xué),2010,37(4):132-162.

        [11]汪 洋,帥建梅.基于語義擴(kuò)展模型的中文網(wǎng)頁關(guān)鍵詞抽?。跩].計(jì)算機(jī)工程,2012,38(22):163-166.

        [12]杜金洋,易 河,楊 春.基于關(guān)鍵詞語義擴(kuò)展的檢索策略[J].計(jì)算機(jī)應(yīng)用,2009,35(6):1575-1577.

        猜你喜歡
        類別關(guān)聯(lián)語義
        語言與語義
        “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
        奇趣搭配
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        服務(wù)類別
        新校長(2016年8期)2016-01-10 06:43:59
        認(rèn)知范疇模糊與語義模糊
        論類別股東會(huì)
        商事法論集(2014年1期)2014-06-27 01:20:42
        中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
        聚合酶鏈?zhǔn)椒磻?yīng)快速鑒別5種常見肉類別
        日韩黄色大片免费网站| 国产精品黄在线观看免费软件| 午夜精品一区二区三区在线观看| 久久久久国产亚洲AV麻豆| 日韩av中文字幕少妇精品| 手机看片久久第一人妻| 免费无遮挡禁18污污网站| 91av在线播放| 国产精品亚洲av国产| 人妻少妇精品视频专区二区三区| 色综合久久久久综合99| 六月丁香婷婷色狠狠久久| 国产精品无码久久久久久蜜臀AV| 男女啪啪动态视频在线观看| 永久天堂网av手机版| 亚洲中文字幕无码mv| 国产视频不卡在线| 尤物精品国产亚洲亚洲av麻豆| 国产精品毛片一区二区三区| 日本黄页网站免费大全| 一区二区三区午夜视频在线观看| 青青草在线这里只有精品| 人妻久久久一区二区三区| 无码一区二区三区AV免费换脸 | 日本亚洲国产精品久久| 欧美肥胖老妇做爰videos| 538任你爽精品视频国产| 国产风骚主播视频一区二区| 岳丰满多毛的大隂户| 国产999精品久久久久久| 久久精品国产成人午夜福利| 久久夜色国产精品噜噜亚洲av| 一本久久伊人热热精品中文字幕| 欧美人妻日韩精品| 亚洲精品国产第一区三区| 国产玉足榨精视频在线观看| 熟妇人妻av无码一区二区三区| 人妻系列影片无码专区| 色久悠悠婷婷综合在线| 亚洲第一页综合图片自拍| 97精品国产91久久久久久久|