亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于正負加權(quán)的中文事件識別研究

        2019-11-12 05:02:00付維成方賢進
        計算機應用與軟件 2019年11期
        關(guān)鍵詞:特征效果方法

        廖 濤 付維成 方賢進

        (安徽理工大學計算機科學與工程學院 安徽 淮南 232001)

        0 引 言

        隨著互聯(lián)網(wǎng)特別是移動互聯(lián)網(wǎng)的高速發(fā)展,人們越來越多地通過網(wǎng)絡來獲取資訊。網(wǎng)絡中充斥著海量的新聞文本,而這些新聞文本中又包含著許許多多的事件。

        定義1事件(Event),指的是在某個特定的時間和環(huán)境下發(fā)生的、由若干角色參與、表現(xiàn)出若干動作特征的一件事情[1]。

        對新聞文本中的事件進行處理與分析,在自動文摘[2-3]、文本分類[4]等領域有著重要應用。但是,計算機并不能直接識別新聞文本中的事件,因而將新聞文本中的事件抽取出來顯得尤為重要。

        事件抽取是信息抽取的子任務,目的是將非結(jié)構(gòu)化文本中的事件信息以結(jié)構(gòu)化的形式抽取出來,便于后續(xù)對事件進行處理與分析。事件抽取一般包括事件識別和事件要素識別兩個部分,本文的研究內(nèi)容是事件識別。作為事件抽取的子內(nèi)容,事件識別的任務是找到文本中的事件觸發(fā)詞,它對后續(xù)的事件抽取效果有著重要影響。所謂事件觸發(fā)詞,它唯一、清晰地標識一個事件,以動詞和名詞居多。例如,在“5月12日14時28分,四川發(fā)生8.0級地震”這句話中,“地震”是事件觸發(fā)詞,它標識了一個地震類事件。此外,“5月12日14時28分”是事件發(fā)生的時間,“四川”是事件發(fā)生的地點,它們屬于事件要素。

        現(xiàn)有的事件識別方法多從鄰近詞、詞性、依存關(guān)系等特征展開研究工作,并取得了一定的效果,但目前對單一特征的利用還不夠充分,在一定程度上影響了基于多特征的事件識別方法的效果。針對這個問題,本文通過構(gòu)建包含正負關(guān)聯(lián)詞特征、正負詞性特征以及正負依存關(guān)系特征的觸發(fā)詞表,提出了一種基于正負加權(quán)的事件識別方法。首先,將前后位置詞與依存句法上的父節(jié)點詞及子節(jié)點詞結(jié)合在一起,定義了一種新的特征——關(guān)聯(lián)詞特征,與已有的前后位置詞特征、詞性特征、依存關(guān)系特征相比,使用關(guān)聯(lián)詞特征的事件識別方法效果更好。然后,根據(jù)單一特征所屬的詞是否為觸發(fā)詞將特征分為正特征或負特征,并將正負特征結(jié)合起來構(gòu)建觸發(fā)詞表,將候選詞及其特征在觸發(fā)詞表匹配,計算出正負權(quán)重,結(jié)合正負權(quán)重進行觸發(fā)詞判定,提升單一特征在事件識別時的作用。在此基礎上,將正負關(guān)聯(lián)詞特征、正負詞性特征以及正負依存關(guān)系特征結(jié)合起來進行觸發(fā)詞識別,進一步提升事件識別效果。實驗結(jié)果表明,基于正負加權(quán)的事件識別方法得到了比較理想的效果。

        1 相關(guān)工作

        現(xiàn)有的事件識別方法主要包括基于規(guī)則的方法和基于機器學習的方法。

        在基于規(guī)則的方法領域,趙妍妍等[5]通過使用同義詞詞林對觸發(fā)詞進行擴展,擴大了觸發(fā)詞表的規(guī)模,有效緩解了數(shù)據(jù)正反比例不平衡的問題。張賀等[6]利用語言知識對語料庫中的文本進行信息單元融合,有效緩解了切分粒度過細問題,降低了事件識別的難度。Patwardhan等[7]提出了一種將文本相關(guān)區(qū)域的發(fā)現(xiàn)與抽取模式的應用這兩個任務分離的信息抽取系統(tǒng),取得了不錯的效果。李培峰等[8]根據(jù)同一篇文檔中關(guān)聯(lián)事件間所具有的語義一致性來進行事件間的推理,該方法對貧信息事件實例中的事件觸發(fā)詞識別具有良好的效果。陳亞東等[9]通過使用框架語義將待測觸發(fā)詞泛化為框架類型,并以此為特征,結(jié)合框架類型和事件類型之間映射的概率進行事件識別,提高了召回率。Liao等[10]通過使用文檔級信息來提高事件識別的性能,他們不僅使用同一類型事件的信息,也使用其他類型的事件信息來做預測或者是消除給定事件的歧義性,提高了句子級基準事件識別系統(tǒng)的性能。

        在基于機器學習的方法領域,Ahn等[11]將最近鄰分類器和最大熵分類器結(jié)合在一起進行事件識別,取得了不錯的效果。付劍鋒等[12]通過使用依存分析挖掘詞語之間的句法關(guān)系,并以此為特征在SVM分類器上進行事件識別,得到的結(jié)果優(yōu)于傳統(tǒng)的方法,在此基礎上結(jié)合多特征進行事件識別,提高了F1值。侯立斌等[13]通過使用LDA模型對詞語聚類,緩解了詞性特征過擬合問題,同時使用CRFs模型進行觸發(fā)詞識別,緩解了中文分詞和標注的觸發(fā)詞邊界的不一致性。Nguyen等[14]使用卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks, CNN)進行事件識別,該方法克服了富特征集中特征工程的復雜性和生成這些特征的前一階段的誤差傳播。Liu等[15]通過有監(jiān)督的注意力機制,利用論元信息進行事件識別,提高了F1值。張亞軍等[16]將待測觸發(fā)詞轉(zhuǎn)化為特征向量集,并通過混合監(jiān)督的深度信念網(wǎng)絡訓練分類器,該分類器提高了事件識別效果。Liu等[17]通過上下文注意力機制,利用多語言數(shù)據(jù)中的一致性信息以及多語言數(shù)據(jù)傳遞的補充信息,緩解了數(shù)據(jù)稀疏問題和單語模糊問題。

        從以上研究可以看出,無論是基于規(guī)則的事件識別方法,還是基于機器學習的事件識別方法,大都要先獲取特征,如鄰近詞、詞性和依存關(guān)系等,在此基礎上展開后續(xù)的研究工作。但是,目前對單一特征的利用還不夠充分,在一定程度上影響了基于多特征的事件識別方法的效果。針對這個問題,本文通過構(gòu)建包含正負關(guān)聯(lián)詞特征、正負詞性特征以及正負依存關(guān)系特征的觸發(fā)詞表,提出了一種基于正負加權(quán)的事件識別方法。

        2 基于正負加權(quán)的事件識別

        本文的研究工作是進行事件識別,即找出文本中的事件觸發(fā)詞,主要包括四個部分:預處理、構(gòu)建特征集合、構(gòu)建觸發(fā)詞表和觸發(fā)詞識別,如圖1所示。

        圖1 基于正負加權(quán)的事件識別系統(tǒng)框架圖

        預處理的主要功能是將語料庫中已標注新聞文本解析為原始新聞文本,即去除掉原有的XML標簽得到純文本,然后通過自然語言處理(Nature Language Processing,NLP)工具對原始新聞文本進行分詞、詞性標注、依存句法分析。構(gòu)建特征集合是將經(jīng)預處理得到的各個詞的關(guān)聯(lián)詞、詞性以及依存關(guān)系找出來,作為事件識別時的特征,并將這三個特征組合在一起形成各個詞的特征集合。構(gòu)建觸發(fā)詞表主要是對語料庫訓練集中的所有詞進行遍歷,根據(jù)該詞是否為觸發(fā)詞將其特征集合中的所有特征評定為正特征或負特征,之后存入到觸發(fā)詞表對應詞項的正特征集合或負特征集合中。在整個遍歷完成后,要對觸發(fā)詞表進行修剪,以去除掉冗余內(nèi)容,完成對觸發(fā)詞表的構(gòu)建。觸發(fā)詞識別是對語料庫測試集中的所有詞進行遍歷,若當前詞在觸發(fā)詞表中有對應的詞項,將該詞特征集合中的特征在該詞對應詞項的正特征集合和負特征集合中進行匹配,分別得到正權(quán)值和負權(quán)值,最后根據(jù)正負權(quán)值的差值判定當前詞是否為觸發(fā)詞。

        2.1 語料庫與NLP工具

        本文使用的語料庫是由上海大學語義智能實驗室所構(gòu)建的中文突發(fā)事件語料庫(Chinese Emergency Corpus,CEC)2.0版本。CEC 2.0采用XML作為標注語言,包括地震(62篇)、火災(75篇)、恐怖襲擊(49篇)、食物中毒(61篇)和交通事故(85篇)五大類共計332篇已標注的新聞文本。CEC 2.0雖然規(guī)模不大,但對事件和事件要素的標注卻十分全面,其中Event標簽用于表示事件,Denoter標簽用于描述事件的觸發(fā)詞,Time、Location、Participant和Object標簽用于描述事件要素。

        此外,本文使用的NLP工具是哈爾濱工業(yè)大學社會計算與信息檢索研究中心獨立開發(fā)的語言技術(shù)平臺[18](Language Technology Platform,LTP),該工具可以為自然語言文本提供一整套自底向上的豐富且高效的中文語言處理模塊(包括詞法、句法、語義等6項中文處理核心技術(shù))。本文主要使用LTP中的分詞、詞性標注和依存句法分析對CEC 2.0中的文檔進行預處理,為后續(xù)操作打下基礎。

        2.2 預處理

        對于語料庫中的XML文檔,預處理首先會對其Denoter標簽(該標簽用于描述事件的觸發(fā)詞)中的內(nèi)容做好標記;然后,將XML文檔解析為不含標注的原始新聞文本;接著,通過LTP對原始新聞文本進行分句、分詞,并借助之前做的觸發(fā)詞標記記錄下觸發(fā)詞在句子中的索引,為后續(xù)的觸發(fā)詞判定提供依據(jù);最后,通過LTP進行詞性標注和依存句法分析。表1給出了一個文檔片段經(jīng)預處理的實例。

        表1 文檔片段預處理實例

        表1中,觸發(fā)詞索引用于記錄觸發(fā)詞的索引值,實例中“死亡”是觸發(fā)詞,它的索引值是6。詞性標注的結(jié)果與分詞的結(jié)果是一一對應的,例如實例中“死亡”的詞性是“v”,即代表動詞。依存句法分析的結(jié)果同樣與分詞的結(jié)果一一對應,但與每一個詞對應的內(nèi)容包括兩個部分:前面的數(shù)字代表父節(jié)點詞的索引,后面的英文縮寫代表當前詞與父節(jié)點詞之間的依存關(guān)系。以實例中第一個“3:ADV”為例,冒號前面的“3”代表“目前”這個詞的父節(jié)點詞是索引值為3的“造成”,而冒號后面的“ADV”表示“目前”和“造成”之間的依存關(guān)系是狀中關(guān)系。

        2.3 構(gòu)建特征集合

        在預處理之后,即可以進行特征集合的構(gòu)建,特征集合構(gòu)建包括關(guān)聯(lián)詞特征集合構(gòu)建、確定詞性特征以及確定依存關(guān)系特征三個部分。

        定義2事件觸發(fā)關(guān)聯(lián)詞,簡稱關(guān)聯(lián)詞,包括一個詞在依存句法中的父節(jié)點詞(核心詞的父節(jié)點詞為空)和子節(jié)點詞以及該詞在句子中的前后位置詞,但不包括標點符號。

        首先,所謂關(guān)聯(lián)詞特征集合構(gòu)建,就是將一個詞在其所在句子中的所有關(guān)聯(lián)詞找出來,組合在一起,形成一個集合。若用Srel表示關(guān)聯(lián)詞特征集合,而Wpar表示依存句法上的父節(jié)點詞,Wchi表示子節(jié)點詞,Wpre表示前位置詞,Waft表示后位置詞,Wwp表示標點符號,則關(guān)聯(lián)詞特征集合可表示為:

        Srel=(WparUWchiUWpreUWaft)-Wwp

        (1)

        例如,在表1中,“死亡”這個詞在依存句法上的父節(jié)點詞Wpar為{“造成”},子節(jié)點詞Wchi為{“人”},而它在句子中的前位置詞Wpre為{“人”},后位置詞Waft為{“?!眪,這里的標點符號Wwp為{“。”}。根據(jù)式(1),可得關(guān)聯(lián)詞特征集合Srel為{“造成”,“人”}。

        其次,確定詞性特征是指找到一個詞的詞性標注結(jié)果作為特征,這里用P代表該特征。例如,在表1中,“死亡”這個詞的詞性為詞性標注結(jié)果中與該詞有相同索引的“v”,即代表動詞。

        然后,確定依存關(guān)系特征是指找到一個詞作為依存句法中子節(jié)點詞時的依存關(guān)系作為特征,這里用Ras_chi代表該特征。因為每個詞在一個句子的依存句法中只會有一個父節(jié)點詞,即每一個詞在一個句子中只會作一次依存句法上的子節(jié)點詞,所以確定依存句法關(guān)系時得到的結(jié)果唯一。例如,在表1中,“死亡”這個詞在依存句法中作為子節(jié)點詞時的依存關(guān)系特征Ras_chi為“VOB”,即動賓關(guān)系。

        最后,將關(guān)聯(lián)詞特征集合Srel、確定的詞性特征P以及確定的依存關(guān)系特征Ras_chi結(jié)合在一起,形成一個特征集合Sfea,即完成特征集合的構(gòu)建:

        Sfea=SrelU{P}U{Ras_chi}

        (2)

        例如,在表1中,“死亡”這個詞的關(guān)聯(lián)詞特征集合Srel為{“造成”,“人”},詞性特征P為“v”,依存關(guān)系特征Ras_chi為“VOB”,故其特征集合Sfea為{“造成”,“人”,“v”,“VOB”}。

        2.4 構(gòu)建觸發(fā)詞表

        預處理和構(gòu)建特征集合是在整個語料庫(包括訓練集和測試集)上進行的,而構(gòu)建觸發(fā)詞表只在訓練集上進行。本文中,觸發(fā)詞表是以鍵值對(key-value)的形式進行存儲,這里的關(guān)鍵詞(key)指的是潛在觸發(fā)詞,即可能作為觸發(fā)詞的詞,而值(value)包括正特征集合和負特征集合兩個部分。對于值中的這兩個部分,它們里面的內(nèi)容同樣是以鍵值對的形式進行存儲,為了和前面的有所區(qū)別,本文稱這里的關(guān)鍵詞為二級關(guān)鍵詞。以正特征集合為例,它是指潛在觸發(fā)詞作為觸發(fā)詞時的特征,存儲時以特征集合中的特征作為二級關(guān)鍵詞,其值則是該特征出現(xiàn)次數(shù)的統(tǒng)計。

        構(gòu)建觸發(fā)詞表時,以句子為單位進行處理。首先,對句子中的各個詞進行遍歷,根據(jù)觸發(fā)詞索引判斷正在遍歷的詞是否為觸發(fā)詞。然后,根據(jù)當前詞是否為觸發(fā)詞將該詞特征集合中的特征添加到觸發(fā)詞表對應的位置,完成一個構(gòu)建流程。通過循環(huán)對訓練集中所有文檔中的句子進行相同的操作,初步完成觸發(fā)詞表的構(gòu)建。最后,對觸發(fā)詞表進行修剪,即刪除掉正特征值都為空的鍵值對。因為本文是在正特征基礎上引入負特征來增強事件識別的,若只有負特征無法完成觸發(fā)詞識別,因而觸發(fā)詞表中正特征值都為空的鍵值對要被刪除掉,以去除掉無關(guān)、多余內(nèi)容,完成觸發(fā)詞表的構(gòu)建。觸發(fā)詞表構(gòu)建算法的基本流程如下:

        Step1設當前正在處理的詞為w,將w與正在構(gòu)建中的觸發(fā)詞表中的關(guān)鍵詞進行對比,若已存在與w相同的關(guān)鍵詞,則執(zhí)行Step2;若不存在,則先在觸發(fā)詞表中創(chuàng)建該關(guān)鍵詞,然后執(zhí)行Step2。

        Step2將w的索引與觸發(fā)詞索引對比。若相同,則執(zhí)行Step3;否則,執(zhí)行Step4。

        Step3將w特征集合中的特征添加到關(guān)鍵詞的正特征集合部分作為二級關(guān)鍵詞,若該二級關(guān)鍵詞已存在,則將其值加1;若不存在,則先創(chuàng)建此二級關(guān)鍵詞,并將其值初始化為1。

        Step4Step4與Step3處理過程類似,不同的地方是將特征添加到關(guān)鍵詞的負特征集合部分。

        Step5對句子中除標點符號外的各個詞依次執(zhí)行Step1至Step4的操作。

        Step6對訓練集中所有新聞文本中的句子執(zhí)行Step5的操作,完成后得到一個初步的觸發(fā)詞表Set0。

        Step7對Set0進行修剪,即將正特征集合部分都為空的關(guān)鍵詞及其值從觸發(fā)詞表刪除,得到最終的觸發(fā)詞表Set。

        構(gòu)建好的觸發(fā)詞表,里面的內(nèi)容是一個個的鍵值對,每一個鍵值對中的鍵為潛在觸發(fā)詞,值為該潛在觸發(fā)詞正負特征出現(xiàn)的次數(shù)。因而,可以認為觸發(fā)詞表是對訓練集中觸發(fā)詞及其正負特征的一個統(tǒng)計。這里以“燒傷”為例,展示其在觸發(fā)詞表中的內(nèi)容,并分別指出該詞正特征集合部分和負特征集合部分的內(nèi)容,見表2。

        表2 觸發(fā)詞表中關(guān)鍵詞“燒傷”的內(nèi)容

        2.5 觸發(fā)詞識別

        在構(gòu)建好觸發(fā)詞表后,可在測試集上進行觸發(fā)詞識別。將測試集中各個候選詞及其特征集合一起在觸發(fā)詞表中進行匹配,并根據(jù)式(3)和式(4)分別計算出各個候選詞c的正權(quán)值posc與負權(quán)值negc,然后根據(jù)式(5)求出各個候選詞c的最終權(quán)值wc,最后根據(jù)匹配結(jié)果或最終權(quán)值wc來判斷候選詞c是否為觸發(fā)詞。

        (3)

        (4)

        (5)

        式(3)中:posc表示候選觸發(fā)詞c的正權(quán)值;nc表示候選觸發(fā)詞c特征集合中特征的個數(shù);tp(ci)表示候選觸發(fā)詞c的第i個特征在觸發(fā)詞表正特征部分匹配成功時該特征在觸發(fā)詞表中的統(tǒng)計值,其值在自然數(shù)范圍內(nèi)。式(4)中:negc表示候選觸發(fā)詞c的負權(quán)值;nc與式(3)中的nc意義相同;tn(ci)表示候選觸發(fā)詞c的第i個特征在觸發(fā)詞表負特征部分匹配成功時該特征在觸發(fā)詞表中的統(tǒng)計值,其值在自然數(shù)范圍內(nèi)。式(5)中:wc為候選觸發(fā)詞c正權(quán)值和負權(quán)值的差值,也就是最終權(quán)值。觸發(fā)詞識別算法的基本流程如下:

        Step1設當前正在進行觸發(fā)詞識別的候選詞為c,將c在觸發(fā)詞表中進行匹配。若存在與c相同的關(guān)鍵詞,找到該關(guān)鍵詞的值并設為v,同時設正權(quán)值posc=0,負權(quán)值negc=0,然后執(zhí)行Step2;否則,將c判定為非觸發(fā)詞。

        Step2將候選詞c特征集合中的各個特征i在v的正特征集合部分進行匹配。每當一個特征i與正特征集合部分中的二級關(guān)鍵詞匹配上時,將二級關(guān)鍵詞的值賦給tp(ci),否則tp(ci)的值為0。得到所有特征的tp(ci)值后,根據(jù)式(3)計算候選觸發(fā)詞的正權(quán)值posc。

        Step3將候選詞c特征集合中的各個特征i在v的負特征集合部分進行匹配。每當一個特征i與負特征集合部分中的二級關(guān)鍵詞匹配上時,將二級關(guān)鍵詞的值賦給tn(ci),否則tn(ci)的值為0。得到所有特征的tn(ci)值后,根據(jù)式(4)計算候選觸發(fā)詞的負權(quán)值negc。

        Step4根據(jù)式(5)計算出wc。若wc大于等于0,將該候選詞c判定為觸發(fā)詞;否則,將該候選詞c判定為非觸發(fā)詞。

        通過觸發(fā)詞識別算法找到的觸發(fā)詞要與預處理時得到的觸發(fā)詞索引進行比對,以此來判斷識別結(jié)果是否正確并進行統(tǒng)計,為下一步事件識別效果評測做準備。

        3 實 驗

        3.1 實驗設置與基準

        采用Anaconda版本的Python 3.6作為實驗工具,使用CEC 2.0作為語料庫,使用LTP的Python版本pyltp作為NLP工具,計算機配置為Intel Core i5-3337U CPU@1.80 GHz,8 GB內(nèi)存。實驗時,將CEC 2.0語料庫分為訓練集和測試集兩部分,它們的比例為3∶1。先通過訓練集構(gòu)建出觸發(fā)詞表;然后對測試集中的所有詞進行觸發(fā)詞識別,并統(tǒng)計通過本文方法識別出的觸發(fā)詞數(shù)Dr、識別正確的觸發(fā)詞數(shù)Dt和測試集中原本標注的觸發(fā)詞數(shù)Da;最后計算出精準率P、召回率R以及F1值來評價觸發(fā)詞識別的效果,計算方法如下:

        (6)

        (7)

        (8)

        實驗以使用詞特征進行事件識別的方法為基準,即以詞本身為特征,只要候選觸發(fā)詞出現(xiàn)在觸發(fā)詞表就將該候選詞判定為觸發(fā)詞,否則判定為非觸發(fā)詞。對比實驗1在基準方法上分別加入不同的特征來輔助觸發(fā)詞識別,以此驗證本文自定義的關(guān)聯(lián)詞特征在事件識別時效果的好壞。對比實驗2在基準方法上分別加入不同的特征并結(jié)合正負特征加權(quán)進行事件識別,通過和使用相同特征但未結(jié)合正負特征加權(quán)的事件識別方法進行對比,以此驗證正負加權(quán)方法對使用單一特征的事件識別方法效果影響的好壞。對比實驗3在基準方法上同時加入多個特征:關(guān)聯(lián)詞特征、詞性特征以及依存關(guān)系特征,并結(jié)合正負特征加權(quán)進行觸發(fā)詞識別,通過和使用單一特征的正負加權(quán)方法以及部分已有的事件識別方法進行對比,驗證本文事件識別方法效果的好壞。

        3.2 對比實驗1

        為了驗證自定義的關(guān)聯(lián)詞特征對事件識別效果影響的好壞,我們設置了一組對比實驗。實驗以詞特征進行事件識別為基準,然后分別將前后位置詞特征、詞性特征、依存關(guān)系特征以及關(guān)聯(lián)詞特征加入到觸發(fā)詞表輔助觸發(fā)詞識別,通過式(3)分別計算正權(quán)值posc,根據(jù)posc是否大于0進行觸發(fā)詞判定,完成對比實驗1。

        對比實驗1的結(jié)果見表3。由表3可知,在引入前后位置詞特征后事件識別的F1值反而比基準下降了1.37%,說明該特征對事件識別的效果有消極的作用。而詞性特征的引入使得F1值雖比基準有所提升,但也僅提升了1.23%,說明該特征對事件識別的效果影響有限。依存關(guān)系特征的引入使得事件識別的查全率降低的同時也提高了精準率,最終F1值較基準提高了4.54%,說明依存關(guān)系特征對事件識別有較好效果。而本文自定義的關(guān)聯(lián)詞特征與依存關(guān)系特征相比,雖然降低了查全率R,但也進一步提升了精準率P,使得最終的F1值較基準提高了4.81%,達到了表3中最高的68.85%,說明關(guān)聯(lián)詞特征和依存關(guān)系特征一樣,對觸發(fā)詞識別有較好效果。

        表3 基準加入不同特征時的結(jié)果對比 %

        3.3 對比實驗2

        由對比實驗1可以看出,通過使用關(guān)聯(lián)詞特征輔助觸發(fā)詞識別,雖然使得F1值達到了68.85%,但顯然還不夠理想。為了進一步提升單一特征對事件識別的作用,本文根據(jù)特征所屬的詞是否為觸發(fā)詞將特征分為正特征或負特征,并將正負特征結(jié)合起來構(gòu)建觸發(fā)詞表。之后將候選觸發(fā)詞在觸發(fā)詞表匹配,根據(jù)式(3)計算正權(quán)值posc,根據(jù)式(4)計算負權(quán)值negc,再根據(jù)式(5)計算最終權(quán)值wc來進行觸發(fā)詞識別。為了驗證正負加權(quán)方法的效果,在基準方法上分別加入前后位置詞特征、詞性特征、依存關(guān)系特征以及關(guān)聯(lián)詞特征,結(jié)合正負特征加權(quán)進行觸發(fā)詞識別,并和使用相同特征但未結(jié)合正負特征加權(quán)的事件識別方法進行對比,完成對比實驗2。

        對比實驗2的結(jié)果見表4。由表4可知,通過使用正負加權(quán)的方法,所有單一特征對事件識別的效果都有不同程度的提升,原因在于同一個詞,既有作為觸發(fā)詞的情境,也有作為非觸發(fā)詞的情境,甚至有可能作為非觸發(fā)詞的情境多于作為觸發(fā)詞的情境。此時,若只考慮該詞作為觸發(fā)詞時的特征進行觸發(fā)詞識別,很可能會產(chǎn)生不好的識別效果。而正負加權(quán)的方法能充分考慮正反兩個方面的情況,更符合真實的情境,因而更加充分地發(fā)揮單一特征在事件識別時的效果。其中,提升最大的是前后位置詞特征,相較于普通的前后位置詞特征方法,使用正負前后位置詞特征的方法的F1值提高了11.18%。而使用正負依存關(guān)系特征的事件識別方法的F1值最高,達到了77.80%。因此,基于正負加權(quán)的事件識別方法對單一特征作用的提升是明顯的,且最后的實驗結(jié)果也是理想的。

        表4 基準加入不同特征并結(jié)合正負加權(quán)方法結(jié)果對比%

        方法精準率P查全率RF1值詞特征(基準)50.7386.8564.04基準+前后位置詞特征74.4954.0962.67基準+正負前后位置詞特征68.3880.2773.85基準+詞性特征52.3586.6465.27基準+正負詞性特征76.1172.6874.36基準+依存關(guān)系特征61.3277.7968.58基準+正負依存關(guān)系特征78.0977.5277.80基準+關(guān)聯(lián)詞特征68.4469.2668.85基準+正負關(guān)聯(lián)詞特征72.5579.1375.70

        3.4 對比實驗3

        為了進一步提升事件識別的效果,本文將正負關(guān)聯(lián)詞特征、正負詞性特征以及正負依存關(guān)系特征結(jié)合起來進行觸發(fā)詞識別,即觸發(fā)詞表中每個關(guān)鍵詞的值包括正特征集合和負特征集合兩部分,觸發(fā)詞識別時先匹配,然后根據(jù)式(3)和式(4)分別計算正權(quán)值posc與負權(quán)值negc,再根據(jù)式(5)計算最終權(quán)值wc來進行觸發(fā)詞判定。為了驗證該方法的效果,將該方法與只使用單一特征的正負加權(quán)方法以及已有的事件識別方法進行了對比,完成對比實驗3。

        對比實驗3的結(jié)果見表5。由于語料庫選擇的不同、預處理方式的不同、甚至是同一語料庫測試集和訓練集中文檔選取的不同,都會對事件識別結(jié)果產(chǎn)生很大的影響。而目前在事件識別領域還沒有一個規(guī)范、開放、統(tǒng)一的評測體系,因而無法完全客觀公正地比較各個方法的優(yōu)劣,只能在一定程度上反映某個方法的有效性。首先,本文方法4是將本文方法1、本文方法2以及本文方法3進行了結(jié)合。由表5可知,在本文的4個方法中,方法4在精準率P上相較于其他3個方法有較大提升,在查全率R上較方法1和方法3有一定下降,較方法2有一定上升,而79.17%的F1值為4個方法最高。然后,與已有事件識別方法相比,本文方法4的精準率P、查全率R以及F1值都是最高的。雖然與本文所列舉的已有的4種事件識別方法中效果最好的文獻[8]相比提升不是很大,但在一定程度上反映本文方法的有效性。通過對比實驗3的結(jié)果可以看出,基于正負加權(quán)的事件識別方法取得了比較理想的效果。

        表5 本文方法與已有事件識別方法對比 %

        4 結(jié) 語

        本文針對目前在事件識別領域?qū)我惶卣鞯睦眠€不夠充分的問題,從正向特征和反向特征兩個方面出發(fā),通過構(gòu)建包含正負特征的觸發(fā)詞表,提出一種基于正負加權(quán)的事件識別方法。通過實驗可知,關(guān)聯(lián)詞特征和依存關(guān)系特征對事件識別有較好的效果,而基于正負加權(quán)的方法使得單一特征在事件識別時的作用提升明顯。最后,將多種特征結(jié)合正負加權(quán)方法進行事件識別,取得了比較理想的結(jié)果。然而,本文方法以詞特征輔助事件識別為基準,無法找到在訓練集中未曾出現(xiàn)過的觸發(fā)詞。同時,本文提出的多特征的正負加權(quán)方法僅僅是對單一特征的正負加權(quán)方法的簡單疊加,相較于最好的單一特征正負加權(quán)方法,在F1值上僅提升了1.37%,未能充分發(fā)揮基于多特征的正負加權(quán)方法的作用。因此,下一步的工作是將本文方法與深度學習的方法相結(jié)合,提高本文方法的通用性,并進一步挖掘基于多特征的正負加權(quán)方法在事件識別時的潛力。

        猜你喜歡
        特征效果方法
        按摩效果確有理論依據(jù)
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        迅速制造慢門虛化效果
        抓住“瞬間性”效果
        中華詩詞(2018年11期)2018-03-26 06:41:34
        抓住特征巧觀察
        可能是方法不對
        模擬百種唇妝效果
        Coco薇(2016年8期)2016-10-09 02:11:50
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        人妻丰满熟妇无码区免费| 日韩精品一区二区三区四区五区六| 国产免费精品一品二区三| 中文字幕亚洲乱码成熟女1区| 亚洲国色天香卡2卡3卡4| 91视频免费国产成人| 精品人妻中文字幕一区二区三区 | 精品9e精品视频在线观看| 日本不卡视频免费的| 亚洲素人日韩av中文字幕| 国产麻豆精品传媒av在线| 久久久无码精品亚洲日韩按摩| 思思99热精品免费观看| 国产美女久久久亚洲综合| 亚洲av一区二区三区色多多| 欧美午夜刺激影院| 欧美第五页| 日韩乱码精品中文字幕不卡| 日韩精品熟妇一区二区三区| 亚洲色精品aⅴ一区区三区| 久久精品免费无码区| 人与嘼av免费| 日本一区二区三区在线| 久久一区二区三区久久久| 人妻有码中文字幕| 日日摸日日碰人妻无码老牲| 国产免费一区二区三区三| 亚洲国产成人精品无码区在线播放 | 精品国产精品久久一区免费| 国产免费观看黄av片| 国产在线无码制服丝袜无码| 狠狠综合亚洲综合亚色| 三级日韩视频在线观看| 肉体裸交137日本大胆摄影| 97久久精品人人妻人人| 日本高清在线一区二区| 亚洲av色影在线| 精品国产精品久久一区免费式| 国产女主播强伦视频网站| 国产麻豆精品传媒av在线| 成人精品一区二区三区中文字幕|