彭籍沖
摘要:自然語(yǔ)言領(lǐng)域內(nèi)事件抽取是信息抽取中一項(xiàng)重要的研究課題。事件觸發(fā)詞的識(shí)別與抽取在事件抽取中扮演著重要角色。針對(duì)目前缺少對(duì)泰語(yǔ)觸發(fā)詞識(shí)別與抽取的技術(shù)研究,提出了通過中文事件觸發(fā)詞入手構(gòu)建初始泰語(yǔ)新聞事件觸發(fā)詞表,并根據(jù)初始泰語(yǔ)新聞事件觸發(fā)詞表自動(dòng)抽取泰語(yǔ)觸發(fā)詞。實(shí)驗(yàn)結(jié)果表明此方法很好有效的實(shí)現(xiàn)了泰語(yǔ)新聞事件觸發(fā)詞的識(shí)別與抽取。
Abstract: The research of event extraction in natural language processing field is an important research topic in information extraction area, and the recognition and extraction of event trigger word plays a decisive role in event extraction. For the current situation that lacks of technology research of Thai trigger word recognition and extraction, propose to build the initial Thai news events trigger words table by Chinese event trigger words, and extract Thai trigger word automatically based on initial Thai news events trigger word table. Experimental results show that this method can effectively realize the Thai news events trigger word recognition and automatic extraction.
關(guān)鍵詞:事件抽取;新聞事件;泰語(yǔ)觸發(fā)詞表;觸發(fā)詞抽取
Key words: event extraction;news events;Thai trigger word table;trigger word extraction
中圖分類號(hào): TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1006-4311(2017)11-0226-03
0 引言
隨著全球化的推進(jìn),中國(guó)與泰國(guó)之間政治、經(jīng)濟(jì)、文化交流日益頻繁。中泰兩國(guó)之間各方面交往的新聞報(bào)道越來(lái)越多,而新聞報(bào)道能客觀地反映一個(gè)國(guó)家對(duì)不同領(lǐng)域的政策和態(tài)度。對(duì)泰國(guó)新聞事件進(jìn)行有效的抽取,有利于更好地了解泰語(yǔ)新聞報(bào)道的內(nèi)容,以便更好地處理中國(guó)與泰國(guó)的國(guó)際關(guān)系。因此,對(duì)泰語(yǔ)新聞事件抽取研究至關(guān)重要。
新聞事件抽取主要把人們感興趣的新聞以結(jié)構(gòu)化的形式呈現(xiàn)出來(lái),如什么時(shí)間,什么地方,發(fā)生什么事,由哪些人參與或被涉及。事件在不同領(lǐng)域有著不同的定義,在信息抽取(Information Extraction,IE)中,事件是指某個(gè)特定的時(shí)間和環(huán)境下發(fā)生的、由若干角色參與、表現(xiàn)出若干動(dòng)作特征的一件事情,通常情況下是句子級(jí)。在ACE(Automatic Content Extraction)評(píng)測(cè)會(huì)議中,事件定義為由事件觸發(fā)詞及事件元素構(gòu)成。可見,事件觸發(fā)詞識(shí)別與抽取是事件抽取的關(guān)鍵。因此,本文將參照ACE2005[1]有關(guān)事件抽取的相關(guān)定義,開展泰語(yǔ)新聞事件觸發(fā)詞的抽取研究。
1 國(guó)內(nèi)外研究現(xiàn)狀
作為信息抽取的一個(gè)熱門研究領(lǐng)域,事件抽取研究主要聚焦在中英文兩方面。Ahn[2]用英語(yǔ)句中的每一個(gè)詞作為實(shí)例,使用二元分類的方法判別句中的詞是否為觸發(fā)詞,用多元分類方法識(shí)別它所屬事件類型。這種方法能夠自動(dòng)識(shí)別觸發(fā)詞和事件類型。但是,句子中的每一個(gè)詞作為實(shí)例用于訓(xùn)練機(jī)器學(xué)習(xí)模型導(dǎo)致引入大量的反例,造成正反例嚴(yán)重失衡。Hilda Hardy[3]提出了基于數(shù)據(jù)驅(qū)動(dòng)的方法進(jìn)行篇章級(jí)的事件識(shí)別,并進(jìn)一步證明了選取特征向量用于訓(xùn)練常見學(xué)習(xí)算法比人工定義規(guī)則模型進(jìn)行事件識(shí)別用時(shí)更短而且不受專業(yè)限制。Ji Heng[4]提出基于規(guī)則的方法對(duì)觸發(fā)詞、事件參與者和角色進(jìn)行判斷的方法實(shí)現(xiàn)同一話題集文檔的事件抽取,不再局限于對(duì)一篇文檔進(jìn)行事件抽取。由于考慮了全局信息,即話題集簇中的所有相關(guān)文檔,該方法取得了很好的效果。趙妍妍[5]提出根據(jù)對(duì)構(gòu)建的初始中文觸發(fā)詞表,先采用類似TF*IDF的方法過濾存在一詞多義現(xiàn)象的觸發(fā)詞,再使用《同義詞詞林(擴(kuò)展版)》擴(kuò)充觸發(fā)詞表,不僅提高了召回率,而且解決了由于語(yǔ)料小構(gòu)建的觸發(fā)詞表有限的不足。侯立斌[6]提出了通過LDA模型對(duì)詞語(yǔ)聚類來(lái)解決詞形特征過擬合問題,并使用基于字的事件觸發(fā)詞檢測(cè)的方法解決中文自動(dòng)分詞與標(biāo)注與觸發(fā)詞邊界不一致問題。LongTian[7]以CEC語(yǔ)料庫(kù)作為訓(xùn)練語(yǔ)料及測(cè)試預(yù)料,提出了結(jié)合擴(kuò)展事件觸發(fā)詞表與機(jī)器學(xué)習(xí)的方法進(jìn)行事件觸發(fā)詞的自動(dòng)抽取。實(shí)驗(yàn)結(jié)果表明提取中文事件觸發(fā)詞的F值達(dá)到了71.2%。朱少華[8]采用基于馬爾科夫邏輯網(wǎng)絡(luò),利用觸發(fā)詞或核心詞素同指與相關(guān)一致性推理規(guī)則,學(xué)習(xí)訓(xùn)練語(yǔ)料中候選觸發(fā)詞填充真假事件的概率和觸發(fā)詞實(shí)例間的關(guān)系,進(jìn)行中文觸發(fā)詞推理,巧妙地利用同一文檔中各個(gè)觸發(fā)詞實(shí)例之間的一致性關(guān)系,此方法觸發(fā)詞識(shí)別的F值達(dá)到了73.79%。
2 泰語(yǔ)新聞事件觸發(fā)詞抽取
首先,本文根據(jù)CEC[11]語(yǔ)料庫(kù)創(chuàng)建初始中文觸發(fā)詞表;使用《哈工大信息檢索研究室同義詞詞林?jǐn)U展版》[12]對(duì)初始中文觸發(fā)詞表進(jìn)行擴(kuò)展;調(diào)用百度翻譯API端口[13],將中文觸發(fā)詞翻譯為泰語(yǔ),生成初始泰語(yǔ)觸發(fā)詞表。然后,對(duì)泰語(yǔ)新聞文本句子進(jìn)行預(yù)處理,其中包括分詞、標(biāo)注詞性、抽取實(shí)體,將抽取出的實(shí)體構(gòu)建候選觸發(fā)詞集。最后,根據(jù)初始泰語(yǔ)觸發(fā)詞表計(jì)算候選觸發(fā)詞集中詞的權(quán)重值,進(jìn)而實(shí)現(xiàn)使用初始泰語(yǔ)觸發(fā)詞表對(duì)泰語(yǔ)新聞事件觸發(fā)詞的識(shí)別與抽取。泰語(yǔ)新聞事件觸發(fā)詞抽取過程如圖1所示。
2.1 構(gòu)建中文初始觸發(fā)詞表
根據(jù)CEC語(yǔ)料構(gòu)建一張中文初始觸發(fā)詞表。CEC語(yǔ)料庫(kù),包含五類新聞文本:地震、火災(zāi)、交通事故、恐怖襲擊、食物中毒,共計(jì)332篇。其中已經(jīng)對(duì)事件、觸發(fā)詞、事件類型、事件元素進(jìn)行標(biāo)注。構(gòu)建的部分初始中文觸發(fā)詞表如表1所示。
2.2 擴(kuò)展初始中文觸發(fā)詞表
由于語(yǔ)料規(guī)模太小覆蓋面不夠廣泛,許多事件類型的觸發(fā)詞無(wú)法召回。如:新聞句E1印尼蘇門答臘島附近海域1個(gè)月來(lái)發(fā)生多次強(qiáng)震。“強(qiáng)震”不在地震類事件觸發(fā)詞表中,E1就很難被識(shí)別為地震類事件。而“強(qiáng)震”與地震類事件觸發(fā)詞表中“余震”在同義詞詞林中被標(biāo)記為同類詞。Id14E02#余震、強(qiáng)震。所以根據(jù)文獻(xiàn)[14]提出的使用《哈工大信息檢索研究室同義詞詞林?jǐn)U展版》對(duì)觸發(fā)詞表進(jìn)行擴(kuò)展來(lái)解決語(yǔ)料小召回率低的問題。然而,還存在一些觸發(fā)詞在同義詞詞林中有兩種編碼。如在同義詞詞林中查詢“震動(dòng)”可得到以下兩個(gè)詞條:Id14E01=顫動(dòng)、抖動(dòng)、顛簸、顛、震、簸蕩、震蕩、振蕩、振動(dòng)、震動(dòng)、共振;Je02B01=觸動(dòng)、感動(dòng)、打動(dòng)、撥動(dòng)、震動(dòng)、激動(dòng)、震撼、撼動(dòng)、撼、動(dòng)。這種情況我們判定此項(xiàng)詞條中是否含有其他詞在同事件類觸發(fā)詞表中。Id14E01=詞條中存在“震”、“振動(dòng)”同在地震類事件觸發(fā)詞表中,而Je02B01=詞條中并不存在多個(gè)(多余兩個(gè))詞同屬地震類事件觸發(fā)詞。這種情況下,即把Id14E01=中的所有詞匯擴(kuò)展到地震類事件觸發(fā)詞表中。根據(jù)以上方法對(duì)初始中文觸發(fā)詞表進(jìn)行擴(kuò)展。部分?jǐn)U展觸發(fā)詞表如表2所示。
2.3 泰語(yǔ)觸發(fā)詞表的生成
2.4 基于泰語(yǔ)新聞事件觸發(fā)詞表抽取泰語(yǔ)新聞事件觸發(fā)詞
根據(jù)泰語(yǔ)新聞事件觸發(fā)詞表抽取泰語(yǔ)新聞事件觸發(fā)詞。由于泰語(yǔ)文本中不采用標(biāo)點(diǎn)符號(hào)或是空格進(jìn)行句子分割的使用特性與目前缺少對(duì)泰語(yǔ)文本句子切分的相關(guān)研究,本文開展對(duì)泰語(yǔ)新聞句子進(jìn)行泰語(yǔ)新聞事件觸發(fā)詞抽取。首先,根據(jù)文獻(xiàn)[15]將泰語(yǔ)新聞句預(yù)處理,包含分詞、標(biāo)注詞性;其次,提取出其中的名詞、動(dòng)詞(文獻(xiàn)[16]統(tǒng)計(jì)表明觸發(fā)詞基本為名詞、動(dòng)詞,此舉很大程度上縮小候選觸發(fā)詞集的范圍);最后,構(gòu)建候選泰語(yǔ)新聞事件觸發(fā)詞集。
3.2 實(shí)驗(yàn)結(jié)果與分析
本文從中泰雙語(yǔ)新聞網(wǎng)[17]選取1000個(gè)泰語(yǔ)新聞句子作為實(shí)驗(yàn)數(shù)據(jù)。將其中750個(gè)泰語(yǔ)新聞句作為訓(xùn)練語(yǔ)料,250個(gè)泰語(yǔ)新聞句作為測(cè)試預(yù)料。對(duì)訓(xùn)練預(yù)料進(jìn)行標(biāo)注,參照CEC標(biāo)注標(biāo)準(zhǔn),標(biāo)記出事件、觸發(fā)詞、事件類型。由于在泰語(yǔ)觸發(fā)詞提抽取方法研究方面,目前未見相關(guān)研究論文。因此,本文僅給出了我們方法的實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)結(jié)果如表4所示。
實(shí)驗(yàn)結(jié)果表明,由于泰語(yǔ)分詞、詞性標(biāo)注準(zhǔn)確率對(duì)泰語(yǔ)觸發(fā)詞識(shí)別及抽取有著較大影響及泰語(yǔ)新聞標(biāo)注語(yǔ)料過于單一的這些原因,導(dǎo)致根據(jù)抽取泰語(yǔ)觸發(fā)詞的準(zhǔn)確率不高,但召回率比較理想。
4 結(jié)語(yǔ)
目前泰語(yǔ)新聞事件抽取研究處于起步階段,本文提出通過中文觸發(fā)詞表構(gòu)建泰語(yǔ)觸發(fā)詞表,并通過泰語(yǔ)觸發(fā)詞表對(duì)泰語(yǔ)新聞文本中觸發(fā)詞進(jìn)行抽取。實(shí)驗(yàn)表明,此方法對(duì)泰語(yǔ)觸發(fā)詞抽取是可行的。為了實(shí)現(xiàn)更好的抽取結(jié)果,提高泰語(yǔ)新聞?dòng)|發(fā)詞抽取的準(zhǔn)確率,下一步的工作重心是擴(kuò)大泰語(yǔ)標(biāo)注語(yǔ)料,結(jié)合泰語(yǔ)語(yǔ)言特性構(gòu)造特征向量,并結(jié)合機(jī)器學(xué)習(xí)的方法進(jìn)行泰語(yǔ)新聞事件觸發(fā)詞抽取研究。
參考文獻(xiàn):
[1]ACE (Automatic Content Extraction) Chinese Annotation Guidelines for Events[S]. National Institute of Standards and Technology, 2005.
[2]Ahn D. The stages of event extraction [C]. Arte06 Proceedings of the Workshop on Annotating & Reasoning About Time & Events, 2006:1-8.
[3]Hardy, H., Kanchakouskaya, V., Stzalkowski, T. Automatic Event Classification Using Surface Text Features[C]. AAAI 2006 Workshop on Event Extraction and Synthesis, Boston, MA (2006).
[4]Ji H, Grishman R. Refining Event Extraction Through Cross-document Inference[C]. ACL 2008, Proceedings of the, Meeting of the Association for Computational Linguistics, June 15-20, 2008, Columbus, Ohio, Usa. 2008:254-262.
[5]趙妍妍,王嘯吟,秦兵,等.中文事件抽取中事件類別的自動(dòng)識(shí)別[C].第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì).中國(guó)遼寧沈陽(yáng),2006.
[6]侯立斌,李培峰,朱巧明.基于CRFs和跨事件的事件識(shí)別研究[J].計(jì)算機(jī)工程,2012,38(24):191-195.
[7]Tian L, Ma W, Zhou W. Automatic Event Trigger Word Extraction in Chinese Event[J]. Journal of Software Engineering & Applications, 2012, 05(12):208-212.
[8]Tian L, Ma W, Zhou W. Automatic Event Trigger Word Extraction in Chinese Event[J]. Journal of Software Engineering & Applications, 2012, 05(12):208-212.
[9]朱少華,李培峰,朱巧明.基于MLN的中文事件觸發(fā)詞推理方法[J].北京大學(xué)學(xué)報(bào)自然科學(xué)版,2016,52(1):89-96.
[10]張金花.漢泰語(yǔ)對(duì)比淺析[J].群文天地,2012(2):98-98.
[11]孫漢萍.漢、泰語(yǔ)的同異性比較[J].當(dāng)代教育理論與實(shí)踐, 1995(2):34-39.
[12]付劍鋒.基于事件的中文語(yǔ)料庫(kù)標(biāo)注方法[P].中國(guó)專利:201010126360.8,2010.
[13]http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm.2009.
[14]http://api.fanyi.baidu.com/api/trans/product/index.
[15]Qin B, Zhao Y, Ding X, et al. Event Type Recognition Based on Trigger Expansion[J]. Tsinghua Science and Technology, 2010, 15(3):251-258.
[16]趙世瑜,線巖團(tuán),郭劍毅,余正濤,洪玄貴,王紅斌.基于條件隨機(jī)場(chǎng)的泰語(yǔ)音節(jié)切分方法[J].計(jì)算機(jī)科學(xué),2016,43(3):54-56,83.
[17]付劍鋒.面向事件的知識(shí)處理研究[D].上海:上海大學(xué), 2010.
[18]http://th.hujiang.com/zt/zhngtaixinwen/.