亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于介詞用法的災(zāi)難事件信息抽取方法

        2015-11-26 03:00:16賈遂民張騰飛
        計算機(jī)與現(xiàn)代化 2015年7期
        關(guān)鍵詞:特征實驗信息

        賈遂民,張 玉,張騰飛

        (鄭州師范學(xué)院信息科學(xué)與技術(shù)學(xué)院,河南 鄭州 450044)

        0 引言

        事件信息抽取是從一個語句或句群中提取出預(yù)先設(shè)定的目標(biāo)事件的各個語義角色,以結(jié)構(gòu)化形式表現(xiàn)出來的過程[1-2]。本文以災(zāi)難事件信息抽取為例,采用《人民日報》作為實驗語料,提出一種基于自然語言中介詞用法的方法,將語言信息與統(tǒng)計模型結(jié)合,提高信息抽取的準(zhǔn)確率。

        目前,在事件信息抽取領(lǐng)域已經(jīng)有不少組織與個人做了大量的研究,并取得了一定成果。蔣德良通過分析各種突發(fā)事件的結(jié)果類別,提出了一種基于規(guī)則匹配的突發(fā)事件結(jié)果信息抽取方法[3]。胡博磊將事件類型和事件元素在圖模型中同時進(jìn)行標(biāo)注,采用了一種基于條件隨機(jī)域的中文事件類型識別方法[4]。曾青青等通過分析事件主線信息的結(jié)構(gòu)鏈構(gòu)成,找到了一種基于信息結(jié)構(gòu)的事件信息抽取方法[5]。陳立娜等提出了一種基于本體的旅游領(lǐng)域信息抽取方法,通過編寫的規(guī)則進(jìn)行本體匹配,形成結(jié)構(gòu)化的內(nèi)容[6]。陸玉婷總結(jié)出醫(yī)學(xué)指南事件及事件關(guān)系模型,提出了一種基于句法分析的事件提取方法[7]。

        在事件信息抽取技術(shù)中,昝紅英等以介詞用法為研究方向[8],取得一定成果,不過由于只采用了基于規(guī)則的方法,對于系統(tǒng)的移植性有所限制,并且此方法對研究人員的語言功底有很高要求,不易推廣。本文通過介詞用法與條件隨機(jī)場統(tǒng)計模型相結(jié)合的方法進(jìn)行研究,希望對事件信息抽取技術(shù)的提高有所幫助。

        1 介詞概述

        1.1 介詞概念

        介詞是虛詞,用在名詞、代詞或名詞性詞組的前面,合起來表示方向、對象等,如“從、自、往、朝、在、當(dāng)(方向、處所或時間),把、對、同、為(對象或目的),以、按照(方式),比、跟、同(比較),被、叫、讓(被動)”。在現(xiàn)代漢語廣義虛詞知識庫中,對介詞做了更加深入的分析,劃分出了每個介詞的不同義項以及不同用法,在知識庫中共有139 個介詞,207 個介詞義項和327 個介詞用法[9-10]。

        介詞具有標(biāo)記作用,它依附在實詞或者短語前面共同構(gòu)成了介賓短語。由于不同的介詞,甚至同一個介詞不同的用法所組成的介賓短語都有各自不同的指示作用,這為事件信息抽取提供了一個研究方向。同時介詞用法在信息處理中的作用也為所有虛詞用法的使用提供了參考價值。

        1.2 介詞用法

        在現(xiàn)代漢語廣義虛詞知識庫中,給出了介詞用法這個概念,它是對介詞的功能進(jìn)一步的細(xì)化總結(jié),每一個介詞用法的確定都依照介詞在文中的不同作用以及位置來確定[11]。相同介詞的不同用法所表達(dá)的內(nèi)容有較大區(qū)別,以介詞“從”為例,其用法如表1 所示。

        表1 介詞“從”用法簡介

        在表1 的介紹中可以看出,介詞“從”的義項有3個,分別表示起點、表示經(jīng)過的路線場所以及表示憑借,用法共有6 個,其中4 個用法屬于同一個義項。在表1 中,“p_cong2_1a”是其中一個用法的唯一標(biāo)識,“p”表示介詞,“cong2”是“從”的全拼,“1a”中的“1”表示“從”的第一個義項,它確定介賓結(jié)構(gòu)表示一個起點概念,“1a”中的“a”表示第一個義項的第一種使用方法,即表示是一個處所起點。

        2 基于介詞用法的災(zāi)難事件信息抽取

        本文對介詞用法進(jìn)行了比較深入的研究,在此基礎(chǔ)上,使用條件隨機(jī)場統(tǒng)計方法,對文本信息進(jìn)行事件信息抽取研究,并取得了一定成果。

        2.1 預(yù)處理

        本文把災(zāi)難事件分為:地震、臺風(fēng)、海嘯、洪澇、交通事故、火災(zāi)及爆炸、嚴(yán)重傳染疾病、其它等8 個方面。在抽取之前,本文做了一些預(yù)處理工作,需要把含有災(zāi)難事件的語句提取出來,并且針對事件元素信息中缺失以及形式不統(tǒng)一等問題,把事件信息的描述規(guī)格化,同時結(jié)合事件信息本身具有的特點,對抽取出來的事件進(jìn)行矯正,并過濾掉錯誤的事件以及明顯冗余的事件,為后面的工作做好準(zhǔn)備。

        2.2 災(zāi)難事件元素

        通過災(zāi)難事件的抽取,得到檢索到的災(zāi)難事件信息條。本文從災(zāi)難信息條中抽取4 項事件元素,其中包括災(zāi)難類型、災(zāi)難發(fā)生時間、災(zāi)難發(fā)生地點、災(zāi)難嚴(yán)重情況。例如,下面是對一篇災(zāi)難報道進(jìn)行信息抽取,其抽取結(jié)果見表2。

        “7 月1 日5 時許,在泉南高速公路(福建泉州至廣西南寧)南寧境內(nèi),一輛載客43 人的大客車嚴(yán)重追尾停在路邊的一輛大貨車,事故至少造成2 人當(dāng)場死亡,20 余人被送往醫(yī)院救治?!?/p>

        在例子中,災(zāi)難事件的時間是在預(yù)處理期間,通過上下文補(bǔ)全年份,嚴(yán)重情況第一個數(shù)“2”表示2 個人死亡,“20”表示20 個人受傷,如果還有其它經(jīng)濟(jì)損失,需要再用一個字符“¥”來表示。

        表2 抽取結(jié)果

        2.3 條件隨機(jī)場

        條件隨機(jī)場是隱馬爾可夫模型的一種擴(kuò)展,如圖1 所示,在一個隱馬爾可夫模型中,以x1,x2,…,xn表示測試值序列,y1,y2,…,yn表示隱含的狀態(tài)序列,那么xi只取決于產(chǎn)生它們的狀態(tài)yi,與前后的狀態(tài)yi-1,yi+1都無關(guān)。顯然在很多應(yīng)用中觀察值xi可能與前后的狀態(tài)都有關(guān),如果把xi和yi-1,yi,yi+1都考慮進(jìn)來,對應(yīng)的模型如圖2 所示,這樣的模型是條件隨機(jī)場[12-14]。

        圖1 隱馬爾可夫模型

        圖2 條件隨機(jī)場模型

        廣義地講,條件隨機(jī)場是一種特殊的概率圖模型,是一個無向圖[15-16]。在這個圖中,頂點代表一個個隨機(jī)變量,如x1和y1,頂點之間的弧代表它們相互的依賴關(guān)系,通常采用一種概率分布,如用P(x1,y1)來描述。條件隨機(jī)場的節(jié)點分為狀態(tài)節(jié)點的集合Y和觀察變量節(jié)點的集合X。整個條件隨機(jī)場的量化模型是這2 個集合的聯(lián)合概率分布模型:

        P(X,Y)=P(x1,x2,...,xn,y1,y2,...,ym) (1)

        根據(jù)最大熵原則,找到一個合適的邊緣分布。每一個邊緣分布對應(yīng)指數(shù)模型中的一個特征Fi,如x1的邊緣分布的特征是:

        把這些特征應(yīng)用模型中,得到如下公式:

        2.4 基于介詞用法的抽取

        本文對災(zāi)難事件的信息抽取,使用條件隨機(jī)場統(tǒng)計模型進(jìn)行學(xué)習(xí),首先需要將語料轉(zhuǎn)化成此工具包可以正確識別的特征文件。產(chǎn)生的特征文件包含多個塊,也可以稱為多個特征條,一個特征條可以構(gòu)成一個句子,各個特征條之間用空行間隔。每個特征條包含多個特征信息,需要寫在同一行上。根據(jù)具體任務(wù)來確定特征,本文所選特征是詞和詞性。在實驗中,把信息抽取問題轉(zhuǎn)化成為序列標(biāo)注問題,將句子中上下文的詞語和詞性作為識別事件元素的依據(jù),并根據(jù)上下文特征窗口的大小來選擇不同范圍的詞語和詞性。對于2.2 節(jié)的例子,若要識別事件元素,設(shè)定上下文特征窗口大小為3,在抽取災(zāi)難事件嚴(yán)重情況時,數(shù)字“2”和“20”的前后兩邊3 個詞語就是要提取的特征,則統(tǒng)計模型的特征文件格式如表3 所示。

        在表3 中,序號中偶數(shù)特征代表的是詞,奇數(shù)特征代表的是前面詞的詞性。序號2 至7 所代表的特征是數(shù)詞“2”和“20”上文的3 個詞以及詞性,序號8至13 所代表的特征是下文的3 個詞以及詞性。統(tǒng)計方法是通過介詞上下文的6 組特征進(jìn)行學(xué)習(xí),得到訓(xùn)練模型。每個事件元素使用不同大小的特征窗口,得到不同的訓(xùn)練模型,通過比較選取效果最好的特征窗口,所以實驗前要先確定各個介詞的特征窗口大小。

        表3 統(tǒng)計模型特征文件格式

        3 實 驗

        本文分別做了3 個實驗進(jìn)行比較:

        1)直接對原始語料進(jìn)行抽取實驗,并不考慮介詞用法對事件抽取的影響,此方法作為參考,用于比較后2 種方法;

        2)對有介詞用法信息的語料進(jìn)行抽取實驗,實驗語料的介詞用法標(biāo)注已經(jīng)在實驗前人工完成(筆者認(rèn)為人工完成的標(biāo)注完全正確);

        3)將介詞用法識別功能集成到抽取系統(tǒng)中,系統(tǒng)的工作分為2 步,先對原始語料進(jìn)行介詞用法識別標(biāo)注,再對已經(jīng)標(biāo)注過的語料進(jìn)行信息抽取。

        采用《人民日報》語料進(jìn)行實驗,實驗語料中含有2 437 條災(zāi)難信息,9 748 條災(zāi)難事件元素信息,實驗結(jié)果如表4 所示,3 種實驗結(jié)果的比較如圖3 所示。

        表4 災(zāi)難事件抽取結(jié)果

        圖3 3 種實驗結(jié)果比較情況

        由表4 和圖3 中可以看出,在4 項事件元素中,發(fā)生地點信息的抽取結(jié)果最好,災(zāi)難嚴(yán)重情況的抽取結(jié)果最差,這是由于介詞用法的自身特點,介詞用法對地點的敏感度比對數(shù)量和時間的敏感度強(qiáng)。實驗準(zhǔn)確率分別為81.19%、90.97%、90.33%,第3 種實驗方法是本文采用的方法,實驗系統(tǒng)直接對原始語料進(jìn)行抽取,其結(jié)果比不考慮介詞用法的抽取結(jié)果提高9.14%,抽取效果比較理想。

        4 結(jié)束語

        本文對介詞用法的作用做了深入的分析,在此基礎(chǔ)上,與條件隨機(jī)場模型相結(jié)合,提出了一種基于介詞用法的災(zāi)難事件信息抽取方法,實驗結(jié)果表明,此方法具有一定的研究價值,是信息抽取技術(shù)一個新的提高點。

        筆者以后的工作會采用更開放的實驗語料進(jìn)行研究,同時考慮比較使用其他幾種機(jī)器學(xué)習(xí)的方法,提高此方法可移植性,希望本文信息抽取方法對信息抽取技術(shù)的發(fā)展有一定積極作用。

        [1]孫中友,李培峰,朱巧明.事件信息抽取中的數(shù)據(jù)預(yù)處理方法研究[J].計算機(jī)應(yīng)用與軟件,2011,28(8):35-37.

        [2]劉敬培,李江,季文平,等.面向文本的事件信息抽取方法的研究[J].計算機(jī)與現(xiàn)代化,2012(7):198-201.

        [3]蔣德良.基于規(guī)則匹配的突發(fā)事件結(jié)果信息抽取研究[J].計算機(jī)工程與設(shè)計,2010,31(14):3294-3297.

        [4]胡博磊,何瑞芳,孫宏,等.基于條件隨機(jī)域的中文事件類型識別[J].模式識別與人工智能,2012,25(3):445-449.

        [5]曾青青,楊爾弘,朱丹青.基于信息結(jié)構(gòu)的突發(fā)事件文本事件信息自動抽取策略研究[C]// 第五屆全國青年計算機(jī)語言學(xué)研討會論文集(YWCL 2010).2010:331-337.

        [6]陳立娜,張紅,馬莉.基于本體的旅游信息抽?。跩].計算機(jī)應(yīng)用與軟件,2010,27(4):146-148.

        [7]陸玉婷.基于句法分析的醫(yī)學(xué)指南事件及事件關(guān)系提取[D].武漢:武漢科技大學(xué),2014.

        [8]昝紅英,張騰飛,林愛英.基于介詞用法的事件信息抽取研究[J].計算機(jī)工程與設(shè)計,2013,34(7):2570-2574.

        [9]昝紅英,張坤麗,朱學(xué)鋒,等.現(xiàn)代漢語虛詞用法知識庫介紹[C]// 第七屆全國語言文字應(yīng)用學(xué)術(shù)研討會論文集.2011:21-27.

        [10]張騰飛.介詞用法自動識別及在信息抽取中的應(yīng)用研究[D].鄭州:鄭州大學(xué),2013.

        [11]袁應(yīng)成.基于用法屬性的現(xiàn)代漢語介詞短語邊界識別研究[D].鄭州:鄭州大學(xué),2011.

        [12]吳軍.數(shù)學(xué)之美[M].北京:人民郵電出版社,2012.

        [13]李亞超.基于條件隨機(jī)場的藏文分詞與命名實體識別研究[D].蘭州:西北民族大學(xué),2013.

        [14]李艷麗,周忠,吳威.一種雙層條件隨機(jī)場的場景解析方法[J].計算機(jī)學(xué)報,2013,36(9):1898-1907.

        [15]薛俊欣.條件隨機(jī)場模型研究及應(yīng)用[D].濟(jì)南:山東大學(xué),2014.

        [16]吳瓊,黃德根.基于條件隨機(jī)場與時間詞庫的中文時間表達(dá)式識別[J].中文信息學(xué)報,2014,28(6):169-174.

        猜你喜歡
        特征實驗信息
        記一次有趣的實驗
        如何表達(dá)“特征”
        做個怪怪長實驗
        不忠誠的四個特征
        抓住特征巧觀察
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        NO與NO2相互轉(zhuǎn)化實驗的改進(jìn)
        實踐十號上的19項實驗
        太空探索(2016年5期)2016-07-12 15:17:55
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        精品厕所偷拍一区二区视频| 日韩熟妇精品视频一区二区| 日本一区二区三区四区在线看| 一区二区三区四区亚洲免费| 97se狠狠狠狠狼鲁亚洲综合色| 欧美mv日韩mv国产网站| 亚洲av乱码专区国产乱码| 中文字幕一区二区三区综合网| 精品亚洲a∨无码一区二区三区| 日韩精品无码免费专区网站| 久久久久国产亚洲AV麻豆| 亚洲国产中文字幕九色| 国产无套乱子伦精彩是白视频| 久久久噜噜噜www成人网| 亚洲福利天堂网福利在线观看 | 国产丝袜美腿一区二区三区| 亚洲成av人片乱码色午夜| 99蜜桃在线观看免费视频网站| 精品国产乱码一区二区三区在线| 偷拍视频这里只有精品| 国产a级三级三级三级| 野外性史欧美k8播放| 免费a级毛片无码a∨免费| 亚洲色图偷拍自拍在线| 久久久久亚洲av片无码| 玩弄放荡人妻一区二区三区| 一区二区特别黄色大片| 富婆猛男一区二区三区| 乱人伦人妻中文字幕无码| 在线观看亚洲AV日韩A∨| 白白在线免费观看视频| 国内精品久久久久影院优| 国产精品麻豆aⅴ人妻| 成人国产乱对白在线观看| 久久精品国产亚洲av不卡国产| 人人妻人人澡人人爽欧美精品| 国产精品久久码一区二区| 亚洲无人区一码二码国产内射| 国产精品免费无遮挡无码永久视频| 香蕉久久人人97超碰caoproen| 一区二区特别黄色大片|