亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多算法融合的化工突發(fā)事件信息抽取研究?

        2018-03-20 07:10:30陳卓鄭帥
        計算機與數(shù)字工程 2018年2期
        關(guān)鍵詞:突發(fā)事件化工詞語

        陳卓鄭帥

        (青島科技大學信息科學技術(shù)學院 青島 266061)

        1 引言

        根據(jù)公安部消防局公布的今年上半年的消防出警情況來看,消防隊伍已參與處置化危品事故7904起。平均每天44起化工突發(fā)事件造成危害已嚴重影響到人們的生活,因此對化工事件進行有效的管理已經(jīng)刻不容緩,為了提高中文信息處理的效率,提高信息處理的準確率幫助人們?nèi)娴卣莆兆约核枰男畔?,因此國?nèi)外研究人員對事件抽取的方法進行了深入研究并提出了一系列的方法,但大致上可以分為基于模式匹配和基于統(tǒng)計機器學習兩種方法[1]。

        模式匹配通常又稱為規(guī)則匹配。對于化工突發(fā)事件的抽取來說,化工突發(fā)事件的模式獲取是模式匹配方法中最關(guān)鍵的一步,這些模式規(guī)則可以通過手工方式,半手工方式,自動方式等方式來進行設(shè)定?;诨ね话l(fā)事件模式匹配的方法對所研究的語言,領(lǐng)域以及文本格式有著嚴重的依賴性,且可移植性弱,通常需要借助相關(guān)領(lǐng)域?qū)<业膸椭拍芡瓿伞4送?,化工突發(fā)事件抽取的模式并不可能覆蓋所有事件,當改變語料吋,需要重新編寫相關(guān)的匹配模式,性價比不是很高。但是相對于機器學習的方法,模式匹配方法的準確率相對要好。

        統(tǒng)計機器學習算法是一類從數(shù)據(jù)中自動分析獲得規(guī)律,并利用規(guī)律對未知數(shù)據(jù)進行預(yù)測的算法。因為學習算法中涉及了大量的統(tǒng)計學理論,機器學習與統(tǒng)計推斷學聯(lián)系尤為密切,也被稱為統(tǒng)計學習理論[2]。當前機器學習比較常用的學習算法有線性回歸,邏輯回歸,神經(jīng)網(wǎng)絡(luò),SVM聚類等。統(tǒng)計機器學習的方法主要研究的是詞語的分布情況,詞語的詞頻,以及是否是關(guān)鍵詞等等特征而不考慮其語義關(guān)系,統(tǒng)計機器學習的方法不拘泥于語料的形式與內(nèi)容,但是特征選取、語料規(guī)模的大小等因素都影響了機器學習的結(jié)果,它們只是將事件抽取看作一種分類題,而沒有結(jié)合語義知識,所以說提取的結(jié)果不一定符合事件的特征。

        基于上述所述,本文對其優(yōu)缺點進行了整合提出了基于多算法融合的方法即規(guī)則模式及機器學習相結(jié)合的方法來進行化工突發(fā)事件的信息抽取。

        2 化工突發(fā)事件信息抽取方法的研究

        對于化工突發(fā)事件管理來說,常常需要對事件發(fā)生時間,發(fā)生地點,發(fā)生原因,事件結(jié)果,事故善后,所涉及的化學品,事故類型信息進行分析總結(jié)。所以對于化工突發(fā)事件的信息提取應(yīng)當包含對上述7個方面類型信息的提取,圖1為算法的流程圖,本文將根據(jù)圖1算法流程圖按照文本預(yù)處理,模式獲取及匹配以及機器學習3方面展開論述。

        圖1 化工突發(fā)事件信息抽取算法流程圖

        2.1 文本預(yù)處理

        從外界提取的文字信息首先要整理為文本文件格式類型,本文統(tǒng)一以文本類型格式進行抽取,然后進行文本分句處理,文本以任意的標點符號進行斷句分句,以句子作為進行文本處理的基本單位,這樣就可以把一篇化工突發(fā)事件報道分為一系列的句子,降低了分析處理的粒度。本文利用Ansj分詞器(ansj是一個開源的Java中文分詞工具,基于中科院的ictclas中文分詞算法,比其他常用的開源分詞工具的分詞準確率更高。)進行句子的切分和詞性標注。接下來利用化工語料庫識別化工突發(fā)報道中所涉及的化學品。利用詞性可以識別出地點ns,時間t等命名實體詞。字典的構(gòu)建基于《危險貨物品名表》(GB 12268—90)[3]中所出現(xiàn)的2110種化學品,構(gòu)建化學品字典時可以為每一個化學品建立兩條記錄,一條記錄用于存放化學品的名稱,另一條用于存放化學品相關(guān)的特性,可用于事故類型抽取,利用字典可以識別出報道中所涉及的化學品信息。

        2.2 模式獲取及匹配

        2.2.1 模式獲取

        本文利用規(guī)則模式及機器學習相結(jié)合的方法來抽取化工突發(fā)事件中的相關(guān)信息。建立模式規(guī)則庫根據(jù)上述的化工突發(fā)事件所提取信息來構(gòu)建出模式規(guī)則庫——時間模式規(guī)則庫,地點模式規(guī)則庫,原因模式規(guī)則庫,結(jié)果模式規(guī)則庫,善后模式規(guī)則庫。根據(jù)化工突發(fā)事件文本信息的特點來構(gòu)建相應(yīng)的規(guī)則[4]。

        根據(jù)發(fā)生時間,發(fā)生地點的特性分別構(gòu)建出時間規(guī)則庫:^[0-9]+[年|月|日|點|時]+([u4e00-u9fa5]|[0-9]|:)*$,地點規(guī)則庫:^([[0-9]|A-z|u4E00-u9FFF|()|()]+(鎮(zhèn)|區(qū)|縣|莊|省|市))([[0-9]|A-z|u4E00-u9FFF])*(,|.|。)$

        在化工突發(fā)事件中,化工突發(fā)事件在事件的成因上無非可以概況成5大因素1)人工操作不當,操作失誤,或者違反規(guī)定進行操作;2)由于機器設(shè)備故障,或者技術(shù)存在問題;3)企業(yè)管理不當,違反電氣的安全,在吸煙,靜電等問題沒有很好地管制;4)交通運輸事故引發(fā)的化工突發(fā)事件;5)人為的損壞,破壞,如:恐怖分子襲擊;

        通過這5大因素的特點即可總結(jié)出一些關(guān)鍵字詞如擅自,私自,機器設(shè)備故障,違章操作,引發(fā)等,從而可以歸納出一系列的匹配規(guī)則構(gòu)建出原因模式規(guī)則庫來,作者根據(jù)語料構(gòu)建的部分原因規(guī)則庫信息如下:

        1)^([[0-9]|A-z|\u4E00-\u9FFF])*(擅自|私自|自行|執(zhí)意)([[0-9]|A-z|\u4E00-\u9FFF])*(,|.|。|;|,)$;

        2)^([[0-9]|A-z|\u4E00-\u9FFF])*(違章操作)([[0-9]|A-z|\u4E00-\u9FFF])*(,|.|。|;|,)$;

        3)^([[0-9]|A-z|\u4E00-\u9FFF])*(大火|火災(zāi)|泄露|爆炸|故障|中毒|爆炸|爆燃|事故)+(系|由于|因為)([[0-9]|A-z|\u4E00-\u9FFF])+(所致|導致|引發(fā)|發(fā)生)+(,|.|。|;|,)$;

        其中符號^指的是句子的開始,$指的是句子的結(jié)束,[0-9]的含義是0-9中任意的一個數(shù)字字符,[\u4E00-\u9FFF]是一個漢字字符,[A-z]指的是任意的一個英文字母,*的含義是重復任意的數(shù)量,可以是0次,+的含義是至少重復一次,|的含義是“或”。

        事件所造成的結(jié)果同樣有著自己獨有的特征。從事故的結(jié)果內(nèi)部組成結(jié)構(gòu)來看它有著非常明顯的提示性的詞語[5]如:受傷,死亡,經(jīng)濟損失,中毒,失蹤,摧毀的詞語,因此構(gòu)建事件結(jié)果模式規(guī)則庫也變得明朗起來,以下是部分結(jié)果規(guī)則庫信息:

        1) ^ ( [\u4e00-\u9fa5] * [0-9] +[\u4e00-\u9fa5]*(喪生|死亡|失蹤|受傷|失聯(lián)|中毒|搶救|傷))+(,|.|,|。|、)$

        2)^([[0-9]|A-z|\u4E00-\u9FFF]*)(損失)([[0-9]|A-z|\u4E00-\u9FFF]*)(萬元)([[0-9]|A-z|\u4E00-\u9FFF])*(,|.|。|;|,)$

        3)^([[0-9]|A-z|\u4E00-\u9FFF]*)(造成)([[0-9]|A-z|\u4E00-\u9FFF]*)(結(jié)果)([[0-9]|A-z|\uE00-\u9FFF])*(,|.|。|;|,)$

        同理,事件的善后信息關(guān)鍵字通常是疏散,撤離,補償,獲賠,賠款,控制等詞語由此構(gòu)建事件構(gòu)建出善后信息的規(guī)則庫,以下是部分善后規(guī)則庫信息:

        1)^[\u4e00-\u9fa5]*(獲賠|賠償|補償)+(,|,|.|。)$;

        2)^([[0-9]|A-z|\u4E00-\u9FFF])*(疏散|撤離 |體 檢 |控 制 |撲 滅 |恢 復 |治 療)+([[0-9]|A-z|\u4E00-\u9FFF])*(,|,|.|。)$

        2.2.2 模式匹配及信息提取

        通過上一節(jié)敘述所構(gòu)建的規(guī)則庫來匹配事故信息,并利用相關(guān)算法即可對相關(guān)事故信息進行抽取,具體做法如下:

        事件發(fā)生時間在事故新聞的描述位置上有著明顯的特征,作者對所收集的400篇預(yù)料中統(tǒng)計出了一些使用頻率非常高的詞匯,如爆發(fā),突發(fā),引發(fā),出現(xiàn),發(fā)生等等特征詞。事故的發(fā)生時間之后通常會出現(xiàn)上述詞匯。所以我們可以利用這個特征一旦檢測到這些特征詞語可以向前就近找出現(xiàn)的時間,所提取的時間就是事件的發(fā)生時間[6]。根據(jù)以上描述,發(fā)生時間提取算法步驟如圖2所示。

        圖2 時間算法流程圖

        利用詞性標注結(jié)合時間模式規(guī)則庫中的規(guī)則識別出來的時間實體經(jīng)過檢測關(guān)鍵字,選取與關(guān)鍵字位置最為接近的那個時間即可提取發(fā)生時間。

        作者對所收集的語料進行分析和整理,通過對事故發(fā)生地點詞語特點的總結(jié),從而引申出事件發(fā)生地點的算法,事故發(fā)生地點詞語的特點:1)首先同抽取發(fā)生時間一樣,根據(jù)漢語的表達特點作為事故的發(fā)生地點往往與發(fā)生,引發(fā),爆發(fā)等關(guān)鍵詞在距離上最為接近;2)經(jīng)過對語料的統(tǒng)計可以得出事件的發(fā)生地點往往也是描述性最長的地點詞語[7]。所以事件發(fā)生地抽取算法如下:

        1)通過地點詞性ns與地點模式規(guī)則庫匹配出來的地點集合S1;

        2)對S1進行篩選,選擇與事件關(guān)聯(lián)詞最為接近的地點,如存在且唯一則把該地點作為發(fā)生地點并輸出;不存在或不唯一轉(zhuǎn)3);

        3)選取描述性最長的地點詞語作為發(fā)生地點并輸出;

        事故發(fā)生原因,事故結(jié)果,事故善后的抽取在抽取方法上都有著統(tǒng)一性即都是依靠模式規(guī)則庫中的規(guī)則來抽取。利用文本預(yù)處理之后的語料進行規(guī)則匹配[8],與原因模式規(guī)則庫中的規(guī)則匹配成功,這條語句就是事故的發(fā)生原因。與結(jié)果模式規(guī)則庫中的規(guī)則匹配成功后,此語句就是事故造成的結(jié)果。抽取步驟如圖3所示。

        圖3 規(guī)則匹配及抽取信息流程圖

        依照我們發(fā)布的《重大危險源辨識》(GB18218-2000)[9]把化工類事故分為爆炸事故,火災(zāi)事故,中毒事故以及泄漏事故4大項。因為我們在文本預(yù)處理時就可以通過相關(guān)語料庫識別出所涉及的化學品。而化學物品是事故的發(fā)生源因此可以根據(jù)危險物品的特性來反推出所可能發(fā)生的事故類型[10]。例如:氫氣具有可燃的特性,根據(jù)其特性在文章沒有提及所發(fā)生事故類型的前提下可大致推斷事故的類型有可能是火災(zāi),所以事故類型抽取算法如下:

        1)遍歷文章的所有分句,檢測是否含有爆炸,火災(zāi),中毒等相關(guān)關(guān)鍵字,如果存在則直接提取關(guān)鍵字作為事件類型信息,如果不存在進行2);

        2)根據(jù)所提取的化學物品,提取化學品字典中所具有的特性來作為事件的類型。

        2.3 機器學習

        規(guī)則模式庫中規(guī)則的建立是抽取化工突發(fā)事件信息的最為重要的一個環(huán)節(jié),在2.1節(jié)所述規(guī)則模式庫的建立都是通過人工的方式手動建立規(guī)則,本節(jié)所要敘述的是依靠人為的反饋,自動地建立規(guī)則。

        關(guān)鍵詞是建立規(guī)則的基礎(chǔ),本文首先依靠最大熵依存句法分析算法模型[11]來計算得到句子中各個成分之間的依存關(guān)系,通過人為的反饋計算得出一個句子的核心關(guān)心(關(guān)鍵詞語),最大熵模型有如下公式:

        其中λi是最大熵模型的參數(shù),每個λi對應(yīng)于一個特征函數(shù)。Z是歸一化因子,確保整個模型是一個合法的概率分布。在依存句法分析中依存關(guān)系權(quán)重用λ3,…,λn表示;特征向量用 f1(c , y1),f2(c , y2),…,fn(c , yi)這些特征來表示,如果特征出現(xiàn)為1,否則為0。

        最大熵依存句法分析算法如下:

        1)通過對一個句子進行分詞標注;

        2)然后根據(jù)式(1)利用最大熵模型估計任意兩個單詞之間最可能的依存關(guān)系以及概率,將概率的值取對數(shù)取相反數(shù)作為邊的花費;

        3)接下來使用最小生成樹算法[12]計算出一棵全局最小的生成樹即可。

        本文通過計算選取一個句子的核心關(guān)系來自動構(gòu)建規(guī)則的模式。但是并不是每一個句子都能有核心關(guān)系,所以最大熵依存句法分析算法不能完全解決問題的需要,因此本文通過使用關(guān)鍵字生成算法TextRank[13]所生成的關(guān)鍵字來輔助構(gòu)建正則表達式的生成,公式表達如下:

        S(Vi)是結(jié)點Vi的重要性(分值)。d是阻尼系數(shù),一般設(shè)置為0.85。In(Vi)表示指向結(jié)點Vi的結(jié)點集合。Out(Vj)表示結(jié)點Vj所指向的節(jié)點集合。Wij表示由結(jié)點Vi指向Vj的邊的權(quán)重。

        關(guān)鍵詞抽取的任務(wù)就是從一段給定的文本中自動抽取出若干有意義的詞語或詞組。TextRank算法是利用局部詞匯之間關(guān)系(共現(xiàn)窗口)對后續(xù)關(guān)鍵詞進行排序,直接從文本本身抽取。其主要步驟如下:

        1)把給定的文本T按照完整句子進行分割,即 T=[S1,S2,…,Sm];

        2)對于每個句子Si∈T,進行分詞和詞性標注處理,并過濾掉停用詞,只保留指定詞性的單詞,如名詞、動詞、形容詞,即 Si∈[ti,1,ti,2,…,ti,n],其中是ti,j∈Si保留后的候選關(guān)鍵詞。

        3)構(gòu)建候選關(guān)鍵詞圖G=(V,E),其中V為節(jié)點集,由式(2)生成的候選關(guān)鍵詞組成,然后采用共現(xiàn)關(guān)系構(gòu)造任兩點之間的邊,兩個節(jié)點之間存在邊僅當它們對應(yīng)的詞匯在長度為K的窗口中共現(xiàn),K表示窗口大小,即最多共現(xiàn)K個單詞。

        4)根據(jù)上面式(2),迭代傳播各節(jié)點的權(quán)重,直至收斂。

        5)對節(jié)點權(quán)重進行倒序排序,從而得到最重要的T個單詞,作為候選關(guān)鍵詞。

        6)由5)得到最重要的T個單詞,在原始文本中進行標記,若形成相鄰詞組,則組合成多詞關(guān)鍵詞。例如,文本中有句子“清華北大都屬于名牌大學”,如果“清華”和“北大”均屬于候選關(guān)鍵詞,則組合成“清華北大”加入關(guān)鍵詞序列。

        當最大熵依存句法分析算法無法計算分析出核心關(guān)系時,基于TextRank算法即可分析出句子的關(guān)鍵詞語來代替謂賓關(guān)系所構(gòu)建的規(guī)則。經(jīng)過實驗得出此方法具有良好的效果。

        3 實驗結(jié)果

        本文的實驗預(yù)料選自互聯(lián)網(wǎng)中的關(guān)于化工突發(fā)事件的新聞報道,主要來源于安全管理網(wǎng),化學品事故信息網(wǎng),中國化工制造網(wǎng)等400篇報道。本文算法可以對文章所提及的發(fā)生時間,地點,原因,善后,結(jié)果,所涉及的化學品,事故類型進行抽取。系統(tǒng)評價時采用的精度和召回率定義如下:精度=抽取出的正確個數(shù)/抽取出的全部個數(shù),召回率=抽取出的正確個數(shù)/應(yīng)該抽取出的正確個數(shù)。具體實驗結(jié)果如表1~表4所示。從實驗結(jié)果中可以看出,所抽取信息有著較高的準確度。

        表1 爆炸類型事故測試結(jié)果

        表2 火災(zāi)類型事故測試結(jié)果

        表3 泄漏類型事故測試結(jié)果

        圖4為化工突發(fā)事件抽取系統(tǒng)主頁面,本系統(tǒng)的上半部分有上傳,瀏覽,展示的功能,通過Show按鈕展示化工突發(fā)報道,下半部分通過提取內(nèi)容按鈕進行信息抽取從而形成結(jié)構(gòu)化的數(shù)據(jù)。

        表4 中毒類型事故測試結(jié)果

        圖4 系統(tǒng)主頁面

        4 結(jié)語

        本文針對化工突發(fā)事件提出了基于多算法融合的方法即規(guī)則模式及機器學習相結(jié)合的方法來進行信息抽取,首先對事件的不同信息實體作了較為詳盡的描述抽取方法,然后利用關(guān)鍵字提取算法以及依存句法分析算法相融合的方法對用戶所反饋的信息實現(xiàn)了規(guī)則模式的自動生成。實驗證明本文的算法對化工突發(fā)事件的信息抽取有著較高的準確率,所抽取的結(jié)果較為可靠。

        [1]楊爾弘.突發(fā)事件信息提取研究[D].北京:北京語言大學,2005:10-12.

        YANG Erhong.Study on the extraction of emergency infor?mation[D].Beijing:Beijing Language and Culture Uni?versity,2005:10-12.

        [2]何清,李寧,羅文娟,等.大數(shù)據(jù)下的機器學習算法綜述[J].模式識別與人工智能,2014,27(4):327-336.

        HE Qing,LI Ning,LUO Wenjuan,et al.A survey of ma?chine learning algorithms for large data[J].pattern rec?ognition and artificial intelligence,2014,27(4):327-336.

        [3]GB12268-90,危險貨物品名表[S].GB12268-90,List of dangerous goods[S].

        [4]張亮,陳家駿.基于大規(guī)模語料庫的句法模式匹配研究[J].中文信息學報,2007,21(5):31-35.

        ZHANG Liang,CHEN Jiajun.Research on syntactic pat?tern matching based on large scale corpus[J].Journal of Chinese Information Processing,2007,21(5):31-35.

        [5]蔣德良.基于規(guī)則匹配的突發(fā)事件結(jié)果信息抽取研究[J].計算機工程與設(shè)計,2010,31(14):3294-3297.

        JIANG Deliang.Research on rule matching based informa?tion extraction for unexpected events[J].Computer engi?neering and design,2010,31(14):3294-3297.

        [6]王昀,苑春法.基于轉(zhuǎn)換的時間—事件關(guān)系映射[J].中文信息學報,2004,18(4):23-30.

        WANG Yun,YUAN Chunfa.Time event relationship map?ping based on transformation[J].Journal of Chinese Infor?mation Processing,2004,18(4):23-30.

        [7]李文捷,周明.基于語料庫的中文最長名詞短語的自動提取[J].計算語言學進展與應(yīng)用,1995:119-124.

        LI Wenjie,ZHOU Ming.Corpus based automatic extrac?tion of Chinese longest noun phrases[J].Advances and ap?plications in Computational Linguistics,1995:119-124.

        [8]Kiyoshi Sudo 2004.Unsupervised Diseovery of Extraction Patterns for Information Extraetion[D].Department of Computer Science.New York University,September,2004.

        [9]GB18218-2000,重大危險源辨識[S]GB18218-2000,Identification of major hazard installa?tions[S].

        [10]孫宏林,俞士墳.淺層句法分析方法概述[J].當代語育學,2000,2(2):74-83.

        SUN Honglin,YU Shiwen.Overview of shallow parsing methods[J].Contemporary language education,2000,2(2):74-83.

        [11]辛宵,范士喜,王軒,等.基于最大熵的依存句法分析[J].中文信息學報,2009,23(2):18-22.

        XIN Xiao,F(xiàn)AN Shixi,WANG Xuan,et al.Dependency parsing based on maximum entropy[J].Journal of Chi?nese Information Processing,2009,23(2):18-22.

        [12]李洪波,陳軍.Prim最小生成樹算法的動態(tài)優(yōu)化[J].計算機工程與應(yīng)用,2007,43(12):69-73.

        LI Hongbo,CHEN Jun.Dynamic optimization of Prim minimum spanning tree algorithm[J].Computer engi?neering and Applications,2007,43(12):69-73.

        [13]夏天.詞語位置加權(quán)TextRank的關(guān)鍵詞抽取研究[J].現(xiàn)代圖書情報技術(shù),2013(9):30-34.

        XIA Tian.Keyword extraction of word position weighted TextRank[J].New Technology of Library and Informa?tion Service,2013(9):30-34.

        猜你喜歡
        突發(fā)事件化工詞語
        《化工管理》征稿簡則
        化工管理(2022年30期)2022-11-15 05:05:10
        《化工管理》征稿簡則
        化工管理(2022年15期)2022-11-15 04:12:20
        容易混淆的詞語
        一起化工安全事故的警示
        找詞語
        詞語欣賞
        突發(fā)事件的輿論引導
        清朝三起突發(fā)事件的處置
        文史春秋(2016年8期)2016-02-28 17:41:32
        一枚詞語一門靜
        應(yīng)用化工第43卷(1~12期)目次
        日韩一线无码av毛片免费| 偷拍夫妻视频一区二区| 亚洲精品无码永久在线观看| 亚洲男人的天堂在线播放| 久久久久亚洲AV成人网毛片| 免费在线av一区二区| 成年女人窝窝视频| 亚洲中文字幕一区av| 999国产精品999久久久久久| 无码精品国产va在线观看| 中文无码日韩欧免费视频| 一本色道久久综合亚洲精品不 | 女人无遮挡裸交性做爰| 国产人妻久久精品二区三区特黄| 91视频爱爱| 亚洲av日韩精品一区二区| 国产成人无码a区在线观看导航| 亚洲欧美另类激情综合区| 日韩美无码一区二区三区| 国产精品又湿又黄九九九久久嫩草| 亚洲国产一区二区三区在线观看| 国产在线精品一区在线观看| 国产成人AV无码精品无毒| av网站一区二区三区| 成人欧美一区二区三区黑人| 乱人伦视频中文字幕| 国产精品无码不卡在线播放| 91成人国产九色在线观看| 丰满少妇呻吟高潮经历| 98bb国产精品视频| av无码一区二区三| 一区视频免费观看播放| 欧美亚洲国产一区二区三区| 亚洲区在线| 中文字幕精品乱码一区| 精品国产品香蕉在线| 亚洲学生妹高清av| 亚洲午夜无码久久久久软件| 免费看黄色亚洲一区久久| 影音先锋男人站| 国产在线高清视频|