霍娜
【關(guān)鍵詞】應(yīng)急決策案例 本體 信息抽取
在應(yīng)急領(lǐng)域中,決策者依據(jù)應(yīng)急案例的內(nèi)容以及基本特征,從知識(shí)元的層面將應(yīng)急案例的結(jié)構(gòu)進(jìn)行規(guī)劃,進(jìn)而提出一種基于基于應(yīng)急案例本體的信息抽取的方法。這種方法可以作為一些應(yīng)急案例本體信息抽取的模型,使其他應(yīng)急案例結(jié)合自身的規(guī)律,實(shí)現(xiàn)對(duì)該應(yīng)急案例半自動(dòng)化的信息抽取工作,將信息抽取的結(jié)果存儲(chǔ)在數(shù)據(jù)庫(kù)中,可以為以后的應(yīng)急案例情景模擬仿真以及對(duì)應(yīng)急案例的研究提供客觀的,科學(xué)的數(shù)據(jù)。大量實(shí)驗(yàn)表明,該方法具有可行性和有效性。
1 信息抽取以及抽取過(guò)程的分析
所謂的信息抽取,是一項(xiàng)從一段文本中抽取出特定的一些信息內(nèi)容,與此同時(shí)對(duì)其進(jìn)行信息結(jié)構(gòu)化處理,最后將處理后的信息整合在一個(gè)數(shù)據(jù)庫(kù)中以便使用者查詢應(yīng)用的工作。信息抽取被廣泛的定義為是一門交叉性的學(xué)科,它涉及多個(gè)知識(shí)領(lǐng)域,例如人工智能,統(tǒng)計(jì)學(xué),計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)以及信息學(xué)等等。
信息抽取的實(shí)際過(guò)程較為繁瑣復(fù)雜,Web頁(yè)面的信息抽取研究大體上是集中在Wrapper的生產(chǎn)技術(shù)研究的基礎(chǔ)之上的。Wrapper又名為規(guī)則包裝器,它半自動(dòng)的完成Web頁(yè)面信息抽取的程序,Wrapper的作用是對(duì)Web頁(yè)面的結(jié)構(gòu)進(jìn)行分析,另外分析頁(yè)面之上信息資源進(jìn)行描述,最后Wrapper形成對(duì)Web頁(yè)面格式的信息抽取原則,這樣就實(shí)現(xiàn)了利用Web頁(yè)面上相關(guān)的原則對(duì)應(yīng)急案例事件中對(duì)相關(guān)信息的抽取工作了。
2 信息抽取系統(tǒng)實(shí)現(xiàn)的流程
這里我們以煤礦事故案例中的煤與瓦斯突發(fā)案例為例,對(duì)其信息的抽取系統(tǒng)流程進(jìn)行淺析,說(shuō)明怎樣構(gòu)建煤與瓦斯突發(fā)事例信息抽取的模板工作。
首先,進(jìn)行應(yīng)急案例信息抽取的工作人員應(yīng)該積極參與專家訪談活動(dòng),對(duì)與煤礦事故有關(guān)的案例進(jìn)行系統(tǒng)的分析工作,解讀與之有關(guān)的文獻(xiàn)信息。進(jìn)行信息抽取的人員對(duì)煤礦事故中的知識(shí)元進(jìn)行選取,歸納以及整合工作,構(gòu)建完整的知識(shí)元數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)包含的項(xiàng)目?jī)?nèi)容很多,例如承災(zāi)體知識(shí)庫(kù)={礦井、礦工、煤層、瓦斯傳感器、通風(fēng)機(jī)}等;事件知識(shí)元數(shù)據(jù)庫(kù)={煤與瓦斯突出,瓦斯爆炸,透水等}。接下來(lái)信息抽取的人員從承災(zāi)體數(shù)據(jù)庫(kù)中選擇礦井、機(jī)港、瓦斯傳感器以及礦工4個(gè)知識(shí)元,在事件知識(shí)元的數(shù)據(jù)庫(kù)中選取煤和瓦斯,最后依據(jù)兩組知識(shí)元構(gòu)建案例信息抽取模板。這里的案例信息抽取模板由兩部分版塊組成,即前景模板和后景模板。后景模板和前景模板需要進(jìn)行的共同內(nèi)容是對(duì)礦井,礦工以及瓦斯傳感器這些知識(shí)元的屬性類型進(jìn)行準(zhǔn)確的定位;明確各個(gè)知識(shí)元的取值類型以及他們各自的取值長(zhǎng)度和取值范圍。
3 信息抽取規(guī)則的構(gòu)建
當(dāng)信息抽取系統(tǒng)的流程實(shí)現(xiàn)了,那么就必須保證數(shù)據(jù)庫(kù)中存儲(chǔ)的信息資源與該應(yīng)急案例的文本是相互匹配協(xié)調(diào)的,那么就應(yīng)該建立與之有關(guān)的抽取規(guī)則,使抽取獲得更高的準(zhǔn)確率。抽取的規(guī)則它本身作為一種確定的信息抽取方式,雖然它涵蓋的自然語(yǔ)言較為片面,但是在眾多的方法中,抽取規(guī)則的正確引領(lǐng)下使信息抽取獲得更高的準(zhǔn)確率。
本文以下為了達(dá)到對(duì)信息抽取規(guī)則明確表述的效果,同時(shí)為了使實(shí)施的程序更為的簡(jiǎn)潔,在此基礎(chǔ)上提高信息抽取工作的質(zhì)量,作者將信息抽取的規(guī)則分為前置抽取規(guī)則和后置抽取規(guī)則兩種類型。前置信息抽取規(guī)則是指待抽取的屬性信息的匹配方式在正則表達(dá)式的前端開展進(jìn)行的,例如在某小區(qū)的一次火災(zāi)事故中,對(duì)于燒傷人數(shù)的屬性信息抽取的規(guī)則為“\\d{1,4}/m人/n燒傷”,這里等待抽取信息的匹配式為“\\d{1,4}”,它應(yīng)該在抽取規(guī)則的前端。萬(wàn)變不離其宗,后置信息抽取與其道理是相同的。這樣做的優(yōu)勢(shì)在于在進(jìn)行抽取程序的有關(guān)編寫工作時(shí)候,就省去了針對(duì)每一條規(guī)則單獨(dú)對(duì)其抽取代碼進(jìn)行編寫的步驟了,只有對(duì)前置和后置這兩種抽取類型通用的抽取代碼進(jìn)行相應(yīng)的編寫就可以了,最終使制定抽取的不隨著模板的變化而進(jìn)行改動(dòng),各個(gè)數(shù)據(jù)以及數(shù)值穩(wěn)定的存在數(shù)據(jù)庫(kù)中。
信息抽取規(guī)則的構(gòu)建過(guò)程分為以下幾個(gè)步驟完成:
(1)進(jìn)行信息抽取工作人員依據(jù)知識(shí)元的屬性以及自身的特點(diǎn),總結(jié)具有涵蓋待抽取屬性信息的句子,形成句子集。這里我們依然以煤礦事故案例中的煤與瓦斯突發(fā)案例為例,那么形成的句子集就包括“瓦斯傳感器,空氣縮壓機(jī)”等等。
(2)對(duì)句子集進(jìn)行逐個(gè)的理解,分析其屬性特征,形成正確的表達(dá)式,進(jìn)行系統(tǒng)的編寫流程。
(3)在編寫的進(jìn)程中,聯(lián)系約束模板中屬性的外界條件,使用正則表達(dá)式對(duì)句子集的程序進(jìn)行編寫環(huán)節(jié)。
(4)將相似結(jié)構(gòu)的正則表達(dá)式進(jìn)行相關(guān)的合并工作,例如對(duì)各個(gè)知識(shí)元屬性狀態(tài)的描述進(jìn)行統(tǒng)一聯(lián)合編寫,與此同時(shí)進(jìn)行的工作是將抽取規(guī)則的類型真正的確定下來(lái),使抽取規(guī)則有條理的,科學(xué)的呈現(xiàn)在數(shù)據(jù)庫(kù)中,展示在人們面前,為人所用。
(5)信息抽取的工作人員在不斷的實(shí)踐探索中,對(duì)建立的抽取規(guī)則不斷的更新改革,進(jìn)而使正確的屬性信息抽取規(guī)則日益完善。當(dāng)然,建立者需要將信息抽取的規(guī)則輸入進(jìn)數(shù)據(jù)庫(kù)中,他們可以成建規(guī)則庫(kù),這樣就實(shí)現(xiàn)了抽取規(guī)則與知識(shí)元屬性之間形成多對(duì)一關(guān)系的目的。
應(yīng)急事件案例信息抽取的模板是經(jīng)過(guò)組織以后,對(duì)待抽取對(duì)象的結(jié)構(gòu)化知識(shí)元的表示方法,主要作用是對(duì)結(jié)構(gòu)性知識(shí)元進(jìn)行相應(yīng)的刻畫。應(yīng)急事件案例的信息抽取模板與傳統(tǒng)的信息抽取模板相比較,它保證了待抽取信息的精確性能,更可觀的是,它使信息抽取的結(jié)果更真實(shí),不怕考驗(yàn)。
4 結(jié)束語(yǔ)
我們知道,災(zāi)害的帶來(lái)總會(huì)給人造成各種損失,阻礙生產(chǎn)生活的順利進(jìn)程。所以對(duì)應(yīng)急事件開展及時(shí)有效的處理工作,其意義是重大的,信息抽取工作的開展也是迫在眉睫,因而作為不同領(lǐng)域的決策者應(yīng)該保持清晰的頭腦,對(duì)該領(lǐng)域相關(guān)的知識(shí)元進(jìn)行信息抽取的工作,總結(jié)知識(shí)元的屬性以及內(nèi)涵,進(jìn)行規(guī)范的編寫程序,存儲(chǔ)以便利用。這樣在應(yīng)急事件之下,人們就可以準(zhǔn)確的搜集解決問(wèn)題的方案,及時(shí)清除應(yīng)急事件中的障礙。
參考文獻(xiàn)
[1]蔣德良.基于規(guī)則匹配的突發(fā)事件結(jié)果信息抽取研究[J].計(jì)算機(jī)工程與設(shè),2010.
[2]王文俊,楊鵬,董存祥.應(yīng)急案例本體模型的研究及應(yīng)用.計(jì)算機(jī)應(yīng)用,2009.