基于語義模板的地震應(yīng)急態(tài)勢(shì)圖自動(dòng)標(biāo)繪技術(shù)
破壞性地震發(fā)生后,大量的地震應(yīng)急信息匯集并傳播,在傳統(tǒng)的地震應(yīng)急處置模式中,地震應(yīng)急信息的傳播大多為信息簡(jiǎn)報(bào)等文本形式。這類信息大多只有文字描述,無法以直觀、形象的圖形化方式表達(dá)災(zāi)情震情信息。隨著GIS技術(shù)在地震應(yīng)急中應(yīng)用的不斷深入,近些年,基于GIS的地震應(yīng)急態(tài)勢(shì)標(biāo)繪技術(shù)(也稱為電子沙盤)得到了較快發(fā)展,能夠采用圖形符號(hào)在地圖上標(biāo)繪各類地震應(yīng)急信息,作為文本信息簡(jiǎn)報(bào)的補(bǔ)充,有利于閱讀者快速理解材料,獲知各類信息的空間分布及關(guān)聯(lián)性,從而充分了解地震應(yīng)急態(tài)勢(shì),做出正確的應(yīng)急指揮命令。徐敬海等(2011)結(jié)合地震應(yīng)急的特點(diǎn),論述了標(biāo)繪元素的符號(hào)化表達(dá)和顯示;劉浩等(2013)論述了標(biāo)繪框架設(shè)計(jì)和應(yīng)急救援語義的標(biāo)繪表達(dá);王悅等(2010)從軟件應(yīng)用的角度,論述了地震應(yīng)急態(tài)勢(shì)標(biāo)繪系統(tǒng)的功能設(shè)計(jì)與實(shí)現(xiàn)過程。然而,目前的地震應(yīng)急態(tài)勢(shì)標(biāo)繪技術(shù)與系統(tǒng)一般以人工標(biāo)繪為主,通常需人工閱讀、理解文字材料,還需考慮文本信息與空間信息、應(yīng)急態(tài)勢(shì)信息與標(biāo)繪符號(hào)的對(duì)應(yīng)關(guān)系等,存在實(shí)時(shí)性差,耗費(fèi)較多人力等問題?;谧匀徽Z言處理的自動(dòng)標(biāo)繪技術(shù)是態(tài)勢(shì)圖標(biāo)繪的一個(gè)發(fā)展方向,目前此類技術(shù)較多研究和應(yīng)用于軍事領(lǐng)域,(胡斌等,2005;楊健等,2006;姜文志等,2007)從自動(dòng)標(biāo)繪關(guān)鍵的信息抽取、文本信息空間化等方面做了介紹。在地震應(yīng)急領(lǐng)域,帥向華等(2013)對(duì)自動(dòng)標(biāo)繪關(guān)鍵的地震應(yīng)急文本信息結(jié)構(gòu)化、空間化技術(shù)進(jìn)行了探討。本文結(jié)合地震應(yīng)急文本信息的特點(diǎn),基于自然語言處理概念,研究語義模板填充技術(shù),并以此為手段,探討地震應(yīng)急救援災(zāi)情信息的自動(dòng)標(biāo)繪方法,為地震應(yīng)急標(biāo)繪時(shí)效性的提高提供有力支持。
基于語義模板的地震應(yīng)急態(tài)勢(shì)圖自動(dòng)標(biāo)繪技術(shù)利用中文信息抽取的概念,完成地震應(yīng)急文本信息的結(jié)構(gòu)化和空間化,并與標(biāo)繪模型匹配,實(shí)現(xiàn)地震應(yīng)急文本信息在地圖上的自動(dòng)標(biāo)繪。圖1給出了地震應(yīng)急態(tài)勢(shì)圖自動(dòng)標(biāo)繪模型。
(1)以網(wǎng)絡(luò),公文文本,短信獲取的地震應(yīng)急文本信息為資料,對(duì)其分析,預(yù)處理形成地震應(yīng)急專有詞典、地名詞典和指代詞典;其中地震應(yīng)急專有詞典用于后續(xù)的文本結(jié)構(gòu)化處理,地名詞典和指代詞典用于文本信息的空間化處理。
(2)結(jié)合預(yù)處理的結(jié)果,對(duì)地震應(yīng)急原始文本進(jìn)行結(jié)構(gòu)化處理(包括中文分詞,詞性標(biāo)注,語義標(biāo)注、語義模板填充等)。此階段,中文分詞將一串連續(xù)漢字序列按照一定的規(guī)范重新組合成詞語序列。詞性標(biāo)注可根據(jù)句子的上下文信息給句中的每個(gè)詞語確定一個(gè)最為合適的詞性標(biāo)記,以便于語義標(biāo)注的實(shí)現(xiàn)。語義標(biāo)注可根據(jù)句子的句法結(jié)構(gòu)和句中每個(gè)實(shí)詞的詞義推導(dǎo)出能夠反映這個(gè)句子意義的某種形式的結(jié)構(gòu)化表示(程顯毅等,2010)。而語義模板定義了地震應(yīng)急事件描述及文本匹配規(guī)則,可與原始地震應(yīng)急文本信息匹配、抽取,形成結(jié)構(gòu)化文本。
(3)對(duì)結(jié)構(gòu)化信息中所包含的地名、中文實(shí)體名進(jìn)行空間化處理。
空間化處理階段,把結(jié)構(gòu)化處理后文本信息中包含的中文地名、中文實(shí)體名做空間定位處理,以建立文本信息與空間位置的關(guān)聯(lián)關(guān)系。盡可能多的把包含空間信息的本文與空間位置關(guān)聯(lián)決定了地圖標(biāo)繪信息的豐富度與準(zhǔn)確度。
(4)最終的信息表達(dá)階段,結(jié)構(gòu)化文本映射為標(biāo)繪符號(hào),并與標(biāo)繪模板進(jìn)行匹配,調(diào)用標(biāo)繪組件的繪圖接口,實(shí)現(xiàn)地震應(yīng)急文本的自動(dòng)標(biāo)繪。根據(jù)地震應(yīng)急需求,綜合運(yùn)用點(diǎn)、線、面等形式來表達(dá)災(zāi)情要素、救災(zāi)行動(dòng)、指揮調(diào)度等內(nèi)容。目前,自動(dòng)態(tài)勢(shì)標(biāo)繪技術(shù)中標(biāo)繪多集中于靜態(tài)化的表達(dá)。因此,還需對(duì)時(shí)態(tài)發(fā)展的地震應(yīng)急信息賦予動(dòng)態(tài)化顯示。
圖1 基于語義模板的地震應(yīng)急態(tài)勢(shì)圖自動(dòng)標(biāo)繪模型
文本結(jié)構(gòu)化技術(shù)與計(jì)算機(jī)實(shí)現(xiàn)
文本結(jié)構(gòu)化技術(shù)本質(zhì)上屬于中文信息抽取技術(shù)。中文信息抽取方法按照抽取原理分為四類。(1)基于自然語言處理方式的信息抽取。此類抽取方法利用子句結(jié)構(gòu)建立語法和語義的抽取規(guī)則實(shí)現(xiàn)信息抽取。(2)基于規(guī)則的信息抽取。依賴于人們手工建立抽取模式,而這些規(guī)則較難保證具有整體的系統(tǒng)性和邏輯性。(3)基于統(tǒng)計(jì)模型的信息抽取。目前基于機(jī)器學(xué)習(xí)的方法是主要的研究熱點(diǎn),但面臨無法快速獲取大規(guī)模標(biāo)注語料的困難。(4)基于認(rèn)知模型的信息抽?。ǔ田@毅等,2010)。
基于地震應(yīng)急領(lǐng)域詞匯量相對(duì)較少,文本句法結(jié)構(gòu)較為固定的特點(diǎn),本文采取第一與第二種方法相結(jié)合的方式實(shí)現(xiàn)原始文本的結(jié)構(gòu)化。即采用自然語言處理方式對(duì)原始文本進(jìn)行中文分詞、語義標(biāo)注、中文命名識(shí)別等,再基于預(yù)定義的語義模板及匹配規(guī)則進(jìn)行信息抽取。
使用LTP-Cloud語言云平臺(tái)對(duì)原始文本進(jìn)行中文分詞、語義標(biāo)注等處理。
目前的基于自然語言處理概念的文本處理軟件較多。本文利用實(shí)際文本進(jìn)行驗(yàn)證對(duì)比,選用LTP-Cloud語言云平臺(tái)作為中文分詞和詞性標(biāo)注工具,LTP-Cloud語言云平臺(tái)提供了包括分詞、詞性標(biāo)注、依存句法分析、命名實(shí)體識(shí)別、語義標(biāo)注在內(nèi)的豐富高效的自然語言處理服務(wù)。并支持添加自定義詞典,增強(qiáng)語義分析的可靠性和準(zhǔn)確性。
如圖2所示,以文本“截至24日12點(diǎn)30分,甘肅岷縣地震共造成45人遇難?!睘槔?,展示LTP-Cloud處理后的詞性標(biāo)注與語句結(jié)構(gòu)。其中TMP代表時(shí)間詞,ADV代表附加詞, A0 通常表示動(dòng)作的施事,A1通常表示動(dòng)作的影響等。
預(yù)定義語義模板及匹配規(guī)則
按照地震應(yīng)急事件特點(diǎn)及文本描述習(xí)慣,把地震應(yīng)急事件分成震情信息、災(zāi)情信息、應(yīng)急處置信息四大類二十幾小類,并按照事件分類構(gòu)建語義模板和匹配規(guī)則。語義模板定義了地震應(yīng)急信息的事件類型、主體、客體、主要行為,發(fā)生的時(shí)間、地點(diǎn)和其他特定屬性等。表1以“人員死亡”事件為例,展示了語義模板的定義及匹配規(guī)則的編寫。
表1 “人員死亡”事件語義模板及匹配規(guī)則
其中tmp表示時(shí)間詞,loc表示地名詞,mbar表示數(shù)量詞。在規(guī)則中每一對(duì)大括號(hào)“{……}”表示一個(gè)節(jié)點(diǎn), 大括號(hào)前面的數(shù)字表示待抽取信息的編號(hào), 帶有編號(hào)的為待提取內(nèi)容,與語義模板中數(shù)字相對(duì)應(yīng)。例如編號(hào)為2限制輸出為地名詞,對(duì)應(yīng)語義模板中的地點(diǎn)屬性。節(jié)點(diǎn)中的“|”表示或的關(guān)系, 即節(jié)點(diǎn)中的詞有一個(gè)匹配成功則此節(jié)點(diǎn)匹配成功。如果某一段文本匹配了整個(gè)規(guī)則,并滿足輸出節(jié)點(diǎn)的限制,則認(rèn)為匹配成功, 輸出該事件;如果該段文本不能完全匹配規(guī)則, 則匹配失?。宏系?,2006)。文本信息結(jié)構(gòu)化的準(zhǔn)確率和識(shí)別率取決于匹配規(guī)則編寫的全面性。因此同一地震應(yīng)急事件的匹配規(guī)則需根據(jù)地震應(yīng)急行業(yè)用語習(xí)慣,編寫多條,以最大程度與文本信息匹配。
模板匹配與信息提取
上述帶有結(jié)構(gòu)信息的語句經(jīng)合并與過濾后,簡(jiǎn)化形成如下結(jié)構(gòu):
{TMP},{LOC}{地震/n}{造成}{45/m人/n}{遇難/v},關(guān)鍵字“遇難”與事件類型“人員死亡”匹配,檢索“人員死亡”事件的預(yù)定義語義模板匹配規(guī)則,經(jīng)正則表達(dá)式等文本匹配技術(shù)進(jìn)行對(duì)比,與上文語義模板中定義的匹配規(guī)則1完全匹配,并按照信息提取標(biāo)示及對(duì)應(yīng)信息,形成結(jié)構(gòu)化信息。模板匹配后的結(jié)構(gòu)化信息如圖2下半部分所示。
文本信息的空間化
包含空間位置的文本信息的分類
地震應(yīng)急原始文本中直接或間接包含空間位置信息的詞主要有4類:
圖2 文本信息結(jié)構(gòu)化流程圖
圖3 文本信息的空間化流程
第1類:具體行政名稱,行政區(qū)域名,如“蘆山縣太平鎮(zhèn)”。
第2類:自然地理名稱和人文地理名稱等,如山、河、湖、海島等自然地理名稱,也包含名勝古跡、紀(jì)念地、水庫(kù)、橋梁、電站等名稱。
第3類:間接包含地理位置的中文機(jī)構(gòu)名。如位于蘆山縣隆興鄉(xiāng)的“蘆山縣龍門中心衛(wèi)生醫(yī)院”。如果按照第一類詞來處理,只能定位到蘆山縣,而不能定位到蘆山縣隆興鄉(xiāng)。
第4類:包含地理信息的特殊指代名詞。如“震中”,“極災(zāi)區(qū)”等,這類詞語根據(jù)地震的不同,代表的地理位置不同。
目前地震領(lǐng)域空間化技術(shù)或軟件系統(tǒng)一般還停留在第1類文本信息空間化,分析已有地震應(yīng)急文本資料可知,空間信息除包含在第1類中,還可包含在第2、3、4類文本信息中。
文本信息空間化步驟
文本信息空間化包括識(shí)別包含空間信息的文本和文本向地理坐標(biāo)轉(zhuǎn)換兩個(gè)步驟。
空間文本信息識(shí)別:包含空間信息的文本識(shí)別由前述LTP-Cloud語言云平臺(tái)處理完成,識(shí)別并標(biāo)示出了原始文本中的地名及中文機(jī)構(gòu)名。
文本信息地理轉(zhuǎn)換:文本信息向地理坐標(biāo)的轉(zhuǎn)換屬于地理編碼的范疇,地理編碼是指將中文地址或地名描述轉(zhuǎn)換為地球表面上相應(yīng)的位置。一般分為正向地理編碼和反向地理編碼兩種方式,分別表示中文地址或地名描述與空間地理坐標(biāo)之間的雙向轉(zhuǎn)換過程(楊麗,2013)。本文所提及的文本信息空間轉(zhuǎn)換屬于正向地理編碼,即通過輸入一個(gè)中文地名地址信息來獲得對(duì)應(yīng)的地理坐標(biāo)。
地理編碼的大致流程為:創(chuàng)建標(biāo)準(zhǔn)地址數(shù)據(jù)庫(kù),對(duì)標(biāo)準(zhǔn)地址數(shù)據(jù)庫(kù)中的標(biāo)準(zhǔn)地址進(jìn)行解析和中文分詞,創(chuàng)建地址索引;然后將待匹配的地址數(shù)據(jù)在地址索引中進(jìn)行地址匹配,從而完成地址的查詢與檢索。
本文利用地理編碼、位置檢索等互聯(lián)網(wǎng)公眾服務(wù)等技術(shù),實(shí)現(xiàn)上文提及的前三類包含空間位置關(guān)系詞的空間定位,處理流程如圖3所示。
利用地理編碼或互聯(lián)網(wǎng)地圖Place檢索服務(wù)解析中文地名。解析后的中文地名坐標(biāo)可能存在兩種情況:1 包含多個(gè)重名地名,根據(jù)地震震級(jí)與含行政區(qū)界的地理底圖確定的有效范圍,按距離遠(yuǎn)近進(jìn)行重名地名的篩選。2中文地名無法正常檢索到經(jīng)緯度坐標(biāo)。則以上一級(jí)地名進(jìn)行重新檢索。例如“蘆山縣太平鎮(zhèn)衛(wèi)生院”未檢索到經(jīng)緯度坐標(biāo),則返回地理編碼和Place檢索服務(wù)以“蘆山縣太平鎮(zhèn)”重新檢索。最終形成以經(jīng)緯度形式表示的空間位置信息。
圖4 地震應(yīng)急文本自動(dòng)標(biāo)繪效果
結(jié)構(gòu)化信息的地圖表達(dá)
應(yīng)急文本信息的地圖表達(dá)實(shí)質(zhì)是自然語言到地圖圖形的表示。地圖圖形是地圖的語言,它既能表示態(tài)勢(shì)標(biāo)繪符號(hào)的形狀、位置、結(jié)構(gòu)和大小信息,也表示了實(shí)體的類型、等級(jí)以及其他數(shù)量和質(zhì)量特征(蘇科華等,2009)。本文面向地震應(yīng)急分析與展示的實(shí)際需求,綜合運(yùn)用各類標(biāo)繪單元來表達(dá)地震災(zāi)區(qū)范圍內(nèi)各類災(zāi)情、震情、應(yīng)急處置信息等內(nèi)容。關(guān)鍵的步驟有:
(1)建立應(yīng)急信息事件到圖形的映射,目的是建立應(yīng)急事件與圖形的對(duì)應(yīng)關(guān)系,其中應(yīng)急事件與圖形的對(duì)應(yīng)關(guān)系一般為一對(duì)一的關(guān)系,但是事件模板的其他屬性決定了圖形的一些視覺參量(如大小、色相、方位、紋理等) 比如,地震造成人員死亡的事件模板中,包含死亡人數(shù)的屬性,根據(jù)人員死亡人數(shù)的由少到多,地圖圖形以及備注文本的顏色依次用淡紅、紅、暗紅表示;
(2)空間語義的表達(dá)。事件模板中的地點(diǎn)屬性決定了圖形在地圖上的顯示位置;
(3)動(dòng)態(tài)標(biāo)繪。除了用靜態(tài)圖形標(biāo)示應(yīng)急事件和信息外,還可用動(dòng)態(tài)標(biāo)繪來表達(dá)應(yīng)急事件的過程性信息。例如圖形的移動(dòng),可用來表達(dá)救援隊(duì)行動(dòng)路線。圖形的縮放或閃爍,可用來表示震后交通管制區(qū)域范圍。圖形的變形,可用來示意表示堰塞湖形成后的河水蔓延等。圖4為文本“魯?shù)榭h龍門山鎮(zhèn)死亡45人”的自動(dòng)標(biāo)繪效果,經(jīng)人工簡(jiǎn)單調(diào)整后,可達(dá)到實(shí)際應(yīng)用效果。
基于語義模板的地震應(yīng)急態(tài)勢(shì)圖自動(dòng)標(biāo)繪實(shí)現(xiàn)了傳統(tǒng)的手工標(biāo)繪作業(yè)向自動(dòng)或半自動(dòng)作業(yè)的轉(zhuǎn)換,有助于提高標(biāo)繪效率。本文提出的自動(dòng)標(biāo)繪技術(shù)方案已進(jìn)行了初步驗(yàn)證,但還需繼續(xù)完善語義模板和匹配規(guī)則,以提高文本信息的識(shí)別率與轉(zhuǎn)換率。本文中提到的地震應(yīng)急文本信息結(jié)構(gòu)化和空間化技術(shù)也可用于地震應(yīng)急的其他領(lǐng)域,如利用網(wǎng)絡(luò)媒體快速獲取災(zāi)情時(shí),可從互聯(lián)網(wǎng)抓取內(nèi)容中識(shí)別并提取災(zāi)情、震情相關(guān)的文本信息,并自動(dòng)按照預(yù)定義的語義模板進(jìn)行格式化和空間關(guān)聯(lián)。
10.3969/j.issn.1001- 8972.2016.18.031