王 琳 姜立新 楊天青 張維佳
1)中國地震局地震預(yù)測研究所,北京 100036
2)中國地震臺網(wǎng)中心,北京 100045
管理者經(jīng)常面臨著與決策相關(guān)信息缺失和不相關(guān)信息泛濫的問題,往往會對管理者的決策造成負(fù)面影響(Detrick,2002)。此情況在地震災(zāi)害應(yīng)對過程中尤為突出,信息缺失或冗余往往造成抗震救災(zāi)指揮決策的滯后,甚至導(dǎo)致救援力量和資源投放重點(diǎn)出現(xiàn)偏差。
近年來,中國地震局在應(yīng)急救援領(lǐng)域先后開展了“九五首都圈防震減災(zāi)示范項(xiàng)目”“十五中國數(shù)字地震觀測網(wǎng)絡(luò)項(xiàng)目”和“國家地震社會服務(wù)工程”。應(yīng)急觸發(fā)、災(zāi)情研判、快速響應(yīng)及輔助決策等應(yīng)急科技產(chǎn)出的日益豐富為國家及各省抗震救災(zāi)指揮部實(shí)施地震應(yīng)急救援提供有力的科學(xué)依據(jù)和技術(shù)支持。我國雖建成了較完整的應(yīng)急指揮體系及相應(yīng)的指揮技術(shù)系統(tǒng),但在應(yīng)急信息管理方面仍存在一些問題,具體表現(xiàn)為:①技術(shù)產(chǎn)出較豐富,直接有效利用率較低;②內(nèi)容重復(fù),存放分散;③尚未建立有效的災(zāi)情管理技術(shù)。
為此國內(nèi)不少專家學(xué)者對地震應(yīng)急基礎(chǔ)信息及災(zāi)情信息的收集、整理與分類編碼進(jìn)行了大量研究。付繼華等(2009)、聶高眾等(2002)從建立數(shù)據(jù)庫的角度分別討論了地震應(yīng)急數(shù)據(jù)的分類?!兜卣饘W(xué)專業(yè)分類表》(梁凱利等,2011)嚴(yán)格按照《中國圖書館分類法》的要求,結(jié)合地震科技資料分類的自身特點(diǎn),對地震學(xué)專業(yè)進(jìn)行了分類;白仙富等(2010)按照信息內(nèi)容的本質(zhì)屬性,依據(jù)發(fā)生什么事件、產(chǎn)生什么影響、對產(chǎn)生的影響人們做出什么響應(yīng)、針對響應(yīng)有何成效的思路對地震應(yīng)急現(xiàn)場信息進(jìn)行分類;張翼等(2016)根據(jù)地 震應(yīng)急信息產(chǎn)品管理、更新及共享的需要,針對地震應(yīng)急信息產(chǎn)品屬性、服務(wù)、時間、傳遞等特性,在借鑒地震應(yīng)急基礎(chǔ)理論研究及相關(guān)行業(yè)分類標(biāo)準(zhǔn)的基礎(chǔ)上,研究地震應(yīng)急信息產(chǎn)品的分類方法。
但對于多渠道的上傳機(jī)制,加之震后大量的災(zāi)情及背景信息,使信息歸類難度較大。面對緊迫的時效性壓力和不同指揮決策部門對信息的不同需求,僅靠人工手動進(jìn)行信息分類提取的方式難以達(dá)到令人滿意的效果,因此建立條理更為清晰、標(biāo)準(zhǔn)更具實(shí)踐應(yīng)用意義、信息自動化程度更高的信息分類管理技術(shù)十分必要,以適應(yīng)應(yīng)急指揮決策部門對應(yīng)急救援信息的快速獲取要求。
林子雨等(2010)根據(jù)關(guān)系數(shù)據(jù)庫的關(guān)鍵詞查詢問題研究背景,闡述解決該問題的基于模式圖和數(shù)據(jù)圖的優(yōu)缺點(diǎn)、困難和挑戰(zhàn),提出利用排序函數(shù)解決關(guān)鍵詞查詢時匹配結(jié)果可能很多的情況,最終反饋給用戶一個最相關(guān)信息。張曉民(2017)設(shè)計了基于關(guān)鍵詞數(shù)據(jù)庫信息檢索方法及時態(tài)檢索算法,主要采用時間修剪策略,同時提出時態(tài)邊權(quán)重的計算方法,實(shí)現(xiàn)了基于關(guān)鍵詞的關(guān)系數(shù)據(jù)庫時態(tài)檢索原型系統(tǒng)。通過借鑒關(guān)鍵詞在信息檢索中的應(yīng)用,本文將關(guān)鍵詞分類法應(yīng)用于地震應(yīng)急信息管理中。
信息分類方法主要包括線分類法、面分類法、混合分類法(耿慶齋等,2014)?,F(xiàn)有與地震信息分類有關(guān)的標(biāo)準(zhǔn)與研究多采用線分類法,其特點(diǎn)是層次較清晰,易于理解;缺點(diǎn)是結(jié)構(gòu)可塑性較差,一旦分類深度和每層級類目容量固定后,修改層級和插入新類將受限(劉若梅等,2004)。面分類法將選定的分類對象若干屬性或特征視為若干個“面”,每個“面”中又可分成彼此獨(dú)立的若干個類目,對于解決同種類型要素在不同應(yīng)用中分類的矛盾具有優(yōu)勢。
參考不同分類方法(楊天青等,2016;和銳等,2011),考慮自動分類結(jié)果的時效性與實(shí)用性,本文采用線與面相結(jié)合的混合分類法,以信息服務(wù)的高效便捷為目的,按照應(yīng)急信息自身的特征屬性、地震發(fā)生時間線產(chǎn)生的直接與間接損失信息(即震前、震時與震后所造成的破壞與損失信息),針對產(chǎn)生的影響采取相應(yīng)的應(yīng)急救援信息,將地震應(yīng)急信息分為震前基礎(chǔ)背景信息、地震震情災(zāi)情信息、震后應(yīng)急救援信息,如表1 所示。
表1 地震應(yīng)急信息分類定義 Table 1 Definition of classification of seismic emergency information
(1)通過實(shí)地調(diào)研河北省、山西省、內(nèi)蒙古自治區(qū)、四川省的基本人文地理環(huán)境信息概況,本文選擇收集四川省4 次地震應(yīng)急資料的主要原因?yàn)椋?)對同一省份的地震應(yīng)急資料進(jìn)行文檔分詞處理時,可直接忽略地名類固定性且不具實(shí)際區(qū)分意義的屬性詞,且同一省份文本文檔之間的語義描述差異性相對較小;2)相對于地震易發(fā)的其他3 個省來說,四川省地勢地形地貌相對較復(fù)雜,建筑物水庫大壩等公共基礎(chǔ)設(shè)施種類結(jié)構(gòu)相對復(fù)雜,且抗震救災(zāi)技術(shù)較成熟,從而使得到的信息更豐富和全面;3)四川省已建成一套獨(dú)立的信息上傳與協(xié)同管理體系,有助于提高資料分析和研究的準(zhǔn)確性。
(2)應(yīng)急信息資料分析統(tǒng)計
共收集2013 年4 月20 日蘆山7.0 級地震、2014 年11 月22 日康定6.3 級地震、2017 年8 月8 日九寨溝7 級地震、2017 年9 月30 日廣元青川5.4 級地震資料,由于收集到的數(shù)據(jù)較零散,且震級較小的數(shù)據(jù)資料較少,所以本文將4 次地震中相同類別的信息統(tǒng)計在同一文件夾下,如表2 所示。
表2 信息文檔分類統(tǒng)計 Table2 Classification statistics of information documents
(3)應(yīng)急信息分類關(guān)鍵詞的選取
中文分詞(Chinese Word Segmentation)指將一個漢字序列切分成一個一個單獨(dú)的詞,作為文本挖掘的基礎(chǔ),對輸入的一段中文進(jìn)行中文分詞,可達(dá)到自動識別語句含義的效果(趙小華,2010)。
TF 詞頻(Term Frequency)指某一個給定的詞語在該文件中出現(xiàn)的次數(shù)。IDF 反文檔頻率(Inverse Document Frequency)的主要思想是:如果包含詞條的文檔越少,IDF 越大,則說明詞條具有很好的類別區(qū)分能力。TF-IDF 是一種用于信息搜索和信息挖掘的常用加權(quán)技術(shù),在搜索、文獻(xiàn)分類和其他相關(guān)領(lǐng)域中的應(yīng)用較為廣泛(施聰鶯等,2009)。
本文在對文本信息進(jìn)行分析處理時,根據(jù)建立的分類標(biāo)準(zhǔn),對收集到的信息進(jìn)行分類,應(yīng)用TF-IDF 技術(shù),在Excel 表里對各類文本信息進(jìn)行分詞和詞頻統(tǒng)計。此種方法的局限是處理的文檔只能是文本文檔(.txt)格式。按名詞和動詞的詞性,統(tǒng)計IDF 和詞頻數(shù)排名前20的詞,如圖1-3 所示。
由圖4 可知,地震、級地震、地震局、水庫4 個詞語的出現(xiàn)總頻數(shù)超過1000,其中地震出現(xiàn)頻數(shù)高達(dá)2439。各類別信息里的頻數(shù)具體為:震區(qū)背景信息119 次、震區(qū)震情災(zāi)情信息1105 次、災(zāi)區(qū)應(yīng)急救援信息914 次,占各類別信息前20 頻數(shù)的比例分別為9%、15%、13%,在總文檔里所占比例為16%,平均出現(xiàn)頻率占12.3%。 對未分類的所有初始文本進(jìn)行統(tǒng)計,結(jié)果如表6 所示。
圖1 震前應(yīng)急背景信息詞頻統(tǒng)計 Fig. 1 Frequency statistics of emergency background information before earthquake
圖2 地震震情災(zāi)情信息統(tǒng)計 Fig. 2 Statistical table of disaster information in earthquake area
圖3 震后應(yīng)急救援信息詞頻統(tǒng)計 Fig. 3 Frequency statistics of emergency rescue information after earthquake
圖4 總文檔信息詞頻統(tǒng)計 Fig. 4 Total Document Information frequency table
頻數(shù)為700—1000 的詞語共6 個,分別為震中854 次、余震793 次、災(zāi)害784 次、發(fā)生782 次、距離773 次、破壞708 次,占所有詞頻的比例為4.7%—5.7%,其中發(fā)生和災(zāi)害2 個詞語的頻數(shù)相差2,在進(jìn)行詞語篩選時,任選其一即可。
頻數(shù)為300—700 的詞語共8 個,其中400 以上的有3 個,分別為信息643 次、災(zāi)區(qū)606次、藥品540 次;其余5 個為分布圖、大壩、災(zāi)情、指揮長、醫(yī)療器材,頻數(shù)為300—400。8 個詞語從分類屬性來看,主要屬于應(yīng)急救援信息,占總文檔詞語的比例為2%—4%。
整體來看,出現(xiàn)頻率越高的詞語,在分類過程中起到的作用越低,即作為關(guān)鍵詞的代表性越不強(qiáng),本文最終選取的各類別信息關(guān)鍵詞是在各類信息詞語統(tǒng)計里頻率不高且在其他類別信息里頻率較低或沒有的詞語。根據(jù)頻數(shù)統(tǒng)計規(guī)律可知,本文關(guān)鍵詞的取舍主要按以下規(guī)則:①對4 個頻數(shù)數(shù)據(jù)按詞語詞頻占所有20 個詞語詞頻的比例,將頻率域劃分為2%以下、2%—4%、4%—6%、6%—8%、8%五個區(qū)間;②按各類信息的定義,每個區(qū)間選取一個詞(選取與本類信息最相關(guān)的詞語)作為3 類信息的基礎(chǔ)關(guān)鍵詞。如第一區(qū)間地震局、第二區(qū)間水庫、第三區(qū)間破壞、第四區(qū)間災(zāi)情、第五區(qū)間震情,這個組合歸至震情災(zāi)情信息類;③每個區(qū)間選取2—4 個固有關(guān)鍵詞,與基礎(chǔ)關(guān)鍵詞重合的排除,低頻率區(qū)間的詞語多選,重復(fù)詞語與高頻詞語盡量不選,最終每類信息選出15 個關(guān)鍵詞,如表7 所示。
表3 關(guān)鍵詞選取結(jié)果 Table 3 Keyword selection results
續(xù)表
百度、谷歌等搜索引擎成功顯示出關(guān)鍵詞檢索的方式已被廣大用戶所接受(張曉民,2017)。本文為解決應(yīng)急信息的自動分類,采用 “關(guān)鍵詞分類法”,根據(jù)分類標(biāo)準(zhǔn),對原始文本進(jìn)行結(jié)構(gòu)化處理,通過中文分詞、詞頻篩選與統(tǒng)計實(shí)現(xiàn)信息關(guān)鍵詞的提取,此階段中的中文分詞將一串連續(xù)漢字序列按動詞、名詞的規(guī)范重新組合成詞語序列。詞頻統(tǒng)計與篩選即對分詞結(jié)果進(jìn)行統(tǒng)計,去除一些無效詞后,生成關(guān)鍵詞詞庫,用匹配詞庫的方法實(shí)現(xiàn)信息的自主分類,具體過程如下:①收集震后國家中心、各研究所、各?。ㄗ灾螀^(qū))地震局上傳至應(yīng)急信息共享平臺、評比FTP 站點(diǎn)、臺網(wǎng)中心臺網(wǎng)部FTP 站點(diǎn)的震后產(chǎn)出成果,建立相對完整的產(chǎn)出目錄;按照之前建立的地震應(yīng)急信息分類標(biāo)準(zhǔn),對收集到的條目進(jìn)行梳理歸類。②對所有文檔按詞性進(jìn)行詞頻統(tǒng)計,將無效詞語去除后,對每個大類建立相應(yīng)的關(guān)鍵詞詞庫。由于高頻詞語的重合度較高,因此在建立關(guān)鍵詞詞庫時,需綜合考慮詞頻和詞語含義,首選該分類獨(dú)有且出現(xiàn)頻率較高的詞語。③以提取的特征詞作為自動分類程序中的詞庫,進(jìn)行自動分類處理,在計算機(jī)語言的基礎(chǔ)上,實(shí)現(xiàn)信息的自動分類。要求程序在震后啟動,自動完成當(dāng)前地震產(chǎn)生在各不同平臺上的信息分類,并將產(chǎn)出成果保存至本地服務(wù)器。根據(jù)已建立的分類類別和各應(yīng)急指揮部門需求,可進(jìn)一步實(shí)現(xiàn)對產(chǎn)出成果的重命名(非必要)和重新分發(fā)。分類流程如圖5 所示。
以九寨溝7.0 級地震產(chǎn)出為例:
報告及圖件總數(shù)如表8 所示。分類文件夾包括震前背景信息文件夾、震區(qū)災(zāi)情震情信息文件夾、震后應(yīng)急救援信息文件夾和其他文件夾。
建立的分類詞庫較簡單,結(jié)果與表3 的關(guān)鍵詞庫高度匹配。震前背景信息特征詞包括構(gòu)造、交通、居民點(diǎn)、GDP、人口等,地震震情災(zāi)情信息特征詞包括截止、余震、熱力圖、震動、態(tài)勢、數(shù)據(jù)、精密、水準(zhǔn)、傷亡、災(zāi)害、中央電視臺、設(shè)防、展開、遇難等,震后應(yīng)急救援信息特征詞包括救援、救援隊(duì)、搜救等。
圖5 分類流程 Fig. 5 Classification flowchart
表4 報告及圖件總數(shù) Table 4 Total number of reports and artworks
分類標(biāo)準(zhǔn)建成后,以提取的關(guān)鍵詞作為自動分類程序中的詞庫,進(jìn)行自動分類,流程如圖6 所示。分類過程中各環(huán)節(jié)為:①將所有格式文檔轉(zhuǎn)為.txt 格式文件,并輸出至原始文件 夾;②搭建主程序運(yùn)行環(huán)境(Python2.7 環(huán)境、jieba 程序庫);③運(yùn)行shell 主程序,調(diào)用Python 子程序模塊,將原始文件夾下的所有文件進(jìn)行分類處理。模塊1(cut):獲得文件對文件進(jìn)行分詞,并將其存至臨時文件夾;模塊2(count):對原文件進(jìn)行詞頻統(tǒng)計,并對統(tǒng)計結(jié)果進(jìn)行排序;模塊3(order):分詞詞頻統(tǒng)計排序前15 的詞進(jìn)行排序;模塊4(set):根據(jù)各類關(guān)鍵詞篩選結(jié)果,得到關(guān)鍵詞庫;模塊5(classify):將初始文檔進(jìn)行結(jié)構(gòu)化處理后得到的前15 詞頻作為該文檔的關(guān)鍵詞,將其與關(guān)鍵詞庫進(jìn)行對比,通過文檔關(guān)鍵詞在所劃分的5 個頻率域區(qū)間的關(guān)鍵詞庫匹配率決定文檔的歸屬類別,將文檔劃分至匹配率最高的類別。判斷該關(guān)鍵詞屬于哪個分類,按照文件歸屬,把文件歸類至該目錄下。某個文件可能屬于多個類別,如果沒有對應(yīng)的目錄,則把文件拷貝至其他文件夾。
圖6 自動分類流程 Fig. 6 Flowchart of automatic classification
目前我國地震應(yīng)急信息是通過各省、市已建立的信息匯總渠道直接上傳至相關(guān)服務(wù)平臺,供指揮部及相關(guān)領(lǐng)導(dǎo)專家參閱,但大地震發(fā)生后面對的是大量災(zāi)情震情救援及背景信息,僅靠上述傳輸和提取方式不能達(dá)到令人滿意的程度。本文的研究成果可實(shí)現(xiàn)多渠道應(yīng)急信息的自動分類,輔助地震應(yīng)急指揮控制與決策等。
(1)參考以往學(xué)者在地震應(yīng)急信息分類與編號方面的研究,考慮分類信息的服務(wù)實(shí)用性,根據(jù)地震事件發(fā)生的時間軸,將地震應(yīng)急信息分為震前應(yīng)急背景信息、地震應(yīng)急震情災(zāi)情信息和震后應(yīng)急救援信息。
(2)為實(shí)現(xiàn)地震應(yīng)急信息的自動分類,研究采用 “關(guān)鍵詞分類法”,以實(shí)現(xiàn)地震應(yīng)急信息的自動分類,提高信息處理的目標(biāo)性、針對性和有效性。
(3)通過分析,本文對應(yīng)急信息進(jìn)行分類、分詞、詞頻統(tǒng)計,由前15 位關(guān)鍵詞信息統(tǒng)計結(jié)果可知,各不同類別應(yīng)急信息關(guān)鍵詞之間存在較大差異,可見與傳統(tǒng)信息直接上傳法相比,“關(guān)鍵詞分類法”能使信息條理性更強(qiáng),分析處理時更方便直接。
(4)在大數(shù)據(jù)的背景下,相比于傳統(tǒng)的信息分類方法,實(shí)現(xiàn)地震應(yīng)急信息的自動分類,將大大提高信息利用率,并推動地震應(yīng)急救援相關(guān)技術(shù)走向智能成熟化、自動服務(wù)化。
但對于有效應(yīng)用關(guān)鍵詞分類法實(shí)現(xiàn)應(yīng)急信息的自動分類、降低某個文件可能屬于多個類別的交叉情況,仍存在以下問題:
(1)如何建立關(guān)鍵詞之間的語義關(guān)系和邏輯關(guān)聯(lián)關(guān)系,處理并不斷豐富分類關(guān)系樹,還需對信息自身與信息相互之間更深層次的關(guān)聯(lián)關(guān)系進(jìn)行探討,如時態(tài)上或語義上。
(2)對于關(guān)鍵詞重復(fù)和冗余問題,目前只有少數(shù)研究提出了初步解決方案,還需結(jié)合信息自身的屬性、信息之間的差異及用戶對信息的需求,由相關(guān)函數(shù)(如排序函數(shù))探索建立一個權(quán)衡的標(biāo)準(zhǔn)。