大數據提升災難信息管理水平
Big Data Meets the Needs of Disaster Information Management
李濤,男,南京郵電大學計算機學院、軟件學院院長,南京郵電大學大數據研究院院長。2004年7月獲美國羅徹斯特大學(University of Rochester)計算機科學博士學位,2004-2014年先后任美國佛羅里達國際大學(Florida International University)計算機學院助理教授、副教授(終身教授)、教授(full professor)、研究生主管(graduate program director)。由于在數據挖掘及應用領域成效顯著的研究工作,曾多次獲得各種榮譽和獎勵,其中包括2006年美國國家自然科學基金委員會頒發(fā)的杰出青年教授獎,2010年IBM大規(guī)模數據分析創(chuàng)新獎,并于2009年獲得佛羅里達國際大學最高學術研究獎。
周綺鳳,女,博士,廈門大學自動化系副教授。2002年起從事數據挖掘及智能系統(tǒng)方面的研究工作,2014-2015年在美國佛羅里達國際大學訪學,主要研究興趣包括機器學習、數據挖掘及其在可持續(xù)發(fā)展等領域的應用。
鄭理,男,2014年在美國佛羅里達國際大學獲得計算機科學博士學位,目前是南京郵電大學計算機學院項目研究員。主要研究興趣包括信息檢索、推薦系統(tǒng)及災難信息管理,發(fā)表多篇頂級數據挖掘國際期刊和會議論文,參與多本數據挖掘相關應用領域書籍編寫。
黃越,男,南京郵電大學科技處助理研究員,主要研究方向為大數據、數據挖掘。
災難管理旨在有效地應對和避免自然災害(如颶風、地震、海嘯、火災)及人為災害(如戰(zhàn)爭、恐怖襲擊)等緊急事件給社會和民眾帶來的財產損失和生命威脅[1]。近年來,隨著自然災害的不斷發(fā)生、人為破壞和恐怖主義的蔓延,災難管理和災難恢復受到了越來越多的關注。如何能夠快速準確地預測災難發(fā)生的方式和類型,評估災難的破壞程度和影響以及制定災后恢復的方針和措施,對保護國家和公民的財產和生命安全、減少災難影響和損失、提高災后重建的資源利用和整合效率,都起到了至關重要的作用。
災難管理作為一個龐大的管理體系與整個國民經濟息息相關。政府間各個部門、非政府組織、民間團體甚至個人需要緊密合作,建立順暢的信息溝通渠道和合理的資源共享平臺。近年來,信息的爆炸式增長使得原來單純依靠收集、存儲和查詢數據的簡單管理方式在大數據環(huán)境下(數據量大、形式復雜、實時性強)變得不再實用。因此,迫切需要有效的數據處理和分析手段將有價值的信息從不斷增長的海量數據中提取出來。大數據挖掘技術建立了從數據到信息再到知識的轉化流程,提供了高效處理復雜數據的工具和方法,因而具備很強的應用潛力,能夠將災難信息管理水平提升到一個新的臺階。比如,谷歌公司(Google)通過從全球的博客(Blog)中挖掘出和流感相關的信息,從而建立了一個預警機制1http://www. google.org/ flutrends??梢灶A見,越來越多的先進數據分析技術將被運用到該領域中,從而推動災難管理水平的提升。
基于大數據的災難管理已成為新一代災難管理和應急處理領域的核心前沿研究課題[2]。一方面,基于大數據的災難信息系統(tǒng)研究,在國際社會尤其是歐美發(fā)達國家得到了極大的重視和推動,如2014年,美國政府和日本政府聯(lián)合發(fā)布了利用大數據技術來幫助災難研究的專項研究(USJapan Big Data and Disaster Research (BDD)2http://www.nsf. gov/pubs/2014/ nsf14575/ nsf14575.htm)計劃。另一方面,災難管理領域中信息的獨特性使該領域中的信息管理、處理和分析面臨很大的挑戰(zhàn)。通過已有的研究,將災難管理領域中數據處理的難點總結為以下6個方面[1]:數據爆炸但知識匱乏、信息冗余、信息不一致、時間和地理位置敏感、用戶角色復雜和領域知識的使用。一套成功的災難信息管理系統(tǒng)應該能夠有針對性地應對和解決以上信息傳遞中的數據特點和難點,最大程度地保證災難信息管理和共享平臺的及時性、有效性和可靠性,從而達到災難管理的最終目標,即在正確的時間給正確的人傳遞正確的信息。
筆者領導的佛羅里達國際大學的科研團隊與南佛羅里達地區(qū)的災難應急管理中心通過建立長期合作關系,共同研究在災難信息管理領域內的數據收集、整理、存儲和分析技術的應用[3~10]。該項目中參與的機構包括:邁阿密戴德縣(Miami-Dade County)災難應急管理中心(Emergency Operation Center,EOC)、Wal-mart、Home Depot、Verizon、Ryder等。目前,通過與美國聯(lián)邦緊急事務管理署(Federal Emergency Management Agency, FEMA)等多方合作,基于Web的系統(tǒng)原型——商業(yè)連續(xù)與災難恢復信息管理系統(tǒng),已經上線(www.bizrecovery.org)并在邁阿密和塔拉哈西建立鏡像。
這個系統(tǒng)主要用于災難恢復階段的社區(qū)管理、信息分類、信息共享以及災難數據的收集。圖1是原型系統(tǒng)的截圖。圖1上半部分是信息板,主要用于展示最近發(fā)生的重要事件和用戶訂閱的特定類型的事件信息,如機場、學校和交通的當前狀態(tài)。每行代表一個在地理位置上相對獨立的行政區(qū)域,每列代表一個事件的實體類別,比如第一列的第二個圓形深色標記提示最新發(fā)生的棕櫚灘機場關閉信息。提示板功能的實現(xiàn)是通過提取文本消息中的地理位置信息、時間信息、事件實體并關聯(lián)相應的狀態(tài)信息,最終轉換成為結構化的數據進行存儲和展示。左下部分提供當前災難事件的全面展示,如圖片、視頻、文檔等;右下部分展示了系統(tǒng)收集和用戶提交的相關消息,支持時間、地點等多種方式的信息過濾。
圖1 Web系統(tǒng)界面
在用戶使用的終端設備方面,傳統(tǒng)的固定終端(如臺式個人電腦)在獲取信息和上傳數據的實時性方面受到限制,尤其是在災難發(fā)生時。因此,研究小組設計開發(fā)了一款基于iOS移動平臺的災難信息管理應用——ADSB(all-hazard disaster situation browser,全息災害災情瀏覽器),系統(tǒng)架構如圖2所示[11]。它可以運行在手持移動設備上,支持災難事件消息的閱讀、上傳、推薦、文摘和個性化社區(qū)管理等多種功能,如圖3所示。
這些系統(tǒng)平臺和應用利用了非常廣泛的數據資源,涵蓋了靜態(tài)數據和動態(tài)數據兩大類。靜態(tài)數據資源包括:當地歷史災難管理數據;在災難準備、災難應急和災難恢復階段的應急指南和行動手冊;企業(yè)和重要設施的地理位置;公共的地理信息數據以及交通網絡。動態(tài)數據資源包括:合作機構在災難事件期間的報告(包括當前的災難威脅狀況、災難準備進展和總體的應對災難的目標和策略);損失分析評估報告和圖片;關鍵交通樞紐 (公路、高速路、橋梁、港口等)的狀態(tài);重要基礎設施(能源、電力、運輸等)的狀態(tài);應急服務(消防、治安、醫(yī)療等)的狀態(tài)和重要公共設施(學校等)的狀態(tài);不同媒體的新聞報道;電子郵件、郵件列表、發(fā)布會或會議內容等;災難呼叫中心關于損失狀態(tài)報告的接入撥打日志;社交網站、Blog、Twitter的數據信息。除以上數據來源之外,還篩選出一組與災難信息高度相關的網站鏈接作為可靠信息源,借助網絡爬蟲來獲取互聯(lián)網數據。
在災難管理領域的研究和實踐中,總結出了如下5個應用大數據挖掘技術來保證災難管理系統(tǒng)平臺成功發(fā)揮功效的關鍵要素:迅速獲得相關資源;準確提取相關信息;合理組織相關信息;有效管理用戶角色和資料;及時發(fā)現(xiàn)和組織社區(qū)。通過針對性地把控和解決上述關鍵要素,最終實現(xiàn)了災難管理系統(tǒng)的“有效獲取災難事件的相關信息,提高在復雜信息環(huán)境下的覺察力”、“自動獲取用戶關注點并有效地傳遞相關信息”以及“更好地利用社區(qū)信息進行災難恢復”這三大目標任務,從而有效地支持公共機構和私有部門之間更好地進行信息交互和共享。
圖2 ADSB系統(tǒng)架構
圖3 ADSB系統(tǒng)界面
大數據時代的災難信息管理已經成為一個理論研究和實際應用緊密結合、社會政府及個人都迫切需求的重要研究內容。其中,筆者帶領的研究團隊關于大數據挖掘在災難信息管理方面的研究受到國內外學術界的廣泛關注以及政府部門的高度重視。開發(fā)的系統(tǒng)是一個利用大數據技術,包括信息抽取、信息檢索、信息過濾和決策支持等,有效提升災難信息獲取、災難應急管理等方面能力的成功案例,也是第一個基于Web的政府與企業(yè)進行溝通、交流,實現(xiàn)信息共享、事物協(xié)作等的工具。目前已有American Airlines、Aon Corporation、AT&T、Bank of America、IBM等60多家企業(yè)和部門加入了這個信息網絡。由于該項目的獨創(chuàng)性及成功應用,開發(fā)的系統(tǒng)被美國聯(lián)邦緊急事務管理署列為政府與企業(yè)成功合作的一個典范3http://users.cis. fiu.edu/~chens/ docs/miami_ dwindow.onresize =myChart1. resize;ade_ partnership.pdf。
與國外相比,國內目前在災難信息管理及相關領域的研究相對較少,尚缺乏全面、綜合、有效的災難信息處理系統(tǒng)和典型示范應用。因此,如何將基于大數據的災難信息管理在國內進行推廣,積極開展基于大數據的智能化災害管理與應急處理關鍵技術及系統(tǒng)研制,具有重要的研究意義和重大的社會價值。值得注意的是,該項推廣不是上述案例的簡單復制和擴展,而是需要結合國內災難信息管理的特點以及不同地區(qū)災難管理的任務目標、信息需求,開展有特色的、個性化的大數據災難信息管理開發(fā)和應用。
[1] 李濤. 數據挖掘的應用與實踐. 廈門: 廈門大學出版社, 2013 Li T. Data Mining Where Theory Meets Practice. Xiamen: Xiamen University Press, 2013
[2] Hristidis V, Chen S C, Li T,et al. Survey of data management and analysis in disaster situations. Journal of Systems and Software, 2010, 83(10):1701~1714
[3] Zheng L, Shen C, Tang L,et al. Data mining meets the needs of disaster information management. IEEE Transactions on Human-Machine Systems, 2013, 43(5): 451~464
[4] Li L, Li T. An empirical study of ontologybased multi-document summarization in disaster management. IEEE Transactions SMC: Systems, 2014, 44(2): 162~171
[5] Hristidis V, Chen S C, Li T,et al. Survey of data management and analysis in disaster situations. Journal of Systems and Software, 2010, 83(10): 1701~1714
[6] Zhou W B,Shen C,Li T,et al. Generating textual storyline to improve situation awareness in disaster management. Proceedings of the 15th IEEE International Conference on Information Reuse and Integration (IRI), Redwood City, CA, USA, 2014: 585~592
[7] Zhou W B, Shen C, Li T,et al. A bipartite-graph based approach for disaster susceptibility comparisons among cities. Proceedings of the 15th IEEE International Conference on Information Reuse and Integration (IRI), Redwood City, CA, USA, 2014: 593~599
[8] Zheng L, Shen C, Tang L,et al. Disaster sitrep-a vertical search engine and information analysis tool in disaster management domain. Proceedings of the 13th IEEE International Conference onInformation Integration and Reuse (IRI), Las Vegas, USA, 2012: 457~465
[9] Zheng L, Shen C, Tang L,et al. Using data mining techniques to address critical information exchange needs in disaster affected public-private networks. Proceedings of the 16th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, Washington DC, USA, 2010: 125~134
[10] Li L, Wang D D, Shen C,et al. Ontologyenriched multi-document summarization in sisaster management. Proceedings of the 33rd International ACM SIGIR conference on Research and Development in Information Retrieval, New York, USA, 2010: 819~820
[11] Zheng L, Shen C, Tang L,et al. Applying data mining techniques to address disaster information management challenges on mobile devices. Proceedings of the 17th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, California, USA, 2011: 283~291 □
10.11959/j.issn.2096-0271.2015035