陳興華
(1.福建省基礎地理信息中心,福建 福州 350003)
基于語義挖掘的應急空間信息采集技術
陳興華1
(1.福建省基礎地理信息中心,福建 福州 350003)
首先介紹了語義搜索、地名地址匹配、空間分析等技術;然后基于Hadoop搭建了分布式搜索引擎,實現(xiàn)了空間信息的搜索與提?。徊⑵鋺糜趹惫芾眍I域,獲得了福州市由暴雨導致的澇點數(shù)據(jù)。
語義挖掘技術;地名地址匹配;爬蟲技術;空間分析
福建省地處東南沿海,常年受暴雨、臺風等惡劣天氣影響;僅2014年,福建全省平均年降水量為1 672.7 mm,北部6個地區(qū)的降水量超過2 300 mm,出現(xiàn)了5次寒潮、22場暴雨、6個臺風登陸,直接經濟損失達44.7億元。以傳統(tǒng)方式進行應急指揮和管理,往往不能及時、全面、準確地收集信息,從而無法準確地進行災前預警和災后評估。隨著互聯(lián)網的發(fā)展和智能手機的普及,公眾可通過互聯(lián)網發(fā)布大量災前、災中和災后的碎片信息,碎片信息經過提取、挖掘和分析等處理后形成大量有價值的信息,能為災前預警、災中指揮、災后評估提供數(shù)據(jù)支持。本文基于互聯(lián)網收集網絡媒體信息,并通過語義挖掘、地理編碼和空間分析等技術,從媒體信息中提取有價值的時空信息,為災害預警、指揮和評估等提供數(shù)據(jù)支持。
本文基于應急地理信息相關技術標準和規(guī)范,構建了應急地理信息知識庫;并利用網絡資源抓取、語義搜索、地名地址匹配、空間分析等技術,實現(xiàn)了在線網絡資源的搜索與提取。技術路線如圖1所示。
圖1 技術路線圖
1.1 技術架構設計
本文采用B/S的結構,分為數(shù)據(jù)層、服務層和應用層3個層次,技術架構如圖2所示。
1) 數(shù)據(jù)層是項目研究的基礎。本文中應用的主要數(shù)據(jù)為地名地址數(shù)據(jù)、應急知識庫、專題數(shù)據(jù)和媒體資源數(shù)據(jù)。地名地址數(shù)據(jù)來源于“天地圖·福建”平臺;應急知識庫是根據(jù)采集數(shù)據(jù)的需要而建立的數(shù)據(jù)庫;專題數(shù)據(jù)是經過一系列分析和處理形成的專題資源成果;媒體資源數(shù)據(jù)是基于互聯(lián)網抓取的網絡資源,包括文字、圖片和視頻等。
圖2 技術架構圖
2) 服務層分別設計和開發(fā)了語義搜索、日志記錄、地名地址匹配、空間統(tǒng)計、數(shù)據(jù)查詢等功能,實現(xiàn)了數(shù)據(jù)資源的抓取、分析和定位等。
3) 應用層將提取的專題應急數(shù)據(jù)應用到公眾出行分析、應急預警、應急指揮和救援等領域,為它們提供數(shù)據(jù)支持和決策輔助。
1.2 關鍵技術
本文主要研究語義搜索、地名地址匹配和空間分析等關鍵技術。
1)語義搜索技術?;谡Z義Web理論,研究多種本體元素的相似度映射方法,通過聚類形成的簇信息熵純度來分析本體中擁有實例集合的概念之間的相似度,提高本體映射性能,攻克多級索引分類技術。針對不同專題需求建立特征索引,理解用戶搜索意圖,獲取符合用戶需求的信息,對搜索結果按相似度進行排序,根據(jù)設定的閾值舍棄閾值以下的搜索結果,把搜索的結果存儲到數(shù)據(jù)庫中。
2)地名地址匹配技術。以“天地圖·福建”所建立的地名地址庫為基礎,對語義搜索結果中的地名和地址信息進行空間化,采取正反向的地名和地址匹配方法。對于行政地名分別從大到小依次匹配到較為準確的位置;對于方位詞東西南北,以參考點為基準按照方位延伸一定的距離;對于無法確定的區(qū)域范圍,以實際參考點為基準,以緩沖100 m的范圍作為當前影響區(qū)域范圍。
3)空間分析技術。緩沖分析是以一個或多個地物要素(包括點、線、面等實體要素)或空間幾何體為對象,設置一定的緩沖距離,形成緩沖面,查詢緩沖區(qū)域范圍內的空間地理要素。本文中將該技術用于無法確定準確位置的要素,通過地理要素確定其影響范圍,根據(jù)離中心點的距離篩選地名或地址信息??臻g統(tǒng)計分析是通過空間區(qū)域范圍和其他屬性條件的組合,查詢滿足條件的空間要素信息;并對空間信息按條件進行統(tǒng)計,從而對要素進行篩選。
選用Visual Studio 2015作為開發(fā)環(huán)境;運用MongoDB數(shù)據(jù)存儲網絡文本信息, Oracle數(shù)據(jù)庫存儲空間信息;搭建分布式計算環(huán)境;部署開源爬蟲工具Crawlzilla抓取網頁文本信息;基于MVC架構開發(fā)語義搜索、地名地址匹配和空間分析等功能服務,實現(xiàn)在線專題信息資源的提取和分析。
1)構建知識庫。明確搜索主題,建立和主題相關的關鍵詞數(shù)據(jù)集,以關鍵詞為核心,拓展和關鍵詞相關的時間、地點、詞語和短句等,形成一個以主題為核心的應急知識庫。
2)媒體資源抓取。基于開源軟件Hadoop搭建分布式計算環(huán)境,研究分布式爬蟲Crawlzilla的特點,對Crawlzilla進行改進,編排抓取計劃和任務,基于互聯(lián)網抓取了和主題相關的網絡資源,形成龐大的網絡媒體資源數(shù)據(jù)庫。
3)語義搜索和分析。攻克分詞技術、分級索引技術、語義文檔篩選技術等,建立語義搜索引擎,結合已建立的應急知識庫,從網絡媒體資源數(shù)據(jù)庫中提取重要內容,包括主題、主題大致內容、時間、地點、路徑和影響區(qū)域等。
4)地名地址匹配。以“天地圖·福建”的地名地址數(shù)據(jù)庫為基礎,對提取內容中包含的空間數(shù)據(jù)信息進行匹配和定位,實現(xiàn)屬性信息空間化。
5)空間分析。建立緩沖分析、聚類分析、空間統(tǒng)計分析等功能,處理和分析空間信息資源,排除不符合條件的結果。
本文基于互聯(lián)網抓取了福州市2015年全年的氣象暴雨數(shù)據(jù)及相關網絡信息,建立以澇點為核心的知識庫。
結合知識庫運用語義搜索功能,提取了積水較多的區(qū)域;通過空間分析等方法去除不可能的點位;再經過人工評估和核實,形成福州市城區(qū)的澇點區(qū)域,如圖3所示,為排除積水較深的危險區(qū)域提供了數(shù)據(jù)支持,相關政府部門可通過該數(shù)據(jù)有針對性地進行城市規(guī)劃和設施改進。
圖3 福州市城市澇點地圖
本文基于互聯(lián)網挖掘的思想,建立了分布式搜索框架,實現(xiàn)了基于語義的空間信息搜索與提取,通過空間分析等手段獲得福州市城區(qū)的澇點數(shù)據(jù)。本文僅是應急管理中的一個應用點,可在此基礎上拓展其應用思路和方法,攻克多源數(shù)據(jù)收集、智能分類、數(shù)據(jù)挖掘等一系列的關鍵技術,發(fā)揮大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘價值,更好地為政府決策、公眾生活、企業(yè)增值等服務。
[1] 王玲.基于GIS 空間數(shù)據(jù)挖掘技術的應用研究[J].測繪與空間地理信息,2013(6)∶121-123
[2] 于書媛,陳靚,王偉.基于空間數(shù)據(jù)挖掘的合肥市應急避難場所選址[J].地理空間信息,2015,13(1)∶93-95
[3] 劉元鳳,周榮福,李鳳玲.基于文本的地理空間數(shù)據(jù)挖掘與可視化[J].測繪科學,2010(4)∶103-105
[4] 劉強,莊東明,王偉.數(shù)據(jù)挖掘在應急救援決策支持中的應用研究[J].安全與環(huán)境工程,2011,18(4)∶116-120
[5] 李雄飛,李軍.數(shù)據(jù)挖掘與知識發(fā)現(xiàn)[M].北京∶高等教育出版社,2003∶1-10
[6] 蔡皎潔.Web 環(huán)境下的語義挖掘模型研究[J].情報理論與實踐,2015,38(5)∶121-124
[7] 阮光冊.網絡用戶評論的語義挖掘研究[J].情報科學,2015,33(11)∶107-110
P208
B
1672-4623(2016)09-0038-02
10.3969/j.issn.1672-4623.2016.09.012
陳興華,工程師,主要從事地理信息應用與研發(fā)工作。
2016-05-03。
項目來源:2014年福建省科技項目-重點資助項目(2014H0011);福建省測繪地理信息局科技基金資助項目(2015J08)。