鄧淑丹
(1.福建省基礎(chǔ)地理信息中心,福建 福州 350003)
基于新媒體信息的空間數(shù)據(jù)挖掘研究
鄧淑丹1
(1.福建省基礎(chǔ)地理信息中心,福建 福州 350003)
研究了在線新聞資訊獲取﹑新聞資訊挖掘與分析﹑空間定位等技術(shù);并基于MVC架構(gòu)搭建了在線空間數(shù)據(jù)搜索系統(tǒng),實現(xiàn)了對新聞媒體資訊信息的抓取﹑存儲﹑挖掘﹑提取與空間化。該系統(tǒng)已被應(yīng)用于福建省城市生活信息提取和專題數(shù)據(jù)資源收集等方面,取得了較好的效果。
新聞媒體資訊;全文分詞;挖掘與分析;空間定位
隨著互聯(lián)網(wǎng)的發(fā)展和智能手機的普及,每天都將產(chǎn)生海量的信息資源,新聞媒體是其中重要的組成部分,然而這些信息僅為平面的文字﹑圖片和視頻,缺少時空位置信息,難以進行空間的挖掘和分析,因此有必要基于Internet搜索和挖掘地理空間數(shù)據(jù)信息資源,把地理空間數(shù)據(jù)資源應(yīng)用到公眾生活和政務(wù)決策中。國家測繪地理信息局于2014年6月發(fā)布了《測繪地理信息部門信息化建設(shè)指導(dǎo)意見》,文件提出:借鑒現(xiàn)有1∶5萬基礎(chǔ)地理信息數(shù)據(jù)庫更新項目生產(chǎn)模式,建立和收集整理各類門戶網(wǎng)站和社交媒體等方面的地理信息資源的技術(shù)能力和運作機制,探索建立測繪地理信息在線增量更新模式,拓展測繪生產(chǎn)和地理信息動態(tài)更新方式。
本文基于互聯(lián)網(wǎng)收集網(wǎng)絡(luò)媒體信息,通過研究在線提取媒體信息﹑全文分詞﹑地名地址匹配﹑數(shù)據(jù)挖掘等技術(shù),從媒體信息中提取有價值的時空信息,為政府決策﹑企業(yè)增值﹑公眾生活服務(wù)等提供數(shù)據(jù)支持。
本文基于新媒體信息的構(gòu)成特點,研究了在線新聞媒體資訊信息獲取技術(shù),提取了在線網(wǎng)絡(luò)新聞資訊信息,構(gòu)建了新聞媒體資訊數(shù)據(jù)庫,研究了全文分詞算法﹑地名地址匹配﹑空間分析等關(guān)鍵技術(shù),實現(xiàn)了對新聞媒體資訊信息關(guān)鍵字﹑摘要﹑地名﹑人名和地名等信息的提取和分析,并對地名信息進行了空間化。
1.1 技術(shù)路線
本文設(shè)計的技術(shù)路線分為選取關(guān)鍵詞庫﹑抓取網(wǎng)絡(luò)資源﹑構(gòu)建新聞資訊數(shù)據(jù)庫﹑全文分詞﹑挖掘與分析﹑地名地址匹配﹑建設(shè)專題數(shù)據(jù)庫和行業(yè)應(yīng)用等階段,如圖1所示。
圖1 技術(shù)路線圖
1.2 技術(shù)架構(gòu)設(shè)計
本文采用B/S的結(jié)構(gòu),技術(shù)架構(gòu)由數(shù)據(jù)層﹑服務(wù)層和應(yīng)用層組成,如圖2所示。
圖2 技術(shù)架構(gòu)
1) 數(shù)據(jù)層。數(shù)據(jù)層是數(shù)據(jù)挖掘的基礎(chǔ),本文依據(jù)新媒體信息資源的特點,設(shè)計了符合需求的數(shù)據(jù)結(jié)構(gòu),高效關(guān)聯(lián)不同數(shù)據(jù)資源,融合應(yīng)用空間信息與屬性信息,最終形成新媒體信息數(shù)據(jù)庫和地名地址數(shù)據(jù)庫。
2) 服務(wù)層。服務(wù)層是數(shù)據(jù)層和應(yīng)用層之間的橋梁,提供媒體信息提取﹑屬性信息分詞﹑地名地址定位﹑數(shù)據(jù)分析等服務(wù)。應(yīng)用層通過傳輸和調(diào)用地址﹑參數(shù),即可獲取多樣化的專題數(shù)據(jù)資源。
3) 應(yīng)用層。應(yīng)用層是媒體空間信息和挖掘信息綜合展示與分析層。本文以LeafletJS地圖引擎為基礎(chǔ),調(diào)用服務(wù)接口獲取媒體信息與挖掘信息,實現(xiàn)專題資源查詢﹑綜合查詢﹑新聞信息全省分布等功能。
1.3 關(guān)鍵技術(shù)研究
本文主要研究在線新聞資訊獲取﹑新聞資訊挖掘與分析﹑地名地址匹配等關(guān)鍵技術(shù)。在線新聞資訊獲取技術(shù)用于從海量網(wǎng)絡(luò)資源中提取與關(guān)鍵詞相關(guān)的信息;新聞資訊挖掘與分析技術(shù)是在獲取新聞資訊信息的基礎(chǔ)上對全文進行分詞﹑挖掘與摘要提?。坏孛刂菲ヅ浼夹g(shù)用于對文本中的地名和地址信息進行空間化;空間分析技術(shù)用于對輔助空間位置的提取和位置準確率的評估。
1)在線新聞資訊獲取技術(shù),即在研究網(wǎng)站的網(wǎng)頁組織特點和規(guī)律的基礎(chǔ)上,選取新聞資訊的根地址作為種子地址,采取深度遍歷策略,從根節(jié)點地址開始遍歷下一級節(jié)點地址,處理完一個鏈接后,繼續(xù)跟蹤下一個鏈接,直到遍歷完所有鏈接為止?;ヂ?lián)網(wǎng)的新聞資訊常用HTML組織,如圖3所示。首先研究HTML組織的特點,對信息進行提取和處理,分別獲取標題﹑作者﹑來源和內(nèi)容等信息,再把獲取的信息以xml文件格式進行存儲,內(nèi)容中每一個段落都使用<p></p>來組織。編寫新聞資訊入庫程序,按照所設(shè)計的表空間結(jié)構(gòu),把新聞資訊信息錄入數(shù)據(jù)庫。
圖3 新聞媒體數(shù)據(jù)結(jié)構(gòu)
2)新聞資訊挖掘與分析技術(shù)。本文以中科院研究的開源軟件ITCLAS為基礎(chǔ),先利用“天地圖·福建”中的地名地址數(shù)據(jù)建立檢索模型;再運用軟件語義搜索﹑詞匯比較﹑詞匯識別﹑情感分析﹑評估統(tǒng)計等功能,獲取多種關(guān)鍵詞﹑人物﹑地名﹑摘要等信息;最后通過對比分析去除重復(fù)的信息,僅保留一項信息,分別對關(guān)鍵詞﹑人名﹑地名﹑事件類型﹑摘要信息進行關(guān)聯(lián),使之形成一個有機整體。
3)地名地址匹配技術(shù)。將挖掘和分析得到的各媒體信息的地名地址字符串,構(gòu)建成地名地址數(shù)組,采用正反向的地名地址匹配方法對媒體信息進行空間化。由于媒體信息的數(shù)據(jù)涉及省內(nèi)外地名地址數(shù)據(jù),因此在匹配時,省內(nèi)地名地址以“天地圖·福建”的地名地址分詞庫為基礎(chǔ),省外地名地址以百度地名地址為基礎(chǔ)。但百度地圖與“天地圖·福建”地名地址的坐標基準不同,因此需利用糾偏處理技術(shù),將省外地名匹配后的空間坐標糾正到統(tǒng)一的CGCS2000坐標系。對于行政地名地址,則從大到小依次匹配到較為準確的位置;對于方位詞東西南北,則以參考點為基礎(chǔ)按照方位延伸一定的距離;對于無法確定的區(qū)域范圍,則以實際參考點為基礎(chǔ),緩沖100 m的范圍作為當前影響區(qū)域范圍。
本文以Visual Studio2015為開發(fā)環(huán)境,采用 Oracle數(shù)據(jù)庫存儲新聞資訊和空間信息,搭建分布式計算環(huán)境,部署開源爬蟲工具Nutch抓取網(wǎng)頁文本信息,基于MVC架構(gòu)開發(fā)了新聞資訊挖掘﹑地名地址匹配和綜合查詢等功能服務(wù),實現(xiàn)了在線專題信息資源的提取和分析。
1)媒體數(shù)據(jù)獲取。明確搜索主題,建立與主題相關(guān)的關(guān)鍵詞數(shù)據(jù)集;再以關(guān)鍵詞為核心,拓展與關(guān)鍵詞相關(guān)的時間﹑地點﹑詞語和短句等,形成一個以主題為核心的關(guān)鍵詞庫,最后使用爬蟲技術(shù)遍歷網(wǎng)站中的所有靜態(tài)網(wǎng)頁,抓取網(wǎng)頁的文本信息。
2)中文信息分詞。以中科院的ITCLAS軟件為基礎(chǔ),開發(fā)中文分詞功能,實現(xiàn)在線中文分詞。從文本信息中獲取地名﹑人名﹑組織結(jié)構(gòu)﹑關(guān)鍵詞﹑摘要等信息,并對分詞后的信息進行評估。例如,以2016 年9月27 日東南網(wǎng)的新聞為例,地址:http://fz.fjsen. com/2016-09/27/content_18510178.htm,文章標題為“福州地鐵1 號線北段建設(shè)進入尾聲5個站點圍擋今拆除”,對全文進行分析,文章分類為交通類信息,得到的關(guān)鍵詞為“路面”﹑“圍擋”﹑“拆除”﹑“路面交通”﹑“恢復(fù)”等,獲取的地名信息包括福州﹑屏山﹑達江﹑秀山﹑安泰等。經(jīng)過人工評估和分析,關(guān)鍵詞提取的準確度能表達文章的大體意思,其中圍擋拆除的5個地名是屏山站﹑達江站﹑秀山站﹑安泰站和象峰站,與挖掘結(jié)果相同。
3)地名地址匹配定位。以“天地圖·福建”的地名地址數(shù)據(jù)庫與百度地名地址API為基礎(chǔ),對提取內(nèi)容中的空間數(shù)據(jù)信息進行匹配和定位,實現(xiàn)屬性信息的空間化。
4)專題展示。選擇Leaflet為地圖引擎,獲取定位后空間數(shù)據(jù)資源,在地圖上展示定位資源,點擊標注,顯示標注的詳細信息,包括標注所在城市﹑標題﹑關(guān)鍵詞﹑摘要等信息。
5)空間分析。提供緩沖區(qū)分析﹑聚類分析﹑空間統(tǒng)計分析等服務(wù),實現(xiàn)對空間信息資源的處理和分析,排除不符合條件的結(jié)果。
該系統(tǒng)已被應(yīng)用于城市生活通知﹑周邊重大新聞事件和專題資源信息獲取等多個領(lǐng)域。
通過部署實時抓取程序,重點監(jiān)控城市生活類通知,實時提取道路修建﹑圍擋﹑停水停電等通知,并在地圖上進行定位,提醒公眾注意。本文基于互聯(lián)網(wǎng)抓取了福州市2015~2016年的氣象暴雨數(shù)據(jù),建立了搜索關(guān)鍵詞庫,從新聞中提取暴雨后積水較多的區(qū)域;再運用空間分析﹑緩沖區(qū)分析﹑疊加分析等技術(shù),去除不可能存在的點位;然后經(jīng)過人工的評估和核實,補充未收集的澇點位置,形成澇點專題地圖數(shù)據(jù)庫,為治理城市澇點提供了空間數(shù)據(jù)支持(圖4)。
圖4 福州市城市澇點地圖
本文通過對在線媒體資訊搜索下載﹑全文分詞﹑屬性信息空間化等關(guān)鍵技術(shù)的研究,實現(xiàn)了專題信息的挖掘與分析﹑地名地址匹配定位等功能。該成果已被應(yīng)用到城市生活通知﹑周邊重大新聞事件和專題資源信息獲取等多個領(lǐng)域,應(yīng)用情況良好。下一步將逐步完善在線搜索技術(shù),利用大數(shù)據(jù)分析理念,實現(xiàn)海量空間數(shù)據(jù)資源的搜索能力,并挖掘﹑分析和整理出有價值的各類專題信息資源,為公眾﹑政務(wù)﹑企業(yè)提供輔助決策和投資參考,實現(xiàn)空間信息的轉(zhuǎn)化與價值應(yīng)用。
[1] 陳興華.基于語義挖掘的應(yīng)急空間信息采集技術(shù)[J].地理空間信息,2016,14(9):38-39
[2] 邵星星.基于Lucene的中文分詞技術(shù)研究[D].西安:西安電子科技大學(xué),2012
[3] 呂歡歡,宋偉東.多元地址要素組合的地址匹配方法[J].測繪科學(xué),2015(3):96-100
[4] 于成龍,于洪波. 網(wǎng)絡(luò)爬蟲技術(shù)研究[J].東莞理工學(xué)院學(xué)報,2011,18(3):25-29
[5] 李雄飛,李軍.數(shù)據(jù)挖掘與知識發(fā)現(xiàn)[M].北京:高等教育出版社,2003:1-10
[6] 蔡皎潔.Web 環(huán)境下的語義挖掘模型研究[J].情報理論與實踐,2015,38(5):121-124
[7] 阮光冊.網(wǎng)絡(luò)用戶評論的語義挖掘研究[J].情報科學(xué),2015,33(11):107-110
P208
B
1672-4623(2017)09-0026-02
10.3969/j.issn.1672-4623.2017.09.009
2017-03-14。
項目來源:福建省測繪地理信息局2015~2016 年科技基金資助項目(2015J08)。
鄧淑丹,碩士,工程師,現(xiàn)從事GIS應(yīng)用研究、數(shù)字城市地理空間框架建設(shè)、三維地理信息系統(tǒng)建設(shè)工作。