鄧淑丹
(1.福建省基礎(chǔ)地理信息中心,福建 福州 350003)
基于新媒體信息的空間數(shù)據(jù)挖掘研究
鄧淑丹1
(1.福建省基礎(chǔ)地理信息中心,福建 福州 350003)
研究了在線新聞資訊獲取﹑新聞資訊挖掘與分析﹑空間定位等技術(shù);并基于MVC架構(gòu)搭建了在線空間數(shù)據(jù)搜索系統(tǒng),實(shí)現(xiàn)了對(duì)新聞媒體資訊信息的抓取﹑存儲(chǔ)﹑挖掘﹑提取與空間化。該系統(tǒng)已被應(yīng)用于福建省城市生活信息提取和專(zhuān)題數(shù)據(jù)資源收集等方面,取得了較好的效果。
新聞媒體資訊;全文分詞;挖掘與分析;空間定位
隨著互聯(lián)網(wǎng)的發(fā)展和智能手機(jī)的普及,每天都將產(chǎn)生海量的信息資源,新聞媒體是其中重要的組成部分,然而這些信息僅為平面的文字﹑圖片和視頻,缺少時(shí)空位置信息,難以進(jìn)行空間的挖掘和分析,因此有必要基于Internet搜索和挖掘地理空間數(shù)據(jù)信息資源,把地理空間數(shù)據(jù)資源應(yīng)用到公眾生活和政務(wù)決策中。國(guó)家測(cè)繪地理信息局于2014年6月發(fā)布了《測(cè)繪地理信息部門(mén)信息化建設(shè)指導(dǎo)意見(jiàn)》,文件提出:借鑒現(xiàn)有1∶5萬(wàn)基礎(chǔ)地理信息數(shù)據(jù)庫(kù)更新項(xiàng)目生產(chǎn)模式,建立和收集整理各類(lèi)門(mén)戶(hù)網(wǎng)站和社交媒體等方面的地理信息資源的技術(shù)能力和運(yùn)作機(jī)制,探索建立測(cè)繪地理信息在線增量更新模式,拓展測(cè)繪生產(chǎn)和地理信息動(dòng)態(tài)更新方式。
本文基于互聯(lián)網(wǎng)收集網(wǎng)絡(luò)媒體信息,通過(guò)研究在線提取媒體信息﹑全文分詞﹑地名地址匹配﹑數(shù)據(jù)挖掘等技術(shù),從媒體信息中提取有價(jià)值的時(shí)空信息,為政府決策﹑企業(yè)增值﹑公眾生活服務(wù)等提供數(shù)據(jù)支持。
本文基于新媒體信息的構(gòu)成特點(diǎn),研究了在線新聞媒體資訊信息獲取技術(shù),提取了在線網(wǎng)絡(luò)新聞資訊信息,構(gòu)建了新聞媒體資訊數(shù)據(jù)庫(kù),研究了全文分詞算法﹑地名地址匹配﹑空間分析等關(guān)鍵技術(shù),實(shí)現(xiàn)了對(duì)新聞媒體資訊信息關(guān)鍵字﹑摘要﹑地名﹑人名和地名等信息的提取和分析,并對(duì)地名信息進(jìn)行了空間化。
1.1 技術(shù)路線
本文設(shè)計(jì)的技術(shù)路線分為選取關(guān)鍵詞庫(kù)﹑抓取網(wǎng)絡(luò)資源﹑構(gòu)建新聞資訊數(shù)據(jù)庫(kù)﹑全文分詞﹑挖掘與分析﹑地名地址匹配﹑建設(shè)專(zhuān)題數(shù)據(jù)庫(kù)和行業(yè)應(yīng)用等階段,如圖1所示。
圖1 技術(shù)路線圖
1.2 技術(shù)架構(gòu)設(shè)計(jì)
本文采用B/S的結(jié)構(gòu),技術(shù)架構(gòu)由數(shù)據(jù)層﹑服務(wù)層和應(yīng)用層組成,如圖2所示。
圖2 技術(shù)架構(gòu)
1) 數(shù)據(jù)層。數(shù)據(jù)層是數(shù)據(jù)挖掘的基礎(chǔ),本文依據(jù)新媒體信息資源的特點(diǎn),設(shè)計(jì)了符合需求的數(shù)據(jù)結(jié)構(gòu),高效關(guān)聯(lián)不同數(shù)據(jù)資源,融合應(yīng)用空間信息與屬性信息,最終形成新媒體信息數(shù)據(jù)庫(kù)和地名地址數(shù)據(jù)庫(kù)。
2) 服務(wù)層。服務(wù)層是數(shù)據(jù)層和應(yīng)用層之間的橋梁,提供媒體信息提取﹑屬性信息分詞﹑地名地址定位﹑數(shù)據(jù)分析等服務(wù)。應(yīng)用層通過(guò)傳輸和調(diào)用地址﹑參數(shù),即可獲取多樣化的專(zhuān)題數(shù)據(jù)資源。
3) 應(yīng)用層。應(yīng)用層是媒體空間信息和挖掘信息綜合展示與分析層。本文以LeafletJS地圖引擎為基礎(chǔ),調(diào)用服務(wù)接口獲取媒體信息與挖掘信息,實(shí)現(xiàn)專(zhuān)題資源查詢(xún)﹑綜合查詢(xún)﹑新聞信息全省分布等功能。
1.3 關(guān)鍵技術(shù)研究
本文主要研究在線新聞資訊獲取﹑新聞資訊挖掘與分析﹑地名地址匹配等關(guān)鍵技術(shù)。在線新聞資訊獲取技術(shù)用于從海量網(wǎng)絡(luò)資源中提取與關(guān)鍵詞相關(guān)的信息;新聞資訊挖掘與分析技術(shù)是在獲取新聞資訊信息的基礎(chǔ)上對(duì)全文進(jìn)行分詞﹑挖掘與摘要提取;地名地址匹配技術(shù)用于對(duì)文本中的地名和地址信息進(jìn)行空間化;空間分析技術(shù)用于對(duì)輔助空間位置的提取和位置準(zhǔn)確率的評(píng)估。
1)在線新聞資訊獲取技術(shù),即在研究網(wǎng)站的網(wǎng)頁(yè)組織特點(diǎn)和規(guī)律的基礎(chǔ)上,選取新聞資訊的根地址作為種子地址,采取深度遍歷策略,從根節(jié)點(diǎn)地址開(kāi)始遍歷下一級(jí)節(jié)點(diǎn)地址,處理完一個(gè)鏈接后,繼續(xù)跟蹤下一個(gè)鏈接,直到遍歷完所有鏈接為止?;ヂ?lián)網(wǎng)的新聞資訊常用HTML組織,如圖3所示。首先研究HTML組織的特點(diǎn),對(duì)信息進(jìn)行提取和處理,分別獲取標(biāo)題﹑作者﹑來(lái)源和內(nèi)容等信息,再把獲取的信息以xml文件格式進(jìn)行存儲(chǔ),內(nèi)容中每一個(gè)段落都使用<p></p>來(lái)組織。編寫(xiě)新聞資訊入庫(kù)程序,按照所設(shè)計(jì)的表空間結(jié)構(gòu),把新聞資訊信息錄入數(shù)據(jù)庫(kù)。
圖3 新聞媒體數(shù)據(jù)結(jié)構(gòu)
2)新聞資訊挖掘與分析技術(shù)。本文以中科院研究的開(kāi)源軟件ITCLAS為基礎(chǔ),先利用“天地圖·福建”中的地名地址數(shù)據(jù)建立檢索模型;再運(yùn)用軟件語(yǔ)義搜索﹑詞匯比較﹑詞匯識(shí)別﹑情感分析﹑評(píng)估統(tǒng)計(jì)等功能,獲取多種關(guān)鍵詞﹑人物﹑地名﹑摘要等信息;最后通過(guò)對(duì)比分析去除重復(fù)的信息,僅保留一項(xiàng)信息,分別對(duì)關(guān)鍵詞﹑人名﹑地名﹑事件類(lèi)型﹑摘要信息進(jìn)行關(guān)聯(lián),使之形成一個(gè)有機(jī)整體。
3)地名地址匹配技術(shù)。將挖掘和分析得到的各媒體信息的地名地址字符串,構(gòu)建成地名地址數(shù)組,采用正反向的地名地址匹配方法對(duì)媒體信息進(jìn)行空間化。由于媒體信息的數(shù)據(jù)涉及省內(nèi)外地名地址數(shù)據(jù),因此在匹配時(shí),省內(nèi)地名地址以“天地圖·福建”的地名地址分詞庫(kù)為基礎(chǔ),省外地名地址以百度地名地址為基礎(chǔ)。但百度地圖與“天地圖·福建”地名地址的坐標(biāo)基準(zhǔn)不同,因此需利用糾偏處理技術(shù),將省外地名匹配后的空間坐標(biāo)糾正到統(tǒng)一的CGCS2000坐標(biāo)系。對(duì)于行政地名地址,則從大到小依次匹配到較為準(zhǔn)確的位置;對(duì)于方位詞東西南北,則以參考點(diǎn)為基礎(chǔ)按照方位延伸一定的距離;對(duì)于無(wú)法確定的區(qū)域范圍,則以實(shí)際參考點(diǎn)為基礎(chǔ),緩沖100 m的范圍作為當(dāng)前影響區(qū)域范圍。
本文以Visual Studio2015為開(kāi)發(fā)環(huán)境,采用 Oracle數(shù)據(jù)庫(kù)存儲(chǔ)新聞資訊和空間信息,搭建分布式計(jì)算環(huán)境,部署開(kāi)源爬蟲(chóng)工具Nutch抓取網(wǎng)頁(yè)文本信息,基于MVC架構(gòu)開(kāi)發(fā)了新聞資訊挖掘﹑地名地址匹配和綜合查詢(xún)等功能服務(wù),實(shí)現(xiàn)了在線專(zhuān)題信息資源的提取和分析。
1)媒體數(shù)據(jù)獲取。明確搜索主題,建立與主題相關(guān)的關(guān)鍵詞數(shù)據(jù)集;再以關(guān)鍵詞為核心,拓展與關(guān)鍵詞相關(guān)的時(shí)間﹑地點(diǎn)﹑詞語(yǔ)和短句等,形成一個(gè)以主題為核心的關(guān)鍵詞庫(kù),最后使用爬蟲(chóng)技術(shù)遍歷網(wǎng)站中的所有靜態(tài)網(wǎng)頁(yè),抓取網(wǎng)頁(yè)的文本信息。
2)中文信息分詞。以中科院的ITCLAS軟件為基礎(chǔ),開(kāi)發(fā)中文分詞功能,實(shí)現(xiàn)在線中文分詞。從文本信息中獲取地名﹑人名﹑組織結(jié)構(gòu)﹑關(guān)鍵詞﹑摘要等信息,并對(duì)分詞后的信息進(jìn)行評(píng)估。例如,以2016 年9月27 日東南網(wǎng)的新聞為例,地址:http://fz.fjsen. com/2016-09/27/content_18510178.htm,文章標(biāo)題為“福州地鐵1 號(hào)線北段建設(shè)進(jìn)入尾聲5個(gè)站點(diǎn)圍擋今拆除”,對(duì)全文進(jìn)行分析,文章分類(lèi)為交通類(lèi)信息,得到的關(guān)鍵詞為“路面”﹑“圍擋”﹑“拆除”﹑“路面交通”﹑“恢復(fù)”等,獲取的地名信息包括福州﹑屏山﹑達(dá)江﹑秀山﹑安泰等。經(jīng)過(guò)人工評(píng)估和分析,關(guān)鍵詞提取的準(zhǔn)確度能表達(dá)文章的大體意思,其中圍擋拆除的5個(gè)地名是屏山站﹑達(dá)江站﹑秀山站﹑安泰站和象峰站,與挖掘結(jié)果相同。
3)地名地址匹配定位。以“天地圖·福建”的地名地址數(shù)據(jù)庫(kù)與百度地名地址API為基礎(chǔ),對(duì)提取內(nèi)容中的空間數(shù)據(jù)信息進(jìn)行匹配和定位,實(shí)現(xiàn)屬性信息的空間化。
4)專(zhuān)題展示。選擇Leaflet為地圖引擎,獲取定位后空間數(shù)據(jù)資源,在地圖上展示定位資源,點(diǎn)擊標(biāo)注,顯示標(biāo)注的詳細(xì)信息,包括標(biāo)注所在城市﹑標(biāo)題﹑關(guān)鍵詞﹑摘要等信息。
5)空間分析。提供緩沖區(qū)分析﹑聚類(lèi)分析﹑空間統(tǒng)計(jì)分析等服務(wù),實(shí)現(xiàn)對(duì)空間信息資源的處理和分析,排除不符合條件的結(jié)果。
該系統(tǒng)已被應(yīng)用于城市生活通知﹑周邊重大新聞事件和專(zhuān)題資源信息獲取等多個(gè)領(lǐng)域。
通過(guò)部署實(shí)時(shí)抓取程序,重點(diǎn)監(jiān)控城市生活類(lèi)通知,實(shí)時(shí)提取道路修建﹑圍擋﹑停水停電等通知,并在地圖上進(jìn)行定位,提醒公眾注意。本文基于互聯(lián)網(wǎng)抓取了福州市2015~2016年的氣象暴雨數(shù)據(jù),建立了搜索關(guān)鍵詞庫(kù),從新聞中提取暴雨后積水較多的區(qū)域;再運(yùn)用空間分析﹑緩沖區(qū)分析﹑疊加分析等技術(shù),去除不可能存在的點(diǎn)位;然后經(jīng)過(guò)人工的評(píng)估和核實(shí),補(bǔ)充未收集的澇點(diǎn)位置,形成澇點(diǎn)專(zhuān)題地圖數(shù)據(jù)庫(kù),為治理城市澇點(diǎn)提供了空間數(shù)據(jù)支持(圖4)。
圖4 福州市城市澇點(diǎn)地圖
本文通過(guò)對(duì)在線媒體資訊搜索下載﹑全文分詞﹑屬性信息空間化等關(guān)鍵技術(shù)的研究,實(shí)現(xiàn)了專(zhuān)題信息的挖掘與分析﹑地名地址匹配定位等功能。該成果已被應(yīng)用到城市生活通知﹑周邊重大新聞事件和專(zhuān)題資源信息獲取等多個(gè)領(lǐng)域,應(yīng)用情況良好。下一步將逐步完善在線搜索技術(shù),利用大數(shù)據(jù)分析理念,實(shí)現(xiàn)海量空間數(shù)據(jù)資源的搜索能力,并挖掘﹑分析和整理出有價(jià)值的各類(lèi)專(zhuān)題信息資源,為公眾﹑政務(wù)﹑企業(yè)提供輔助決策和投資參考,實(shí)現(xiàn)空間信息的轉(zhuǎn)化與價(jià)值應(yīng)用。
[1] 陳興華.基于語(yǔ)義挖掘的應(yīng)急空間信息采集技術(shù)[J].地理空間信息,2016,14(9):38-39
[2] 邵星星.基于Lucene的中文分詞技術(shù)研究[D].西安:西安電子科技大學(xué),2012
[3] 呂歡歡,宋偉東.多元地址要素組合的地址匹配方法[J].測(cè)繪科學(xué),2015(3):96-100
[4] 于成龍,于洪波. 網(wǎng)絡(luò)爬蟲(chóng)技術(shù)研究[J].東莞理工學(xué)院學(xué)報(bào),2011,18(3):25-29
[5] 李雄飛,李軍.數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)[M].北京:高等教育出版社,2003:1-10
[6] 蔡皎潔.Web 環(huán)境下的語(yǔ)義挖掘模型研究[J].情報(bào)理論與實(shí)踐,2015,38(5):121-124
[7] 阮光冊(cè).網(wǎng)絡(luò)用戶(hù)評(píng)論的語(yǔ)義挖掘研究[J].情報(bào)科學(xué),2015,33(11):107-110
P208
B
1672-4623(2017)09-0026-02
10.3969/j.issn.1672-4623.2017.09.009
2017-03-14。
項(xiàng)目來(lái)源:福建省測(cè)繪地理信息局2015~2016 年科技基金資助項(xiàng)目(2015J08)。
鄧淑丹,碩士,工程師,現(xiàn)從事GIS應(yīng)用研究、數(shù)字城市地理空間框架建設(shè)、三維地理信息系統(tǒng)建設(shè)工作。