亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于新媒體信息的空間數(shù)據(jù)挖掘研究

        2017-09-22 05:41:43鄧淑丹
        地理空間信息 2017年9期
        關(guān)鍵詞:分析信息

        鄧淑丹

        (1.福建省基礎(chǔ)地理信息中心,福建 福州 350003)

        基于新媒體信息的空間數(shù)據(jù)挖掘研究

        鄧淑丹1

        (1.福建省基礎(chǔ)地理信息中心,福建 福州 350003)

        研究了在線新聞資訊獲取﹑新聞資訊挖掘與分析﹑空間定位等技術(shù);并基于MVC架構(gòu)搭建了在線空間數(shù)據(jù)搜索系統(tǒng),實現(xiàn)了對新聞媒體資訊信息的抓取﹑存儲﹑挖掘﹑提取與空間化。該系統(tǒng)已被應(yīng)用于福建省城市生活信息提取和專題數(shù)據(jù)資源收集等方面,取得了較好的效果。

        新聞媒體資訊;全文分詞;挖掘與分析;空間定位

        隨著互聯(lián)網(wǎng)的發(fā)展和智能手機的普及,每天都將產(chǎn)生海量的信息資源,新聞媒體是其中重要的組成部分,然而這些信息僅為平面的文字﹑圖片和視頻,缺少時空位置信息,難以進行空間的挖掘和分析,因此有必要基于Internet搜索和挖掘地理空間數(shù)據(jù)信息資源,把地理空間數(shù)據(jù)資源應(yīng)用到公眾生活和政務(wù)決策中。國家測繪地理信息局于2014年6月發(fā)布了《測繪地理信息部門信息化建設(shè)指導(dǎo)意見》,文件提出:借鑒現(xiàn)有1∶5萬基礎(chǔ)地理信息數(shù)據(jù)庫更新項目生產(chǎn)模式,建立和收集整理各類門戶網(wǎng)站和社交媒體等方面的地理信息資源的技術(shù)能力和運作機制,探索建立測繪地理信息在線增量更新模式,拓展測繪生產(chǎn)和地理信息動態(tài)更新方式。

        本文基于互聯(lián)網(wǎng)收集網(wǎng)絡(luò)媒體信息,通過研究在線提取媒體信息﹑全文分詞﹑地名地址匹配﹑數(shù)據(jù)挖掘等技術(shù),從媒體信息中提取有價值的時空信息,為政府決策﹑企業(yè)增值﹑公眾生活服務(wù)等提供數(shù)據(jù)支持。

        1 技術(shù)方案

        本文基于新媒體信息的構(gòu)成特點,研究了在線新聞媒體資訊信息獲取技術(shù),提取了在線網(wǎng)絡(luò)新聞資訊信息,構(gòu)建了新聞媒體資訊數(shù)據(jù)庫,研究了全文分詞算法﹑地名地址匹配﹑空間分析等關(guān)鍵技術(shù),實現(xiàn)了對新聞媒體資訊信息關(guān)鍵字﹑摘要﹑地名﹑人名和地名等信息的提取和分析,并對地名信息進行了空間化。

        1.1 技術(shù)路線

        本文設(shè)計的技術(shù)路線分為選取關(guān)鍵詞庫﹑抓取網(wǎng)絡(luò)資源﹑構(gòu)建新聞資訊數(shù)據(jù)庫﹑全文分詞﹑挖掘與分析﹑地名地址匹配﹑建設(shè)專題數(shù)據(jù)庫和行業(yè)應(yīng)用等階段,如圖1所示。

        圖1 技術(shù)路線圖

        1.2 技術(shù)架構(gòu)設(shè)計

        本文采用B/S的結(jié)構(gòu),技術(shù)架構(gòu)由數(shù)據(jù)層﹑服務(wù)層和應(yīng)用層組成,如圖2所示。

        圖2 技術(shù)架構(gòu)

        1) 數(shù)據(jù)層。數(shù)據(jù)層是數(shù)據(jù)挖掘的基礎(chǔ),本文依據(jù)新媒體信息資源的特點,設(shè)計了符合需求的數(shù)據(jù)結(jié)構(gòu),高效關(guān)聯(lián)不同數(shù)據(jù)資源,融合應(yīng)用空間信息與屬性信息,最終形成新媒體信息數(shù)據(jù)庫和地名地址數(shù)據(jù)庫。

        2) 服務(wù)層。服務(wù)層是數(shù)據(jù)層和應(yīng)用層之間的橋梁,提供媒體信息提取﹑屬性信息分詞﹑地名地址定位﹑數(shù)據(jù)分析等服務(wù)。應(yīng)用層通過傳輸和調(diào)用地址﹑參數(shù),即可獲取多樣化的專題數(shù)據(jù)資源。

        3) 應(yīng)用層。應(yīng)用層是媒體空間信息和挖掘信息綜合展示與分析層。本文以LeafletJS地圖引擎為基礎(chǔ),調(diào)用服務(wù)接口獲取媒體信息與挖掘信息,實現(xiàn)專題資源查詢﹑綜合查詢﹑新聞信息全省分布等功能。

        1.3 關(guān)鍵技術(shù)研究

        本文主要研究在線新聞資訊獲取﹑新聞資訊挖掘與分析﹑地名地址匹配等關(guān)鍵技術(shù)。在線新聞資訊獲取技術(shù)用于從海量網(wǎng)絡(luò)資源中提取與關(guān)鍵詞相關(guān)的信息;新聞資訊挖掘與分析技術(shù)是在獲取新聞資訊信息的基礎(chǔ)上對全文進行分詞﹑挖掘與摘要提?。坏孛刂菲ヅ浼夹g(shù)用于對文本中的地名和地址信息進行空間化;空間分析技術(shù)用于對輔助空間位置的提取和位置準確率的評估。

        1)在線新聞資訊獲取技術(shù),即在研究網(wǎng)站的網(wǎng)頁組織特點和規(guī)律的基礎(chǔ)上,選取新聞資訊的根地址作為種子地址,采取深度遍歷策略,從根節(jié)點地址開始遍歷下一級節(jié)點地址,處理完一個鏈接后,繼續(xù)跟蹤下一個鏈接,直到遍歷完所有鏈接為止?;ヂ?lián)網(wǎng)的新聞資訊常用HTML組織,如圖3所示。首先研究HTML組織的特點,對信息進行提取和處理,分別獲取標題﹑作者﹑來源和內(nèi)容等信息,再把獲取的信息以xml文件格式進行存儲,內(nèi)容中每一個段落都使用<p></p>來組織。編寫新聞資訊入庫程序,按照所設(shè)計的表空間結(jié)構(gòu),把新聞資訊信息錄入數(shù)據(jù)庫。

        圖3 新聞媒體數(shù)據(jù)結(jié)構(gòu)

        2)新聞資訊挖掘與分析技術(shù)。本文以中科院研究的開源軟件ITCLAS為基礎(chǔ),先利用“天地圖·福建”中的地名地址數(shù)據(jù)建立檢索模型;再運用軟件語義搜索﹑詞匯比較﹑詞匯識別﹑情感分析﹑評估統(tǒng)計等功能,獲取多種關(guān)鍵詞﹑人物﹑地名﹑摘要等信息;最后通過對比分析去除重復(fù)的信息,僅保留一項信息,分別對關(guān)鍵詞﹑人名﹑地名﹑事件類型﹑摘要信息進行關(guān)聯(lián),使之形成一個有機整體。

        3)地名地址匹配技術(shù)。將挖掘和分析得到的各媒體信息的地名地址字符串,構(gòu)建成地名地址數(shù)組,采用正反向的地名地址匹配方法對媒體信息進行空間化。由于媒體信息的數(shù)據(jù)涉及省內(nèi)外地名地址數(shù)據(jù),因此在匹配時,省內(nèi)地名地址以“天地圖·福建”的地名地址分詞庫為基礎(chǔ),省外地名地址以百度地名地址為基礎(chǔ)。但百度地圖與“天地圖·福建”地名地址的坐標基準不同,因此需利用糾偏處理技術(shù),將省外地名匹配后的空間坐標糾正到統(tǒng)一的CGCS2000坐標系。對于行政地名地址,則從大到小依次匹配到較為準確的位置;對于方位詞東西南北,則以參考點為基礎(chǔ)按照方位延伸一定的距離;對于無法確定的區(qū)域范圍,則以實際參考點為基礎(chǔ),緩沖100 m的范圍作為當前影響區(qū)域范圍。

        2 技術(shù)實現(xiàn)

        本文以Visual Studio2015為開發(fā)環(huán)境,采用 Oracle數(shù)據(jù)庫存儲新聞資訊和空間信息,搭建分布式計算環(huán)境,部署開源爬蟲工具Nutch抓取網(wǎng)頁文本信息,基于MVC架構(gòu)開發(fā)了新聞資訊挖掘﹑地名地址匹配和綜合查詢等功能服務(wù),實現(xiàn)了在線專題信息資源的提取和分析。

        1)媒體數(shù)據(jù)獲取。明確搜索主題,建立與主題相關(guān)的關(guān)鍵詞數(shù)據(jù)集;再以關(guān)鍵詞為核心,拓展與關(guān)鍵詞相關(guān)的時間﹑地點﹑詞語和短句等,形成一個以主題為核心的關(guān)鍵詞庫,最后使用爬蟲技術(shù)遍歷網(wǎng)站中的所有靜態(tài)網(wǎng)頁,抓取網(wǎng)頁的文本信息。

        2)中文信息分詞。以中科院的ITCLAS軟件為基礎(chǔ),開發(fā)中文分詞功能,實現(xiàn)在線中文分詞。從文本信息中獲取地名﹑人名﹑組織結(jié)構(gòu)﹑關(guān)鍵詞﹑摘要等信息,并對分詞后的信息進行評估。例如,以2016 年9月27 日東南網(wǎng)的新聞為例,地址:http://fz.fjsen. com/2016-09/27/content_18510178.htm,文章標題為“福州地鐵1 號線北段建設(shè)進入尾聲5個站點圍擋今拆除”,對全文進行分析,文章分類為交通類信息,得到的關(guān)鍵詞為“路面”﹑“圍擋”﹑“拆除”﹑“路面交通”﹑“恢復(fù)”等,獲取的地名信息包括福州﹑屏山﹑達江﹑秀山﹑安泰等。經(jīng)過人工評估和分析,關(guān)鍵詞提取的準確度能表達文章的大體意思,其中圍擋拆除的5個地名是屏山站﹑達江站﹑秀山站﹑安泰站和象峰站,與挖掘結(jié)果相同。

        3)地名地址匹配定位。以“天地圖·福建”的地名地址數(shù)據(jù)庫與百度地名地址API為基礎(chǔ),對提取內(nèi)容中的空間數(shù)據(jù)信息進行匹配和定位,實現(xiàn)屬性信息的空間化。

        4)專題展示。選擇Leaflet為地圖引擎,獲取定位后空間數(shù)據(jù)資源,在地圖上展示定位資源,點擊標注,顯示標注的詳細信息,包括標注所在城市﹑標題﹑關(guān)鍵詞﹑摘要等信息。

        5)空間分析。提供緩沖區(qū)分析﹑聚類分析﹑空間統(tǒng)計分析等服務(wù),實現(xiàn)對空間信息資源的處理和分析,排除不符合條件的結(jié)果。

        3 應(yīng)用案例

        該系統(tǒng)已被應(yīng)用于城市生活通知﹑周邊重大新聞事件和專題資源信息獲取等多個領(lǐng)域。

        通過部署實時抓取程序,重點監(jiān)控城市生活類通知,實時提取道路修建﹑圍擋﹑停水停電等通知,并在地圖上進行定位,提醒公眾注意。本文基于互聯(lián)網(wǎng)抓取了福州市2015~2016年的氣象暴雨數(shù)據(jù),建立了搜索關(guān)鍵詞庫,從新聞中提取暴雨后積水較多的區(qū)域;再運用空間分析﹑緩沖區(qū)分析﹑疊加分析等技術(shù),去除不可能存在的點位;然后經(jīng)過人工的評估和核實,補充未收集的澇點位置,形成澇點專題地圖數(shù)據(jù)庫,為治理城市澇點提供了空間數(shù)據(jù)支持(圖4)。

        圖4 福州市城市澇點地圖

        4 結(jié) 語

        本文通過對在線媒體資訊搜索下載﹑全文分詞﹑屬性信息空間化等關(guān)鍵技術(shù)的研究,實現(xiàn)了專題信息的挖掘與分析﹑地名地址匹配定位等功能。該成果已被應(yīng)用到城市生活通知﹑周邊重大新聞事件和專題資源信息獲取等多個領(lǐng)域,應(yīng)用情況良好。下一步將逐步完善在線搜索技術(shù),利用大數(shù)據(jù)分析理念,實現(xiàn)海量空間數(shù)據(jù)資源的搜索能力,并挖掘﹑分析和整理出有價值的各類專題信息資源,為公眾﹑政務(wù)﹑企業(yè)提供輔助決策和投資參考,實現(xiàn)空間信息的轉(zhuǎn)化與價值應(yīng)用。

        [1] 陳興華.基于語義挖掘的應(yīng)急空間信息采集技術(shù)[J].地理空間信息,2016,14(9):38-39

        [2] 邵星星.基于Lucene的中文分詞技術(shù)研究[D].西安:西安電子科技大學(xué),2012

        [3] 呂歡歡,宋偉東.多元地址要素組合的地址匹配方法[J].測繪科學(xué),2015(3):96-100

        [4] 于成龍,于洪波. 網(wǎng)絡(luò)爬蟲技術(shù)研究[J].東莞理工學(xué)院學(xué)報,2011,18(3):25-29

        [5] 李雄飛,李軍.數(shù)據(jù)挖掘與知識發(fā)現(xiàn)[M].北京:高等教育出版社,2003:1-10

        [6] 蔡皎潔.Web 環(huán)境下的語義挖掘模型研究[J].情報理論與實踐,2015,38(5):121-124

        [7] 阮光冊.網(wǎng)絡(luò)用戶評論的語義挖掘研究[J].情報科學(xué),2015,33(11):107-110

        P208

        B

        1672-4623(2017)09-0026-02

        10.3969/j.issn.1672-4623.2017.09.009

        2017-03-14。

        項目來源:福建省測繪地理信息局2015~2016 年科技基金資助項目(2015J08)。

        鄧淑丹,碩士,工程師,現(xiàn)從事GIS應(yīng)用研究、數(shù)字城市地理空間框架建設(shè)、三維地理信息系統(tǒng)建設(shè)工作。

        猜你喜歡
        分析信息
        隱蔽失效適航要求符合性驗證分析
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        電力系統(tǒng)及其自動化發(fā)展趨勢分析
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        中西醫(yī)結(jié)合治療抑郁癥100例分析
        在線教育與MOOC的比較分析
        信息
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        健康信息(九則)
        祝您健康(1987年2期)1987-12-30 09:52:28
        精品国产午夜肉伦伦影院| 无码专区无码专区视频网址| 久久国产亚洲av高清色| 久久精品国产av大片| 中文字幕久区久久中文字幕| 亚洲最近中文字幕在线| 成人毛片无码一区二区三区| 日韩欧美一区二区三区中文精品| 中文字幕精品亚洲二区| 国产精品国产自产自拍高清av| 极品白嫩的小少妇| 久久亚洲国产精品成人av秋霞| 国产对白刺激在线观看| 国产成人av三级在线观看韩国| 337p日本欧洲亚洲大胆| 无码视频一区二区三区在线观看| 久久久精品国产亚洲麻色欲| 亚洲sm另类一区二区三区| 亚洲成av人影院| 欧美天欧美天堂aⅴ在线| 一区二区视频观看在线| 日本亚洲视频免费在线看 | 三a级做爰片免费观看| 一本色综合亚洲精品蜜桃冫| 国产99精品精品久久免费| 国产精品久色婷婷不卡| 极品少妇被猛的白浆直喷白浆| 国产精品日韩欧美一区二区区 | 日本a天堂| 亚洲一区二区丝袜美腿 | 日韩亚洲在线观看视频| 国产亚洲一区二区在线观看| 欧美老妇与禽交| 亚洲av高清资源在线观看三区| 97cp在线视频免费观看| 中文字幕一区二区三区日韩精品| 伊人亚洲综合网色AV另类| 女主播啪啪大秀免费观看| 成人欧美日韩一区二区三区| 999国产精品视频| 我的极品小姨在线观看|