亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于網絡爬蟲的地理空間信息采集方法

        2016-07-18 09:30:00鞏保勝魏春苗
        甘肅科技 2016年7期
        關鍵詞:爬蟲空間信息網頁

        鞏保勝,魏春苗

        (61243部隊,新疆 烏魯木齊830006)

        ?

        基于網絡爬蟲的地理空間信息采集方法

        鞏保勝,魏春苗

        (61243部隊,新疆 烏魯木齊830006)

        摘要:網絡環(huán)境下地理空間信息的搜集與獲取,是地理空間研究信息獲取重要途徑。網絡環(huán)境中數據信息量大,主題門類多,如何高效快速地獲取地理空間主題信息是一個亟待解決的問題。本研究提出了基于網絡爬蟲的地理空間主題信息采集方法,該方法能高效自動的采集目標網絡上的地理空間信息,提高了地理空間信息采集效率,為進一步建立地理空間主題信息庫提供數據支撐。

        關鍵詞:信息采集;網絡爬蟲;地理空間信息;Scrapy

        近年來,隨著互聯網,云計算等IT與通信技術的迅猛發(fā)展,信息社會已進入了大數據時代[1],網絡上地理空間主題相關信息越來越多[2],除Google地圖,百度地圖以及一些符合標準(OGCWMS、WFS、WCS)的地理空間信息服務網站外,還有一些網絡服務(例如開放大學圖書館)也包含了此類信息。這些地理空間信息的獲取需要從半結構化或無結構的Web頁面中準確的抽取數據,轉換成結構化的數據以進行挖掘和利用。網絡爬蟲[3]可以自動爬取目標網站,實現精準的網頁信息采集,根據需要還可將采集數據存入數據庫中,構建地理空間主題信息檢索[4],為更深層次的用戶提供更專業(yè)的目標信息檢索。

        1 網絡爬蟲

        網絡爬蟲[5]是一個自動提取網頁的程序,它為搜索引擎從Web上下載網頁,是搜索引擎的重要組成部分。其基本原理是從一些“目標”站點出發(fā),通過HTTP等協(xié)議請求并獲取網頁資源,分析頁面內容并提取鏈接,以循環(huán)迭代的方式訪問整個目標網絡。網絡爬蟲有選擇的訪問相關網頁和鏈接,釆集數據,并將數據按照規(guī)定的格式存儲。

        網絡爬蟲的工作步驟(如圖1所示),首先通過通用搜索引擎,挑選符合目標預期的網頁加入目標網址隊列,然后網絡爬蟲依次讀取網站地址,訪問網頁讀取網頁內容,然后結構化抽取網頁中的目標數據,另一方面解析出網頁內容里包含的其他網址,并通過判重算法判斷是否己經抓取過,如果網址未曾抓取過,則將其放入該隊列中,如果網址曾被抓取過,則放入已抓取網址隊列中,如此循環(huán),直到網址隊列為空為止。網絡爬蟲保證了搜索結果的領域相關性,排除了很多與查詢無關的頁面,極大程度上滿足了人們對搜索準確性的要求。

        圖1 網絡爬蟲工作流程圖

        2 利用網絡爬蟲進行地理空間信息采集工作流程

        利用網絡爬蟲采集地理空間信息是網絡環(huán)境下地理空間信息采集的重要手段。具體工作流程如圖2所示。

        圖2 地理空間信息采集流程圖

        首先,對擬獲取的地理空間信息建立索引關鍵字,在通用搜索引擎中建立搜索式,通過優(yōu)化搜索式,提高通用搜索引擎的搜索效率和目標匹配度。

        其次,通過人工查看、干預的方式,對搜索出來的相關網站,網頁進行預判斷,進一步提高網站與關鍵詞的相關度。最后確立需要進行地理空間信息采集的目標網站。

        第三步就是利用網絡爬蟲對整個目標搜索網站集進行搜索,記錄搜索目標地理空間信息有關的文本信息,形成地理空間信息搜集信息庫,為進一步的數據挖掘和后續(xù)處理提供數據支撐。

        最后,如果目標網站價值較高,需要持續(xù)跟蹤,可以利用網絡爬蟲定期對網站內容進行爬取,檢測網站上需要關注的地理空間信息,實現地理空間信息跟蹤的自動化。

        3 利用Scrapy網絡爬蟲進行地理空間信息采集

        以德克薩斯大學圖書館網站的收錄地圖網頁作為目標網站進行地理空間信息采集,本研究以Scrapy框架構建網絡爬蟲,Scrapy是Python開發(fā)的快速Web信息采集框架,用于抓取web站點并從頁面中提取數據。

        首先創(chuàng)建一個信息采集項目,名稱為Mymap。在Scrapy下運行:scrapystartprojectMymap命令。該命令將會創(chuàng)建包含網絡爬蟲的內容目錄。

        item.py中定義了你要采集的目標變量。目標網站信息如圖3所示。

        圖3 目標網頁源碼

        本研究中需要采集亞洲地區(qū)的掃描地圖數據信息,通過上圖可以看出,該信息包含了掃描地圖的網絡連接,圖幅區(qū)域和掃描圖其他信息,所以item對象定義為:

        importScrapy

        classMymapItem(scrapy.Item)

        url=scrapy.Field();

        region=scrapy.Field();

        info=scrapy.Field();

        Spiders.py定義了如何爬去某個網站,包括了爬取的動作以及如何從網頁的內容中提取結構化數據(爬取item),是定義爬取的動作及分析某個網頁(或者是有些網頁)的地方。Scrapy提取數據有自己的機制,通過特定的XPath或者CSS表達式來“選擇”HTML文件中的某個部分。本采集部分代碼如下:

        利用Xpath,通過Scrapy自動提取html中a、href、li標簽的相應屬性,實現了目標網頁信息采集。最終采集到的網頁信息如圖4所示。

        圖4 地圖信息采集結果

        通過圖4可以看出,利用Scrapy構建的網絡爬蟲,能精準的對目標網頁信息進行采集。后續(xù)如果還需對該網頁持續(xù)跟蹤,可將該網站加入目標網址庫,定期利用Scrapy爬蟲進行數據采集。

        4 結束語

        網絡環(huán)境下的地理空間主題信息采集是地理空間研究重要數據來源,本研究分析了目前信息采集的作業(yè)流程,提出了用網絡爬蟲采集網站信息的工作流程方法。該方法能精準的提取網頁數據,提高數據采集的自動化程度,為后續(xù)地理空間信息主題庫的建立,以及數據挖掘提供數據支撐。

        參考文獻:

        [1]王元卓,靳小龍,程學旗.網絡大數據:現狀與展望[J].計算機學報,2013,36(6):1125-1135.

        [2]孫瑞英.網絡數據內容分析研究[J].圖書館學研究,2005 (5):35-39.

        [3]劉金紅,陸余良.主題網絡爬蟲研究綜述[J].計算機應用研究,2007,24(10):26-29.

        [4]王曙,吉雷靜,張雪英.面向網頁文本的地理要素變化檢測[J].地球信息科學學報,2013(10):15-5.

        [5]羅剛,王振東.自己動手寫網絡爬蟲[M].清華大學出版社, 2010.

        中圖分類號:TP391.3

        猜你喜歡
        爬蟲空間信息網頁
        利用網絡爬蟲技術驗證房地產灰犀牛之說
        結合多層特征及空間信息蒸餾的醫(yī)學影像分割
        基于Python的網絡爬蟲和反爬蟲技術研究
        基于CSS的網頁導航欄的設計
        電子制作(2018年10期)2018-08-04 03:24:38
        利用爬蟲技術的Geo-Gnutel la VANET流量采集
        電子測試(2018年1期)2018-04-18 11:53:04
        基于URL和網頁類型的網頁信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        大數據環(huán)境下基于python的網絡爬蟲技術
        電子制作(2017年9期)2017-04-17 03:00:46
        《地理空間信息》協(xié)辦單位
        網頁制作在英語教學中的應用
        電子測試(2015年18期)2016-01-14 01:22:58
        10個必知的網頁設計術語
        国产精品又湿又黄九九九久久嫩草| 日韩A∨精品久久久久| 久久精品亚洲精品毛片| 精品国模人妻视频网站| 久久久99精品免费视频| 无码免费一区二区三区| 亚洲中文无码久久精品1| 蜜桃网站在线免费观看视频| 国产精品亚洲av高清二区| 男女啪动最猛动态图| 男女真实有遮挡xx00动态图| 中日韩字幕中文字幕一区| 亚洲韩国在线| 日本一区不卡在线观看| 亚洲精品在线国产精品| 毛片亚洲av无码精品国产午夜 | 国产精品亚洲专区无码web| 成人一区二区三区蜜桃| 国产免费三级av在线| 无遮无挡爽爽免费毛片| 国产精品天堂avav在线| 国产精品一区二区三区成人| 蜜桃视频一区二区三区| 国产精品一品二区三区| 国产玉足榨精视频在线观看| 7777奇米四色成人眼影| 一区二区三区放荡人妻| 亚洲天堂一区二区三区| 国内免费高清在线观看| 亚洲av成人精品日韩一区| 亚洲女同系列高清在线观看| 亚洲第一幕一区二区三区在线观看 | 亚洲精品国产老熟女久久| 人妻被公上司喝醉在线中文字幕| 欧美伦费免费全部午夜最新 | 欧美aⅴ在线| 亚洲处破女av一区二区| 美女国产毛片a区内射| 亚洲 自拍 另类 欧美 综合| 4hu44四虎www在线影院麻豆| 国产精品黑丝美腿美臀|