亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于網絡爬蟲的地理空間信息采集方法

        2016-07-18 09:30:00鞏保勝魏春苗
        甘肅科技 2016年7期
        關鍵詞:爬蟲空間信息網頁

        鞏保勝,魏春苗

        (61243部隊,新疆 烏魯木齊830006)

        ?

        基于網絡爬蟲的地理空間信息采集方法

        鞏保勝,魏春苗

        (61243部隊,新疆 烏魯木齊830006)

        摘要:網絡環(huán)境下地理空間信息的搜集與獲取,是地理空間研究信息獲取重要途徑。網絡環(huán)境中數據信息量大,主題門類多,如何高效快速地獲取地理空間主題信息是一個亟待解決的問題。本研究提出了基于網絡爬蟲的地理空間主題信息采集方法,該方法能高效自動的采集目標網絡上的地理空間信息,提高了地理空間信息采集效率,為進一步建立地理空間主題信息庫提供數據支撐。

        關鍵詞:信息采集;網絡爬蟲;地理空間信息;Scrapy

        近年來,隨著互聯網,云計算等IT與通信技術的迅猛發(fā)展,信息社會已進入了大數據時代[1],網絡上地理空間主題相關信息越來越多[2],除Google地圖,百度地圖以及一些符合標準(OGCWMS、WFS、WCS)的地理空間信息服務網站外,還有一些網絡服務(例如開放大學圖書館)也包含了此類信息。這些地理空間信息的獲取需要從半結構化或無結構的Web頁面中準確的抽取數據,轉換成結構化的數據以進行挖掘和利用。網絡爬蟲[3]可以自動爬取目標網站,實現精準的網頁信息采集,根據需要還可將采集數據存入數據庫中,構建地理空間主題信息檢索[4],為更深層次的用戶提供更專業(yè)的目標信息檢索。

        1 網絡爬蟲

        網絡爬蟲[5]是一個自動提取網頁的程序,它為搜索引擎從Web上下載網頁,是搜索引擎的重要組成部分。其基本原理是從一些“目標”站點出發(fā),通過HTTP等協(xié)議請求并獲取網頁資源,分析頁面內容并提取鏈接,以循環(huán)迭代的方式訪問整個目標網絡。網絡爬蟲有選擇的訪問相關網頁和鏈接,釆集數據,并將數據按照規(guī)定的格式存儲。

        網絡爬蟲的工作步驟(如圖1所示),首先通過通用搜索引擎,挑選符合目標預期的網頁加入目標網址隊列,然后網絡爬蟲依次讀取網站地址,訪問網頁讀取網頁內容,然后結構化抽取網頁中的目標數據,另一方面解析出網頁內容里包含的其他網址,并通過判重算法判斷是否己經抓取過,如果網址未曾抓取過,則將其放入該隊列中,如果網址曾被抓取過,則放入已抓取網址隊列中,如此循環(huán),直到網址隊列為空為止。網絡爬蟲保證了搜索結果的領域相關性,排除了很多與查詢無關的頁面,極大程度上滿足了人們對搜索準確性的要求。

        圖1 網絡爬蟲工作流程圖

        2 利用網絡爬蟲進行地理空間信息采集工作流程

        利用網絡爬蟲采集地理空間信息是網絡環(huán)境下地理空間信息采集的重要手段。具體工作流程如圖2所示。

        圖2 地理空間信息采集流程圖

        首先,對擬獲取的地理空間信息建立索引關鍵字,在通用搜索引擎中建立搜索式,通過優(yōu)化搜索式,提高通用搜索引擎的搜索效率和目標匹配度。

        其次,通過人工查看、干預的方式,對搜索出來的相關網站,網頁進行預判斷,進一步提高網站與關鍵詞的相關度。最后確立需要進行地理空間信息采集的目標網站。

        第三步就是利用網絡爬蟲對整個目標搜索網站集進行搜索,記錄搜索目標地理空間信息有關的文本信息,形成地理空間信息搜集信息庫,為進一步的數據挖掘和后續(xù)處理提供數據支撐。

        最后,如果目標網站價值較高,需要持續(xù)跟蹤,可以利用網絡爬蟲定期對網站內容進行爬取,檢測網站上需要關注的地理空間信息,實現地理空間信息跟蹤的自動化。

        3 利用Scrapy網絡爬蟲進行地理空間信息采集

        以德克薩斯大學圖書館網站的收錄地圖網頁作為目標網站進行地理空間信息采集,本研究以Scrapy框架構建網絡爬蟲,Scrapy是Python開發(fā)的快速Web信息采集框架,用于抓取web站點并從頁面中提取數據。

        首先創(chuàng)建一個信息采集項目,名稱為Mymap。在Scrapy下運行:scrapystartprojectMymap命令。該命令將會創(chuàng)建包含網絡爬蟲的內容目錄。

        item.py中定義了你要采集的目標變量。目標網站信息如圖3所示。

        圖3 目標網頁源碼

        本研究中需要采集亞洲地區(qū)的掃描地圖數據信息,通過上圖可以看出,該信息包含了掃描地圖的網絡連接,圖幅區(qū)域和掃描圖其他信息,所以item對象定義為:

        importScrapy

        classMymapItem(scrapy.Item)

        url=scrapy.Field();

        region=scrapy.Field();

        info=scrapy.Field();

        Spiders.py定義了如何爬去某個網站,包括了爬取的動作以及如何從網頁的內容中提取結構化數據(爬取item),是定義爬取的動作及分析某個網頁(或者是有些網頁)的地方。Scrapy提取數據有自己的機制,通過特定的XPath或者CSS表達式來“選擇”HTML文件中的某個部分。本采集部分代碼如下:

        利用Xpath,通過Scrapy自動提取html中a、href、li標簽的相應屬性,實現了目標網頁信息采集。最終采集到的網頁信息如圖4所示。

        圖4 地圖信息采集結果

        通過圖4可以看出,利用Scrapy構建的網絡爬蟲,能精準的對目標網頁信息進行采集。后續(xù)如果還需對該網頁持續(xù)跟蹤,可將該網站加入目標網址庫,定期利用Scrapy爬蟲進行數據采集。

        4 結束語

        網絡環(huán)境下的地理空間主題信息采集是地理空間研究重要數據來源,本研究分析了目前信息采集的作業(yè)流程,提出了用網絡爬蟲采集網站信息的工作流程方法。該方法能精準的提取網頁數據,提高數據采集的自動化程度,為后續(xù)地理空間信息主題庫的建立,以及數據挖掘提供數據支撐。

        參考文獻:

        [1]王元卓,靳小龍,程學旗.網絡大數據:現狀與展望[J].計算機學報,2013,36(6):1125-1135.

        [2]孫瑞英.網絡數據內容分析研究[J].圖書館學研究,2005 (5):35-39.

        [3]劉金紅,陸余良.主題網絡爬蟲研究綜述[J].計算機應用研究,2007,24(10):26-29.

        [4]王曙,吉雷靜,張雪英.面向網頁文本的地理要素變化檢測[J].地球信息科學學報,2013(10):15-5.

        [5]羅剛,王振東.自己動手寫網絡爬蟲[M].清華大學出版社, 2010.

        中圖分類號:TP391.3

        猜你喜歡
        爬蟲空間信息網頁
        利用網絡爬蟲技術驗證房地產灰犀牛之說
        結合多層特征及空間信息蒸餾的醫(yī)學影像分割
        基于Python的網絡爬蟲和反爬蟲技術研究
        基于CSS的網頁導航欄的設計
        電子制作(2018年10期)2018-08-04 03:24:38
        利用爬蟲技術的Geo-Gnutel la VANET流量采集
        電子測試(2018年1期)2018-04-18 11:53:04
        基于URL和網頁類型的網頁信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        大數據環(huán)境下基于python的網絡爬蟲技術
        電子制作(2017年9期)2017-04-17 03:00:46
        《地理空間信息》協(xié)辦單位
        網頁制作在英語教學中的應用
        電子測試(2015年18期)2016-01-14 01:22:58
        10個必知的網頁設計術語
        国产免费av片在线观看麻豆| 久久综合狠狠综合久久综合88| 东北熟妇露脸25分钟| 蜜臀av色欲a片无码精品一区| 五月天国产成人av免费观看| 一区二区三区国产黄色| 国产一区二区自拍刺激在线观看| 国产无遮挡又爽又刺激的视频老师| 亚洲日韩成人无码| 伊人久久大香线蕉av网禁呦| 亚洲一区二区综合色精品| 亚洲—本道中文字幕久久66| 亚洲天堂中文字幕君一二三四| 国产极品大奶在线视频| 一本精品99久久精品77| 中文字幕亚洲无线码| 无遮挡粉嫩小泬| 少妇人妻系列中文在线| 日本韩国男男作爱gaywww| 人妻少妇精品视频一区二区三区| 精品福利一区| 日韩av在线手机免费观看| 亚洲人成欧美中文字幕| 麻豆国产人妻欲求不满| 亚洲日本在线va中文字幕| 中文天堂一区二区三区| 国产精品一区二区三区四区亚洲| 色翁荡息又大又硬又粗视频| 亚洲av美国av产亚洲av图片| 全免费a级毛片免费看视频| 国产精品福利片免费看| 国产自产自现在线视频地址| 五月婷婷开心六月激情| 国产精品美女久久久久av超清| 一本大道久久香蕉成人网| 国产日韩三级| 亚洲不卡av二区三区四区| 国产电影无码午夜在线播放| 中文字幕av无码一区二区三区| 国产成年无码久久久免费 | 性饥渴艳妇性色生活片在线播放|