亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)絡(luò)眾源地理信息獲取與整合方法研究

        2021-06-21 13:16:40唐天琪
        現(xiàn)代測(cè)繪 2021年2期
        關(guān)鍵詞:爬蟲瀏覽器網(wǎng)頁(yè)

        談 帥,唐天琪,高 雅

        (江蘇省測(cè)繪研究所,江蘇 南京 210013)

        0 引 言

        大數(shù)據(jù)資源的快速增長(zhǎng)以及數(shù)據(jù)挖掘和地理信息技術(shù)的逐步成熟為高效、智能化的網(wǎng)絡(luò)眾源地理信息獲取提供了數(shù)據(jù)和技術(shù)支撐[1]。時(shí)空大數(shù)據(jù)蘊(yùn)含豐富多樣的地理信息,本文研究對(duì)象主要是政府公開數(shù)據(jù)和互聯(lián)網(wǎng)地理信息數(shù)據(jù),但是政府公開數(shù)據(jù)并非都是完整的數(shù)據(jù)集,而互聯(lián)網(wǎng)數(shù)據(jù)更新周期短,數(shù)據(jù)信息量更加龐大,因此,迫切需要相關(guān)策略解決因數(shù)據(jù)結(jié)構(gòu)復(fù)雜、數(shù)據(jù)保護(hù)措施等原因?qū)е碌幕ヂ?lián)網(wǎng)地理信息數(shù)據(jù)獲取問題。

        目前,網(wǎng)絡(luò)爬蟲工具層出不窮,但面對(duì)復(fù)雜的網(wǎng)頁(yè)結(jié)構(gòu)、嚴(yán)格的API調(diào)用制度或需求不斷更新等問題,亟需一條完整的技術(shù)路線。黃文杰以標(biāo)訊快車項(xiàng)目為研究目標(biāo),使用廣度和深度優(yōu)先策略[2]。高波針對(duì)文本、柵格等不同類型的地理信息數(shù)據(jù)提出了不同的獲取方法[3]。劉石磊[4]、郭麗蓉[5]探討了一些常見的反爬蟲措施以及對(duì)應(yīng)用了該類機(jī)制的網(wǎng)站進(jìn)行爬蟲活動(dòng)的手段和策略。雖然不少學(xué)者針對(duì)網(wǎng)絡(luò)爬蟲技術(shù)進(jìn)行了研究,但是側(cè)重針對(duì)互聯(lián)網(wǎng)地理信息數(shù)據(jù)獲取的研究較少。

        本文著重從數(shù)據(jù)獲取方式中的兩種類型——網(wǎng)頁(yè)型和API型[6]入手,從兩種渠道分別詳細(xì)闡述相關(guān)技術(shù)路線,為時(shí)空大數(shù)據(jù)的獲取提供思路,為地理國(guó)情監(jiān)測(cè)工作提供數(shù)據(jù)方面的支撐,有利于促進(jìn)新型基礎(chǔ)測(cè)繪實(shí)踐的快速開展。

        1 互聯(lián)網(wǎng)地理信息數(shù)據(jù)特點(diǎn)

        網(wǎng)絡(luò)地理信息服務(wù)與桌面地理信息系統(tǒng)軟件相比,前者存在明顯的限制:① 帶寬限制,地理信息通過互聯(lián)網(wǎng)、移動(dòng)網(wǎng)絡(luò)傳輸?shù)乃俾实陀诒镜卮鎯?chǔ)設(shè)備以及穩(wěn)定的內(nèi)部網(wǎng)絡(luò);② 客戶端處理能力限制,作為網(wǎng)絡(luò)地理信息的客戶端——網(wǎng)頁(yè)、移動(dòng)設(shè)備,前者運(yùn)行于瀏覽器內(nèi),出于安全考慮,瀏覽器中的網(wǎng)頁(yè)一般不能取得直接調(diào)用本地計(jì)算資源的能力,而移動(dòng)設(shè)備在處理器、內(nèi)存、存儲(chǔ)方面都不及桌面計(jì)算機(jī);③ 客戶端的多樣性,不同瀏覽器支持Web與JavaScript標(biāo)準(zhǔn)存在差異、不同移動(dòng)設(shè)備操作系統(tǒng)應(yīng)用程序開發(fā)接口(API)與開發(fā)語(yǔ)言存在差異。

        上述限制給互聯(lián)網(wǎng)地理信息數(shù)據(jù)帶來(lái)了復(fù)雜多樣的格式,并且需要具備獨(dú)立于應(yīng)用程序或供應(yīng)商、獨(dú)立于開發(fā)語(yǔ)言和環(huán)境、帶寬占用少等特點(diǎn)。常見的互聯(lián)網(wǎng)地理信息數(shù)據(jù)格式如下。

        (1)JSON格式

        JavaScript Object Notation(JSON)是一種瀏覽器/服務(wù)器之間傳輸?shù)?、公開的網(wǎng)絡(luò)數(shù)據(jù)傳輸數(shù)據(jù)標(biāo)準(zhǔn),由鍵值對(duì)組成。目前在網(wǎng)絡(luò)地理信息服務(wù)領(lǐng)域,常用的JSON格式有GeoJSON和ArcGIS Server JSON 2種。

        (2)XML格式

        可擴(kuò)展標(biāo)記語(yǔ)言(XML)是一種用于標(biāo)記電子文件使其具有結(jié)構(gòu)性的標(biāo)記語(yǔ)言。它可以用來(lái)標(biāo)記數(shù)據(jù)、定義數(shù)據(jù)類型,是一種允許用戶對(duì)自己的標(biāo)記語(yǔ)言進(jìn)行定義的源語(yǔ)言。主要包括GML、Profile、Application schema、KML、GeoRSS和WKT 6種。

        直接可用的互聯(lián)網(wǎng)地理信息并非顯而易見,往往需要進(jìn)一步分析和挖掘。尤其是網(wǎng)頁(yè)中信息數(shù)據(jù)較為分散,其中蘊(yùn)含的規(guī)律并非直觀可見,需要設(shè)計(jì)規(guī)則進(jìn)行挖掘。本文根據(jù)互聯(lián)網(wǎng)地理信息的特點(diǎn),將獲取數(shù)據(jù)的類型分為網(wǎng)頁(yè)型和API型。API型主要指通過調(diào)用API可以獲取并且需要處理格式的數(shù)據(jù)。網(wǎng)頁(yè)型主要指地理信息散落在網(wǎng)頁(yè)上,需要通過分析、挖掘網(wǎng)頁(yè)背后的結(jié)構(gòu)和規(guī)律才能獲取的數(shù)據(jù)。

        2 互聯(lián)網(wǎng)地理信息數(shù)據(jù)獲取技術(shù)路線

        本文技術(shù)路線分為4大階段,即設(shè)計(jì)獲取規(guī)則、互聯(lián)網(wǎng)信息獲取、解析地理信息和數(shù)據(jù)整合(圖1)。設(shè)計(jì)獲取規(guī)則是基礎(chǔ),有助于了解網(wǎng)站的架構(gòu)及確定爬取URL、參數(shù)的設(shè)置。互聯(lián)網(wǎng)信息獲取的核心是有效地避開不同網(wǎng)站的保護(hù)機(jī)制,一是利用程序構(gòu)建HTTP請(qǐng)求,可利用爬蟲偽裝技術(shù)或調(diào)用特定API把程序請(qǐng)求偽裝為瀏覽器請(qǐng)求,將互聯(lián)網(wǎng)信息獲取工具偽裝成普通瀏覽器規(guī)避爬蟲限制,并通過動(dòng)態(tài)代理切換技術(shù),自動(dòng)更換代理,規(guī)避同一IP地址訪問頻率限制;二是瀏覽器自動(dòng)化,借助驗(yàn)證碼自動(dòng)獲取等技術(shù),利用Selenium工具,針對(duì)需要交互式驗(yàn)證(比如輸入驗(yàn)證碼)的情況,配合計(jì)算機(jī)視覺識(shí)別驗(yàn)證碼并自動(dòng)登錄。解析地理信息和數(shù)據(jù)整合為后期并行計(jì)算、分布式存儲(chǔ)提供有力的數(shù)據(jù)支撐。

        圖1 互聯(lián)網(wǎng)地理信息數(shù)據(jù)獲取總體技術(shù)路線

        3 關(guān)鍵技術(shù)內(nèi)容

        3.1 獲取規(guī)則分析

        本文詳細(xì)闡述兩種互聯(lián)網(wǎng)地理信息數(shù)據(jù)爬取方式:① 通過訪問網(wǎng)頁(yè)的HTML代碼,從中抓取所需節(jié)點(diǎn)上的數(shù)據(jù);② 通過網(wǎng)站提供的API調(diào)用獲取所需數(shù)據(jù)。實(shí)際運(yùn)用過程中,網(wǎng)絡(luò)爬蟲系統(tǒng)一般是幾種爬蟲技術(shù)相結(jié)合實(shí)現(xiàn)的。

        3.1.1 信息架構(gòu)分析

        首先分析網(wǎng)站的信息架構(gòu),整理HTML源文件[7],結(jié)合后期數(shù)據(jù)需求,建立目標(biāo)數(shù)據(jù)集與互聯(lián)網(wǎng)站點(diǎn)信息架構(gòu)之間的映射關(guān)系,找出可以用于匹配的特征,選擇合適的獲取方式并設(shè)計(jì)對(duì)應(yīng)的獲取規(guī)則(包括URL規(guī)則、網(wǎng)絡(luò)信息爬取層次規(guī)則)。

        以分析鏈家(南京)官網(wǎng)二手房頁(yè)面為例,打開“Chrome瀏覽器開發(fā)者工具”中的Elements,查看網(wǎng)頁(yè)結(jié)構(gòu)如圖2所示,網(wǎng)頁(yè)中“位置”選項(xiàng)被層層包裹在div、d1等標(biāo)簽中。網(wǎng)頁(yè)按照“城市→區(qū)域/地鐵→房屋屬性組合(售價(jià)、面積、房型等)”的架構(gòu)進(jìn)行設(shè)置,如圖3所示。

        圖2 網(wǎng)頁(yè)架構(gòu)代碼

        圖3 網(wǎng)頁(yè)架構(gòu)組織

        3.1.2 URL結(jié)構(gòu)分析

        研究目標(biāo)路徑的規(guī)則。由于不同城市情況的差異,URL的設(shè)置如下:https://{城市}.lianjia.com/ershoufang/{區(qū)域或地鐵} /{房屋屬性,分頁(yè)組合} /。

        3.1.3 URL參數(shù)收集

        通過勾選不同條件,查看上方地址欄中顯示網(wǎng)址,總結(jié)出標(biāo)簽與URL路徑之間的關(guān)系(表1)。

        表1 鏈家(南京)官網(wǎng)二手房網(wǎng)址解析

        3.1.4 URL構(gòu)建

        以查找“位于鼓樓區(qū)草場(chǎng)門大街,60~90 m2的二室朝南,有電梯,售價(jià)在200~300萬(wàn)元之間的普通住宅”為例,網(wǎng)址如圖4所示。選擇條件先后與url中路徑順序無(wú)關(guān)。

        圖4 網(wǎng)址解析

        3.2 互聯(lián)網(wǎng)信息獲取

        雖然在絕大多數(shù)情況下用戶使用互聯(lián)網(wǎng)服務(wù)是免費(fèi)的,但是幾乎所有的互聯(lián)網(wǎng)信息提供商都采取了數(shù)據(jù)保護(hù)措施[8],例如,識(shí)別數(shù)據(jù)爬蟲發(fā)出的請(qǐng)求并拒絕訪問、拒絕來(lái)自同一IP的頻繁訪問、限制查詢返回的記錄數(shù)、對(duì)頻繁請(qǐng)求要求重新登錄并輸入驗(yàn)證碼等,或隱藏?cái)?shù)據(jù)真實(shí)頁(yè)面URL,只能通過腳本交互方式打開數(shù)據(jù)頁(yè)面等等。本文采用2種規(guī)避數(shù)據(jù)保護(hù)策略,即利用程序構(gòu)建HTTP請(qǐng)求(包含爬蟲偽裝和特定API調(diào)用2種方法)和瀏覽器自動(dòng)化(驗(yàn)證碼自動(dòng)獲取技術(shù))。

        3.2.1 利用程序構(gòu)建HTTP請(qǐng)求

        (1)爬蟲偽裝技術(shù)

        User Agent中文名為用戶代理,是Http協(xié)議中頭域的一部分。它是一個(gè)特殊字符串頭,是一種向訪問網(wǎng)站提供你所使用的瀏覽器類型及版本、操作系統(tǒng)及版本、瀏覽器內(nèi)核等信息的標(biāo)識(shí)[4]。通過該標(biāo)識(shí),用戶所訪問的網(wǎng)站可以顯示不同的排版從而為用戶提供更好的體驗(yàn)或者進(jìn)行信息統(tǒng)計(jì)。一般網(wǎng)站通過分析用戶請(qǐng)求的Headers信息,利用服務(wù)器查看Headers中的User Agent來(lái)判斷是誰(shuí)在訪問。如果是互聯(lián)網(wǎng)信息工具則會(huì)被禁止訪問,因此,為了隱藏身份,需要手動(dòng)設(shè)置User Agent,偽裝成瀏覽器進(jìn)行訪問。在創(chuàng)建Request對(duì)象的時(shí)候,傳入Headers參數(shù),有如下2種方法設(shè)置User Agent:① 在創(chuàng)建Request對(duì)象的時(shí)候,填入Headers參數(shù)(包含User Agent信息),這個(gè)Headers參數(shù)要求為字典;② 在創(chuàng)建Request對(duì)象的時(shí)候不添加Headers參數(shù),在創(chuàng)建完成之后,使用add_header()的方法,添加Headers。

        User Agent設(shè)置好后,還應(yīng)考慮一個(gè)問題,程序的運(yùn)行速度快,如果利用爬蟲程序從網(wǎng)站爬取東西,一個(gè)固定IP的訪問頻率遠(yuǎn)高于實(shí)際人為操作。所以一些網(wǎng)站會(huì)設(shè)置一個(gè)IP訪問頻率的閾值來(lái)判斷是人還是程序在訪問。因此,需要?jiǎng)討B(tài)設(shè)置代理IP來(lái)規(guī)避訪問頻率的限制。

        (2)特定API調(diào)用

        通過調(diào)用API獲取網(wǎng)站數(shù)據(jù)的方式較為簡(jiǎn)單直接,根據(jù)相關(guān)說(shuō)明文檔可以快速了解網(wǎng)站架構(gòu),便于規(guī)則的制定和代碼的編寫。但在調(diào)用過程中,網(wǎng)站會(huì)對(duì)調(diào)用的頻率、次數(shù)進(jìn)行限制,需要根據(jù)網(wǎng)站規(guī)定進(jìn)行設(shè)置,如申請(qǐng)多個(gè)訪問服務(wù)的依據(jù)(Key)或采用間歇性、適當(dāng)休眠的模式進(jìn)行訪問。

        以調(diào)用百度地圖開放平臺(tái)的WEB服務(wù)API(路線規(guī)劃API v2.2.1)為例,分為3個(gè)步驟:① 申請(qǐng)密鑰ak(類似于Key)作為訪問服務(wù)的依據(jù);② 拼寫發(fā)送HTTP請(qǐng)求的URL,需使用上一步申請(qǐng)的ak;③ 接收HTTP請(qǐng)求返回的數(shù)據(jù)(JSON或XML格式),根據(jù)返回值說(shuō)明解析數(shù)據(jù)。根據(jù)規(guī)定,未認(rèn)證用戶(一個(gè)普通ak)每日只可訪問2 000次,每秒并發(fā)20次,認(rèn)證用戶每日可訪問30 000次,每秒并發(fā)50次,因此,要想多次調(diào)用API需要申請(qǐng)多個(gè)ak進(jìn)行訪問。此外,還可以通過生成隨機(jī)數(shù)作為等待時(shí)間,以達(dá)到降低訪問頻率的目的。

        3.2.2 瀏覽器自動(dòng)化

        目前,不少網(wǎng)站在用戶提交信息等登錄和輸入的頁(yè)面上使用了驗(yàn)證碼技術(shù),其實(shí)現(xiàn)的方法一般是在頁(yè)面上顯示一幅圖片,要求用戶肉眼識(shí)別圖片中的信息并將該信息作為輸入的一部分進(jìn)行提交。頁(yè)面上顯示的這幅圖片一般是一串隨機(jī)產(chǎn)生的數(shù)字或符號(hào),并且被添加了用于防止識(shí)別的背景。驗(yàn)證碼的主要目的是防止惡意用戶利用自動(dòng)工具(機(jī)器人)對(duì)用戶口令進(jìn)行暴力破解、惡意注冊(cè),或是向網(wǎng)站發(fā)布令人厭煩的廣告信息等。但與此同時(shí),該技術(shù)的使用使得網(wǎng)絡(luò)爬蟲面臨了較大的困難。本文利用Selenium工具截取頁(yè)面(Java環(huán)境),定位驗(yàn)證碼元素位置,借助在線OCR服務(wù),在百度AI中識(shí)別驗(yàn)證碼圖片中的文字,具體步驟如下。

        (1)獲取HTML標(biāo)簽元素

        在WebDriver中定位元素可以在WebDriver實(shí)例本身或WebElement上完成[9]。每個(gè)語(yǔ)言綁定都會(huì)顯示“查找元素”和“定位元素”方法。前者返回與查詢匹配的WebElement對(duì)象,如果找不到這樣的元素,則會(huì)拋出異常提示。后者返回WebElements的列表,如果沒有DOM元素與查詢匹配,則可能為空?!安檎摇狈椒ú捎妹麨椤癇y”的定位器或查詢對(duì)象。常見的定位方法主要有:按ID、按類名、按標(biāo)簽名稱、按名稱、通過鏈接文本、通過CSS、通過XPath、使用JavaScript和通過標(biāo)簽中的文本。例如,按ID定位是selenium定位方式中最有效、首選的方法,利用HTML元素上類的ID查找效率較高,示例代碼如圖5所示。具體還要根據(jù)實(shí)際情況進(jìn)行組合使用。

        圖5 按ID定位

        (2)模擬用戶進(jìn)行操作

        在從互聯(lián)網(wǎng)爬取數(shù)據(jù)時(shí),除了獲取網(wǎng)頁(yè)上的數(shù)據(jù),還有一個(gè)重要的步驟是模擬用戶進(jìn)行操作。比如刷新、前進(jìn)、后退、文本輸入、點(diǎn)擊“搜索”按鈕、勾選查詢條件、下拉菜單等。例如,模擬“用戶輸入+填寫表單”操作,WebDriver包含一個(gè)名為“Select”的支持類,它提供了處理SELECT元素有用的交互方法,示例代碼如圖6所示。

        圖6 模擬“用戶輸入+填寫表單”操作

        (3)訪問頻繁出現(xiàn)驗(yàn)證碼

        當(dāng)進(jìn)行頻繁訪問時(shí),網(wǎng)站會(huì)出現(xiàn)驗(yàn)證碼驗(yàn)證保護(hù)的情況,因此,通過Selenium截取頁(yè)面?zhèn)魅氚俣華I進(jìn)行識(shí)別。

        (4)將截取的圖片傳到百度AI中進(jìn)行識(shí)別

        利用通用圖像分析功能,POST方式請(qǐng)求服務(wù),用于通用物體及場(chǎng)景識(shí)別,即對(duì)于輸入的一張圖片(可正常解碼,且長(zhǎng)寬比適宜),輸出圖片中的多個(gè)物體及場(chǎng)景標(biāo)簽,返回?cái)?shù)據(jù)為JSON格式。

        3.3 解析地理信息數(shù)據(jù)

        將前文獲取到的地理信息數(shù)據(jù)進(jìn)行分類,對(duì)XML、HTML、JSON 3種格式的數(shù)據(jù)進(jìn)行解析。

        XML文件解析方法有DOM解析、SAX解析、JDOM解析、DOM4J解析4種。其中前2種屬于基礎(chǔ)方法,后2種屬于擴(kuò)展方法,是在基礎(chǔ)方法上擴(kuò)展出來(lái)的,只適用于Java平臺(tái)。DOM4J是JDOM的一種智能分支,也是一個(gè)開放源碼的文件,它合并了許多超出基本XML文檔表示的功能,可處理XML、XPath和XSLT,性能優(yōu)異、靈活性好、功能強(qiáng)大。

        利用Beautiful Soup工具解析HTML文檔,可將復(fù)雜文檔轉(zhuǎn)換成一個(gè)復(fù)雜的樹形結(jié)構(gòu),從而更加快速、準(zhǔn)確地獲取標(biāo)簽的內(nèi)容。每個(gè)節(jié)點(diǎn)都是Python對(duì)象,所有對(duì)象可以歸納為4種:Tag類、Beautiful Soup類、NavigableString類和Comment類。

        JSON數(shù)據(jù)解析主要有2種思路,一是針對(duì)單一格式的JSON數(shù)據(jù)采用原生解析的方法;二是針對(duì)嵌套復(fù)雜的JSON數(shù)據(jù)采用第三方工具解析。JSON主要有以下3種基本類型:① “大括號(hào){}”類型;② “中括號(hào)”類型;③ “組合{…}”型。通過遍歷字符串中的字符,并根據(jù)特助字符,比如{},,:號(hào)等進(jìn)行區(qū)分,{}是字典,表示的是數(shù)組,:號(hào)是字典的鍵和值的分水嶺,最后是將JSON數(shù)據(jù)轉(zhuǎn)化為字典,然后使用KVC將字典轉(zhuǎn)為model。如果看到是{},使用JSONObject;如果看到的是,使用JSONArray解析。Gson是Google提供的用來(lái)在Java對(duì)象和JSON數(shù)據(jù)之間進(jìn)行映射的Java類庫(kù)。可以將一個(gè)JSON字符串轉(zhuǎn)成一個(gè)Java對(duì)象,或者反過來(lái)。Gson提供了fromJson()和toJson()兩個(gè)直接用于解析和生成的方法,前者實(shí)現(xiàn)反序列化,后者實(shí)現(xiàn)了序列化。通過獲取JsonReader對(duì)象解析JSON數(shù)據(jù),把JSON數(shù)據(jù)映射成一個(gè)對(duì)象,使用Gson對(duì)象的fromJson()方法獲取一個(gè)對(duì)象數(shù)組進(jìn)行操作。

        3.4 數(shù)據(jù)整合

        在獲取數(shù)據(jù)并進(jìn)行解析之后,面對(duì)后期不同應(yīng)用需求,需要對(duì)數(shù)據(jù)進(jìn)行整合,包括數(shù)據(jù)清洗、空間化、一致性處理等操作。

        3.4.1 數(shù)據(jù)清洗

        其核心內(nèi)容是查漏、補(bǔ)缺、去重,對(duì)照數(shù)據(jù)要求,查找缺失屬性值的數(shù)據(jù),通過關(guān)聯(lián)信息抓取的方式補(bǔ)充屬性值,如果缺失的屬性值是必要屬性則補(bǔ)充打上標(biāo)記。進(jìn)行去重處理是檢查是否存在重復(fù)的記錄,刪除重復(fù)的記錄。

        3.4.2 空間化

        對(duì)通過互聯(lián)網(wǎng)獲取的XML、JSON、HTML數(shù)據(jù)進(jìn)行解析,對(duì)有坐標(biāo)的數(shù)據(jù)直接構(gòu)建幾何對(duì)象,對(duì)不包含坐標(biāo)的數(shù)據(jù),通過抓取關(guān)聯(lián)信息獲取相應(yīng)坐標(biāo)信息或者地名地址匹配等空間匹配方法的方式構(gòu)建幾何對(duì)象。對(duì)于有坐標(biāo)的數(shù)據(jù)來(lái)說(shuō),根據(jù)坐標(biāo)值對(duì)非空間數(shù)據(jù)直接空間化。例如,在EXCEL或CSV格式中存儲(chǔ)了大量X、Y坐標(biāo),利用一個(gè)或多個(gè)2DPointAdder轉(zhuǎn)換器,添加2維坐標(biāo)點(diǎn),可以是折線或構(gòu)造多邊形。

        3.4.3 一致性處理

        一致性處理包括屬性一致性與空間一致性,根據(jù)實(shí)際需求,有針對(duì)性地將數(shù)據(jù)進(jìn)行“重命名、復(fù)制、增加、刪除”等操作。① 屬性一致性:對(duì)照數(shù)據(jù)字典的要求,在編碼、屬性賦值等方面處理為符合要求的數(shù)據(jù)。如在獲取鏈家(南京)官網(wǎng)數(shù)據(jù)的過程中,對(duì)“日期屬性”進(jìn)行格式轉(zhuǎn)換和屬性篩選。② 空間一致性:主要體現(xiàn)在幾何類型和空間參考的一致性上。空間參考一致性主要針對(duì)坐標(biāo)進(jìn)行變換,為保證轉(zhuǎn)換前后數(shù)據(jù)圖層、要素一致,提高生產(chǎn)效率,先對(duì)數(shù)據(jù)進(jìn)行接邊檢查,在進(jìn)行坐標(biāo)轉(zhuǎn)換后,進(jìn)行接邊融合和重新分幅剪裁。

        4 應(yīng)用實(shí)例

        根據(jù)上述技術(shù)路線及內(nèi)容,本文開發(fā)了互聯(lián)網(wǎng)房產(chǎn)數(shù)據(jù)整合工具(圖7)。用戶通過頁(yè)面提交感興趣的區(qū)域范圍,系統(tǒng)自動(dòng)爬取鏈家、房天下等互聯(lián)網(wǎng)房產(chǎn)網(wǎng)中二手房信息,爬取完成后生成shapefile文件供用戶下載。獲取的房產(chǎn)信息可以為地理國(guó)情分析評(píng)價(jià)指標(biāo)設(shè)置提供支撐,為分析城市住區(qū)規(guī)模時(shí)空特征與演化規(guī)律提供依據(jù)。

        圖7 房產(chǎn)數(shù)據(jù)整合工具

        5 結(jié) 語(yǔ)

        本文詳細(xì)闡述了互聯(lián)網(wǎng)地理信息獲取的技術(shù)路線,將數(shù)據(jù)獲取分為兩種類型——網(wǎng)頁(yè)型和API型,從設(shè)計(jì)獲取規(guī)則、互聯(lián)網(wǎng)信息獲取、解析地理信息、數(shù)據(jù)整合4個(gè)方面闡述了如何根據(jù)需求設(shè)計(jì)相應(yīng)爬取數(shù)據(jù)的路線,為地理國(guó)情監(jiān)測(cè)提供數(shù)據(jù)方面的支持,有利于進(jìn)一步開展時(shí)空大數(shù)據(jù)挖掘方面的研究。

        猜你喜歡
        爬蟲瀏覽器網(wǎng)頁(yè)
        利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說(shuō)
        基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
        反瀏覽器指紋追蹤
        電子制作(2019年10期)2019-06-17 11:45:14
        基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
        電子制作(2018年10期)2018-08-04 03:24:38
        利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
        基于URL和網(wǎng)頁(yè)類型的網(wǎng)頁(yè)信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
        電子制作(2017年9期)2017-04-17 03:00:46
        環(huán)球?yàn)g覽器
        再見,那些年我們嘲笑過的IE瀏覽器
        網(wǎng)頁(yè)制作在英語(yǔ)教學(xué)中的應(yīng)用
        日本a级黄片免费观看| 国产不卡av一区二区三区| 久久精品国产一区二区蜜芽| 国产思思久99久精品| 一区二区三区国产偷拍| 日韩国产自拍视频在线观看 | 国产精成人品日日拍夜夜免费| 8av国产精品爽爽ⅴa在线观看| 亚洲自偷自偷偷色无码中文| 国精品无码一区二区三区在线看 | 国产成人精品成人a在线观看| 亚洲精品有码在线观看| 综合图区亚洲另类偷窥| 久久99久久久精品人妻一区二区 | 欧美操逼视频| 97在线视频免费| 被驯服人妻中文字幕日本| 亚洲高清自偷揄拍自拍| 日韩女优视频网站一区二区三区| 色中文字幕在线观看视频| 丰满的人妻hd高清日本| 波多野结衣乳巨码无在线| www.狠狠艹| 亚洲精品综合色区二区| 久久久亚洲一区二区三区| 中文字幕第一页人妻丝袜| 免费无码不卡视频在线观看 | 果冻蜜桃传媒在线观看| 我想看久久久一级黄片| 精品人妻一区三区蜜桃| 午夜射精日本三级| 成人小说亚洲一区二区三区| 91精品国产色综合久久不卡蜜 | 日本成人字幕在线不卡| 国产成人久久综合第一区| 亚洲国产精品悠悠久久琪琪| 女人的精水喷出来视频| 激性欧美激情在线| 亚州综合激情另类久久久| 无码专区无码专区视频网址| 中文字幕乱码亚洲在线|