亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Python的分布式多主題網(wǎng)絡爬蟲的研究與設計

        2021-07-01 05:13:38張勝敏王愛菊
        開封大學學報 2021年1期
        關鍵詞:爬蟲搜索引擎網(wǎng)頁

        張勝敏,王愛菊

        (1.開封大學 信息工程學院,河南 開封 475004;2.鄭州工程技術學院 信息工程學院,河南 鄭州 450044)

        0 引言

        隨著物聯(lián)網(wǎng)技術的快速發(fā)展,網(wǎng)絡資源量不斷增加,相應的,對網(wǎng)絡信息檢索技術的要求也在逐漸提高。如何快速準確地檢索出網(wǎng)絡信息成為搜索引擎研究面臨的重要課題。像百度、Google、搜狗等常用的搜索引擎都存在著一定的局限性。現(xiàn)有的檢索方式包括基于關鍵詞的檢索、基于特定語義的檢索等等?;陉P鍵詞的檢索是常用的搜索方式,該方式簡單便捷,但檢索的結(jié)果與預期還存在較大的差距。搜索引擎發(fā)展面臨種種挑戰(zhàn),需要有效應對,定向抓取網(wǎng)絡資源的網(wǎng)絡爬蟲技術由此產(chǎn)生。網(wǎng)絡爬蟲是一個按照特定主題和一定規(guī)則來抓取網(wǎng)絡上頁面資源的檢索程序,它為搜索引擎提供檢索數(shù)據(jù)。該檢索程序已經(jīng)被廣泛應用,目前在各種搜索引擎中都存在。網(wǎng)絡爬蟲抓取網(wǎng)頁資源的原理是:從種子YRL數(shù)據(jù)集合入手,提取出種子YRL在頁面上內(nèi)部鏈接的YRL。在抓取頁面資源的過程中,需要不斷從當前網(wǎng)絡頁面上抽取新的YRL放入YRL種子集合,從YRL種子集合中篩選出符合抓取主題條件的YRL,然后開始抓取網(wǎng)頁資源,如此循環(huán)往復,直至滿足檢索引擎預先設定的抓取深度為止。網(wǎng)絡爬蟲會根據(jù)抓取主題,有針對性地抓取網(wǎng)絡上的頁面資源,以此獲取與主題相關的網(wǎng)頁信息。網(wǎng)絡爬蟲的開發(fā)與使用解決了搜索引擎的一部分問題,相對于搜索引擎原有的數(shù)據(jù)檢索程序而言,它是先進的,但還不夠,它還需要解決定義抓取主題、大量過濾網(wǎng)絡數(shù)據(jù)、URL抓取策略等問題。目前常用的網(wǎng)絡爬蟲主要分為單一主題網(wǎng)絡爬蟲和聚焦網(wǎng)絡爬蟲。這兩種網(wǎng)絡爬蟲由于抓取主題單一,所以檢索結(jié)果的數(shù)據(jù)量龐大,需要對其進行二次檢索,檢索過程繁瑣?,F(xiàn)實表明,傳統(tǒng)的網(wǎng)絡爬蟲已經(jīng)無法滿足搜索引擎發(fā)展的需求。本文設計了一種基于Python的分布式多主題網(wǎng)絡爬蟲,目的是提高搜索引擎的搜索效率和精度。

        1 基于Python的分布式多主題網(wǎng)絡爬蟲設計

        網(wǎng)絡爬蟲需要完成的主要任務是獲取CEO的Series數(shù)據(jù)庫中的所有網(wǎng)頁資源。要通過超鏈接的方式,使網(wǎng)頁與爬蟲相對應,實現(xiàn)高效、快速、準確的抓取,取得良好的應用效果。此次網(wǎng)絡爬蟲設計與傳統(tǒng)爬蟲設計最大的不同之處就是在設計中加入了Python技術,實現(xiàn)了分布式多主題網(wǎng)頁資源抓取。此次設計的網(wǎng)絡爬蟲要滿足可擴展性、跨平臺性、高能性、健壯性等設計需求[1]。其中,可擴展性和跨平臺性主要體現(xiàn)為網(wǎng)絡爬蟲能夠應用到多個檢索領域。網(wǎng)絡爬蟲需要根據(jù)分布式多主題抓取到大量的網(wǎng)頁資源,這些網(wǎng)頁資源由于來源不同,所以其數(shù)據(jù)格式也有所不同。網(wǎng)絡爬蟲因為要容納多種格式的網(wǎng)頁資源,所以必須具備較強的可擴展性和跨平臺性。高能性體現(xiàn)為網(wǎng)絡爬蟲既能獲取大量的網(wǎng)頁信息,還能保持較快的抓取速度,具有很高的抓取效率。高能性是網(wǎng)絡爬蟲必須具備的基礎性能[2]。健壯性主要體現(xiàn)為網(wǎng)絡爬蟲能夠有效處理各種疑難問題、消除各種異?,F(xiàn)象且遵循最優(yōu)的抓取途徑。Python技術為網(wǎng)絡爬蟲提供了合理的程序異常處理手段與抓取途徑。網(wǎng)絡爬蟲在抓取網(wǎng)頁資源的過程中,會遇到各種異?,F(xiàn)象,比如由程序錯誤導致的閃退、突然死機、網(wǎng)頁編碼不合理等,所以網(wǎng)絡爬蟲必須具備健壯性,擁有強大的能力,能夠有效處理各種疑難問題、消除各種異?,F(xiàn)象且遵循最優(yōu)的抓取途徑,這是十分重要的。以下分別從架構與抓取途徑兩個方面,進行基于Python的分布式多主題網(wǎng)絡爬蟲設計。

        1.1 分布式多主題網(wǎng)絡爬蟲架構設計

        根據(jù)上文對網(wǎng)絡爬蟲的功能需求和性能需求的分析,我們將網(wǎng)絡爬蟲的構架設計為分布式架構,其目的是使網(wǎng)絡爬蟲實現(xiàn)多主題并行搜索,提高網(wǎng)絡爬蟲的整體性能,以此實現(xiàn)分布式多主題網(wǎng)絡爬蟲的設計目標[3]。此次設計的分布式網(wǎng)絡爬蟲架構主要包括物理架構與邏輯架構。其中,物理架構由Python集群與Storm集群兩部分組成,邏輯架構由指標計算部分和處理部分組成。

        圖1為基于Python的分布式多主題網(wǎng)絡爬蟲物理架構。從圖1中可以看出,Python集群與Storm集群這兩個集群是分開的。這兩個集群也可以部署在同一臺機器上,此次將這兩個集群分開設計,主要是考慮到網(wǎng)絡爬蟲的運行壓力。為了避免Python集群與Storm集群對網(wǎng)絡爬蟲造成運行壓力,增強網(wǎng)絡爬蟲對網(wǎng)頁資源的抓取性能,我們采用了分開部署的方式。Python集群主要負責網(wǎng)絡爬蟲的程序運行。部署Python集群的目的是提高網(wǎng)絡爬蟲的分布式存儲能力和分布式計算能力。Python集群可以將每個網(wǎng)絡爬蟲任務都劃分成多個子任務,并將它們分布到各個Name Node節(jié)點上,同時,將爬蟲抓取到的網(wǎng)頁資源儲存到集群中。Storm集群主要負責實時計算出網(wǎng)絡爬蟲抓取指標的結(jié)果,該指標是指網(wǎng)絡爬蟲抓取頁面階段與分析頁面階段產(chǎn)生的相關指標數(shù)據(jù)。

        圖1 基于Python的分布式多主題網(wǎng)絡爬蟲物理架構

        除了設計分布式網(wǎng)絡爬蟲物理架構之外,根據(jù)網(wǎng)絡爬蟲的功能需求和抓取流程需求,我們又設計了分布式網(wǎng)絡爬蟲的邏輯架構。組成邏輯架構的指標計算部分和處理部分,是與分布式網(wǎng)絡爬蟲物理架構中的兩部分一一對應的[4]。處理部分主要負責網(wǎng)絡爬蟲抓取任務的實現(xiàn),抓取到的網(wǎng)頁資源,利用分布式數(shù)據(jù)庫Hlbase進行儲存;指標計算部分在Storm集群平臺上實現(xiàn),該部分配合Storm集群,實時計算網(wǎng)絡爬蟲在抓取過程中產(chǎn)生的相關指標數(shù)據(jù),并將計算結(jié)果同樣利用分布式數(shù)據(jù)庫Hlbase儲存起來。

        通過以上步驟和方式,實現(xiàn)了分布式多主題網(wǎng)絡爬蟲架構設計。

        1.2 分布式多主題網(wǎng)絡爬蟲抓取途徑設計

        此次設計了三種網(wǎng)絡爬蟲抓取途徑,包括API接口抓取數(shù)據(jù)、GUI接口下載數(shù)據(jù)[5]、編寫爬蟲程序下載數(shù)據(jù)。

        1.2.1 API接口抓取數(shù)據(jù)

        API是一種應用程序編程接口,該接口通過預先定義的函數(shù)為應用程序提供訪問一組例程的能力。傳統(tǒng)網(wǎng)絡爬蟲抓取路徑接口需要編寫函數(shù)以及理解爬蟲內(nèi)部的抓取機制,導致網(wǎng)絡爬蟲抓取效率較低。此次運用API接口設計了一條抓取路徑,API接口使用起來比較簡單便捷。通過改進接口,可以使網(wǎng)絡爬蟲快速獲取所需要的網(wǎng)頁資源,而不需要了解網(wǎng)絡爬蟲的具體抓取過程。用一個API接口直接下載網(wǎng)頁數(shù)據(jù),可以有效保證抓取數(shù)據(jù)格式、數(shù)據(jù)結(jié)構的完整性。

        1.2.2 GUI接口下載數(shù)據(jù)

        GUI接口抓取路徑是為網(wǎng)絡圖形數(shù)據(jù)資源抓取服務的。GUI是一種圖形接口,該接口擁有強大的圖形獲取功能,網(wǎng)絡爬蟲通過該接口,完成圖形等網(wǎng)頁資源的抓取,并將抓取到的網(wǎng)頁資源以最直觀的圖形方式呈現(xiàn)出來。該途徑不需要網(wǎng)絡爬蟲記憶大量的抓取命令,網(wǎng)絡爬蟲只需要執(zhí)行少量的選擇命令、執(zhí)行命令即可完成抓取任務。該途徑占用的網(wǎng)絡資源較少,且具有較高的可靠性。

        1.2.3 編寫爬蟲程序下載數(shù)據(jù)

        編寫爬蟲程序抓取路徑相對于前兩種路徑,具有高效率、高質(zhì)量抓取等優(yōu)點,使網(wǎng)絡爬蟲可以在互聯(lián)網(wǎng)大量的公開數(shù)據(jù)抓取中支持正則表達式操作。該路徑擁有強大的腳本語言系統(tǒng)作為抓取支持。該路徑是運用hadoop編寫技術設計的。通過該路徑,可以精準獲取到與主題相關的數(shù)據(jù)。操作簡單高效,接口穩(wěn)定性好,并且還能增強網(wǎng)絡爬蟲的穩(wěn)健性能[6]。

        本文設計了三種網(wǎng)絡爬蟲抓取路徑,完成了基于Python的分布式多主題網(wǎng)絡爬蟲研究。

        2 實驗

        此次根據(jù)搜索引擎對網(wǎng)絡爬蟲的需求,設計了一種基于Python的分布式多主題網(wǎng)絡爬蟲。為了證明該網(wǎng)絡爬蟲能夠更好地滿足搜索引擎的檢索需求,我們進行一組對比實驗,將兩種網(wǎng)絡爬蟲應用到同一種搜索引擎上,對比兩種網(wǎng)絡爬蟲的抓取速度。實驗環(huán)境中,共部署了5臺R780機架式服務器,將其中3臺服務器分配到Python集群,2臺服務器分配到Storm集群。表1為5臺服務器的部署情況。

        表1 網(wǎng)絡爬蟲服務器配置參數(shù)

        此次實驗共進行8次檢測,每次都給兩個網(wǎng)絡爬蟲各分配100個抓取任務,以檢驗此次設計的網(wǎng)絡爬蟲的抓取速度。圖2為兩種網(wǎng)絡爬蟲抓取速度對比圖。

        圖2 兩種網(wǎng)絡爬蟲抓取速度對比

        圖2顯示,此次設計的網(wǎng)絡爬蟲平均抓取速度為65000YRL/h,而傳統(tǒng)爬蟲平均抓取速度為35000 YRL/h,遠遠低于此次設計的網(wǎng)絡爬蟲。實驗證明,此次設計的基于Python的分布式多主題網(wǎng)絡爬蟲擁有較高的抓取速度。

        3 結(jié)束語

        此次將Python技術應用到網(wǎng)絡爬蟲設計中,推出一個分布式多主題網(wǎng)絡爬蟲,該設計提高了網(wǎng)絡爬蟲對網(wǎng)頁資源的抓取速度。實驗證明,該網(wǎng)絡爬蟲具有較高的應用價值。目前,該網(wǎng)絡爬蟲處在研發(fā)初級階段,還存在一些不足之處,需要通過深入研究而不斷完善。期待不久的將來,它在搜索引擎中被廣泛應用。

        猜你喜歡
        爬蟲搜索引擎網(wǎng)頁
        利用網(wǎng)絡爬蟲技術驗證房地產(chǎn)灰犀牛之說
        基于Python的網(wǎng)絡爬蟲和反爬蟲技術研究
        基于CSS的網(wǎng)頁導航欄的設計
        電子制作(2018年10期)2018-08-04 03:24:38
        利用爬蟲技術的Geo-Gnutel la VANET流量采集
        電子測試(2018年1期)2018-04-18 11:53:04
        基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡爬蟲技術
        電子制作(2017年9期)2017-04-17 03:00:46
        網(wǎng)頁制作在英語教學中的應用
        電子測試(2015年18期)2016-01-14 01:22:58
        網(wǎng)絡搜索引擎亟待規(guī)范
        基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
        10個必知的網(wǎng)頁設計術語
        人妻无码视频| 韩国三级在线观看久| 中文字幕乱码熟女人妻水蜜桃| 国产区精品| 亚洲精品中文字幕尤物综合| 国产一区二区黄色的网站| 美女露内裤扒开腿让男人桶无遮挡 | 国产精品国产高清国产专区| 日日碰狠狠添天天爽| 国产欧美日韩综合在线一区二区| 国产精品一区二区日韩精品| 国产精品狼人久久影院软件介绍| 一本色道久久综合无码人妻| 9999毛片免费看| 肉丝高跟国产精品啪啪| 日韩精品久久中文字幕| 无遮无挡爽爽免费毛片| 国产精品亚洲片夜色在线| 中文字幕一区二区三区综合网| 欧美xxxx做受欧美88| 亚洲精品无码不卡av| 国产成人av综合色| 第一九区另类中文字幕| 国产人与zoxxxx另类| 一级呦女专区毛片| av是男人的天堂免费| 天天做天天添av国产亚洲| 大学生被内谢粉嫩无套| 亚洲av色香蕉一区二区蜜桃| 丝袜美腿视频一区二区 | 凌辱人妻中文字幕一区| 成人妇女免费播放久久久| 在线亚洲AV成人无码一区小说| 日韩精品免费av一区二区三区 | 日韩av在线不卡一二三区| 偷拍偷窥女厕一区二区视频| 国产精品久久久久久52avav| 国产精品久久这里只有精品| 国内偷拍国内精品多白86| 中国女人做爰视频| 色www亚洲|