亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)絡爬蟲技術與策略分析

        2022-07-26 02:24:14劉曉魁
        網(wǎng)絡安全技術與應用 2022年5期
        關鍵詞:網(wǎng)絡地址爬蟲優(yōu)先

        ◆劉曉魁

        網(wǎng)絡爬蟲技術與策略分析

        ◆劉曉魁1,2,3

        (1.安陽師范學院計算機與信息工程學院 河南 455000;2.甲骨文信息處理教育部重點實驗室 河南 455000;3.河南省甲骨文信息處理重點實驗室 河南 455000)

        網(wǎng)絡爬蟲和網(wǎng)絡反爬蟲在博弈中不斷成長,網(wǎng)絡爬蟲的存在已經(jīng)成為網(wǎng)絡信息時代一種常態(tài)。隨著大數(shù)據(jù)和人工智能技術的出現(xiàn),網(wǎng)絡爬蟲也越來越規(guī)?;椭悄芑?,對網(wǎng)絡爬蟲的研究也要越來越明晰且與時俱進。本文對目前網(wǎng)絡爬蟲的特征、分類、所使用的工作流程和爬行策略進行梳理和比較,為網(wǎng)絡爬蟲提供較全面的總結,為進一步研究網(wǎng)絡爬蟲和網(wǎng)絡反爬蟲提供重要參考。

        網(wǎng)絡爬蟲;爬蟲技術;爬蟲策略

        網(wǎng)絡爬蟲是自動地抓取萬維網(wǎng)信息的程序或者腳本。它是一個雙刃劍。一方面,它提高了對網(wǎng)絡數(shù)據(jù)的挖掘和分析檢索能力。目前,在國內外,爬蟲技術是搜索引擎的關鍵環(huán)節(jié),是分析和獲取網(wǎng)絡數(shù)據(jù)非常有效的方式。甚至爬蟲算法的優(yōu)劣直接影響搜索引擎的性能。在開放融合的網(wǎng)絡環(huán)境下,尤其是伴隨大數(shù)據(jù)技術在互聯(lián)網(wǎng)領域的廣泛應用,爬蟲已從搜索引擎應用拓展到了其他各個領域,成為大數(shù)據(jù)時代最重要的信息收集方式。比如商務智能上的企業(yè)市場信息收集;數(shù)據(jù)研究上的原始資料獲取;網(wǎng)絡輿情的信息收集等等?;谂老x技術的就業(yè)信息管理平臺、基于網(wǎng)絡爬蟲的上市公司交易數(shù)據(jù)共享平臺、面向訂票服務器端爬蟲的可視檢測等等應用陸續(xù)出現(xiàn)。爬蟲技術在互聯(lián)網(wǎng)領域之中的有效應用,對互聯(lián)網(wǎng)技術的發(fā)展提供了助力。

        但是對于開放融合網(wǎng)絡環(huán)境下的資源網(wǎng)站,也存在快速被竊取的風險。Distil Networks發(fā)布的《2021 Bad Bot Report》報告指出,在2020年,互聯(lián)網(wǎng)中有25.6%的流量是不遵守爬蟲協(xié)議的惡意爬蟲,而整個爬蟲程序流量占互聯(lián)網(wǎng)流量的40.8%之多。如圖1為2021年互聯(lián)網(wǎng)惡意爬蟲流行報告。對于數(shù)據(jù)所有者,爬蟲的過度爬取會嚴重消耗網(wǎng)絡和機器資源,占用網(wǎng)站服務帶寬,甚至導致核心數(shù)據(jù)泄漏、失竊。還會涉及版權甚至法律等層面的事件。曾經(jīng)沸沸揚揚的,號稱中國最大的用戶畫像關鍵數(shù)據(jù)服務提供商巧達科技,因為一個程序員的爬蟲程序,導致整個公司200多人集體被抓。網(wǎng)絡爬蟲已經(jīng)成為互聯(lián)時代不能被忽視的問題。網(wǎng)絡爬蟲的入門門檻很低,網(wǎng)上有開源的爬蟲可以直接使用,也是導致目前互聯(lián)網(wǎng)爬蟲橫行的重要原因。

        圖1 2021年互聯(lián)網(wǎng)惡意爬蟲流行報告

        (來源:https://www.imperva.com/blog/bad-bot-report-2021-the-pandemic-of-the-internet/)

        1 當前網(wǎng)絡爬蟲的特點

        1.1 當前網(wǎng)絡爬蟲的特點

        網(wǎng)絡爬蟲已經(jīng)與互聯(lián)網(wǎng)相伴相生、密不可分。伴隨著大數(shù)據(jù)和智能化技術的發(fā)展,當前網(wǎng)絡爬蟲越來越向規(guī)模化和智能化方向發(fā)展。網(wǎng)絡爬蟲不只是會對開放融合環(huán)境下的海量數(shù)據(jù)進行數(shù)據(jù)爬取和存儲,還會通過對數(shù)據(jù)的抽取、標注、去重、去噪、關聯(lián)、轉換等清洗過程,將數(shù)據(jù)轉換成結構化的標準數(shù)據(jù),為了得到更有價值的數(shù)據(jù),可以進一步對數(shù)據(jù)進行分析和挖掘。融合貫通開放融合環(huán)境下的互聯(lián)網(wǎng)數(shù)據(jù)孤島,最終呈現(xiàn)出更加宏觀和專業(yè)的數(shù)據(jù)挖掘可視化成果,可以作為決策和判斷的重要依據(jù)。各種專業(yè)的爬蟲網(wǎng)站和平臺不斷涌現(xiàn);各種語言開發(fā)的爬蟲工具也層出不窮。無惡意的普通爬蟲和不遵守爬蟲協(xié)議的惡意爬蟲分散在互聯(lián)網(wǎng)中,幾乎占據(jù)所有網(wǎng)絡流量的2/5強。如果沒有任何限制,網(wǎng)絡爬蟲的發(fā)展幾乎是一發(fā)而不可收的。

        1.2 網(wǎng)絡爬蟲面臨的法律背景

        在相應的法律建設方面,幾個重要事件對網(wǎng)絡爬蟲產生了巨大影響。首先是自2017年6月1日起開始施行的《中華人民共和國網(wǎng)絡安全法》,為網(wǎng)絡空間主權和國家安全、社會公共利益提供了整體的法律基礎,同時也在保護公民合法權益,促進經(jīng)濟社會信息化健康發(fā)展提供了保障,也為網(wǎng)絡爬蟲的發(fā)展提供了方向指引。特別是在個人信息的搜集方面,無論是有意的搜集還是惡意的爬取,都將面臨法律層面更加嚴格規(guī)范的監(jiān)管甚至是裁決。另外,我國首部關于數(shù)據(jù)安全的法律《數(shù)據(jù)安全法》,已定于2021年9月1日正式施行,為爬蟲限制了明確的法律邊界,可以說對網(wǎng)絡爬蟲的影響意義深遠,標志著我國數(shù)據(jù)安全領域將進入有法可依的時代。我們也相信網(wǎng)絡爬蟲技術也會在合法合規(guī)的環(huán)境下會更加健康的發(fā)展。

        2 網(wǎng)絡爬蟲技術的分類

        雖然隨著網(wǎng)絡爬蟲技術的發(fā)展,其手段不斷翻新??梢愿鶕?jù)所采取的主要技術手段將現(xiàn)階段網(wǎng)絡爬蟲分為通用網(wǎng)絡爬蟲、聚焦網(wǎng)絡爬蟲、增量式網(wǎng)絡爬蟲和深層網(wǎng)絡爬蟲4種類型。

        2.1 通用網(wǎng)絡爬蟲

        通用網(wǎng)絡爬蟲常見于大型搜索引擎中,通常爬取互聯(lián)網(wǎng)中目標資源的范圍較廣、涉及的數(shù)據(jù)量很大,對爬蟲服務器的性能要求非常高。通用網(wǎng)絡爬蟲一般由爬取對象初始網(wǎng)絡地址、爬取URL隊列、頁面爬取模塊、爬取內容數(shù)據(jù)庫等構成。

        通用網(wǎng)絡爬蟲實施的過程如圖2所示。首先確定初始網(wǎng)絡地址,然后爬取初始網(wǎng)絡地址頁面內容存儲到數(shù)據(jù)庫中,并將新發(fā)現(xiàn)的URL地址加入URL列表中。然后判定是否滿足停止條件,如果不滿足停止條件,就在URL列表中選擇下一個URL地址,并使用新URL地址爬取網(wǎng)頁內容,然后從新網(wǎng)頁中獲取新的URL地址放到URL列表中,URL列表中的順序一般是按照時間默認自動延續(xù)追加的,最終會窮盡到無法獲取新的URL地址或者滿足停止條件結束。

        圖2 通用網(wǎng)絡爬蟲工作流程圖

        2.2 聚焦網(wǎng)絡爬蟲

        聚焦網(wǎng)絡爬蟲,顧名思義是聚焦到特定主題目標網(wǎng)站或頁面的特定信息進行爬取的網(wǎng)絡爬蟲。一般是由初始網(wǎng)絡地址、頁面爬取模塊、爬取內容數(shù)據(jù)庫、無關鏈接過濾、URL優(yōu)先級排序等構成。相對于通用網(wǎng)絡爬蟲增加了無關鏈接過濾和URL優(yōu)先級排序環(huán)節(jié),更加高效和具有針對性。

        聚焦網(wǎng)絡爬蟲實現(xiàn)過程如圖2所示。首先確定初始網(wǎng)絡地址,然后爬取初始網(wǎng)絡地址頁面內容存儲到數(shù)據(jù)庫中,并將新發(fā)現(xiàn)的URL地址經(jīng)過無關URL鏈接過濾,如果不符合過濾條件將新發(fā)現(xiàn)URL地址加入URL列表,并重新進行URL優(yōu)先級排序,然后判斷是否符合結束條件,如果經(jīng)過無關URL鏈接過濾符合過濾條件就將新發(fā)現(xiàn)URL地址遺棄,并直接判斷是否符合結束條件。如果不滿足停止條件,就在URL列表中選擇下一個URL地址,并使用新URL地址爬取網(wǎng)頁內容,最終窮盡到無法獲取新的URL地址或者滿足停止條件結束。

        圖3 聚焦網(wǎng)絡爬蟲工作流程圖

        2.3 增量式網(wǎng)絡爬蟲

        增量式網(wǎng)絡爬蟲是指對已下載網(wǎng)頁采取增量式更新的爬蟲。它只爬取新產生或發(fā)生更新的頁面。

        這與聚焦網(wǎng)絡爬蟲存在相似的地方是,聚焦網(wǎng)絡爬蟲中的無關URL鏈接過濾環(huán)節(jié),對應在增量式網(wǎng)絡爬蟲中更加明確增加了爬取對象的本地頁面數(shù)據(jù)庫和本地URL集可以進行參照和對比。不用重新下載已經(jīng)下載并且沒有發(fā)生變化的頁面,雖然爬行算法的復雜度有所增加,對爬蟲服務器的性能要求比較高,本地存儲的成本也有所增加。但是這不僅保持了爬取網(wǎng)頁內容的及時更新,而且明顯降低了爬蟲工作量。

        增量式網(wǎng)絡爬蟲的工作流程是首先確定初始網(wǎng)絡地址,然后爬取初始網(wǎng)絡地址頁面內容存儲到數(shù)據(jù)庫中,并將新發(fā)現(xiàn)的URL地址與本地URL集可以進行參照和對比,如果URL未經(jīng)爬取或者其對應內容已經(jīng)爬取但是存在更新,就將新發(fā)現(xiàn)URL地址加入URL列表,并重新進行URL優(yōu)先級排序,然后判斷是否符合結束條件,如果不滿足停止條件,就在URL列表中選擇下一個URL地址進行循環(huán)爬取,最終窮盡到無法獲取新的URL地址或者滿足停止條件結束。

        增量式網(wǎng)絡爬蟲實現(xiàn)過程如圖4所示。

        圖4 增量式網(wǎng)絡爬蟲工作流程圖

        2.4 深層網(wǎng)絡爬蟲

        圖5 深層網(wǎng)絡爬蟲工作流程圖

        深層網(wǎng)絡爬蟲針對的是隱藏在表單后面,需要提交關鍵詞之后獲取到的頁面。表單填寫是深層網(wǎng)絡爬蟲最重要環(huán)節(jié)。

        相對于其他網(wǎng)絡爬蟲,最典型的特征就是具有自己的表單數(shù)據(jù)源集合。經(jīng)過表單的分析處理,可以進行表單的自動填充和提交。其實現(xiàn)過程如圖5所示。

        按照表單填寫內容不同深層網(wǎng)絡爬蟲可以分為兩種:一種是基于領域知識的表單填寫。需要建立一個關鍵詞庫,并根據(jù)語義分析填寫關鍵詞;還有是基于對網(wǎng)頁結構分析對表單進行自動填寫,在領域知識有限的情況下往往使用這一種。

        3 常見爬行策略

        爬行策略通常是指爬取URL列表時爬取順序的策略。常見的爬行策略主要有深度優(yōu)先爬行策略、廣度優(yōu)先爬行策略、大站優(yōu)先策略、反鏈策略、網(wǎng)頁更新策略、用戶體驗策略、歷史數(shù)據(jù)策略等。爬取順序對通用網(wǎng)絡爬蟲來說作用并不明顯,但是對其他爬蟲非常重要,比如聚焦網(wǎng)絡,爬蟲爬取的順序影響到無關URL鏈接地址過濾和URL優(yōu)先級排序,嚴重影響到爬蟲的效率和優(yōu)劣。下面簡單分析它們各自的特點。

        深度優(yōu)先爬行策略爬取時會將網(wǎng)頁的下層鏈接依次進行深入爬取,達到邊際時返回上一個節(jié)點再橫向進行鏈接爬取。具體過程如圖6和圖7。這里是假設網(wǎng)頁W1至W6及鏈接情況如圖6,按照先走左子樹約定,其深度優(yōu)先樹狀遍歷過程如圖7。按照深度優(yōu)先爬行策略,其爬取次序為:W1->W2->W4->W5->W3->W6。

        圖6 網(wǎng)站鏈接架構示例圖

        圖7 深度優(yōu)先樹狀遍歷步驟示意圖

        廣度優(yōu)先爬行策略,會先爬取同一層次廣度的網(wǎng)頁,將同一層次廣度的網(wǎng)頁爬取完成后,再選擇下一個層次廣度的網(wǎng)頁進行爬取。從樹結構上看,廣度優(yōu)先遍歷就是對樹的層次遍歷。這種策略理解起來比深度優(yōu)先策略容易得多。

        大站爬行策略是會優(yōu)先爬取網(wǎng)頁數(shù)量更多的大站。一般來說越是大站,其內容更豐富,專業(yè)性更強,影響力更大,所以對它們優(yōu)先進行爬取。

        反鏈策略是優(yōu)先爬取反向鏈接數(shù)更多的網(wǎng)頁。這種策略的前提是需要可靠的反向鏈接數(shù)。反向鏈接基本上能代表著具有其他網(wǎng)頁更多的推薦,但是現(xiàn)實中存在大量垃圾站群互相鏈接,使得有些站點可以獲得異常高的反向鏈接數(shù),所以這種策略很少單獨使用。

        網(wǎng)頁更新策略是增量式網(wǎng)絡爬蟲經(jīng)常采用的策略,是根據(jù)網(wǎng)頁更新的速度和同類網(wǎng)頁更新頻率等進行區(qū)別和分類。當爬取網(wǎng)站的頻率與網(wǎng)站更新的頻率越接近,無效損耗越小。網(wǎng)頁更新策略又可以通過采用的技術手段分為歷史數(shù)據(jù)分析、用戶體驗分析和聚類分析三種。歷史數(shù)據(jù)分析是根據(jù)網(wǎng)頁歷史更新的數(shù)據(jù)來預判網(wǎng)頁更新爬取的周期。用戶體驗分析,是從用戶體驗的角度優(yōu)先爬取用戶搜索引擎關鍵詞查詢排名靠前的網(wǎng)頁,需對網(wǎng)頁多個歷史版本的內容更新、搜索質量進行分析,這兩種策略都需要歷史數(shù)據(jù)作為依據(jù),對新網(wǎng)頁無效。網(wǎng)頁的歷史信息的保存和分析,都給爬蟲服務器帶來更多的負擔和消耗。聚類分析是把具有類似屬性的網(wǎng)頁聚類進行抽樣來確定對每個聚類的爬行頻率。這比用戶體驗分析和歷史數(shù)據(jù)分析的效率要高很多,對系統(tǒng)的損耗也更小,但是,因為是抽樣檢測,聚類操作,準確度可能會有所降低。聚類分析就是網(wǎng)頁更新策略在效率和性能之間一種比較平衡的方法。

        4 結語

        面對信息大爆發(fā)、爬蟲橫行的狀況,必須分析掌握爬蟲的工作機制和原理,才能更好使用和處理網(wǎng)絡爬蟲,面對網(wǎng)絡爬蟲帶來的威脅做出全面深入的發(fā)爬蟲策略,形成一套更加科學的爬蟲防范機制。本文對目前網(wǎng)絡爬蟲的特征和分類,所使用的工作流程和爬行策略進行了梳理和比較,為網(wǎng)絡爬蟲提供較全面的階段性總結,為進一步研究網(wǎng)絡爬蟲和網(wǎng)絡反爬蟲提供了重要的參考。

        [1]2021 Bad Bot Report [EB/OL]. https://www.imperva .com/resources/reports/Bad-Bot-Report 2021.

        [2]劉清. 網(wǎng)絡爬蟲針對“反爬”網(wǎng)站的爬取策略分析[J]. 信息與電腦(理論版),2019(03):23-24.

        [3]張淵博. 網(wǎng)站反爬蟲策略的分析與研究[J]. 電子元器件與信息技術,2021,5(01):14-15.

        [4]胡俊瀟,陳國偉. 網(wǎng)絡爬蟲反爬策略研究[J]. 科技創(chuàng)新與應用,2019(15):137-138+140.

        [5]李嵐清,王恒,晏曉峰. 網(wǎng)絡資源自動采集技術研究[J]. 電子元器件與信息技術,2020,4(05):56-58.

        [6]文成香,李璋林. 網(wǎng)絡爬蟲針對“反爬”網(wǎng)站的爬取策略研究[J]. 數(shù)碼世界,2020(06):270.

        [7]張曄,孫光光,徐洪云,等. 國外科技網(wǎng)站反爬蟲研究及數(shù)據(jù)獲取對策研究[J]. 競爭情報,2020,16(01):24-28.

        [8]李慧敏,孫佳亮. 論爬蟲抓取數(shù)據(jù)行為的法律邊界[J]. 電子知識產權,2018(12):58-67.

        國家自然科學基金資助項目(61806007,U1804153);河南省科技攻關項目(182102310039);教育部產學合作項目(202002057009);“甲骨文信息處理”教育部創(chuàng)新團隊(2017PT35);河南省特色骨干學科(甲骨文信息處理)

        猜你喜歡
        網(wǎng)絡地址爬蟲優(yōu)先
        敬 告
        利用網(wǎng)絡爬蟲技術驗證房地產灰犀牛之說
        基于Python的網(wǎng)絡爬蟲和反爬蟲技術研究
        網(wǎng)絡地址轉換技術在局域網(wǎng)中的應用
        40年,教育優(yōu)先
        商周刊(2018年25期)2019-01-08 03:31:08
        多端傳播,何者優(yōu)先?
        傳媒評論(2018年5期)2018-07-09 06:05:26
        利用爬蟲技術的Geo-Gnutel la VANET流量采集
        電子測試(2018年1期)2018-04-18 11:53:04
        大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡爬蟲技術
        電子制作(2017年9期)2017-04-17 03:00:46
        站在“健康優(yōu)先”的風口上
        淺析IP地址分類
        久久亚洲中文字幕乱码| 8888四色奇米在线观看| 亚洲肥老太bbw中国熟女| 久久综合网天天 | 啪啪网站免费观看| 日本精品人妻一区二区三区| 色婷婷精品大在线视频| 亚洲国产av一区二区四季| 人妻熟妇乱又伦精品hd| 忘忧草社区www日本高清| 人妻少妇看a偷人无码精品| 亚洲人成电影在线无码| 91福利精品老师国产自产在线| 国产精品毛片大尺度激情| 国产在线一区二区三区四区乱码| 中国国产不卡视频在线观看| 久久97久久97精品免视看| 国产丝袜无码一区二区三区视频| 国产精品美女久久久久久2018| 日本a在线播放| 青青草手机成人自拍视频| 久久精品亚洲精品国产区| 国产免费又色又爽粗视频| 亚洲色欲色欲www在线观看| 最近免费中文字幕| a级福利毛片| 精品人妻一区二区蜜臀av| 免费看av网站在线亚洲| 亚洲乱码国产乱码精华| 国产成人亚洲综合色婷婷 | 精品人妻少妇一区二区不卡 | 老熟女富婆激情刺激对白| 曰韩无码无遮挡a级毛片| 国产麻豆精品久久一二三| 麻豆国产高清精品国在线| 亚洲AV无码乱码精品国产草莓| 亚洲中文字幕一区高清在线 | 人成午夜免费视频无码| 午夜精品久久久久久久久久久久| 99久久综合精品五月天| 黄色三级视频中文字幕|