亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        微博數(shù)據(jù)爬蟲的檢測方法研究

        2023-10-30 04:32:52黃志高
        現(xiàn)代計(jì)算機(jī) 2023年16期
        關(guān)鍵詞:長尾爬蟲分布式

        黃志高

        (泉州師范學(xué)院物理與信息工程學(xué)院,泉州 362000)

        0 引言

        網(wǎng)絡(luò)爬蟲在各個(gè)領(lǐng)域用于收集數(shù)據(jù),即使目標(biāo)站點(diǎn)禁止機(jī)器人爬蟲,某些網(wǎng)絡(luò)爬蟲也會(huì)收集數(shù)據(jù),某些Web 服務(wù)嘗試通過反爬蟲程序方法檢測爬蟲活動(dòng)并阻止爬蟲程序訪問網(wǎng)頁,但某些惡意Web 爬蟲通過修改其標(biāo)頭值或分發(fā)源IP 地址來偽裝自己[1],從而繞過檢測方法,就好像它們是普通用戶一樣。

        一些公司禁止網(wǎng)絡(luò)爬蟲訪問他們的網(wǎng)頁,原因如下:首先,網(wǎng)絡(luò)爬蟲可能會(huì)降低網(wǎng)絡(luò)服務(wù)器的可用性;其次,網(wǎng)絡(luò)服務(wù)器中的內(nèi)容被視為公司的知識(shí)產(chǎn)權(quán)。競爭公司可以復(fù)制網(wǎng)絡(luò)服務(wù)器中提供的全部數(shù)據(jù),競爭公司可能會(huì)向客戶提供類似的服務(wù)。本文研究了傳統(tǒng)的反爬蟲方法和各種回避技術(shù),表明傳統(tǒng)的反爬蟲方法不能阻止分布式爬蟲。然后,提出了一種新的反爬蟲方法,即長尾閾值模型(LTM)方法,該方法逐漸將分布式爬蟲的節(jié)點(diǎn)IP 地址添加到阻止列表中。實(shí)驗(yàn)結(jié)果表明,該方法能夠有效識(shí)別誤報(bào)率為0.02%的分布式爬蟲。在傳統(tǒng)的基于頻率的方法中[2],當(dāng)增加閾值以檢測更多的爬蟲節(jié)點(diǎn)時(shí),誤報(bào)也會(huì)相應(yīng)增加。

        1 傳統(tǒng)反爬蟲方法及其缺陷

        1.1 使用HTTP標(biāo)頭信息進(jìn)行過濾

        基本爬蟲程序發(fā)送請(qǐng)求而不修改其標(biāo)頭信息,Web 服務(wù)器可以通過檢查請(qǐng)求標(biāo)頭來區(qū)分合法用戶和爬蟲程序,此標(biāo)頭檢查方法是一種基本的反爬蟲方法。但是,如果爬蟲試圖將自己偽裝成合法用戶,它將使用來自Web 瀏覽器的標(biāo)頭信息或類似于瀏覽器的HTTP 標(biāo)頭信息重置[3]。這使得Web 服務(wù)器很難通過簡單地檢查請(qǐng)求標(biāo)頭來確定客戶端是爬蟲程序還是合法用戶。

        1.2 基于訪問模式的反爬蟲

        基于訪問模式的反爬蟲方法根據(jù)客戶端生成的請(qǐng)求模式將合法用戶與爬蟲程序進(jìn)行分類。如果客戶端僅連續(xù)請(qǐng)求特定網(wǎng)頁,而不調(diào)用通常應(yīng)請(qǐng)求的網(wǎng)頁,則該客戶端將被視為爬蟲程序。執(zhí)行主動(dòng)爬蟲的爬蟲程序預(yù)定義了爬蟲程序想要收集的核心網(wǎng)頁,爬蟲程序請(qǐng)求特定的網(wǎng)頁而不請(qǐng)求不必要的網(wǎng)頁。在這種情況下,Web 服務(wù)器可以識(shí)別客戶端不是合法用戶。通過分析客戶端訪問模式的Web 服務(wù),該服務(wù)可以根據(jù)預(yù)定義的普通用戶的訪問模式將爬蟲程序與普通用戶區(qū)分開來。雖然這種方法可以根據(jù)訪問模式識(shí)別爬蟲,但一些爬蟲甚至通過分析網(wǎng)絡(luò)日志來偽裝他們的訪問模式。

        1.3 基于訪問頻率的反爬蟲

        基于訪問頻率的反爬蟲方法通過訪問頻率閾值作為特定時(shí)間范圍內(nèi)的最大訪問次數(shù)來確定客戶端是爬蟲還是合法用戶。如果來自客戶端的請(qǐng)求數(shù)在預(yù)定義的持續(xù)時(shí)間內(nèi)超過某個(gè)閾值,則Web 服務(wù)器會(huì)將客戶端分類為爬蟲程序。這種方法有兩個(gè)眾所周知的問題。首先,它對(duì)分布式爬蟲有漏洞。如果攻擊者使用分布式爬蟲(如Crawlera),則可以管理每個(gè)爬蟲節(jié)點(diǎn)的訪問速率保持在閾值以下[4]。其次,普通用戶和爬蟲程序共享單個(gè)公共IP 地址,容易被誤識(shí)別為爬蟲程序。

        2 阻止分布式爬蟲

        如上所述,分布式爬蟲程序可以繞過傳統(tǒng)的反爬蟲方法。我們提出了一種新技術(shù)來檢測和阻止傳統(tǒng)反爬蟲技術(shù)無法防御的分布式爬蟲。

        2.1 所需的爬蟲節(jié)點(diǎn)數(shù)

        為了使分布式爬蟲收集網(wǎng)站的全部數(shù)據(jù),必須滿足以下條件:

        其中:Um是一個(gè)月內(nèi)更新的項(xiàng)目數(shù),Td是每個(gè)IP 地址的最大請(qǐng)求數(shù),Cn是爬蟲程序節(jié)點(diǎn)數(shù)(IP 地址),30 是一個(gè)月的天數(shù)。Td乘以 30 得到每月的請(qǐng)求數(shù)。

        爬蟲程序節(jié)點(diǎn)需要收集每月所有更新的數(shù)據(jù)。每月更新數(shù)據(jù)數(shù)除以每月最大請(qǐng)求數(shù)。例如,如果一個(gè)月內(nèi)有Web 服務(wù)更新30000 個(gè)項(xiàng)目,并且該服務(wù)具有限制規(guī)則,即具有多個(gè)(例如100)請(qǐng)求的IP 地址將被阻止,并且嘗試從Web 服務(wù)收集每個(gè)項(xiàng)目的攻擊者將需要例如10個(gè)爬蟲程序節(jié)點(diǎn)來避免限制。因此,隨著Um增加或Td減少,應(yīng)該增加Cn并以數(shù)字表示網(wǎng)站難以抓取的級(jí)別。

        2.2 生成長尾區(qū)域

        一個(gè)月內(nèi)更新的項(xiàng)目數(shù)量不能隨意增加。因此,防止分布式爬蟲的一種簡單方法是Td減少,但這也會(huì)顯著增加誤報(bào)。在本文中,我們通過反轉(zhuǎn)Web 流量的一般特征并利用分布式爬蟲嘗試復(fù)制Web 服務(wù)器的整個(gè)數(shù)據(jù)的事實(shí)來解決這個(gè)問題。如果項(xiàng)目按訪問率排序,我們可以在圖表中看到指數(shù)遞減曲線,如圖1 所示。大多數(shù)網(wǎng)絡(luò)流量集中在最常請(qǐng)求的項(xiàng)目上,并且有一個(gè)長尾區(qū)域具有較低的訪問率。我們計(jì)算了此長尾區(qū)域的最大請(qǐng)求計(jì)數(shù),并將此值設(shè)置為Td3。

        圖1 每個(gè)鏈接的訪問頻率

        在信息論中,不太可能的事件比可能的事件更具信息量,而長尾地區(qū)的事件比其他事件更不可能。這意味著Web 服務(wù)可以從長尾區(qū)域的請(qǐng)求中查找更多信息。因此,當(dāng)客戶端不斷請(qǐng)求長尾區(qū)域中的項(xiàng)目時(shí),Web 服務(wù)可以增加計(jì)數(shù),直到達(dá)到Td3,而不是達(dá)到Td平均值。這意味著Web 服務(wù)可以設(shè)置更敏感的閾值,而不會(huì)增加誤報(bào)率。

        2.3 長尾區(qū)域節(jié)點(diǎn)縮減

        為了使攻擊者從Web 服務(wù)收集整個(gè)數(shù)據(jù),攻擊者還必須訪問長尾區(qū)域中的項(xiàng)目。但是,攻擊者并不確切知道哪些項(xiàng)目屬于長尾區(qū)域。利用這種信息不對(duì)稱性,服務(wù)提供商可以輕松識(shí)別比其他IP 地址更頻繁地訪問項(xiàng)目的IP 地址。這些已識(shí)別的爬蟲程序的IP 地址將包含在阻止列表中,并且阻止列表中的IP 地址數(shù)將為Cm。如果我們開始通過長尾間隔增加該Cm值,攻擊者將使用較少數(shù)量的IP 地址進(jìn)行爬行,并且會(huì)在Td間隔內(nèi)增加Cm[5]。

        2.4 虛擬項(xiàng)目

        服務(wù)提供商可能會(huì)添加虛擬項(xiàng)目來檢測爬蟲程序,并且合法用戶無法訪問虛擬項(xiàng)目,因?yàn)樘摂M項(xiàng)目沒有用戶界面或隱藏。生成虛擬項(xiàng)目的方法很少,它可能以HTML 標(biāo)簽的形式存在,但屬性設(shè)置不會(huì)顯示在屏幕上,或者可能包含普通用戶不感興趣的垃圾信息。但是,對(duì)服務(wù)執(zhí)行順序訪問的爬蟲程序可能會(huì)訪問虛擬項(xiàng)目。通過這一特性,虛擬項(xiàng)目可以作為長尾區(qū)域的延伸。在本文中,我們不會(huì)在實(shí)驗(yàn)中包含虛擬項(xiàng)目,以便與不包含任何虛擬項(xiàng)目的真實(shí)流量日志進(jìn)行公平比較[6]。

        3 實(shí)驗(yàn)測試

        實(shí)驗(yàn)旨在評(píng)估爬蟲檢測模塊對(duì)網(wǎng)絡(luò)流量的分類性能。將LTM 方法與基于正常訪問頻率的反爬蟲方法在爬蟲節(jié)點(diǎn)的最大數(shù)量和誤報(bào)率上進(jìn)行了比較[7]。在實(shí)驗(yàn)中使用這個(gè)數(shù)據(jù)集有兩個(gè)因素,一個(gè)是用戶數(shù),另一個(gè)是網(wǎng)站中的項(xiàng)目數(shù)。用戶數(shù)量很重要,因?yàn)槿绻脩魯?shù)量較少,某些用戶可能會(huì)偏向流量模式。為了實(shí)現(xiàn)這一目標(biāo),我們開發(fā)了一個(gè)基于Python 的數(shù)據(jù)工具和一個(gè)模擬器。在數(shù)據(jù)預(yù)處理工具中,如圖2所示對(duì)原始流量數(shù)據(jù)進(jìn)行預(yù)處理,以計(jì)算單個(gè)URL 的訪問頻率,并對(duì)屬于長尾區(qū)域的集進(jìn)行分類。每當(dāng)發(fā)生新的訪問時(shí),模擬器根據(jù)預(yù)處理的數(shù)據(jù)確定訪問節(jié)點(diǎn)是否為爬蟲程序。

        圖2 爬蟲檢測流程

        3.1 數(shù)據(jù)源

        NASA 在2005 年7月共公布了2493425份訪問日志。我們將這些日志解析為csv 格式,該格式由四列組成,包括IP 地址、日期、訪問目標(biāo)和訪問結(jié)果。連接的IP 地址總數(shù)為41958,項(xiàng)目數(shù)為21534。

        3.2 數(shù)據(jù)預(yù)處理和流量分配

        我們?cè)趯?shí)驗(yàn)的預(yù)處理階段執(zhí)行了三個(gè)步驟。第一步將日志拆分為兩個(gè)數(shù)據(jù)集:訓(xùn)練集和測試集。在NASA 訪問日志中,前24 天日志設(shè)置為訓(xùn)練集,最后一個(gè)日志設(shè)置為測試集。第二步篩選出一些訪問日志,以計(jì)算更準(zhǔn)確的訪問計(jì)數(shù)。某些請(qǐng)求合并為單個(gè)請(qǐng)求,以防止重復(fù)計(jì)數(shù)。例如,當(dāng)用戶訪問html 文件時(shí),他們還可以訪問鏈接的圖像文件。這可能會(huì)強(qiáng)制訪問計(jì)數(shù)成倍增加。因此,我們刪除了一些對(duì)圖像文件的請(qǐng)求。此外,我們還從實(shí)驗(yàn)中排除了訪問結(jié)果不成功的請(qǐng)求日志。

        表1 預(yù)處理的網(wǎng)絡(luò)流量數(shù)據(jù)

        實(shí)驗(yàn)中構(gòu)建了一個(gè)預(yù)處理的流量數(shù)據(jù)集,該數(shù)據(jù)集由來自21649 個(gè)原始數(shù)據(jù)的6649 個(gè)項(xiàng)目組成,并且它有一個(gè)由5355 個(gè)項(xiàng)目組成的長尾區(qū)域。總訪問數(shù)平均值為184.76,長尾區(qū)的平均訪問數(shù)為1.88。兩個(gè)平均值之間的差異只是表明可以在爬蟲檢測算法中設(shè)置一個(gè)更靈敏的閾值。

        實(shí)驗(yàn)還統(tǒng)計(jì)了按訪問頻率排序時(shí)最常訪問的鏈接,到最不常訪問的鏈接的特征[8]。比率是指按訪問計(jì)數(shù)對(duì)所有項(xiàng)目進(jìn)行排序時(shí)每個(gè)組所在的間隔。訪問平均值是指屬于每個(gè)組的每個(gè)項(xiàng)目的平均訪問次數(shù),最大訪問量是指每個(gè)組中項(xiàng)目之間的最大訪問計(jì)數(shù)。

        3.3 虛擬仿真

        在仿真實(shí)驗(yàn)中,檢查LTM 是否能夠檢測和禁用分布式爬蟲程序IP 地址組,將實(shí)際Web 流量輸入到LTM 時(shí)檢查誤報(bào)率。整個(gè)爬蟲程序檢測流程如圖2所示。

        3.4 分布式爬蟲檢測模擬

        從表2的實(shí)驗(yàn)數(shù)據(jù),我們可以觀察到爬蟲IP地址集合逐漸減少,直到所有IP 地址都被完全阻止。當(dāng)?shù)谝粋€(gè)爬蟲節(jié)點(diǎn)IP 地址超過Td3閾值IP被封禁,節(jié)點(diǎn)減少計(jì)數(shù)呈指數(shù)級(jí)增長。這是因?yàn)槠渌老x節(jié)點(diǎn)得到了更多的訪問負(fù)荷,并且當(dāng)爬蟲節(jié)點(diǎn)被訪問時(shí),更多的項(xiàng)目必須訪問被阻止。

        表2 實(shí)驗(yàn)數(shù)據(jù)

        實(shí)驗(yàn)閾值設(shè)置為20,爬蟲項(xiàng)目包含222 節(jié)點(diǎn)。LTM 檢測到了整個(gè)爬蟲項(xiàng)目所有節(jié)點(diǎn),錯(cuò)誤率約為0.0275%,遠(yuǎn)低于傳統(tǒng)的基于頻率的爬蟲檢測方法。在表2 中,我們將LTM 的結(jié)果與通用的基于頻率的反爬蟲(FBA)方法的結(jié)果進(jìn)行了比較。LTM 對(duì)分布式的爬蟲檢測性能非常依賴于項(xiàng)目的數(shù)量和長尾比率??紤]到這個(gè)限制,仿真實(shí)驗(yàn)是使用舊的NASA 交通數(shù)據(jù)進(jìn)行[9],項(xiàng)目的總數(shù)比通常的現(xiàn)代網(wǎng)絡(luò)項(xiàng)目要小得多。如果有10 倍數(shù)據(jù)和類似訪問的頻率分布的項(xiàng)目,我們提出的方法可以從由2000 個(gè)節(jié)點(diǎn)組成的網(wǎng)絡(luò)項(xiàng)目中檢測出分布式爬蟲。

        在實(shí)驗(yàn)中,LTM 達(dá)到了最小的錯(cuò)誤率為0.0046%,而FBA 僅達(dá)到0.0367%,這意味著LTM 的檢測可靠性比經(jīng)典FBA 方法提高了500%。當(dāng)我們將閾值設(shè)置為35,這時(shí)LTM 達(dá)到最小誤報(bào)率的值,F(xiàn)BA 方法比LTM 方法多了19.400%的誤報(bào)率。

        4 結(jié)語

        本文介紹了長尾閾值模型(LTM),并展示了LTM 如何有效地檢測分布式爬蟲,相比之下先前的方法是脆弱的。通過模擬真實(shí)的網(wǎng)絡(luò)流量數(shù)據(jù),LTM 有效地識(shí)別了分布式爬蟲,并顯示出極低的誤報(bào)率。針對(duì)網(wǎng)絡(luò)服務(wù)的非法網(wǎng)絡(luò)爬取成為嚴(yán)重的安全威脅[10]??紤]到一些爬蟲開發(fā)者將分布式爬蟲代理服務(wù)用于非法目的,LTM 可以提高網(wǎng)絡(luò)服務(wù)的數(shù)據(jù)安全性。

        猜你喜歡
        長尾爬蟲分布式
        利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說
        基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
        長尾直銷產(chǎn)品圖鑒
        長尾豹馬修
        幽默大師(2018年5期)2018-10-27 05:53:50
        追蹤長尾豹馬修
        利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
        電子測試(2018年1期)2018-04-18 11:53:04
        分布式光伏熱錢洶涌
        能源(2017年10期)2017-12-20 05:54:07
        分布式光伏:爆發(fā)還是徘徊
        能源(2017年5期)2017-07-06 09:25:54
        大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
        電子制作(2017年9期)2017-04-17 03:00:46
        基于DDS的分布式三維協(xié)同仿真研究
        国产女厕偷窥系列在线视频| 99热婷婷一区二区三区| 一本一道久久综合久久| 欧美成人猛交69| 久久精品国产亚洲av高清色欲 | 麻豆国产VA免费精品高清在线| 国产日产韩国级片网站| 中文精品久久久久人妻不卡| 国产成人久久精品77777综合| 99成人无码精品视频| 亚洲成在人线天堂网站| 中文字幕亚洲欧美在线不卡| 台湾佬娱乐中文22vvvv| 国产成人福利在线视频不卡| 精品亚洲一区二区三洲| 国产98色在线 | 国产| 女人做爰高潮呻吟17分钟| 完整在线视频免费黄片| 久久精品亚洲94久久精品| 三级全黄的视频在线观看| 国产乱子伦露脸在线| 日产精品一区二区在线| 免费人成视频网站网址| a级国产乱理伦片在线播放| 亚洲—本道中文字幕久久66| 日韩女优一区二区在线观看| 内射干少妇亚洲69xxx| 无码aⅴ在线观看| 黑丝美女被内射在线观看| 国产毛女同一区二区三区| 久久99久久99精品中文字幕 | 亚洲97成人在线视频| 国产精品无码一区二区在线看| 亚洲七七久久综合桃花| 亚洲熟女一区二区三区不卡 | 久久婷婷综合色丁香五月| 蜜桃av夺取一区二区三区| 99人中文字幕亚洲区三| 亚洲精品无码久久久久久| 亚洲色图视频在线观看网站 | 丰满少妇被猛烈进入高清播放|