亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Web爬蟲檢測技術(shù)綜述

        2012-11-28 03:42:36吳曉暉紀(jì)星
        關(guān)鍵詞:閥值爬蟲日志

        吳曉暉 ,紀(jì)星

        (1.湖北汽車工業(yè)學(xué) 院經(jīng)管學(xué)院,湖北十堰42002;2.湖北省金螞蟻網(wǎng)絡(luò)有限公司,湖北十堰442002)

        0 前 言

        隨著互聯(lián)網(wǎng)的不斷發(fā)展,搜索引擎技術(shù)的越來越普及,帶來的弊端是許多搜索引擎網(wǎng)絡(luò)爬蟲大量地占據(jù)了互聯(lián)網(wǎng)帶寬。一旦一個(gè)中型的網(wǎng)站被技術(shù)不精的惡意或者非允許的網(wǎng)絡(luò)爬蟲爬取數(shù)據(jù),很可能使得網(wǎng)站速度降低甚至不能訪問。還有,好多的網(wǎng)絡(luò)爬蟲是以非法獲取數(shù)據(jù)為目的,把獲取的數(shù)據(jù)放到網(wǎng)站,制造虛假的PV,或者以獲得非法商業(yè)利潤為目的,例如:在點(diǎn)擊付費(fèi)的網(wǎng)絡(luò)廣告中,利用網(wǎng)絡(luò)蜘蛛來模仿用戶點(diǎn)擊獲取付費(fèi)。因此,網(wǎng)絡(luò)爬蟲不僅給網(wǎng)絡(luò)帶來沉重的負(fù)擔(dān),使得網(wǎng)站性能大大降低,同時(shí)還會帶來非法盜竊數(shù)據(jù),隱私,知識產(chǎn)權(quán),非法獲取商業(yè)利潤等問題,已經(jīng)嚴(yán)重妨礙了與互聯(lián)網(wǎng)相關(guān)的產(chǎn)業(yè)的健康發(fā)展。

        為消除惡意網(wǎng)絡(luò)爬蟲帶來的危害,國內(nèi)外相關(guān)學(xué)者,高校等對網(wǎng)絡(luò)爬蟲檢測識別技術(shù)進(jìn)行了廣泛深入的研究。在國外,研究爬蟲檢測技術(shù)的代表性學(xué)者是塞浦路斯的Marios D.Dikaiakos和Athena Stassopoulou等[1-4],他們在國際知名期刊(Computer Network等)上發(fā)表了關(guān)于研究Web爬蟲的系列論文,其中包括通過分析訪問日志來獲取Web爬蟲行為與普通用戶訪問行為的特征區(qū)別[1,4],并在此基礎(chǔ)上采用了概率推理方法(即貝葉斯網(wǎng)絡(luò))[2-3]來進(jìn)行Web爬蟲檢測,取得了一定的成果。

        國內(nèi)的研究網(wǎng)絡(luò)爬蟲檢測技術(shù)的代表性學(xué)者主要有郭偉剛、菊時(shí)光、范純龍等研究的Web Robot識別檢測算法。郭等[9]在文獻(xiàn)中闡述了利用一個(gè)事務(wù)中人與爬蟲所請求的URL訪問模式不同來檢測網(wǎng)絡(luò)蜘蛛,同時(shí)還闡述了利用爬行內(nèi)容不同和設(shè)置閥值的方法來檢測蜘蛛,但這些方法都要依賴于用戶會話和日志分析,其實(shí)時(shí)反應(yīng)慢。于是范等[7]在文獻(xiàn)中闡述了在網(wǎng)頁中設(shè)置陷阱的方法來捕獲蜘蛛,這種方法優(yōu)點(diǎn)是能快速實(shí)時(shí)的檢測出蜘蛛,同時(shí)不需根據(jù)事務(wù)中人與爬蟲所請求的URL的訪問特征的不同來檢測網(wǎng)絡(luò)蜘蛛,另外本文還闡述了利用爬行內(nèi)容不同和設(shè)置閥值的方法來檢測蜘蛛,但這些方法都要依賴用戶會話和日志分析,同時(shí)陷阱的方法也容易會造成鏈接污染,對正規(guī)合法搜索引擎形成影響,再者其特征明顯,也很容易被新的網(wǎng)絡(luò)蜘蛛所規(guī)避。

        1 爬蟲檢測技術(shù)的思路和方法

        到目前為止,在爬蟲檢測思路上,主要有2類:1)基于日志中的爬蟲和用戶行為不同特征分析再利用閥值,決策樹,貝葉斯網(wǎng)絡(luò)等來進(jìn)行判斷檢測網(wǎng)絡(luò)蜘蛛;2)基于在網(wǎng)頁上布置陷阱方法來捕獲網(wǎng)絡(luò)爬蟲。

        1.1 基于特征分析的檢測技術(shù)

        基于行為分析的研究都是通過對Web訪問日志進(jìn)行會話和事務(wù)劃分,然后找出會話中和事務(wù)訪問蜘蛛和人的訪問行為特征不同,來進(jìn)行爬蟲檢測。在分析國內(nèi)外相關(guān)代表研究文獻(xiàn)基礎(chǔ)上,總結(jié)出人和蜘蛛的主要不同訪問行為特征:

        1)最大連續(xù)點(diǎn)擊率 從直覺上來講,用戶在一定的時(shí)間內(nèi),存在著一個(gè)最大點(diǎn)擊數(shù),……

        2)會話時(shí)長網(wǎng)絡(luò)蜘蛛的一個(gè)會話時(shí)長要比人的會話時(shí)長大的多的多。

        3)圖片訪問的百分比 在圖片嵌入的網(wǎng)頁中,爬蟲會話中,爬蟲所訪問的圖片所占訪問總量的百分比遠(yuǎn)遠(yuǎn)少于用戶會話中用戶所訪問的圖片所占訪問總量的百分比。

        4)4XX錯(cuò)誤響應(yīng)百分比 在爬蟲訪問請求中,4XX錯(cuò)誤響應(yīng)所出現(xiàn)的百分比比用戶訪問請求要更高。

        5)對robot.txt文件的訪問 合法的爬行蜘蛛會請求訪問robot.txt文件,但用戶不會對其訪問。

        6)Url訪問行為 用戶對一個(gè)網(wǎng)站的訪問通常都是按照網(wǎng)頁設(shè)計(jì)者思路走下去,即訪問的鏈接是滿足鏈接關(guān)系的。而爬蟲訪問通常是雜亂無章的,一般不會形成鏈接關(guān)系路徑。因?yàn)榕老x抓取網(wǎng)頁通常只抓取新的或者已經(jīng)更新了的網(wǎng)頁。

        7)訪問內(nèi)容在 一個(gè)會話中,人訪問的內(nèi)容通常是雜亂無章的。而蜘蛛訪問內(nèi)容通常都是有規(guī)律可循的,要么都是Html,或者都是pdf/jpg,MP3等。

        基于以上特征,國內(nèi)外的學(xué)者采用了流量分析,機(jī)器學(xué)習(xí),閥值控制等方法來

        1.2 基于陷阱捕獲的檢測技術(shù)

        基于陷阱方法捕獲蜘蛛的思路是通過在網(wǎng)頁上布置陷阱(即用戶看不到而爬蟲容易抓取的與URL相關(guān)的文件、網(wǎng)頁等)來捕獲網(wǎng)絡(luò)爬蟲。傳統(tǒng)的布置陷阱方法有3種:

        1)利用分布式蜜罐系統(tǒng) Honeynet Project[12],在大范圍內(nèi)捕獲和建設(shè)Spider地址庫;

        2)利用陷阱將Spider訪問引導(dǎo)到爬蟲收集網(wǎng);

        3)將Spider訪問引入到能產(chǎn)生無限鏈接循環(huán)的頁面,惡意消耗Spider訪問能力,污染其鏈接和內(nèi)容空間。

        這3種傳統(tǒng)的方式都有其缺點(diǎn):第1種方式忽略考慮網(wǎng)絡(luò)上IP地址是動(dòng)態(tài)分配的;第2種方式,對于爬蟲網(wǎng)站鏈接加入到黑名單中蜘蛛可以輕易跳過陷阱。第3種方式是損人不利己的方式,消耗蜘蛛資源同時(shí)也消耗自己資源。

        基于以上傳統(tǒng)的陷阱方式的缺點(diǎn),國內(nèi)學(xué)者[7]陷阱檢測技術(shù)的理論及其模型進(jìn)行了詳細(xì)分析和研究,得出可以通過網(wǎng)頁上布置一些url,這些url事實(shí)上是不存在的,如果爬蟲訪問這些url,就被重定向器定向到專門檢測蜘蛛的網(wǎng)頁集合中的理論模型和方法來捕捉蜘蛛。這種方法很好地彌補(bǔ)了傳統(tǒng)方法的缺點(diǎn),布置靈活方便。

        2 爬蟲檢測技術(shù)效果評價(jià)

        由于基于爬蟲檢測技術(shù)而開發(fā)的識別分類器是二分類,即識別爬蟲類和用戶訪問類。因此對于爬蟲檢測方法效果的評價(jià)主要是基于精度(Precision),召回率(Recall)和F1-measure。其假設(shè)在集合中爬蟲類的訪問有N個(gè),那么經(jīng)過識別分類器分類后,分出屬于爬蟲類的正確和錯(cuò)誤分類和屬于非爬蟲類的正確和錯(cuò)誤分類,其結(jié)果如表1所示。

        表1 爬蟲類識別分類情況

        根據(jù)表1,其檢測方法的定義如下:

        1)正確率:P=TP/(TP+TF),衡量原本是爬蟲類的劃為爬蟲類的精度。

        2)召回率:R=TP/(TP+FP),衡量原本屬于爬蟲類的正確識別能力。

        3)F1_measure=2PR/(P+R),是衡量一個(gè)爬蟲識別分類器的正確率和召回率的一個(gè)綜合指標(biāo),比較全面的測量爬蟲識別分類器的總體性能。

        2.1 各種爬蟲檢測技術(shù)的效果比較

        到目前為止,對于爬蟲檢測技術(shù)來講,還沒有建立一個(gè)公開權(quán)威的測試數(shù)據(jù)集,各個(gè)學(xué)者所采用的數(shù)據(jù)來源各不相同,大部分是來自于大學(xué)網(wǎng)站上的訪問日志數(shù)據(jù),記錄有幾千條到幾萬條不等,百萬條記錄以上的訪問日志數(shù)據(jù)很少。

        表2是各文獻(xiàn)中的實(shí)驗(yàn)結(jié)果對比,由于國內(nèi)外的學(xué)者所采用的方法不同,如國外學(xué)者建立分類器的方法,國內(nèi)學(xué)者采用統(tǒng)計(jì)閥值的方法;測試數(shù)據(jù)不同,國外選擇人工標(biāo)好的數(shù)據(jù),國內(nèi)是選擇的原始訪問日志,故國外學(xué)者給出了比較精確的測試結(jié)果。國內(nèi)學(xué)者給出的結(jié)果由于會話項(xiàng)目中訪問記錄數(shù)目的限制等原因,例如文獻(xiàn)[5],沒有能按測試三大指標(biāo)(P,R,F(xiàn)1)給出各個(gè)精確測試結(jié)果,要么只是給出了部分指標(biāo)的精確結(jié)果,要么只是給出了檢測出的網(wǎng)絡(luò)蜘蛛的列表。造成此結(jié)果差異的原因主要是采用的方法不同,缺乏權(quán)威測試集。例如,從理論上講,閥值限制的方法對于低于閥值的爬蟲,檢測出蜘蛛的百分比幾乎為零,高于閥值檢測的百分比幾乎為100%,所以比較難于進(jìn)行效果測試。即使這樣,還是根據(jù)以上評價(jià)方法對各個(gè)網(wǎng)絡(luò)蜘蛛檢測技術(shù)性能做個(gè)大體的對比。

        表2 文獻(xiàn)中的實(shí)驗(yàn)結(jié)果對比

        3 存在的問題和挑戰(zhàn)

        總體來講,當(dāng)今的爬蟲檢測技術(shù)對于單點(diǎn)式爬蟲檢測的召回率較高,基本能穩(wěn)定在80%以上[7],但也存在著以下挑戰(zhàn)∶

        1)對于針對某些主題、模仿用戶行為、探測檢測閥值等網(wǎng)絡(luò)爬蟲,正確的檢測還面臨著檢測效果不理想的問題。隨著爬蟲檢測技術(shù)的不斷提高,惡意爬蟲技術(shù)也在不斷進(jìn)行改進(jìn)升級,從而達(dá)到躲避檢測的目的。例如,一些爬蟲減少單位時(shí)間內(nèi)訪問次數(shù),以低于檢測閥值的頻率訪問網(wǎng)站,躲過蜘蛛檢測系統(tǒng)竊取數(shù)據(jù)。

        2)當(dāng)前國內(nèi)外研究對于爬蟲的身份標(biāo)識基本都是基于IP地址的,這樣的身份標(biāo)識很不合理,因?yàn)榛ヂ?lián)網(wǎng)上的好多IP地址也是動(dòng)態(tài)分配的,不是一直不變的,同時(shí)存在著有一個(gè)IP地址可能會有多個(gè)用戶共同使用,來源于此IP中的爬蟲或許只是其中一個(gè)或幾個(gè)用戶發(fā)出的,不一定是所有共享此IP地址的用戶發(fā)出的。因此基于IP標(biāo)識爬蟲身份的方法是不合理的。

        3)這些成果研究的實(shí)驗(yàn)數(shù)據(jù)基本上是來自于大學(xué)網(wǎng)站的訪問日志,研究的爬蟲更多的是正規(guī)的網(wǎng)絡(luò)爬蟲特征,因此此成果是否具有很好地普實(shí)性,還有待于進(jìn)行進(jìn)一步的驗(yàn)證。同時(shí),其研究所用培訓(xùn)數(shù)據(jù)是2個(gè)月的訪問日志,測試數(shù)據(jù)是1個(gè)月的訪問日志。但是對于這樣1個(gè)月時(shí)間范圍內(nèi)數(shù)據(jù)總體測試效果,到了具體的實(shí)時(shí)的時(shí)間內(nèi)識別網(wǎng)絡(luò)爬蟲的效果是否理想,作者也沒有進(jìn)一步的進(jìn)行深入的研究。

        4)布置陷阱捕獲的方法對合法訪問蜘蛛產(chǎn)生鏈接污染。

        5)提出布置陷阱方法的學(xué)者在理論上還缺考慮到一個(gè)特殊情況,即非法用戶也可以通過正當(dāng)搜索引擎獲得自己想要的數(shù)據(jù),例如,可以通過google搜索返回的結(jié)果,提取特定主題相關(guān)的信息,即利用google具體網(wǎng)站限定功能,對某個(gè)具體網(wǎng)站返回的搜索結(jié)果進(jìn)行提取。

        4 結(jié) 語

        本文從網(wǎng)絡(luò)蜘蛛特征和檢測方法出發(fā),對其進(jìn)行了優(yōu)點(diǎn)和存在的問題和挑戰(zhàn)進(jìn)行了分析總結(jié)。基于此,筆者認(rèn)為,要想達(dá)到實(shí)時(shí)的準(zhǔn)確的識別惡意蜘蛛并加以拒絕,可以采用陷阱結(jié)合內(nèi)容加密的方式來防止非法蜘蛛獲取數(shù)據(jù)。這也是作者接下來要研究的方法。

        [1]Marios D.Dikaiakos,Athena Stassopoulou,Loizos Papage Orgiou.An Investigation of Web Crawler Behaviour∶Chracterization and Metrics[J].Computer Communication,2005,28∶880-897.

        [2]Athena Stassopoulou,Marios D.Dikaiakos.Web Robot Detection∶A Probabilistic Reasoning Approach[J].Computer Networks,2009,53∶265-278.

        [3]Athena Stassopoulou,Marios D.Dikaiakos.A Probabilistic Reasoning Approach for Discovering Web Crawler Session[D].LNCS 4505,2007:265-272.

        [4]Marios D.Dikaiakos,Athena Stassopoulou,Loizos Papage Orgiou.Characterizing Crawler Behavior from Web-Server Access Logs[D].LNCS 2738,2003:369-378.

        [5]郭偉剛,菊時(shí)光.基于訪問內(nèi)容類型統(tǒng)計(jì)的Web Robot檢測算法[J].計(jì)算機(jī)科學(xué),2005(32)∶179-181.

        [6]Tan Pang-Ning,Kumar v.Discovery of Robot Sessions based on their Navigational Patterns[J].Data Mining and Knowledge Discovery,2002,6(1):9~35k.

        [7]范純龍,袁濱,余周華,徐蕾.基于陷阱技術(shù)的網(wǎng)絡(luò)爬蟲檢測[J].計(jì)算機(jī)應(yīng)用,2010(7)∶1782-1784.

        [8]郭偉剛,菊時(shí)光.電子商務(wù)網(wǎng)站中Web Robot的檢測技術(shù)[J].計(jì)算機(jī)工程,2005(12):219-221.

        [9]郭偉剛,菊時(shí)光.一個(gè)基于實(shí)務(wù)分析的Web Robot檢測算法[J].計(jì)算機(jī)應(yīng)用,2005(7):1580-1583.

        猜你喜歡
        閥值爬蟲日志
        利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說
        一名老黨員的工作日志
        基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
        扶貧日志
        心聲歌刊(2020年4期)2020-09-07 06:37:14
        光敏傳感器控制方法及使用其的滅蚊器
        傳感器世界(2019年6期)2019-09-17 08:03:20
        基于小波分析理論的橋梁監(jiān)測信號去噪研究
        利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
        電子測試(2018年1期)2018-04-18 11:53:04
        激光多普勒測速系統(tǒng)自適應(yīng)閥值檢測算法
        游學(xué)日志
        大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
        電子制作(2017年9期)2017-04-17 03:00:46
        国产人成午夜免电影观看| 神马影院午夜dy888| 国产精品亚洲专区无码不卡 | 日韩中文字幕版区一区二区三区| 加勒比精品久久一区二区三区| 国产狂喷潮在线观看| 青青草视频视频在线观看| 亚洲精品456| 亚洲 欧美 日韩 国产综合 在线| 亚洲av手机在线一区| 国产男女猛烈无遮挡免费视频| 国产七十六+老熟妇| 亚洲香蕉av一区二区三区| 麻豆成人久久精品二区三区91| 国产三级精品美女三级| 饥渴的熟妇张开腿呻吟视频| 亚洲一区二区三区,日本| 欧美成人形色生活片| 国产肉体xxxx裸体784大胆| 亚洲成人av在线第一页| 中文字幕一区二区三区四区久久| 8av国产精品爽爽ⅴa在线观看| 少女高清影视在线观看动漫| 亚洲精品久久久久久久蜜桃| 99综合精品久久| av人摸人人人澡人人超碰小说| 一本色道久久88综合日韩精品| 久久精品国产亚洲av天| 在线小黄片视频免费播放| 国产精品亚洲专区无码不卡| 国产欧美成人| 欧洲日本一线二线三线区本庄铃| 久久不见久久见免费影院国语| 操风骚人妻沉沦中文字幕| 少妇人妻系列中文在线| 日韩精品一区二区亚洲av性色| 传媒在线无码| 国产精品丝袜黑色高跟鞋| 国产卡一卡二卡三| 午夜无遮挡男女啪啪免费软件| 亚洲欧洲日产国码av系列天堂 |