亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)絡(luò)爬蟲針對(duì)“反爬”網(wǎng)站的爬取策略研究

        2020-08-13 11:26:55文成香李璋林
        數(shù)碼世界 2020年6期
        關(guān)鍵詞:網(wǎng)絡(luò)爬蟲網(wǎng)站

        文成香 李璋林

        摘要:網(wǎng)絡(luò)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)爬蟲技術(shù)也得到了廣泛普及和應(yīng)用。更多的用戶開展運(yùn)用網(wǎng)絡(luò)爬蟲技術(shù)去獲取自身所需的信息,而過多的網(wǎng)絡(luò)爬蟲會(huì)對(duì)網(wǎng)站的運(yùn)行造成一定的負(fù)擔(dān)和壓力。因此,信息時(shí)代背景下,為了更好的提升網(wǎng)站訪問體驗(yàn)感和速度,降低網(wǎng)絡(luò)爬蟲技術(shù)給網(wǎng)絡(luò)帶來的影響,從而提出有效的反爬蟲技術(shù)和手段,滿足用戶對(duì)各種數(shù)據(jù)和信息的需求,給人們提供一個(gè)良好的網(wǎng)絡(luò)環(huán)境。本文根據(jù)網(wǎng)絡(luò)爬蟲的內(nèi)涵,闡述了網(wǎng)站中常見的反爬蟲技術(shù),并且提出了網(wǎng)絡(luò)爬蟲應(yīng)對(duì)“反爬”網(wǎng)站的爬取對(duì)策。這樣能夠從根源上去杜絕惡意爬蟲去網(wǎng)址訪問,這樣對(duì)網(wǎng)址的穩(wěn)定運(yùn)行以及數(shù)據(jù)保護(hù)有著重要的作用和意義。

        關(guān)鍵詞:網(wǎng)絡(luò)爬蟲 “反爬”網(wǎng)站 爬取策略

        引言

        信息技術(shù)的革新,現(xiàn)如今搜索引擎成為了人類獲取信息和數(shù)據(jù)的主要途徑。在搜索引擎過程中,釋放出來的網(wǎng)絡(luò)爬蟲會(huì)占用大量的互聯(lián)網(wǎng)寬帶,并且造成網(wǎng)站訪問速度變慢,甚至進(jìn)入網(wǎng)站“癱瘓”的狀態(tài),直接降低用戶對(duì)網(wǎng)站的訪問體驗(yàn)感。針對(duì)上述問題和現(xiàn)狀,很多網(wǎng)站都開始采取一些有效手段去攔截網(wǎng)絡(luò)爬蟲的爬取,由此誕生出反爬蟲技術(shù),進(jìn)而為網(wǎng)站的正常運(yùn)行奠定基礎(chǔ)保障。

        一、網(wǎng)絡(luò)爬蟲的內(nèi)涵

        1.網(wǎng)絡(luò)爬蟲簡(jiǎn)析

        所謂的網(wǎng)絡(luò)爬蟲又稱之為網(wǎng)頁蜘蛛、網(wǎng)絡(luò)機(jī)器人。它是一個(gè)自動(dòng)獲取網(wǎng)頁的程序,作為搜索引擎的重要組成部分,可以隨時(shí)在特定網(wǎng)站上下載用戶所需的信息,其中涉及到了招聘、二手買賣信息等。網(wǎng)絡(luò)爬蟲之所以叫網(wǎng)頁蜘蛛,是因?yàn)樗怯珊芏嗟某溄訕?gòu)成,所形成的完整網(wǎng),每進(jìn)入到一個(gè)網(wǎng)頁就可以獲取新的超鏈接,再進(jìn)行下一步的爬行搜索,獲取新的線索。信息時(shí)代的普及和發(fā)展,雖然滿足了人們對(duì)數(shù)據(jù)的需求,但是人們更加渴求于網(wǎng)絡(luò)爬蟲的程序,比如企業(yè)信息爬蟲、論文網(wǎng)站爬蟲等。網(wǎng)絡(luò)爬蟲給我們帶來了很多便利,在獲取所需數(shù)據(jù)時(shí),非搜索引擎也給網(wǎng)絡(luò)造成了不利的影響,直接降低了網(wǎng)絡(luò)運(yùn)行速度。首先,網(wǎng)絡(luò)爬蟲程序訪問網(wǎng)站的速度比起一般的網(wǎng)站訪問速度要高的多,我們開始設(shè)想如果大部分的用戶都去使用一個(gè)網(wǎng)站的數(shù)據(jù),并且同時(shí)運(yùn)用爬蟲程序的獲取目標(biāo)網(wǎng)站,可想而知?jiǎng)荼貢?huì)增加網(wǎng)站的服務(wù)器的符合,也會(huì)導(dǎo)致目標(biāo)網(wǎng)絡(luò)擁堵,甚至產(chǎn)生網(wǎng)絡(luò)直接崩潰的現(xiàn)象,影響用戶對(duì)網(wǎng)站的體驗(yàn)。此外,大部分網(wǎng)絡(luò)里面的收益都來自于數(shù)據(jù),如果網(wǎng)站所有的數(shù)據(jù)被他人輕易提取且實(shí)用,那么會(huì)直接降低網(wǎng)站的收益。因此采取適當(dāng)?shù)木W(wǎng)站反爬手段和措施尤為重要。

        2.網(wǎng)絡(luò)爬蟲搜索對(duì)策

        網(wǎng)絡(luò)爬蟲在正常運(yùn)行過程中,其中URL隊(duì)列抓取是其中關(guān)鍵的一部分。其中抓取的先后順序十分重要,其中涉及到先抓取和后抓取哪個(gè)頁面,我們將排列URL順序的方法,稱之為抓取對(duì)策。其中最為常見的是廣度優(yōu)先搜索對(duì)策,在抓取中,以節(jié)點(diǎn)開始,完成現(xiàn)目前層次搜索后再直接跳轉(zhuǎn)到下一個(gè)層次搜索。該種策略的實(shí)現(xiàn)方式十分簡(jiǎn)單。其次,關(guān)于深度搜索策略,這種策略的主要思想是從起始頁開始,每條鏈接緊跟著一個(gè)鏈接,處理完成后線路后直接跳轉(zhuǎn)到下一個(gè)起始頁,繼續(xù)跟蹤鏈接。此外,反向鏈接策略指的是一個(gè)網(wǎng)頁被其他網(wǎng)頁鏈接指定的數(shù)量,反向鏈接數(shù)的網(wǎng)頁內(nèi)容很容易受到其他推薦內(nèi)容的影響。因此,搜索引擎抓取系統(tǒng)會(huì)根據(jù)這個(gè)指標(biāo)去評(píng)價(jià)網(wǎng)頁的重要度,最終去確定網(wǎng)頁抓取的先后順序。

        二、網(wǎng)站中常見的反爬蟲技術(shù)

        首先,我國(guó)網(wǎng)站中最常見的則是關(guān)于涉及到驗(yàn)證碼的反爬蟲技術(shù),現(xiàn)有80%以上的網(wǎng)絡(luò)都會(huì)設(shè)置驗(yàn)證碼,其設(shè)置的目的是為了區(qū)分人類和計(jì)算機(jī)操作的行為,最早接觸的是圖片、數(shù)字以及滑動(dòng)驗(yàn)證碼。其次,隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,提出了一種限制用戶行為的反爬蟲技術(shù),現(xiàn)如今部分網(wǎng)站都會(huì)根據(jù)用戶的操作行為去判斷爬蟲程序,如果在短暫的時(shí)間內(nèi)對(duì)一個(gè)網(wǎng)址進(jìn)行多次的訪問,又是同一個(gè)用戶反復(fù)的操作和訪問,亦或是訪問的頁面固定,簡(jiǎn)單而言,就是直接體現(xiàn)出不像用戶訪問的狀態(tài)。最后,通過分析日志的方式去判斷網(wǎng)頁爬蟲不是一個(gè)實(shí)時(shí)的反爬蟲手段,可以通過設(shè)置網(wǎng)站的流量瀏覽記錄去反映出用戶的真實(shí)訪問狀態(tài),對(duì)于短期內(nèi)出現(xiàn)大量方位行為可以流量系統(tǒng)記錄的參考,在結(jié)合人工判斷的前提下,將惡意的爬蟲訪問拉入黑名單。此外,還可以通過設(shè)置網(wǎng)絡(luò)路由器、防火墻等方式,去約束網(wǎng)站被訪問的網(wǎng)段。但是通過網(wǎng)絡(luò)設(shè)備去識(shí)別IP,這樣可能會(huì)提升誤傷的概率。

        三、網(wǎng)絡(luò)爬蟲應(yīng)對(duì)“反爬”網(wǎng)站的爬取對(duì)策

        1.驗(yàn)證碼辨別技術(shù)

        由于驗(yàn)證碼技術(shù)具有隨機(jī)性較強(qiáng)、簡(jiǎn)單的特點(diǎn),能夠在一定程度上阻礙網(wǎng)絡(luò)上惡意行為的訪問,在互聯(lián)網(wǎng)領(lǐng)域得到了廣泛的應(yīng)用。其次,圖片驗(yàn)證碼是通過爬蟲獲取到所需要的樣本圖片,將圖片里面的文字和字母分開,通過神經(jīng)網(wǎng)絡(luò)算法去識(shí)別驗(yàn)證碼。關(guān)于滑動(dòng)驗(yàn)證碼,一般情況下,人類在操作滑動(dòng)這個(gè)步驟時(shí),會(huì)有一個(gè)延時(shí)的動(dòng)作,然后才進(jìn)行滑塊拖動(dòng),滑塊移動(dòng)時(shí)快慢不一致,最后再進(jìn)行微微調(diào)整。拖動(dòng)的路徑基本上符合BETA分布這樣的偏態(tài)分布,同時(shí),人的行為也比較符合隨機(jī)性和規(guī)律性特點(diǎn),大體上符合BETA分布的規(guī)律,但是固定時(shí)間和間隔移動(dòng)的長(zhǎng)度是隨機(jī)設(shè)置的。

        2.降低訪問請(qǐng)求頻率

        在對(duì)網(wǎng)絡(luò)進(jìn)行訪問的過程中,網(wǎng)絡(luò)爬蟲會(huì)對(duì)目標(biāo)站點(diǎn)發(fā)送大量的請(qǐng)求,這樣的爬蟲機(jī)制不僅會(huì)增加中小型網(wǎng)站的荷載力,還會(huì)浪費(fèi)大量的網(wǎng)站資源,甚至導(dǎo)致整個(gè)網(wǎng)站完全崩潰,因此很多網(wǎng)站都提出了反爬蟲的機(jī)制和策略。比如通過判斷爬蟲的USER-AGENT信息去直接訪問請(qǐng)求,或者通過網(wǎng)站流量統(tǒng)計(jì)和日志分析去識(shí)別爬蟲,這樣對(duì)網(wǎng)站進(jìn)行全方位的實(shí)時(shí)監(jiān)控,提升反爬蟲策略的效果和作用。為了不被站點(diǎn)判定為爬蟲而被拒絕訪問網(wǎng)站,我們可以直接降低網(wǎng)站訪問請(qǐng)求頻率,這樣不會(huì)遭受到網(wǎng)站的封殺和拒絕訪問。最主要的方法是在訪問URL的程序當(dāng)中,將訪問請(qǐng)求設(shè)置一段休眠時(shí)間段。具體的休眠時(shí)間是根據(jù)實(shí)際需求而定的,以毫秒為準(zhǔn),這種反爬策略的優(yōu)勢(shì)是有效的降低了目標(biāo)網(wǎng)站的時(shí)間負(fù)載,但是缺陷是爬蟲反爬的效率比較低。

        3.設(shè)置代理服務(wù)器

        設(shè)置代理服務(wù)器,以提升爬蟲效率為主,實(shí)際上就是對(duì)網(wǎng)絡(luò)的反爬蟲機(jī)制進(jìn)行阻止,降低訪問請(qǐng)求頻率較高的網(wǎng)絡(luò)地址。為了改善這一問題,我們可以使用代理服務(wù)器,去改變IP和服務(wù)器端口,直接限制訪問頻率較高的主機(jī)對(duì)站點(diǎn)的訪問。只要具備足夠的IP條件符合爬取的條件,這樣就能保證爬蟲不被站點(diǎn)所限制和封殺。但是設(shè)置代理服務(wù)器,不僅會(huì)消耗大量的時(shí)間和資源,還會(huì)給站點(diǎn)帶來較大的負(fù)載,加大延遲,提升了失敗率。

        四、結(jié)束語

        綜上所述,為了有效的避免爬蟲被限制,最為有效的辦法則是偽裝成正常用戶,只要堅(jiān)持這個(gè)原則,總能解決問題。如果能夠深入的了解到反爬蟲技術(shù)的原理和策略,就可以針對(duì)實(shí)際問題,提出反爬蟲爬取策略和手段,進(jìn)而在保證網(wǎng)站穩(wěn)定安全運(yùn)行的同時(shí),也能提升網(wǎng)絡(luò)爬蟲的效率,為人們提供更加優(yōu)質(zhì)的網(wǎng)絡(luò)服務(wù)。

        參考文獻(xiàn)

        [1]伏康,杜振鵬.網(wǎng)站反爬蟲策略的分析與研究[J].電腦知識(shí)與技術(shù),2019,15(28):28-30.

        [2]胡俊瀟,陳國(guó)偉.網(wǎng)絡(luò)爬蟲反爬策略研究[J].科技創(chuàng)新與應(yīng)用,2019(15):137-138+140.

        [3]劉清.網(wǎng)絡(luò)爬蟲針對(duì)“反爬”網(wǎng)站的爬取策略分析[J].信息與電腦(理論版),2019(03):23-24.

        [4]鄒科文,李達(dá),鄧婷敏,李嘉振,陳義明.網(wǎng)絡(luò)爬蟲針對(duì)“反爬”網(wǎng)站的爬取策略研究[J].電腦知識(shí)與技術(shù),2016,12(07):61-63.

        猜你喜歡
        網(wǎng)絡(luò)爬蟲網(wǎng)站
        煉鐵廠鐵量網(wǎng)頁數(shù)據(jù)獲取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
        試論電子商務(wù)網(wǎng)站的平面設(shè)計(jì)原則
        基于我國(guó)政府信息公開的電子政務(wù)研究
        河洛文化旅游資源外宣網(wǎng)站日譯現(xiàn)狀調(diào)查及對(duì)策研究
        文管綜合實(shí)踐教學(xué)中心網(wǎng)站建設(shè)與維護(hù)
        淺析企業(yè)建立網(wǎng)站VI系統(tǒng)的必要性探討
        提升高校網(wǎng)站在學(xué)校發(fā)展中的作用
        基于社會(huì)網(wǎng)絡(luò)分析的權(quán)威網(wǎng)頁挖掘研究
        主題搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)研究
        淺析如何應(yīng)對(duì)網(wǎng)絡(luò)爬蟲流量
        国产69精品一区二区三区| 四虎影视成人永久免费观看视频| 亚洲国产精品va在线播放| 亚洲香蕉视频| 成人特黄特色毛片免费看| 日本师生三片在线观看| 中文字幕日韩人妻在线视频| 精品国产一区二区三区av 性色| 亚洲成人免费无码| 日本激情久久精品人妻热| 亚洲综合av大全色婷婷| 日本高清视频www| 精品国产群3p在线观看| 青青草最新在线视频观看| 福利视频一区二区三区| 手机看片久久国产免费| 999国产精品亚洲77777| 国产免费人成网站在线播放 | 久久国产国内精品对话对白| 精品久久精品久久精品| 无码中文字幕人妻在线一区| 性色av无码不卡中文字幕| 亚洲欧美日韩在线中文一| 亚洲最大av在线精品国产| 国产又爽又大又黄a片| 亚洲图区欧美| 久久精品人妻嫩草av蜜桃| 日本一区二区三区视频在线观看| 变态 另类 欧美 大码 日韩| 色噜噜狠狠色综合中文字幕| 国产精品麻豆一区二区三区| 色一情一乱一伦一视频免费看| 免费无码成人av在线播| 久久午夜伦鲁鲁片免费| 国产精品专区第一页天堂2019| 亚洲精品乱码久久久久久蜜桃不卡 | 国产老熟女网站| 在线精品免费观看| 亚洲大片一区二区三区四区| 久久精品国产免费观看三人同眠 | 日本一二三四高清在线|