亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)站數(shù)據(jù)采集原理及防范策略的研究

        2014-07-13 12:07:16植雅芳
        電腦知識(shí)與技術(shù) 2014年5期
        關(guān)鍵詞:網(wǎng)站數(shù)據(jù)采集

        摘要:網(wǎng)站數(shù)據(jù)的采集對(duì)于一個(gè)網(wǎng)站的建設(shè)具有十分重要的作用,該文將針對(duì)網(wǎng)站數(shù)據(jù)采集的基本原理和常用的防范策略進(jìn)行研究。首先,研究了網(wǎng)站數(shù)據(jù)采集的技術(shù)原理,接下來(lái)針對(duì)常用幾種網(wǎng)站數(shù)據(jù)防采集技術(shù)進(jìn)行了簡(jiǎn)要的介紹。

        關(guān)鍵詞:網(wǎng)站;數(shù)據(jù)采集;防采集;網(wǎng)頁(yè)數(shù)據(jù)

        中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)05-0930-02

        1 概述

        隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展和普及,因特網(wǎng)已經(jīng)成為人們?nèi)粘I詈凸ぷ髦蝎@取信息的重要來(lái)源。Internet中的數(shù)據(jù)通常以Web頁(yè)面的方式呈現(xiàn)給用戶,在建站的時(shí)候?yàn)榱素S富網(wǎng)站的數(shù)據(jù)量,網(wǎng)站管理員通常使用網(wǎng)絡(luò)爬蟲等數(shù)據(jù)采集工具從其他網(wǎng)站采集數(shù)據(jù)。網(wǎng)站數(shù)據(jù)采集是指通過(guò)一定的技術(shù)手段將某一網(wǎng)站的所有網(wǎng)頁(yè)內(nèi)容或部分網(wǎng)頁(yè)內(nèi)容批量抓取到自己網(wǎng)站中[1]。然而,非法的網(wǎng)站數(shù)據(jù)采集將可能造成網(wǎng)站服務(wù)器承載過(guò)重的負(fù)荷進(jìn)而崩潰,與此同時(shí)這一行為也違反了版權(quán)保護(hù)相關(guān)的法律。因此,了解網(wǎng)絡(luò)采集的基本原理和相關(guān)的防御措施在網(wǎng)站的建站和后期維護(hù)過(guò)程中具有極為重要的作用。

        2 網(wǎng)站數(shù)據(jù)采集基本原理

        在進(jìn)行網(wǎng)站數(shù)據(jù)的采集時(shí)根據(jù)采集工具的種類和開發(fā)語(yǔ)言的不同,通常網(wǎng)站數(shù)據(jù)獲取的方式也是不同的。但它們的基本原理都是通過(guò)訪問(wèn)被采集站點(diǎn)來(lái)提取被采集站點(diǎn)的相應(yīng)數(shù)據(jù)[2]。通過(guò)制定適當(dāng)?shù)臄?shù)據(jù)采集規(guī)則來(lái)判斷什么樣的網(wǎng)絡(luò)地址是有效的、那些數(shù)據(jù)需要被采集和如何提取這些有效的信息。網(wǎng)站數(shù)據(jù)采集的基本原理如圖1所示。

        獲取待采集網(wǎng)站中分頁(yè)列表中的每一頁(yè)地址是網(wǎng)站數(shù)據(jù)采集的前置條件,一般情況下一個(gè)JSP語(yǔ)言編寫的Web頁(yè)面具有如下特征:動(dòng)態(tài)頁(yè)面的第N頁(yè)為index.jsp? page=N,它所對(duì)應(yīng)的靜態(tài)頁(yè)面為page_N.html。因此,只需要使用變量替換代表每頁(yè)地址變化的字符即可獲得相應(yīng)的頁(yè)面地址。目前,一個(gè)Web頁(yè)面的分頁(yè)頁(yè)面中內(nèi)容的超鏈接一般表示如下:連接

        ,只需要編寫適當(dāng)?shù)拇a既可以獲取該頁(yè)內(nèi)容所對(duì)應(yīng)的URL鏈接。在動(dòng)態(tài)生成的頁(yè)面中大多數(shù)內(nèi)容頁(yè)面中都包含相同的html標(biāo)記,因此可以根據(jù)已定義規(guī)則的標(biāo)記提取相關(guān)的需要部分的內(nèi)容。例如:每個(gè)Web頁(yè)面都有相應(yīng)的標(biāo)題,代碼中呈現(xiàn)為標(biāo)題,編寫相應(yīng)的MID截取函數(shù)就可以獲得兩個(gè)title標(biāo)簽之間標(biāo)題,也可以用正則表達(dá)式來(lái)獲取,如:body("標(biāo)題","","")[3]。

        圖1 網(wǎng)站數(shù)據(jù)采集基本原理圖

        3 網(wǎng)站防采集策略

        目前,常用的網(wǎng)站數(shù)據(jù)防采集策略包括以下幾種:

        1)通過(guò)在單位時(shí)間內(nèi)限制固定IP地址對(duì)同一個(gè)網(wǎng)站所有站點(diǎn)的訪問(wèn)次數(shù)來(lái)避免網(wǎng)站數(shù)據(jù)采集。

        一般情況下,用戶在正常訪問(wèn)某一個(gè)網(wǎng)站時(shí)不會(huì)在極短的時(shí)間內(nèi)多次訪問(wèn)同一個(gè)網(wǎng)站,只有網(wǎng)絡(luò)引擎爬蟲和網(wǎng)站數(shù)據(jù)采集工具會(huì)造成這樣的現(xiàn)象。但是這種方法容易造成誤判,并且如何設(shè)計(jì)時(shí)間的閾值是這種方法的關(guān)鍵。

        2)通過(guò)人工的方式屏蔽可疑的訪問(wèn)源IP。

        網(wǎng)站的管理人員通過(guò)在后臺(tái)設(shè)置計(jì)數(shù)器來(lái)記錄訪問(wèn)的源IP及在單位時(shí)間內(nèi)的訪問(wèn)頻率,進(jìn)而通過(guò)人工干預(yù)的方式判斷并屏蔽可疑的IP地址。這種方法適用于小型的網(wǎng)站,大型的網(wǎng)站可能需要大量的人力來(lái)進(jìn)行,同時(shí)這種方法難以解決通過(guò)代理的方式進(jìn)行數(shù)據(jù)采集的問(wèn)題。

        3)將網(wǎng)站的內(nèi)容以flash動(dòng)畫、圖片或者PDF文檔的格式進(jìn)行呈現(xiàn)。

        目前的搜索引擎爬蟲和網(wǎng)站數(shù)據(jù)采集工具還不具備對(duì)PDF文檔和圖片的識(shí)別和分析能力。這種方法能夠有效地避免網(wǎng)站數(shù)據(jù)被非法采集,但是它的適用面較窄,僅適用于一些用于多媒體視覺呈現(xiàn)的網(wǎng)站。

        4)通過(guò)在網(wǎng)頁(yè)內(nèi)嵌套藏網(wǎng)站的版權(quán)信息或者利用水印技術(shù)對(duì)Web頁(yè)面進(jìn)行加密。

        一般情況下,這些用于保護(hù)網(wǎng)站數(shù)據(jù)的信息被寫在了相應(yīng)的CSS文件中。這種方法雖然不能阻止網(wǎng)站數(shù)據(jù)被非法采集,但它能夠使得被采集的數(shù)據(jù)無(wú)法完整的呈現(xiàn)在其他網(wǎng)站中。因?yàn)?,網(wǎng)站數(shù)據(jù)采集工具或網(wǎng)絡(luò)爬蟲一般不會(huì)同時(shí)采集網(wǎng)站中的CSS文件,那些數(shù)據(jù)丟失了相應(yīng)的格式化設(shè)置,就被顯示出來(lái)了。

        5)通過(guò)在網(wǎng)站中對(duì)訪問(wèn)者設(shè)置權(quán)限來(lái)保護(hù)數(shù)據(jù)。

        這種方法要求用戶只有在登錄了系統(tǒng)后才能夠?yàn)g覽網(wǎng)站的數(shù)據(jù)。自動(dòng)化的數(shù)據(jù)采集工具和網(wǎng)絡(luò)爬蟲無(wú)法對(duì)每一個(gè)網(wǎng)站進(jìn)行登錄,這種方法可極大程度上避免數(shù)據(jù)被采集,但同時(shí)網(wǎng)站的用戶友好性就降低了。

        6)利用腳本語(yǔ)言對(duì)網(wǎng)站做隱藏分頁(yè)設(shè)置

        由于網(wǎng)站數(shù)據(jù)采集工具和網(wǎng)絡(luò)爬蟲不會(huì)針對(duì)一個(gè)網(wǎng)站的隱藏分頁(yè)進(jìn)行數(shù)據(jù)的分析,因此,這種方法能夠有效地阻止自動(dòng)化工具對(duì)網(wǎng)站數(shù)據(jù)的采集。這種方法適用于對(duì)搜索引擎依賴度不高的網(wǎng)站,同時(shí)它無(wú)法阻止人工進(jìn)行網(wǎng)站數(shù)據(jù)的采集。

        7)對(duì)于動(dòng)態(tài)的網(wǎng)站,可以采用隨機(jī)的模版避免非法數(shù)據(jù)采集。

        由于網(wǎng)站數(shù)據(jù)采集工具是根據(jù)網(wǎng)頁(yè)特定的結(jié)構(gòu)來(lái)定位所需要采集的數(shù)據(jù),一旦網(wǎng)站的模版出現(xiàn)變更,采集工具中事前設(shè)定好的采集規(guī)則就會(huì)失效,這樣就可以避免網(wǎng)站的數(shù)據(jù)被非法地采集。這種方法造成的問(wèn)題是破壞網(wǎng)站的用戶友好性。

        8)在網(wǎng)頁(yè)中使用動(dòng)態(tài)不規(guī)則的html標(biāo)簽代替?zhèn)鹘y(tǒng)的靜態(tài)html標(biāo)簽。

        在html標(biāo)簽中包含空格和不包含空格的效果是一樣的,因此包含和不包含

        和< div>標(biāo)簽,在頁(yè)面顯示中的效果也是一樣的。但是一般的網(wǎng)站數(shù)據(jù)采集工具中,這兩個(gè)是完全不同的標(biāo)記。因此,隨機(jī)地在每個(gè)頁(yè)面的html標(biāo)簽中添加若干個(gè)空格數(shù)就會(huì)導(dǎo)致網(wǎng)站數(shù)據(jù)采集工具相應(yīng)的規(guī)則失效。但是這種方法違反了網(wǎng)頁(yè)設(shè)計(jì)的規(guī)范。

        4 結(jié)論

        隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展和個(gè)人PC機(jī)的不斷普及,越來(lái)越多人參與到網(wǎng)站的建設(shè)和維護(hù)中。如何有效地避免網(wǎng)站中的數(shù)據(jù)被非法的采集是每一個(gè)網(wǎng)管員必須掌握技能。該文主要研究了網(wǎng)站數(shù)據(jù)采集的基本原理和八種常用的網(wǎng)站數(shù)據(jù)防采集的方法,希望能為網(wǎng)站的建設(shè)和維護(hù)提供更多的幫助,。

        參考文獻(xiàn):

        [1] 巫志勇.基于XMLHTTP的網(wǎng)站數(shù)據(jù)自動(dòng)采集[J].福建電腦,2007(01).

        [2] 溫世豪.瘋狂的站長(zhǎng)[M].北京:清華大學(xué)出版社,2010.

        [3] 吳振豐.網(wǎng)站建設(shè)與管理[M].北京:高等教育出版社,2006.

        猜你喜歡
        網(wǎng)站數(shù)據(jù)采集
        試論電子商務(wù)網(wǎng)站的平面設(shè)計(jì)原則
        基于我國(guó)政府信息公開的電子政務(wù)研究
        河洛文化旅游資源外宣網(wǎng)站日譯現(xiàn)狀調(diào)查及對(duì)策研究
        文管綜合實(shí)踐教學(xué)中心網(wǎng)站建設(shè)與維護(hù)
        CS5463在植栽用電子鎮(zhèn)流器老化監(jiān)控系統(tǒng)中的應(yīng)用
        大數(shù)據(jù)時(shí)代高校數(shù)據(jù)管理的思考
        科技視界(2016年18期)2016-11-03 22:51:40
        淺析企業(yè)建立網(wǎng)站VI系統(tǒng)的必要性探討
        鐵路客流時(shí)空分布研究綜述
        基于廣播模式的數(shù)據(jù)實(shí)時(shí)采集與處理系統(tǒng)
        軟件工程(2016年8期)2016-10-25 15:54:18
        通用Web表單數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
        軟件工程(2016年8期)2016-10-25 15:52:53
        亚洲AV日韩AV永久无码电影| 夜夜爽夜夜叫夜夜高潮| 真实国产精品vr专区| 国产精品久久婷婷六月丁香| 91精品91| 国产精品一品二区三区| 国产成人91久久麻豆视频| 成人欧美一区二区三区1314| 99热精品成人免费观看| 手机av男人天堂免费网址| 日本黑人亚洲一区二区| 岳毛多又紧做起爽| 欧美日韩性视频| 国产一区二区av男人| 亚洲女人毛茸茸粉红大阴户传播| 小荡货奶真大水真多紧视频| 国产精品一久久香蕉国产线看观看| 用力草我小逼视频在线播放| 日本一区二区在线免费视频| 无码ol丝袜高跟秘书在线观看| 精品 无码 国产观看| 亚洲av午夜福利一区二区国产 | 亚洲AV无码乱码精品国产草莓| 精品私密av一区二区三区| 美女把内衣内裤脱了给男人舔| 亚洲在线视频免费视频| 日日噜噜噜夜夜爽爽狠狠视频| 亚洲国产精品久久久性色av| 亚洲中文字幕第一页免费| 日韩欧美aⅴ综合网站发布| 国产欧美日韩a片免费软件| 91自国产精品中文字幕| 亚洲另类丰满熟妇乱xxxx| 把女人弄爽特黄a大片| 同性男男黄g片免费网站| 久久国产亚洲中文字幕| 国产午夜视频一区二区三区| 日本公与熄乱理在线播放| 中文字幕久久久久久久系列| 久久精品国产自产对白一区| av永久天堂一区二区三区|