亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        自動(dòng)采集網(wǎng)站數(shù)據(jù)與反自動(dòng)采集網(wǎng)站數(shù)據(jù)方法的研究

        2015-04-20 21:25:06陳國耀
        科技創(chuàng)新與應(yīng)用 2015年11期
        關(guān)鍵詞:研究

        陳國耀

        摘 要:網(wǎng)站安全問題一直都是網(wǎng)絡(luò)安全領(lǐng)域的技術(shù)人員研究的重點(diǎn)問題之一,其不僅包含網(wǎng)站受非法攻擊、入侵、服務(wù)器端代碼被篡改、被注入木馬等問題,而且包含被特定自動(dòng)采集數(shù)據(jù)軟件自動(dòng)采集網(wǎng)站數(shù)據(jù)等問題。若自動(dòng)采集網(wǎng)站數(shù)據(jù)軟件長時(shí)間運(yùn)行,必然對網(wǎng)站服務(wù)器造成巨大壓力,甚至直接導(dǎo)致網(wǎng)站服務(wù)器的崩潰。文章基于windows平臺(tái)下的JAVA編程語言如何實(shí)現(xiàn)自動(dòng)采集網(wǎng)站數(shù)據(jù)以及如何反自動(dòng)采集網(wǎng)站數(shù)據(jù)進(jìn)行深入研究。

        關(guān)鍵詞:自動(dòng)采集;網(wǎng)站數(shù)據(jù);反自動(dòng)采集;研究

        1 研究背景及意義

        現(xiàn)代社會(huì)是一個(gè)信息社會(huì),工作、生活越來越離不開信息的支撐,信息技術(shù)和信息產(chǎn)業(yè)在經(jīng)濟(jì)、社會(huì)發(fā)展中的作用日益增強(qiáng),并逐漸發(fā)揮著主導(dǎo)作用,成為比物質(zhì)、能源更為重要的資源。數(shù)據(jù)已經(jīng)成為一種商品進(jìn)行交易,對數(shù)據(jù)進(jìn)行再加工、提取、去噪、排序、整合后得出的數(shù)據(jù)往往具有非常高的商業(yè)價(jià)值,因?yàn)檫@些經(jīng)過處理的數(shù)據(jù)能夠更有效地指導(dǎo)商業(yè)決策,以使得公司、企業(yè)能夠在競爭激烈的商業(yè)環(huán)境中處于不敗之地。比如要獲取某市年溫度、降雨量等信息,則從該市氣象局網(wǎng)站上獲取的數(shù)據(jù)較為權(quán)威、可信;要獲取某市的高新技術(shù)企業(yè)信息,則從該市負(fù)責(zé)注冊高新技術(shù)企業(yè)的政府網(wǎng)站獲取的數(shù)據(jù)較為準(zhǔn)確;即準(zhǔn)確的數(shù)據(jù)往往來自官方網(wǎng)站、權(quán)威性網(wǎng)站,而官方數(shù)據(jù)、權(quán)威數(shù)據(jù)的獲取往往具有一定的困難或限制,比如只能按條進(jìn)行順序查詢,不能進(jìn)行批量查詢,如果采用人工復(fù)制、采集的方式獲取完整的、大批量的數(shù)據(jù),時(shí)間、開銷等各個(gè)方面均不允許,于是采用具有自動(dòng)采集數(shù)據(jù)功能的軟件采集網(wǎng)站數(shù)據(jù)往往成為人們獲取官方、具有權(quán)威性、完整、大批量數(shù)據(jù)常用的手段。

        目前比較流行的編程語言c++、c#、java、python等實(shí)現(xiàn)自動(dòng)采集網(wǎng)站數(shù)據(jù)的原理類似,只是語法或所使用的組件不同,文章對基于windows平臺(tái)下的java編程語言實(shí)現(xiàn)自動(dòng)采集網(wǎng)站數(shù)據(jù)以及反自動(dòng)采集網(wǎng)站數(shù)據(jù)的方法進(jìn)行探討。

        2 自動(dòng)采集網(wǎng)站數(shù)據(jù)的方法

        通常由編程語言實(shí)現(xiàn)的自動(dòng)采集網(wǎng)站數(shù)據(jù)均要通過模擬客戶端向服務(wù)器發(fā)送請求的方式,獲取服務(wù)器返回的數(shù)據(jù),從中提取所需數(shù)據(jù)。

        具體又分為兩類:

        (1)模擬客戶端向網(wǎng)站服務(wù)器發(fā)送請求,直接獲取服務(wù)器返回的html格式的數(shù)據(jù),并對該數(shù)據(jù)進(jìn)行解析從中提取所需數(shù)據(jù)。采用java語言實(shí)現(xiàn)的核心代碼如下:

        URL url = new URL(websiteAddress);

        // websiteAddress為請求網(wǎng)址,為待查詢數(shù)據(jù)的查詢結(jié)果頁面

        URLConnection connection = url.openConnection();

        //創(chuàng)建與網(wǎng)站服務(wù)器的連接

        connection.setDoOutput(true);

        connection.setDoInput(true);

        OutputStreamWriter out = new

        OutputStreamWriter(connection.getOutputStream(), "GBK");

        //根據(jù)網(wǎng)站服務(wù)器端操作系統(tǒng)編碼設(shè)置相應(yīng)的請求參數(shù)編碼

        out.write(otherRequestParams);

        //otherRequestParams為請求附帶的參數(shù)

        out.flush();

        out.close();

        //以下代碼用于接收、讀取服務(wù)器端返回的數(shù)據(jù)

        InputStream l_urlStream=null;

        l_urlStream = connection.getInputStream();

        BufferedReader l_reader = new BufferedReader(new InputStreamReader(l_urlStream));

        while ((sCurrentLine = l_reader.readLine()) != null) {

        sTotalString += sCurrentLine;

        }

        然后采用Java提供的subString()函數(shù)或正則表達(dá)式對從服務(wù)器端獲取的字符串組合進(jìn)行解析,從中提取所需數(shù)據(jù)。

        (2)當(dāng)網(wǎng)站服務(wù)器端對返回值進(jìn)行一定的加密設(shè)置,或者通過其它手段使得客戶端獲取的響應(yīng)內(nèi)容無效等,即通過正常的請求、響應(yīng)機(jī)制獲取不到服務(wù)器端后臺(tái)返回的數(shù)據(jù)。而通過在客戶端的瀏覽器中輸入請求網(wǎng)址,能夠正常獲取服務(wù)器端響應(yīng)的html文件;即網(wǎng)站服務(wù)器返回?cái)?shù)據(jù)并將其裝配成html文件返回到客戶端,在客戶端的瀏覽器中能夠讀取到該html文件,但是我們的后臺(tái)應(yīng)用程序卻獲取不到服務(wù)器端返回的數(shù)據(jù)。此時(shí)可采用JAVA提供的Robot類進(jìn)行相應(yīng)的操作以獲取數(shù)據(jù)。

        關(guān)于Robot類:此類用于為測試自動(dòng)化、自運(yùn)行演示程序和其他需要控制鼠標(biāo)和鍵盤的應(yīng)用程序生成本機(jī)系統(tǒng)輸入事件。Robot的主要目的是便于JAVA平臺(tái)實(shí)現(xiàn)自動(dòng)測試。該類提供的模擬鍵盤、鼠標(biāo)功能使得我們不僅能夠利用其開發(fā)自動(dòng)測試應(yīng)用程序,而且能夠開發(fā)其它無需手動(dòng)控制、自動(dòng)執(zhí)行的“機(jī)器人”應(yīng)用程序。采用java語言的Robot類實(shí)現(xiàn)的自動(dòng)采集網(wǎng)站數(shù)據(jù)的核心代碼如下:

        //通過模擬鍵盤按鍵在地址欄中輸入請求網(wǎng)址

        Robot robot = new Robot();

        robot.keyPress(KeyEvent.鍵值);

        robot.keyRelease(KeyEvent.鍵值);

        //通過復(fù)制、粘貼的方式獲取從網(wǎng)站服務(wù)器端返回的html頁面

        robot.keyPress(KeyEvent.VK_CONTROL);

        robot.keyPress(KeyEvent.VK_C);

        robot.keyRelease(KeyEvent.VK_C);

        robot.keyRelease(KeyEvent.VK_CONTROL);

        //得到剪貼板中的內(nèi)容

        Transferable contents=sysc.getContents(this);

        stringEachPageGet = (String) contents.getTransferData(DataFlavor.stringFlavor);

        }

        然后利用java語言的subString()函數(shù)或正則表達(dá)式對獲取的字符串進(jìn)行解析,從中提取所需信息。

        3 反自動(dòng)采集網(wǎng)站數(shù)據(jù)的方法

        針對上述基于windows平臺(tái)下的JAVA編程語言實(shí)現(xiàn)的自動(dòng)采集網(wǎng)站數(shù)據(jù)的方法,我們可以采取以下方法進(jìn)行應(yīng)對,以防止網(wǎng)站數(shù)據(jù)被數(shù)據(jù)采集軟件自動(dòng)采集:

        (1)定期或隨機(jī)更改返回客戶端瀏覽器html文件的格式。目前網(wǎng)站服務(wù)器與客戶端間的通信基本上都是基于http協(xié)議,該協(xié)議是一個(gè)請求-響應(yīng)式的協(xié)議,服務(wù)端返回的內(nèi)容多為html文件。數(shù)據(jù)采集軟件依據(jù)html文件內(nèi)容的格式對從服務(wù)端返回的內(nèi)容進(jìn)行解析,隨機(jī)改變返回html文件的格式就可以阻斷解析的過程,從而阻斷數(shù)據(jù)采集的過程。

        (2)針對不同的瀏覽器,通過在服務(wù)器端返回的html頁面中加入防復(fù)制、禁止保存網(wǎng)頁等功能的JS代碼,可以阻斷自動(dòng)采集網(wǎng)站數(shù)據(jù)軟件的采集過程。

        猜你喜歡
        研究
        FMS與YBT相關(guān)性的實(shí)證研究
        2020年國內(nèi)翻譯研究述評
        遼代千人邑研究述論
        視錯(cuò)覺在平面設(shè)計(jì)中的應(yīng)用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        關(guān)于遼朝“一國兩制”研究的回顧與思考
        EMA伺服控制系統(tǒng)研究
        基于聲、光、磁、觸摸多功能控制的研究
        電子制作(2018年11期)2018-08-04 03:26:04
        新版C-NCAP側(cè)面碰撞假人損傷研究
        關(guān)于反傾銷會(huì)計(jì)研究的思考
        焊接膜層脫落的攻關(guān)研究
        電子制作(2017年23期)2017-02-02 07:17:19
        亚洲国产综合精品久久av| 亚洲成av人片在线观看麦芽| 99精品视频在线观看免费| 人妖精品视频在线观看| 精品亚洲av一区二区| 无套无码孕妇啪啪| 国产乱人视频在线播放| 亚洲中文av一区二区三区| 亚洲全国最大的人成网站| 日韩精品一区二区在线天天狠天| 久久www免费人成—看片| 国产网站视频| 国产精品很黄很色很爽的网站| 玖玖色玖玖草玖玖爱在线精品视频| 亚洲国产欧美日韩欧美特级 | 国产成人午夜福利在线观看者| 成人免费视频自偷自拍| 国内揄拍国内精品人妻久久| 狼人香蕉香蕉在线28 - 百度 | jiZZ国产在线女人水多| 日韩av一区二区不卡| 中国少妇内射xxxx狠干| 国产精品公开免费视频| 最新国产成人自拍视频| 中文有码亚洲制服av片| 午夜精品久久久久久久久久久久| 亚洲VA欧美VA国产VA综合| 亚洲精品中文字幕一二| 亚洲av无码国产精品色午夜字幕| 色婷婷五月综合亚洲小说| 中文字幕在线观看乱码一区| 亚洲国产精品高清在线| 久久久日韩精品一区二区三区| 午夜精品一区二区三区无码不卡| 视频一区精品中文字幕| 黑人巨茎大战俄罗斯美女| 牛牛本精品99久久精品88m| 人妻精品人妻一区二区三区四五| 日本强伦姧人妻一区二区| 亚洲欧洲偷自拍图片区| 日韩人妻无码精品系列专区无遮|