亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        爬蟲技術在WAP網站內容監(jiān)測中的應用

        2010-04-17 01:52:10鄒一心范海平
        電信科學 2010年1期
        關鍵詞:爬蟲管理器違規(guī)

        鄒一心,范海平

        (1.中國電信上海研究院 上海 200122;2.北京微智信業(yè)科技有限公司 北京 100080)

        爬蟲技術在WAP網站內容監(jiān)測中的應用

        鄒一心1,范海平2

        (1.中國電信上海研究院 上海 200122;2.北京微智信業(yè)科技有限公司 北京 100080)

        本文提出了一種WAP網站內容監(jiān)測的網絡爬蟲系統(tǒng),該系統(tǒng)可以自動遍歷WAP網站,并且對網頁進行規(guī)范性檢查,網頁內容進行違規(guī)檢查。

        WAP網站;內容監(jiān)測;網絡爬蟲;WML

        1 引言

        為了規(guī)范WAP服務提供商(SP)的行為和業(yè)務內容,確保增值業(yè)務的服務質量,為手機用戶提供一個安全、監(jiān)控的業(yè)務環(huán)境,需要對WAP網站的內容和業(yè)務邏輯進行自動監(jiān)測和核查。如果僅依靠人工手動的檢查和審核WAP網站,不僅檢查的成本高而且效率低下。本文提出了一種WAP網站內容監(jiān)測的網絡爬蟲系統(tǒng),通過該系統(tǒng)可以自動遍歷整個WAP網站,下載每個WAP網頁,并且進行相應的網頁規(guī)范性檢查和內容違規(guī)檢查,當發(fā)現(xiàn)網頁不規(guī)范或者含有違規(guī)內容的時候,可以把錯誤和違規(guī)記錄到數據庫中,審查人員可以通過內容監(jiān)測平臺查看檢查結果,及時通知SP對其WAP網站進行整改。

        2 網絡爬蟲系統(tǒng)架構

        2.1 網絡爬蟲的簡介

        網絡爬蟲(crawler)是一個自動采集網頁的程序,它從一個或者若干個初始網頁的URL開始,獲取初始網頁的URL,在抓取網頁的過程中,不斷地從當前網頁上抽取新的URL添加到抓取隊列中,直到滿足一定的停止條件。網絡爬蟲通過周期性地自動編譯給定的WAP網站,檢查網站的內容,從而避免了手工檢查的種種不便。

        2.2 工作流程

        網絡爬蟲遍歷網站的過程可以分解為三個部分,如圖1所示。

        (1)網頁的抓??;

        (2)網頁的分析;

        (3)網頁中新鏈接的提取。

        網頁的抓取過程如下:網絡爬蟲先向WAP網站服務器發(fā)送一個HTTP請求,然后從服務器接收一個HTTP響應。如果成功獲取網頁,則網頁的內容包含在這個HTTP響應中。因此網頁的抓取過程就是一個基于HTTP的客戶端與服務器之間的交互過程。

        當網絡爬蟲成功獲取網頁后,就要對該網頁進行分析。目前WAP網頁有兩個格式:一種是基于WAP 1.X的WML格式;另一種是基于WAP 2.0的XHTML格式。這兩種格式的網頁都是XML文檔,因此可以使用DOM解析器來解析WAP網頁,提取網頁中的鏈接和文本內容,把提取的新鏈接添加到URL隊列中進行遍歷,同時進行網頁規(guī)范性檢查和違規(guī)檢查。

        2.3 系統(tǒng)架構

        網絡爬蟲系統(tǒng)主要有內容監(jiān)測管理平臺、任務管理器、網頁采集器、網頁內容分析器、URL管理器幾部分組成,如圖2所示。通過內容監(jiān)測平臺,工作人員可以將SP提供的WAP網站入口URL加入到任務隊列中。任務管理器從數據庫中讀取入口URL,使用不同的遍歷策略控制各個網頁采集器對網站進行遍歷。采集的網頁內容提交給網頁內容分析器進行處理,從網頁中提取新的鏈接,并且檢查網頁的規(guī)范性和合法性。

        3 網絡爬蟲系統(tǒng)的設計和實現(xiàn)

        3.1 網頁采集器的設計

        在網絡爬蟲系統(tǒng)中,網頁采集器負責通過HTTP與WAP內容服務器進行交互,獲取網頁內容。如果通過無線網絡獲取一個WAP網頁,必須經過WAP網關才能得到WAP內容服務器中的網頁。WAP網關的作用是把WAP協(xié)議的請求轉換為HTTP請求,并且對內容進行編解碼。因此,可以通過模擬WAP網關與內容服務器之間的交互來獲取相應的WAP頁面。

        3.2 URL管理器的設計

        URL管理器從任務管理器接收入口網址和遍歷策略保存到URL列表中。為了保證整個遍歷過程的完整性,避免重復采集同一個網頁,URL管理器需要具有URL去重功能,即判斷新發(fā)現(xiàn)的URL是否在URL池中存在。

        3.3 任務管理器的設計

        任務管理器負責從數據庫的任務表中讀取任務記錄,然后把任務的網站入口地址和遍歷的策略發(fā)送給URL管理器。此外,它還負責把網頁內容分析器檢查出的網頁違規(guī)信息保存到數據庫,提供內容監(jiān)測平臺展現(xiàn)給工作人員。

        3.4 網頁內容分析器的設計

        網頁內容分析器使用DOM解析器對網頁進行解析,提取出網頁中的鏈接和內容進行如下處理:

        (1)從網頁中提取的新鏈接發(fā)送給URL管理器添加到URL列表中;

        (2)對于網頁內容進行規(guī)范性檢查(是否包括運營商信息,是否含有交叉鏈接等);

        (3)對于網頁的文字內容使用多關鍵詞匹配技術進行違規(guī)檢查;

        (4)對于圖片使用涉黃圖片識別技術進行違規(guī)檢查;

        檢查出的違規(guī)和不規(guī)范的網頁記錄發(fā)送給任務管理器保存到數據庫中。

        4 實驗與分析

        網絡爬蟲系統(tǒng)在實際使用中可以很好地完成WAP網站的監(jiān)測和核查任務。我們對300個WAP網站進行站內遍歷,并且同時進行規(guī)范性和內容檢查。

        站內遍歷時,分別使用1~16個爬蟲進行網頁采集,每次采集的文件數目大約為10 000個左右,文件平均大小為 1.8 KB,結果見表 1。

        進行監(jiān)測和核查時,為了盡量減少對內容服務器的負荷,不需要使用太多的爬蟲線程的數目,一般2~4個就可以了,即使是使用單線程采集也足夠完成內容監(jiān)測任務。

        表1 實驗結果

        5 結束語

        為了對SP提供的WAP網站進行有效的監(jiān)管,采用人工手動方式檢查WAP網站會面臨審核成本高和效率低的雙重壓力。本文提出了一種WAP網站內容監(jiān)測的網絡爬蟲系統(tǒng),該系統(tǒng)可以自動遍歷WAP網站,并且對下載的WAP網頁進行規(guī)范性和違規(guī)檢查,用戶通過內容監(jiān)測平臺查看違規(guī)的網頁,通知SP對其WAP網站進行處理和整改,可以為用戶提供一個安全、監(jiān)控的業(yè)務環(huán)境。本文的創(chuàng)新點在于通過使用網絡爬蟲技術可以有效地對SP提供的WAP網站進行自動審核,極大地提高了WAP網站的監(jiān)測效率。

        2010-07-14)

        猜你喜歡
        爬蟲管理器違規(guī)
        利用網絡爬蟲技術驗證房地產灰犀牛之說
        違規(guī)借調的多重“算計”
        “啄木鳥”專吃“違規(guī)蟲”
        基于Python的網絡爬蟲和反爬蟲技術研究
        應急狀態(tài)啟動磁盤管理器
        Windows文件緩沖處理技術概述
        數碼世界(2018年2期)2018-12-21 21:23:46
        違規(guī)試放存放 爆炸5死1傷
        勞動保護(2018年5期)2018-06-05 02:12:09
        利用爬蟲技術的Geo-Gnutel la VANET流量采集
        電子測試(2018年1期)2018-04-18 11:53:04
        大數據環(huán)境下基于python的網絡爬蟲技術
        電子制作(2017年9期)2017-04-17 03:00:46
        違規(guī)逆行之后
        欧美v日韩v亚洲综合国产高清| 一本久久a久久精品vr综合| 日韩插啊免费视频在线观看| 国产哟交泬泬视频在线播放| 亚洲第一女人天堂av| 日产一区二区三区免费看| 国产深夜男女无套内射| 亚洲欧美日韩综合在线观看| 精品国产乱码久久免费看| 亚洲国产国语在线对白观看| 国产一区二区av在线免费观看| 伊人大杳焦在线| 国产第19页精品| 亚洲精品午夜精品国产| 亚洲激情综合中文字幕| 各种少妇正面着bbw撒尿视频| 国产呦精品系列在线播放| 最近亚洲精品中文字幕| 在线观看 国产一区二区三区| 国产一区二区女内射| 欧美日韩亚洲国产千人斩| 青青草在线成人免费视频| 久久久久99精品成人片欧美| 草草浮力地址线路①屁屁影院| 午夜a福利| 日韩女优一区二区在线观看| 午夜免费电影| 人人妻人人澡av天堂香蕉| 日韩女优一区二区视频| 精品国产一区二区三区av天堂| 中文字幕乱码熟女人妻水蜜桃 | 午夜无遮挡男女啪啪免费软件| 欧美一级欧美一级在线播放| 日韩少妇高潮在线视频| 情爱偷拍视频一区二区| 久久综合久久鬼色| 日本一道dvd在线中文字幕| 国产美腿丝袜一区二区| 丁香六月久久婷婷开心| 精品无码久久久九九九AV| 亚洲hd高清在线一区二区|