亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        爬蟲技術在WAP網站內容監(jiān)測中的應用

        2010-04-17 01:52:10鄒一心范海平
        電信科學 2010年1期
        關鍵詞:爬蟲管理器違規(guī)

        鄒一心,范海平

        (1.中國電信上海研究院 上海 200122;2.北京微智信業(yè)科技有限公司 北京 100080)

        爬蟲技術在WAP網站內容監(jiān)測中的應用

        鄒一心1,范海平2

        (1.中國電信上海研究院 上海 200122;2.北京微智信業(yè)科技有限公司 北京 100080)

        本文提出了一種WAP網站內容監(jiān)測的網絡爬蟲系統(tǒng),該系統(tǒng)可以自動遍歷WAP網站,并且對網頁進行規(guī)范性檢查,網頁內容進行違規(guī)檢查。

        WAP網站;內容監(jiān)測;網絡爬蟲;WML

        1 引言

        為了規(guī)范WAP服務提供商(SP)的行為和業(yè)務內容,確保增值業(yè)務的服務質量,為手機用戶提供一個安全、監(jiān)控的業(yè)務環(huán)境,需要對WAP網站的內容和業(yè)務邏輯進行自動監(jiān)測和核查。如果僅依靠人工手動的檢查和審核WAP網站,不僅檢查的成本高而且效率低下。本文提出了一種WAP網站內容監(jiān)測的網絡爬蟲系統(tǒng),通過該系統(tǒng)可以自動遍歷整個WAP網站,下載每個WAP網頁,并且進行相應的網頁規(guī)范性檢查和內容違規(guī)檢查,當發(fā)現(xiàn)網頁不規(guī)范或者含有違規(guī)內容的時候,可以把錯誤和違規(guī)記錄到數據庫中,審查人員可以通過內容監(jiān)測平臺查看檢查結果,及時通知SP對其WAP網站進行整改。

        2 網絡爬蟲系統(tǒng)架構

        2.1 網絡爬蟲的簡介

        網絡爬蟲(crawler)是一個自動采集網頁的程序,它從一個或者若干個初始網頁的URL開始,獲取初始網頁的URL,在抓取網頁的過程中,不斷地從當前網頁上抽取新的URL添加到抓取隊列中,直到滿足一定的停止條件。網絡爬蟲通過周期性地自動編譯給定的WAP網站,檢查網站的內容,從而避免了手工檢查的種種不便。

        2.2 工作流程

        網絡爬蟲遍歷網站的過程可以分解為三個部分,如圖1所示。

        (1)網頁的抓??;

        (2)網頁的分析;

        (3)網頁中新鏈接的提取。

        網頁的抓取過程如下:網絡爬蟲先向WAP網站服務器發(fā)送一個HTTP請求,然后從服務器接收一個HTTP響應。如果成功獲取網頁,則網頁的內容包含在這個HTTP響應中。因此網頁的抓取過程就是一個基于HTTP的客戶端與服務器之間的交互過程。

        當網絡爬蟲成功獲取網頁后,就要對該網頁進行分析。目前WAP網頁有兩個格式:一種是基于WAP 1.X的WML格式;另一種是基于WAP 2.0的XHTML格式。這兩種格式的網頁都是XML文檔,因此可以使用DOM解析器來解析WAP網頁,提取網頁中的鏈接和文本內容,把提取的新鏈接添加到URL隊列中進行遍歷,同時進行網頁規(guī)范性檢查和違規(guī)檢查。

        2.3 系統(tǒng)架構

        網絡爬蟲系統(tǒng)主要有內容監(jiān)測管理平臺、任務管理器、網頁采集器、網頁內容分析器、URL管理器幾部分組成,如圖2所示。通過內容監(jiān)測平臺,工作人員可以將SP提供的WAP網站入口URL加入到任務隊列中。任務管理器從數據庫中讀取入口URL,使用不同的遍歷策略控制各個網頁采集器對網站進行遍歷。采集的網頁內容提交給網頁內容分析器進行處理,從網頁中提取新的鏈接,并且檢查網頁的規(guī)范性和合法性。

        3 網絡爬蟲系統(tǒng)的設計和實現(xiàn)

        3.1 網頁采集器的設計

        在網絡爬蟲系統(tǒng)中,網頁采集器負責通過HTTP與WAP內容服務器進行交互,獲取網頁內容。如果通過無線網絡獲取一個WAP網頁,必須經過WAP網關才能得到WAP內容服務器中的網頁。WAP網關的作用是把WAP協(xié)議的請求轉換為HTTP請求,并且對內容進行編解碼。因此,可以通過模擬WAP網關與內容服務器之間的交互來獲取相應的WAP頁面。

        3.2 URL管理器的設計

        URL管理器從任務管理器接收入口網址和遍歷策略保存到URL列表中。為了保證整個遍歷過程的完整性,避免重復采集同一個網頁,URL管理器需要具有URL去重功能,即判斷新發(fā)現(xiàn)的URL是否在URL池中存在。

        3.3 任務管理器的設計

        任務管理器負責從數據庫的任務表中讀取任務記錄,然后把任務的網站入口地址和遍歷的策略發(fā)送給URL管理器。此外,它還負責把網頁內容分析器檢查出的網頁違規(guī)信息保存到數據庫,提供內容監(jiān)測平臺展現(xiàn)給工作人員。

        3.4 網頁內容分析器的設計

        網頁內容分析器使用DOM解析器對網頁進行解析,提取出網頁中的鏈接和內容進行如下處理:

        (1)從網頁中提取的新鏈接發(fā)送給URL管理器添加到URL列表中;

        (2)對于網頁內容進行規(guī)范性檢查(是否包括運營商信息,是否含有交叉鏈接等);

        (3)對于網頁的文字內容使用多關鍵詞匹配技術進行違規(guī)檢查;

        (4)對于圖片使用涉黃圖片識別技術進行違規(guī)檢查;

        檢查出的違規(guī)和不規(guī)范的網頁記錄發(fā)送給任務管理器保存到數據庫中。

        4 實驗與分析

        網絡爬蟲系統(tǒng)在實際使用中可以很好地完成WAP網站的監(jiān)測和核查任務。我們對300個WAP網站進行站內遍歷,并且同時進行規(guī)范性和內容檢查。

        站內遍歷時,分別使用1~16個爬蟲進行網頁采集,每次采集的文件數目大約為10 000個左右,文件平均大小為 1.8 KB,結果見表 1。

        進行監(jiān)測和核查時,為了盡量減少對內容服務器的負荷,不需要使用太多的爬蟲線程的數目,一般2~4個就可以了,即使是使用單線程采集也足夠完成內容監(jiān)測任務。

        表1 實驗結果

        5 結束語

        為了對SP提供的WAP網站進行有效的監(jiān)管,采用人工手動方式檢查WAP網站會面臨審核成本高和效率低的雙重壓力。本文提出了一種WAP網站內容監(jiān)測的網絡爬蟲系統(tǒng),該系統(tǒng)可以自動遍歷WAP網站,并且對下載的WAP網頁進行規(guī)范性和違規(guī)檢查,用戶通過內容監(jiān)測平臺查看違規(guī)的網頁,通知SP對其WAP網站進行處理和整改,可以為用戶提供一個安全、監(jiān)控的業(yè)務環(huán)境。本文的創(chuàng)新點在于通過使用網絡爬蟲技術可以有效地對SP提供的WAP網站進行自動審核,極大地提高了WAP網站的監(jiān)測效率。

        2010-07-14)

        猜你喜歡
        爬蟲管理器違規(guī)
        利用網絡爬蟲技術驗證房地產灰犀牛之說
        違規(guī)借調的多重“算計”
        “啄木鳥”專吃“違規(guī)蟲”
        基于Python的網絡爬蟲和反爬蟲技術研究
        應急狀態(tài)啟動磁盤管理器
        Windows文件緩沖處理技術概述
        數碼世界(2018年2期)2018-12-21 21:23:46
        違規(guī)試放存放 爆炸5死1傷
        勞動保護(2018年5期)2018-06-05 02:12:09
        利用爬蟲技術的Geo-Gnutel la VANET流量采集
        電子測試(2018年1期)2018-04-18 11:53:04
        大數據環(huán)境下基于python的網絡爬蟲技術
        電子制作(2017年9期)2017-04-17 03:00:46
        違規(guī)逆行之后
        老熟女老女人国产老太| 狠狠色狠狠色综合日日不卡| 国产欧美久久久另类精品| 日本一区免费喷水| 久久国产精品亚洲我射av大全| 国产日本精品一二三四区| 美女脱了内裤张开腿让男人桶网站 | 国产三级黄色片子看曰逼大片| 字幕网中文字幕精品一区| 亚洲视频在线一区二区| 三叶草欧洲码在线| 国产精品免费久久久免费| 日本一区二区在线播放观看| 午夜亚洲精品视频在线| 日韩av午夜在线观看| 成在人线av无码免观看麻豆| 国产一线视频在线观看高清 | 全亚洲最大的私人影剧院在线看| 大肉大捧一进一出好爽视频动漫| 强行无套内谢大学生初次| 国产精品99久久国产小草| 人妻少妇粉嫩av专区一| 懂色av一区二区三区尤物| 亚洲国产欧美日韩欧美特级| 国产免费av片在线观看麻豆| 国产一区二区精品av| 日本黑人亚洲一区二区| 熟妇人妻久久中文字幕| 国产一区二区三区四区五区vm| 中文字幕av久久激情亚洲精品| 午夜国产精品视频在线观看| 成在线人免费视频| 国偷自产av一区二区三区| 精品视频一区二区杨幂| 日韩精品视频免费网站| 国产网红主播无码精品| 无码天堂亚洲国产av麻豆| 女女同性av一区二区三区| 日韩日韩日韩日韩日韩日韩日韩| 国产麻豆精品一区| 人妻无码ΑV中文字幕久久琪琪布|