亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)頁抓取中爬蟲控制器的研究分析

        2016-10-21 07:50:25孫海濤
        無線互聯(lián)科技 2016年18期
        關鍵詞:爬蟲線程隊列

        孫海濤

        (中移全通系統(tǒng)集成有限公司,河北 石家莊 050000)

        網(wǎng)頁抓取中爬蟲控制器的研究分析

        孫海濤

        (中移全通系統(tǒng)集成有限公司,河北 石家莊 050000)

        隨著互聯(lián)網(wǎng)的日益壯大,網(wǎng)頁抓取技術飛速發(fā)展。網(wǎng)頁抓取已成為人們在浩瀚的網(wǎng)絡世界中獲取信息必不可少的工具,如何有效進行網(wǎng)頁抓取成為專業(yè)搜索引擎中網(wǎng)絡爬蟲研究的主要問題。文章介紹了爬蟲控制器和工作原理,并討論了爬蟲控制器的URL隊列管理、頁面抓取線程、索引隊列管理等的抓取策略,并對其未來發(fā)展趨勢進行了展望。

        爬蟲控制器;隊列管理;線程;索引

        爬蟲控制器是把網(wǎng)頁抓取和網(wǎng)頁分析用多線程的方式執(zhí)行,并管理多線程之間的數(shù)據(jù)共享和通信;加上索引相關模塊,爬蟲控制器大致可以分為4個部分:(1)統(tǒng)一資源定位符(Uniform Resource Locator,URL)隊列管理;(2)頁面抓取線程;(3)索引隊列管理;(4)索引線程。

        其中兩個隊列管理需要處理資源共享問題,線程部分需要處理線程間通信問題。

        1 URL隊列管理

        因URL隊列須保證URL的唯一性,以保證每個鏈接指向的頁面只抓取一次;而抓取頁面的工作是由多個線程同時進行,所以URL隊列需要保證線程操作安全。所以該隊列還必須包含唯一性判斷和線程安全。URL隊列管理如圖1所示。

        在向隊列中追加URL時,把數(shù)據(jù)寫到URL尾部,而讀取URL時,從隊列頭部開始以保證先進先出隊列(First Input First Output,F(xiàn)IFO)規(guī)則,追加數(shù)據(jù)完成后需要通過所有的頁面抓取線程,使沒有工作的線程可以啟動抓取數(shù)據(jù)。若URL的值為空時,讀取線程進入等待狀態(tài)。

        2 頁面抓取線程

        頁面抓取涉及http下載、GZip解壓縮和編碼轉(zhuǎn)換的問題,單個線程的主要功能如圖2所示。

        圖1 URL隊列管理示意圖

        圖2 HTTP抓取線程流程圖

        因URL隊列可能提供的數(shù)據(jù)為空,此時頁面抓取線程就必須等待通知,此通知由URL隊列模塊發(fā)出,以被告知URL已經(jīng)有數(shù)據(jù)可用,則線程繼續(xù)執(zhí)行下一步操作。

        3 索引隊列管理

        索引隊列作為Http抓取線程與索引線程交換數(shù)據(jù)的媒介存在,是典型的生產(chǎn)者—倉庫—消費者模型的倉庫模塊部分。該隊列涉及多線程互斥、線程間通信等內(nèi)容,如圖3所示。

        索引隊列為索引線程和抓取線程提供數(shù)據(jù)交換媒介,抓取線程在往隊列中追加數(shù)據(jù)的同時會通知索引線程。索引線程在等待狀態(tài)時,收到通知則繼續(xù)工作;若索引線程正在工作中,則通知被拋棄。

        4 結(jié)語

        在如今信息爆炸的社會中,網(wǎng)絡成為人們生活中不可或缺的工具,而搜索引擎又在其中扮演著至關重要的角色。網(wǎng)頁抓取是一個實用性很強的研究領域,無論是網(wǎng)絡爬蟲、數(shù)據(jù)庫管理、中文分詞還是索引的建立方法,都值得深入了解。但近年來,隨著良莠不齊的各類爬蟲頻繁出沒,一些網(wǎng)站也承受著由爬蟲帶來的困擾,這些都是今后有待解決的問題。

        Analysis on Web crawler controller

        Sun Haitao
        (China Mobile Quantong System Integration Co., Ltd., Shijiazhuang 050000, China)

        With the growing of the Internet, the Web crawler technology develops rapidly. Web crawling has become an indispensable tool for people to obtain information in the vast network world. How to effectively make web crawler become the main problem in the research of Web crawler in professional search engine. Crawler controller and the principle of work is introduced in this paper, and it discusses the crawler controller URL queue management, page thread crawl, index queue management crawling strategy, and looks forward to its future development trend.

        crawler controller; queue management; thread; index

        圖3 索引隊列工作示意圖

        孫海濤(1978— ),男,河北石家莊。

        猜你喜歡
        爬蟲線程隊列
        利用網(wǎng)絡爬蟲技術驗證房地產(chǎn)灰犀牛之說
        基于Python的網(wǎng)絡爬蟲和反爬蟲技術研究
        隊列里的小秘密
        基于多隊列切換的SDN擁塞控制*
        軟件(2020年3期)2020-04-20 00:58:44
        在隊列里
        利用爬蟲技術的Geo-Gnutel la VANET流量采集
        電子測試(2018年1期)2018-04-18 11:53:04
        豐田加速駛?cè)胱詣玉{駛隊列
        大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡爬蟲技術
        電子制作(2017年9期)2017-04-17 03:00:46
        淺談linux多線程協(xié)作
        Linux線程實現(xiàn)技術研究
        久久久久亚洲AV成人网毛片| 一本大道无码人妻精品专区| 欧洲人妻丰满av无码久久不卡| 亚州AV无码乱码精品国产| 男女午夜视频一区二区三区| 精品人妻va一区二区三区| 国产亚洲日本精品无码| 久久精品亚洲牛牛影视 | 中文字幕av久久亚洲精品| 肥臀熟女一区二区三区| 午夜毛片午夜女人喷潮视频| 国产精品成人有码在线观看| 亚洲一区毛片在线观看| 少妇高潮惨叫正在播放对白| 久久国产精99精产国高潮| 九九久久精品一区二区三区av| 亚洲国产精品久久艾草| 69久久夜色精品国产69| 国产丝袜免费精品一区二区 | 中文字幕视频一区懂色| 人妻体内射精一区二区三区| 影视先锋av资源噜噜| 国产成年无码aⅴ片在线观看| 久久伊人精品中文字幕有| 少妇性俱乐部纵欲狂欢电影| 天美麻花果冻视频大全英文版 | 国产国语按摩对白av在线观看| 久久久国产乱子伦精品作者| 999国产精品视频| 国产美女冒白浆视频免费| 人妻少妇-嫩草影院| 中文无码制服丝袜人妻av| 日本一区二区三区在线播放| 亚洲天堂av在线网站| 午夜成人鲁丝片午夜精品| 精品不卡久久久久久无码人妻 | 国产精品乱码人妻一区二区三区| 人妻无码一区二区三区四区| 色琪琪一区二区三区亚洲区 | 国产精品-区区久久久狼| 亚洲精品视频免费在线|