亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)頁抓取中爬蟲控制器的研究分析

        2016-10-21 07:50:25孫海濤
        無線互聯(lián)科技 2016年18期
        關鍵詞:爬蟲線程隊列

        孫海濤

        (中移全通系統(tǒng)集成有限公司,河北 石家莊 050000)

        網(wǎng)頁抓取中爬蟲控制器的研究分析

        孫海濤

        (中移全通系統(tǒng)集成有限公司,河北 石家莊 050000)

        隨著互聯(lián)網(wǎng)的日益壯大,網(wǎng)頁抓取技術飛速發(fā)展。網(wǎng)頁抓取已成為人們在浩瀚的網(wǎng)絡世界中獲取信息必不可少的工具,如何有效進行網(wǎng)頁抓取成為專業(yè)搜索引擎中網(wǎng)絡爬蟲研究的主要問題。文章介紹了爬蟲控制器和工作原理,并討論了爬蟲控制器的URL隊列管理、頁面抓取線程、索引隊列管理等的抓取策略,并對其未來發(fā)展趨勢進行了展望。

        爬蟲控制器;隊列管理;線程;索引

        爬蟲控制器是把網(wǎng)頁抓取和網(wǎng)頁分析用多線程的方式執(zhí)行,并管理多線程之間的數(shù)據(jù)共享和通信;加上索引相關模塊,爬蟲控制器大致可以分為4個部分:(1)統(tǒng)一資源定位符(Uniform Resource Locator,URL)隊列管理;(2)頁面抓取線程;(3)索引隊列管理;(4)索引線程。

        其中兩個隊列管理需要處理資源共享問題,線程部分需要處理線程間通信問題。

        1 URL隊列管理

        因URL隊列須保證URL的唯一性,以保證每個鏈接指向的頁面只抓取一次;而抓取頁面的工作是由多個線程同時進行,所以URL隊列需要保證線程操作安全。所以該隊列還必須包含唯一性判斷和線程安全。URL隊列管理如圖1所示。

        在向隊列中追加URL時,把數(shù)據(jù)寫到URL尾部,而讀取URL時,從隊列頭部開始以保證先進先出隊列(First Input First Output,F(xiàn)IFO)規(guī)則,追加數(shù)據(jù)完成后需要通過所有的頁面抓取線程,使沒有工作的線程可以啟動抓取數(shù)據(jù)。若URL的值為空時,讀取線程進入等待狀態(tài)。

        2 頁面抓取線程

        頁面抓取涉及http下載、GZip解壓縮和編碼轉(zhuǎn)換的問題,單個線程的主要功能如圖2所示。

        圖1 URL隊列管理示意圖

        圖2 HTTP抓取線程流程圖

        因URL隊列可能提供的數(shù)據(jù)為空,此時頁面抓取線程就必須等待通知,此通知由URL隊列模塊發(fā)出,以被告知URL已經(jīng)有數(shù)據(jù)可用,則線程繼續(xù)執(zhí)行下一步操作。

        3 索引隊列管理

        索引隊列作為Http抓取線程與索引線程交換數(shù)據(jù)的媒介存在,是典型的生產(chǎn)者—倉庫—消費者模型的倉庫模塊部分。該隊列涉及多線程互斥、線程間通信等內(nèi)容,如圖3所示。

        索引隊列為索引線程和抓取線程提供數(shù)據(jù)交換媒介,抓取線程在往隊列中追加數(shù)據(jù)的同時會通知索引線程。索引線程在等待狀態(tài)時,收到通知則繼續(xù)工作;若索引線程正在工作中,則通知被拋棄。

        4 結(jié)語

        在如今信息爆炸的社會中,網(wǎng)絡成為人們生活中不可或缺的工具,而搜索引擎又在其中扮演著至關重要的角色。網(wǎng)頁抓取是一個實用性很強的研究領域,無論是網(wǎng)絡爬蟲、數(shù)據(jù)庫管理、中文分詞還是索引的建立方法,都值得深入了解。但近年來,隨著良莠不齊的各類爬蟲頻繁出沒,一些網(wǎng)站也承受著由爬蟲帶來的困擾,這些都是今后有待解決的問題。

        Analysis on Web crawler controller

        Sun Haitao
        (China Mobile Quantong System Integration Co., Ltd., Shijiazhuang 050000, China)

        With the growing of the Internet, the Web crawler technology develops rapidly. Web crawling has become an indispensable tool for people to obtain information in the vast network world. How to effectively make web crawler become the main problem in the research of Web crawler in professional search engine. Crawler controller and the principle of work is introduced in this paper, and it discusses the crawler controller URL queue management, page thread crawl, index queue management crawling strategy, and looks forward to its future development trend.

        crawler controller; queue management; thread; index

        圖3 索引隊列工作示意圖

        孫海濤(1978— ),男,河北石家莊。

        猜你喜歡
        爬蟲線程隊列
        利用網(wǎng)絡爬蟲技術驗證房地產(chǎn)灰犀牛之說
        基于Python的網(wǎng)絡爬蟲和反爬蟲技術研究
        隊列里的小秘密
        基于多隊列切換的SDN擁塞控制*
        軟件(2020年3期)2020-04-20 00:58:44
        在隊列里
        利用爬蟲技術的Geo-Gnutel la VANET流量采集
        電子測試(2018年1期)2018-04-18 11:53:04
        豐田加速駛?cè)胱詣玉{駛隊列
        大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡爬蟲技術
        電子制作(2017年9期)2017-04-17 03:00:46
        淺談linux多線程協(xié)作
        Linux線程實現(xiàn)技術研究
        亚洲视频在线观看一区二区三区 | 无遮挡边摸边吃奶边做视频免费 | 久久精品国产精品亚洲毛片| 伊人网视频在线观看| 国产女在线| 国产在线观看网址不卡一区| 玖玖资源网站最新网站| 亚洲中文字幕精品久久久| 加勒比婷婷色综合久久| 丝袜美腿一区二区国产| 无码熟妇人妻av在线影片最多| av综合网男人的天堂| 欧美极品少妇性运交| 久久久久久久98亚洲精品| 777久久| 久久久黄色大片免费看| 欧美激情一区二区三区成人| 欧美性猛交内射兽交老熟妇| 国产v视频| 国产在线精品亚洲视频在线 | 日韩精品免费一区二区三区观看| 粉嫩小泬无遮挡久久久久久| 日本艳妓bbw高潮一19| 国产精成人品| 亚洲av无码成人精品区天堂| 亚洲夫妻性生活视频网站| 日韩一区二区三区精品视频| 久久久www免费人成精品| 亚洲av片不卡无码久久| 免费的一级毛片| 国产在线观看免费不卡视频| 成人自拍小视频在线看| 亚洲人精品亚洲人成在线| 欧美黑人巨大xxxxx| 久久精品国产亚洲婷婷| av亚洲在线一区二区| 国产日产亚洲系列首页| 人人妻人人澡人人爽欧美一区| 国产成人无码区免费内射一片色欲 | 日本一区二区三级免费| 中文字幕国产精品一二三四五区|