亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)絡(luò)爬蟲技術(shù)研究

        2016-12-31 07:30:22王超群
        移動(dòng)信息 2016年6期
        關(guān)鍵詞:萬維網(wǎng)爬蟲深層

        王超群

        ?

        網(wǎng)絡(luò)爬蟲技術(shù)研究

        王超群

        江漢大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,湖北 武漢 430056

        在互聯(lián)網(wǎng)高速發(fā)展的今天,各類信息數(shù)據(jù)呈爆炸式增長(zhǎng),如何在信息繁雜的“大海”中快速并且準(zhǔn)確的得到我們所需要的數(shù)據(jù),成為了一大難題,并且在互聯(lián)網(wǎng)加的時(shí)代,大數(shù)據(jù)云計(jì)算紛紛崛起,如何獲取大量的數(shù)據(jù)基礎(chǔ),也成為了一大難題,而網(wǎng)絡(luò)爬蟲是解決這些問題最重要的技術(shù),研究將論述網(wǎng)絡(luò)爬蟲的分類、原理以及其應(yīng)用。

        網(wǎng)絡(luò)爬蟲;高效性;深層網(wǎng)絡(luò)爬蟲;信息檢索

        1 網(wǎng)絡(luò)爬蟲的歷史背景以及定義

        網(wǎng)絡(luò)爬蟲(外文名Web Crawler),又被稱為網(wǎng)頁蜘蛛(web Spider),螞蟻、在FOFA社區(qū)中間[1],更經(jīng)常的稱為網(wǎng)頁追逐者,它從萬維網(wǎng)上獲得網(wǎng)頁,并通過網(wǎng)頁中其他鏈接在萬維網(wǎng)上采集信息資源,是按照一定的人為規(guī)則自動(dòng)識(shí)別并抓取萬維網(wǎng)信息的程序和腳本。網(wǎng)絡(luò)爬蟲通常從一些精心挑選的種子URL開始“爬行”,將這些URL放入待抓取的URL隊(duì)列,從待抓取的URL隊(duì)列中取出URL,解析DNS并且得到主機(jī)ip ,并將URL對(duì)應(yīng)的網(wǎng)頁下載下來,存儲(chǔ)進(jìn)已下載網(wǎng)頁庫(kù)中。直到遍歷Web,這種行為被稱為網(wǎng)絡(luò)爬行(Web Crawler)。

        2 網(wǎng)絡(luò)爬蟲的分類及原理介紹

        網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù),大體上可以分為如下幾類:通用爬蟲(General Purpose Web Crawler)、聚焦網(wǎng)絡(luò)爬蟲(Focused Web Crawler)、深層網(wǎng)絡(luò)爬蟲(Deep Web Crawler)。在實(shí)際運(yùn)用中往往是多種技術(shù)的綜合運(yùn)用。

        2.1 通用網(wǎng)絡(luò)爬蟲

        通用爬蟲是從一個(gè)或者若干個(gè)初始網(wǎng)頁開始,爬取全網(wǎng)的網(wǎng)頁,所以主要用來作為各大網(wǎng)站的搜索引擎,但是由于商業(yè)原因,這些技術(shù)細(xì)節(jié)很少公開,例如Google 、百度等。其主要組成部分大致有URL鏈接庫(kù)、文檔內(nèi)容模塊、文檔解析模塊、URL過濾模塊,當(dāng)通用爬蟲工作時(shí),它先從預(yù)定的若干精選的URL開始,獲得初始頁面上的URL列表,并且在爬取URL的同時(shí)下載該頁面,再通過文檔解析模塊將需要的內(nèi)容保存到對(duì)應(yīng)的數(shù)據(jù)庫(kù)中,并再獲得當(dāng)前頁面新的URL,保存到URL鏈接庫(kù)中,直到滿足停止條件。

        通用爬蟲因?yàn)榕佬蟹秶蛿?shù)量都十分龐大,導(dǎo)致其對(duì)爬行速度以及存儲(chǔ)的要求都很高,并且由于數(shù)量巨大導(dǎo)致待更新的頁面也很多,導(dǎo)致這類爬蟲每次更新都要花費(fèi)很多時(shí)間,總結(jié)起來,其局限性為[2]:(1)由于抓取的是全網(wǎng)頁面,導(dǎo)致采集的信息中包含大量用戶不需要的信息。(2)通用爬蟲大多是針對(duì)關(guān)鍵詞檢索,所以對(duì)于語義信息的查詢等要求,不易實(shí)現(xiàn)。雖然有一定缺陷,但通用網(wǎng)絡(luò)爬蟲在廣泛主題下的搜索,還是有較大的使用價(jià)值。

        2.2 聚焦網(wǎng)絡(luò)爬蟲

        聚焦網(wǎng)絡(luò)爬蟲(Focused Crawler),是一種定向抓取有關(guān)聯(lián)的頁面的資源的爬蟲。聚焦爬蟲通過給定的目標(biāo),有目的性的訪問萬維網(wǎng)上相關(guān)網(wǎng)頁,并且有選擇性的抓取網(wǎng)頁。聚焦爬蟲不像通用爬蟲,它會(huì)先通過算法,對(duì)獲得的URL進(jìn)行分析并過濾掉和目標(biāo)主題無關(guān)的鏈接,將有用的保留到URL隊(duì)列中。接著它會(huì)從隊(duì)列中通過定好的策略,找到合適的URL,重復(fù)上述過程,直到滿足一定條件后停止爬行。因此,聚焦爬蟲相比通用爬蟲,具有得到信息更精確,效率更高的特點(diǎn),當(dāng)然,聚焦爬蟲也有其缺陷,如下幾個(gè)問題:

        (1)如何對(duì)目標(biāo)網(wǎng)頁進(jìn)行描述;(2)如何對(duì)網(wǎng)頁和數(shù)據(jù)進(jìn)行分析和過濾;(3)對(duì)URL 搜索和排序策略。

        2.3 深層網(wǎng)絡(luò)爬蟲(Deep Web Crawler)

        網(wǎng)絡(luò)數(shù)據(jù)的快速增加,大量數(shù)據(jù)因此累積而被埋藏,而傳統(tǒng)的搜索方式無法搜索到這部分有價(jià)值的頁面,所以這部分內(nèi)容對(duì)于大部分來說是隱藏的和不可見的,稱之為 Deep Web。2000 年 Bright Planet指出[3]:Deep Web中可訪問信息容量是由靜態(tài)頁面構(gòu)成的Surface Web的幾百倍,是萬維網(wǎng)上數(shù)據(jù)量最大、發(fā)展最快的新型信息資源。實(shí)現(xiàn)大規(guī)模 Deep Web頁面的采集是有效的幫助人們快速、準(zhǔn)確地獲取并利用 Deep Web的海量信息的一個(gè)有效途徑。

        深層網(wǎng)絡(luò)爬蟲與一般爬蟲的相區(qū)別的是,深層網(wǎng)絡(luò)爬蟲在下載完成頁面后,沒有直接將所有URL進(jìn)行遍歷,而是通過特定的算法策略將其進(jìn)行分類處理,對(duì)于不同的類型URL使用不同的算法進(jìn)行查詢參數(shù) ,并將參數(shù)二次提交給服務(wù)器。如果提交的查詢參數(shù)正確,才會(huì)獲得的到隱藏的頁面和URL。

        因?yàn)樯顚泳W(wǎng)絡(luò)爬蟲的訪問是用戶提交表單查詢的,所以想要爬取到深層頁面需要面對(duì)一下問題[4]:(1)需要設(shè)計(jì)高效快捷的算法策略,去獲取數(shù)量龐大的深層Web頁面;(2)獲取深層頁面,需要驗(yàn)證用戶提供的表單信息,一旦出錯(cuò),很難獲取頁面;(3)要使用一些腳本語言,去支持分析客戶端的深層Web頁面。

        3 網(wǎng)絡(luò)爬蟲的應(yīng)用

        隨著信息技術(shù)的高速發(fā)展,信息化社會(huì)逐步走向大數(shù)據(jù)時(shí)代,大數(shù)據(jù)的最顯著的特點(diǎn)是數(shù)據(jù)量大、數(shù)據(jù)形式復(fù)雜、數(shù)據(jù)處理速度快和數(shù)據(jù)價(jià)值高這四個(gè)方面,因?yàn)槿f維網(wǎng)成為了一個(gè)巨大的數(shù)據(jù)庫(kù),所以如何從海量數(shù)據(jù)庫(kù)中采集和提取數(shù)據(jù)是我們面臨的挑戰(zhàn)。而網(wǎng)絡(luò)爬蟲的出現(xiàn)為解決這個(gè)難題做出了巨大貢獻(xiàn)。網(wǎng)絡(luò)爬蟲在 Web 信息搜索與數(shù)據(jù)挖掘中的應(yīng)用[5],極大地提高了Web信息的采掘質(zhì)量,為整個(gè)搜索與挖掘系統(tǒng)奠定堅(jiān)實(shí)的基礎(chǔ);在檔案信息采集中的應(yīng)用[6],為從海量信息中采集和提取與檔案資源建設(shè)相關(guān)信息提供巨大方便;在社交網(wǎng)絡(luò)中,為研究用戶偏好,然后為每個(gè)用戶制定個(gè)性化方案及趨向預(yù)測(cè)提供巨大幫助。

        4 結(jié)語

        研究對(duì)網(wǎng)絡(luò)爬蟲的定義以及原理進(jìn)行介紹,并且對(duì)主流的多種爬蟲進(jìn)行了分析,闡述其優(yōu)缺點(diǎn),并結(jié)合互聯(lián)網(wǎng)加下,最為熱門的大數(shù)據(jù)的應(yīng)用,闡述了網(wǎng)絡(luò)爬蟲的應(yīng)用場(chǎng)景,隨著人們對(duì)信息的需求不斷加深,對(duì)網(wǎng)絡(luò)爬蟲的研究也會(huì)更加深入,網(wǎng)絡(luò)爬蟲也會(huì)走向更加智能化、高效化。

        [1]Downes,S.Semantic networks and social network ks[J].The Learning Organization,2005,12(5);411-417.

        [2]孫立偉,何國(guó)輝,吳禮發(fā).網(wǎng)絡(luò)爬蟲技術(shù)的研究[J].電腦知識(shí)與技術(shù),2010,6(15):4112-4115.

        [3]M K.Bergman.The Deep Web:Surfaceing Hidden Value[EB/OL].http://www.completeplanet.com/Tutorials/DeepWeb,2000.

        [4]王舜燕,李蕾,吳兵華.基于ID3分類算法的深度網(wǎng)絡(luò)爬蟲設(shè)計(jì)[J].現(xiàn)代圖書情報(bào)技術(shù),2008(6):41-45.

        [5]楊定中.網(wǎng)絡(luò)爬蟲在web信息搜索與數(shù)據(jù)挖掘中應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì),2009,30(24)12.

        [6]楊文剛,韓海濤.大數(shù)據(jù)背景下基于主題網(wǎng)絡(luò)爬蟲的檔案信息采集[J].蘭臺(tái)世界,2015(20):20-21.

        Research on Web Crawler Technology

        Wang Chaoqun

        School of mathematics and computer science,Jianghan University,Wuhan,Hubei 430056

        The rapid development of the Internet today,all kinds of information and data was explosive growth,how to in the complex information from the "sea" fast and accurately get we need data,has become a big problem,and in the Internet era,the big data cloud computing numerous rise,how to obtain a lot of data base,has also become a major problem,and web crawler is to solve these problems the most important technology.This paper discusses the web crawler's classification,the principle as well as its application.

        web crawler;high efficiency;deep web crawler;information retrieval

        TP393.09

        A

        1009-6434(2016)6-0181-02

        猜你喜歡
        萬維網(wǎng)爬蟲深層
        利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說
        基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
        考慮各向異性滲流的重力壩深層抗滑穩(wěn)定分析
        5 Fast Facts About the World Wide Web on Its 30th Birthday萬維網(wǎng)30年:小知識(shí)一覽
        英語世界(2019年7期)2019-09-10 07:22:44
        萬維網(wǎng)30歲,創(chuàng)始人發(fā)公開信表達(dá)“不滿意”
        SAM系統(tǒng)對(duì)TDCS數(shù)據(jù)的優(yōu)化處理與深層應(yīng)用
        利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
        大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
        電子制作(2017年9期)2017-04-17 03:00:46
        對(duì)“醫(yī)患失去信任”的深層憂慮
        電視節(jié)目低俗化的深層反思
        国产三级视频不卡在线观看| 99色网站| 韩日午夜在线资源一区二区| 无码人妻丰满熟妇啪啪网站| 亚洲av无码国产精品永久一区| 亚洲av日韩aⅴ无码色老头| 亚洲国产精品福利片在线观看| 国产伦久视频免费观看视频| 日本视频中文字幕一区在线| 中文字幕一区二区三区四区在线 | 日韩av在线毛片| 91福利国产在线观一区二区 | 国产成人一区二区三区| 日本人妻高清免费v片| 久久国产精品美女厕所尿尿av | 一区二区三区四区中文字幕av| 一区二区三区视频在线观看| 国产欧美综合一区二区三区| 性欧美丰满熟妇xxxx性久久久| 日韩午夜福利无码专区a| 又色又爽又黄高潮的免费视频| 国产欧美一区二区精品仙草咪| 亚洲成a人片在线观看天堂无码 | 激情免费视频一区二区三区| 麻豆视频av在线观看| 粉嫩极品国产在线观看免费一区| 国产亚av手机在线观看| 三级全黄的视频在线观看| 欧美巨大xxxx做受中文字幕| 亚洲中文字幕无码中字| 国产综合久久久久影院| 久久久久无码精品国| 日本视频一区二区二区| 国产一区二区杨幂在线观看性色| av中文字幕一区人妻| 中国亚洲一区二区视频| 亚洲三区在线观看内射后入| 特黄做受又硬又粗又大视频小说| 好日子在线观看视频大全免费动漫| 国产suv精品一区二区69| 国产精品久久久久久久专区|