亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        詳解4種類型的爬蟲技術(shù)

        2021-06-01 10:33:04傅一平
        關(guān)鍵詞:頁面評價(jià)

        傅一平

        聚焦爬蟲技術(shù)

        聚焦網(wǎng)絡(luò)爬蟲也就是主題網(wǎng)絡(luò)爬蟲,它增加了鏈接評價(jià)和內(nèi)容評價(jià)模塊,其爬行策略實(shí)現(xiàn)要點(diǎn)就是評價(jià)頁面內(nèi)容以及鏈接的重要性。

        基于鏈接評價(jià)的爬行策略,主要是以Web頁面作為半結(jié)構(gòu)化文檔,其中擁有很多結(jié)構(gòu)信息可用于評價(jià)鏈接重要性。還有一個(gè)是利用Web結(jié)構(gòu)來評價(jià)鏈接價(jià)值的方法,也就是HITS法,通過計(jì)算每個(gè)訪問頁面的Authority權(quán)重和Hub權(quán)重來決定鏈接訪問順序。

        而基于內(nèi)容評價(jià)的爬行策略,主要是將與文本相似的計(jì)算法加以應(yīng)用。Fish-Search算法就是把用戶輸入查詢詞當(dāng)作主題,在算法的進(jìn)一步改進(jìn)后,通過Shark-Search算法就能利用空間向量模型計(jì)算頁面和主題相關(guān)度大小。

        而面向主題爬蟲與面向需求爬蟲會針對某種特定的內(nèi)容去爬取信息,而且會保證信息和需求盡可能相關(guān)。

        通用爬蟲技術(shù)

        通用爬蟲技術(shù)也就是全網(wǎng)爬蟲,其實(shí)現(xiàn)過程如下。

        第一,獲取初始URL。初始URL地址可以由用戶人為指定,也可以由用戶指定的某個(gè)或某幾個(gè)初始爬取網(wǎng)頁決定。

        第二,根據(jù)初始的URL爬取頁面并獲得新的URL。獲得初始的URL地址之后,需要先爬取對應(yīng)URL地址中的網(wǎng)頁,接著將網(wǎng)頁存儲到原始數(shù)據(jù)庫中,并且在爬取網(wǎng)頁的同時(shí),發(fā)現(xiàn)新的URL地址,并將已爬取的URL地址存放到一個(gè)URL列表中,用于去重及判斷爬取的進(jìn)程。

        第三,將新的URL放到URL隊(duì)列中,再于第二步內(nèi)獲取下一個(gè)新的URL地址之后,再將新的URL地址放到URL隊(duì)列中。

        第四,從URL隊(duì)列中讀取新的URL,并依據(jù)新的URL爬取網(wǎng)頁,同時(shí)從新的網(wǎng)頁中獲取新的URL并重復(fù)上述的爬取過程。

        第五,滿足爬蟲系統(tǒng)設(shè)置的停止條件時(shí),停止爬取。在編寫爬蟲的時(shí)候,一般會設(shè)置相應(yīng)的停止條件。如果沒有設(shè)置停止條件,爬蟲便會一直爬取下去,一直到無法獲取新的URL地址為止,若設(shè)置了停止條件,爬蟲則會在停止條件滿足時(shí)停止爬取。

        通用爬蟲技術(shù)應(yīng)用有著不同的爬取策略,其中的廣度優(yōu)先策略以及深度優(yōu)先策略都比較關(guān)鍵,深度優(yōu)先策略的實(shí)施是依照深度從低到高的順序來訪問下一級網(wǎng)頁鏈接。

        增量爬蟲技術(shù)

        某些網(wǎng)站會定時(shí)在原有網(wǎng)頁數(shù)據(jù)的基礎(chǔ)上更新一批數(shù)據(jù)。例如某電影網(wǎng)站會實(shí)時(shí)更新一批最近熱門的電影,小說網(wǎng)站會根據(jù)作者創(chuàng)作的進(jìn)度實(shí)時(shí)更新最新的章節(jié)數(shù)據(jù)等。在遇到類似的場景時(shí),便可以采用增量式爬蟲。

        增量爬蟲技術(shù)就是通過爬蟲程序監(jiān)測某網(wǎng)站數(shù)據(jù)更新的情況,以便可以爬取到該網(wǎng)站更新后的新數(shù)據(jù)。

        關(guān)于如何進(jìn)行增量式的爬取工作,以下給出3種檢測重復(fù)數(shù)據(jù)的思路。

        在發(fā)送請求之前判斷這個(gè)URL是否曾爬取過;

        在解析內(nèi)容后判斷這部分內(nèi)容是否曾爬取過;

        寫入存儲介質(zhì)時(shí)判斷內(nèi)容是否已存在于介質(zhì)中。

        第一種思路適合不斷有新頁面出現(xiàn)的網(wǎng)站,比如小說的新章節(jié)、每天的實(shí)時(shí)新聞等。

        第二種思路則適合頁面內(nèi)容會定時(shí)更新的網(wǎng)站。

        第三種思路則相當(dāng)于最后一道防線,這樣做可以最大限度地達(dá)到去重的目的。

        不難發(fā)現(xiàn),實(shí)現(xiàn)增量爬取的核心是去重,目前存在2種去重方法。

        第一,對爬取過程中產(chǎn)生的URL進(jìn)行存儲,存儲在Redis的set中。當(dāng)下次進(jìn)行數(shù)據(jù)爬取時(shí),首先在存儲URL的set中對即將發(fā)起的請求所對應(yīng)的URL進(jìn)行判斷,如果存在則不進(jìn)行請求,否則進(jìn)行請求。

        第二,對爬取到的網(wǎng)頁內(nèi)容進(jìn)行唯一標(biāo)識的制定(數(shù)據(jù)指紋),然后將該唯一標(biāo)識存儲至Redis的set中。當(dāng)下次爬取到網(wǎng)頁數(shù)據(jù)的時(shí)候,在進(jìn)行持久化存儲之前,可以先判斷該數(shù)據(jù)的唯一標(biāo)識在Redis的set中是否存在,從而決定是否進(jìn)行持久化存儲。

        深層網(wǎng)絡(luò)爬蟲技術(shù)

        在互聯(lián)網(wǎng)中,網(wǎng)頁按存在方式可以分為表層網(wǎng)頁和深層網(wǎng)頁兩類。

        所謂的表層網(wǎng)頁,是指不需要提交表單,使用靜態(tài)鏈接就能夠到達(dá)的靜態(tài)頁面。而深層網(wǎng)頁則隱藏在表單后面,不能通過靜態(tài)鏈接直接獲取,是需要提交一定的關(guān)鍵詞后才能夠獲取到的頁面,深層網(wǎng)絡(luò)爬蟲最重要的部分即為表單填寫部分。

        在互聯(lián)網(wǎng)中深層網(wǎng)頁的數(shù)量往往要比表層網(wǎng)頁的數(shù)量多很多,故而,我們需要想辦法爬取深層網(wǎng)頁。

        深層網(wǎng)絡(luò)爬蟲的基本構(gòu)成包括:URL列表、LVS列表(LVS指的是標(biāo)簽/數(shù)值集合,即填充表單的數(shù)據(jù)源)、爬行控制器、解析器、LVS控制器、表單分析器、表單處理器以及響應(yīng)分析器。

        深層網(wǎng)絡(luò)爬蟲的表單填寫有2種類型:

        基于領(lǐng)域知識的表單填寫(建立一個(gè)填寫表單的關(guān)鍵詞庫,在需要時(shí)根據(jù)語義分析選擇對應(yīng)的關(guān)鍵詞進(jìn)行填寫);

        基于網(wǎng)頁結(jié)構(gòu)分析的表單填寫,一般在領(lǐng)域知識有限的情況下使用,這種方式會根據(jù)網(wǎng)頁結(jié)構(gòu)進(jìn)行分析,并自動進(jìn)行表單填寫。

        猜你喜歡
        頁面評價(jià)
        微信群聊總是找不到,打開這個(gè)開關(guān)就好了
        大狗熊在睡覺
        刷新生活的頁面
        SBR改性瀝青的穩(wěn)定性評價(jià)
        石油瀝青(2021年4期)2021-10-14 08:50:44
        中藥治療室性早搏系統(tǒng)評價(jià)再評價(jià)
        基于Moodle的學(xué)習(xí)評價(jià)
        關(guān)于項(xiàng)目后評價(jià)中“專項(xiàng)”后評價(jià)的探討
        保加利亞轉(zhuǎn)軌20年評價(jià)
        多維度巧設(shè)聽課評價(jià)表 促進(jìn)聽評課的務(wù)實(shí)有效
        體育師友(2012年4期)2012-03-20 15:30:10
        同一Word文檔 縱橫頁面并存
        日韩一区二区三区人妻免费观看| 国产成人户外露出视频在线| 98精品国产高清在线xxxx| 丝袜欧美视频首页在线| 亚洲第一女人天堂av| 亚洲日本国产精品久久| 亚洲精品久久一区二区三区777 | 国产96在线 | 亚洲| 色婷婷色99国产综合精品| 亚洲av天堂在线免费观看| 欧美老妇交乱视频在线观看 | 亚洲av午夜精品无码专区| 六月丁香综合在线视频| 999久久久无码国产精品| 99国产精品久久久蜜芽| 亚洲女同人妻在线播放| 久久久久高潮综合影院| 国产精品美女久久久久| 思思久久96热在精品不卡| 白白色发布视频在线播放| 国产成人精品免费视频大全软件| 丰满人妻av无码一区二区三区| 国产精品久久国产三级国电话系列| 国产av一区二区三区狼人香蕉| 亚洲国产精品久久精品 | 少妇激情一区二区三区久久大香香 | 国产真实强被迫伦姧女在线观看| a毛片全部免费播放| 国产日韩精品一区二区在线观看播放 | 欧美老妇交乱视频在线观看| 野外性史欧美k8播放| 成人精品免费av不卡在线观看| 国产亚洲精品一区在线| 东京道一本热中文字幕| 亚洲三级黄色| 一区二区三区人妻在线| 国产成人精品免费视频大全软件| 亚洲中文字幕无码mv| 亚洲AV无码一区二区水蜜桃| 精品视频一区二区三区日本| 亚洲七久久之综合七久久|