亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于關(guān)鍵詞的主題網(wǎng)絡(luò)爬蟲

        2016-07-01 01:39:54南京航空航天大學(xué)
        電子世界 2016年10期
        關(guān)鍵詞:爬蟲隊列網(wǎng)頁

        南京航空航天大學(xué) 周 萍

        ?

        基于關(guān)鍵詞的主題網(wǎng)絡(luò)爬蟲

        南京航空航天大學(xué) 周 萍

        【摘要】通常來說,用戶從搜索引擎獲取的網(wǎng)頁中,大部分都是不符合特定需求的,只有一小部分才是想要的結(jié)果。網(wǎng)絡(luò)爬蟲在搜索引擎中扮演著重要的角色,起著關(guān)鍵性的作用。本文主要講述了基于關(guān)鍵詞的網(wǎng)絡(luò)爬蟲,通過使用相關(guān)性決策機制和本體的知識來設(shè)計出最合適的爬蟲抓取路徑。和傳統(tǒng)的網(wǎng)絡(luò)爬蟲相比較,本文設(shè)計的爬蟲具有最優(yōu)性,并通過高準(zhǔn)確性來提高搜索效率。

        【關(guān)鍵詞】網(wǎng)絡(luò)爬蟲;基于特定主題的網(wǎng)絡(luò)爬蟲;本體;關(guān)鍵詞;知識路徑

        0 引言

        網(wǎng)絡(luò)爬蟲主要下載主題相關(guān)的網(wǎng)頁或者滿足用戶需求的特定網(wǎng)頁,而不是像傳統(tǒng)的搜索引擎那樣下載整個Web網(wǎng)頁庫。因此,主題爬蟲的基本要求是選擇那些滿足用戶需求的網(wǎng)頁。鏈接分析算法和網(wǎng)頁排序算法一樣,通常根據(jù)URLs的相關(guān)性和搜索策略對URLs進行排序,然后優(yōu)先下載那些特定網(wǎng)頁。

        本文提出了基于關(guān)鍵詞的主題網(wǎng)絡(luò)爬蟲算法,該算法是根據(jù)優(yōu)先級和領(lǐng)域本體找出網(wǎng)頁的URLs 。此外,知識路徑在尋找主題相關(guān)網(wǎng)頁中也發(fā)揮著重要的作用。

        網(wǎng)絡(luò)爬蟲是搜索引擎的重要模塊。在傳統(tǒng)的網(wǎng)絡(luò)爬蟲中,將種子URL作為爬蟲工作的初始URL。在分析了種子URL的網(wǎng)頁內(nèi)容之后,爬蟲開始下載網(wǎng)頁,然后抽取出所有的超鏈接,并把這些鏈接存儲到URL隊列中,遞歸執(zhí)行上述過程,直到獲得了相關(guān)結(jié)果。

        網(wǎng)絡(luò)爬蟲的關(guān)鍵問題就是從web中只下載重要的網(wǎng)頁,然后分析這些網(wǎng)頁中URL的優(yōu)先級,并根據(jù)優(yōu)先級放到URL隊列中的合適位置。網(wǎng)路爬蟲的兩大問題如下所示:(1)計算爬蟲抓取的網(wǎng)頁的優(yōu)先級;(2)設(shè)計爬蟲抓取網(wǎng)頁的爬行策略。

        1 基于關(guān)鍵詞的主題網(wǎng)絡(luò)爬蟲算法

        1.1背景

        如今網(wǎng)絡(luò)的規(guī)模越來越大,信息的更新率變快。網(wǎng)絡(luò)擁有大量的數(shù)據(jù)信息,所以爬蟲需要根據(jù)URL的優(yōu)先級來下載滿足需求的網(wǎng)頁。

        爬蟲根據(jù)領(lǐng)域知識下載一小部分網(wǎng)頁,這些網(wǎng)頁的大部分內(nèi)容是主題相關(guān)的,因此沒有必要從網(wǎng)上下載所有的網(wǎng)頁。網(wǎng)頁內(nèi)容的主題重要度主要取決于鏈接和被訪問量。因此,很有必要提出一個可靠的爬蟲算法。

        1.2爬蟲算法的研究設(shè)計及具體步驟

        爬蟲算法的基本步驟是將URLs種子隊列作為輸入,然后重復(fù)執(zhí)行分布式的步驟。從地址列表中取出某個地址,確認該地址的主機名,然后將網(wǎng)頁翻譯成對應(yīng)的文檔信息,接著抽取出其中的超鏈接。對于每一個被抽取的鏈接,檢查它們的絕對地址,并把它們添加到URLs的列表中,前提是它們之前沒有被訪問過。該算法規(guī)則需要一個組件來存儲下載的URLs隊列。

        此外,還需要將主機地址解析成以下三部分:(1)一部分用來下載文檔;(2)一部分用來從超文本標(biāo)記語言中抽取超鏈接;(3)一部分用來判斷該地址之前是否被訪問過。

        本文設(shè)計的爬蟲算法主要分六步,具體步驟如下所示:(1)選擇一個URL種子作為算法的輸入;(2)構(gòu)造本體知識樹,并找出知識路徑;(3)下載初始輸入URL對應(yīng)的網(wǎng)頁;(4)從下載的網(wǎng)頁中抽取出超鏈接內(nèi)容,并把它們插入到URL隊列中;(5)挖掘更多的主題相關(guān)的URL,下載該URL對應(yīng)的網(wǎng)頁,并從中抽取出超鏈接,最后把這些超鏈接插入到URL隊列中;(6)重復(fù)上述步驟,獲得更多的主題相關(guān)的結(jié)果。

        2 實驗結(jié)果以及討論

        2.1實驗結(jié)果

        基于關(guān)鍵詞的主題網(wǎng)絡(luò)爬蟲和傳統(tǒng)的網(wǎng)絡(luò)爬蟲分別作了對比實驗。實驗中,軟件系統(tǒng)和硬件環(huán)境是不變的。分別比較網(wǎng)絡(luò)爬蟲的關(guān)鍵詞有本體和沒有本體這兩種情況。

        實驗中用到的參數(shù)是:Depth for looking out=2;Number of thread=5;Initial seed=1;Seed universal resource locator is=http:// www.google.com;Concept in ontology=Java。

        基于相同的軟件系統(tǒng)和硬件環(huán)境,實驗獲得的結(jié)果如表2.1所示:

        表2.1 兩種爬蟲系統(tǒng)的比較

        2.2本體和知識路徑

        本體是結(jié)構(gòu)信息的其中一項技術(shù),它也叫樹或者圖。本體將信息系統(tǒng)進行分層設(shè)置,分層的結(jié)構(gòu)是一個有向無環(huán)圖(directed acyclic graph ,DAG)。參考本體根據(jù)不同的關(guān)聯(lián)關(guān)系設(shè)置了“is a”,“has a”,“part of”。本體被用來構(gòu)造信息和過濾信息。

        假設(shè)本體結(jié)構(gòu)如圖2.1所示,其中包括不同的結(jié)點以及相互之間的聯(lián)系,這些聯(lián)系代表了結(jié)點之間的關(guān)系。

        本體結(jié)構(gòu)類似于Google網(wǎng)頁目錄的分層目錄結(jié)構(gòu)。假如尋找“java”,知識路徑是:Branch->computer->programming-> java。爬蟲根據(jù)這條URL開始抓取網(wǎng)頁,初始的URL種子是:http://www. google.com。在下載網(wǎng)頁之后,從頁面內(nèi)容中尋找可用的鏈接(比如U1,U2……Un),然后把這些鏈接加入到URL隊列中。這些鏈接U1,U2……Un需要被檢查是否和關(guān)鍵詞相匹配,爬蟲的知識路徑就是由這些關(guān)鍵詞組成的。第二條URL是:http://www.google. com/references/computer.html,其中包含關(guān)鍵詞“computer”,和圖的第一層級的結(jié)點相匹配。第三條URL是:http://www.google.com/ references/computer/programming.html第四條URL是:http://www. google.com/references/computer/programming/java.html

        上述算法不能通過“art”或者其他分支來找到目標(biāo)節(jié)點“java”,因為父母結(jié)點“Computer”和“java”相關(guān)。

        3 結(jié)論

        相較于其他網(wǎng)絡(luò)爬蟲來說,使用基于關(guān)鍵詞的主題網(wǎng)絡(luò)爬蟲的優(yōu)點是智能性、高效性、不需要關(guān)聯(lián)性反饋。本文提出的爬蟲算法減少了爬蟲抓取網(wǎng)頁的數(shù)量,因此爬蟲抓取的時間變少,這是因為爬蟲只下載主題相關(guān)的網(wǎng)頁。 主題網(wǎng)絡(luò)爬蟲的目的就是獲取主題相關(guān)的網(wǎng)頁,舍棄主題無關(guān)的網(wǎng)頁。本文設(shè)計了基于最佳知識路徑的爬蟲的本體,本體通過關(guān)聯(lián)決策機制來獲取網(wǎng)頁。和傳統(tǒng)的爬蟲相比較,本文提出的爬蟲具有如下優(yōu)勢:(1)從下載的網(wǎng)頁中獲取URLs的數(shù)目變少;(2)爬蟲的抓取時間變少。

        圖2.1 本體的結(jié)構(gòu)

        猜你喜歡
        爬蟲隊列網(wǎng)頁
        利用網(wǎng)絡(luò)爬蟲技術(shù)驗證房地產(chǎn)灰犀牛之說
        基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
        隊列里的小秘密
        基于多隊列切換的SDN擁塞控制*
        軟件(2020年3期)2020-04-20 00:58:44
        在隊列里
        基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計
        電子制作(2018年10期)2018-08-04 03:24:38
        利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
        電子測試(2018年1期)2018-04-18 11:53:04
        豐田加速駛?cè)胱詣玉{駛隊列
        基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
        電子制作(2017年9期)2017-04-17 03:00:46
        加勒比在线一区二区三区| 少妇熟女天堂网av天堂| 国产精品三级国产精品高| 午夜av福利亚洲写真集| 看中文字幕一区二区三区| 91久久大香伊蕉在人线国产| 国产人妖在线视频网站| 国产毛片av最新视频| 国产啪亚洲国产精品无码| 亚洲精品无码不卡| 日日摸夜夜添夜夜添高潮喷水| 初尝人妻少妇中文字幕| 国产伦精品一区二区三区妓女| 久久综合给合综合久久| 人禽伦免费交视频播放| 亚洲自拍愉拍| 国产精品美女一级在线观看| 中国av一区二区三区四区| 毛片成人18毛片免费看| 高清日韩av在线免费观看| 香蕉成人伊视频在线观看| 亚洲香蕉成人av网站在线观看| 精品www日韩熟女人妻| 精品日韩欧美一区二区在线播放 | 国产成人亚洲综合无码| 国产一区二区精品网站看黄| 激情视频国产在线观看| 风韵人妻丰满熟妇老熟| 无码熟妇人妻av影音先锋| 亚洲欧洲偷自拍图片区| 久久半精品国产99精品国产| 永久免费在线观看蜜桃视频| 一区二区三区一片黄理论片| 人妖国产视频一区二区| 人妻少妇久久久久久97人妻| 亚洲欧美日韩精品久久亚洲区 | 亚洲热线99精品视频| 真人男女做爰无遮挡免费视频| 在线观看av国产自拍| 精品中文字幕久久久人妻| 美腿丝袜在线观看视频|