亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于T-Graph算法的鏈接和內(nèi)容相結合的聚焦爬蟲模型

        2016-04-20 02:50:58南京航空航天大學
        電子世界 2016年6期
        關鍵詞:信息檢索搜索引擎

        南京航空航天大學 周 萍

        ?

        基于T-Graph算法的鏈接和內(nèi)容相結合的聚焦爬蟲模型

        南京航空航天大學 周 萍

        【摘要】聚焦網(wǎng)絡爬蟲的兩大重要目標就是尋找主題相關的網(wǎng)頁,并優(yōu)先下載主題相關度高的網(wǎng)頁。首先,讀取并分析網(wǎng)頁的有效HTML元素,并根據(jù)高準確率來預測和抽取每個未被訪問的網(wǎng)頁的主題內(nèi)容。然后,根據(jù)T-Graph來計算URLs的主題相關度,并按照相關度大小進行排序。本文提出的基于T-Graph的算法綜合了多方面的元素,通過實驗得到了較高的查準率和查全率,因此,該算法具有重要的意義。

        【關鍵詞】聚焦網(wǎng)絡爬蟲;T-Graph;HTML元素;信息檢索;搜索引擎

        0 引言

        網(wǎng)絡爬蟲的主要任務是從Web上獲取網(wǎng)頁文檔,并為這些數(shù)據(jù)創(chuàng)建索引,索引的更新是通過分布式爬行實現(xiàn)的。傳統(tǒng)的網(wǎng)絡爬蟲并不能輕松地擴展爬行,因為Web是不受人為控制的。而且,傳統(tǒng)的爬蟲也不能根據(jù)特定的主題目標建立正確的索引,索引庫因此也得不到及時的更新。為了解決這些弊端,具有重要意義的聚焦爬蟲應運而生[1]。

        1 基于T-Graph算法的聚焦爬蟲模型的設計

        聚焦爬蟲模型的設計主要涉及兩個問題,第一個問題就是在下載網(wǎng)頁內(nèi)容之前預估未被爬行的網(wǎng)頁的主題目標。本文通過把父網(wǎng)頁的HTML標簽元素和錨文本想結合,來預測未被訪問的鏈接的主題相關性。第二個問題就是將鏈接庫的URLs按照主題相關度進行排序。本文通過T-Graph(Treasure Graph)來評估URLs的主題優(yōu)先級,并假定T-Graph的結構是自頂向下的。

        1.1 主題相關度的計算

        通過數(shù)據(jù)挖掘來獲取主題關鍵詞的方法很多,本文采用了一種既簡單又有效的方法,該方法需要綜合考慮三個因素。第一,單詞的數(shù)量決定了主題的重要程度。第二,D-number (Dewey system,杜威十進分類法)的長度決定了主題的精確性。第三,錨文本中的關鍵詞有更高的主題相關性。以上三種因素的影響力比普通文本高40%[2]。

        分塊計算主題權重的方法相對于同時計算結點的個數(shù)、D-number的長度以及錨文本的主題關鍵詞的方法來說,具有重要的意義。而且,相對于異常值檢測法來說,該方法能夠降低整個系統(tǒng)的計算負擔,因為計算過程只是通過簡單的字符串過濾來實現(xiàn)的[3]。

        如果未被訪問的鏈接具有主題相關性,那么該鏈接可以利用T-Graph來計算主題相關性。否則,該鏈接就被賦予較低的優(yōu)先級。只有這樣,主題爬蟲才能盡可能多地訪問主題相關的網(wǎng)頁。

        1.2 基于T-Graph算法的聚焦爬蟲的框架結構

        如圖1.1所示,本文提出的Treasure-Crawler系統(tǒng)中,T-Graph的每個節(jié)點分別對應著五大模塊。其中,Web網(wǎng)頁的HTML屬性所包含的五大模塊如下所示:

        (1)簡短小節(jié)標題(immediate sub-section heading,ISH)。

        (2)包含ISH的小節(jié)標題(section heading,SH)。

        (3)主標題(main heading,MH)。

        (4)鏈接附近的文本數(shù)據(jù)模塊(data component,DC)。

        (5)主題信息模塊(destination information component,DIC)。

        圖1.1 T-Graph的分層結構

        1.3 鏈接URLs優(yōu)先級的計算

        爬蟲抓取到網(wǎng)頁之后,需要對網(wǎng)頁的優(yōu)先級進行計算。評估網(wǎng)頁優(yōu)先級的方法是,根據(jù)相似性算法把網(wǎng)頁的HTML元素和所有的T-Graph結點作比較。其中,通過使用HTML語法解析器來準確地獲取網(wǎng)頁的HTML元素。

        如果節(jié)點的OSM值在臨界值(設為0.05)之上,那么URL的優(yōu)先級如下所示:

        如果節(jié)點的OSM值在臨界值(設為0.05)之下,那么URL的優(yōu)先級如下所示:

        2 系統(tǒng)測試和驗證

        為了驗證系統(tǒng)結構的實用性,根據(jù)初始網(wǎng)頁建立了T-Graph,并向數(shù)據(jù)庫中輸入了相關數(shù)據(jù)。經(jīng)過測試和驗證,本文提出的Treasure-Crawler系統(tǒng)滿足了基本需求,并且具有功能性和實用性。圖2.1展示了T-Graph和Context-Graph在召回率方面的對比結果。其中T-Graph(T)表示主題T-Graph,T-Graph(G)表示通用T-Graph。觀察曲線圖可發(fā)現(xiàn),T-Graph(T)具有較高的召回率。

        圖2.1 網(wǎng)頁的召回率(0.5)的增長趨勢

        3 結論

        本文提出的Treasure-Crawler系統(tǒng)架構滿足了聚焦網(wǎng)絡爬蟲的需求,并能夠保持系統(tǒng)結構和模型的穩(wěn)定性。其中,未被訪問的URLs的優(yōu)先級是通過T-Graph的分層結構計算出來的,然后爬蟲根據(jù)URLs的優(yōu)先級來確定下一個待訪問的URL。

        參考文獻

        [1]季春,姜琴,吳錚悅.垂直搜索引擎關鍵技術研究綜述[J].情報探索,2013(10):91-93.

        [2]Jamali M,Sayyadi H,Hariri B B,et al.A Method for Focused Crawling Using Combination of Link Structure and Content Similarity[C]//2006 IEEE/WIC/ACM International Conference on Web Intelligence(WI 2006),18-22 December 2006,Hong Kong, China.2006:753-756.

        [3]Wang W,Chen X,Zou Y,et al.A Focused Crawler Based on Naive Bayes Classifier[C]//Proceedings of the 2010 Third International Symposium on Intelligent Information Technology and Security Informatics.IEEE Computer Society,2010:517-521.

        [4]Patel A.An Adaptive Updating Topic Specific Web Search System Using T-Graph[J].Journal of Computer Science,2010,79(4):1-4.

        [5]Diligenti M,Coetzee F,Lawrence S,et al.Focused Crawling Using Context Graphs[C]//Proceedings of the 26th International Conference on Very Large Data Bases. Morgan Kaufmann Publishers Inc.,2000:527-534.

        [6]Passerini A,Frasconi P,Soda G Evaluation Methods for Focused Crawling[C]//Proceedings of the 7th Congress of the Italian Association for Artificial Intelligence on Advances in Artificial Intelligence. Springer-Verlag,2001:33-39.

        猜你喜歡
        信息檢索搜索引擎
        基于同態(tài)加密支持模糊查詢的高效隱私信息檢索協(xié)議
        醫(yī)學期刊編輯中文獻信息檢索的應用
        新聞傳播(2016年18期)2016-07-19 10:12:06
        在網(wǎng)絡環(huán)境下高職院校開設信息檢索課的必要性研究
        新聞傳播(2016年11期)2016-07-10 12:04:01
        基于神經(jīng)網(wǎng)絡的個性化信息檢索模型研究
        網(wǎng)絡搜索引擎亟待規(guī)范
        Nutch搜索引擎在網(wǎng)絡輿情管控中的應用
        警察技術(2015年3期)2015-02-27 15:37:09
        基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
        廣告主與搜索引擎的雙向博弈分析
        教學型大學《信息檢索》公選課的設計與實施
        河南科技(2014年11期)2014-02-27 14:10:19
        公共圖書館信息檢索服務的實踐探索——以上海浦東圖書館為例
        圖書館界(2013年5期)2013-03-11 18:50:29
        在线看亚洲十八禁网站| 美国少妇性xxxx另类| 国产av无码专区亚洲avjulia| 国产精品_国产精品_k频道| 久草国产视频| 日本一区二区三区在线| 麻豆国产精品久久天堂| 黑人老外3p爽粗大免费看视频| 18禁成人黄网站免费观看| 亚洲精品国产成人| 日本加勒比东京热日韩| 成人免费毛片在线播放| 日韩人妻免费视频一专区 | 一区二区三区婷婷中文字幕| 国产洗浴会所三级av| 国产高清一区二区三区四区色| 人妻 日韩 欧美 综合 制服| 无码熟妇人妻av在线影片| 久久久久成人精品免费播放网站| 亚洲av自偷自拍亚洲一区| 亚洲精品一区三区三区在线| 狠狠的干性视频| 熟妇人妻中文av无码| 无码无在线观看| 亚洲精品一区二区三区四区久久| 亚洲熟妇无码久久精品| 天天弄天天模| 亚洲精品美女自拍偷拍| 成年女人18毛片观看| 国产香蕉一区二区三区在线视频| 中文字幕乱码无码人妻系列蜜桃| 香蕉久久久久久久av网站| 无码AⅤ最新av无码专区| 国产丝袜一区丝袜高跟美腿| 精品久久久久久亚洲综合网| 欧美日韩精品| 男人的天堂av网站一区二区| 蜜桃码一区二区三区在线观看| 中文字幕亚洲精品一区二区三区| 草青青在线视频免费观看| 久久无码高潮喷水抽搐|