亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

主題搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略研究

2013-12-31 00:00:00徐曉琳

數(shù)字化用戶 2013年23期

【摘要】以何種策略來訪問網(wǎng)絡(luò)資源是搜索引擎研究的熱點(diǎn)之一。通過比較搜索引擎的搜索策略，總結(jié)提高搜索效率的因素，使人們對網(wǎng)絡(luò)爬蟲的搜索算法有所了解，，以便更快捷獲取自己需要的信息。

【關(guān)鍵詞】網(wǎng)絡(luò)爬蟲搜索策略搜索引擎

一、引言

信息時代的發(fā)展，讓越來越多的高新技術(shù)應(yīng)用到網(wǎng)絡(luò)中去。隨著網(wǎng)絡(luò)信息數(shù)據(jù)的海量增長，傳統(tǒng)的搜索引擎功能已與當(dāng)前人們多元化的信息需求不匹配，人們對于搜索引擎的要求更加細(xì)致、精確，傳統(tǒng)的搜索引擎已無法滿足人們個性化信息檢索服務(wù)的需求[1]。近年來，主題型搜索引擎應(yīng)運(yùn)而生。所謂主題型搜索引擎，就是以構(gòu)筑某一專題領(lǐng)域或?qū)W科領(lǐng)域的因特網(wǎng)信息資源庫為目標(biāo)，智能地在互聯(lián)網(wǎng)上搜集符合設(shè)定專題或滿足學(xué)科需要的信息資源[2]。在主題搜索引擎的研究中，網(wǎng)絡(luò)爬蟲搜索策略主要研究以何種搜索策略訪問Web以提高效率，這是當(dāng)前研究的熱點(diǎn)問題之一。網(wǎng)絡(luò)的動態(tài)性、異構(gòu)性和復(fù)雜性需要網(wǎng)絡(luò)爬蟲有效地實(shí)現(xiàn)網(wǎng)頁信息的讀取，讓用戶及時獲得所需要的信息。

二、網(wǎng)絡(luò)爬蟲的概念

網(wǎng)絡(luò)爬蟲的概念有廣義和狹義之分。狹義上的概念是指根據(jù)超鏈接和W EB文檔檢索萬維網(wǎng)信息空間；廣義上的概念是利用標(biāo)準(zhǔn)的HTTP協(xié)議檢索Web文檔，使用HTTP協(xié)議的軟件稱之為網(wǎng)絡(luò)爬蟲。網(wǎng)絡(luò)爬蟲能夠自動提取網(wǎng)頁??程序，能夠從萬維網(wǎng)搜索引擎下載網(wǎng)頁，是搜索引擎的重要組成部分。網(wǎng)絡(luò)爬蟲不依靠用戶干預(yù)，即可實(shí)現(xiàn)自動“爬行”搜索。

三、聚焦搜索策略

網(wǎng)絡(luò)爬蟲的主題搜索引擎能夠獲取到的網(wǎng)頁一般要多于100萬面，同時獲取網(wǎng)頁用時較長，有時需要等待十秒以上的時間。隨著人們對于搜索要求的提高，這些通用搜索引擎與人們的要求不相適應(yīng)。因此，出現(xiàn)了聚焦爬蟲策略，能夠定向的獲取主題網(wǎng)頁，只挑出所需的特定主題頁面來進(jìn)行定向訪問，圖1即可顯示聚焦爬蟲的應(yīng)用策略及規(guī)則。

圖1 聚焦搜索策略

聚焦爬蟲給下載頁面分配一個分?jǐn)?shù)，然后根據(jù)得分排序，放入到確定的隊列中去。通過隊列對頁面進(jìn)行分析，以尋找最佳的頁面。網(wǎng)絡(luò)爬蟲搜索策略的關(guān)鍵是如何評價鏈接，以顯示鏈接的“重要性”，從而確定不同的主題搜索策略。聚焦搜索策略主要包括基于內(nèi)容評價的搜索策略、基于鏈接結(jié)構(gòu)評價的搜索策略、基于鞏固學(xué)習(xí)的聚焦搜索策略和基于語境圖的聚焦搜索策略。基于鞏固學(xué)習(xí)的聚焦搜索策略，是在強(qiáng)化學(xué)習(xí)的模型中，通過幾個不相關(guān)頁面的訪問，獲得主題頁面的模式。把獲得的主題相關(guān)頁面稱為未來的回報，未來回報的預(yù)測值表示未來回報的價值，用Q值來表示。這種方法的核心是要學(xué)會如何計算鏈路的Q值，根據(jù)未來的返回值，確定主題搜索目標(biāo)的正確性?；谡Z境圖的聚焦搜索策略，能夠構(gòu)建出WEB的語境圖，來估算與目標(biāo)頁面的距離。但這種方式有一定的局限性，不能夠表現(xiàn)出客觀的WEB結(jié)構(gòu)。

四、寬度和深度優(yōu)先搜索策略

搜索引擎所用的第一代網(wǎng)絡(luò)爬蟲主要是基于傳統(tǒng)的圖算法，如寬度優(yōu)先或深度優(yōu)先算法來索引整個Web，一個核心的URL集被用來作為一個種子集合，這種算法超的最終的目標(biāo)是跟蹤覆蓋整個Web。這種策略通常用在通用搜索引擎中，因為通用搜索引擎獲得的網(wǎng)頁越多越好，沒有特定的要求.如圖2所示。

圖2傳統(tǒng)的圖算法

網(wǎng)絡(luò)爬蟲的搜索引擎主要是基于傳統(tǒng)的圖算法，通過索引整個Web，由一個核心的URL集被用來作為種子集合，算法遞歸地跟蹤超鏈接到其他的頁面，在運(yùn)行中，通常不需要顧及頁面的具體內(nèi)容，因為最終的目標(biāo)是要在整個W EB中實(shí)施跟蹤策略，覆蓋面通常是用在一般的搜索引擎中，因?qū)σ话愕木W(wǎng)頁搜索引擎的要求是能夠盡可能多的獲得返回的頁面，而沒有相應(yīng)的主題的要求，如圖2為傳統(tǒng)的圖算法。其主要的方法包括寬度優(yōu)先搜索算法和深度優(yōu)先算法。在進(jìn)行Web主題信息提取的實(shí)施過程中，所提取的URL已經(jīng)通過了主題相關(guān)性判別。盡管如此，所提取的頁面內(nèi)容還是可能與設(shè)定的主題相差甚遠(yuǎn)。這種現(xiàn)象將影響主題頁面信息的提取準(zhǔn)確率。因此，在頁面提取之后，需要對頁面進(jìn)行主題相關(guān)性判別，以濾掉主題無關(guān)頁面。深度優(yōu)先搜索所遵循的搜索策略是盡可能“深”地搜索圖。搜索的過程一直進(jìn)行到所有節(jié)點(diǎn)已發(fā)現(xiàn)并確定源節(jié)點(diǎn)是否是最新的。如果還有未被發(fā)現(xiàn)的節(jié)點(diǎn)，然后選擇源節(jié)點(diǎn)之一，并重復(fù)上述過程，直到所有的節(jié)點(diǎn)都被發(fā)現(xiàn)。

五、小結(jié)

隨著人們對個性化信息檢索服務(wù)需求的日益增長，面向主題的搜索引擎應(yīng)運(yùn)而生。在主題搜索引擎中，網(wǎng)絡(luò)爬蟲以何種策略訪問Web能提高搜索效率，是近年來主題搜索引擎研究中的主要問題之一。面對人們越來越高的信息檢索要求，各種專業(yè)主題搜索引擎應(yīng)運(yùn)而生，以滿足不同用戶群體的個性化需求?；谥黝}的采集的核心問題就是采集時向主題頁面群的引導(dǎo)和對無關(guān)頁面的過濾問題，需要進(jìn)一步研究出新算法。

參考文獻(xiàn)：

[1]林彤，江志軍.Internet的搜索引擎[J].計算機(jī)工程與應(yīng)用，2000，36（15）：160-163.

[2]李蕾.中文搜索引擎概念檢索初探[J].計算機(jī)工程與應(yīng)用，2000，36（6）：1-11.

[3]戚欣.基于本體的主題網(wǎng)絡(luò)爬蟲設(shè)計[J].武漢理工大學(xué)學(xué)報，2009，31（2）：138-141.

[4]烏嵐. 基于多樣約束模型的遠(yuǎn)程教育數(shù)據(jù)庫優(yōu)化查詢算法[J].科技通報，2013， 29 （1）：155-160.

作者簡介：

徐曉琳（1985-），女，湖北荊州人，漢族，碩士研究生學(xué)歷。

數(shù)字化用戶2013年23期

數(shù)字化用戶的其它文章: 從時代文化特點(diǎn)看三維動畫角色設(shè)計; 佛教與基督教文化光照下的仁愛思想; 加快與十堰城區(qū)對接發(fā)展的新理念構(gòu)建人力資源和社會保障市縣對接; 淺談Asp后臺管理員登錄權(quán)限設(shè)計; 華佗五禽戲研究; 基層統(tǒng)計信息失真原因及對策