【摘 要】以何種策略來訪問網(wǎng)絡(luò)資源是搜索引擎研究的熱點(diǎn)之一。通過比較搜索引擎的搜索策略,總結(jié)提高搜索效率的因素,使人們對網(wǎng)絡(luò)爬蟲的搜索算法有所了解,,以便更快捷獲取自己需要的信息。
【關(guān)鍵詞】網(wǎng)絡(luò)爬蟲 搜索策略 搜索引擎
一、引言
信息時代的發(fā)展,讓越來越多的高新技術(shù)應(yīng)用到網(wǎng)絡(luò)中去。隨著網(wǎng)絡(luò)信息數(shù)據(jù)的海量增長,傳統(tǒng)的搜索引擎功能已與當(dāng)前人們多元化的信息需求不匹配,人們對于搜索引擎的要求更加細(xì)致、精確,傳統(tǒng)的搜索引擎已無法滿足人們個性化信息檢索服務(wù)的需求[1]。近年來,主題型搜索引擎應(yīng)運(yùn)而生。所謂主題型搜索引擎,就是以構(gòu)筑某一專題領(lǐng)域或?qū)W科領(lǐng)域的因特網(wǎng)信息資源庫為目標(biāo),智能地在互聯(lián)網(wǎng)上搜集符合設(shè)定專題或滿足學(xué)科需要的信息資源[2]。在主題搜索引擎的研究中,網(wǎng)絡(luò)爬蟲搜索策略主要研究以何種搜索策略訪問Web以提高效率,這是當(dāng)前研究的熱點(diǎn)問題之一。網(wǎng)絡(luò)的動態(tài)性、異構(gòu)性和復(fù)雜性需要網(wǎng)絡(luò)爬蟲有效地實(shí)現(xiàn)網(wǎng)頁信息的讀取,讓用戶及時獲得所需要的信息。
二、網(wǎng)絡(luò)爬蟲的概念
網(wǎng)絡(luò)爬蟲的概念有廣義和狹義之分。狹義上的概念是指根據(jù)超鏈接和W EB文檔檢索萬維網(wǎng)信息空間;廣義上的概念是利用標(biāo)準(zhǔn)的HTTP協(xié)議檢索Web文檔,使用HTTP協(xié)議的軟件稱之為網(wǎng)絡(luò)爬蟲。網(wǎng)絡(luò)爬蟲能夠自動提取網(wǎng)頁??程序,能夠從萬維網(wǎng)搜索引擎下載網(wǎng)頁,是搜索引擎的重要組成部分。網(wǎng)絡(luò)爬蟲不依靠用戶干預(yù),即可實(shí)現(xiàn)自動“爬行”搜索。
三、聚焦搜索策略
網(wǎng)絡(luò)爬蟲的主題搜索引擎能夠獲取到的網(wǎng)頁一般要多于100萬面,同時獲取網(wǎng)頁用時較長,有時需要等待十秒以上的時間。隨著人們對于搜索要求的提高,這些通用搜索引擎與人們的要求不相適應(yīng)。因此,出現(xiàn)了聚焦爬蟲策略,能夠定向的獲取主題網(wǎng)頁,只挑出所需的特定主題頁面來進(jìn)行定向訪問,圖1即可顯示聚焦爬蟲的應(yīng)用策略及規(guī)則。
圖1 聚焦搜索策略
聚焦爬蟲給下載頁面分配一個分?jǐn)?shù),然后根據(jù)得分排序,放入到確定的隊列中去。通過隊列對頁面進(jìn)行分析,以尋找最佳的頁面。網(wǎng)絡(luò)爬蟲搜索策略的關(guān)鍵是如何評價鏈接,以顯示鏈接的“重要性”,從而確定不同的主題搜索策略。聚焦搜索策略主要包括基于內(nèi)容評價的搜索策略、基于鏈接結(jié)構(gòu)評價的搜索策略、基于鞏固學(xué)習(xí)的聚焦搜索策略和基于語境圖的聚焦搜索策略。基于鞏固學(xué)習(xí)的聚焦搜索策略,是在強(qiáng)化學(xué)習(xí)的模型中,通過幾個不相關(guān)頁面的訪問,獲得主題頁面的模式。把獲得的主題相關(guān)頁面稱為未來的回報,未來回報的預(yù)測值表示未來回報的價值,用Q值來表示。這種方法的核心是要學(xué)會如何計算鏈路的Q值,根據(jù)未來的返回值,確定主題搜索目標(biāo)的正確性?;谡Z境圖的聚焦搜索策略,能夠構(gòu)建出WEB的語境圖,來估算與目標(biāo)頁面的距離。但這種方式有一定的局限性,不能夠表現(xiàn)出客觀的WEB結(jié)構(gòu)。
四、寬度和深度優(yōu)先搜索策略
搜索引擎所用的第一代網(wǎng)絡(luò)爬蟲主要是基于傳統(tǒng)的圖算法,如寬度優(yōu)先或深度優(yōu)先算法來索引整個Web,一個核心的URL集被用來作為一個種子集合,這種算法超的最終的目標(biāo)是跟蹤覆蓋整個Web。這種策略通常用在通用搜索引擎中,因為通用搜索引擎獲得的網(wǎng)頁越多越好,沒有特定的要求.如圖2所示。
圖2傳統(tǒng)的圖算法
網(wǎng)絡(luò)爬蟲的搜索引擎主要是基于傳統(tǒng)的圖算法,通過索引整個Web,由一個核心的URL集被用來作為種子集合,算法遞歸地跟蹤超鏈接到其他的頁面,在運(yùn)行中,通常不需要顧及頁面的具體內(nèi)容,因為最終的目標(biāo)是要在整個W EB中實(shí)施跟蹤策略,覆蓋面通常是用在一般的搜索引擎中,因?qū)σ话愕木W(wǎng)頁搜索引擎的要求是能夠盡可能多的獲得返回的頁面,而沒有相應(yīng)的主題的要求,如圖2為傳統(tǒng)的圖算法。其主要的方法包括寬度優(yōu)先搜索算法和深度優(yōu)先算法。在進(jìn)行Web主題信息提取的實(shí)施過程中,所提取的URL已經(jīng)通過了主題相關(guān)性判別。盡管如此,所提取的頁面內(nèi)容還是可能與設(shè)定的主題相差甚遠(yuǎn)。這種現(xiàn)象將影響主題頁面信息的提取準(zhǔn)確率。因此,在頁面提取之后,需要對頁面進(jìn)行主題相關(guān)性判別,以濾掉主題無關(guān)頁面。深度優(yōu)先搜索所遵循的搜索策略是盡可能“深”地搜索圖。搜索的過程一直進(jìn)行到所有節(jié)點(diǎn)已發(fā)現(xiàn)并確定源節(jié)點(diǎn)是否是最新的。如果還有未被發(fā)現(xiàn)的節(jié)點(diǎn),然后選擇源節(jié)點(diǎn)之一,并重復(fù)上述過程,直到所有的節(jié)點(diǎn)都被發(fā)現(xiàn)。
五、小結(jié)
隨著人們對個性化信息檢索服務(wù)需求的日益增長,面向主題的搜索引擎應(yīng)運(yùn)而生。在主題搜索引擎中,網(wǎng)絡(luò)爬蟲以何種策略訪問Web能提高搜索效率,是近年來主題搜索引擎研究中的主要問題之一。面對人們越來越高的信息檢索要求,各種專業(yè)主題搜索引擎應(yīng)運(yùn)而生,以滿足不同用戶群體的個性化需求?;谥黝}的采集的核心問題就是采集時向主題頁面群的引導(dǎo)和對無關(guān)頁面的過濾問題,需要進(jìn)一步研究出新算法。
參考文獻(xiàn):
[1]林彤,江志軍.Internet的搜索引擎[J].計算機(jī)工程與應(yīng)用,2000,36(15):160-163.
[2]李蕾.中文搜索引擎概念檢索初探[J].計算機(jī)工程與應(yīng)用,2000,36(6):1-11.
[3]戚欣.基于本體的主題網(wǎng)絡(luò)爬蟲設(shè)計[J].武漢理工大學(xué)學(xué)報,2009,31(2):138-141.
[4]烏嵐. 基于多樣約束模型的遠(yuǎn)程教育數(shù)據(jù)庫優(yōu)化查詢算法[J].科技通報,2013, 29 (1):155-160.
作者簡介:
徐曉琳(1985-),女,湖北荊州人,漢族,碩士研究生學(xué)歷。