【摘要】進(jìn)入互聯(lián)網(wǎng)時(shí)代之后,網(wǎng)絡(luò)融入到了現(xiàn)代人生活的各個(gè)方面,而搜索引擎之運(yùn)用為人們的工作、學(xué)習(xí)與生活帶來(lái)了非常大的好處。因此,實(shí)施對(duì)基于搜索引擎的網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的探究,對(duì)進(jìn)一步提高搜索引擎的效率來(lái)說(shuō)很有必要。本文在闡述網(wǎng)絡(luò)爬蟲(chóng)原理的基礎(chǔ)上,列舉了網(wǎng)絡(luò)爬蟲(chóng)的基本類別,并提出了搜索引擎中應(yīng)用網(wǎng)絡(luò)爬蟲(chóng)搜索的主要對(duì)策。
【關(guān)鍵詞】搜索引擎;網(wǎng)絡(luò)爬蟲(chóng);對(duì)策
隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,網(wǎng)絡(luò)為人們提供了極大的便利。然而,因?yàn)榫W(wǎng)絡(luò)中的信息非常分散和無(wú)序,因此極難被充分運(yùn)用。怎樣在網(wǎng)絡(luò)這一信息大海中迅速而又精準(zhǔn)地找到最有效的信息,是用戶們迫切需要解決的問(wèn)題,而搜索引擎的產(chǎn)生很好地破解了該難題。搜索引擎主要是運(yùn)用諸多網(wǎng)絡(luò)站點(diǎn)中的信息,便于為用戶們找到需要的信息。在搜索引擎當(dāng)中,網(wǎng)絡(luò)爬蟲(chóng)發(fā)揮了非常大的作用,是引擎全部數(shù)據(jù)之源頭。爬蟲(chóng)設(shè)計(jì)之優(yōu)劣將直接影響到引擎系統(tǒng)內(nèi)容的豐富性與更新的及時(shí)性。
一、網(wǎng)絡(luò)爬蟲(chóng)原理闡述
所謂網(wǎng)絡(luò)爬蟲(chóng),是指一種能夠自動(dòng)提取相關(guān)網(wǎng)頁(yè)的程序,能夠?yàn)樗阉饕鎻木W(wǎng)絡(luò)中下載所需要的網(wǎng)頁(yè),也是搜索引擎中極為重要的構(gòu)成部份。爬蟲(chóng)從一個(gè)或者數(shù)個(gè)初始網(wǎng)頁(yè)URL上起步,再分析這一URL的源文件,從而提取到新網(wǎng)頁(yè)的鏈接,其后再運(yùn)用新鏈接去找別的新鏈接,如此循環(huán)往復(fù),一直到抓取與分析完全部網(wǎng)頁(yè)。這可以說(shuō)是一種理想的狀態(tài),然而事實(shí)上不可能抓取到網(wǎng)絡(luò)中的全部網(wǎng)頁(yè)。依據(jù)一項(xiàng)統(tǒng)計(jì),最優(yōu)秀的搜索引擎只能夠抓取到40%的網(wǎng)頁(yè)。原因是網(wǎng)絡(luò)爬蟲(chóng)的抓取技術(shù)還存在著瓶頸,難以顧及到全部網(wǎng)頁(yè)。同時(shí),存儲(chǔ)技術(shù)也存在一定的問(wèn)題。依據(jù)每一網(wǎng)頁(yè)平均為20K來(lái)計(jì)算,100億個(gè)網(wǎng)頁(yè)的規(guī)模為大小就是20萬(wàn)G,目前的存儲(chǔ)技術(shù)還無(wú)法達(dá)到。
二、網(wǎng)絡(luò)爬蟲(chóng)的基本類別
一是通用爬蟲(chóng)。其爬取的范圍太大,而且對(duì)于爬取的順序要求比較低,但對(duì)爬取的速度以及存儲(chǔ)空間的要求相對(duì)較高。二是限定爬蟲(chóng)。主要是一種能夠爬取使用者有興趣的某類網(wǎng)頁(yè)的程序。它并不需要爬取全部網(wǎng)頁(yè),只要爬取部分特定網(wǎng)頁(yè)即可。工作原理是運(yùn)用樸素貝葉斯法來(lái)訓(xùn)練文本分類器,其后使用該分類器以指導(dǎo)爬蟲(chóng)之偏好,在諸多爬蟲(chóng)隊(duì)列中為用戶選出其最有興趣的那部分網(wǎng)頁(yè)。三是主題爬蟲(chóng)。先明確一個(gè)或者多個(gè)不同的主題,再依據(jù)相關(guān)分析算法過(guò)濾出和主題沒(méi)有關(guān)系的URL,并保留和主題存在關(guān)聯(lián)的URL,并且把其放進(jìn)等待隊(duì)列之中,其后再用搜索策略從諸多等待的隊(duì)列當(dāng)中選取下一個(gè)需要進(jìn)行抓取的URL,并且循環(huán)操作,一直到達(dá)成停止條件為止。
三、搜索引擎中應(yīng)用網(wǎng)絡(luò)爬蟲(chóng)搜索的主要對(duì)策
運(yùn)用網(wǎng)絡(luò)爬蟲(chóng),應(yīng)當(dāng)盡量搜集和主題有關(guān)的網(wǎng)頁(yè),并且減少下載沒(méi)有關(guān)聯(lián)的網(wǎng)頁(yè)。主題爬蟲(chóng)和通用爬蟲(chóng)比較起來(lái),尚需解決如何進(jìn)行主題描述與定義、如何判斷網(wǎng)頁(yè)內(nèi)容和主題的關(guān)聯(lián)、如何判斷鏈接的重要性以及如何提升爬蟲(chóng)資源的覆蓋率等。下面,從四個(gè)方面對(duì)實(shí)施網(wǎng)絡(luò)爬蟲(chóng)搜索的主要對(duì)策進(jìn)行討論。
一是選擇合適的主題集。在網(wǎng)絡(luò)爬蟲(chóng)之中,為了進(jìn)行科學(xué)的剪枝與過(guò)濾,應(yīng)當(dāng)對(duì)主題加以定義或者描述,從而明確采集之方向。主題集之優(yōu)劣將直接影響到最后的成效。主題既可以是某些關(guān)鍵詞,也可以是某種自然語(yǔ)言。使用者可立足于定制主題對(duì)此進(jìn)行深入描述。
二是提取所需Web信息。自采集起點(diǎn)起,網(wǎng)絡(luò)爬蟲(chóng)即開(kāi)始爬取Web中的相關(guān)信息資源,運(yùn)用相關(guān)Web協(xié)議自動(dòng)爬取各個(gè)站點(diǎn)的相關(guān)信息。為了能夠更好地獲取相關(guān)信息,爬蟲(chóng)系統(tǒng)當(dāng)中主要是運(yùn)用多線程形式來(lái)提取其中的Web信息。
三是對(duì)頁(yè)面進(jìn)行預(yù)處理,實(shí)現(xiàn)主題爬蟲(chóng)所抓取Web頁(yè)面的規(guī)范化,主要涵蓋了對(duì)頁(yè)面語(yǔ)法的闡述,對(duì)頁(yè)面實(shí)施去噪等,從中可以提取到網(wǎng)頁(yè)當(dāng)中的各類有效信息,其后再判定網(wǎng)頁(yè)信息主題具有的相關(guān)性,過(guò)濾和主題沒(méi)有關(guān)聯(lián)的頁(yè)面,以增加爬蟲(chóng)獲取主題信息的精準(zhǔn)性。因?yàn)镠TML網(wǎng)頁(yè)的內(nèi)容可從正文、標(biāo)題、標(biāo)記信息以及鏈接信息等諸多方面加以體現(xiàn)。所以,在提取網(wǎng)頁(yè)信息時(shí)只需要提取以上特征信息即可。在讀取頁(yè)面過(guò)程中,應(yīng)當(dāng)找到標(biāo)記
,并把標(biāo)記中間內(nèi)容當(dāng)中的全部標(biāo)記加以去除,以獲取頁(yè)面的正文,而標(biāo)記為四是對(duì)鏈接進(jìn)行過(guò)濾。要進(jìn)一步提升對(duì)主題Web信息提取的速率以及精確性,系統(tǒng)應(yīng)當(dāng)對(duì)采集到的UI實(shí)施URL與主題之間的關(guān)系判定。鏈接過(guò)濾中最為常用的算法為EPR算法。應(yīng)當(dāng)在鏈接關(guān)系的前提下增加有關(guān)主題之權(quán)重,再引入鏈接網(wǎng)頁(yè)主題所具有的權(quán)重,如此一來(lái),就產(chǎn)生了EPR算法。
四、結(jié)語(yǔ)
總之,網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的應(yīng)用,為搜索引擎的發(fā)展打下了良好基礎(chǔ)。但是,隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展,現(xiàn)代人對(duì)搜索引擎所具有的需求愈來(lái)愈大,信息檢索服務(wù)朝著個(gè)性化與規(guī)范化、精細(xì)化的趨向加以發(fā)展,自然也就對(duì)網(wǎng)絡(luò)爬蟲(chóng)的深化設(shè)計(jì)提出了新的要求。鑒于網(wǎng)絡(luò)爬蟲(chóng)具備了重復(fù)性的特點(diǎn),所以怎樣實(shí)現(xiàn)頁(yè)面動(dòng)態(tài)變化之規(guī)律和原來(lái)的搜索統(tǒng)計(jì)結(jié)果的密切結(jié)合,以提升爬取工作的效率,值得下一步繼續(xù)深入加以探究。
參考文獻(xiàn)
[1]楊文剛,韓海濤.大數(shù)據(jù)背景下基于主題網(wǎng)絡(luò)爬蟲(chóng)的檔案信息采集[J].蘭臺(tái)世界,2015(20).
[2]盛亞如,魏振鋼,劉蒙.基于主題網(wǎng)絡(luò)爬蟲(chóng)的信息數(shù)據(jù)采集方法的研究與應(yīng)用[J].電子技術(shù)與軟件工程,2016(07).
[3]祁忠琪,呂曉聰.基于網(wǎng)絡(luò)爬蟲(chóng)的搜狐網(wǎng)新聞搜索引擎系統(tǒng)的實(shí)現(xiàn)[J].數(shù)字通信世界,2017(07).
作者簡(jiǎn)介:魏茂(1980.11—),男,漢族,四川梓潼人,學(xué)士,講師,研究方向:可視化和人工智能方向。