亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

搜索引擎中的網(wǎng)絡(luò)爬蟲(chóng)搜索對(duì)策分析

2018-05-14 09:06:08魏茂

絲路視野 2018年12期

關(guān)鍵詞：網(wǎng)絡(luò)爬蟲(chóng)搜索引擎對(duì)策

【摘要】進(jìn)入互聯(lián)網(wǎng)時(shí)代之后，網(wǎng)絡(luò)融入到了現(xiàn)代人生活的各個(gè)方面，而搜索引擎之運(yùn)用為人們的工作、學(xué)習(xí)與生活帶來(lái)了非常大的好處。因此，實(shí)施對(duì)基于搜索引擎的網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的探究，對(duì)進(jìn)一步提高搜索引擎的效率來(lái)說(shuō)很有必要。本文在闡述網(wǎng)絡(luò)爬蟲(chóng)原理的基礎(chǔ)上，列舉了網(wǎng)絡(luò)爬蟲(chóng)的基本類別，并提出了搜索引擎中應(yīng)用網(wǎng)絡(luò)爬蟲(chóng)搜索的主要對(duì)策。

【關(guān)鍵詞】搜索引擎；網(wǎng)絡(luò)爬蟲(chóng)；對(duì)策

隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展，網(wǎng)絡(luò)為人們提供了極大的便利。然而，因?yàn)榫W(wǎng)絡(luò)中的信息非常分散和無(wú)序，因此極難被充分運(yùn)用。怎樣在網(wǎng)絡(luò)這一信息大海中迅速而又精準(zhǔn)地找到最有效的信息，是用戶們迫切需要解決的問(wèn)題，而搜索引擎的產(chǎn)生很好地破解了該難題。搜索引擎主要是運(yùn)用諸多網(wǎng)絡(luò)站點(diǎn)中的信息，便于為用戶們找到需要的信息。在搜索引擎當(dāng)中，網(wǎng)絡(luò)爬蟲(chóng)發(fā)揮了非常大的作用，是引擎全部數(shù)據(jù)之源頭。爬蟲(chóng)設(shè)計(jì)之優(yōu)劣將直接影響到引擎系統(tǒng)內(nèi)容的豐富性與更新的及時(shí)性。

一、網(wǎng)絡(luò)爬蟲(chóng)原理闡述

所謂網(wǎng)絡(luò)爬蟲(chóng)，是指一種能夠自動(dòng)提取相關(guān)網(wǎng)頁(yè)的程序，能夠?yàn)樗阉饕鎻木W(wǎng)絡(luò)中下載所需要的網(wǎng)頁(yè)，也是搜索引擎中極為重要的構(gòu)成部份。爬蟲(chóng)從一個(gè)或者數(shù)個(gè)初始網(wǎng)頁(yè)URL上起步，再分析這一URL的源文件，從而提取到新網(wǎng)頁(yè)的鏈接，其后再運(yùn)用新鏈接去找別的新鏈接，如此循環(huán)往復(fù)，一直到抓取與分析完全部網(wǎng)頁(yè)。這可以說(shuō)是一種理想的狀態(tài)，然而事實(shí)上不可能抓取到網(wǎng)絡(luò)中的全部網(wǎng)頁(yè)。依據(jù)一項(xiàng)統(tǒng)計(jì)，最優(yōu)秀的搜索引擎只能夠抓取到40%的網(wǎng)頁(yè)。原因是網(wǎng)絡(luò)爬蟲(chóng)的抓取技術(shù)還存在著瓶頸，難以顧及到全部網(wǎng)頁(yè)。同時(shí)，存儲(chǔ)技術(shù)也存在一定的問(wèn)題。依據(jù)每一網(wǎng)頁(yè)平均為20K來(lái)計(jì)算，100億個(gè)網(wǎng)頁(yè)的規(guī)模為大小就是20萬(wàn)G，目前的存儲(chǔ)技術(shù)還無(wú)法達(dá)到。

二、網(wǎng)絡(luò)爬蟲(chóng)的基本類別

一是通用爬蟲(chóng)。其爬取的范圍太大，而且對(duì)于爬取的順序要求比較低，但對(duì)爬取的速度以及存儲(chǔ)空間的要求相對(duì)較高。二是限定爬蟲(chóng)。主要是一種能夠爬取使用者有興趣的某類網(wǎng)頁(yè)的程序。它并不需要爬取全部網(wǎng)頁(yè)，只要爬取部分特定網(wǎng)頁(yè)即可。工作原理是運(yùn)用樸素貝葉斯法來(lái)訓(xùn)練文本分類器，其后使用該分類器以指導(dǎo)爬蟲(chóng)之偏好，在諸多爬蟲(chóng)隊(duì)列中為用戶選出其最有興趣的那部分網(wǎng)頁(yè)。三是主題爬蟲(chóng)。先明確一個(gè)或者多個(gè)不同的主題，再依據(jù)相關(guān)分析算法過(guò)濾出和主題沒(méi)有關(guān)系的URL，并保留和主題存在關(guān)聯(lián)的URL，并且把其放進(jìn)等待隊(duì)列之中，其后再用搜索策略從諸多等待的隊(duì)列當(dāng)中選取下一個(gè)需要進(jìn)行抓取的URL，并且循環(huán)操作，一直到達(dá)成停止條件為止。

三、搜索引擎中應(yīng)用網(wǎng)絡(luò)爬蟲(chóng)搜索的主要對(duì)策

運(yùn)用網(wǎng)絡(luò)爬蟲(chóng)，應(yīng)當(dāng)盡量搜集和主題有關(guān)的網(wǎng)頁(yè)，并且減少下載沒(méi)有關(guān)聯(lián)的網(wǎng)頁(yè)。主題爬蟲(chóng)和通用爬蟲(chóng)比較起來(lái)，尚需解決如何進(jìn)行主題描述與定義、如何判斷網(wǎng)頁(yè)內(nèi)容和主題的關(guān)聯(lián)、如何判斷鏈接的重要性以及如何提升爬蟲(chóng)資源的覆蓋率等。下面，從四個(gè)方面對(duì)實(shí)施網(wǎng)絡(luò)爬蟲(chóng)搜索的主要對(duì)策進(jìn)行討論。

一是選擇合適的主題集。在網(wǎng)絡(luò)爬蟲(chóng)之中，為了進(jìn)行科學(xué)的剪枝與過(guò)濾，應(yīng)當(dāng)對(duì)主題加以定義或者描述，從而明確采集之方向。主題集之優(yōu)劣將直接影響到最后的成效。主題既可以是某些關(guān)鍵詞，也可以是某種自然語(yǔ)言。使用者可立足于定制主題對(duì)此進(jìn)行深入描述。

二是提取所需Web信息。自采集起點(diǎn)起，網(wǎng)絡(luò)爬蟲(chóng)即開(kāi)始爬取Web中的相關(guān)信息資源，運(yùn)用相關(guān)Web協(xié)議自動(dòng)爬取各個(gè)站點(diǎn)的相關(guān)信息。為了能夠更好地獲取相關(guān)信息，爬蟲(chóng)系統(tǒng)當(dāng)中主要是運(yùn)用多線程形式來(lái)提取其中的Web信息。

三是對(duì)頁(yè)面進(jìn)行預(yù)處理，實(shí)現(xiàn)主題爬蟲(chóng)所抓取Web頁(yè)面的規(guī)范化，主要涵蓋了對(duì)頁(yè)面語(yǔ)法的闡述，對(duì)頁(yè)面實(shí)施去噪等，從中可以提取到網(wǎng)頁(yè)當(dāng)中的各類有效信息，其后再判定網(wǎng)頁(yè)信息主題具有的相關(guān)性，過(guò)濾和主題沒(méi)有關(guān)聯(lián)的頁(yè)面，以增加爬蟲(chóng)獲取主題信息的精準(zhǔn)性。因?yàn)镠TML網(wǎng)頁(yè)的內(nèi)容可從正文、標(biāo)題、標(biāo)記信息以及鏈接信息等諸多方面加以體現(xiàn)。所以，在提取網(wǎng)頁(yè)信息時(shí)只需要提取以上特征信息即可。在讀取頁(yè)面過(guò)程中，應(yīng)當(dāng)找到標(biāo)記，并把標(biāo)記中間內(nèi)容當(dāng)中的全部標(biāo)記加以去除，以獲取頁(yè)面的正文，而標(biāo)記為的內(nèi)容即為網(wǎng)頁(yè)標(biāo)題，其顯示于標(biāo)題欄之中。即便提取出來(lái)的URL能夠通過(guò)主題相關(guān)性的判定，所提取到的頁(yè)面內(nèi)容和設(shè)定主題之間可能也會(huì)有比較大的差距。因此，在提取頁(yè)面以后還需對(duì)頁(yè)面信息加以判別，并且刪除和主題沒(méi)有關(guān)聯(lián)的頁(yè)面。四是對(duì)鏈接進(jìn)行過(guò)濾。要進(jìn)一步提升對(duì)主題Web信息提取的速率以及精確性，系統(tǒng)應(yīng)當(dāng)對(duì)采集到的UI實(shí)施URL與主題之間的關(guān)系判定。鏈接過(guò)濾中最為常用的算法為EPR算法。應(yīng)當(dāng)在鏈接關(guān)系的前提下增加有關(guān)主題之權(quán)重，再引入鏈接網(wǎng)頁(yè)主題所具有的權(quán)重，如此一來(lái)，就產(chǎn)生了EPR算法。四、結(jié)語(yǔ)總之，網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的應(yīng)用，為搜索引擎的發(fā)展打下了良好基礎(chǔ)。但是，隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展，現(xiàn)代人對(duì)搜索引擎所具有的需求愈來(lái)愈大，信息檢索服務(wù)朝著個(gè)性化與規(guī)范化、精細(xì)化的趨向加以發(fā)展，自然也就對(duì)網(wǎng)絡(luò)爬蟲(chóng)的深化設(shè)計(jì)提出了新的要求。鑒于網(wǎng)絡(luò)爬蟲(chóng)具備了重復(fù)性的特點(diǎn)，所以怎樣實(shí)現(xiàn)頁(yè)面動(dòng)態(tài)變化之規(guī)律和原來(lái)的搜索統(tǒng)計(jì)結(jié)果的密切結(jié)合，以提升爬取工作的效率，值得下一步繼續(xù)深入加以探究。參考文獻(xiàn)[1]楊文剛，韓海濤.大數(shù)據(jù)背景下基于主題網(wǎng)絡(luò)爬蟲(chóng)的檔案信息采集[J].蘭臺(tái)世界，2015（20）.[2]盛亞如，魏振鋼，劉蒙.基于主題網(wǎng)絡(luò)爬蟲(chóng)的信息數(shù)據(jù)采集方法的研究與應(yīng)用[J].電子技術(shù)與軟件工程，2016（07）.[3]祁忠琪，呂曉聰.基于網(wǎng)絡(luò)爬蟲(chóng)的搜狐網(wǎng)新聞搜索引擎系統(tǒng)的實(shí)現(xiàn)[J].數(shù)字通信世界，2017（07）.作者簡(jiǎn)介：魏茂（1980.11—），男，漢族，四川梓潼人，學(xué)士，講師，研究方向：可視化和人工智能方向。