亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于搜索引擎分類(lèi)及特點(diǎn)的分析

        2011-12-30 19:15:38郭志強(qiáng)楊松寧吳光宇
        關(guān)鍵詞:爬蟲(chóng)搜索引擎網(wǎng)頁(yè)

        郭志強(qiáng) 楊松寧 吳光宇

        (1、東北林業(yè)大學(xué)信息與計(jì)算機(jī)工程學(xué)院,黑龍江 哈爾濱 150040 2、東北林業(yè)大學(xué)外國(guó)語(yǔ)學(xué)院,黑龍江 哈爾濱 150040 3、東北林業(yè)大學(xué)交通學(xué)院車(chē)輛工程,黑龍江 哈爾濱 150040)

        搜索引擎的工作原理為:從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)→建立索引數(shù)據(jù)庫(kù)→在索引數(shù)據(jù)庫(kù)中搜索排序。從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)利用能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁(yè)的Spider系統(tǒng)程序,自動(dòng)訪問(wèn)互聯(lián)網(wǎng),并沿著任何網(wǎng)頁(yè)中的所有URL爬到其它網(wǎng)頁(yè),重復(fù)這過(guò)程,并把爬過(guò)的所有網(wǎng)頁(yè)收集回來(lái)。建立索引數(shù)據(jù)庫(kù)由分析索引系統(tǒng)程序?qū)κ占貋?lái)的網(wǎng)頁(yè)進(jìn)行分析,提取相關(guān)網(wǎng)頁(yè)信息根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算,得到每1個(gè)網(wǎng)頁(yè)針對(duì)頁(yè)面內(nèi)容中及超鏈中每1個(gè)關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)。在索引數(shù)據(jù)庫(kù)中搜索排序當(dāng)用戶輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)。最后由頁(yè)面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁(yè)面內(nèi)容摘要等內(nèi)容組織起來(lái)返回給用戶。

        搜索引擎按其工作方式可分為三種,全文搜索引擎,目錄搜索引擎和元搜索引擎。

        1 全文搜索引擎

        全文搜索引擎的代表是網(wǎng)絡(luò)爬蟲(chóng),網(wǎng)絡(luò)爬蟲(chóng)是一個(gè)自動(dòng)提取網(wǎng)頁(yè)的程序,它為搜索引擎從Internet網(wǎng)上下載網(wǎng)頁(yè),是搜索引擎的重要組成。傳統(tǒng)爬蟲(chóng)從一個(gè)或若干初始網(wǎng)頁(yè)的URL開(kāi)始,獲得初始網(wǎng)頁(yè)上的URL,在抓取網(wǎng)頁(yè)的過(guò)程中,不斷從當(dāng)前頁(yè)面上抽取新的URL放入隊(duì)列,直到滿足系統(tǒng)的一定停止條件。聚焦爬蟲(chóng)的工作流程較為復(fù)雜,需要根據(jù)一定的網(wǎng)頁(yè)分析算法過(guò)濾與主題無(wú)關(guān)的鏈接,保留有用的鏈接并放入等待抓取的URL隊(duì)列。然后,它將根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁(yè),并重復(fù)上述過(guò)程,直到達(dá)到系統(tǒng)的某一條件時(shí)停止。所有被爬蟲(chóng)抓取的網(wǎng)頁(yè)將會(huì)被系統(tǒng)存貯,進(jìn)行一定的分析、過(guò)濾,并建立索引,以便之后的查詢和檢索;對(duì)于聚焦爬蟲(chóng)來(lái)說(shuō),這一過(guò)程所得到的分析結(jié)果還可能對(duì)以后的抓取過(guò)程給出反饋和指導(dǎo)。爬蟲(chóng)設(shè)計(jì)是否合理將直接影響它訪問(wèn)Web的效率,影響搜索數(shù)據(jù)庫(kù)的質(zhì)量,另外在設(shè)計(jì)爬蟲(chóng)時(shí)還必須考慮它對(duì)網(wǎng)絡(luò)和被訪問(wèn)站點(diǎn)的影響,因?yàn)榕老x(chóng)一般都運(yùn)行在速度快,帶寬高的主機(jī)上,如果它快速訪問(wèn)一個(gè)速度較慢的目標(biāo)站點(diǎn),可能導(dǎo)致該站點(diǎn)出現(xiàn)阻塞。Robot應(yīng)遵守一些協(xié)議,以便被訪問(wèn)站點(diǎn)的管理員能夠確定訪問(wèn)內(nèi)容,Index是一個(gè)龐大的數(shù)據(jù)庫(kù),爬蟲(chóng)提取的網(wǎng)頁(yè)將被放入到Index中建立索引,不同的搜索引擎會(huì)采取不同方式來(lái)建立索引,有的對(duì)整個(gè)HTML文件的所有單詞都建立索引,有的只分析HTML文件的標(biāo)題或前幾段內(nèi)容,還有的能處理HTML文件中的META標(biāo)記或特殊標(biāo)記。

        2 目錄搜索引擎

        目錄搜索引擎的數(shù)據(jù)庫(kù)是依靠專(zhuān)職人員建立的,這些人員在訪問(wèn)了某個(gè)Web站點(diǎn)后撰寫(xiě)一段對(duì)該站點(diǎn)的描述,并根據(jù)站點(diǎn)的內(nèi)容和性質(zhì)將其歸為一個(gè)預(yù)先分好的類(lèi)別,把站點(diǎn)URL和描述放在這個(gè)類(lèi)別中,當(dāng)用戶查詢某個(gè)關(guān)鍵詞時(shí),搜索軟件只在這些描述中進(jìn)行搜索。很多目錄也接受用戶提交的網(wǎng)站和描述,當(dāng)目錄的編輯人員認(rèn)可該網(wǎng)站及描述后,就會(huì)將之添加到合適的類(lèi)別中。目錄的結(jié)構(gòu)為樹(shù)形結(jié)構(gòu),首頁(yè)提供了最基本的入口,用戶可以逐級(jí)地向下訪問(wèn),直至找到自己的類(lèi)別,另外,用戶也可以利用目錄提供的搜索功能直接查找一個(gè)關(guān)鍵詞。由于目錄式搜索引擎只在保存了對(duì)站點(diǎn)的描述中搜索,因此站點(diǎn)本身的變化不會(huì)反映到搜索結(jié)果中,這也是目錄式搜索引擎與基于Robot的搜索引擎之間的區(qū)別。分類(lèi)目錄在網(wǎng)絡(luò)營(yíng)銷(xiāo)中的應(yīng)用主要有下列特點(diǎn):

        通常只能收錄網(wǎng)站首頁(yè)(或者若干頻道),而不能將大量網(wǎng)頁(yè)都提交給分類(lèi)目錄;網(wǎng)站一旦被收錄將在一定時(shí)期內(nèi)保持穩(wěn)定;無(wú)法通過(guò)"搜索引擎優(yōu)化"等手段提高網(wǎng)站在分類(lèi)目錄中的排名;在高質(zhì)量的分類(lèi)目錄登錄,對(duì)于提高網(wǎng)站在搜索引擎檢索結(jié)果中的排名有一定價(jià)值;緊靠分類(lèi)目錄通常與其他網(wǎng)站推廣手段共同使用。

        3 元搜索引擎

        我們可將元搜索引擎看成具有雙層客戶機(jī)/服務(wù)器結(jié)構(gòu)的系統(tǒng)。用戶向元搜索引擎發(fā)出檢索請(qǐng)求,元搜索引擎再根據(jù)該請(qǐng)求向多個(gè)搜索引擎發(fā)出實(shí)際檢索請(qǐng)求,搜索引擎執(zhí)行元搜索引擎檢索請(qǐng)求后將檢索結(jié)果以應(yīng)答形式傳送給元搜索引擎,元搜索引擎將從多個(gè)搜索引擎獲得的檢索結(jié)果經(jīng)過(guò)整理再以應(yīng)答形式傳送給實(shí)際用戶。當(dāng)然,某些元搜索引擎具有略微不同的機(jī)制。元搜索引擎在接受用戶查詢請(qǐng)求時(shí),同時(shí)在其他多個(gè)引擎上進(jìn)行搜索,將結(jié)果進(jìn)行相關(guān)處理,以整體統(tǒng)一的格式反饋給用戶。它的特點(diǎn)是本身并沒(méi)有存放網(wǎng)頁(yè)信息的數(shù)據(jù)庫(kù)。多數(shù)元搜索引擎在處理其它的搜索引擎返回結(jié)果時(shí),只提取出每個(gè)搜索引擎的結(jié)果中考前的條目,然后將這些條目合并在一起返回給用戶,元搜索引擎實(shí)現(xiàn)起比較簡(jiǎn)單,但是它也有一定的局限性,例如多數(shù)元搜索引擎都只能訪問(wèn)少數(shù)幾個(gè)搜索引擎,并且通常不支持這些搜索引擎的高級(jí)搜索功能,在處理邏輯查詢時(shí)也常常會(huì)出現(xiàn)錯(cuò)誤。在這幾種檢索工具中,目錄式搜索引擎成本高,信息t少的缺點(diǎn),但它的信息準(zhǔn)確這一優(yōu)點(diǎn)使其在一定的領(lǐng)域和時(shí)間內(nèi)仍會(huì)被使用,機(jī)器人搜索引擎是當(dāng)前各種搜索引擎的主流,但隨著網(wǎng)絡(luò)信息量的增加,單一搜索引擎已經(jīng)難已滿足要求,結(jié)合目錄式搜索引擎,機(jī)器人搜索引擎的優(yōu)勢(shì),以元搜索引擎為核心的多層代理搜索引擎是搜索引擎的發(fā)展方向。

        搜索引擎技術(shù)功能強(qiáng)大,提供的服務(wù)也全面,它們的目標(biāo)不僅僅是提供單純的查詢功能,而是把自己發(fā)展成為用戶首選的Internet入口站點(diǎn)。目前的搜索引擎主要有幾個(gè)特點(diǎn):多樣化和個(gè)性化的服務(wù)。強(qiáng)大的查詢功能。目錄和基于Robot的搜索引擎相互結(jié)合。目前搜索引擎是網(wǎng)絡(luò)上被使用頻率最高的服務(wù)項(xiàng)目之一,隨著Internet的發(fā)展,網(wǎng)上龐大的數(shù)字化信息和人們獲取所需信息能力之間的矛盾突出。搜索結(jié)果豐富的搜索引擎技術(shù)正在被信息更集中的局域網(wǎng)取代,因?yàn)樗阉飨到y(tǒng)的表現(xiàn)與用戶的期望值相差太大,諸如數(shù)據(jù)量高速增長(zhǎng)的視頻、音頻等多媒體信息的檢索,仍然無(wú)法實(shí)現(xiàn)。搜索引擎越來(lái)越不能滿足用戶的各種信息需求,如收集的網(wǎng)頁(yè)數(shù)量和其數(shù)據(jù)庫(kù)的更新速度存在著不可調(diào)和的矛盾。用戶經(jīng)常無(wú)法打開(kāi)查詢的結(jié)果。網(wǎng)絡(luò)信息時(shí)刻變動(dòng),實(shí)時(shí)搜索幾乎不可能。網(wǎng)絡(luò)信息收集與整理是搜索引擎工作的重要部分。搜索引擎需要定期不斷地訪問(wèn)網(wǎng)絡(luò)資源。目前網(wǎng)絡(luò)帶寬不足,網(wǎng)絡(luò)速度慢,遍歷如此龐雜的網(wǎng)絡(luò)時(shí)間花費(fèi)非常龐大,這就是不能實(shí)時(shí)搜索的原因。

        [1]張興華.搜索引擎技術(shù)及研究[J].現(xiàn)代情報(bào),2004,(4).

        [2]唐銘杰.論搜索引擎的發(fā)展概況及發(fā)展趨勢(shì)[J].情報(bào)雜志,2001,(5).

        [3]陽(yáng)小華.分布式WWW信息收集技術(shù)[J].計(jì)算機(jī)工程與應(yīng)用,2000,(5).

        [4]劉建國(guó).搜索引擎概述.北京大學(xué)計(jì)算機(jī)與科學(xué)技術(shù),1999,(10):200.

        [5]李曉明,劉建國(guó).搜索引擎技術(shù)及趨勢(shì).大學(xué)圖書(shū)館學(xué)報(bào).2000,(16).

        猜你喜歡
        爬蟲(chóng)搜索引擎網(wǎng)頁(yè)
        利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說(shuō)
        基于Python的網(wǎng)絡(luò)爬蟲(chóng)和反爬蟲(chóng)技術(shù)研究
        基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
        電子制作(2018年10期)2018-08-04 03:24:38
        利用爬蟲(chóng)技術(shù)的Geo-Gnutel la VANET流量采集
        基于URL和網(wǎng)頁(yè)類(lèi)型的網(wǎng)頁(yè)信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲(chóng)技術(shù)
        電子制作(2017年9期)2017-04-17 03:00:46
        網(wǎng)頁(yè)制作在英語(yǔ)教學(xué)中的應(yīng)用
        網(wǎng)絡(luò)搜索引擎亟待規(guī)范
        基于Nutch的醫(yī)療搜索引擎的研究與開(kāi)發(fā)
        10個(gè)必知的網(wǎng)頁(yè)設(shè)計(jì)術(shù)語(yǔ)
        欧美成人高清手机在线视频| 精品卡一卡二卡3卡高清乱码| 日本真人做爰免费视频120秒| 无码人妻久久一区二区三区不卡| 麻豆av传媒蜜桃天美传媒| 亚洲国产精品综合福利专区| 久久精品久久精品中文字幕| 中文字幕人妻少妇伦伦| 玩弄白嫩少妇xxxxx性| 国产熟妇高潮呻吟喷水| 综合色天天久久| 亚洲成av人片在线天堂无| 中文字幕亚洲一区二区三区| 亚洲乱码国产乱码精华| 色噜噜av亚洲色一区二区| 国产一区日韩二区欧美三区| 国产亚洲日韩AV在线播放不卡| 日韩国产自拍视频在线观看| 丰满精品人妻一区二区| 97在线观看播放| 国产一区二区三区av在线无码观看| 国产午夜精品美女裸身视频69| 成人爽a毛片免费网站中国| 日韩人妻另类中文字幕| 久久久无码精品亚洲日韩按摩| 巨熟乳波霸若妻在线播放| 无码国产精品一区二区免费式芒果 | 亚洲av永久无码精品| 熟妇无码AV| 在线看片免费人成视久网不卡| 亚洲熟女少妇精品综合| 天堂网www资源在线| 1717国产精品久久| 中文字幕乱码亚洲无线| 毛片在线播放亚洲免费中文网| 免费乱理伦片在线观看| 亚洲va中文字幕无码| 色婷婷丁香综合激情| 国产91极品身材白皙| 国产亚洲美女精品久久久2020| 国产一区二区三区在线观看免费|