[摘要] 本文介紹了搜索引擎的發(fā)展與分類(lèi),給出了一種搜索引擎的架構(gòu)并對(duì)各個(gè)組成部分進(jìn)行了分析,最后分析了如何來(lái)評(píng)價(jià)搜索引擎性能的技術(shù)指標(biāo)。
[關(guān)鍵詞] 搜索引擎 發(fā)展 分類(lèi) 技術(shù)指標(biāo)
一、引言
互聯(lián)網(wǎng)發(fā)展的今天,一方面離不開(kāi)其開(kāi)放、共享的特性帶給人們的全新體驗(yàn),另一方面也離不開(kāi)數(shù)以?xún)|計(jì)的為其提供各類(lèi)豐富內(nèi)容的網(wǎng)絡(luò)節(jié)點(diǎn)?;ヂ?lián)網(wǎng)被普及前,人們查閱資料第一想到的便是擁有大量書(shū)籍資料的圖書(shū)館,到了今天,很多人都會(huì)選擇一種更方便、快捷、全面、準(zhǔn)確的方式——使用搜索引擎。
二、搜索引擎的歷史
20世紀(jì)90年初,當(dāng)時(shí)萬(wàn)維網(wǎng)(World Wide Web)還未出現(xiàn),為了查詢(xún)散布在各個(gè)分散的主機(jī)中的文件,曾有過(guò)Archie, Gopher等搜索工具,隨著互聯(lián)網(wǎng)的迅速發(fā)展,基于HTTP訪問(wèn)的web技術(shù)的迅速普及,它們就不再能適應(yīng)用戶(hù)的需要。1994年,Lycos推出了基于Robot的數(shù)據(jù)發(fā)現(xiàn)技術(shù)。1998年10月,Google誕生,它是目前最流行的搜索引擎之一,具備很多獨(dú)特而且優(yōu)秀的功能,并且在界面等方面實(shí)現(xiàn)了革命性創(chuàng)新。
三、搜索引擎的分類(lèi)
按照信息搜集方法和服務(wù)提供方式的不同,搜索引擎系統(tǒng)可以分為三大類(lèi)。但各種搜索引擎站點(diǎn)正在結(jié)合其他搜索引擎的優(yōu)點(diǎn),在類(lèi)型上有逐漸融合的趨勢(shì)。
1.目錄式(Directory)搜索引擎。以人工方式或半自動(dòng)方式搜集信息,由編輯員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類(lèi)框架中。該類(lèi)搜索引擎因?yàn)榧尤肓巳说闹悄?,所以信息?zhǔn)確、導(dǎo)航質(zhì)量高,缺點(diǎn)是需要人工介入、維護(hù)量大、信息量少、信息更新不及時(shí)。這類(lèi)搜索引擎的代表是:Yahoo!(dir.yahoo.com)和Open Directory Project(www.dmoz.org)。
2.基于機(jī)器人(Robot-based)的搜索引擎?;跈C(jī)器人的搜索引擎是一種典型的搜索引擎。由一個(gè)稱(chēng)為爬蟲(chóng)(Spiders或robots)的機(jī)器人程序以某種策略自動(dòng)地在Internet中搜集和發(fā)現(xiàn)信息,由索引器為搜集到的信息建立索引,由檢索器根據(jù)用戶(hù)的查詢(xún)輸入檢索索引庫(kù),并將查詢(xún)結(jié)果返回給用戶(hù)。該方式力求能夠?qū)WW中所有數(shù)據(jù)進(jìn)行檢索,涉及網(wǎng)上的任何領(lǐng)域,然而由于WWW 的海量信息,實(shí)際運(yùn)行中往往只能對(duì)WWW 中部分內(nèi)容進(jìn)行檢索。這類(lèi)搜索引擎的代表是:Google(www.google.com),國(guó)內(nèi)的有百度(www.baidu.com)等。
3.元搜索引擎(Meta-searchengine)。元搜索引擎的基本思想是:當(dāng)搜索引擎受到來(lái)自客戶(hù)的查詢(xún)請(qǐng)求后,自動(dòng)將這些查詢(xún)請(qǐng)求轉(zhuǎn)發(fā)給其它多個(gè)搜索引擎,并將各搜索引擎返回的查詢(xún)結(jié)果收集起來(lái)進(jìn)行處理,最終提供給用戶(hù)。這類(lèi)搜索引擎沒(méi)有自己的數(shù)據(jù),而是將用戶(hù)的查詢(xún)請(qǐng)求同時(shí)向多個(gè)搜索引擎遞交,將返回的結(jié)果進(jìn)行重復(fù)排除、重新排序等處理后,作為自己的結(jié)果返回給用戶(hù)。這類(lèi)搜索引擎的代表是WebCrawler、InfoMarket等。
四、搜索引擎基本組成
1.搜索器。搜索器的功能是在Internet中漫游,發(fā)現(xiàn)和搜集信息。搜索器搜集的信息類(lèi)型多種多樣,包括HTML文本、XML文本、Newsgroup文章、FTP文件、字處理文檔(如Word,Postscript, PDF)、多媒體信息(如圖片、聲音、動(dòng)畫(huà)、視頻)等。它常常是一個(gè)或者多個(gè)互相協(xié)調(diào)的計(jì)算機(jī)程序,日夜不停地運(yùn)行,目的是要盡可能多、盡可能快地搜集各種類(lèi)型的新信息,同時(shí)因?yàn)镮nternet上的信息更新很快,所以還要定期更新已經(jīng)搜集過(guò)的舊信息,以避免死連接和無(wú)效連接。
2.索引器。索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項(xiàng),用于表示文檔以及生成文檔庫(kù)的索引表。索引項(xiàng)有客觀索引項(xiàng)和內(nèi)容索引項(xiàng)兩種:客觀項(xiàng)與文檔的語(yǔ)意內(nèi)容無(wú)關(guān),內(nèi)容索引項(xiàng)是用來(lái)反映文檔內(nèi)容的。一個(gè)搜索引擎的有效性在很大程度上取決于索引的質(zhì)量。
3.檢索器。檢索器的功能是根據(jù)用戶(hù)的查詢(xún)?cè)谒饕龓?kù)中快速檢出文檔,進(jìn)行文檔與查詢(xún)的相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果進(jìn)行排序,并實(shí)現(xiàn)某種用戶(hù)相關(guān)性反饋機(jī)制。檢索器常用的信息檢索模型有集合理論模型、代數(shù)模型、概率模型和混合模型四種。
4.用戶(hù)接口。用戶(hù)接口的作用是輸入用戶(hù)查詢(xún)、顯示查詢(xún)結(jié)果、提供用戶(hù)相關(guān)性反饋機(jī)制。主要的目的是方便用戶(hù)使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時(shí)的信息。用戶(hù)接口的設(shè)計(jì)和實(shí)現(xiàn)使用人機(jī)交互的理論和方法,以充分適應(yīng)人類(lèi)的思維習(xí)慣。
五、搜索引擎技術(shù)指標(biāo)
可以用查全率(Recall)和查準(zhǔn)率(Pricision)衡量一個(gè)搜索引擎的性能,定義如下:
查準(zhǔn)率(精度)=搜索到的相關(guān)文檔數(shù)/搜索到的全部文檔數(shù)
查全率(召回率)=搜索到的相關(guān)文檔數(shù)/包含的全部相關(guān)文檔數(shù)
影響一個(gè)搜索引擎系統(tǒng)的性能有很多因素,最主要的是信息檢索模型,包括文檔和查詢(xún)的表示方法、評(píng)價(jià)文檔和用戶(hù)查詢(xún)相關(guān)性的匹配策略、查詢(xún)結(jié)果的排序方法和用戶(hù)進(jìn)行相關(guān)度反饋的機(jī)制等。
六、小結(jié)
互聯(lián)網(wǎng)技術(shù)的發(fā)展,使得互聯(lián)網(wǎng)上的信息量急劇增加,信息越來(lái)越豐富,越來(lái)越多的網(wǎng)絡(luò)用戶(hù)依靠搜索引擎技術(shù),從浩瀚的信息海洋中獲取信息,為學(xué)習(xí)、生活提供越來(lái)越多的便利,搜索引擎技術(shù)必將會(huì)有更大的發(fā)展應(yīng)用。
參考文獻(xiàn):
[1]李曉明:http://www.se-express.com[EB]
[2]劉峰王秀坤楊南海馬霖:中英文專(zhuān)業(yè)搜索引擎中數(shù)據(jù)采集加工的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用研究.2004,21(10):155~157
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文。