摘要:獨(dú)立搜索引擎的檢索技術(shù)是在聯(lián)機(jī)數(shù)據(jù)庫(kù)檢索技術(shù)的基礎(chǔ)上發(fā)展起來的,它們實(shí)質(zhì)上都是對(duì)信息集合與需求集合的匹配。本文著重討論了獨(dú)立搜索引擎的工作原理及其所包含的技術(shù)方法。
關(guān)鍵詞:獨(dú)立搜索引擎;Robot;IndexerSearcher;工作原理分析
WWW網(wǎng)上浩如煙海的信息資源,吸引著大量的用戶。但,網(wǎng)民對(duì)特定信息的需求驅(qū)使人們想方設(shè)法擺脫信息查詢大海撈針般的困境。1994年4月Web craWler搜索引擎在網(wǎng)上正式發(fā)布并開始服務(wù)。1996年后,搜索引擎進(jìn)入了“容量建設(shè)期”。當(dāng)前,搜索引擎正經(jīng)歷著從“數(shù)量累積階段”到“質(zhì)量精煉階段”的變革。就現(xiàn)階段來說,WWW網(wǎng)上的信息檢索工具主要以獨(dú)立搜索引擎為主(就是通常意義上我們說的搜索引擎),是相對(duì)于集合搜索引擎(或元搜索引擎)而稱。獨(dú)立搜索引擎是元搜索引擎與信息檢索代理(agent)的技術(shù)基礎(chǔ),故對(duì)網(wǎng)絡(luò)信息檢索系統(tǒng)的研究是基于對(duì)獨(dú)立搜索引擎的研究。
獨(dú)立搜索引擎的檢索技術(shù)是在聯(lián)機(jī)數(shù)據(jù)庫(kù)檢索技術(shù)的基礎(chǔ)上發(fā)展起來的,它們實(shí)質(zhì)上都是對(duì)信息集合與需求集合的匹配,但獨(dú)立搜索引擎面臨著比聯(lián)機(jī)數(shù)據(jù)庫(kù)檢索系統(tǒng)遠(yuǎn)為復(fù)雜的環(huán)境。網(wǎng)絡(luò)信息的數(shù)量之巨、增長(zhǎng)之快,異構(gòu)性、分布性和動(dòng)態(tài)性的趨勢(shì)以及來源廣泛,又缺乏質(zhì)量控制,甚至有專門針對(duì)獨(dú)立搜索引擎的陷阱行為等特點(diǎn),決定了獨(dú)立搜索引擎除了繼承聯(lián)機(jī)數(shù)據(jù)庫(kù)檢索的技術(shù)方法外,還必須設(shè)法解決這些復(fù)雜環(huán)境帶來的問題。獨(dú)立搜索引擎其工作原理是如何的?它包含有那些技術(shù)方法?(這里討論的是狹義的搜索引擎)
一、獨(dú)立搜索引擎的概念以及其基本結(jié)構(gòu)機(jī)理分析
獨(dú)立搜索引擎是指利用網(wǎng)絡(luò)自動(dòng)搜索技術(shù)軟件(Robot)對(duì)Internet(主要是Web)網(wǎng)絡(luò)資源進(jìn)行搜集,并整理、組織從而形成管理與存儲(chǔ)這些信息的索引數(shù)據(jù)庫(kù)。基于該索引數(shù)據(jù)庫(kù),以超文本形式在Internet上面向網(wǎng)絡(luò)用戶提供網(wǎng)上信息資源檢索和導(dǎo)航服務(wù)的一類信息服務(wù)系統(tǒng)。其目的只有一個(gè):尋找相關(guān)性最高的網(wǎng)頁。
獨(dú)立搜索引擎作為處于用戶層和WWW網(wǎng)絡(luò)層之間的一個(gè)中間層次,一般地,我們可以把獨(dú)立搜索引擎看成是一個(gè)雙層的客戶機(jī)/服務(wù)器與從客戶機(jī)過渡到服務(wù)器的數(shù)據(jù)提取和組織模塊的結(jié)構(gòu)體系(Client/Server—Indexer—C/S)。其基本結(jié)構(gòu)一般包括有數(shù)據(jù)采集、數(shù)據(jù)提取與組織、數(shù)據(jù)檢索三個(gè)功能模塊。
(如圖所示)
1.數(shù)據(jù)采集模塊,是指獨(dú)立搜索引擎為客戶機(jī),通過一類自動(dòng)搜索軟件(Robot)按照一定的方式和要求向WWW站點(diǎn)等實(shí)際資源系統(tǒng)提出頁面搜索請(qǐng)求。各類WWW站點(diǎn)等實(shí)際資源系統(tǒng)為服務(wù)器,將有關(guān)數(shù)據(jù)(如WWW頁面或文檔)作為應(yīng)答提交給獨(dú)立搜索引擎,形成一個(gè)臨時(shí)網(wǎng)頁數(shù)據(jù)庫(kù)。
2.數(shù)據(jù)提取和組織模塊,在這里獨(dú)立搜索引擎通過一個(gè)數(shù)據(jù)分析與標(biāo)引軟件(Indexer)對(duì)臨時(shí)網(wǎng)頁數(shù)據(jù)庫(kù)的有關(guān)數(shù)據(jù)進(jìn)行分析,提取有檢索或查詢價(jià)值的內(nèi)容,如網(wǎng)頁關(guān)鍵詞、網(wǎng)頁的分類類別等,并對(duì)關(guān)鍵詞進(jìn)行權(quán)值計(jì)算,建成一個(gè)規(guī)范的索引數(shù)據(jù)庫(kù)或便于瀏覽的層次型分類目錄結(jié)構(gòu)。使獨(dú)立搜索引擎從客戶機(jī)過渡到服務(wù)器。
3.數(shù)據(jù)檢索模塊,是指獨(dú)立搜索引擎為服務(wù)器,根據(jù)網(wǎng)絡(luò)用戶在用戶接口上提出的檢索請(qǐng)求,通過一個(gè)數(shù)據(jù)庫(kù)檢索軟件(Searcher)根據(jù)用戶接口接受的用戶請(qǐng)求,按照匹配的檢索策略與相應(yīng)的檢索技術(shù),并使用一個(gè)信息挖掘智能軟件(UP Mining)提取用戶相關(guān)信息為參照,反復(fù)檢索自己的索引數(shù)據(jù)庫(kù)獲取符合用戶需要的WWW信息。在用戶接口上將這些WWW信息有序地提供給網(wǎng)絡(luò)用戶。
二、獨(dú)立搜索引擎核心技術(shù)機(jī)理分析
從獨(dú)立搜索引擎的基本結(jié)構(gòu)機(jī)理分析結(jié)果看,其網(wǎng)上信息資源檢索功能的實(shí)現(xiàn)主要涉及三個(gè)核心技術(shù),Robot、Indexer與Searcher。
1.RobotiC/工作原理分析
Robot的主要功能是自動(dòng)從Internet上的各Web站點(diǎn)抓取Web文檔并從中提取一些信息來描述該文檔。為獨(dú)立搜索引擎站點(diǎn)的數(shù)據(jù)庫(kù)服務(wù)器追加和更新數(shù)據(jù)提供原始數(shù)據(jù)。運(yùn)行Robot時(shí),Robot首先將精選一批高質(zhì)量的URL(這些URL可以從以往訪問過的或一些熱門的Web站點(diǎn)上提取),并遵循HTTP協(xié)議將這些URL所代表的網(wǎng)頁抓取回來,再?gòu)淖ト〉降倪@些網(wǎng)頁中抽取出所有新的、示訪問過的超級(jí)鏈接,并按照一定的算法選擇出另一批URL,繼續(xù)進(jìn)行網(wǎng)頁信息的收集:如此循環(huán)不止,直到滿足需要,就可以實(shí)現(xiàn)海量網(wǎng)頁的自動(dòng)搜集。Robot的性能很大程度上決定了獨(dú)立搜索引擎的“容量建設(shè)”。
2.Indexer的工作原理分析
Indexer的主要功能是理解Robot搜索的信息,從中抽出索引項(xiàng),用于表示文檔以及生成文檔庫(kù)的索引表。運(yùn)行Indexer時(shí),Indexer在HTML文件抽取索引項(xiàng),使用索引算法賦予其一個(gè)等級(jí)值,并以此為依據(jù)建立索引數(shù)據(jù)庫(kù)。Indexer的質(zhì)量主要影響?yīng)毩⑺阉饕娴挠行耘c查準(zhǔn)率。
3.Searche的工作原理分析
Searcher主要是根據(jù)用戶的檢索請(qǐng)求,啟動(dòng)預(yù)先設(shè)置的各種信息檢索模型在索引數(shù)據(jù)庫(kù)中快速檢出文檔,進(jìn)行文檔與檢索請(qǐng)求的相關(guān)度評(píng)價(jià),將檢索到的文檔排序輸出,并實(shí)現(xiàn)某種用戶相關(guān)性反饋機(jī)制。
三、獨(dú)立搜索引擎的用戶接口
獨(dú)立搜索引擎的用戶接口是指用戶與獨(dú)立搜索引擎的人機(jī)界面,通常是一個(gè)Web應(yīng)用程序。它是接收、解釋用戶的搜索請(qǐng)求,提交給Searcher,檢索出的結(jié)果與相關(guān)評(píng)價(jià)有序列表顯示交互層。用戶接口界面的友好與否是用戶能否最大限度使用獨(dú)立搜索引擎各功能的關(guān)鍵。所以用戶接口的“人性化”是智能搜索引擎的特征表現(xiàn)。
參考文獻(xiàn):
[1]趙丹群.信息存儲(chǔ)與檢索(下).北京大學(xué)出版社,1998:43—47頁
[2]馬靜.搜索引擎機(jī)理剖析.中國(guó)信息導(dǎo)報(bào)2001,(6)
[3]洪光宗,王皓搜索引擎Robot技術(shù)實(shí)現(xiàn)的原理分析.現(xiàn)代圖書情報(bào)技術(shù)2002,(1)
[4]朱俊卿.搜索引擎Google研究.現(xiàn)代圖書情報(bào)技術(shù),2002(1)