亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

獨(dú)立搜索引擎的基本工作原理淺析

2009-12-31 00:00:00鄭洪濤

中國(guó)科技財(cái)富 2009年16期

摘要：獨(dú)立搜索引擎的檢索技術(shù)是在聯(lián)機(jī)數(shù)據(jù)庫(kù)檢索技術(shù)的基礎(chǔ)上發(fā)展起來的，它們實(shí)質(zhì)上都是對(duì)信息集合與需求集合的匹配。本文著重討論了獨(dú)立搜索引擎的工作原理及其所包含的技術(shù)方法。

關(guān)鍵詞：獨(dú)立搜索引擎；Robot；IndexerSearcher；工作原理分析

WWW網(wǎng)上浩如煙海的信息資源，吸引著大量的用戶。但，網(wǎng)民對(duì)特定信息的需求驅(qū)使人們想方設(shè)法擺脫信息查詢大海撈針般的困境。1994年4月Web craWler搜索引擎在網(wǎng)上正式發(fā)布并開始服務(wù)。1996年后，搜索引擎進(jìn)入了“容量建設(shè)期”。當(dāng)前，搜索引擎正經(jīng)歷著從“數(shù)量累積階段”到“質(zhì)量精煉階段”的變革。就現(xiàn)階段來說，WWW網(wǎng)上的信息檢索工具主要以獨(dú)立搜索引擎為主(就是通常意義上我們說的搜索引擎)，是相對(duì)于集合搜索引擎(或元搜索引擎)而稱。獨(dú)立搜索引擎是元搜索引擎與信息檢索代理(agent)的技術(shù)基礎(chǔ)，故對(duì)網(wǎng)絡(luò)信息檢索系統(tǒng)的研究是基于對(duì)獨(dú)立搜索引擎的研究。

獨(dú)立搜索引擎的檢索技術(shù)是在聯(lián)機(jī)數(shù)據(jù)庫(kù)檢索技術(shù)的基礎(chǔ)上發(fā)展起來的，它們實(shí)質(zhì)上都是對(duì)信息集合與需求集合的匹配，但獨(dú)立搜索引擎面臨著比聯(lián)機(jī)數(shù)據(jù)庫(kù)檢索系統(tǒng)遠(yuǎn)為復(fù)雜的環(huán)境。網(wǎng)絡(luò)信息的數(shù)量之巨、增長(zhǎng)之快，異構(gòu)性、分布性和動(dòng)態(tài)性的趨勢(shì)以及來源廣泛，又缺乏質(zhì)量控制，甚至有專門針對(duì)獨(dú)立搜索引擎的陷阱行為等特點(diǎn)，決定了獨(dú)立搜索引擎除了繼承聯(lián)機(jī)數(shù)據(jù)庫(kù)檢索的技術(shù)方法外，還必須設(shè)法解決這些復(fù)雜環(huán)境帶來的問題。獨(dú)立搜索引擎其工作原理是如何的?它包含有那些技術(shù)方法?(這里討論的是狹義的搜索引擎)

一、獨(dú)立搜索引擎的概念以及其基本結(jié)構(gòu)機(jī)理分析

獨(dú)立搜索引擎是指利用網(wǎng)絡(luò)自動(dòng)搜索技術(shù)軟件(Robot)對(duì)Internet(主要是Web)網(wǎng)絡(luò)資源進(jìn)行搜集，并整理、組織從而形成管理與存儲(chǔ)這些信息的索引數(shù)據(jù)庫(kù)。基于該索引數(shù)據(jù)庫(kù)，以超文本形式在Internet上面向網(wǎng)絡(luò)用戶提供網(wǎng)上信息資源檢索和導(dǎo)航服務(wù)的一類信息服務(wù)系統(tǒng)。其目的只有一個(gè)：尋找相關(guān)性最高的網(wǎng)頁。

獨(dú)立搜索引擎作為處于用戶層和WWW網(wǎng)絡(luò)層之間的一個(gè)中間層次，一般地，我們可以把獨(dú)立搜索引擎看成是一個(gè)雙層的客戶機(jī)／服務(wù)器與從客戶機(jī)過渡到服務(wù)器的數(shù)據(jù)提取和組織模塊的結(jié)構(gòu)體系(Client／Server—Indexer—C／S)。其基本結(jié)構(gòu)一般包括有數(shù)據(jù)采集、數(shù)據(jù)提取與組織、數(shù)據(jù)檢索三個(gè)功能模塊。

(如圖所示)

1.數(shù)據(jù)采集模塊，是指獨(dú)立搜索引擎為客戶機(jī)，通過一類自動(dòng)搜索軟件(Robot)按照一定的方式和要求向WWW站點(diǎn)等實(shí)際資源系統(tǒng)提出頁面搜索請(qǐng)求。各類WWW站點(diǎn)等實(shí)際資源系統(tǒng)為服務(wù)器，將有關(guān)數(shù)據(jù)(如WWW頁面或文檔)作為應(yīng)答提交給獨(dú)立搜索引擎，形成一個(gè)臨時(shí)網(wǎng)頁數(shù)據(jù)庫(kù)。

2.數(shù)據(jù)提取和組織模塊，在這里獨(dú)立搜索引擎通過一個(gè)數(shù)據(jù)分析與標(biāo)引軟件(Indexer)對(duì)臨時(shí)網(wǎng)頁數(shù)據(jù)庫(kù)的有關(guān)數(shù)據(jù)進(jìn)行分析，提取有檢索或查詢價(jià)值的內(nèi)容，如網(wǎng)頁關(guān)鍵詞、網(wǎng)頁的分類類別等，并對(duì)關(guān)鍵詞進(jìn)行權(quán)值計(jì)算，建成一個(gè)規(guī)范的索引數(shù)據(jù)庫(kù)或便于瀏覽的層次型分類目錄結(jié)構(gòu)。使獨(dú)立搜索引擎從客戶機(jī)過渡到服務(wù)器。

3.數(shù)據(jù)檢索模塊，是指獨(dú)立搜索引擎為服務(wù)器，根據(jù)網(wǎng)絡(luò)用戶在用戶接口上提出的檢索請(qǐng)求，通過一個(gè)數(shù)據(jù)庫(kù)檢索軟件(Searcher)根據(jù)用戶接口接受的用戶請(qǐng)求，按照匹配的檢索策略與相應(yīng)的檢索技術(shù)，并使用一個(gè)信息挖掘智能軟件(UP Mining)提取用戶相關(guān)信息為參照，反復(fù)檢索自己的索引數(shù)據(jù)庫(kù)獲取符合用戶需要的WWW信息。在用戶接口上將這些WWW信息有序地提供給網(wǎng)絡(luò)用戶。

二、獨(dú)立搜索引擎核心技術(shù)機(jī)理分析

從獨(dú)立搜索引擎的基本結(jié)構(gòu)機(jī)理分析結(jié)果看，其網(wǎng)上信息資源檢索功能的實(shí)現(xiàn)主要涉及三個(gè)核心技術(shù)，Robot、Indexer與Searcher。

1.RobotiC／工作原理分析

Robot的主要功能是自動(dòng)從Internet上的各Web站點(diǎn)抓取Web文檔并從中提取一些信息來描述該文檔。為獨(dú)立搜索引擎站點(diǎn)的數(shù)據(jù)庫(kù)服務(wù)器追加和更新數(shù)據(jù)提供原始數(shù)據(jù)。運(yùn)行Robot時(shí)，Robot首先將精選一批高質(zhì)量的URL(這些URL可以從以往訪問過的或一些熱門的Web站點(diǎn)上提取)，并遵循HTTP協(xié)議將這些URL所代表的網(wǎng)頁抓取回來，再?gòu)淖ト〉降倪@些網(wǎng)頁中抽取出所有新的、示訪問過的超級(jí)鏈接，并按照一定的算法選擇出另一批URL，繼續(xù)進(jìn)行網(wǎng)頁信息的收集：如此循環(huán)不止，直到滿足需要，就可以實(shí)現(xiàn)海量網(wǎng)頁的自動(dòng)搜集。Robot的性能很大程度上決定了獨(dú)立搜索引擎的“容量建設(shè)”。

2.Indexer的工作原理分析

Indexer的主要功能是理解Robot搜索的信息，從中抽出索引項(xiàng)，用于表示文檔以及生成文檔庫(kù)的索引表。運(yùn)行Indexer時(shí)，Indexer在HTML文件抽取索引項(xiàng)，使用索引算法賦予其一個(gè)等級(jí)值，并以此為依據(jù)建立索引數(shù)據(jù)庫(kù)。Indexer的質(zhì)量主要影響?yīng)毩⑺阉饕娴挠行耘c查準(zhǔn)率。

3.Searche的工作原理分析

Searcher主要是根據(jù)用戶的檢索請(qǐng)求，啟動(dòng)預(yù)先設(shè)置的各種信息檢索模型在索引數(shù)據(jù)庫(kù)中快速檢出文檔，進(jìn)行文檔與檢索請(qǐng)求的相關(guān)度評(píng)價(jià)，將檢索到的文檔排序輸出，并實(shí)現(xiàn)某種用戶相關(guān)性反饋機(jī)制。

三、獨(dú)立搜索引擎的用戶接口

獨(dú)立搜索引擎的用戶接口是指用戶與獨(dú)立搜索引擎的人機(jī)界面，通常是一個(gè)Web應(yīng)用程序。它是接收、解釋用戶的搜索請(qǐng)求，提交給Searcher，檢索出的結(jié)果與相關(guān)評(píng)價(jià)有序列表顯示交互層。用戶接口界面的友好與否是用戶能否最大限度使用獨(dú)立搜索引擎各功能的關(guān)鍵。所以用戶接口的“人性化”是智能搜索引擎的特征表現(xiàn)。

參考文獻(xiàn)：

[1]趙丹群.信息存儲(chǔ)與檢索(下).北京大學(xué)出版社，1998：43—47頁

[2]馬靜.搜索引擎機(jī)理剖析.中國(guó)信息導(dǎo)報(bào)2001，(6)

[3]洪光宗，王皓搜索引擎Robot技術(shù)實(shí)現(xiàn)的原理分析.現(xiàn)代圖書情報(bào)技術(shù)2002，(1)

[4]朱俊卿.搜索引擎Google研究.現(xiàn)代圖書情報(bào)技術(shù)，2002(1)

中國(guó)科技財(cái)富2009年16期

中國(guó)科技財(cái)富的其它文章: 淺析基于數(shù)據(jù)倉(cāng)庫(kù)的OLAP聯(lián)機(jī)分析技術(shù)與數(shù)據(jù)挖掘技術(shù); 淺談水利工程建設(shè)管理; 母語負(fù)遷移與中介語; 從文藝沙龍到十字街頭; 兩種審美直覺的分析; 水彩的技巧性和藝術(shù)性