亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

信息搜索引擎綜述及系統(tǒng)架構(gòu)設(shè)計(jì)

2008-01-01 00:00:00陳丹郭偉青

商場(chǎng)現(xiàn)代化 2008年3期

[摘要] 本文介紹了搜索引擎的發(fā)展與分類(lèi)，給出了一種搜索引擎的架構(gòu)并對(duì)各個(gè)組成部分進(jìn)行了分析，最后分析了如何來(lái)評(píng)價(jià)搜索引擎性能的技術(shù)指標(biāo)。

[關(guān)鍵詞] 搜索引擎發(fā)展分類(lèi) 技術(shù)指標(biāo)

一、引言

互聯(lián)網(wǎng)發(fā)展的今天，一方面離不開(kāi)其開(kāi)放、共享的特性帶給人們的全新體驗(yàn)，另一方面也離不開(kāi)數(shù)以?xún)|計(jì)的為其提供各類(lèi)豐富內(nèi)容的網(wǎng)絡(luò)節(jié)點(diǎn)?；ヂ?lián)網(wǎng)被普及前，人們查閱資料第一想到的便是擁有大量書(shū)籍資料的圖書(shū)館，到了今天，很多人都會(huì)選擇一種更方便、快捷、全面、準(zhǔn)確的方式——使用搜索引擎。

二、搜索引擎的歷史

20世紀(jì)90年初，當(dāng)時(shí)萬(wàn)維網(wǎng)(World Wide Web)還未出現(xiàn)，為了查詢(xún)散布在各個(gè)分散的主機(jī)中的文件，曾有過(guò)Archie， Gopher等搜索工具，隨著互聯(lián)網(wǎng)的迅速發(fā)展，基于HTTP訪問(wèn)的web技術(shù)的迅速普及，它們就不再能適應(yīng)用戶(hù)的需要。1994年，Lycos推出了基于Robot的數(shù)據(jù)發(fā)現(xiàn)技術(shù)。1998年10月，Google誕生，它是目前最流行的搜索引擎之一，具備很多獨(dú)特而且優(yōu)秀的功能，并且在界面等方面實(shí)現(xiàn)了革命性創(chuàng)新。

三、搜索引擎的分類(lèi)

按照信息搜集方法和服務(wù)提供方式的不同，搜索引擎系統(tǒng)可以分為三大類(lèi)。但各種搜索引擎站點(diǎn)正在結(jié)合其他搜索引擎的優(yōu)點(diǎn)，在類(lèi)型上有逐漸融合的趨勢(shì)。

1.目錄式(Directory)搜索引擎。以人工方式或半自動(dòng)方式搜集信息，由編輯員查看信息之后，人工形成信息摘要，并將信息置于事先確定的分類(lèi)框架中。該類(lèi)搜索引擎因?yàn)榧尤肓巳说闹悄?，所以信息?zhǔn)確、導(dǎo)航質(zhì)量高，缺點(diǎn)是需要人工介入、維護(hù)量大、信息量少、信息更新不及時(shí)。這類(lèi)搜索引擎的代表是：Yahoo!(dir.yahoo.com)和Open Directory Project（www.dmoz.org）。

2.基于機(jī)器人(Robot-based)的搜索引擎?；跈C(jī)器人的搜索引擎是一種典型的搜索引擎。由一個(gè)稱(chēng)為爬蟲(chóng)（Spiders或robots）的機(jī)器人程序以某種策略自動(dòng)地在Internet中搜集和發(fā)現(xiàn)信息，由索引器為搜集到的信息建立索引，由檢索器根據(jù)用戶(hù)的查詢(xún)輸入檢索索引庫(kù)，并將查詢(xún)結(jié)果返回給用戶(hù)。該方式力求能夠?qū)WW中所有數(shù)據(jù)進(jìn)行檢索，涉及網(wǎng)上的任何領(lǐng)域，然而由于WWW 的海量信息，實(shí)際運(yùn)行中往往只能對(duì)WWW 中部分內(nèi)容進(jìn)行檢索。這類(lèi)搜索引擎的代表是：Google(www.google.com)，國(guó)內(nèi)的有百度(www.baidu.com)等。

3.元搜索引擎(Meta-searchengine)。元搜索引擎的基本思想是:當(dāng)搜索引擎受到來(lái)自客戶(hù)的查詢(xún)請(qǐng)求后，自動(dòng)將這些查詢(xún)請(qǐng)求轉(zhuǎn)發(fā)給其它多個(gè)搜索引擎，并將各搜索引擎返回的查詢(xún)結(jié)果收集起來(lái)進(jìn)行處理，最終提供給用戶(hù)。這類(lèi)搜索引擎沒(méi)有自己的數(shù)據(jù)，而是將用戶(hù)的查詢(xún)請(qǐng)求同時(shí)向多個(gè)搜索引擎遞交，將返回的結(jié)果進(jìn)行重復(fù)排除、重新排序等處理后，作為自己的結(jié)果返回給用戶(hù)。這類(lèi)搜索引擎的代表是WebCrawler、InfoMarket等。

四、搜索引擎基本組成

1.搜索器。搜索器的功能是在Internet中漫游，發(fā)現(xiàn)和搜集信息。搜索器搜集的信息類(lèi)型多種多樣，包括HTML文本、XML文本、Newsgroup文章、FTP文件、字處理文檔(如Word，Postscript， PDF)、多媒體信息(如圖片、聲音、動(dòng)畫(huà)、視頻)等。它常常是一個(gè)或者多個(gè)互相協(xié)調(diào)的計(jì)算機(jī)程序，日夜不停地運(yùn)行，目的是要盡可能多、盡可能快地搜集各種類(lèi)型的新信息，同時(shí)因?yàn)镮nternet上的信息更新很快，所以還要定期更新已經(jīng)搜集過(guò)的舊信息，以避免死連接和無(wú)效連接。

2.索引器。索引器的功能是理解搜索器所搜索的信息，從中抽取出索引項(xiàng)，用于表示文檔以及生成文檔庫(kù)的索引表。索引項(xiàng)有客觀索引項(xiàng)和內(nèi)容索引項(xiàng)兩種：客觀項(xiàng)與文檔的語(yǔ)意內(nèi)容無(wú)關(guān)，內(nèi)容索引項(xiàng)是用來(lái)反映文檔內(nèi)容的。一個(gè)搜索引擎的有效性在很大程度上取決于索引的質(zhì)量。

3.檢索器。檢索器的功能是根據(jù)用戶(hù)的查詢(xún)?cè)谒饕龓?kù)中快速檢出文檔，進(jìn)行文檔與查詢(xún)的相關(guān)度評(píng)價(jià)，對(duì)將要輸出的結(jié)果進(jìn)行排序，并實(shí)現(xiàn)某種用戶(hù)相關(guān)性反饋機(jī)制。檢索器常用的信息檢索模型有集合理論模型、代數(shù)模型、概率模型和混合模型四種。

4.用戶(hù)接口。用戶(hù)接口的作用是輸入用戶(hù)查詢(xún)、顯示查詢(xún)結(jié)果、提供用戶(hù)相關(guān)性反饋機(jī)制。主要的目的是方便用戶(hù)使用搜索引擎，高效率、多方式地從搜索引擎中得到有效、及時(shí)的信息。用戶(hù)接口的設(shè)計(jì)和實(shí)現(xiàn)使用人機(jī)交互的理論和方法，以充分適應(yīng)人類(lèi)的思維習(xí)慣。

五、搜索引擎技術(shù)指標(biāo)

可以用查全率（Recall）和查準(zhǔn)率（Pricision）衡量一個(gè)搜索引擎的性能，定義如下:

查準(zhǔn)率(精度)=搜索到的相關(guān)文檔數(shù)/搜索到的全部文檔數(shù)

查全率(召回率)=搜索到的相關(guān)文檔數(shù)/包含的全部相關(guān)文檔數(shù)

影響一個(gè)搜索引擎系統(tǒng)的性能有很多因素，最主要的是信息檢索模型，包括文檔和查詢(xún)的表示方法、評(píng)價(jià)文檔和用戶(hù)查詢(xún)相關(guān)性的匹配策略、查詢(xún)結(jié)果的排序方法和用戶(hù)進(jìn)行相關(guān)度反饋的機(jī)制等。

六、小結(jié)

互聯(lián)網(wǎng)技術(shù)的發(fā)展，使得互聯(lián)網(wǎng)上的信息量急劇增加，信息越來(lái)越豐富，越來(lái)越多的網(wǎng)絡(luò)用戶(hù)依靠搜索引擎技術(shù)，從浩瀚的信息海洋中獲取信息，為學(xué)習(xí)、生活提供越來(lái)越多的便利，搜索引擎技術(shù)必將會(huì)有更大的發(fā)展應(yīng)用。

參考文獻(xiàn):

[1]李曉明:http://www.se-express.com[EB]

[2]劉峰王秀坤楊南海馬霖:中英文專(zhuān)業(yè)搜索引擎中數(shù)據(jù)采集加工的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用研究.2004，21(10):155～157

注：本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文。

商場(chǎng)現(xiàn)代化2008年3期

商場(chǎng)現(xiàn)代化的其它文章: 馬爾柯夫鏈在經(jīng)濟(jì)預(yù)測(cè)中的應(yīng)用; 網(wǎng)上經(jīng)濟(jì)信息資源及其檢索策略; 和諧社會(huì)目標(biāo)下關(guān)于構(gòu)建屯墾戍邊新型團(tuán)場(chǎng)的哲學(xué)思考; 建筑設(shè)計(jì)中太陽(yáng)能利用的仿生解析; 經(jīng)濟(jì)學(xué)不可能脫離道德; 《管子》消費(fèi)觀簡(jiǎn)論