亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

搜出精彩——搜索引擎全接觸

2007-01-01 00:00:00星辰

百科知識(shí) 2007年3期

互聯(lián)網(wǎng)是一個(gè)寶庫(kù)，搜索引擎是打開寶庫(kù)的一把鑰匙。使用搜索引擎，使我們檢索信息的能力獲得了空前的提高，成本有效地降低，可以說(shuō)，搜索引擎是現(xiàn)代的計(jì)算機(jī)技術(shù)、因特網(wǎng)技術(shù)與傳統(tǒng)的索引理論相結(jié)合的成功典范。這里我們所謂的搜索引擎，是指以計(jì)算機(jī)、網(wǎng)絡(luò)、大信息量、自動(dòng)化為特征的新型檢索工具，它的祖先是美國(guó)蒙特利爾大學(xué)的一個(gè)小組開發(fā)的Archie。1993年問(wèn)世的ALIWEB則相當(dāng)于Archie的http版本。1994年春天，世界上出現(xiàn)了真正現(xiàn)代意義上的搜索引擎——Lycos(L是Lycosidae的縮寫，意思是善于捕捉獵物的狼蛛)。之后，隨著雅虎的出現(xiàn)，搜索引擎的發(fā)展也進(jìn)入了黃金時(shí)代。搜索引擎家族不斷發(fā)展壯大，逐漸分布到信息世界的各個(gè)角落，它們的種類、技術(shù)也在不斷地發(fā)生變化，成為僅次于門戶的互聯(lián)網(wǎng)第二大核心技術(shù)。

搜索引擎目前沒(méi)有一個(gè)精確的定義，一般以其發(fā)展中一些里程碑式的應(yīng)用標(biāo)志其階段。業(yè)界一般將搜索引擎分為三代：“第一代搜索引擎”是依靠于人工分揀的分類目錄搜索，以“雅虎”為標(biāo)志；“第二代搜索引擎”則是依靠于機(jī)器抓取，并建立在超鏈分析技術(shù)基礎(chǔ)之上的網(wǎng)頁(yè)搜索，以“Google”(谷歌)為代表，其信息量大、更新及時(shí)，但返回信息過(guò)多，可能有很多無(wú)關(guān)信息。而“第三代搜索引擎”則把“智能化”、“人機(jī)交互”等功能融入了主流，將自動(dòng)分類技術(shù)、中文內(nèi)容分析技術(shù)及區(qū)域智能識(shí)別技術(shù)應(yīng)用到大型搜索引擎中。除了在信息檢索速度、更新頻率等基本技術(shù)指標(biāo)方面處于領(lǐng)先地位外，它的網(wǎng)頁(yè)相關(guān)檢索、拼音糾錯(cuò)、模糊查詢、口音查詢技術(shù)也具有很高的水準(zhǔn)。此外，還同時(shí)兼?zhèn)淞诵侣?、MP3、圖片、Flash搜索功能，已能夠提供全面、綜合的信息搜索服務(wù)，以“百度”為代表。

搜索引擎的基本原理

搜索引擎使用一種名為“網(wǎng)絡(luò)機(jī)器人”或“網(wǎng)絡(luò)蜘蛛”的軟件，遍歷Web空間，掃描一定IP地址范圍內(nèi)的網(wǎng)站，并沿著網(wǎng)絡(luò)上的鏈接從一個(gè)網(wǎng)頁(yè)到另一個(gè)網(wǎng)頁(yè)，從一個(gè)網(wǎng)站到另一個(gè)網(wǎng)站采集網(wǎng)頁(yè)資料。為保證采集到最新的資料，它還會(huì)回訪已抓取過(guò)的網(wǎng)頁(yè)。網(wǎng)絡(luò)機(jī)器人或網(wǎng)絡(luò)蜘蛛采集的網(wǎng)頁(yè)，還要由其他程序進(jìn)行分析，根據(jù)一定的相關(guān)度算法進(jìn)行大量的計(jì)算建立網(wǎng)頁(yè)索引，才能添加到索引數(shù)據(jù)庫(kù)中。我們平時(shí)看到的全文搜索引擎，實(shí)際上只是一個(gè)搜索引擎系統(tǒng)的檢索界面，當(dāng)你輸入關(guān)鍵詞進(jìn)行查詢時(shí)，搜索引擎會(huì)從龐大的數(shù)據(jù)庫(kù)中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)的索引，并按一定的排名規(guī)則呈現(xiàn)給我們。不同的搜索引擎，網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)不同，排名規(guī)則也不盡相同，所以，當(dāng)我們以同一關(guān)鍵詞用不同的搜索引擎查詢時(shí)，搜索結(jié)果也就不盡相同。

而分類目錄則是一種比較特殊的搜索引擎。分類目錄的整個(gè)工作過(guò)程也同樣分為收集信息、分析信息和查詢信息三部分，只不過(guò)分類目錄的收集、分析信息兩部分主要依靠人工完成。分類目錄一般都有專門的編輯人員負(fù)責(zé)收集網(wǎng)站的信息。隨著收錄站點(diǎn)的增多，現(xiàn)在一般都是由站點(diǎn)管理者遞交自己的網(wǎng)站信息，然后由分類目錄的編輯人員審核遞交的網(wǎng)站，以決定是否收錄該站點(diǎn)。如果該站點(diǎn)審核通過(guò)，分類目錄的編輯人員還需要分析該站點(diǎn)的內(nèi)容，并將該站點(diǎn)放在相應(yīng)的類別和目錄中。所有這些收錄的站點(diǎn)同樣被存放在一個(gè)“索引數(shù)據(jù)庫(kù)”中。用戶在查詢信息時(shí)，可以選擇按照關(guān)鍵詞搜索，也可按分類目錄逐層查找。如以關(guān)鍵詞搜索，返回的結(jié)果跟全文搜索引擎一樣，也是根據(jù)信息關(guān)聯(lián)程度排列網(wǎng)站。需要注意的是，分類目錄的關(guān)鍵詞查詢只能在網(wǎng)站的名稱、網(wǎng)址、簡(jiǎn)介等內(nèi)容中進(jìn)行，它的查詢結(jié)果也只是被收錄網(wǎng)站首頁(yè)的URL地址，而不是具體的頁(yè)面。分類目錄就像一個(gè)電話號(hào)碼簿一樣，按照各個(gè)網(wǎng)站的性質(zhì)，把其網(wǎng)址分門別類排在一起，大類下面套著小類，一直到各個(gè)網(wǎng)站的詳細(xì)地址，一般還會(huì)提供各個(gè)網(wǎng)站的內(nèi)容簡(jiǎn)介，用戶不使用關(guān)鍵詞也可進(jìn)行查詢，只要找到相關(guān)目錄，就完全可以找到相關(guān)的網(wǎng)站。

搜索引擎的分類

搜索引擎大致可以分為兩大類：全文搜索引擎和垂直搜索引擎。

全文搜索引擎通過(guò)網(wǎng)絡(luò)機(jī)器人或網(wǎng)絡(luò)蜘蛛，自動(dòng)分析網(wǎng)絡(luò)上的各種鏈接并獲取網(wǎng)頁(yè)信息內(nèi)容，按規(guī)則加以分析整理，記入數(shù)據(jù)庫(kù)。Google、百度就是比較典型的全文搜索引擎系統(tǒng)。

垂直搜索引擎則是在某個(gè)領(lǐng)域進(jìn)行專門搜索的搜索引擎，垂直搜索引擎的搜索結(jié)果一般要比全文搜索引擎準(zhǔn)確和翔實(shí)。

由于全文搜索引擎要針對(duì)各種各樣的搜索要求來(lái)做分詞處理，所以全文搜索引擎的搜索結(jié)果一般是不會(huì)有垂直搜索引擎那么準(zhǔn)確，但是全文搜索引擎的特點(diǎn)是信息量非常地大，可以讓用戶有很大的挑選余地，尤其是在用戶并不太清楚自己想要什么資料的時(shí)候，可以返回很多相關(guān)的信息，供用戶自己選擇。

搜索引擎的使用

搜索引擎的使用是非常簡(jiǎn)單的，只要登錄到搜索引擎的主頁(yè)，在文本框里輸入相關(guān)的關(guān)鍵字，搜索引擎就會(huì)返回和這個(gè)關(guān)鍵字關(guān)聯(lián)程度比較高的網(wǎng)站鏈接。但是如何有效地得到自己想要的信息則是一個(gè)比較難的問(wèn)題。一般的搜索引擎都有一個(gè)默認(rèn)的規(guī)則，例如：如果你想知道“亞運(yùn)會(huì)的歷史”，就可以在文本框里輸入“亞運(yùn)會(huì)歷史”，中間有一個(gè)空格，這樣搜索引擎就會(huì)去檢索包含亞運(yùn)會(huì)和歷史的頁(yè)面(中文搜索引擎默認(rèn)會(huì)把“的”字去掉，不列入檢索的范圍)。有的頁(yè)面就會(huì)包含釜山亞運(yùn)會(huì)的信息，假如我們不想看到包含釜山亞運(yùn)會(huì)的頁(yè)面，只需在文本框里輸入“亞運(yùn)會(huì)歷史．釜山”，那么就會(huì)在搜索的頁(yè)面中去掉包含釜山信息的頁(yè)面。從這個(gè)例子可以看出來(lái)搜索引擎的搜索規(guī)則，減號(hào)為非操作，在搜索A－B的過(guò)程中就會(huì)搜索包含A但是不包含B的頁(yè)面。如果是搜索A or B，那么就是搜索包含A或者包含B的頁(yè)面。如果是搜索一段話，那么可以使用雙引號(hào)將要搜索的內(nèi)容包含進(jìn)來(lái)，這樣搜索的結(jié)果會(huì)更加精確。

搜索引擎的未來(lái)

盡管搜索引擎已經(jīng)大大提高了我們利用網(wǎng)絡(luò)的效率，但隨著Internet的強(qiáng)勢(shì)發(fā)展，網(wǎng)上龐大的數(shù)字化信息和人們獲取所需信息能力之間的矛盾日益突出，大多數(shù)搜索系統(tǒng)的表現(xiàn)與用戶的期望值相差太大，諸如數(shù)據(jù)量高速增長(zhǎng)的視頻、音頻等多媒體信息的檢索，現(xiàn)在仍然是無(wú)法突破的難題。

一般的公共搜索引擎只能查到HTML(全稱為超文本標(biāo)記語(yǔ)言)格式，主要的原因是搜索引擎的自動(dòng)排序軟件只能接受這種格式的網(wǎng)頁(yè)。這意味著在企業(yè)內(nèi)部的局域網(wǎng)上，任何沒(méi)有使用HTML格式的信息將無(wú)法被外部的搜索引擎查到。這就是為什么像PPT、Word、PDF、電子郵件等文件，以及ERP、CRM等應(yīng)用軟件的數(shù)據(jù)庫(kù)的信息會(huì)長(zhǎng)期“沉沒(méi)”在信息的海底中。如何解決這些難題已成為下一代搜索引擎探索的方向。一個(gè)好的搜索引擎不再僅憑借數(shù)據(jù)庫(kù)大小、更新頻率、檢索速度、對(duì)多語(yǔ)言的支持這幾個(gè)基本特性來(lái)衡量，隨著數(shù)據(jù)庫(kù)容量的不斷膨脹，如何從龐大的資料庫(kù)中精確地找到所需的資料，被公認(rèn)為是下一代搜索技術(shù)的競(jìng)爭(zhēng)要點(diǎn)。

搜索引擎的出現(xiàn)讓我們獲取信息的時(shí)間變得更短和更加的快捷，知識(shí)的傳播也更加快速。搜索引擎已經(jīng)從目前的電腦終端向手機(jī)、PDA等移動(dòng)手持設(shè)備拓展，可以看出未來(lái)的搜索技術(shù)將更加多元化。另外，Google目前已經(jīng)變成最大的開源軟件贊助商，很多非常領(lǐng)先的搜索技術(shù)都是在開源軟件里面產(chǎn)生，并由Google直接轉(zhuǎn)入商業(yè)應(yīng)用。在不久的將來(lái)，搜索引擎將會(huì)與我們的生活聯(lián)系得更加緊密。

[責(zé)任編輯]趙新宇

百科知識(shí)2007年3期

百科知識(shí)的其它文章: 壽星與壽文化; 你知道嗎？; “七竅流血”不可信; 查基因，測(cè)人體; 傾聽海洋的聲音; 空天飛機(jī)是什么？