互聯(lián)網(wǎng)是一個(gè)寶庫(kù),搜索引擎是打開寶庫(kù)的一把鑰匙。使用搜索引擎,使我們檢索信息的能力獲得了空前的提高,成本有效地降低,可以說(shuō),搜索引擎是現(xiàn)代的計(jì)算機(jī)技術(shù)、因特網(wǎng)技術(shù)與傳統(tǒng)的索引理論相結(jié)合的成功典范。這里我們所謂的搜索引擎,是指以計(jì)算機(jī)、網(wǎng)絡(luò)、大信息量、自動(dòng)化為特征的新型檢索工具,它的祖先是美國(guó)蒙特利爾大學(xué)的一個(gè)小組開發(fā)的Archie。1993年問(wèn)世的ALIWEB則相當(dāng)于Archie的http版本。1994年春天,世界上出現(xiàn)了真正現(xiàn)代意義上的搜索引擎——Lycos(L是Lycosidae的縮寫,意思是善于捕捉獵物的狼蛛)。之后,隨著雅虎的出現(xiàn),搜索引擎的發(fā)展也進(jìn)入了黃金時(shí)代。搜索引擎家族不斷發(fā)展壯大,逐漸分布到信息世界的各個(gè)角落,它們的種類、技術(shù)也在不斷地發(fā)生變化,成為僅次于門戶的互聯(lián)網(wǎng)第二大核心技術(shù)。
搜索引擎目前沒(méi)有一個(gè)精確的定義,一般以其發(fā)展中一些里程碑式的應(yīng)用標(biāo)志其階段。業(yè)界一般將搜索引擎分為三代:“第一代搜索引擎”是依靠于人工分揀的分類目錄搜索,以“雅虎”為標(biāo)志;“第二代搜索引擎”則是依靠于機(jī)器抓取,并建立在超鏈分析技術(shù)基礎(chǔ)之上的網(wǎng)頁(yè)搜索,以“Google”(谷歌)為代表,其信息量大、更新及時(shí),但返回信息過(guò)多,可能有很多無(wú)關(guān)信息。而“第三代搜索引擎”則把“智能化”、“人機(jī)交互”等功能融入了主流,將自動(dòng)分類技術(shù)、中文內(nèi)容分析技術(shù)及區(qū)域智能識(shí)別技術(shù)應(yīng)用到大型搜索引擎中。除了在信息檢索速度、更新頻率等基本技術(shù)指標(biāo)方面處于領(lǐng)先地位外,它的網(wǎng)頁(yè)相關(guān)檢索、拼音糾錯(cuò)、模糊查詢、口音查詢技術(shù)也具有很高的水準(zhǔn)。此外,還同時(shí)兼?zhèn)淞诵侣?、MP3、圖片、Flash搜索功能,已能夠提供全面、綜合的信息搜索服務(wù),以“百度”為代表。
搜索引擎的基本原理
搜索引擎使用一種名為“網(wǎng)絡(luò)機(jī)器人”或“網(wǎng)絡(luò)蜘蛛”的軟件,遍歷Web空間,掃描一定IP地址范圍內(nèi)的網(wǎng)站,并沿著網(wǎng)絡(luò)上的鏈接從一個(gè)網(wǎng)頁(yè)到另一個(gè)網(wǎng)頁(yè),從一個(gè)網(wǎng)站到另一個(gè)網(wǎng)站采集網(wǎng)頁(yè)資料。為保證采集到最新的資料,它還會(huì)回訪已抓取過(guò)的網(wǎng)頁(yè)。網(wǎng)絡(luò)機(jī)器人或網(wǎng)絡(luò)蜘蛛采集的網(wǎng)頁(yè),還要由其他程序進(jìn)行分析,根據(jù)一定的相關(guān)度算法進(jìn)行大量的計(jì)算建立網(wǎng)頁(yè)索引,才能添加到索引數(shù)據(jù)庫(kù)中。我們平時(shí)看到的全文搜索引擎,實(shí)際上只是一個(gè)搜索引擎系統(tǒng)的檢索界面,當(dāng)你輸入關(guān)鍵詞進(jìn)行查詢時(shí),搜索引擎會(huì)從龐大的數(shù)據(jù)庫(kù)中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)的索引,并按一定的排名規(guī)則呈現(xiàn)給我們。不同的搜索引擎,網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)不同,排名規(guī)則也不盡相同,所以,當(dāng)我們以同一關(guān)鍵詞用不同的搜索引擎查詢時(shí),搜索結(jié)果也就不盡相同。
而分類目錄則是一種比較特殊的搜索引擎。分類目錄的整個(gè)工作過(guò)程也同樣分為收集信息、分析信息和查詢信息三部分,只不過(guò)分類目錄的收集、分析信息兩部分主要依靠人工完成。分類目錄一般都有專門的編輯人員負(fù)責(zé)收集網(wǎng)站的信息。隨著收錄站點(diǎn)的增多,現(xiàn)在一般都是由站點(diǎn)管理者遞交自己的網(wǎng)站信息,然后由分類目錄的編輯人員審核遞交的網(wǎng)站,以決定是否收錄該站點(diǎn)。如果該站點(diǎn)審核通過(guò),分類目錄的編輯人員還需要分析該站點(diǎn)的內(nèi)容,并將該站點(diǎn)放在相應(yīng)的類別和目錄中。所有這些收錄的站點(diǎn)同樣被存放在一個(gè)“索引數(shù)據(jù)庫(kù)”中。用戶在查詢信息時(shí),可以選擇按照關(guān)鍵詞搜索,也可按分類目錄逐層查找。如以關(guān)鍵詞搜索,返回的結(jié)果跟全文搜索引擎一樣,也是根據(jù)信息關(guān)聯(lián)程度排列網(wǎng)站。需要注意的是,分類目錄的關(guān)鍵詞查詢只能在網(wǎng)站的名稱、網(wǎng)址、簡(jiǎn)介等內(nèi)容中進(jìn)行,它的查詢結(jié)果也只是被收錄網(wǎng)站首頁(yè)的URL地址,而不是具體的頁(yè)面。分類目錄就像一個(gè)電話號(hào)碼簿一樣,按照各個(gè)網(wǎng)站的性質(zhì),把其網(wǎng)址分門別類排在一起,大類下面套著小類,一直到各個(gè)網(wǎng)站的詳細(xì)地址,一般還會(huì)提供各個(gè)網(wǎng)站的內(nèi)容簡(jiǎn)介,用戶不使用關(guān)鍵詞也可進(jìn)行查詢,只要找到相關(guān)目錄,就完全可以找到相關(guān)的網(wǎng)站。
搜索引擎的分類
搜索引擎大致可以分為兩大類:全文搜索引擎和垂直搜索引擎。
全文搜索引擎通過(guò)網(wǎng)絡(luò)機(jī)器人或網(wǎng)絡(luò)蜘蛛,自動(dòng)分析網(wǎng)絡(luò)上的各種鏈接并獲取網(wǎng)頁(yè)信息內(nèi)容,按規(guī)則加以分析整理,記入數(shù)據(jù)庫(kù)。Google、百度就是比較典型的全文搜索引擎系統(tǒng)。
垂直搜索引擎則是在某個(gè)領(lǐng)域進(jìn)行專門搜索的搜索引擎,垂直搜索引擎的搜索結(jié)果一般要比全文搜索引擎準(zhǔn)確和翔實(shí)。
由于全文搜索引擎要針對(duì)各種各樣的搜索要求來(lái)做分詞處理,所以全文搜索引擎的搜索結(jié)果一般是不會(huì)有垂直搜索引擎那么準(zhǔn)確,但是全文搜索引擎的特點(diǎn)是信息量非常地大,可以讓用戶有很大的挑選余地,尤其是在用戶并不太清楚自己想要什么資料的時(shí)候,可以返回很多相關(guān)的信息,供用戶自己選擇。
搜索引擎的使用
搜索引擎的使用是非常簡(jiǎn)單的,只要登錄到搜索引擎的主頁(yè),在文本框里輸入相關(guān)的關(guān)鍵字,搜索引擎就會(huì)返回和這個(gè)關(guān)鍵字關(guān)聯(lián)程度比較高的網(wǎng)站鏈接。但是如何有效地得到自己想要的信息則是一個(gè)比較難的問(wèn)題。一般的搜索引擎都有一個(gè)默認(rèn)的規(guī)則,例如:如果你想知道“亞運(yùn)會(huì)的歷史”,就可以在文本框里輸入“亞運(yùn)會(huì)歷史”,中間有一個(gè)空格,這樣搜索引擎就會(huì)去檢索包含亞運(yùn)會(huì)和歷史的頁(yè)面(中文搜索引擎默認(rèn)會(huì)把“的”字去掉,不列入檢索的范圍)。有的頁(yè)面就會(huì)包含釜山亞運(yùn)會(huì)的信息,假如我們不想看到包含釜山亞運(yùn)會(huì)的頁(yè)面,只需在文本框里輸入“亞運(yùn)會(huì)歷史.釜山”,那么就會(huì)在搜索的頁(yè)面中去掉包含釜山信息的頁(yè)面。從這個(gè)例子可以看出來(lái)搜索引擎的搜索規(guī)則,減號(hào)為非操作,在搜索A-B的過(guò)程中就會(huì)搜索包含A但是不包含B的頁(yè)面。如果是搜索A or B,那么就是搜索包含A或者包含B的頁(yè)面。如果是搜索一段話,那么可以使用雙引號(hào)將要搜索的內(nèi)容包含進(jìn)來(lái),這樣搜索的結(jié)果會(huì)更加精確。
搜索引擎的未來(lái)
盡管搜索引擎已經(jīng)大大提高了我們利用網(wǎng)絡(luò)的效率,但隨著Internet的強(qiáng)勢(shì)發(fā)展,網(wǎng)上龐大的數(shù)字化信息和人們獲取所需信息能力之間的矛盾日益突出,大多數(shù)搜索系統(tǒng)的表現(xiàn)與用戶的期望值相差太大,諸如數(shù)據(jù)量高速增長(zhǎng)的視頻、音頻等多媒體信息的檢索,現(xiàn)在仍然是無(wú)法突破的難題。
一般的公共搜索引擎只能查到HTML(全稱為超文本標(biāo)記語(yǔ)言)格式,主要的原因是搜索引擎的自動(dòng)排序軟件只能接受這種格式的網(wǎng)頁(yè)。這意味著在企業(yè)內(nèi)部的局域網(wǎng)上,任何沒(méi)有使用HTML格式的信息將無(wú)法被外部的搜索引擎查到。這就是為什么像PPT、Word、PDF、電子郵件等文件,以及ERP、CRM等應(yīng)用軟件的數(shù)據(jù)庫(kù)的信息會(huì)長(zhǎng)期“沉沒(méi)”在信息的海底中。如何解決這些難題已成為下一代搜索引擎探索的方向。一個(gè)好的搜索引擎不再僅憑借數(shù)據(jù)庫(kù)大小、更新頻率、檢索速度、對(duì)多語(yǔ)言的支持這幾個(gè)基本特性來(lái)衡量,隨著數(shù)據(jù)庫(kù)容量的不斷膨脹,如何從龐大的資料庫(kù)中精確地找到所需的資料,被公認(rèn)為是下一代搜索技術(shù)的競(jìng)爭(zhēng)要點(diǎn)。
搜索引擎的出現(xiàn)讓我們獲取信息的時(shí)間變得更短和更加的快捷,知識(shí)的傳播也更加快速。搜索引擎已經(jīng)從目前的電腦終端向手機(jī)、PDA等移動(dòng)手持設(shè)備拓展,可以看出未來(lái)的搜索技術(shù)將更加多元化。另外,Google目前已經(jīng)變成最大的開源軟件贊助商,很多非常領(lǐng)先的搜索技術(shù)都是在開源軟件里面產(chǎn)生,并由Google直接轉(zhuǎn)入商業(yè)應(yīng)用。在不久的將來(lái),搜索引擎將會(huì)與我們的生活聯(lián)系得更加緊密。
[責(zé)任編輯]趙新宇