[摘 要]本文論述了搜索引擎的概念、基本原理、主要功能及作用,并針對國內比較著名的搜索引擎站點進行了詳盡的分析,在此基礎上,對中文網絡搜索引擎發(fā)展的現(xiàn)狀進行了分析,在看到中文搜索引擎發(fā)展的同時,也要看到中文搜索引擎在發(fā)展中存在的問題。
[關鍵詞]搜索引擎;對比研究;百度;有道
[中圖分類號]G252.7 [文獻標識碼]A [文章編號]1008-0821(2010)04-0062-04
Chinese Network Search Engine Comparison ResearchChen Hui
(Institute of Scientific and Technical Information of Jilin,Changchun 130021,China)
[Abstract]This article elaborated the search engine concept,the basic principle,the main principle and the function,and aimed at the domestic quite famous search engine stand to carry on the exhaustive analysis,has carried on the analysis to chinese network search engine present situation,saw chinese search engine develops at the same time,also had to pay attention to chinese search engine in development deficiency,this article emphatically elaborated the search engine new technology which proposed in view of chinese search engine deficiency.
[Keywords]search engine;comparative analysis;baidu;youdao
因特網是目前世界上最大的信息資源網,網上資源異常豐富。由于因特網上的信息是無序的,信息量越大,越難被利用。在這種條件下,僅靠傳統(tǒng)的檢索技術是不夠的。目前解決獲取和利用因特網上信息的問題的最佳途徑就是利用搜索引擎。因特網上的信息呈幾何級數(shù)增長,快速有效地查詢信息是一項艱巨的任務,這個需求直接導致了廣域網信息檢索技術的快速發(fā)展,各類搜索引擎層出不窮。但是如同因特網上的信息一樣,搜索引擎的發(fā)展本身也是無序的,如何選擇最符合需要的搜索引擎,通過其在因特網上找到我們所需要的信息,也是一個需要研究和解決的課題?;谶@個目的,筆者對國內現(xiàn)有的主要中文網絡搜索引擎進行了比較分析,進而發(fā)現(xiàn)中文搜索引擎普遍存在的問題,并針對這些問題粗淺地提出了新形式的網絡搜索引擎應當具備的先進技術。
1 主要中文搜索引擎對比
1.1 主要中文搜索引擎概述
1.1.1 Google中文搜索引擎Google搜索(http:∥www.google.com)是很受歡迎的搜索引擎,界面簡潔,以搜索結果的準確性著稱。兩位斯坦福大學的博士生Larry Page和Sergey Brin在1998年創(chuàng)立了Google,幾年間迅速發(fā)展成為目前規(guī)模最大的搜索引擎。其數(shù)據(jù)庫內存有40多億個Web文件,屬于全文搜索引擎。它的檢索特色在于采用了網絡結構挖掘技術,對萬維網的連接結構進行分析和大規(guī)模的數(shù)據(jù)挖掘,從而提供頁面等級的信息,幫助用戶找到相關主題的權威網站,并且可以指向眾多權威站點的相關主題的站點。
1.1.2 百度搜索引擎百度公司于1999年底成立于美國硅谷。百度(http:∥www.baidu.com)是國內惟一商業(yè)化的全文搜索引擎,其功能完備,搜索精度高,除數(shù)據(jù)庫的規(guī)模及部分特殊搜索功能外,其他方面可與當前的搜索引擎業(yè)界領軍人物Google相媲美,是國內技術水平最高的搜索引擎。百度擁有自己獨特的技術——超鏈分析技術,超鏈分析是通過分析鏈接網站的多少來評價被鏈接網站的質量,這保證了用戶在百度搜索時,越受用戶歡迎的內容排名越靠前。超鏈分析技術是百度的核心技術,它解決了基于網頁質量的排序與基于相關性排序相結合的難題。
1.1.3 雅虎中文搜索引擎雅虎中文搜索(http:∥www.yahoo.com.cn)是國外大型搜索引擎登陸中國的第一個中文搜索引擎,同時也是最杰出的目錄型搜索引擎的代表。雅虎并不是單純地提供所有網站網頁的全文檢索服務,而是將其收集到的網站及網頁由人工分門別類加以索引和文摘,以一個分層的線性目錄來為用戶提供按圖索驥式的服務。雅虎比較適合于一般的查詢。雅虎不僅能在所有的分類類目中進行查詢,也能根據(jù)需要在一個類目中進行查詢,這樣就保證了較高的查準率。雅虎由人工索引的分類數(shù)據(jù)庫,保證了庫內數(shù)據(jù)質量較高,冗余信息較少的優(yōu)點。對于一個初涉因特網的用戶來講,雅虎精致的分類目錄也起到了極好的瀏覽導游作用[4]。
1.1.4 新浪搜索引擎新浪搜索(http:∥www.sina.com.cn)是目前互聯(lián)網上規(guī)模最大的中文搜索引擎之一,網站收錄資源豐富,以中文網站GB碼為主。分類目錄規(guī)范細致,層次合理,遵循中國用戶習慣。新浪自建獨立的目錄索引,共設15大類目錄,1萬多個子目錄,收錄網站達20余萬,采用百度搜索引擎技術,支持中文域名。2000年11月新浪搜索推出了新一代綜合搜索引擎,成為中國第一家可多個數(shù)據(jù)庫查詢的綜合搜索引擎。在關鍵詞的查詢反饋結果中,在同一頁面上包含目錄、網站、新聞標題、新聞全文、頻道內容、網頁、商品信息、消費場所、中文網址、滬深行情、軟件、游戲等各類信息的綜合搜索結果,最大程度地滿足用戶的檢索需要,使用戶得到最全面的信息,這項服務在國內尚屬惟一[4]。
1.1.5 有道搜索引擎網易有道搜索(http:∥www.youdao.com)最大的特色之一是采用“開放式目錄”管理方式,在功能齊全的分布式編輯和管理系統(tǒng)的支持下,現(xiàn)有5 000多位各界專業(yè)人士參與可瀏覽分類目錄的編輯工作,極大地適應了互聯(lián)網信息爆炸式增長的趨勢。新版搜索引擎在此基礎上,更增加了全新搜索技術及廣告搜索服務,這一舉措將可使用戶檢索高達16億條的信息和及時的新聞內容,同時為廣告客戶提供更有效的廣告方式。
期中文搜索引擎的對比研究Apr.,2010Vol.30 No.41.2 主要中文搜索引擎的不同之處
1.2.1 邏輯匹配方法Google支持關鍵詞搜索,以關鍵詞搜索時,返回結果中包含全部及部分關鍵詞;短語搜索時默認以精確匹配方式進行;不支持單詞多形態(tài)和斷詞查詢。表示邏輯或的OR邏輯符檢索輸入時,必須以大寫形式輸入,才能檢索出相應的結果。Google現(xiàn)在使用“詞干法”,也就是說,在合適的情況下,Google會同時搜索關鍵詞和與關鍵詞相近的字詞。詞干法對英文搜索尤其有效。Google對通配符支持有限。它目前只可以用“*”來替代單個字符,而且包含“*”必須用“”引起來。它不支持模糊匹配,即它只搜索與輸入關鍵詞完全一致的字詞。百度支持加權檢索功能,同時支持“-”號、“.”號、“|”號、“l(fā)ink:”、書名號“《》”等特殊檢索命令,并支持多種字段檢索。不支持“詞干法”和“通配符”檢索,中英文均沒有停用詞。百度默認的是關鍵詞精確搜索,輸入多個詞語搜索,可以獲得更精確的搜索結果。雅虎只能進行關鍵詞檢索,并且提供的關鍵詞搜索功能有限,不支持邏輯非功能,只能用AND、OR控制關鍵詞的關系,進行模糊串檢索和精確匹配檢索,不能進行更全面、更高級的檢索。新浪搜索引擎支持多個關鍵詞的查詢,并在關鍵詞查詢中支持邏輯操作符的使用。關鍵詞查詢只支持邏輯與、邏輯或等關系,不支持邏輯非關系。同時還可以定義其他的搜索條件。關鍵詞查詢的結果根據(jù)與查詢要求相匹配的程度排列,質量越高,排列位置越靠前。有道搜索引擎提供中文、英文、日文、俄文等幾十種語言關鍵詞檢索,采用模糊搜索方式,對用戶輸入的關鍵詞,先作語言分析,分解成多個詞或詞組,再去數(shù)據(jù)中心匹配結果,因此允許用戶輸入整句。同時現(xiàn)在也使用“詞干法”。
1.2.2 資源范圍這5種搜索引擎所收錄的資源范圍均包含所有學科內容,百度和網易所收錄的資源類型為網頁和新聞組;百度所收錄的語言范圍是GB、Big5和部分英文;網易收錄的語言范圍包括GB和部分英文,Google所收錄的資源類型包括網頁、新聞組、新聞和圖像;收錄的語言范圍是多種語言。雅虎中文搜索所收錄的資源類型與Google一致。
1.2.3 信息數(shù)據(jù)收錄量Google檢索網頁數(shù)量達2 400余萬,搜索引擎中排名第一;Google數(shù)據(jù)庫存有42.8億個Web文件。百度支持搜索1.3億中文網頁,是世界上最大的中文搜索引擎。并且百度每天都在增加幾十萬新網頁,對重要中文網頁實現(xiàn)每天更新,用戶通過百度搜索引擎可以搜到世界上最新最全的中文信息。新浪搜索共設15大類目錄,10 000多個子目,收錄網站達20余萬,是規(guī)模最大的中文搜索引擎。有道搜索的數(shù)據(jù)庫類型是非全文數(shù)據(jù)庫,由于它采用的是Google技術的數(shù)據(jù)庫,所以它的數(shù)據(jù)庫也同Google一樣包括2 400余萬網頁。雅虎中國收錄了全球資訊網上數(shù)以萬計的中文網站,包括2 400余萬網頁。不論你要找的網站是用國標碼簡體字、大五碼繁體字還是圖形中文,都可以在這里找到。雅虎、Google、百度對于網頁的抓取數(shù)量較多,這3個搜索引擎索引的互聯(lián)網網頁數(shù)多。但是對于時效性強的關鍵詞,Google反應最快,抓取的頁面數(shù)量也是最多的。
1.2.4 界面風格這五種主要的中文搜索引擎中,Google的搜索界面堪稱經典。Google的首頁很清爽,logo下面,排列了四大功能模塊:網站、圖像、新聞組和目錄服務。默認是網站搜索。但是,Google是通過用戶訪問鏈接來存儲頁面設定的,所以如果系統(tǒng)禁用用戶訪問鏈接,就無法對Google界面進行個人設定了。百度的搜索頁面最為簡潔,訪問速度也是最快的。雅虎在登陸頁下方還出現(xiàn)了圖文廣告,數(shù)據(jù)量比較大。
1.2.5 輔助手段Google具有Flash文件、網頁快照、貨幣轉換、計算器、相關搜索、類似網頁、按鏈接搜索、指定網域、手氣不錯、錯別字改正、中英文字典、天氣查詢、相關搜索、股票查詢、郵編區(qū)號、手機號碼、定義等輔助功能。百度除了已經具備的百度快照、相關搜索、拼音提示、錯別字提示、股票、列車時刻表和飛機航班查詢、專業(yè)文檔搜索、天氣查詢、計算器和度量衡轉換、高級搜索、地區(qū)搜索和個性設置、英漢互譯詞典、高級搜索語法等輔助功能,又增加了專業(yè)的MP3搜索、Flash搜索、新聞搜索、信息快遞搜索,并正在快速發(fā)展其它用戶喜歡的搜索功能。雅虎中文搜索引擎在主題查詢方式中,將信息分成12大類:藝術、商業(yè)和經濟、計算機和因特網、教育、娛樂、政府、健康、新聞、休閑和運動、參考消息、區(qū)域、科學和社會科學。新浪搜索引擎提供視頻搜索、MP3搜索、圖片搜索、知識人、本地搜索、共享資料、開放詞典、大百科、英漢詞典、專業(yè)搜索、手機搜索等輔助功能。有道搜索包括相關搜索、按鏈接搜索、指定網域、錯別字改正、專業(yè)文檔搜索、新聞搜索、網頁快照、英漢互譯詞典等輔助功能,雖然輔助功能也很完備,但與Google無法相比。Google和百度搜索引擎的輔助功能相當全面,并且在不斷地開發(fā)新的功能,在這個方面,是其他中文搜索引擎無法比擬的。
1.2.6 友好方便程度Google智能化的“手氣不錯”功能,提供可能最符合要求的網站;Google的“網頁快照”功能,能從Google服務器里直接取出緩存的網頁;Google具有獨到的圖片搜索功能;Google具有強大的新聞組搜索功能;Google具有二進制文件搜索功能等特殊的功能,這些功能都在很大程度上方便了用戶的檢索。百度深刻理解中文用戶搜索習慣,為中文用戶度身定做,開發(fā)出關鍵詞自動提示;用戶輸入拼音,就能獲得中文關鍵詞正確提示;百度還開發(fā)出中文搜索自動糾錯;如果用戶誤輸入錯別字,可以自動給出正確關鍵詞提示;百度快照是另一個廣受用戶歡迎的特色功能,解決了用戶上網訪問經常遇到死鏈接的問題[5]。雅虎中文搜索不僅為用戶提供了強大的搜索功能,通過其14類簡單易用、手工分類的簡體中文網站目錄及強大的搜索引擎,用戶可以輕松搜索到各方面的信息,還可以自動根據(jù)用戶搜索信息的不同,在結果頁面的右邊給出相關搜索信息,為獲取最新的信息提供了方便。新浪搜索引擎對網頁檢索的結果進行了技術上的處理,新浪搜索同時采用了站點類聚和內容類聚兩種類聚技術方案,這樣處理得到的檢索結果更方便用戶選擇自己所需要的信息。有道搜索引擎最大的特色之一是采用“開放式目錄”管理方式,提供網站檢索、網頁檢索、行業(yè)網站檢索及圖片檢索等查詢項目,在此基礎上更增加了全新搜索技術及廣告搜索服務,這一舉措將可使用戶檢索高達16億條的信息和及時的新聞內容,同時為廣告客戶提供更有效的廣告方式。目前新的搜索技術已被應用到相關產品, 包括目錄和網站檢索,新聞和頻道檢索,同學錄以及商城,為用戶創(chuàng)造了十分便利的檢索條件。
1.2.7 數(shù)據(jù)更新程度Google中文搜索引擎一般半月至1月更新1次,而且僅搜索到三級鏈接,三級以下便不在搜索,Google是采用不同服務器逐步更新的。Google一般每隔28天派出“蜘蛛”程序檢索一定IP地址范圍內的新網站,而對現(xiàn)有網站的更新則根據(jù)該網站的等級不同有快慢之分。一般來說,網站網頁等級越高,更新的頻率就越快。百度的更新較快,半月1次,最快1周。百度每天響應來自138個國家超過數(shù)億次的搜索請求。用戶可以通過百度主頁,在瞬間找到相關的搜索結果,這些結果來自于百度超過10億的中文網頁數(shù)據(jù)庫,并且,這些網頁的數(shù)量每天正以千萬級的速度在增長。雅虎的數(shù)據(jù)更新速度較慢,因為它的數(shù)據(jù)庫分類和索引都是由人工完成的,所以采集信息的速度遠遠比不上網絡資源的增長速度。新浪搜索引擎與Google搜索引擎合作,借助Google搜索引擎的技術保證了它的數(shù)據(jù)快速更新。有道頁面日均訪問量接近3 000萬次,查詢速度快,鏈接成功率高。
2 中文搜索引擎的不足之處
2.1 庫容量作為搜索引擎,必須要有相當多的庫容量才具有一定的代表性和實用性??梢哉f搜索引擎可搜索的庫容量大小是搜索引擎的質量標志的第一要素。從我們考察的中文搜索引擎來看,庫容量在50萬條記錄以上即可在本表上列為“大量”級[8]。但如果將之與AltaVista的巨大庫容量相比,則差之甚遠。所以說即使是目前較成功的中文搜索引擎,在這一點上也許還遠未稱得上成功。當然也許是因為網上中文信息還不多,因此中文搜索引擎的庫容量還不可能很大,但是從兩岸三地因特網的發(fā)展情況來看,不上百萬網頁數(shù)據(jù)庫容量的中文搜索引擎很難說具有一定的代表性。
2.2 響應速率從搜索引擎的實用性來看,必須保證對用戶檢索表達式一定的響應速度,在這個基礎上才談得上庫容量、使用的方便性等其他因素的影響[6]。目前中文搜索引擎的庫容量都不是很大,本身對機器硬件的要求還不是相當高,產生響應時延的一個很重要的因素是我們的信息基礎設施建設做的還很不夠。就國外而言,舉例說AltaVista在如此大的庫容量情況下,仍能保持這么快的響應速率,令人贊嘆。同時這也說明國內中文搜索引擎在硬件及技術方面的路還很長很長。
2.3 核心技術搜索引擎是一個技術含量很高的電腦網絡應用系統(tǒng)。它包括網絡技術、數(shù)據(jù)庫技術、檢索技術、智能技術等等[6]。在這一方面,由于國外的很多先進技術是建立在西文內核的基礎上,所以我們還不能單純引進照搬照抄。作為中文搜索引擎來講,如何來發(fā)揮我們在中文處理上的長處,發(fā)展出有我們自己版權的核心技術,使我們在中文搜索引擎的競爭中占有有利地位。
2.4 多樣化服務靠提供多樣化服務來吸引更多的用戶,以此來獲取更多的廣告收益,這是國外著名搜索引擎的生存之道。而在這一方面,中文搜索引擎也做得遠遠不夠,另外一方面,有些搜索引擎本身庫容量及服務不怎么樣,主頁上的廣告倒是一大堆,長此以往,也是不利于自身生存和發(fā)展的。
3 結 論本文對搜索引擎的比較研究,只提供了各個搜索引擎的概貌。隨著互聯(lián)網上內容的爆炸式增長和內容形式花樣的不斷翻新,搜索引擎面對挑剔的網民的各種搜索需求,有時會顯得無奈。但是仍要看到搜索引擎發(fā)展的大好前景,中文網絡搜索引擎正在以迅猛的速度發(fā)展著,我們有理由相信:網絡搜索引擎的明天會更美好!
參考文獻
[1]馮進.淺談網絡搜索引擎[J].現(xiàn)代情報,2002,(11):65-68.
[2]郭萬召.網絡搜索引擎的分析與比較研究[J].情報科學,2000,(1):80-84.
[3]徐亞先.搜索引擎功能概述[J].情報科學,2001,(3):46-47.
[4]施建明.網絡搜索引擎的比較與分析[J].福建圖書館理論與實踐,2003,(2):11-13.
[5]黃文忠.網絡搜索引擎百度評析[J].現(xiàn)代情報,2005,25(5):135-136.
[6]上海圖書館《中文搜索引擎的現(xiàn)狀與應用》課題組.中文搜索引擎比較研究[EB].http:∥www.nmzol.com /wlxy/win/200501/36752.html,2010-01-02.