摘 要:在網(wǎng)絡(luò)時(shí)代,信息檢索主要通過Internet搜索引擎進(jìn)行。Internet提供了多種不同的檢索工具,對用戶最重要的就是熟悉這些工具的性能,掌握檢索技巧,提高檢索的命中率。在此從搜索引擎的工作原理開始,介紹了Google搜索引擎的使用方法,包括關(guān)鍵詞的選擇和幾個(gè)檢索的技巧,如邏輯檢索、通配符檢索等,能更快、更準(zhǔn)確地獲得所需要的信息。
關(guān)鍵詞:網(wǎng)絡(luò);Google;搜索引擎;信息檢索
中圖分類號:TP392文獻(xiàn)標(biāo)識(shí)碼:B
文章編號:1004-373X(2010)02-093-03
Theory and Application of Google Search Engine
LI Yan
(Xi′an Fanyi University,Xi′an,710105,China)
Abstract:In the Internet age,information retrieval,mainly searching for the information through Internet search engine.Internet provides a wide variety of search tools for users,the most important thing is familiar with the performance of these tools to master search skills,to increase the percentage of hits retrieved.The working principle of the search engine and the way of using Google search engine,including the choice of words and several search techniques,such as the logic of search,wildcard search and so on are introduced,the required information can be gained quickly and accuratly.
Keywords:network;Google;search engine;information retrieval
0 引 言
隨著信息技術(shù)的迅速發(fā)展,Internet已深入到人們生活的各個(gè)方面,改變著人們的生活方式和思維方式,方便了全球信息資源共享。網(wǎng)上信息正以爆炸性的速度增長,其資源內(nèi)容幾乎涉及所有領(lǐng)域,已經(jīng)成為知識(shí)、信息的集合體。全球目前的網(wǎng)頁超過100億個(gè),每天還在新增加數(shù)百萬個(gè)的網(wǎng)頁,電子信息爆炸似的豐富起來。
在Internet網(wǎng)上進(jìn)行瀏覽和檢索,就好比進(jìn)入了世界上最大的圖書館,而這個(gè)圖書館里的書刊、雜志、廣告、新聞及各種形式的文獻(xiàn)信息全都沒有規(guī)律地排放著,沒有一個(gè)中心目錄將這些信息組織起來。要在如此浩瀚的海洋里尋找信息,就像“大海撈針”一樣。正是因?yàn)镮nternet資源既豐富又分散且處于無序狀態(tài),使得人們在網(wǎng)上查找自己所需的信息并非易事。這時(shí)為滿足人們對信息檢索的需求,搜索引擎便應(yīng)運(yùn)而生。目前2.1億網(wǎng)民中使用搜索引擎的比例是72.4%,即已有1.52億人從搜索引擎獲益,半年凈增加3 086萬人[1]。
1 搜索引擎的工作原理
搜索引擎(Search Engines)就是指在WWW(World Wide Web)環(huán)境中能夠響應(yīng)用戶提交的搜索請求,返回相應(yīng)的查詢結(jié)果信息的技術(shù)和系統(tǒng),是互聯(lián)網(wǎng)上可以查詢網(wǎng)站或網(wǎng)頁信息的工具[2]。它包括信息搜集、信息整理和用戶查詢?nèi)糠帧?/p>
常見的搜索引擎有Google、百度、Yahoo、搜狐等。搜索引擎的工作原理可以簡單概括為:從互聯(lián)網(wǎng)上抓取網(wǎng)頁→建立索引數(shù)據(jù)庫→在索引數(shù)據(jù)庫中搜索排序[3]。
1.1 從互聯(lián)網(wǎng)上抓取網(wǎng)頁
利用能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁的Spider系統(tǒng)程序,自動(dòng)訪問互聯(lián)網(wǎng),并沿著任何網(wǎng)頁中的所有URL(統(tǒng)一資源定位符)爬到其他網(wǎng)頁,重復(fù)這個(gè)過程,并收集爬過的所有網(wǎng)頁。
1.2 建立索引數(shù)據(jù)庫
由分析索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進(jìn)行分析,提取相關(guān)網(wǎng)頁信息(包括網(wǎng)頁所在URL、編碼類型、頁面內(nèi)容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其他網(wǎng)頁的鏈接關(guān)系等),根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算,得到每一個(gè)網(wǎng)頁針對頁面內(nèi)容中及超鏈接中每一個(gè)關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。
1.3 在索引數(shù)據(jù)庫中搜索排序
當(dāng)用戶輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁。因?yàn)樗邢嚓P(guān)網(wǎng)頁針對該關(guān)鍵詞的相關(guān)度早已算好,所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序,相關(guān)度越高,排名越靠前。最后由頁面生成系統(tǒng)組織搜索結(jié)果的鏈接地址和頁面內(nèi)容摘要等內(nèi)容返回給用戶。
2 Google搜索引擎
1990年以前,沒有人能實(shí)現(xiàn)搜索互聯(lián)網(wǎng)的功能。1994年4月超級目錄索引Yahoo成功地使搜索引擎的概念深入人心,從此搜索引擎進(jìn)入高速發(fā)展時(shí)期。1998年9月,斯坦福大學(xué)的兩位博士生 Larry Page 和 Sergey Brin開發(fā)出了現(xiàn)在世界上最大的搜索引擎——Google,1999年Google Inc.創(chuàng)立。通過對 20 多億網(wǎng)頁進(jìn)行整理,Google 可為世界各地的用戶提供適需的搜索結(jié)果,而且搜索時(shí)間通常不到0.5 s?,F(xiàn)在,Google 每天需要為世界各國用戶提供1.5億次查詢服務(wù)[4]。
Google的成功得益于其強(qiáng)大的功能和獨(dú)到的特點(diǎn),目前,各大引擎競相模仿Google的功能和特色,如網(wǎng)頁快照,偏好設(shè)置等。Google成為眾多搜索引擎的“領(lǐng)頭羊”[5]。Google非中國本土公司,但它支持中文搜索,其中文搜索引擎是收集亞洲網(wǎng)站最多的搜索引擎之一,國內(nèi)使用其獨(dú)立搜索引擎的人數(shù)正迅猛增長。
2.1 關(guān)鍵詞的選擇
Google檢索所使用的關(guān)鍵詞可以是字、單詞,也可以是短語、詞組或句子。使用Google進(jìn)行檢索非常簡單,只要在搜索框內(nèi)輸入一個(gè)關(guān)鍵字,然后點(diǎn)擊下面的“Google搜索”按鈕(或者直接回車),結(jié)果就出來了。單個(gè)關(guān)鍵字搜索得到的信息量巨大,會(huì)帶出海量的不相關(guān)信息,通常檢索多是使用詞語作為關(guān)鍵詞。
復(fù)雜課題檢索,主題分析后就要進(jìn)行正確選詞。使用Google不同關(guān)鍵詞的選擇,將決定檢索結(jié)果排列不同,而且選詞不準(zhǔn),無法發(fā)揮Google強(qiáng)大的檢索功能,影響檢索效率[6]。
如果要檢索學(xué)術(shù)性信息,尤其是科技信息,建議在選擇關(guān)鍵詞時(shí)注意以下幾點(diǎn):
2.1.1 選擇專指性強(qiáng)的詞
關(guān)鍵詞專指性強(qiáng)弱是影響查準(zhǔn)率的重要因素之一,選用專指性強(qiáng)的關(guān)鍵詞,則檢出的網(wǎng)站針對性較強(qiáng),查準(zhǔn)率較高。選擇反映重要研究成果的詞,例如,查找“網(wǎng)絡(luò)檢索工具的歷史”有關(guān)的信息,選詞時(shí)選用“搜索引擎”一詞,比選用“檢索工具”一詞,查準(zhǔn)率會(huì)更高。
2.1.2 多角度選詞
關(guān)鍵詞的確定必須經(jīng)過對檢索主題正確分析。復(fù)雜主題的關(guān)鍵詞,要將反映該主題的各個(gè)主要方面的詞匯都提煉出來,以提高文獻(xiàn)的查全率[7]。例如,查找“搜索引擎發(fā)展的歷史”,因?yàn)樗阉饕娴臍v史,是與互聯(lián)網(wǎng)早期的文件檢索工具“Archie”相關(guān)的。此外,搜索引擎有個(gè)核心程序,叫“蜘蛛”,而最早成型的搜索引擎是“Lycos”,“Yahoo”是優(yōu)秀搜索引擎的代表。因此,除了選擇“搜索引擎”、“歷史”外,還要選擇“Archie”、“蜘蛛”、“Lycos”、“Yahoo”等詞。這些詞都是起關(guān)鍵作用的檢索詞。
2.1.3 選擇限制主題的詞
在關(guān)鍵詞確定之后,運(yùn)用檢索技術(shù)并不能保證檢索出來的信息都滿意,有時(shí)查詢的結(jié)果太多太泛。由于Google只搜索包含關(guān)鍵詞的網(wǎng)頁,除了增加表達(dá)主題的關(guān)鍵詞,還可增加限制性的詞語作為關(guān)鍵詞,以排除多余的信息。例如:輸入“紅旗_汽車”,將會(huì)找到關(guān)于紅旗但不含“汽車”的網(wǎng)頁[8]。
2.2 檢索技巧
為了完整準(zhǔn)確地表達(dá)檢索需求,提高檢索的精確度,正確選擇關(guān)鍵詞后,還需要了解和運(yùn)用Google各種檢索語法與技巧。
2.2.1 邏輯檢索
Google用空格表示邏輯“與”操作,用減號“-”表示邏輯“非”操作?!癆_B”表示搜索包含A但不包含B的網(wǎng)頁(如上述“紅旗_汽車”例)。Google用大寫的“OR”表示邏輯“或”操作。搜索“A OR B”,意思就是說,搜索的網(wǎng)頁中,要么有A,要么有B,要么同時(shí)有A和B。
2.2.2 通配符檢索
很多搜索引擎支持通配符,如“*”代表一連串字符,“?”代表單個(gè)字符等。為提供最準(zhǔn)確的資料,Google不使用“詞干法”,也不支持“通配符”(*)搜索[9]。也就是說,Google只搜索與輸入的關(guān)鍵詞完全一樣的字詞。例如:搜索“googl”或“googl*”,不會(huì)得到類似“googler”或“googlin”的結(jié)果。
2.2.3 短語或者句子檢索
Google的關(guān)鍵詞可以是單詞,也可以是短語。用短語作關(guān)鍵字,必須加用英文雙引號,否則空格會(huì)被當(dāng)作“與”操作符。雙引號中的詞語(比如“自然與文化遺產(chǎn)”)在查詢到的文檔中將作為一個(gè)整體出現(xiàn)。這一方法在查找名言警句或?qū)S忻~時(shí)顯得格外有用。
2.2.4 搜索引擎忽略的字符以及強(qiáng)制搜索
Google對無實(shí)義的詞或一些網(wǎng)路上出現(xiàn)頻率極高的英文單詞,如“i”、“com”、“www”、“的”等,以及一些符號如“*”,“.”等,做忽略處理。如果要對忽略的關(guān)鍵字進(jìn)行強(qiáng)制搜索,則需要在該關(guān)鍵字前加上明文的“+”號。另一個(gè)強(qiáng)制搜索的方法是把上述的關(guān)鍵字用英文雙引號引起來。例如,檢索“internet上www的歷史”,檢索式為:+www+的歷史internet。又如,“www的歷史”中,“的”其實(shí)是忽略詞,但因?yàn)楸挥糜⑽碾p引號引起來,搜索引擎就強(qiáng)制搜索這一特定短語。注意:大部分常用英文符號(如問號、句號、逗號等)無法成為搜索關(guān)鍵字,強(qiáng)制也不行。
2.2.5 使用元詞檢索
大多數(shù)搜索引擎都支持“元詞”功能,用戶把元詞放在關(guān)鍵詞的前面,就可以告訴搜索引擎你想要檢索的內(nèi)容具有哪些明確的特征[10]。例如,你在搜索引擎中輸入“title:清華大學(xué)”,就可以查到網(wǎng)頁標(biāo)題中帶有清華大學(xué)的網(wǎng)頁。其他元詞還包括:image,用于檢索圖片;link,用于檢索鏈接到某個(gè)選定網(wǎng)站的頁面;URL,用于檢索地址中帶有某個(gè)關(guān)鍵詞的網(wǎng)頁。
要完成一個(gè)有效的搜索,首先要確定要檢索的主題,選擇合適的檢索工具、抽取適當(dāng)?shù)年P(guān)鍵詞。為避免可能出現(xiàn)搜索結(jié)果的冗余性,要盡可能限制查詢范圍,正確構(gòu)造檢索式。同時(shí)要使用邏輯條件限制及模糊或精確查詢的功能保證能真正檢索到所需的網(wǎng)絡(luò)信息資源。
3 結(jié) 語
Internet提供了多種不同的檢索工具,它們各自有各自的數(shù)據(jù)庫、語言、檢索功能和顯示方式,對于用戶最重要的就是熟悉這些工具的性能,掌握檢索技巧,提高檢索的命中率[11]??傊灰莆找欢ǖ姆椒ㄅc技巧并經(jīng)常實(shí)踐,利用搜索引擎一定能從網(wǎng)上獲取許多有價(jià)值的信息。
綜上所述,搜索引擎在不斷擴(kuò)大履蓋面的同時(shí),正在向個(gè)性化、智能化、專業(yè)化、多媒體、多語言搜索和實(shí)用性的模糊檢索方面發(fā)展,并取得了較大的進(jìn)展,但還需要進(jìn)一步改進(jìn)和完善。不斷采用新技術(shù)和策略,讓搜索更方便、更快速、更準(zhǔn)確是搜索引擎的努力方向。
參考文獻(xiàn)
[1]梁斌.走進(jìn)搜索引擎[M].北京:電子工業(yè)出版社,2007.
[2]吳澤欣.搜索引擎優(yōu)化入門與進(jìn)階[M].北京:人民郵電出版社,2008.
[3]盧亮.搜索引擎原理、實(shí)踐與應(yīng)用[M].北京:電子工業(yè)出版社,2007.
[4]Simons Lo.全球最強(qiáng)搜索引擎谷歌Google [M].上海:上海財(cái)經(jīng)大學(xué)出版社,2007.
[5]顧全.中文搜索引擎對比研究[D].蘇州:蘇州大學(xué),2006.
[6]陳鋼.搜索引擎優(yōu)化寶典[M].北京:清華大學(xué)出版社,2009.
[7]林中.Google搜索引擎的關(guān)鍵詞檢索[J].中國信息導(dǎo)報(bào),2003(3):110-112.
[8]周元興.Google入門與實(shí)例教程[M].北京:電子工業(yè)出版社,2007.
[9]張園園.基于用戶興趣的個(gè)性化搜索引擎的分析與研究[D].秦皇島:燕山大學(xué),2006.
[10]王濤.基于行業(yè)的個(gè)性化搜索引擎的應(yīng)用[D].北京:北方工業(yè)大學(xué),2008.
[11]萬勝林,王祖榮.搜索引擎的類型及其功能分析[J].中國信息導(dǎo)報(bào),2003(5):123-124.
作者簡介 李 彥 女,1980年出生, 陜西西安人,助教。主要從事計(jì)算機(jī)教學(xué)與研究工作。