蘇 云 曹正民
Google是斯坦福大學(xué)博士生Larry Page和Sergey Brin共同創(chuàng)立的。它支持132種語言,資料庫內(nèi)包含24億個網(wǎng)頁、7億個新聞檔案和3.3億個圖形文件,如果用人工檢索,每分鐘1頁,24小時不間斷工作,需要5707年才能完成一遍搜索,而用Google檢索不超過1秒種。Google現(xiàn)有15000多臺服務(wù)器,200多條T3級寬帶同時服務(wù),這使得它在搜索網(wǎng)站界的地位進(jìn)一步得以鞏固。
Google的基本搜索語法
Boolean邏輯檢索語法
Boolean是指喬治·布爾提出的代數(shù)運算法則,常見的三種運算符是“與”、“或”和“非”,即AND、OR和NOT。在Google分別用“ ”(空格)、“-”和“|”表示,其中AND運算符表示對所有的關(guān)鍵字同時進(jìn)行搜索,OR運算符表示從幾個關(guān)鍵字中指定任意一個,NOT運算符表示在搜索結(jié)果中不包括某個關(guān)鍵字。如果有兩個或多個關(guān)鍵字,可以用括號連接,用運算符檢索時,至少要求包含兩個以上的關(guān)鍵字,最好用括號構(gòu)成邏輯運算式進(jìn)行檢索。
強制搜索檢索語法
在網(wǎng)頁中經(jīng)常包含有許多出現(xiàn)頻率極高,但無實際意義的高頻詞,例如英文單詞“a”、“the”和“i”等,中文的“的”和“啊”等,這些詞匯被Google保存在一個無用詞匯表中,但在檢索中它們是不可缺少的。例如,要搜索一些關(guān)于www起源的歷史資料,Google會把“www”和“的”都省略了,只搜索出關(guān)于“歷史”方面的資料,顯然不符合要求。因為Google把這個短語分成了“www”、“的”和“歷史”3個詞匯,而“www”和“的”被認(rèn)為是無實際意義的詞而忽略。如果要對忽略的關(guān)鍵字進(jìn)行強制搜索,需要在該關(guān)鍵字前加上“+”號,或者將上述的短語用英文雙引號括起來,Google就會進(jìn)行強制搜索。特別注意用“短語”和“句子”檢索是一種提高檢準(zhǔn)率非常有效的方法,但必須用英文引號將其括起來,最好配合“+”號同時使用。
通配符和外文字符大小寫檢索問題
Google支持通配符號,例如用“*”代表一連串字符,用“?”代表單個字符等,但對通配符支持有限,而且包含“*”必須用英文引號括起來。例如檢索“以*治國”,搜索結(jié)果可以是“以法治國”、“以德治國”等。
Google對外文字符大小寫不敏感,搜索Three、three和THREE會得到相同的檢索結(jié)果。
Google的特殊檢索語法
通常用基本搜索語法可以解決絕大部分檢索問題,但要更準(zhǔn)確的檢索就需要了解特殊搜索語法,主要有限定標(biāo)題的intitle、allintitle,限定查找網(wǎng)址鏈接的inurl、allinurl和link,限定查找特定網(wǎng)站的site等語法,這些語法可以直接在Google的查找框內(nèi)輸入,相當(dāng)于命令行語法。
搜索的關(guān)鍵字包含在URL鏈接中
inurl語法返回的網(wǎng)頁鏈接中包含檢索的第一個關(guān)鍵字,后面的關(guān)鍵字則出現(xiàn)在鏈接中或者網(wǎng)頁文檔中,因為很多網(wǎng)站把某一類具有相同屬性的資源名稱顯示在目錄名稱或者網(wǎng)頁名稱中,例如“MP3”、“GALLARY”和“Help”之類的目錄中,可以用inurl語法找到這些相關(guān)資源的鏈接,用第二個關(guān)鍵詞確定是否有某項具體資料。例如,查找MIDI曲《二泉映月》,檢索語法是inurl:midi "二泉映月"。注意在“inurl:”后面不能有空格,也不允許URL中含有“/”等符號。
allinurl語法返回的網(wǎng)頁鏈接中包含所有作用關(guān)鍵字,這個查詢的關(guān)鍵字只集中于網(wǎng)頁的鏈接字符串。例如查找可能具有PHF安全漏洞的公司網(wǎng)站,通常這些網(wǎng)站的CGI-BIN目錄中含有PHF腳本程序,表現(xiàn)在鏈接中就是“域名/cgi-bin/phf”,搜索語法為:allinurl:"cgi-bin" phf +com。
搜索的關(guān)鍵字包含在網(wǎng)頁標(biāo)題和網(wǎng)頁中
intitle和allintitle的用法類似于inurl和allinurl,其中intitle限制搜索的網(wǎng)頁標(biāo)題,allintitle搜索所有關(guān)鍵字構(gòu)成標(biāo)題的網(wǎng)頁。例如查找著名作家巴金的照片集,檢索語法為:intitle: 巴金 "照片集"。
intext只搜索網(wǎng)頁
和/之間包含的關(guān)鍵詞的部分,它忽略了標(biāo)題、URL中含有的關(guān)鍵詞,例如intext:"yahoo.com";allintext檢索包含在中的所有關(guān)鍵詞。對搜索網(wǎng)站進(jìn)行限制
site語法可以限制搜索范圍的域名,將搜索結(jié)果局限于某個具體網(wǎng)站或者網(wǎng)站頻道內(nèi),例如限定在新浪網(wǎng)站的教育頻道“edu.sina.com.cn”,或者是某個域名內(nèi),例如“com.cn”、“org”等,如果是要排除某網(wǎng)站或者域名范圍內(nèi)的頁面,只需用“-網(wǎng)站/域名”。例如,搜索中文教育科研網(wǎng)站(edu.cn)上關(guān)于中學(xué)數(shù)學(xué)課件的頁面,檢索語法為:中學(xué)數(shù)學(xué) 課件 site:edu.cn。此外,網(wǎng)站域名不能有“http://”的前綴,也不能含有任何“/”的目錄后綴,網(wǎng)站頻道則只局限于“頻道名.域名”方式,而不能是“域名/頻道名”方式。
搜索所有鏈接到某個URL的網(wǎng)頁
如果想知道有多少網(wǎng)站對一個學(xué)校主頁或教師個人主頁作了鏈接,link語法就能迅速達(dá)到這個目的。例如,搜索所有含指向清華大學(xué)鏈接的網(wǎng)頁,檢索語法為:link:www.tsinghua.edu.cn,即link語法得到的是一個所有包含了某個指定網(wǎng)址的頁面列表,但是link語法不能與其他語法混合使用。link語法還有一個妙用,一般做友情鏈接的網(wǎng)站都有許多相似的方面,這樣就可以通過這些友情鏈接,檢索出一批具有相似內(nèi)容的網(wǎng)站。例如,一個中國詩詞愛好者發(fā)現(xiàn)某網(wǎng)站非常不錯,就可以用link語法查一下與之做鏈接的網(wǎng)站,也許可以找到更多符合詩詞方面有趣的內(nèi)容。
Google高級搜索語法
在某一類文件中查找信息
Google不僅能搜索文字網(wǎng)頁,還能對某些二進(jìn)制文檔進(jìn)行檢索,filetype就是一個非常強大實用的搜索語法,它已經(jīng)能檢索微軟的Office文檔(如xls、ppt、doc和rtf)、WordPerfect文檔、Lotus1-2-3文檔、Adobe的PDF文檔和ShockWave的SWF文檔(Flash動畫)等。filetype也可以搜索各種不同的頁面腳本語言,例如ASP、PHP和CGI等,filetype是搜索文件的后綴或者擴(kuò)展名。其中最實用的文檔搜索是PDF搜索,PDF是Adobe公司開發(fā)的電子文檔格式,是一種圖文并茂的綜合性文檔,現(xiàn)已經(jīng)成為互聯(lián)網(wǎng)電子出版的標(biāo)準(zhǔn)。目前Google檢索的PDF文檔大約有3000萬左右,大約占所有索引的二進(jìn)制文檔數(shù)量的80%。
顯示與某鏈接相關(guān)的一系列搜索
info語法提供一個和普通網(wǎng)址更多信息的頁面列表,包括網(wǎng)址緩存的鏈接、網(wǎng)址的鏈接、網(wǎng)址相關(guān)的鏈接和包含網(wǎng)址的頁面,即提供了cache、link、related和完全包含該鏈接的網(wǎng)頁的功能。例如,查找101遠(yuǎn)程教育網(wǎng)首頁相關(guān)的一些信息,檢索語法為:info:www.chinaedu.com,這里搜索的結(jié)果取決于Google是否對該URL進(jìn)行了索引,如果沒有,搜索結(jié)果會很少。
對網(wǎng)頁更新日期作出限定
daterange語法限制搜索特定時間段里的檢索內(nèi)容,這里特定時間是加入Google檢索的時間,而不是頁面創(chuàng)建的時間,它評價搜索引擎的好壞和更新頻率的指標(biāo),它支持的日期格式為凱撒日格式(julian),Google提供通用日期數(shù)值切換成凱撒日格式的自動轉(zhuǎn)換功能。檢索語法為:"George Bush" daterange:2452389-2452389。
搜索的關(guān)鍵字包含在網(wǎng)頁的“錨”鏈點內(nèi)