不論是360推出“雷電手機(jī)搜索”對(duì)抗百度騰訊,還是之前在微博上熱傳的“必應(yīng)(Bing) PK谷歌(Google)”的比賽,搜索毫無(wú)疑問(wèn)再一次成為了各大互聯(lián)網(wǎng)公司的必爭(zhēng)之地。搜索一直伴隨著網(wǎng)民們的生活,隨著搜索技術(shù)的發(fā)展,不論是搜索的方式、速度還是準(zhǔn)確性都變得越來(lái)越好。從最初的關(guān)鍵詞搜索,到圖片搜索、社交圖譜搜索,直到最新的實(shí)體搜索,一場(chǎng)關(guān)于未來(lái)搜索的巨變正在發(fā)酵。
1 何為搜索
搜索引擎(Search Engines)是一個(gè)對(duì)互聯(lián)網(wǎng)上的信息資源進(jìn)行搜集整理然后供你查詢的系統(tǒng),它包括信息搜集、信息整理和用戶查詢?nèi)糠帧K褂锰囟ǔ绦虬岩蛱鼐W(wǎng)上的所有信息歸類,以幫助人們?cè)诿C>W(wǎng)海中搜尋到所需要的信息。目前常用的網(wǎng)絡(luò)搜索引擎有百度、Google、必應(yīng)、搜狐、雅虎、有道、中搜、搜搜等。
2 搜索原理
搜索引擎的工作原理大致可以分為三部分。
搜集信息
搜索引擎的信息搜集基本都是自動(dòng)的。搜索引擎利用稱為網(wǎng)絡(luò)蜘蛛(Spider)的自動(dòng)搜索機(jī)器人程序來(lái)連上每一個(gè)網(wǎng)頁(yè)上的超鏈接。機(jī)器人程序根據(jù)網(wǎng)頁(yè)鏈到其中的超鏈接,就像日常生活中所說(shuō)的“一傳十,十傳百……”一樣,從少數(shù)幾個(gè)網(wǎng)頁(yè)開(kāi)始,連到數(shù)據(jù)庫(kù)上所有到其他網(wǎng)頁(yè)的鏈接。理論上,若網(wǎng)頁(yè)上有適當(dāng)?shù)某溄?,機(jī)器人便可以遍歷絕大部分網(wǎng)頁(yè)。
整理信息
搜索引擎整理信息的過(guò)程稱為“創(chuàng)建索引”。搜索引擎不僅要保存搜集起來(lái)的信息,還要將它們按照一定的規(guī)則進(jìn)行編排。這樣,搜索引擎根本不用重新翻查它所有保存的信息,就能迅速找到所要的資料。想象一下,如果信息是不按任何規(guī)則隨意堆放在搜索引擎的數(shù)據(jù)庫(kù)中,那么它每次找資料都得把整個(gè)資料庫(kù)完全翻查一遍,如此一來(lái)再快的計(jì)算機(jī)系統(tǒng)也沒(méi)有用。
接受查詢
用戶向搜索引擎發(fā)出查詢,搜索引擎接受查詢并向用戶返回資料。搜索引擎每時(shí)每刻都要接到來(lái)自大量用戶的幾乎是同時(shí)發(fā)出的查詢,它按照每個(gè)用戶的要求檢查自己的索引,在極短時(shí)間內(nèi)找到用戶需要的資料,并返回給用戶。目前,搜索引擎返回主要是以網(wǎng)頁(yè)鏈接的形式提供的,這樣通過(guò)這些鏈接,用戶便能到達(dá)含有自己所需資料的網(wǎng)頁(yè)。通常搜索引擎會(huì)在這些鏈接下提供一小段來(lái)自這些網(wǎng)頁(yè)的摘要信息,以幫助用戶判斷此網(wǎng)頁(yè)是否含有自己需要的內(nèi)容(如圖1)。
對(duì)并不算漫長(zhǎng)的搜索技術(shù)的發(fā)展來(lái)說(shuō),搜索歷史的三次突破就是三張圖譜:網(wǎng)頁(yè)圖譜、社交圖譜和實(shí)體圖譜。
3 網(wǎng)頁(yè)圖譜
上世紀(jì)90年代,信息檢索只有兩個(gè)衡量的指標(biāo):查準(zhǔn)率和查全率,最早的搜索引擎AltaVista只解決了查全率,就成了當(dāng)時(shí)最富盛名的搜索工具。谷歌的兩位創(chuàng)始人拉里·佩奇(Larry Page)和謝爾蓋·布林(Sergey Brin)使用PageRank的全新算法,解決了查準(zhǔn)率的問(wèn)題,令當(dāng)時(shí)所有搜索入局者難以望其項(xiàng)背。
網(wǎng)頁(yè)搜索的發(fā)展時(shí)間相對(duì)較長(zhǎng),它也擁有很多特色功能來(lái)便利大家的查找,比如說(shuō)網(wǎng)頁(yè)快照、相關(guān)搜索、拼音提示、錯(cuò)別字提示以及一些高級(jí)搜索語(yǔ)法。
比如當(dāng)你遇到網(wǎng)站服務(wù)器暫時(shí)故障或網(wǎng)絡(luò)傳輸堵塞時(shí),可以通過(guò)“快照”快速瀏覽頁(yè)面文本內(nèi)容(如圖2)。而如果搜索結(jié)果不佳,有時(shí)候則是因?yàn)檫x擇的查詢?cè)~不是很妥當(dāng),你可以通過(guò)參考別人是如何搜索的,來(lái)獲得一些啟發(fā),百度的“相關(guān)搜索”就是和你的搜索很相似的一系列查詢?cè)~(如圖3)。
然而信息爆炸讓改變悄然發(fā)生,互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)越來(lái)越多,沒(méi)有被納入搜索引擎的“暗網(wǎng)”以萬(wàn)億計(jì),人們也往往沒(méi)有時(shí)間和耐心點(diǎn)擊第五頁(yè)以后的搜索結(jié)果。在過(guò)去的十幾年里,搜索引擎的研究和創(chuàng)新一直圍繞排序進(jìn)行,業(yè)內(nèi)參與者競(jìng)爭(zhēng)的焦點(diǎn)是誰(shuí)的排序相關(guān)性更好!不過(guò)基于傳統(tǒng)網(wǎng)頁(yè)搜索的卡位戰(zhàn)已經(jīng)基本結(jié)束,谷歌、百度脫穎而出。
4 社交圖譜
Facebook去年高調(diào)推出“社交圖譜搜索(Graph Search)”,你可以通過(guò)它搜索好友圈中誰(shuí)看過(guò)災(zāi)難電影。Facebook搜索依靠的是10億用戶、2400億張照片和1萬(wàn)億次頁(yè)面訪問(wèn)量帶來(lái)的數(shù)據(jù)金礦。社交圖譜是一種表明“我認(rèn)識(shí)你”的網(wǎng)絡(luò)圖譜,它反映了用戶通過(guò)各種途徑認(rèn)識(shí)的人:家庭成員、工作同事、開(kāi)會(huì)結(jié)識(shí)的朋友、高中同學(xué)、俱樂(lè)部成員、朋友的朋友等等。社交圖譜主要由一些主流的社交網(wǎng)絡(luò)產(chǎn)生,用戶們互相向自己認(rèn)識(shí)的人們發(fā)送邀請(qǐng)來(lái)構(gòu)建和維持他們的社會(huì)關(guān)系(如圖4)。
Facebook的社交行為數(shù)據(jù)可以滿足相當(dāng)比例的搜索請(qǐng)求??梢曰谂笥训摹癓ike”搜索加州的特色餐廳,或是通過(guò)朋友的照片尋找一起滑雪的玩伴。除相關(guān)的語(yǔ)義研究,社交圖譜搜索背后是把用戶行為產(chǎn)生的數(shù)據(jù),比如點(diǎn)擊習(xí)慣、Like等運(yùn)用到極致,它更傾向于解決與生活相關(guān)的社交信息。
社交網(wǎng)絡(luò)為信息的交流與分享提供了新的途徑。作為社交網(wǎng)絡(luò)的網(wǎng)站一般會(huì)擁有數(shù)以百萬(wàn)的登記用戶,使用該服務(wù)已成為了用戶們每天的生活。社交網(wǎng)絡(luò)服務(wù)網(wǎng)站當(dāng)前在世界上有許多,知名的包括Facebook、Quazza.com、Myspace、Orkut、Twitter等等。在中國(guó)大陸地區(qū),以社交網(wǎng)絡(luò)服務(wù)為主的流行網(wǎng)站有人人網(wǎng)、開(kāi)心網(wǎng)、微博、QQ空間等(如圖5)。
5 實(shí)體圖譜
實(shí)體搜索對(duì)比Facebook的顯著進(jìn)階是,不僅僅有“人”、“地點(diǎn)”、“照片”等一些最常見(jiàn)的實(shí)體,也有如哈利·波特、植物、動(dòng)物等真實(shí)和虛擬世界內(nèi)的所有實(shí)體。
實(shí)體搜索的概念產(chǎn)生于2004年,其前身是微軟研究院研發(fā)的學(xué)術(shù)搜索,它試圖解決信息檢索的精準(zhǔn)化。而實(shí)體搜索結(jié)果的理想呈現(xiàn)形式將會(huì)類似于維基百科,不過(guò)不同的是,維基百科是人們手動(dòng)整理和撰寫的,而實(shí)體搜索則是試圖通過(guò)自動(dòng)算法、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和自然語(yǔ)言理解等技術(shù)自動(dòng)生成的類似網(wǎng)頁(yè)(如圖6)。
在算法上,實(shí)體搜索把傳統(tǒng)基于“文本”的搜索改變?yōu)榛凇皩?duì)象”的搜索,搜索引擎更加智能地去理解用戶的真實(shí)需求。例如搜索“Apple”,它理解成蘋果公司的機(jī)率最高;如果搜索“Big Apple”,最高的可能性則是列出紐約市。短期來(lái)看,實(shí)體搜索是對(duì)現(xiàn)有搜索精準(zhǔn)度的一次改進(jìn)。
看起來(lái)前景無(wú)限的社交圖譜搜索和實(shí)體搜索吸引了行業(yè)巨頭紛紛涉足??墒菬o(wú)論是社交圖譜還是實(shí)體搜索,結(jié)構(gòu)化數(shù)據(jù)庫(kù)成為一大難點(diǎn)。一個(gè)顯而易見(jiàn)的難點(diǎn)是,現(xiàn)在萬(wàn)億級(jí)的網(wǎng)頁(yè)以及全人類的知識(shí),都是用非結(jié)構(gòu)化的方法在處理。
另外手機(jī)等移動(dòng)設(shè)備帶來(lái)了移動(dòng)互聯(lián)網(wǎng)的高速發(fā)展期,平臺(tái)和工具的變化引起了用戶使用習(xí)慣的改變。一個(gè)顯而易見(jiàn)的變化是“語(yǔ)音搜索”,隨著三星最新開(kāi)發(fā)的“眼動(dòng)追蹤”技術(shù),以及微軟、英特爾在體感計(jì)算上的突破,越來(lái)越多的電子設(shè)備可以感知用戶的手勢(shì)和動(dòng)作。
從搜索的方式來(lái)講,目前的搜索相對(duì)被動(dòng),而未來(lái)的搜索會(huì)更加智能,能夠根據(jù)用戶不同的使用場(chǎng)景,用最適合的輸入方式實(shí)現(xiàn)“主動(dòng)搜索”;而從搜索的形式來(lái)講,隨著技術(shù)的不斷突破,或許未來(lái)的搜索只需要揮一揮手,就可以如《黑鏡》中的主人公一樣隨意切換。然而不論搜索如何變化,我們都能看出,搜索引擎是在不斷揣摩人的心理,為滿足網(wǎng)民的需求而不斷發(fā)展的。正如Google Search產(chǎn)品經(jīng)理Jack Menzel所說(shuō),未來(lái)的搜索會(huì)更自然,就像與朋友聊天一樣。