阿米特·辛格哈爾(Amit Singhal)出生在上世紀(jì)70年代的印度,黑白電視劇的《星際迷航》是他最好的玩伴?!拔异o靜地坐著,觀(guān)看Kirk和Spock與計(jì)算機(jī)交談,這副畫(huà)面在我的腦海中根深蒂固?!?/p>
如今辛格哈爾已經(jīng)成為谷歌(Google)科學(xué)家兼高級(jí)副總裁,但童年的記憶成了他一直追求的夢(mèng)想。對(duì)他來(lái)說(shuō),最激動(dòng)的可能是擁有一臺(tái)“星際迷航”式的設(shè)備,“無(wú)需請(qǐng)求就直接告訴我接下來(lái)要做什么、該怎么做。它還可以幫我為孩子的生日做準(zhǔn)備——它能感知到什么樣的禮物能讓孩子開(kāi)心、知道我在哪買(mǎi)這些禮物最劃算——當(dāng)然它會(huì)告訴我怎么去這家商店?!?/p>
夢(mèng)想照進(jìn)現(xiàn)實(shí)
作為谷歌搜索引擎的首席科學(xué)家,辛格哈爾正在全力以赴朝著他的“星際迷航”進(jìn)發(fā)——實(shí)現(xiàn)“智慧搜索”。以搜索“巨無(wú)霸漢堡”為例,智慧型的搜索不僅會(huì)告訴你巨無(wú)霸漢堡包括哪些食材、在哪里買(mǎi)得到,還會(huì)告訴你吃這樣一個(gè)漢堡將帶來(lái)怎樣的影響。它會(huì)提供一個(gè)營(yíng)養(yǎng)圖表,告訴你這已經(jīng)超過(guò)了每天所需的脂肪攝入量,而不僅是拋出一些冷冰冰的數(shù)據(jù)。
有了這樣一張表在腦海中,即使不是整天加加減減、計(jì)算卡路里的減肥斗士,也會(huì)立刻明白,它為什么被稱(chēng)作“垃圾食品”,常吃會(huì)對(duì)身體有害???,“智慧搜索”讓你一下子成了一個(gè)話(huà)題的行家。
實(shí)現(xiàn)“智慧搜索” 當(dāng)然不是一蹴而就,搜索引擎本身智慧的增長(zhǎng)也是個(gè)循序漸進(jìn)的過(guò)程。只不過(guò),谷歌一直在加速這個(gè)過(guò)程。
“十年前,當(dāng)我剛剛進(jìn)入Google工作時(shí),我們擅長(zhǎng)的是搜索確切的單詞和短語(yǔ)?!?辛格哈爾告訴《世界博覽》記者。
“確切”的詞和“關(guān)鍵詞”是兩碼事兒。那時(shí)候,如果你搜IBM,很可能前兩頁(yè)都是些不知所云的內(nèi)容。因?yàn)樗阉饕嫔踔粮静幻靼?,你要找其?shí)是“國(guó)際商業(yè)機(jī)器(International Business Machines)”,它只是機(jī)械地搜索與“IBM”相匹配的東西而已。而今天,凡是會(huì)使用搜索引擎的人,都將“關(guān)鍵詞”視為理所當(dāng)然的事。比如隨意找個(gè)搜索引擎,在搜索框中鍵入“中國(guó)國(guó)旗”,你都會(huì)在第一條結(jié)果中看到國(guó)旗的圖片。
“但是今天的谷歌搜索已經(jīng)遠(yuǎn)遠(yuǎn)超越了關(guān)鍵詞索引的階段,它開(kāi)始能夠理解你的搜索意圖?!?辛格哈爾說(shuō),這可能是很多用戶(hù)都沒(méi)注意到的,里程碑式的變革。這個(gè)變革就是對(duì)同義詞的理解,比如搜索“餐館”時(shí),谷歌會(huì)把諸如“餐館”、“餐廳”、“飯店”等同類(lèi)信息一并反饋給你。但這同時(shí)又帶來(lái)了一個(gè)挑戰(zhàn),就是現(xiàn)在搜索引擎的熱門(mén)研發(fā)方向——語(yǔ)境搜索。
尤其是英語(yǔ)中的動(dòng)詞,比如 “改變”一詞,就可能有很多不同的含義?!案淖儭惫P記本電腦的亮度是指要“調(diào)整”它;“改變”貨幣則意味著要“兌換”它。反其道而行之的搜索,對(duì)語(yǔ)言學(xué)習(xí)的學(xué)生們尤其有用。還拿英語(yǔ)來(lái)說(shuō),動(dòng)詞詞組向來(lái)令人頭痛,而你只要把核心動(dòng)詞和名詞打進(jìn)去,出來(lái)的結(jié)果——那個(gè)完整的句子,就會(huì)告訴你正確的組合。比如,鍵入“knock(敲)”和“door(門(mén))”,就會(huì)看到不止一個(gè)結(jié)果里有“knock at the door(敲門(mén))”。
人類(lèi)對(duì)搜索引擎的依賴(lài)是有目共睹的,正因如此,正確的信息就尤為重要了。
超越智能化的智慧
辛格哈爾也認(rèn)同,這是個(gè)重要而艱巨的任務(wù)?!耙跀?shù)十億網(wǎng)頁(yè)、圖像、視頻、甚至你認(rèn)識(shí)的人和他們與你共享的信息中挑選正確的結(jié)果,猶如大海撈針。但這有助于提高‘命中率’。這也是為什么我們要讓谷歌不僅能夠理解內(nèi)容,還要能理解人與人之間的關(guān)系?!?/p>
所以谷歌展開(kāi)了社交搜索業(yè)務(wù),經(jīng)過(guò)改進(jìn)的Search plus Your World功能,就將Google+納入其中。這相當(dāng)于將微博和人人納入了搜索之中,從而根據(jù)對(duì)用戶(hù)的使用習(xí)慣和交際圈的特點(diǎn),提供個(gè)性化地搜索結(jié)果,或者說(shuō)是“定制版搜索”。鑒于這些結(jié)果可能包含個(gè)人信息,谷歌用SSL來(lái)保護(hù)這些頁(yè)面,用Gmail保護(hù)和安全等級(jí)對(duì)個(gè)人內(nèi)容進(jìn)行加密。“Search plus Your World英文版現(xiàn)已在Google. com上使用,我們正著手將這些功能帶到其他國(guó)家。”
“有的放矢”是從橫向?qū)λ阉饕孀龀鲆?,縱向的時(shí)間軸也不可忽視。回憶一下自己有沒(méi)有過(guò)這種經(jīng)歷:明明要找的是“新”聞,卻被滿(mǎn)眼因點(diǎn)擊率高而高懸于首頁(yè)的“舊”聞,逼得發(fā)狂?!叭ツ?1月,我們改進(jìn)了算法,以更好地識(shí)別搜索的新鮮度。” 辛格哈爾說(shuō),現(xiàn)在你搜索“奧運(yùn)”,谷歌的新鮮度算法,讓你不用再輸入2012,直接看到的就是倫敦奧運(yùn)的新聞。
盡管谷歌搜索在日新月異地變化著,現(xiàn)在的智慧化成就離辛格哈爾的目標(biāo)還有很大的差距?!拔蚁M阉饕嫦褚粋€(gè)懂我的專(zhuān)家朋友,我可以問(wèn)它 ‘帶有殺蟲(chóng)噴霧劑的蚊帳比不帶的蚊帳更有效嗎?’,然后它會(huì)像一個(gè)專(zhuān)家那樣告訴我:‘根據(jù)這一研究來(lái)看,結(jié)果是……’” 現(xiàn)在,辛格哈爾正為這個(gè)夢(mèng)想奮斗著。
重要的是,辛格哈爾理想中的谷歌搜索是全聲訊的,搜索的過(guò)程就像和一位無(wú)所不知的朋友聊天、咨詢(xún)。而辛格哈爾的同事,也一直在跟進(jìn)語(yǔ)音搜索?,F(xiàn)在,你不僅可以跟你的安卓手機(jī)“耳鬢廝磨”,還可以通過(guò)麥克風(fēng)對(duì)計(jì)算機(jī)或筆記本電腦發(fā)號(hào)施令。
這一服務(wù)剛推出不久,還存在一些諸如音質(zhì)、降噪等問(wèn)題,“但用戶(hù)的反應(yīng)都還不錯(cuò),” 谷歌語(yǔ)音搜索研究科學(xué)家佩德羅·莫雷諾(Pedro Moreno)對(duì)此躊躇滿(mǎn)志:“我們的目標(biāo)是讓用戶(hù)能隨時(shí)隨地使用語(yǔ)音識(shí)別技術(shù),只要需要打字,都可以用說(shuō)話(huà)來(lái)代替。”
到時(shí)候大街小巷都是些對(duì)著自己的谷歌終端喃喃自語(yǔ)的人了,可是老師在課堂上提問(wèn)的樂(lè)趣不就蕩然無(wú)存了嗎?因?yàn)樵?huà)音未落,齊刷刷的答案就躍然眼前——這讓需要聯(lián)網(wǎng)的上機(jī)考試怎么好?
Google搜索背后的數(shù)字
Google通常只需0.25秒便可對(duì)搜索請(qǐng)求做出回應(yīng)
自2003年到現(xiàn)在,Google搜索已解決4500億個(gè)搜索請(qǐng)求
用戶(hù)每天搜索的關(guān)鍵詞中,16-20%都是新的
平均每個(gè)Google搜索關(guān)鍵詞往返于用戶(hù)電腦和數(shù)據(jù)中心的單程距離長(zhǎng)達(dá)750英里
Google對(duì)搜索結(jié)果使用了包括“網(wǎng)頁(yè)排名”在內(nèi)的200多種排名指標(biāo)
Google的索引庫(kù)中收錄了幾十億個(gè)網(wǎng)頁(yè),數(shù)據(jù)存儲(chǔ)多達(dá)1億GB
截止目前,Google在搜索算法開(kāi)發(fā)上投入的時(shí)間超過(guò)1000人工年
Google搜索覆蓋的語(yǔ)言多達(dá)146種
Google搜索全球范圍內(nèi)擁有181個(gè)域名