張曉潔
今年春天,余凱從硅谷歸國不久就被招到了百度麾下,他的任務(wù)就是成立新的多媒體團(tuán)隊,李彥宏對他說,這是百度未來最重要的技術(shù)高地之一。通過半年多時間的招兵買馬,他的團(tuán)隊里面已經(jīng)有20多人,但這對于百度來說還遠(yuǎn)遠(yuǎn)不夠,因為“在谷歌,單做語音開發(fā)算法的團(tuán)隊就有70人,我們?yōu)榱藬U(kuò)充自己的團(tuán)隊在美國等各地招攬人才?!庇鄤P感受到,現(xiàn)在語音的人才炙手可熱,由于在語音技術(shù)上面研究較深的公司基本都是蘋果、谷歌、微軟和國內(nèi)的科大訊飛這樣的公司,所以各大公司在技術(shù)和人才上面的爭奪都會更加激烈。
語音為什么成為搜索公司必爭之地呢?一個重要原因就是Siri為代表的語音已經(jīng)表現(xiàn)出取代傳統(tǒng)搜素作為移動互聯(lián)網(wǎng)新入口的實力。
想象一下,在移動的世界一個行走或者駕駛中的人,想找到一個聯(lián)系人電話或者一個地址時有怎樣的期待呢?停下來撥手機(jī)還是直接說出來找到?再設(shè)想,當(dāng)你看到別人玩的一個游戲很好玩,但是不知道游戲名字,你希望如何呢?是打電話給朋友詢問還是對著電腦說出游戲特征碰巧找到同款甚至更好玩的一款?如果語音能夠給出你智慧準(zhǔn)確的選擇,你毫不例外會選擇一個語音助理的提議而不是費(fèi)時費(fèi)力地搜索篩選。
不幸的是,2010年蘋果整合Siri與全球最大的語音識別廠商N(yùn)uance合作實現(xiàn)語音識別功能的背后,正是取代搜索的可能。在Siri后端鏈接了知識引擎Wolfram Alpha并集成了餐館點評網(wǎng)站Yelp、電影點評網(wǎng)站Rotten Tomatoes和餐館預(yù)訂服務(wù)OpenTable等大型消費(fèi)內(nèi)容網(wǎng)站,讓用戶可以使用Siri直接搜索所需要的餐館、酒店等生活信息,查詢附近的餐館時,幫助用戶做出最便捷的選擇。
對此谷歌執(zhí)行董事長埃里克·施密特(Eric Schmidt)就敏銳地發(fā)現(xiàn)蘋果的語音助理服務(wù)Siri有可能威脅谷歌的搜索業(yè)務(wù)。谷歌仍然是搜索引擎的霸主,谷歌每月的搜索量高達(dá)1000億次,但是不能夠清楚地理解你的意思并且能夠給出最想要的結(jié)果,用戶將會最終拋棄谷歌而選擇其他入口,這也是谷歌隨后推出Google Now的動力。
而且微軟也從來沒有放松對語音和人工智能的研究和巨資投入,微軟首席執(zhí)行官鮑爾默甚至表示,微軟未來的重點是開發(fā)一種全新的觸摸、手勢和語音的自然操作方式,接下來Kinect系統(tǒng)將支持Win8系統(tǒng),PC和移動設(shè)備都將呈現(xiàn)幾乎與Siri類似的體驗,更不要說微軟正在全力支持的搜索“必應(yīng)”。
作為搜索公司的掌門人,李彥宏很清楚語音對于百度未來的份量。不久前,他在清華大學(xué)的《互聯(lián)網(wǎng)亟待解決的九大難題》的演講中,排在前三位的就是OCR文字識別、語音識別、基于內(nèi)容的圖像檢索。而現(xiàn)在,百度在全力進(jìn)軍移動互聯(lián)網(wǎng)的時候,首先是要把住入口,而且要提供最為便捷的入口方式。
“這個入口可以是用戶開啟自己的手機(jī)終端的入口,也可以是遨游移動互聯(lián)網(wǎng)的統(tǒng)一入口?!庇鄤P解釋說,比如就單機(jī)而言,用戶通過聲紋登錄自己的手機(jī),用戶的聲音和設(shè)置的語言就是雙重密碼,用戶也可以直接通過語音直接調(diào)用手機(jī)中的聯(lián)系人信息,以及手機(jī)中的視頻文件等。此前,Google發(fā)布了Voice Actions,就能夠讓用戶通過聲音來進(jìn)行搜索、發(fā)送信息、撥打電話、播放音樂甚至給自己留一個郵件備忘錄,既快速又準(zhǔn)確。Google 為此通過各種服務(wù)來收集聲音數(shù)據(jù)已達(dá)數(shù)年之久,包括免費(fèi)的信息熱線GOOG-411(Google的一項自動語音服務(wù))等。
而現(xiàn)在,對于搜索公司語音將是跨領(lǐng)域資源整合的紐帶。比如,最近百度哼唱搜索已在公司內(nèi)部開始測試,這也被認(rèn)為是百度在語音識別搜索領(lǐng)域,首次進(jìn)行嘗試和探索。在未來的語音搜索中,如果你聽到一首好聽的歌曲,卻不知道歌曲名稱,完全可以對著電腦哼唱一段歌曲就搜索到,或者系統(tǒng)會自動搜索含有相關(guān)歌曲曲調(diào)的文件提供給用戶;如果這個文件或者應(yīng)用來自互聯(lián)網(wǎng)和其他公司的資源也可以進(jìn)行調(diào)用,或者由語音直接導(dǎo)入相關(guān)第三方App,如同余凱所說,百度通過把語音加入到全面開放的云平臺,來聚集更多第三方開發(fā)者利用這些免費(fèi)提供語音技術(shù)進(jìn)行開發(fā),也就是圍繞語音建立了一個生態(tài)系統(tǒng),后臺整合足夠的本土資源,才能超越蘋果和谷歌。
如果說未來科技公司的競爭將是圍繞系統(tǒng)、硬件、服務(wù)器和云的平臺戰(zhàn)爭,語音正是未來平臺競爭的重要一局。現(xiàn)在,包括搜索公司在內(nèi)的科技公司都在開發(fā)更多語音相關(guān)的熱門應(yīng)用來滿足和培育用戶習(xí)慣。比如語音搜索已經(jīng)變成各大移動搜索的標(biāo)配,而語音輸入法、地圖產(chǎn)品更將是移動搜索的核心資源。最近,蘋果不得不在iOS 6中使用自己地圖服務(wù),放棄體驗更好的谷歌地圖,一個重要原因就是谷歌不愿向蘋果許可安卓手機(jī)中非常流行的逐向?qū)Ш椒?wù),蘋果希望在iOS 6中提供免費(fèi)的語音導(dǎo)航服務(wù),但在谷歌看來,語音駕駛導(dǎo)航將是移動版地圖服務(wù)中一項少見的可以收費(fèi)的項目,也是未來爭奪用戶的殺手锏。
現(xiàn)在,百度在語音上的布局也在逐漸清晰,在廣義的語音移動搜索、垂直搜索、語音輸入法、聲紋手機(jī)登陸等多個產(chǎn)品領(lǐng)域進(jìn)行基礎(chǔ)應(yīng)用開發(fā)外,還將重點發(fā)展語音指令和框搜索,這意味著,“在百度即搜即用的概念下,所有服務(wù)都將有一個語音的外殼,等待語音的鑰匙開啟”。 余凱表示,百度將立足中文語音將有機(jī)會與蘋果、谷歌、微軟一較高下。比如,百度在中文自然語音處理技術(shù)上的優(yōu)勢,余凱自信地認(rèn)為百度的中文語音識別率大大超過了谷歌語音搜索。除了機(jī)器學(xué)習(xí)海量數(shù)據(jù)處理,百度還將發(fā)揮在國內(nèi)互聯(lián)網(wǎng)資源整合上的優(yōu)勢,這將是百度實質(zhì)性掌握語音入口的關(guān)鍵。