即便是再小的障礙出現(xiàn)在用戶與所需求信息之間,都會讓搜索引擎大佬們“寢食難安”。如今,他們甚至覺得,用手指敲擊鍵盤才能輸入搜索關(guān)鍵詞,這簡直太影響用戶體驗了,應(yīng)該讓人們動動嘴,就能夠獲得最完美的信息搜索結(jié)果——這不僅僅是個愿望,它已經(jīng)成為現(xiàn)實。
由蘋果的Siri引爆的一場語音搜索技術(shù)大戰(zhàn)正在上演,谷歌攜Google Now后來居上,百度也不甘示弱,他們早就組建了自己的“特種部隊”——多媒體研發(fā)團隊,專門從事機器人學(xué)習(xí)、計算機視覺、信息檢索和數(shù)據(jù)挖掘等人工智能技術(shù)的研發(fā)。如今,百度技術(shù)副總監(jiān)余凱率領(lǐng)著這支“特種部隊”,加入到了語音搜索的叢林之戰(zhàn),對手則是全球市值第一的蘋果和搜索霸主谷歌。
百度良好的財務(wù)業(yè)績讓它有充裕的資金投入到技術(shù)研發(fā)之中。7月24日,百度發(fā)布2012年第二季度財報,Q2總收入為54.56億元人民幣,同比增長59.8%,凈利潤27.7億元人民幣,同比增長69.6%。人們注意到,百度當(dāng)季研發(fā)投入達5.46億元,同比增長82.7%,占總營收比例高達10%。
首席執(zhí)行官李彥宏表示,百度在語音搜索、移動瀏覽器等關(guān)鍵創(chuàng)新方面已經(jīng)取得重大進展,語音搜索服務(wù)已經(jīng)在百度地圖APP等產(chǎn)品中開始應(yīng)用。面對強大的競爭對手,百度不敢有片刻遲疑,其財力、物力和人力的投入均已到位。凡是蘋果涉足的領(lǐng)域,無一不將引起生態(tài)圈的重構(gòu),作為競爭對手,緊緊跟隨并努力超越才是生存之道。
蘋果iPhone 4S所配置的語音控制功能Siri,被稱為喬布斯用來改變這個世界的“最后的禮物”。在新一代操作系統(tǒng)iOS 6中,Siri能夠支持15個國家和地區(qū)的包含漢語在內(nèi)的語音輸入,具有語義理解和用戶意圖識別能力。你可以讓它陪你聊天,搜索信息,還可以聘請它做你的私人助理,完成設(shè)置提醒、預(yù)訂餐廳、查詢天氣以及安排日程等任務(wù)。當(dāng)然,調(diào)用Siri也非常簡單,只要長按住 Home 鍵,然后所要做的就是,對它說話。
奧斯卡金像獎最佳導(dǎo)演馬丁.斯科塞斯(Martin Scorsese)出現(xiàn)在蘋果Siri的一則廣告中,馬丁問:“我今天的日程如何?”“又是忙碌的一天?!盨iri回答。“你不是開玩笑的吧?”馬丁繼續(xù)和它對話,Siri則很認真地告訴他:“我做事一貫非常嚴(yán)謹?!痹趲椭@位傳奇導(dǎo)演完成了重新安排日程、尋找朋友位置以及查詢曼哈頓交通路況等一系列任務(wù)后,馬丁表達了對Siri的感謝之意:“我喜歡你,再也離不開你了。”“我會記住你說的這些?!盨iri并沒有表現(xiàn)出特別的激動。
蘋果拓展了“搜索”的外延概念,通過Siri語音輸入,語音識別、智能機器人處理和分析,調(diào)用本地或者網(wǎng)絡(luò)的應(yīng)用程序,整合出最為合適的答案或者信息呈現(xiàn)給用戶。這個“智能”的語音助理帶給世界太多想象空間,幾乎為我們描繪了一個具備人工智能的全新生態(tài)系統(tǒng)。與其他程序結(jié)合在一起的Siri,勢必成為移動互聯(lián)網(wǎng)的最新搜索入口。
這款應(yīng)用顯然嚴(yán)重刺激了谷歌公司的神經(jīng),他們在今年2012 I/O開發(fā)者大會上發(fā)布代號為“Jelly Bean”(果凍豆)的Android 4.1版本操作系統(tǒng),用Google Now這個重量級應(yīng)用來向世人展示,搜索引擎顛覆時代到來的宣言理應(yīng)由他們宣布。
“希望未來的搜索引擎不僅能夠理解你的問題,提供相關(guān)信息,而且能夠為你提供現(xiàn)實世界中的知識解答——將來的某天甚至能夠達到智慧搜索引擎的程度?!盙oogle高級副總裁阿米特.辛格哈爾這樣闡述搜索的未來。Google每個月都要處理超過1000億個搜索請求,每天抓取超過200億個頁面,索引庫中收錄了100PB的數(shù)據(jù),是美國國會圖書館藏書量的10萬倍,人們對于這個“搜索巨人”有著天然的信任感。
Google Now的顛覆性在于,除了完成回答用戶語音提出的問題之外,它還可以根據(jù)記錄和分析用戶的搜索習(xí)慣,推測用戶需要的信息,并在恰當(dāng)?shù)臅r候提供給他們。Google Now能夠在會議開始之前的一個特定的時間向用戶發(fā)出提醒,而且它已經(jīng)將交通路況考慮在內(nèi);如果你是某個體育賽事的愛好者,不必刻意詢問,它會將最新比分告知給你;當(dāng)你前往一家餐廳用餐時,它甚至可以為你推薦那里的菜品供選擇。
建立起一個讓搜索引擎理解世界以及事物之間的聯(lián)系的模型,這是Google努力的方向。Google Now的成功得益于Google強大的信息檢索能力,這個簡單搜索框的背后則保留著每一次用戶搜索的記錄,一個與搜索結(jié)果相關(guān)的完整的知識體系在逐漸建立的過程中,而預(yù)測特定用戶的意圖也就有章可循,這個龐大的數(shù)據(jù)庫和復(fù)雜的計算模型的確讓Siri羨慕不已。
作為中文搜索巨頭的百度對這一切當(dāng)然不會無視。在8月舉行的第18屆ACM知識發(fā)現(xiàn)與數(shù)據(jù)挖掘?qū)W術(shù)年會上,百度首席執(zhí)行官李彥宏發(fā)表了主題演講,向世界頂尖級研發(fā)人員提出了“希望學(xué)術(shù)界解決的九大技術(shù)難題”,其中語音識別位居前列。
與移動端相關(guān)的多媒體技術(shù)方面的研發(fā),百度早在兩年前就已開始布局,其多媒體“特種部隊”來自全球招聘。圍繞著語音識別與智能理解,他們已經(jīng)開發(fā)和掌握了海量語言模型、復(fù)雜聲學(xué)建模、高速解碼等關(guān)鍵技術(shù)。對于語音搜索技術(shù)的產(chǎn)品創(chuàng)新,百度還有自己的打算,從應(yīng)用提供商向平臺開發(fā)商的轉(zhuǎn)變正在推進,配合其全新的“云戰(zhàn)略”,他們計劃將包括語音在內(nèi)的多媒體技術(shù)通過API接口開放給第三方開發(fā)者,動用群眾的力量,建立起一個多贏的生態(tài)系統(tǒng)。
以搜索業(yè)務(wù)起家的百度,在自然語言處理方面,尤其是在對中文的語義理解方面有著時間和數(shù)量上的優(yōu)勢,擁有近400億網(wǎng)頁的中文語料。對數(shù)據(jù)處理,尤其是利用機器學(xué)習(xí)算法,利用大規(guī)模數(shù)據(jù)學(xué)習(xí)、訓(xùn)練,并且運用到語音、信號處理,語音識別模型訓(xùn)練,在這些方面百度有相當(dāng)深厚的算法和積累。余凱說:“百度有著12年中文語言處理經(jīng)驗,世界上沒有其他公司具有像百度這樣規(guī)模龐大的自然語言處理的團隊。”
目前,掌上百度、百度搜索手機客戶端、百度手機地圖、百度手機瀏覽器等產(chǎn)品中,都已經(jīng)配置了百度語音識別和搜索的功能,而百度網(wǎng)頁、百度圖片、百度知道、百度新聞、百度MP3、百度百科、百度地圖、百度視頻等這些垂直搜索頻道也將被整合在其中。用戶可以用語音進行文字輸入、發(fā)送短信、搜索信息以及查詢地圖,你甚至還可以對著手機說“芝麻開門”為手機解鎖,通過語音指令實現(xiàn)對手機的智能操控。
“我們接下來不會把百度的框視為傳統(tǒng)的搜索框,而是視為人機界面。表面上它可能提供像Google的搜索框那樣的應(yīng)用和服務(wù),但是它本質(zhì)上不再是傳統(tǒng)的百度搜索,它解決一系列的問題,例如本地的服務(wù)、導(dǎo)航、搜索,傳統(tǒng)的搜索,精準(zhǔn)的框計算。”百度首席產(chǎn)品設(shè)計師孫云豐曾如此表示,在需求和應(yīng)用之間建立起密切的聯(lián)系,是百度當(dāng)下最為重要的任務(wù),而將語音交互方式和框計算的結(jié)合才能實現(xiàn)真正意義上的智能搜索。
人和機器最自然交互的一種方式就是語音。在移動互聯(lián)網(wǎng)上,語音識別和人工智能技術(shù)可以解放用戶的雙手和眼睛,通過語音命令完成一系列任務(wù),這幾乎是全新的用戶體驗。中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的《第30次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》表明,2012年上半年,通過手機接入互聯(lián)網(wǎng)的網(wǎng)民數(shù)量達到3.88億,相比臺式電腦的3.8億,手機已經(jīng)是中國互聯(lián)網(wǎng)用戶的第一大上網(wǎng)終端。余凱說:“語音應(yīng)用,在移動互聯(lián)網(wǎng)時代的爆發(fā)已經(jīng)成為整個業(yè)界的共識,百度也持同樣的判斷。”(文/徐珊插圖/文耀)