一則榮威車主“調(diào)戲”iVoka的視頻在網(wǎng)上流傳甚廣——iVoka是榮威350上裝配的語音云駕駛系統(tǒng)——當(dāng)車主對(duì)著iVoka說“我愛你”的時(shí)候,iVoka不無醋意地表示“這句話你也對(duì)Siri說過吧”,車主只好無奈認(rèn)栽。
事實(shí)上,對(duì)于iVoka這種全新的智能語音人機(jī)交互裝置,逗趣嘮嗑只是其“副業(yè)”,連接豆瓣點(diǎn)播音樂、查天氣、查股票、查航班、查實(shí)時(shí)新聞資訊等等,才是它的正經(jīng)功能——在這一應(yīng)用背后,是一家叫科大訊飛的公司所提供的語音技術(shù)。
2012年3月22日,北京國家會(huì)議中心,科大訊飛“新一代語音云平臺(tái)”發(fā)布會(huì)現(xiàn)場(chǎng)??拼笥嶏wCEO劉慶峰拿出一部智能手機(jī),開始演示公司開發(fā)的新應(yīng)用“訊飛語點(diǎn)”。他用自己的聲音命令手機(jī)發(fā)短信、安排日程、查找餐館,還不忘調(diào)侃手機(jī):“你能做什么”?手機(jī)回答道:“我正在反思自己的不足?!爆F(xiàn)場(chǎng)立刻笑聲一片。
一切都像極了當(dāng)年由喬布斯掌控的蘋果產(chǎn)品發(fā)布會(huì)現(xiàn)場(chǎng)。
蘋果公司的Siri大熱,將語音技術(shù)的消費(fèi)應(yīng)用提到了日程上,各行各業(yè)都在挖掘自己和語音的結(jié)合點(diǎn);而像科大訊飛這樣的語音技術(shù)提供商則希望在更廣泛的消費(fèi)應(yīng)用方面和不同的開發(fā)商合作,找到更廣闊的天地。
移動(dòng)引爆語音
人們對(duì)下一代語音交互方式的美好暢想,從來就沒有停止過。不過,在很長(zhǎng)一段時(shí)間內(nèi),語音技術(shù)被看成是雞肋:棄之可惜,食之無味。微軟、谷歌、IBM,這些世界級(jí)的IT巨頭,一直在語音技術(shù)商用方面努力探索。然而,前景雖然很美好,語音技術(shù)卻始終無法實(shí)現(xiàn)大規(guī)模民用。
“我當(dāng)年在微軟工作的時(shí)候,曾聽到比爾·蓋茨說: ‘語音技術(shù)在5年后將改變世界?!?年之后,我又聽到他說了一次;到了第三個(gè)5年,比爾·蓋茨有一次提起語音,他說:‘這話我過去說了兩次。’”創(chuàng)新工場(chǎng)CEO李開復(fù)所講述的這件往事,折射出語音技術(shù)當(dāng)時(shí)所面臨的尷尬前景。
而前谷歌中國的高級(jí)研究員、《浪潮之巔》的作者吳軍最近在微博里調(diào)侃道:“語音識(shí)別(在產(chǎn)品上)忽悠人從上世紀(jì)90年代開始,大約每10年一個(gè)周期,最后的結(jié)果相同,就是大家發(fā)現(xiàn)這是個(gè)玩具,而不是工具……如此反復(fù)。不過我相信最后有一次不再是忽悠人,但是不是現(xiàn)在這一次?”
至少,在撲面而來的移動(dòng)互聯(lián)網(wǎng)和云計(jì)算大潮中,想象從來沒有像這一次這么像真的:決定語音識(shí)別技術(shù)精確度的關(guān)鍵性因素在于語料庫的豐富程度。
在過去,語料庫的建立,主要是通過人工采集聲音信號(hào)來完成,需要花費(fèi)大量的時(shí)間和精力,語料庫的增量非常有限,這也意味著語音技術(shù)的精確度提升速度非常低。而在移動(dòng)互聯(lián)網(wǎng)時(shí)代,語音交互的終端和應(yīng)用在不斷涌現(xiàn);另一方面,云計(jì)算能夠處理比以往更海量的用戶語音交互數(shù)據(jù),云端的服務(wù)器能夠不斷收集、處理這些數(shù)據(jù),在不斷反饋訓(xùn)練中持續(xù)進(jìn)化語音理解能力。
并且,隨著移動(dòng)用戶和多種移動(dòng)終端的爆發(fā)式增長(zhǎng),人們對(duì)語音應(yīng)用的需求前所未有的強(qiáng)烈:移動(dòng)終端設(shè)備鍵盤與屏幕尺寸小,用手指輸入并不方便,尤其是在移動(dòng)的應(yīng)用場(chǎng)景中,眼忙手忙,語音輸入作為信息交互最自然、便捷的手段,更能發(fā)揮它先天性的作用。
而蘋果公司所推出的Siri功能在全球所引發(fā)的瘋狂,則成為語音技術(shù)在移動(dòng)互聯(lián)網(wǎng)上被引爆的直接導(dǎo)火索,也讓一直苦于找不到語音賣點(diǎn)的廠商茅塞頓開。蘋果的高明之處,在于將Siri的語音技術(shù)與蘋果封閉系統(tǒng)內(nèi)的各行各業(yè)的信息服務(wù)、應(yīng)用進(jìn)行了無縫的對(duì)接,并且整合了三大數(shù)據(jù)庫:Yelp、維基百科、Wolfram Alpha,這就意味著Siri不僅僅是一個(gè)被人“調(diào)戲”的玩具,而是在某種程度上可以幫人們解決實(shí)際問題:查找餐館、地圖、翻譯……
盡管在目前看來,Siri的實(shí)用性依然有限,但隨著用戶越來越多,建立的語料數(shù)據(jù)庫就越豐富,就越能通過數(shù)據(jù)的不斷糾正變得越來越“聰明”,這就有了“人工智能”的意味。
在這個(gè)橫跨手機(jī)、平板電腦、汽車、電視、 導(dǎo)航設(shè)備、音樂播放器、個(gè)人電腦等領(lǐng)域的絕大市場(chǎng)商機(jī)面前,谷歌、微軟等國際巨頭都加快了將語音技術(shù)向消費(fèi)級(jí)市場(chǎng)商用的腳步:谷歌計(jì)劃今年上半年發(fā)布平板電腦Google Nexus,并將搭載Majel網(wǎng)絡(luò)語音識(shí)別技術(shù);而微軟于2007年收購語音技術(shù)公司TellMe之后,計(jì)劃今年將TellMe技術(shù)用于Windows 8及下一代Windows Phone系統(tǒng)中;此外,國際語音巨頭Nuance已經(jīng)將語音生意做到了全球,且來勢(shì)兇猛:今年1月份,Nuance收購了競(jìng)爭(zhēng)對(duì)手 Vlingo,期望整合雙方各自的技術(shù)優(yōu)勢(shì),在全球迅速膨脹的移動(dòng)語音消費(fèi)市場(chǎng),瓜分更大的蛋糕。
平臺(tái)機(jī)會(huì)
隨著Siri在全球的大熱,人們不禁紛紛發(fā)出這樣的疑問:誰是中國的下一個(gè)Siri?作為國內(nèi)最大的智能語音技術(shù)提供商,原本低調(diào)隱匿在背后的科大訊飛就這樣站在了舞臺(tái)的正中央。
在過去,科大訊飛的生意模式更多的是面向B2B市場(chǎng),主要為電信、金融、教育等企業(yè)和各種行業(yè)提供語音支撐軟件或語音應(yīng)用系統(tǒng)。盡管也推出了諸如“訊飛口訊”這樣的消費(fèi)層面的應(yīng)用,但始終是扮演著技術(shù)提供商的角色,其業(yè)務(wù)增長(zhǎng)穩(wěn)健而緩慢?!罢{(diào)戲Siri和Siri的人工智能其實(shí)只是目前語音相對(duì)簡(jiǎn)單的部分,我們之前做得不夠好的地方可能是,我們一直重視產(chǎn)品本身在技術(shù)層面的不斷精進(jìn),卻忽視了這些有趣的東西可以給消費(fèi)者帶來更多的樂趣?!?科大訊飛信息科技股份有限公司研究院執(zhí)行院長(zhǎng)胡郁表示。
當(dāng)Siri推出不久之后,科大訊飛迅速判斷出語音在移動(dòng)消費(fèi)級(jí)應(yīng)用上的市場(chǎng)價(jià)值,曾經(jīng)與蘋果公司進(jìn)行過接洽,希望與之合作,開發(fā)中文版的Siri。不過,卻遭到了蘋果的拒絕?!疤O果太傲慢了,我們也不會(huì)接受?!笨拼笥嶏w副總裁江濤說。
在這種情況下,應(yīng)對(duì)國際巨頭最好的辦法,就是將自己的語音技術(shù)、數(shù)據(jù)庫和語音云計(jì)算能力開放出去,做“語音云”平臺(tái)服務(wù)。江濤將這比喻成一場(chǎng)應(yīng)對(duì)國際語音巨頭的“人民戰(zhàn)爭(zhēng)”?!拔覀儾皇枪萝妸^戰(zhàn),而是把平臺(tái)開放出去,讓有激情、有智慧的創(chuàng)業(yè)者,還有產(chǎn)業(yè)鏈的合作伙伴更好的應(yīng)用。我相信一定會(huì)比一個(gè)封閉系統(tǒng)能提供的東西更加豐富?!?他說。他將科大訊飛角色描述成“移動(dòng)互聯(lián)網(wǎng)時(shí)代能力的基礎(chǔ)設(shè)備”,也就是為各種各樣的移動(dòng)互聯(lián)設(shè)備提供交互的能力。
顯然,一旦語音真正成為下一代人機(jī)交互核心手段,當(dāng)各種各樣的語音應(yīng)用百花齊放之時(shí),作為平臺(tái)級(jí)公司的價(jià)值,肯定比提供單個(gè)語音應(yīng)用的公司,在產(chǎn)業(yè)鏈上的話語權(quán)更為強(qiáng)勢(shì)。
事實(shí)上,這家公司在最近短短的一年時(shí)間內(nèi),發(fā)展速度突飛猛進(jìn):在2010年科大訊飛首次提出要做“語音云開放平臺(tái)”之時(shí),由于當(dāng)時(shí)移動(dòng)互聯(lián)網(wǎng)市場(chǎng)還沒有呈現(xiàn)爆發(fā)式增長(zhǎng),Siri還不太為人所知,用戶對(duì)語音應(yīng)用的需求遠(yuǎn)不如現(xiàn)在強(qiáng)烈,當(dāng)時(shí)業(yè)內(nèi)反響并不是很大。到2011年6月以前,科大訊飛語音云平臺(tái)上的用戶規(guī)模一直沒有超過100萬,然而,這一數(shù)據(jù)在Siri發(fā)布之后的2011年下半年,迅速飆升到1000萬,而從1000萬到現(xiàn)在的3300萬,只用了3個(gè)月。
而平臺(tái)級(jí)公司的出現(xiàn),對(duì)于整個(gè)語音產(chǎn)業(yè)大規(guī)模商用所做的推進(jìn),也不言而喻。在李開復(fù)看來,過去一直困擾語音技術(shù)大規(guī)模商用的瓶頸之一,在于缺乏豐富的語音應(yīng)用。“一小批語音專家拍腦袋來找應(yīng)用不是辦法,而訊飛語音平臺(tái)的推出,意味著幾千、甚至幾十萬位開發(fā)者都來試一試,盡管成功的幾率少,但是摸索到成功應(yīng)用的概率會(huì)增加?!崩铋_復(fù)說。
語音生態(tài)圈
生于1986年的李傳峰是智能360的聯(lián)合創(chuàng)始人之一。李傳峰的夢(mèng)想,是站在像科大訊飛這樣的“巨人的肩膀”上,開發(fā)出跟蘋果Siri一樣牛的中文版的“Siri”。
智能360是去年11月份在安卓平臺(tái)上線的一款類Siri的中文應(yīng)用。盡管看起來略顯“山寨”,但這款應(yīng)用目前頗受歡迎,已經(jīng)獲得了150萬的用戶。智能360采用了科大訊飛所開放的“語音識(shí)別”和“語音合成”技術(shù),也就是采用了將用戶聲音輸入轉(zhuǎn)化成文字,以及將文字輸出成語音這兩種技術(shù)。
而智能360的“自然語言處理部分”的技術(shù),也就是將文字進(jìn)行理解,轉(zhuǎn)化成各種指令,與底層的各種應(yīng)用進(jìn)行對(duì)接并執(zhí)行的部分,是由自己的團(tuán)隊(duì)開發(fā)的。而國內(nèi)另一款由貴州大學(xué)的大學(xué)生團(tuán)隊(duì)iTiTa開發(fā)的 Airi,采用的也是科大訊飛的語音引擎。
“瓦力短信”是一款幫助用戶實(shí)現(xiàn)個(gè)性化短信功能的應(yīng)用。去年11月,瓦力短信新發(fā)布的 Android 3.0版首次采用了科大訊飛的語音技術(shù),讓用戶能夠?qū)⒙曇艮D(zhuǎn)化成短信,下載量很快就翻了一番。
對(duì)于小型語音創(chuàng)業(yè)團(tuán)隊(duì)來說,現(xiàn)在是最好的時(shí)代。原因就在于各種資源的“開放”。一方面,谷歌、Nuance、科大訊飛這樣的大公司已經(jīng)或即將開放自己的語音接口,幫助開發(fā)者解決語音平臺(tái)海量數(shù)據(jù)庫和技術(shù)方面的門檻;另一方面,在應(yīng)用層面,像百度百科、大眾點(diǎn)評(píng)這樣的平臺(tái),也樂于向開發(fā)者開放自己的信息服務(wù)和各種數(shù)據(jù)。“我們需要做的,就是將各種資源整合過來,我們是站在巨人的肩膀上去做事情?!崩顐鞣逭f。
除了像智能360這樣的將語音作為“品牌”的應(yīng)用,一些大公司則選擇將語音技術(shù)作為應(yīng)用中的插件,在不同的情境下,為用戶提供更為便捷的選擇。比如,新浪微博、搜狐微博、UC瀏覽器、大眾點(diǎn)評(píng)等應(yīng)用目前都已經(jīng)采用了科大訊飛的語音技術(shù),推出了語音的插件功能。
不過,盡管有如此多的大公司也參與了語音應(yīng)用,在科大訊飛目前所擁有的3300萬用戶中,真正活躍的用戶有多少,依然是一個(gè)疑問。一個(gè)比較典型的案例就是:盡管新浪、搜狐等都推出了語音發(fā)微博的功能,但用戶的使用習(xí)慣并沒有被真正“挑逗”起來。
如果不能真正吸納到大量有價(jià)值的活躍用戶,開發(fā)者就摸索不到清晰的商業(yè)模式,而如果開發(fā)者掙不到錢,科大訊飛也自然不能從中盈利,這就意味著整個(gè)生態(tài)圈不能真正繁榮起來。另一方面,如果沒有來自用戶的大量語音交互, 基于語音云平臺(tái)的持續(xù)的語義理解進(jìn)化能力也就是空談。而“智能化”正是語音技術(shù)的終極目標(biāo)。
也許是意識(shí)到了首先要培養(yǎng)用戶使用語音的習(xí)慣,科大訊飛自己也率先推出了一系列消費(fèi)類的示范應(yīng)用,如訊飛口訊、訊飛輸入法、訊飛語點(diǎn)等等?!爸悄苷Z音交互的用戶使用習(xí)慣培養(yǎng)需要一個(gè)過程,尤其是東方人往往比較羞澀,不像西方人有使用電話應(yīng)答機(jī)的習(xí)慣,訊飛語點(diǎn)定位是新一代語音云的示范應(yīng)用,我們希望通過訊飛語點(diǎn)能夠培養(yǎng)用戶使用語音交互的習(xí)慣?!苯瓭f。
事實(shí)上,語音微博之所以叫好不叫座,除了用戶使用習(xí)慣方面的障礙,語音作為一種私密度高、解碼、收聽成本高的信息載體,并不適合微博這種媒體形式的傳播,這就決定了語音微博只能是特殊場(chǎng)合、特殊人群使用的形式。這給開發(fā)者所帶來的啟示就是:對(duì)于自己開發(fā)的語音應(yīng)用究竟能給用戶解決什么問題,要有清晰的認(rèn)識(shí),而不能為“語音”而“語音”。
正因?yàn)橛H歷了語音技術(shù)長(zhǎng)達(dá)30年的波折起伏,李開復(fù)反而對(duì)于語音應(yīng)用始終持有一種“謹(jǐn)慎樂觀”的態(tài)度。他提醒廣大開發(fā)者如果要在應(yīng)用中整合語音,一定要想清楚。在創(chuàng)新工場(chǎng)的47個(gè)投資項(xiàng)目中,有五六家是適合用到語音的,但他給項(xiàng)目負(fù)責(zé)人的建議卻是:要用語音是一個(gè)重大決定,要么不做,要做就要做到自然、驚艷。
“因?yàn)檎Z音API和應(yīng)用接口的整體優(yōu)化是有難度?!崩铋_復(fù)說。他所指的難度主要集中在“語義理解”這種相對(duì)偏智能的語音技術(shù)層面,而語音識(shí)別和語音合成這種相對(duì)淺層次的技術(shù)與應(yīng)用API的對(duì)接難度更小。因此,李開復(fù)的建議是,開發(fā)者更應(yīng)該將目光瞄準(zhǔn)那些“深語音,淺語義”的應(yīng)用。
對(duì)于科大訊飛本身來說,要扮演好平臺(tái)的角色,最重要的并非技術(shù)挑戰(zhàn),而是角色的轉(zhuǎn)換:如何從一家面向B2B市場(chǎng)的軟件提供商,成功轉(zhuǎn)型成為一家移動(dòng)互聯(lián)網(wǎng)平臺(tái)公司?作為互聯(lián)網(wǎng)平臺(tái)公司,更重要的是如何打造繁榮的生態(tài)圈,打造品牌,圈住用戶,幫助開發(fā)者做好營銷和服務(wù),幫助它們尋找到清晰的商業(yè)模式;并明確自身定位,不能即作“裁判”又做“選手”,給開發(fā)者帶來安全感。軟件提供商的那一套打法,在移動(dòng)互聯(lián)網(wǎng)上并不適用。好在,目前的科大訊飛有了一個(gè)看上去不錯(cuò)的開始。
(本刊記者葉麗雅對(duì)此文亦有貢獻(xiàn))