有人說,Siri拯救了平淡無奇的iPhone4S;也有人說,蘋果拯救了語音搜索技術(shù),讓其從多年的沉寂中蘇醒過來。但是,即便強大如蘋果,也難破語音技術(shù)存在的瓶頸。目前來看,Siri、類Siri離它成為神奇魔法師的愿望還很遠,她扮演更多的角色,是被“調(diào)戲”的小玩具。
有點蹩腳的小魔法師
Siri,語音助手,近來出鏡率頗高。5月16日,百度放出消息將在年底推類Siri應(yīng)用,并將此應(yīng)用整合進百度云手機。幾乎與此同時,蘋果方面也預(yù)告,Siri智能語音助理將從Beta版(測試版本)邁入正式版。再往前追溯,5月9日,科大訊飛發(fā)布新一代智能語音手機軟件訊飛語點,比3月22日發(fā)布的版本新增了語音查詢未來的天氣等功能。
自從iPhone4S以Siri作為亮點推出以來,語音助手便頻繁出現(xiàn)在各科技公司的新產(chǎn)品列表和各大媒體的報道中,而Siri也幾乎成為語音助手產(chǎn)品的代稱。據(jù)不完全統(tǒng)計,目前市場上出現(xiàn)的類Siri產(chǎn)品已達十多種,這其中包括國外的iris、Assistant等英文版軟件,也包括國內(nèi)應(yīng)用市場上出現(xiàn)的蟲洞、智能360等中文版語音助手。在這些企業(yè)的努力下,智能手機里就像是住了個魔法師,你對她說:“幫我撥電話給爸爸?!彼妥詣哟蜷_手機電話薄,給你爸爸打電話;你讓她打開谷歌或者百度搜索美前總統(tǒng)布什的緋聞,打開播音器聽《最炫名族風(fēng)》,她都能一一照辦。
蘋果總是具備神奇的力量,能讓一種新技術(shù)瞬間爆發(fā)。早在2009年,谷歌便開始推出基于語音搜索技術(shù)的軟件,并推出Voice Actions應(yīng)用,支持語音命令發(fā)短信、設(shè)置鬧鐘,或打開網(wǎng)頁等。遺憾的是,谷歌沒有像Siri那樣刮起一陣語音搜索風(fēng),因為Voice Actions像一個嚴厲的老師,和她的對話用語,必須具備嚴格的語法結(jié)構(gòu)和格式,否則系統(tǒng)將無法識別。而Siri則和藹很多,你和她對話的時候,不必注意繁瑣的語法結(jié)構(gòu),甚至還可以偶爾“思維模式混亂一下下”,由他結(jié)合上下文結(jié)構(gòu)來領(lǐng)會你的意思。
即使Siri比Voice Actions智能很多,但與蘋果在廣告宣傳中說的“她會讓一個男人陷入與機器人的殊途之戀,她還會在圣誕節(jié)變成禮物寄到你的party上”還是相差甚遠。為此,美國有用戶以發(fā)布“誤導(dǎo)和欺騙”廣告為由將蘋果告上了法庭。確實,Siri并非神通廣大的魔術(shù)師,尤其是對中國用戶而言,給Siri發(fā)號施令簡直就像一場噩夢,因為,你會非常頻繁地聽到他用正統(tǒng)的美式英語對你說:“I donot understand……”這無異于告訴你,你的英語很糟糕。
技術(shù)瓶頸阻礙其破繭化蝶
“蘋果Siri原來是個蹩腳的小魔法師?!碧O果讓沉寂良久的語音搜索再放異彩,卻拯救不了語音技術(shù)早已存在的瓶頸,而這正是語音助手能否破繭成蝶的關(guān)鍵。
語音助手最大的特色是實現(xiàn)人機的互動。要讓手機里的小魔法師具備人的情感和思維,以及多出人類N倍的知識面,需要運用許多高深艱澀的技術(shù)。比如,讓她和用戶交互,需要把用戶的口語轉(zhuǎn)化成文字,經(jīng)過智能處理之后轉(zhuǎn)化成語音輸出,這少不了語音識別以及語音合成技術(shù)。其次,后臺技術(shù)更加復(fù)雜。有的用戶讓她幫忙打開谷歌搜索,有的要求她幫忙翻譯英語,有的甚至讓她陪著嘮嗑。小魔法師要隨時做好準備,處理那些千奇百怪的用戶請求。這意味著,小魔法師起碼要具備以下幾項技術(shù):網(wǎng)頁搜索技術(shù);知識搜索技術(shù);知識庫技術(shù);問答以及推薦技術(shù)。
這些技術(shù),聽上去都讓人頭皮發(fā)麻,如果不是在語音識別控制領(lǐng)域摸爬滾打很多年,或者是在財力、人力、物力上非常富有的大公司,還是對Siri敬而遠之的好。創(chuàng)業(yè)導(dǎo)師李開復(fù)就曾在微博上公開表示,Siri不是誰都能做的,如果實在要做,就必須想好幾個問題,包括語音助手能解決用戶的什么需求和痛處,如何克服后臺海量數(shù)據(jù)學(xué)習(xí)技術(shù)門檻和寬帶成本等。
李開復(fù)的第一個問題就戳到了語音助手的痛處。目前,Siri宣傳的神乎其神,用起來卻差強人意。失望之余,用戶發(fā)現(xiàn)了她的另一個價值——被“調(diào)戲”。一些熱心的果粉會問Siri:“你的三圍是多少?”還有人纏著Siri回答“喬布斯在哪”、“iPhone在那邊賣得好嗎”諸如此類的問題。甚至還有人效仿《生活大爆炸》中的印度人Raj,在沒有女友的日子里,跟Siri妹妹調(diào)調(diào)情,排解內(nèi)心的寂寞。
“蘋果Siri都在被調(diào)戲,我們怎么可以不被調(diào)戲?而且,一定要努力比蘋果Siri更好地被‘調(diào)戲’!”為此,市面上那些模仿蘋果的類Siri產(chǎn)品,學(xué)會了耍滑頭和貧嘴。比如,你問她:“你有男朋友嗎?”她會和你打太極:“目前我想的最多的不是個人問題,而是努力工作。”又或者,她干脆借用流行網(wǎng)絡(luò)語來回答你:“男朋友?我說有,你信嗎?反正我是不信?!?/p>
看,語音助手多么有趣!但問題是,當一個產(chǎn)品的主要功能變成了被“調(diào)戲”,那它說白了也就算是個玩具。而玩具的命運是,時間長了,玩膩了,就會被束之高閣,或者干脆扔掉了事。
等待魔法師長大需耐心
即使無論在技術(shù)上,還是在體驗上都不盡人意,但Siri還是給我們傳達了兩個趨勢:就像按鍵有可能被觸摸屏逐漸取代那樣,觸摸屏很有可能在未來的某一天被語音控制所取代。另一個可能是,谷歌、百度等搜索形式將被顛覆,用戶可以通過更自然的交互方式直接獲得答案。面對這兩個趨勢,稍有憂患意識的企業(yè)都不可能無動于衷。尤其是百度,如果Siri真的巔覆搜索形式,那么,它必須在這個變革來臨之前推出自己的Siri產(chǎn)品,以穩(wěn)住自身在搜索業(yè)的地位。
目前躋身于研究中文版Siri的企業(yè)主要有四類:一類是以做語音控制技術(shù)的語音公司;第二類是以iPhone客戶端開發(fā)、安卓客戶端開發(fā)的團隊;第三類是曾經(jīng)做過機器人、語義分析的一類公司,如小i機器人;第四類是騰訊、百度等互聯(lián)網(wǎng)巨頭,以收購語音技術(shù)公司或者是組建語音研究團隊的方式切入。
不管誰做,都繞不過前面提到的技術(shù)難題。而最難的,是讓語音助手聽得懂中國話。中國的語言環(huán)境非常復(fù)雜,要讓語音助手聽懂廣東話、上海話、河南話、四川話等五花八門的方言,并弄懂“撒發(fā)”其實是“沙發(fā)”,“灰機”其實是“飛機”,實在是強人所難。
就算小魔法師能懂得用戶說的這句話,她也不一定能明白這句話的意思。這就是中文Siri的核心難題——語義識別。舉個很簡單的例子,小魔法師真的能弄明白“我想問您個問題,您方便嗎”和“對不起,我去方便一下”各自的含義嗎?
“語音和語義兩部分技術(shù),在Siri中所占的比例,分別是20%和80%。也就是說,要正確理解用戶的意思并作出反應(yīng),語義識別實際上更為關(guān)鍵?!眹鴥?nèi)從事了十年智能網(wǎng)絡(luò)機器人研究的小i機器人董事長袁輝的心得是,中文Siri要想變成一個真正的神奇魔法師,必須把這個80%給拿下。
要解決這些,李開復(fù)的建議是,讓語音助手多練習(xí),就像教小孩子學(xué)說話一樣,教的多了,她自然就能記住,湖北話里的“么司”就是“什么”的意思,東北話里的“旮旯”原來就是“角落”。有時,我們必須正視到,一項技術(shù)的成熟是需要時間沉淀的。要讓語音助手——這個住在智能手機里的蹩腳小魔法師長大,我們要付出的,除了金錢和科研,還有耐心和時間。