張曉潔
什么是聽覺的高級體驗?計算機不光要知道人們說了些什么,還要通過了解語音以外的表情、肢體語言、說話的語氣等“潛臺詞”,知道人們想要表達些什么,并與人類有感情的互動。
不管是通電話,聽音樂還是用語音搜索餐廳、電影院等生活信息,與其他感官相比,聽覺與移動設(shè)備的配合都更天然。
從剛性需求來說,移動設(shè)備的特征讓聲音是最容易實現(xiàn)且穩(wěn)定可靠的選擇。比如用耳朵聽,終端可以小巧方便攜帶,而移動過程中駕駛和走路的場景,聽覺最容易兼顧協(xié)調(diào)其他感官,另外,語音作為人類傳遞信息最高效的工具,即使在傳輸中被打斷,也可以重新啟動繼續(xù)上一次的體驗,更重要的是,聲音具有個性可識別,這對于移動設(shè)備的加密的迅速解鎖尤其重要。
從心理需求上看,聲音作為人類最自然的本能可以傳遞情感,無論語言還是音樂,飽含情感的聲音都能給予聽者異樣的感受。而且,人們天然對于好的聲音具有追求和炫耀的心理,容易形成粉絲和競爭性。
因此,聽覺是人機交互開發(fā)最成熟的感官,科技公司對語音的探索可以追溯到上世紀90年代末IBM公司發(fā)布的ViaVoice 98 連續(xù)語音識別產(chǎn)品,比爾·蓋茨早在2006年就提出過未來將在操作系統(tǒng)中實現(xiàn)自然語音的人機交互,微軟還收購了TeLLMEe,平臺每年執(zhí)行110億次以上語音識別的請求。同樣,蘋果公司在人機交互上最出名的應(yīng)用也是語音控制產(chǎn)品Siri,從語音識別軟件拓展開去,腰搖身變成用戶的私人生活助手,幫助用戶通過手機讀短信、詢問天氣、語音設(shè)置鬧鐘等,并搜索生活和地理信息,一度被認為是蘋果在搜索上與谷歌競爭的殺手锏,但是也被更多人評論為漏洞百出,供人“調(diào)戲”的大玩具。
無論如何,基于聲音的產(chǎn)品已經(jīng)成為去年以來最火熱的產(chǎn)品,這些應(yīng)用中,語音可以是主菜也可能是調(diào)料,像騰訊微信、百度語音搜索、YY語音、唱吧、啪啪等等都借助聲音的特色一躍成為國內(nèi)移動產(chǎn)品中的明星。而在從事語音基礎(chǔ)研究的科大訊飛向合作伙伴開放的語音云上,已經(jīng)有不少開發(fā)者正在投身聲音的應(yīng)用,都有機會成為移動世界里的下一個幸運兒。
2013年,將是聲音產(chǎn)品真正獲得認可之年。如同科大訊飛副總裁江濤對市場的預(yù)期,“隨著去年新一代iPhone正式發(fā)布,Google 開始推動語音云技術(shù);加上百度、騰訊等互聯(lián)網(wǎng)廠商推出相關(guān)產(chǎn)品,用戶教育過程會很快。到今年下半年,哪個手機沒有語音交互的功能,就會很奇怪了”。
另一方面,語音識別技術(shù)也在加速成熟,百度多媒體事業(yè)部副總監(jiān)余凱博士就表示,“大數(shù)據(jù)時代和更強大的計算能力,都使得數(shù)據(jù)更容易搜集,模型的訓(xùn)練速度大幅提高,過去一年里,語音搜索識別率提高了30%-50%,比過去10年提高的速度還快?!彼a充說,“移動時代的需求也和從前大不一樣了。”可以預(yù)見的是,當語音技術(shù)和市場逐漸成熟后,Siri等應(yīng)用作為語音入口的能量,必將催生新的產(chǎn)業(yè)群鏈。
未來,成熟的語音技術(shù)將使得機器的表達具備人類的情感。就像劍橋大學(xué)計算機實驗室的教授彼得·羅賓遜所希望的那樣,計算機不光要知道人們說了些什么,還要通過了解語音以外的表情、肢體語言、說話的語氣等“潛臺詞”,知道人們想要表達些什么,并與人類有感情的互動,這才是聽覺的高級體驗。