“商標(biāo)侵權(quán)案”并沒有影響到業(yè)界對于蘋果iPad的熱度。近日,有消息稱蘋果將在3月的第一周內(nèi)發(fā)布iPad 3,其中將會添加Siri語音功能,并在原有的英語、法語、德語基礎(chǔ)上,新增對日語的支持。
另一方面,蘋果的老對手谷歌也已經(jīng)宣稱正在開發(fā)類似Siri的語音控制技術(shù)——Majel,用來替代Android系統(tǒng)中現(xiàn)有的Voice Actions。
毫無疑問,以去年10月Siri發(fā)布為時間界限,沉寂多年的語音交互技術(shù)正在重新回到業(yè)界的關(guān)注中心。
語音“國戰(zhàn)”來襲
全球市場上,新一代語音交互技術(shù)的競爭已經(jīng)在蘋果的帶動下全面打響。在今年年初的CES展上就可以看到,語音技術(shù)已成為各大巨頭爭相投入的重點,智能手機、PC、智能電視、汽車等產(chǎn)品均引入了語音服務(wù)功能。
而在國內(nèi),從各大廠商爭相推出智能語音服務(wù)來看,中文語音市場同樣暗流涌動?!澳壳邦愃铺O果Siri的產(chǎn)品還沒推出中文版本。所以,誰能更快開發(fā)出支持中文識別的版本,誰就能占據(jù)中文語音市場的高地?!卑阶稍兗瘓F董事長張毅認為。
近日,優(yōu)視科技推出的最新UC瀏覽器8.2 Android版,已經(jīng)可以通過語音發(fā)出多種控制指令。優(yōu)視董事長兼CEO俞永福表示:“手機天生就有眼睛(攝像頭)、嘴巴(麥克風(fēng))、耳朵(聽筒)、位置(GPS),圍繞這些特性,手機與人的人機交互模式會發(fā)生更多革命性的變化?!?/p>
記者在體驗該產(chǎn)品時發(fā)現(xiàn),在瀏覽頁面過程中,只要口頭說出“前進”、“后退”、“加入書簽”即能實現(xiàn)相應(yīng)操作;所有的語音識別都會被上傳到云端進行智能語義解析,再回到終端執(zhí)行,識別的成功率相當(dāng)高。
2月16日,天貓祭出了“新花招”,網(wǎng)友只要對著麥克風(fēng)發(fā)出“喵”的聲音,就有可能獲得5元、1000元的現(xiàn)金紅包。據(jù)天貓的工作人員介紹,“喵一聲”的背后其實是“Flash聲紋比對技術(shù)”,是一種“娛樂版”的語音識別技術(shù)——聲音通過終端麥克風(fēng)搜集上傳,再通過云端提取聲紋與標(biāo)準值進行對比,最后反饋給終端用戶?!笆褂闷饋矸浅:唵畏奖?,與以前那些需要手動操作的活動相比,這個形式就省事多了?!币晃粎⒓舆^活動的用戶告訴記者。
此外,騰訊、長虹、TCL、百度等國內(nèi)廠商也紛紛推出了基于云端語音識別引擎的產(chǎn)品。
“設(shè)想一下,如果所有的人機交互操作都可以通過語音完成,這將大大減少文本輸入和功能之間的頻繁切換。隨著產(chǎn)品的更新?lián)Q代,更多的應(yīng)用程序會支持語音交互,最終有可能把終端變?yōu)橹悄軝C器人。”漢語語音技術(shù)企業(yè)科大訊飛公司董事長劉慶峰認為,隨著消費者對語音技術(shù)認識的加深,這個行業(yè)正在迎來蓬勃發(fā)展的時間窗口。
移動互聯(lián)的契機
其實,語音技術(shù)在IT界并不是一個新鮮的話題。
早在2000年,比爾.蓋茨就曾提出“未來10年是語音的時代”。而IBM、英特爾和摩托羅拉等巨頭也在語音領(lǐng)域有過多年的技術(shù)投入。不過,由于缺乏成熟的應(yīng)用產(chǎn)品,功能上僅依賴于識別終端上原有的語音指令,因此長期以來都不是消費市場上的重要概念;而在PC時代,人機交互方式被更為精確、快速的鍵盤與鼠標(biāo)所控制,這同樣導(dǎo)致了識別度低下的語音技術(shù)無法獲得市場的青睞。
現(xiàn)在,移動互聯(lián)的興起,加之相關(guān)技術(shù)的逐漸成熟,給語音這種交互方式帶來了全新的契機。
事實上,新一代語音交互技術(shù)的崛起,并不是因為在識別技術(shù)上實現(xiàn)了多大的突破,更關(guān)鍵的是將語音與智能終端以及云端后臺進行了恰到好處的整合?!扒岸耸褂昧苏Z音識別以及語音合成技術(shù);重點在后臺,集成了網(wǎng)頁搜索、知識計算、資料庫、問答推薦等各種技術(shù),彌補了過去語音技術(shù)單純依賴前端命令的局限性?!笔謾C行業(yè)資深人士海東分析道。
此外,隨著智能手機的大量普及、群體時間的不斷碎片化,個人計算中心移動化的趨勢已經(jīng)開始出現(xiàn)。對于移動終端來說,傳統(tǒng)的鍵盤與鼠標(biāo)并不能很好地滿足用戶的輸入需求;語音則能解放用戶的雙手,交互的方式更加直觀簡便,相對來說能夠獲得更好的體驗。未來,隨著交互技術(shù)的不斷演進以及使用者對人機交互的興趣逐漸濃厚,手機、電腦等電子產(chǎn)品也不再僅僅是一種工具,而是逐步轉(zhuǎn)變?yōu)轭愃瓶苹秒娪爸械臋C器人角色——“人類說話,機器理解”,交流協(xié)作的人機交流模式正在逐步實現(xiàn)。
喬布斯生前談到對Siri的展望時就曾說:“虛擬個人助理(VPA)代表著下一代互聯(lián)網(wǎng)交互方式。它通過分析交互歷史,得出個人偏好,來幫助人們解決具體的事務(wù),并通過經(jīng)驗積累變得更好?!?/p>
由此可見, 未來語音服務(wù)的準確度和服務(wù)質(zhì)量將取決于和使用者的磨合程度——使用的時間越長,后臺捕捉到的用戶個性化偏好就越多,也就意味著“私人助理”的價值是和使用時間成正比的。
不過,新一代語音交互技術(shù)在滿足消費者新鮮感的同時,仍然存在著一些問題。首先,云端智能語音解析技術(shù)確實能夠提升識別率,但由于多了“上傳-解析-回饋”的步驟,因而對速度和網(wǎng)絡(luò)流量的要求較高。尤其是在Wi-Fi和3G網(wǎng)絡(luò)基礎(chǔ)建設(shè)尚未成型的國內(nèi),這將會大幅削弱用戶體驗,影響到各種應(yīng)用的實用性。
另一方面,語音交互始終面臨著隱私的問題。在公開場合使用智能手機時,多數(shù)人并不愿意將自己的操作步驟或者想做的事情公之于眾,這時語音交互就無法很好地保護個人隱私。