人工智能概念在2017年持續(xù)不斷升溫,語音智能音箱的入口意義逐漸被認(rèn)可。在7月初舉辦的百度AI開發(fā)者大會上,阿里人工智能實(shí)驗(yàn)室發(fā)布了第一款語音智能音箱產(chǎn)品天貓精靈X1,音箱內(nèi)置智能語音助手AliGenie,能夠聽懂中文普通話語音指令,并實(shí)現(xiàn)智能家居控制、語音購物、手機(jī)充值、音樂播放等功能,引發(fā)了廣泛關(guān)注。
事實(shí)上,早在2014年,美國亞馬遜公司就推出了基于Alexa語音助手的智能音箱Echo,起初并不引人注目,但近年來銷售量持續(xù)攀升。根據(jù)美國消費(fèi)者情報研究合作伙伴(CIRP)的報告,截至2016年年底,Echo系列產(chǎn)品在美國的銷售量已經(jīng)達(dá)到700萬臺,市場熱度可見一斑。Echo及其背后的語音助手Alexa讓亞馬遜公司一飛沖天,谷歌、蘋果等國際科技巨頭以及百度、阿里、騰訊等國內(nèi)巨頭紛紛推出自家的智能語音產(chǎn)品或者解決方案,對話式人工智能產(chǎn)業(yè)似乎馬上就要全面爆發(fā)。
在智能語音產(chǎn)品大熱的背后,我們也應(yīng)該注意到其所依托的語音交互技術(shù)在現(xiàn)階段仍存在諸多問題,人工智能技術(shù)尚處在起步期,還需要大量數(shù)據(jù)訓(xùn)練才能進(jìn)一步完善。目前的智能語音產(chǎn)品市場,存在一定的“虛火”。
目前,市場上的語音智能音箱都以語音交互作為主要的交互方式,但在具體的應(yīng)用場景中,現(xiàn)階段語音識別技術(shù)的表現(xiàn)還不夠完美。
在輸入端,讓機(jī)器“聽懂”人的語言,是人機(jī)交互的第一步。目前,很多語音識別系統(tǒng)是基于標(biāo)準(zhǔn)的發(fā)音進(jìn)行識別的,實(shí)際上,人們說話存在個體差異,發(fā)音也各不相同,各種方言、俚語更是千差萬別,這些都對語音識別提出了嚴(yán)峻的挑戰(zhàn)。系統(tǒng)在對語音進(jìn)行識別之后,還需要理解語音背后的含義,這就涉及自然語言的理解。然而,當(dāng)前的技術(shù)還只能對關(guān)鍵詞進(jìn)行內(nèi)容識別和上下文分析,不能消除自然語言中廣泛存在的歧義和多義。
在輸出端,機(jī)器“聽懂”了人類的語言后,需要像正常的人類對話一樣及時進(jìn)行反饋,這就涉及語音合成技術(shù)。目前,語音合成的自然程度和響應(yīng)速度還有很大的進(jìn)步空間。由于受到關(guān)鍵基礎(chǔ)技術(shù)的制約,語音智能音箱的語音交互還缺乏嚴(yán)格意義上的“人工智能”,對話的現(xiàn)場感還無法達(dá)到正常人類交流的水平,存在眾多需要克服的技術(shù)難點(diǎn)。
在移動互聯(lián)網(wǎng)與物聯(lián)網(wǎng)時代,產(chǎn)品智能化幾乎成為一種時代的共識,Echo的意外受捧讓人們意識到,智能音箱可能就是傳說中的物聯(lián)網(wǎng)的入口。借助人工智能和物聯(lián)網(wǎng),語音智能音箱可以將我們的想法傳達(dá)給智能設(shè)備,實(shí)現(xiàn)遠(yuǎn)程交互控制,其中的關(guān)鍵是“有物可聯(lián)”。然而,目前的智能音箱所接入的服務(wù)更多的是娛樂、購物等互聯(lián)網(wǎng)應(yīng)用,硬件類產(chǎn)品相對較少。
由于智能家居概念還處在起步階段,具有智慧功能的家電還沒有普及,傳統(tǒng)家電占據(jù)主流,加之家電類產(chǎn)品價格較高且耐用,更新?lián)Q代周期長,智能音箱實(shí)現(xiàn)其物聯(lián)網(wǎng)入口的使命還需要一定時間。同時,各大廠商都在打造自己的產(chǎn)品生態(tài)鏈,不同廠商的產(chǎn)品傳輸控制協(xié)議不同,不易互相連接控制,無法做到互聯(lián)互通。在互聯(lián)網(wǎng)內(nèi)容服務(wù)方面,國內(nèi)的內(nèi)容和服務(wù)存在割裂現(xiàn)象,音樂版權(quán)大多屬于騰訊,搜索上百度,網(wǎng)上購物在阿里,如何將各家的優(yōu)勢集中起來是很困難的事情。這些因素都制約了智能音箱在智能家居領(lǐng)域的進(jìn)一步應(yīng)用。
由于語音識別技術(shù)在現(xiàn)階段還不成熟,尤其是蘋果公司的Siri和微軟公司Cortana在智能手機(jī)上的表現(xiàn)并不盡如人意,語音輸入在國內(nèi)的接受程度不高。在美國,語音智能音箱大多擺放在廚房,這與美國住房面積較大、廚房烹飪噪聲較小有關(guān)。智能音箱的體積限制了其可移動性。語音識別技術(shù)還不能同時進(jìn)行噪聲處理和用戶身份識別,因此只能應(yīng)用于單一場景,不能很好地融合到日常生活中。
語音智能音箱在國內(nèi)的應(yīng)用還受東西方文化差異的影響,東方文化相較于西方文化的直接更加含蓄,具有更大的模糊性。由于當(dāng)前語音交互的現(xiàn)場感和即時性還不夠好,從而使東方人更加不愿意使用這類語音智能產(chǎn)品。隨著智能音箱類產(chǎn)品在美國等西方國家逐漸流行,隱私問題也逐漸顯現(xiàn)。由于語音識別技術(shù)需要大量樣本數(shù)據(jù)進(jìn)行訓(xùn)練以提高識別能力,智能音箱在采集到使用者的音頻數(shù)據(jù)后會上傳至后臺服務(wù)器進(jìn)一步分析并存儲在云端。2017年年初,亞馬遜公司的Echo就曾牽扯進(jìn)了一宗謀殺案。美國阿肯色州警方要求亞馬遜公司交出嫌疑犯家中Echo錄下的聲音信息以破解該謀殺案,但亞馬遜公司拒絕向警方提交Echo服務(wù)器上的相關(guān)信息,引發(fā)了廣泛討論。
以Echo為代表的語音智能音箱產(chǎn)品在概念上并不新鮮,很大程度得益于亞馬遜公司背后強(qiáng)大的軟件、硬件和市場資源。在硬件供應(yīng)鏈基礎(chǔ)上,打造一個能夠?qū)β曇暨M(jìn)行反饋的音箱并不難,關(guān)鍵在于如何讓音箱做到足夠智能。語音智能音箱不是簡單的硬件產(chǎn)品,而是以人工智能為基礎(chǔ)的綜合實(shí)體應(yīng)用。當(dāng)前市場的繁榮引來了眾多企業(yè)參與到這個領(lǐng)域,如果只是趕風(fēng)口、蹭熱點(diǎn),不在技術(shù)積累上扎扎實(shí)實(shí)下功夫,短暫的繁榮只會是“虛火”,未來在面對人工智能所帶來的產(chǎn)業(yè)機(jī)會面前,只會更加焦慮。