沈玉姍
7月26日,小米在北京國(guó)家會(huì)議中心發(fā)布首款A(yù)I音箱。在演示視頻中,小米家居生態(tài)“米家”旗下的掃地機(jī)器人、智能臺(tái)燈、空氣凈化器在“小愛同學(xué)”的語(yǔ)音操控下如常運(yùn)轉(zhuǎn)。這家在誕生之初曾引發(fā)中國(guó)互聯(lián)網(wǎng)地震的明星公司,在過(guò)去一年逐漸卸下光環(huán),而由小米探索實(shí)驗(yàn)室牽頭研發(fā)的AI音箱,承載著小米布局智能家居版圖、重塑硬件生態(tài)閉環(huán)的使命。
然而,這已是最近兩月間,各個(gè)公司發(fā)布的第N款音箱了。
繼谷歌與蘋果分別發(fā)布音箱產(chǎn)品Google Home和HomePod,7月5日阿里的“天貓精靈”徹底引爆了國(guó)內(nèi)的智能音箱市場(chǎng)。而在此前一天,國(guó)內(nèi)最早入局的京東則再次搶先推出叮咚音箱新品TOP,對(duì)標(biāo)亞馬遜的輕量級(jí)產(chǎn)品Echo Dot。加上更早亮相的Rokid、喜馬拉雅FM,以及即將登場(chǎng)的騰訊,此前每年出貨量?jī)H幾百萬(wàn)臺(tái)的音箱單品,已成為當(dāng)下最火熱的網(wǎng)紅產(chǎn)品。
表面上,這是一場(chǎng)由Amazon Echo引發(fā)的智能音箱熱潮。實(shí)際上,產(chǎn)品背后基于語(yǔ)音交互技術(shù)打造的語(yǔ)音助手和生態(tài)體系,才是這場(chǎng)戰(zhàn)役的勝負(fù)關(guān)鍵。同一時(shí)間,騰訊、百度也相繼推出基于人機(jī)對(duì)話、面向軟硬件開發(fā)者和合作方的智能設(shè)備及服務(wù)開放平臺(tái)。
元璟資本合伙人陳洪亮認(rèn)為,聲音作為一種人機(jī)交互的無(wú)形界面,將成為下一個(gè)平臺(tái)級(jí)入口,帶來(lái)變革性的機(jī)會(huì)。
“小米系”的順為資本副總裁段譽(yù)表示,家庭、車載等封閉環(huán)境下的語(yǔ)音助手路徑在業(yè)內(nèi)來(lái)看已然清晰。從智能家居到自動(dòng)駕駛,從前端硬件設(shè)備到后端內(nèi)容服務(wù),語(yǔ)音交互已升級(jí)為“風(fēng)口級(jí)賽道”,被普遍視為能夠建立全新產(chǎn)業(yè)生態(tài)的下一代人機(jī)交互操作系統(tǒng)。智能音箱是這場(chǎng)人工智能革命席卷消費(fèi)級(jí)場(chǎng)景的首個(gè)載體,搶占語(yǔ)音風(fēng)口的戰(zhàn)爭(zhēng)剛剛開始。
扎堆音箱
中國(guó)音箱的集體大秀源于Echo的偶然成功。
2014年11月,亞馬遜上線業(yè)界第一款實(shí)現(xiàn)全語(yǔ)音交互的智能音箱產(chǎn)品Echo?;谌Z(yǔ)音交互開辟的全新用戶場(chǎng)景和應(yīng)用生態(tài),Echo發(fā)售后在銷量和口碑上逐漸攀高,入口級(jí)地位開始顯現(xiàn)。亞馬遜隨后在首頁(yè)位置進(jìn)行渠道強(qiáng)推,Echo最終在2015年的美國(guó)“黑五”期間迎來(lái)第一波銷售高峰。
同一時(shí)間,競(jìng)爭(zhēng)對(duì)手谷歌、蘋果公司囿于各自強(qiáng)大的移動(dòng)生態(tài),仍將語(yǔ)音助手視為內(nèi)置于手機(jī)、輔助觸屏交互的非核心功能。Echo由此獲得先發(fā)優(yōu)勢(shì),并最終成為亞馬遜史上最成功的硬件產(chǎn)品。
多名業(yè)內(nèi)人士評(píng)價(jià),Echo本身就是一次集天時(shí)地利人和的小概率事件。中國(guó)同行想要復(fù)制Echo卻不容易。
在Rokid創(chuàng)始人兼CEO祝銘明看來(lái),當(dāng)前基于語(yǔ)音交互的智能音箱,必須在用戶體驗(yàn)上超出長(zhǎng)期既有、搭載于屏幕的視覺交互,才能完成產(chǎn)品替代和用戶遷移。祝銘明此前擔(dān)任阿里巴巴M工作室負(fù)責(zé)人,牽頭深度學(xué)習(xí)、視覺和自然語(yǔ)言處理的研發(fā)工作,2014年7月創(chuàng)辦人工智能公司Rokid,是國(guó)內(nèi)最早研究消費(fèi)級(jí)語(yǔ)音交互場(chǎng)景的先行者之一。
事實(shí)上,音箱早已被視為是語(yǔ)音交互的理想終端,只是早期的產(chǎn)品形態(tài)大都在體驗(yàn)上不盡如人意。玩家們需要圍繞國(guó)內(nèi)用戶的使用習(xí)慣和場(chǎng)景進(jìn)行產(chǎn)品的深度打磨,才能完成智能音箱的中國(guó)式轉(zhuǎn)身。
首當(dāng)其沖的是確保音箱在音樂(lè)點(diǎn)播場(chǎng)景下的真實(shí)可用。Rokid北京A-Lab負(fù)責(zé)人高鵬告訴《21CBR》記者,對(duì)標(biāo)音樂(lè)APP的個(gè)性推薦功能,語(yǔ)音交互的優(yōu)勢(shì)在于高效直接。無(wú)論是“我要聽歌”還是“下一首”,底層算法引擎和音樂(lè)產(chǎn)品策略,時(shí)刻接收用戶指令,并綜合時(shí)間、曲庫(kù)等外部因素變化以及用戶的使用偏好,不斷糾正、生成個(gè)性化的推薦歌單。除了音樂(lè)曲庫(kù),通過(guò)與喜馬拉雅FM合作,兒童故事、小說(shuō)相聲也在Rokid的內(nèi)容體系之列。
海量?jī)?nèi)容是各家音箱在這場(chǎng)年中大秀上的亮點(diǎn),也是喜馬拉雅FM涉足音箱硬件的背后邏輯。6月,喜馬拉雅FM聯(lián)合多方發(fā)布“小雅”音箱,主打基于“一云多端”的斷點(diǎn)續(xù)播功能,能夠在多臺(tái)設(shè)備上記錄并續(xù)播此前沒有聽完的內(nèi)容。其副總裁李海波向《21CBR》記者解釋:“喜馬拉雅FM活躍用戶日均使用時(shí)長(zhǎng)已經(jīng)超過(guò)128分鐘,(通過(guò)手機(jī))已經(jīng)相當(dāng)高了,必須用小雅拿下更多的用戶時(shí)間?!?/p>
與歐美國(guó)家的音樂(lè)消費(fèi)主流不同,國(guó)人在有聲讀物方面表現(xiàn)出巨大的收聽熱情。李海波介紹,喜馬拉雅FM的激活用戶數(shù)有3.7億,有聲內(nèi)容達(dá)6000多萬(wàn)條,并且以每天百萬(wàn)條的速度不斷增長(zhǎng)。音箱成為有聲內(nèi)容向多個(gè)生活場(chǎng)景延展的理想載體,但如何讓6000多萬(wàn)條音頻順利到達(dá)用戶?
移動(dòng)電臺(tái)的有聲讀物標(biāo)題動(dòng)輒長(zhǎng)達(dá)二三十字,音箱是每次都把字一個(gè)個(gè)讀下來(lái),還是一旦完成檢索、識(shí)別就自動(dòng)停下來(lái)開始播放?產(chǎn)品策略人性化與否,常常體現(xiàn)在細(xì)微處。團(tuán)隊(duì)為此對(duì)平臺(tái)上的音頻數(shù)據(jù)進(jìn)行前端優(yōu)化,包括語(yǔ)音搜索引擎的推薦排序以及內(nèi)容標(biāo)題的關(guān)鍵信息提煉。小雅音箱的語(yǔ)音技術(shù)提供方——獵戶星空的投資人傅盛因此感慨:“人工智能,有多少智能,就有多少人工。”
相比基于PC、手機(jī)觸屏的視覺交互,語(yǔ)音交互一定程度上降低了此前交互效率低的缺點(diǎn),更適合不擅長(zhǎng)使用手機(jī)的兒童及老人。各家廠商紛紛將故事兒歌、相聲戲曲列為重要內(nèi)容構(gòu)成。京東為此聯(lián)合新東方,于2015年10月推出了內(nèi)置泡泡少兒英語(yǔ)教材的“叮咚音箱”教育定制版。而在當(dāng)年5月,京東與科大訊飛組成的合資公司“靈隆科技”才剛剛推出國(guó)內(nèi)首款智能音箱“叮咚”。
教育版“叮咚”很快成為新東方線下課堂的重要教輔工具。學(xué)生使用音箱完成教材規(guī)定的朗讀作業(yè),云端將音頻傳輸至為老師定制的手機(jī)APP,再將打分點(diǎn)評(píng)的結(jié)果自動(dòng)返回給學(xué)生。此前,這樣的課后作業(yè)環(huán)節(jié)大多以學(xué)生錄制微信語(yǔ)音,再由家長(zhǎng)代為上傳到班級(jí)微信群中的方式完成。靈隆科技CEO魏強(qiáng)告訴《21CBR》記者,教育版音箱在新東方全國(guó)的主要網(wǎng)點(diǎn)推廣試用后,受到了家長(zhǎng)的普遍歡迎,學(xué)生購(gòu)買比率超過(guò)50%。
2016年,叮咚音箱在中國(guó)智能音箱市場(chǎng)占比超過(guò)80%,魏強(qiáng)表示今年的銷量仍以100%的速度增長(zhǎng)。Rokid也宣布,其日活躍度超過(guò)50%,用戶平均使用時(shí)長(zhǎng)達(dá)1小時(shí)以上,為現(xiàn)有公開的音箱品類中最高。然而,中國(guó)智能音箱行業(yè)的整體出貨量仍在百萬(wàn)級(jí)別,在消費(fèi)電子市場(chǎng)并非可觀的品類,用戶也尚未養(yǎng)成使用語(yǔ)音的習(xí)慣,中國(guó)智能音箱秀尚需迎接來(lái)自更廣泛的市場(chǎng)和用戶的檢閱。
祝銘明說(shuō):“現(xiàn)階段最迫切的問(wèn)題是,除了內(nèi)容點(diǎn)播、天氣、鬧鐘等工具類功能之外,語(yǔ)音交互到底還適用于哪些細(xì)分場(chǎng)景?!?/p>
“喚醒”智能
祝銘明認(rèn)為,要實(shí)現(xiàn)自然的人機(jī)語(yǔ)音交互,首先要像對(duì)待朋友那樣,以兩個(gè)字的稱呼喚醒機(jī)器。
業(yè)內(nèi)對(duì)于喚醒詞的定制規(guī)則通常是4-6個(gè)漢字,音節(jié)覆蓋越長(zhǎng),相鄰音節(jié)差異越大,誤喚醒率越低。事實(shí)上,為保證實(shí)際使用時(shí)的喚醒效果,包括谷歌、蘋果在內(nèi)的國(guó)內(nèi)外廠商都將喚醒詞設(shè)置為3-4個(gè)音節(jié),比如“OK,Google”和“Hi,Siri”。
高鵬告訴《21CBR》記者,為了讓雙音節(jié)喚醒詞“若琪”達(dá)到“可用水平”,Rokid團(tuán)隊(duì)耗時(shí)近一年,將不斷收集的天使用戶語(yǔ)料用于喚醒詞的算法模型訓(xùn)練,同時(shí)調(diào)整相關(guān)的產(chǎn)品策略,比如在本地和云端添加多道驗(yàn)證,最終將室內(nèi)環(huán)境下10米以內(nèi)的“若琪”喚醒率提升至90%以上,響應(yīng)速度控制在500毫秒。
喚醒詞門檻的高低對(duì)于用戶的習(xí)慣養(yǎng)成意義重大, 喚醒詞的背后實(shí)際上是一條完整的語(yǔ)音交互技術(shù)鏈:從遠(yuǎn)場(chǎng)交互技術(shù)、麥克風(fēng)陣列,到語(yǔ)音識(shí)別、理解、合成的相關(guān)算法,對(duì)應(yīng)著音箱從“聽清”、“聽懂”到最終“開口說(shuō)話”的一系列步驟和相關(guān)軟硬件生態(tài)。阿里巴巴人工智能實(shí)驗(yàn)室負(fù)責(zé)人陳麗娟就將天貓精靈稱為“鏈路最長(zhǎng)的產(chǎn)品,任何環(huán)節(jié)出錯(cuò)都會(huì)被乘數(shù)級(jí)放大”。
Rokid是業(yè)內(nèi)少有的自主研發(fā)語(yǔ)音技術(shù)及把控產(chǎn)品全程鏈路的公司,而更多玩家則以組隊(duì)的方式“打怪升級(jí)”,逐個(gè)擊破。
Echo被視為最重要的硬件革新,主要在于產(chǎn)品頂部的6+1環(huán)形麥克風(fēng)陣列設(shè)計(jì),配合降噪處理、聲源定位等技術(shù),能夠?qū)崿F(xiàn)360°語(yǔ)音信號(hào)采集和5-10米半徑內(nèi)的語(yǔ)音識(shí)別效果,大大提升了遠(yuǎn)場(chǎng)語(yǔ)音交互體驗(yàn)。Echo發(fā)售不久,國(guó)內(nèi)語(yǔ)音技術(shù)服務(wù)商便迅速跟進(jìn)??拼笥嶏w為首款叮咚音箱配備了8個(gè)麥克風(fēng)的環(huán)形陣列;思必馳則推出國(guó)內(nèi)首個(gè)與Echo同源的麥克風(fēng)陣列,并為天貓精靈、小米提供相應(yīng)的麥陣軟硬件、語(yǔ)音識(shí)別等技術(shù)方案。
思必馳CMO龍夢(mèng)竹告訴《21CBR》記者,語(yǔ)音交互產(chǎn)品涉及各方面因素,包括環(huán)境、用戶和產(chǎn)品本身,“以算法降噪為例,麥克風(fēng)的距離角度、聲源的定位、音箱的選型,從任何一個(gè)出發(fā)點(diǎn)考慮,都會(huì)生成很多情況,是對(duì)語(yǔ)音交互能力的綜合考察,甚至可能推翻產(chǎn)品原有的工業(yè)設(shè)計(jì)方案”。
語(yǔ)音識(shí)別的算法提升,也得益于深度學(xué)習(xí)近年來(lái)在問(wèn)答式語(yǔ)音場(chǎng)景中的應(yīng)用。通過(guò)收集海量語(yǔ)音數(shù)據(jù),采用深度神經(jīng)網(wǎng)絡(luò)的端到端訓(xùn)練方法,各家在語(yǔ)音識(shí)別的準(zhǔn)確率、速度等性能表現(xiàn)日趨逼近,數(shù)據(jù)石油的開采逐漸從通用領(lǐng)域走向垂直場(chǎng)景。喜馬拉雅FM僅針對(duì)喚醒識(shí)別一項(xiàng)功能就錄制了超過(guò)8萬(wàn)條“小雅小雅”,阿里巴巴為了讓天貓精靈適應(yīng)家居場(chǎng)景則收集了大量與玻璃、木材、金融等材質(zhì)相關(guān)的噪音。
語(yǔ)音合成也離不開數(shù)據(jù)準(zhǔn)備。音箱能夠自然地“開口說(shuō)話”,背后是大量的語(yǔ)音合成工作。Rokid北京A-Lab科學(xué)家孟猛曾表示:“高品質(zhì)的語(yǔ)音合成需要精心挑選聲優(yōu),還要專業(yè)的錄音師、監(jiān)聽員,資源耗費(fèi)多,產(chǎn)品周期長(zhǎng)。語(yǔ)音識(shí)別能收集到上萬(wàn)小時(shí)的數(shù)據(jù),語(yǔ)音合成能有100小時(shí)就很不錯(cuò),需要通過(guò)算法把難度降下來(lái)?!?p>
不過(guò),多名業(yè)內(nèi)人士向《21CBR》記者解釋,數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)在帶有一定識(shí)別規(guī)則的任務(wù)式對(duì)話中表現(xiàn)突出。然而,一旦進(jìn)入自然語(yǔ)言理解環(huán)節(jié),尤其多輪對(duì)話的應(yīng)用中,需要機(jī)器調(diào)動(dòng)更接近人類思維模式的認(rèn)知和推理能力,深度學(xué)習(xí)便威力不再,音箱時(shí)常表現(xiàn)出“沒有聽懂”。距離自主學(xué)習(xí)、實(shí)現(xiàn)真正意義上的“智能”,音箱還有很長(zhǎng)一段路要走。
風(fēng)口來(lái)臨
盡管現(xiàn)階段的智能音箱仍需突破技術(shù)難關(guān),其背后初具雛形的語(yǔ)音平臺(tái)已經(jīng)讓眾多的科幻電影場(chǎng)景成為現(xiàn)實(shí)。人們看到了語(yǔ)音交互在消費(fèi)級(jí)市場(chǎng)的巨大潛力,紛紛布局生態(tài),滿城盡是“開放平臺(tái)”,風(fēng)口似乎來(lái)了。
一位投資人向《21CBR》記者描繪了這樣一幅生活場(chǎng)景:“當(dāng)我問(wèn)音箱今天什么天氣,喚醒的可能是墨跡;要聽兒童故事,背后有的是咔噠(一款兒童有聲故事App);聽歌則是網(wǎng)易云音樂(lè)。語(yǔ)音本身成為新的入口,這與移動(dòng)互聯(lián)網(wǎng)時(shí)期的手機(jī)端入口概念是不一樣的?!?/p>
從硬件到技術(shù),從內(nèi)容到數(shù)據(jù),各家看到了語(yǔ)音交互商業(yè)變現(xiàn)的種種可能,實(shí)際建立起生態(tài)體系時(shí),在方向和邏輯上卻不盡相同。
廠商普遍提及的首要任務(wù)是搭建語(yǔ)音技能平臺(tái)。截至目前,Echo銷量突破1000萬(wàn),Alexa平臺(tái)上的語(yǔ)音技能(Skills)已達(dá)1.5萬(wàn)種,布局成果超出眾人預(yù)期,亞馬遜也憑借Echo在硬件市場(chǎng)打了一記翻身仗。后來(lái)者紛紛效仿Alexa,加碼生態(tài)建設(shè),比拼技能數(shù)量,試圖以更豐富的語(yǔ)音技能應(yīng)用拉攏更多用戶。
不過(guò),根據(jù)AI觀察機(jī)構(gòu)Voicebot的統(tǒng)計(jì),Alexa平臺(tái)上擁有最多評(píng)論的前10%技能占據(jù)了80%的總評(píng)論數(shù),包括音樂(lè)、教育、資訊等大類技能,其余絕大多數(shù)技能則乏人問(wèn)津。從研發(fā)階段、產(chǎn)品化到開放給第三方開發(fā)者,Alexa跑通這條路花了5年時(shí)間。祝銘明認(rèn)為,技能并非越多越好,相比接入大量技能,現(xiàn)階段專注于核心技能的體驗(yàn)優(yōu)化更為重要。
思必馳則橫向輸出技術(shù),定位為人機(jī)交互的智能解決方案平臺(tái)。2015年,思必馳面向硬件合作方推出AIOS人機(jī)對(duì)話操作系統(tǒng),封裝了核心的語(yǔ)音技術(shù)和對(duì)話交互邏輯。7月7日,思必馳宣布打造DUI(Dialogue User Interface)開放平臺(tái)。相比AIOS,DUI更像是解決方案的自選超市,提供可定制的語(yǔ)音技術(shù)全鏈能力,“相當(dāng)于AIOS的升級(jí)版?!饼垑?mèng)竹稱。
與科大訊飛一樣,思必馳是國(guó)內(nèi)僅有的兩家具有全套語(yǔ)音技術(shù)產(chǎn)權(quán)的公司之一,專注智能硬件領(lǐng)域的技術(shù)輸出。
創(chuàng)業(yè)公司在垂直領(lǐng)域挖掘平臺(tái)深度和轉(zhuǎn)身空間,大公司則試圖一網(wǎng)打盡、打造航母級(jí)生態(tài)體系。
2015年9月,李彥宏在百度世界大會(huì)上推出基于移動(dòng)端的語(yǔ)音助手“度秘”。2016年下半年,百度加速語(yǔ)音賽道布局,將度秘改名為DuerOS,成立單獨(dú)事業(yè)部,轉(zhuǎn)型技術(shù)輸出。今年7月5日,在百度首屆開發(fā)者大會(huì)上,度秘事業(yè)部總經(jīng)理景鯤正式發(fā)布DuerOS開放平臺(tái),表示DuerOS將是人工智能時(shí)代的安卓系統(tǒng)。
京東、阿里、騰訊也先后發(fā)布平臺(tái)計(jì)劃:開發(fā)語(yǔ)音助手,建立硬件和技能平臺(tái)。與百度的不同之處則是增加了終端的音箱產(chǎn)品。BATJ均表示要以低門檻賦能智能語(yǔ)音設(shè)備,似乎都指向了一幅更大的生態(tài)圖景:智能家居。業(yè)內(nèi)普遍認(rèn)為,語(yǔ)音交互是智能硬件的關(guān)鍵入口,智能硬件又是語(yǔ)音交互的主要應(yīng)用,二者天然契合。
魏強(qiáng)告訴《21CBR》記者,通過(guò)與京東智能家居接入平臺(tái)“微聯(lián)”對(duì)接,叮咚音箱后臺(tái)已接入智能家居設(shè)備超過(guò)1000款,覆蓋燈具、空調(diào)、電視、廚具等21個(gè)品類,能夠進(jìn)行跨平臺(tái)、跨品牌的連接控制,“未來(lái),終端與平臺(tái)的關(guān)系不是1:N或N:1,而是N:N?!?/p>
更有布局硬件生態(tài)三年的小米,欲借此激活新的業(yè)務(wù)增長(zhǎng)點(diǎn)。在6月的米家年度發(fā)布會(huì)上,小米聯(lián)合創(chuàng)始人劉德透露,小米硬件生態(tài)鏈平臺(tái)MIOT已連接6000萬(wàn)臺(tái)智能設(shè)備,米家做的是“明天”的產(chǎn)品。研究機(jī)構(gòu)Statista的統(tǒng)計(jì)數(shù)據(jù)顯示,2016年全球智能家居市場(chǎng)規(guī)模已達(dá)168億美元,預(yù)計(jì)到2021年,中國(guó)市場(chǎng)比重將從7%上升至17%。
在祝銘明看來(lái),語(yǔ)音交互能夠?qū)崿F(xiàn)的多機(jī)協(xié)作、個(gè)體認(rèn)知,將帶來(lái)跨設(shè)備、跨場(chǎng)景的狀態(tài)遷移,“虛擬的若琪是跟著人走,而非跟著設(shè)備走,最終將是一個(gè)無(wú)處不在的AI”。屆時(shí),承擔(dān)語(yǔ)音入口功能的或許也不再是音箱了。龍夢(mèng)竹認(rèn)為,Echo只是Alexa生態(tài)孵化出的第一個(gè)產(chǎn)物,“音箱只是語(yǔ)音的一個(gè)載體,核心是對(duì)話交互”。
智能音箱承載著人們對(duì)人工智能和未來(lái)生活的眾多想象,但能否成為“爆款”還有待市場(chǎng)的檢驗(yàn)。