李 奧,梁 博,蘇雨聃,劉含宇
(1.中國(guó)聯(lián)通網(wǎng)絡(luò)技術(shù)研究院,北京100048;2.中國(guó)聯(lián)通系統(tǒng)集成有限公司,北京
100032)
隨著人工智能相關(guān)技術(shù)飛速發(fā)展以及人們對(duì)生活品質(zhì)要求不斷提高,人工智能技術(shù)逐漸被引進(jìn)智能家居產(chǎn)品中。語(yǔ)言是人類最重要最便捷的交流方式。通過(guò)語(yǔ)音交互技術(shù)實(shí)現(xiàn)智能音箱對(duì)智能家居產(chǎn)品的控制,是目前智能家居交互入口的目標(biāo)。本文從技術(shù)和產(chǎn)業(yè)層面分析智能音箱的發(fā)展現(xiàn)狀和趨勢(shì),研究智能音箱在電信運(yùn)營(yíng)商業(yè)務(wù)中的難點(diǎn)、對(duì)應(yīng)解決方案和實(shí)際應(yīng)用部署情況,展望電信運(yùn)營(yíng)商在智能音箱產(chǎn)業(yè)的發(fā)展策略。
智能音箱是一種由人工智能與傳統(tǒng)音箱結(jié)合的產(chǎn)品,擁有了解天氣、打電話、點(diǎn)歌等基礎(chǔ)功能。借助穩(wěn)定的網(wǎng)絡(luò)連接和良好的收音效果喚醒音箱,最終實(shí)現(xiàn)人機(jī)對(duì)話。目前市場(chǎng)上智能音箱的核心功能有4個(gè),如表1所示。
隨著家居控制進(jìn)入信息化、智能化時(shí)代,智能音箱逐漸成為市場(chǎng)熱點(diǎn),其作為智能家居的入口,也將成為電信運(yùn)營(yíng)商們競(jìng)爭(zhēng)的焦點(diǎn)。
表1 智能音箱的核心功能及其具體內(nèi)容
智能音箱擁有從聽(tīng)(語(yǔ)音識(shí)別)到理解思考(語(yǔ)義理解)再到說(shuō)(語(yǔ)音合成)的完整閉環(huán)能力?;镜闹悄芤粝湔Z(yǔ)音交互流程如圖1所示。
圖1 智能音箱語(yǔ)音交互流程圖[9]
1.2.1 語(yǔ)音識(shí)別技術(shù)
語(yǔ)音識(shí)別的原理圖如圖2所示。
圖2 語(yǔ)音識(shí)別原理圖[6]
預(yù)處理模塊:包含預(yù)濾波、采樣和量化、分幀、加窗、預(yù)加重、端點(diǎn)檢測(cè)等。其中,端點(diǎn)檢測(cè)(VAD)是語(yǔ)音喚醒的重要環(huán)節(jié),它標(biāo)記語(yǔ)音信號(hào)的開(kāi)始和結(jié)束,準(zhǔn)確性直接影響語(yǔ)音識(shí)別的效果。智能音箱多采用基于隱馬爾可夫模型的語(yǔ)音喚醒模型。隱馬爾可夫模型(HMM)解決的3個(gè)問(wèn)題如表2所示。
特征提取模塊:提取語(yǔ)音信號(hào)中反映語(yǔ)音特征的若干參數(shù)。常用的有線性預(yù)測(cè)系數(shù)(LPC)、線性預(yù)測(cè)倒譜系數(shù)(LPCC)、MEL頻率倒譜系數(shù)(MFCC)。LPCC從發(fā)音模型角度出發(fā),運(yùn)算復(fù)雜度低,但是高頻干擾多、系統(tǒng)可靠性差;MFCC從聽(tīng)覺(jué)模型出發(fā),與LPCC相比,MFCC有更好的系統(tǒng)識(shí)別性能。
訓(xùn)練階段:用戶輸入訓(xùn)練的語(yǔ)音,經(jīng)過(guò)預(yù)處理及特征提取后,每個(gè)詞條取得一個(gè)特征矢量參數(shù),并作為模板保存,建立特征模板庫(kù),參與訓(xùn)練的人越多,識(shí)別的魯棒性越好。
識(shí)別階段:將輸入的語(yǔ)音信號(hào)經(jīng)過(guò)特征矢量參數(shù)提取后,生成測(cè)試模板,與參考模板進(jìn)行相似性比較,并根據(jù)一定的搜索和匹配策略找出一系列最優(yōu)的、與輸入語(yǔ)音信號(hào)匹配的模板,最后查表得出識(shí)別結(jié)果。
目前語(yǔ)音識(shí)別最常用的算法有:動(dòng)態(tài)時(shí)間規(guī)整(DTW)算法(解決說(shuō)話速度不均勻造成的識(shí)別困難)、矢量量化(VQ)、隱馬爾可夫模型(HMM)法(研究熱點(diǎn))和人工神經(jīng)網(wǎng)絡(luò)(ANN)法(語(yǔ)音識(shí)別常用的神經(jīng)網(wǎng)絡(luò)有反向傳播(BP)算法神經(jīng)網(wǎng)絡(luò)、徑向基函數(shù)網(wǎng)絡(luò)(RGF)神經(jīng)網(wǎng)絡(luò)等,雖然可以處理一些環(huán)境復(fù)雜、知識(shí)背景不清楚、推理原則不明確的問(wèn)題,但是不能很好地描述語(yǔ)音信號(hào)的時(shí)間動(dòng)態(tài)性,所以多與傳統(tǒng)識(shí)別方法結(jié)合使用)。
表2 隱馬爾可夫模型要解決的3個(gè)問(wèn)題及其解決方法和應(yīng)用
1.2.2 語(yǔ)義理解技術(shù)
語(yǔ)義理解就是將自然語(yǔ)言文本轉(zhuǎn)化為用戶的意圖?;谏疃葘W(xué)習(xí)的自然語(yǔ)言處理(NLP)技術(shù),可支持多個(gè)垂直領(lǐng)域的精準(zhǔn)語(yǔ)義解析,可以進(jìn)行新領(lǐng)域的快速擴(kuò)展。建立基于感知機(jī)的中文分詞、詞性標(biāo)注和命名實(shí)體識(shí)別框架,可以實(shí)現(xiàn)分詞、詞性標(biāo)注和命名實(shí)體識(shí)別,還可以進(jìn)行“在線學(xué)習(xí)”(或“增量訓(xùn)練”)。最后將識(shí)別結(jié)果匹配到具體的操作指令中。
1.2.3 語(yǔ)音合成技術(shù)
語(yǔ)音合成技術(shù)使智能音箱能根據(jù)文本內(nèi)容發(fā)出人類的聲音。該技術(shù)涵蓋了語(yǔ)言學(xué)、聲音學(xué)、信號(hào)數(shù)字化處理等多種技術(shù),具體流程如圖3。
語(yǔ)音合成的步驟如下:
圖3 語(yǔ)音合成流程圖[10]
a)文本整理、詞匯切分、語(yǔ)法意義分析,使智能音箱對(duì)文本信息完全理解。
b)解碼和韻律特征提取,為語(yǔ)音合成設(shè)計(jì)和規(guī)劃音頻特征(音長(zhǎng)、音強(qiáng)、音調(diào)等)。
最后合成的語(yǔ)音可以正確表達(dá)語(yǔ)義,得到音頻輸出。
智能語(yǔ)音技術(shù)剛剛落地,還需要獲取大量用戶的數(shù)據(jù)資源,通過(guò)用戶數(shù)據(jù)不斷學(xué)習(xí)訓(xùn)練,智能音箱才能更加智能。市場(chǎng)占有率和銷量會(huì)影響到智能音箱的體驗(yàn),也是智能音箱產(chǎn)品的重要影響因素。全球智能音箱的市場(chǎng)份額見(jiàn)圖4。
圖4 全球智能音箱的市場(chǎng)份額
如圖4所示,2014年11月首發(fā)的亞馬遜智能音箱(Echo)憑借其先發(fā)優(yōu)勢(shì)和豐富的產(chǎn)品,占據(jù)了市場(chǎng)41%的份額;2016年5月首發(fā)的谷歌智能音箱(google home)通過(guò)其低、中、高產(chǎn)品矩陣和用戶基礎(chǔ),占據(jù)了市場(chǎng)28%的份額,2017年7月首發(fā)的阿里巴巴智能音箱(天貓精靈)占據(jù)7%的份額,2018年2月首發(fā)的蘋(píng)果智能音箱(HomePod)占據(jù)5.9%的份額,2015年5月首發(fā)的京東智能音箱(叮咚)占據(jù)2.2%的份額,其他品牌共占據(jù)16%的份額。
1.4.1 技術(shù)發(fā)展趨勢(shì)
語(yǔ)音識(shí)別系統(tǒng)已進(jìn)入商品化階段,但是機(jī)器與人自然交流的終極目標(biāo)目前仍未實(shí)現(xiàn)。需要繼續(xù)研究解決的技術(shù)難點(diǎn)見(jiàn)表3。
語(yǔ)義理解技術(shù)是自然語(yǔ)言理解領(lǐng)域研究的熱點(diǎn),目前需要繼續(xù)研究解決的技術(shù)難點(diǎn)見(jiàn)表4。
表3 語(yǔ)音識(shí)別技術(shù)難點(diǎn)及其對(duì)應(yīng)解決方案
表4 語(yǔ)義理解技術(shù)難點(diǎn)及其對(duì)應(yīng)解決方案
語(yǔ)音合成技術(shù)未來(lái)還需要提升自然度(從句子到篇章這一級(jí)的自然度),豐富合成語(yǔ)音的表現(xiàn)力(增加年齡特征、性別特征及語(yǔ)氣語(yǔ)速特征);降低語(yǔ)音合成技術(shù)的復(fù)雜度,減小音庫(kù)容量;增加多語(yǔ)種語(yǔ)音合成,容納不同地域的方言。
1.4.2 產(chǎn)業(yè)發(fā)展趨勢(shì)
智能音箱是一個(gè)潛在而又龐大的市場(chǎng),也是家庭娛樂(lè)的延伸領(lǐng)域。國(guó)外市場(chǎng)中如亞馬遜、谷歌等互聯(lián)網(wǎng)企業(yè)多采用“走量”策略,通過(guò)大量設(shè)備搶占市場(chǎng)份額。未來(lái)智能音箱市場(chǎng)不但重視硬件銷量,還重視挖掘新盈利模式,如口播廣告、內(nèi)容訂閱服務(wù)(音樂(lè)訂閱、高級(jí)會(huì)員服務(wù)和企業(yè)解決方案)等。相比2018年美國(guó)智能音箱市場(chǎng)亞馬遜、谷歌和蘋(píng)果“三足鼎立”的態(tài)勢(shì),國(guó)內(nèi)市場(chǎng)則更復(fù)雜,京東、阿里都有相應(yīng)產(chǎn)品,在2017年底,百度、騰訊也參與進(jìn)來(lái)。
國(guó)內(nèi)智能音箱產(chǎn)業(yè)在未來(lái)仍需要深入研究解決以下問(wèn)題。
a)如何提高智能家居普及率以促進(jìn)智能音箱在家居控制中的循環(huán)發(fā)展。
b)中西方生活方式差異對(duì)智能音箱的使用率有何影響,如國(guó)外的應(yīng)用場(chǎng)景主要在客廳和廚房,國(guó)內(nèi)則是客廳和臥室。
c)廠商在開(kāi)拓語(yǔ)音交互技術(shù)過(guò)程中如何提升用戶體驗(yàn)。
d)智能音箱可能會(huì)收集越來(lái)越多的敏感數(shù)據(jù),如通話記錄、電子郵件信息、生活習(xí)慣等,如何保障用戶隱私安全也是問(wèn)題之一。
e)智能等級(jí)不清晰,外界不能以量化的方式合理評(píng)估智能音箱能力。
國(guó)內(nèi)電信運(yùn)營(yíng)商正在尋找新的收入增長(zhǎng)領(lǐng)域,目前,市場(chǎng)上主流的智能家居產(chǎn)品均需聯(lián)網(wǎng),對(duì)于擅長(zhǎng)做“管道”的運(yùn)營(yíng)商而言,進(jìn)入智能家居的門(mén)檻并不高,特別是對(duì)于技術(shù)、硬件和內(nèi)容整合都不占優(yōu)勢(shì)的國(guó)內(nèi)電信運(yùn)營(yíng)商而言,聚焦智能音箱以打通智能家居交互入口是一個(gè)好的選擇,但是目前仍面臨以下難點(diǎn),其中難點(diǎn)d)和e)為國(guó)內(nèi)電信運(yùn)營(yíng)商特有,其他為國(guó)內(nèi)外運(yùn)營(yíng)商共有。
a)價(jià)格影響?;ヂ?lián)網(wǎng)公司相對(duì)更早進(jìn)入智能音箱市場(chǎng),擁有更成熟的技術(shù)、更豐富的配套智能家居產(chǎn)品,多采用低價(jià)“走量”策略。在低價(jià)策略下,電信運(yùn)營(yíng)商很難與互聯(lián)網(wǎng)公司推出的智能音箱搶占市場(chǎng),難以形成一定的規(guī)模,降低成本難度較大。
b)盈利策略。電信運(yùn)營(yíng)商的盈利模式是通過(guò)智能音箱控制智能家居產(chǎn)品以實(shí)現(xiàn)流量變現(xiàn),這促使電信運(yùn)營(yíng)商將智能音箱與IPTV類產(chǎn)品進(jìn)行融合。但是音箱類產(chǎn)品完全不同于傳統(tǒng)電視視頻,其仍需要大量數(shù)據(jù)建模分析及運(yùn)營(yíng)優(yōu)化工作來(lái)滿足廣泛的用戶需求,以此增強(qiáng)用戶黏性,進(jìn)而達(dá)到開(kāi)拓用戶、匯聚流量的目的,最終實(shí)現(xiàn)流量變現(xiàn),為電信運(yùn)營(yíng)商帶來(lái)更大的盈利。
c)互聯(lián)網(wǎng)生態(tài)。與互聯(lián)網(wǎng)企業(yè)相比,電信運(yùn)營(yíng)商缺乏豐富的生態(tài)內(nèi)容和強(qiáng)大的消費(fèi)硬件物聯(lián)網(wǎng)。
d)捆綁補(bǔ)貼政策。國(guó)內(nèi)電信運(yùn)營(yíng)商對(duì)智能音箱的銷售主要采取與寬帶業(yè)務(wù)捆綁補(bǔ)貼的政策,保證用戶能以更低的價(jià)格買(mǎi)到高端音箱。補(bǔ)貼有助于國(guó)內(nèi)電信運(yùn)營(yíng)商的智能音箱普及,但是如果不能快速帶來(lái)相應(yīng)的增量收入,則會(huì)陷入成本泥潭。
e)“運(yùn)營(yíng)”策略。如何平衡國(guó)內(nèi)電信運(yùn)營(yíng)商和智能音箱硬件廠商的利益仍需要考慮,這關(guān)乎到雙方的盈利策略。國(guó)內(nèi)電信運(yùn)營(yíng)商不愿僅僅替硬件廠商銷售設(shè)備,變成智能音箱硬件廠商的零售渠道商,而智能音箱硬件廠商更愿意把產(chǎn)品拿到互聯(lián)網(wǎng)公司的電商平臺(tái)上銷售。
f)標(biāo)準(zhǔn)規(guī)范。各電信運(yùn)營(yíng)商都在做自己的智能音箱規(guī)范,但是目前并沒(méi)有一個(gè)統(tǒng)一的規(guī)范,而各電信運(yùn)營(yíng)商自己的規(guī)范可能不全面,或多或少地缺乏完善的智能等級(jí)評(píng)測(cè)、安全條例、防廣告規(guī)范。
g)技術(shù)水平。相較于互聯(lián)網(wǎng)企業(yè),擅長(zhǎng)做“管道”的電信運(yùn)營(yíng)商的優(yōu)勢(shì)在于其擁有成熟的通信網(wǎng)絡(luò)技術(shù),劣勢(shì)在于其涉足人工智能相關(guān)技術(shù)較晚且技術(shù)能力較弱,即便擁有自研的人工智能平臺(tái),運(yùn)營(yíng)商在語(yǔ)音識(shí)別、自然語(yǔ)言處理等模型構(gòu)建、訓(xùn)練方面仍然與互聯(lián)網(wǎng)企業(yè)存在一定差距。
根據(jù)上文提及的電信運(yùn)營(yíng)商難點(diǎn),提出了如下的解決方案。
為了避免陷入成本泥潭,國(guó)內(nèi)電信運(yùn)營(yíng)商可以加大運(yùn)營(yíng)力度,提升流量變現(xiàn)能力;控制智能設(shè)備的補(bǔ)貼水平(如對(duì)高值用戶和戰(zhàn)略業(yè)務(wù)可以適當(dāng)加大補(bǔ)貼力度),這既體現(xiàn)了經(jīng)營(yíng)的向?qū)裕彩且环N客戶經(jīng)營(yíng)的差異化手段,同時(shí)也會(huì)提升用戶的感知度,盡量避免贈(zèng)送后用戶感知度低、使用率低的局面。
為了縮小與互聯(lián)網(wǎng)企業(yè)的價(jià)格差距,同時(shí)擴(kuò)展規(guī)模,電信運(yùn)營(yíng)商可以采用與光貓、機(jī)頂盒類似的手段,統(tǒng)一標(biāo)準(zhǔn),一起降低成本。
國(guó)內(nèi)電信運(yùn)營(yíng)商可以向德國(guó)電信學(xué)習(xí),與智能音箱硬件廠商合作,通過(guò)類似于收取商場(chǎng)或者商家租金的模式,從設(shè)備商的銷售收入中獲得分成,。
電信運(yùn)營(yíng)商可以充分利用產(chǎn)業(yè)鏈資源,提出相關(guān)的標(biāo)準(zhǔn)規(guī)范。運(yùn)營(yíng)商可以利用自己的品牌優(yōu)勢(shì),作為安全保障者或第三方機(jī)構(gòu)為智能音箱產(chǎn)品做測(cè)評(píng)、評(píng)級(jí)、認(rèn)證,與互聯(lián)網(wǎng)企業(yè)聯(lián)合起草評(píng)估規(guī)范(評(píng)估規(guī)范包括語(yǔ)音識(shí)別、語(yǔ)音交互、語(yǔ)音合成、安全服務(wù)等測(cè)試),共同完成對(duì)音箱整體智能化能力的評(píng)估,為用戶的選擇提供量化依據(jù)。
電信運(yùn)營(yíng)商可以與互聯(lián)網(wǎng)企業(yè)合作,利用互聯(lián)網(wǎng)企業(yè)豐富的技術(shù)資源、生態(tài)內(nèi)容等,共同打造一款智能音箱,并集全國(guó)之力進(jìn)行線上線下的銷售,保持一致性、穩(wěn)定性的銷售政策,從而可以匯聚流量,實(shí)現(xiàn)流量變現(xiàn),達(dá)到互利共贏的目標(biāo)。
電信運(yùn)營(yíng)商需要發(fā)掘智能音箱與傳統(tǒng)IPTV業(yè)務(wù)在內(nèi)容處理和推薦業(yè)務(wù)邏輯上的差異,短期內(nèi)對(duì)用戶使用數(shù)據(jù)進(jìn)行深度分析,并依次優(yōu)化內(nèi)容運(yùn)營(yíng)工作,從而盡可能滿足更多用戶的需求,為電信運(yùn)營(yíng)商匯聚更多流量,實(shí)現(xiàn)流量變現(xiàn),帶來(lái)更大的盈利。
目前國(guó)內(nèi)外電信運(yùn)營(yíng)商在智能音箱產(chǎn)業(yè)上均部署了相應(yīng)的應(yīng)用。
中國(guó)聯(lián)通自主研發(fā)的智能音箱可以由語(yǔ)音控制IPTV機(jī)頂盒實(shí)現(xiàn)視頻點(diǎn)播、頻道切換、系統(tǒng)控制等功能,智能家居的其他智能設(shè)備控制、VoWiFi等能力將被進(jìn)一步整合融入,從而打造中國(guó)聯(lián)通智慧家庭智能語(yǔ)音生態(tài)。同時(shí)中國(guó)聯(lián)通也在積極參加智能音箱評(píng)測(cè)標(biāo)準(zhǔn)的制定工作。
中國(guó)電信與科大訊飛合作,運(yùn)用科大訊飛語(yǔ)音識(shí)別技術(shù)研發(fā)出智能音箱小翼。這款音箱是基于中國(guó)電信光纖寬帶網(wǎng)絡(luò)能力,可進(jìn)行語(yǔ)音操控的智能化終端。該音箱集4K機(jī)頂盒、高清攝像頭和藍(lán)牙音箱于一體。
中國(guó)移動(dòng)自主研發(fā)的智能AI音箱(咪咕Home音箱)具備獨(dú)特的多輪語(yǔ)音操控功能。另外音箱還與移動(dòng)通信業(yè)務(wù)相結(jié)合,通過(guò)Andlink快速連接智能家居,成為智能家居的控制入口。中國(guó)移動(dòng)也在參加智能音箱評(píng)測(cè)標(biāo)準(zhǔn)的制定工作。
德國(guó)電信發(fā)布了一款具備語(yǔ)音助理功能的智能音箱Magenta。該智能音箱的定位是連接智能家庭、電視和其他在線服務(wù)的樞紐。該智能音箱可以支持EntertainTV及Magenta SmartHome智能家居服務(wù),該音箱還能與亞馬遜的智能語(yǔ)音助理Alexa服務(wù)互聯(lián)。
電信運(yùn)營(yíng)商可以通過(guò)加大運(yùn)營(yíng)力度來(lái)提升流量變現(xiàn)的能力,控制智能設(shè)備的補(bǔ)貼水平和力度,提升客戶感知度,進(jìn)而避免陷入成本泥潭。另外,互聯(lián)網(wǎng)公司的智能音箱多以線上銷售為主,電信運(yùn)營(yíng)商的智能音箱銷售服務(wù)政策需要保持一定的穩(wěn)定性和一致性,集全國(guó)之力聚焦某幾款重點(diǎn)銷售,在形成規(guī)模后,進(jìn)而降低成本,匯聚流量,實(shí)現(xiàn)流量變現(xiàn)。電信運(yùn)營(yíng)商可以建立標(biāo)準(zhǔn)規(guī)范,增強(qiáng)對(duì)智能音箱的量化評(píng)級(jí)力度,最終才能夠真正實(shí)現(xiàn)“以智能音箱為統(tǒng)一入口,以智能家居產(chǎn)品群為核心載體,以智慧化運(yùn)營(yíng)為運(yùn)營(yíng)邏輯和流量變現(xiàn)手段,以智能家居產(chǎn)品的合作伙伴群為生態(tài)圈”。
電信運(yùn)營(yíng)商應(yīng)該抓住人工智能行業(yè)快速發(fā)展的契機(jī),學(xué)習(xí)互聯(lián)網(wǎng)企業(yè)的商業(yè)模式,大力推動(dòng)以智能音箱為首的智能家居產(chǎn)品的應(yīng)用,進(jìn)而搶占智能家居市場(chǎng),變現(xiàn)流量,提高收益。同時(shí)電信運(yùn)營(yíng)商也應(yīng)該積極關(guān)注智能音箱的安全隱患,增大對(duì)系統(tǒng)安全的投入,并推動(dòng)建立相關(guān)行業(yè)標(biāo)準(zhǔn)(如智能音箱接口、智能度測(cè)評(píng)等)。