章金水
(中國移動通信集團福建有限公司,福州 350001)
人工智能作為新一輪產(chǎn)業(yè)革命的核心動力,將引發(fā)技術(shù)、產(chǎn)品、產(chǎn)業(yè)以及經(jīng)濟結(jié)構(gòu)的重大變革,帶動社會生產(chǎn)力的整體提升。從人工智能發(fā)展的技術(shù)視角看,語音、圖像、自然語言處理、機器人是當(dāng)前業(yè)界研究的熱點領(lǐng)域。其中,語音識別和自然語言處理是當(dāng)前發(fā)展最成熟及應(yīng)用最廣泛的人工智能技術(shù)。
在AI 語音交互的全球市場看,Amazon Echo 和Google Home 在該領(lǐng)域主導(dǎo)智能語音入口的發(fā)展。截止目前,谷歌已與220多個品牌的1500多種智能設(shè)備達成合作。與此同時,亞馬遜也累計發(fā)布了15款Echo 家族智能硬件產(chǎn)品,覆蓋全球1億智能硬件和數(shù)千萬用戶群體。智能語音入口作為最符合應(yīng)用場景的交互方式,將成為每個智能硬件的“標(biāo)配”,并使語音搜索成為了主流的AI 技術(shù)。
根據(jù)Strategy Analytics 的數(shù)據(jù)(圖1),全球智能家居市場2019年超千億美元,2016到2020年都保持年約20%的復(fù)合增長。面對高速增長的巨大市場,國內(nèi)的終端廠家、互聯(lián)網(wǎng)企業(yè)及各運營商都積極布局該領(lǐng)域。小米、VIVO 等手機廠商為代表的終端類企業(yè),以終端為切入點構(gòu)建智慧家庭平臺與生態(tài)系統(tǒng)。阿里、騰訊等為代表的互聯(lián)網(wǎng)企業(yè)以平臺為突破口,積極做大智慧家庭生態(tài),變現(xiàn)后向服務(wù)。
圖1 全球智能家居市場規(guī)模數(shù)據(jù)來源:Strategy Analytics 2019
智慧家庭是人類社會發(fā)展的必然階段,現(xiàn)已從單品智能邁向全屋智能。福建移動瞄準(zhǔn)當(dāng)前最為成熟的AI 語音技術(shù),通過AIUI 集成能力,打造AI 語音入口,為千家萬戶提供語音智控、隨需接入、自動響應(yīng)、逼真體驗和高性價比的綜合智能信息服務(wù),大大降低客戶的使用門檻和智能應(yīng)用的接入門檻。
AI 語音入口是以具有語音交互能力的家庭智能硬件產(chǎn)品(如手機、智能電視、音箱等),向用戶提供基于智能語音控制的影視音、娛樂、智能家居控制等智慧家庭應(yīng)用及陪伴服務(wù)。
AI語音入口能力建設(shè)不是一蹴而就的,需要長期的演化過程。按照語音識別、語義理解、語音合成和語音技能四個核心主體,對AI 語音成熟度劃分為五個等級,具體定義詳見表1。
表1 AI語音能力成熟度模型
2.2.1 語音識別
語音識別是指將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入,如文本、音頻、二進制編碼或者字符序列等格式,并支持多種方言識別。具體包括語音采集、語音識別及聲紋識別的過程。
2.2.2 語義理解
語義理解使功能單元理解說話人的意圖。即將音頻轉(zhuǎn)化成的文本解析成合理的意圖及標(biāo)簽。基于語義理解的基礎(chǔ)上,可實現(xiàn)語音多輪交互和智能終端控制。
2.2.3 語音合成
通過機械的、電子的方法產(chǎn)生人造語音的技術(shù),如:TTS(文語轉(zhuǎn)換技術(shù))技術(shù)。具體分為四個等級:語音播放、機器合成、自然合成、智能翻譯。
2.2.4 語音技能
作為AI 語音入口的核心能力,基于語音識別、語義理解和語音合成技術(shù),通過抽象、建模和分析,形成AI 客廳語音入口的用戶交互體系(即AIUI),具體包含以下技能:
(1)設(shè)備喚醒
利用特定的操控,實現(xiàn)主動喚醒能力,如遙控器的主動按鍵喚醒和設(shè)備的命令詞喚醒。
(2)應(yīng)用打開
通過語音AI 能力,快速打開設(shè)備中已經(jīng)安裝的應(yīng)用。
(3)欄目操控
實現(xiàn)內(nèi)部欄目的所見即所說能力。如說:打開綜藝欄目,實現(xiàn)應(yīng)用內(nèi)頁面的語音操控。
(4)內(nèi)容搜索
通過內(nèi)容歸一整合,搜索的邊界從傳統(tǒng)的影視內(nèi)容擴大到了IPTV/OTT 上所有內(nèi)容。
(5)多級互動
通過上述能力組合實現(xiàn)內(nèi)容語音深度交互。如:購物查詢、下單、付款及教育產(chǎn)品的中英文識字、唱歌評測等。
2.3.1 語音模型管理
語音模型管理為了更好支持語音應(yīng)用場景,設(shè)定語音識別、語義理解和語音合成方面的基礎(chǔ)參數(shù)和模型,實現(xiàn)及時準(zhǔn)確的熱詞動態(tài)擴充、快速的流式識別、定制化的發(fā)音人合成以及多結(jié)果排序。
2.3.2 語音技能管理
語音技能管理實現(xiàn)對合作伙伴的開發(fā)的語音技能進行審核、發(fā)布上線的管理。包括以下流程:申請技能開放、審核技能授權(quán)、技能開發(fā)測試、技能審批上線。
2.3.3 媒資庫管理
內(nèi)容服務(wù)商將媒資信息同步至AI 語音能力平臺,作為語音搜索素材。媒資信息包括影音、游戲、應(yīng)用及應(yīng)用內(nèi)視頻等,媒資庫管理對媒資信息進行欄目管理、索引建立、內(nèi)容審核、發(fā)布功能。
2.4.1 平臺建設(shè)方案
福建移動的AI 語音開放能力平臺,是基于智慧家庭業(yè)務(wù)平臺及智能終端開發(fā)的智能語音系統(tǒng),配套智能遙控器及客戶端SDK,具備語音識別、語義理解、語音合成、語音技能等服務(wù),面向應(yīng)用、開發(fā)者、合作伙伴提供統(tǒng)一的AI 語音能力接口,平臺創(chuàng)新地采用動態(tài)語言偵測和混語識別技術(shù)。AI 語音能力平臺主要包括五大模塊,分別是應(yīng)用層、接口層、服務(wù)層、管理層和數(shù)據(jù)層,平臺總體架構(gòu)示意圖2所示。
圖2 智能語音能力平臺總體架構(gòu)示意圖
2.4.2 應(yīng)用層
應(yīng)用層提供面向客戶的語音應(yīng)用,具體包括互聯(lián)網(wǎng)電視應(yīng)用、手機終端應(yīng)用。其中,互聯(lián)網(wǎng)電視應(yīng)用運行于IPTV 或OTT 機頂盒上,為客戶提供直播、點播、K 歌、購物、系統(tǒng)控制等語音控制功能。手機終端應(yīng)用包括移動自主研發(fā)的八閩家庭、八閩生活、和家親等APP 應(yīng)用。
2.4.3 接口層
接口層集成語音基礎(chǔ)處理能力入口,包括AIUI 的語音接口、業(yè)務(wù)接口、搜索接口,以及語音權(quán)限管理接口、安全認(rèn)證接口等。
2.4.4 服務(wù)層
服務(wù)層是語音平臺核心架構(gòu),提供語音識別、語義合成、語義理解和語音技能的關(guān)鍵服務(wù)能力。
2.4.5 管理層
管理層對支撐能力模塊進行統(tǒng)一管理和調(diào)度,提供語音模型管理、語音技能管理、媒資庫管理、大數(shù)據(jù)分析及推薦、日志管理等管理功能。
2.4.6 數(shù)據(jù)層
數(shù)據(jù)層提供分布式文件存儲和關(guān)系型數(shù)據(jù)存儲,包括語音數(shù)據(jù)、技能數(shù)據(jù)、媒資數(shù)據(jù)、日志數(shù)據(jù)以及各種數(shù)據(jù)間的對應(yīng)關(guān)系。
2.5.1 影視娛樂導(dǎo)航
通過語音AI 終端實現(xiàn)語音搜索、播放控制電視節(jié)目和影片。如說:我想看中央一套、我想看成龍電影,前進到30分鐘等即可進行直播、點播、播放控制操作。
通過語音AI 終端實現(xiàn)語音點歌和播控,如說:我想聽周杰倫的歌、調(diào)大音量等即可實現(xiàn)啟動音樂應(yīng)用、音樂搜索、控制音量、播放/暫停、快進/快退等播放操控。
2.5.2 語音生活服務(wù)
通過語音AI 終端實現(xiàn)語音購物、支付等,如說:我想買可樂、買同款、我要付款等即可實現(xiàn)搜索商品,以及在觀影過程中使用語音截屏購買影片中出現(xiàn)的物品。
2.5.3 智能家居控制
通過語音AI 終端實現(xiàn)語音控制智能家居,如說:打開空調(diào)或窗簾、關(guān)閉攝像頭等實現(xiàn)對智能設(shè)備進行控制。
至2017年起,本人致力于智慧家庭軟硬件體系的規(guī)劃設(shè)計和探索實踐,以AI 入口作為核心智慧家庭標(biāo)準(zhǔn)化頂層設(shè)計,推動產(chǎn)業(yè)鏈各方參與智慧家庭開放融合的標(biāo)準(zhǔn)化體系建設(shè)。依托AI 入口的前沿性探索,協(xié)同科大訊飛、奧比中光、華為、福諾、未來電視、易視騰等眾多合作伙伴開展智慧家庭業(yè)務(wù)創(chuàng)新,實現(xiàn)AI 語音能力成熟度模型達到Level-4級,通過培育AI 語音入口規(guī)模,構(gòu)建家庭業(yè)務(wù)生態(tài)圈。截止到2019年底,已深入對接25個生態(tài)應(yīng)用,AI 語音活躍用戶數(shù)突破70萬戶,交換次數(shù)超過3600萬次/月,通過語音入口點播大屏增值業(yè)務(wù)收入達到2.5億元。
回顧2019年AI 語音入口應(yīng)用的排行榜,福建移動智慧家庭業(yè)務(wù)最熱門的使用場景是點播,最??吹念l道是中央一套,最喜愛的電影是《哪吒》。隨著用戶AI 入口使用習(xí)慣的逐步形成,我們非??上驳目吹剑怯耙晿I(yè)務(wù)應(yīng)用場景語音交互次數(shù)占比已經(jīng)從2019年初的1%增長到年底的11%,增長點主要集中在調(diào)取應(yīng)用、音樂以及計算等方面,未來這一比例還將持續(xù)增長。
隨著5G+千兆帶寬的來臨,智慧家庭市場前景更加廣闊,福建移動借助自身在5G+千兆帶寬網(wǎng)絡(luò)經(jīng)營的獨特優(yōu)勢,以AI 為核心目標(biāo)驅(qū)動,依托多屏互動的AIUI 技術(shù),打造高忠誠高頻次的家庭核心應(yīng)用場景,實現(xiàn)對客戶美好生活的全面覆蓋,形成運營商流量紅利之后的新收入來源和穩(wěn)定客戶的業(yè)務(wù)支撐點。