移動智能終端的快速發(fā)展,為我們的生活帶了許多全新的體驗,而用戶的交互體驗也不斷發(fā)生變化,從指紋交互到語音交互,用戶不再滿足于單純的使用終端,而想要通過智能對話、及時問答等讓終端理解自己所要表達的意思,執(zhí)行相應的應答操作。依托于語音技術(shù)的快速發(fā)展,語音交互的商用落地成為可能,各大企業(yè)競相投入研發(fā)資源,蘋果、谷歌、各終端公司紛紛推出語音助手服務,個性化的語音技術(shù)解決方案也受到消費者的廣泛關(guān)注,成為目前移動智能終端上最炙手可熱的核心發(fā)展技術(shù)之一,然而為了更好地促進語音助手技術(shù)的發(fā)展,標準的制定必不可少。目前,雖然各標準組織和協(xié)會認識到語音助手標準化工作的重要性,紛紛聯(lián)合產(chǎn)學研各界制定了一系列標準,但由于標準制定時間尚短,不同組織制定的標準側(cè)重點各異,使得業(yè)內(nèi)缺乏統(tǒng)一的規(guī)范標準,無法促進當前的智能語音技術(shù)解決方案形成規(guī)?;彤a(chǎn)業(yè)化的合力。
2017年以來,社會各界紛紛開啟移動智能終端語音助手的標準化工作、成立相關(guān)的標準化工作組和發(fā)布標準文檔。
國際方面,隨著Amazon Echo的風靡,各機構(gòu)對語音助手的關(guān)注主要聚焦在智能音箱上。目前,較少有國際標準組織制定語音助手標準,一些評測機構(gòu)也是從智能化水平對各助手進行測試。
(1)Cognilytica voice assistant benchmark 1.0(July 2018)
Cognilytica 通過使用電腦合成音,分別詢問Google Assistant, Alexa, Siri和Cortana 100個問題來判斷其智能化水平。100個問題涉及概念理解類、比較類、邏輯類、常識類、IQ類等,針對不同的回答對應的智能化水平如圖1所示。
該測試對音箱的智能化水平測試較為全面,涵蓋了不同的問題類型,但缺乏一定客觀性,回答需要主觀判斷,沒有可量化的性能指標。
(2)GSMA UEX Smartphone AI Speech Recognition Performance Testing
全球移動通信系統(tǒng)協(xié)會(GSMA)是由運營商主導,與移動通信產(chǎn)業(yè)鏈各方共同成立的組織,其下設的終端推進工作組(TSG)負責移動終端技術(shù)標準的制訂,TSG工作組下的子組UEX聚焦于用戶體驗相關(guān)測試規(guī)范的制訂。
該標準主要從實際用戶體驗場景出發(fā),對語音喚醒、文本展示、語音識別、用戶意圖識別等方面提出相關(guān)要求,具體內(nèi)容如圖2所示。
圖2 Smartphone AI Speech Recognition Performance Testing
人工智能技術(shù)為語音助手帶來了新的發(fā)展機遇,為規(guī)范語音助手相關(guān)技術(shù)和評測方法,國家發(fā)布了一系列標準。2017年12月,發(fā)布的標準“中文語音識別終端服務接口規(guī)范”對中文語音識別在終端設備上提供服務的基本要求和系統(tǒng)研發(fā)提出了進一步的要求[1]。
2018年1月,由國家標準化管理委員會牽頭成立國家人工智能標準化總體組、專家咨詢組,負責人工智能標準化的規(guī)劃管理工作,推動國內(nèi)AI標準化進程。語音交互作為人工智能的熱門領域,在標準化總體組立項了一系列相關(guān)標準,標準化總體組將語音交互的應用場景分為通用規(guī)范、智能家居、智能客服、移動終端和車載終端等五個部分。其中,標準“信息技術(shù)智能語音交互系統(tǒng)第4部分:移動終端”規(guī)定了移動終端智能語音交互系統(tǒng)的術(shù)語和定義、系統(tǒng)框架、要求和測試方法,適用于移動終端智能語音交互系統(tǒng)的設計、開發(fā)、應用和維護,作為一項通用標準,對規(guī)范和推動移動終端側(cè)語音交互起到了積極作用。該標準主要內(nèi)容如圖3所示[2]。
圖3 信息技術(shù)智能語音交互系統(tǒng)第4部分:移動終端
在人工智能的浪潮下,作為國內(nèi)開展通信技術(shù)領域標準化活動的行業(yè)組織,中國通信標準化協(xié)會(CCSA)也開始了相關(guān)人工智能標準的制定。2018年,移動互聯(lián)網(wǎng)應用和終端技術(shù)工作委員會(TC11)下設的WG3終端小組聚焦人工智能終端產(chǎn)品及其關(guān)鍵技術(shù),研究和梳理人工智能終端產(chǎn)品標準體系范疇和現(xiàn)狀,并給出相關(guān)技術(shù)標準立項建議和計劃。其中,TC11 WG3于2019年7月立項《智能終端語音交互技術(shù)要求》和《智能終端語音交互測試方法》,從技術(shù)要求和測試方法兩個方面對移動智能手機語音交互進行詳細規(guī)定?!吨悄芙K端語音交互技術(shù)要求》的具體內(nèi)容如圖4所示[3]。
圖4 智能終端語音交互技術(shù)要求
國內(nèi)多家科研機構(gòu)和企業(yè)自發(fā)成立聯(lián)盟組織和產(chǎn)業(yè)協(xié)會,助力移動智能終端語音助手相關(guān)技術(shù)和評測的標準化制定。
(1)軟件綠色聯(lián)盟
軟件綠色聯(lián)盟從用戶體驗角度出發(fā),解決泛終端軟件系統(tǒng)的開放性、碎片化導致的應用問題。2019年5月,聯(lián)盟下設的標準評測組新立項“AI語音助手評測標準1.0”,制定手機智能語音相關(guān)應用的體驗標準。2019年11月標準評測組發(fā)布標準“手機智能語音交互測試標準”,規(guī)定了手機智能語音相關(guān)特性的評測指標及評測方法,具體內(nèi)容如圖5所示[4]。
圖5 手機智能語音交互測試標準
(2)電信終端產(chǎn)業(yè)協(xié)會
電信終端產(chǎn)業(yè)協(xié)會(TAF)下設多個工作組,共同開展行業(yè)相關(guān)標準及測試方法研究。其中,智能產(chǎn)品評測工作組(WG7)提供新型智能產(chǎn)品技術(shù)的研究和測試的服務,WG7于2019年10月發(fā)布標準“智能產(chǎn)品語音識別測評方法 第二部分:智能音箱”,該標準規(guī)定了智能音箱語音交互性能測評指標和測試方法,適用于指導第三方測評機構(gòu)對智能音箱的性能測評工作,具體內(nèi)容如圖6所示[5]。
圖6 智能音箱語音識別測評方法
(3)中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟
以中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟(AIIA)為代表的行業(yè)組織,也紛紛在人工智能標準方面開始布局。AIIA聯(lián)盟共有十余項在研評估規(guī)范,智能語音語義也是其聚焦的一個領域,相關(guān)評估評測活動在進行中。
語音助手讓移動終端更智能,推動相關(guān)標準的制定和評估,對于規(guī)范行業(yè)發(fā)展,提升自身影響力都有著積極作用,吸引大批企業(yè)參與行業(yè)組織和協(xié)會的討論,并對語音助手的交互能力進行相關(guān)的評測。
從2018年至2019年,中國電信發(fā)布兩期AI應用評測報告,其中語音助手主要評測不同檔位終端語音助手喚醒成功率和支持的功能,包括基礎類功能(系統(tǒng)設置、原生應用操作等)、進階類功能(第三方應用操作、智能程度)[6]。
2018年6月,中國移動從7大維度和37個指標對智能音箱的語音交互能力進行評測,評測維度從家庭使用角度出發(fā),包括聽得清、反應快、蠻友好、夠聰明、挺能干等,評測要求包括多種噪音場景下喚醒的靈敏度及準確性;開機聯(lián)網(wǎng)、本地喚醒反應和聯(lián)網(wǎng)指令反應的速度;用戶下達語音指令的理解能力;功能的廣泛程度[7]。具體評測指標如表1所示。
表1 智能音箱評測指標
語音助手的應用場景豐富,在移動智能終端上的應用更是一大熱點,國內(nèi)外紛紛推出相應的標準規(guī)范其功能和性能。目前行業(yè)內(nèi)語音助手的標準主要集中在語音測試數(shù)據(jù)集的構(gòu)建、語音助手的功能和性能要求,不同標準組織中參與成員不同,標準內(nèi)容各有側(cè)重,但都增進了移動智能終端語音助手的標準化進程。
目前,人工智能的發(fā)展如火如荼,各標準組織積極響應,在AI領域開展新立項工作,而語音領域技術(shù)的進步,也使得各組織爭先開展語音助手相關(guān)標準化工作。雖然,當前國內(nèi)外已有多份語音助手標準發(fā)布,成果顯著,但快速發(fā)展的標準化工作也存在一些問題。
從第2章節(jié)可以看出,各標準組織都開展了關(guān)于智能終端語音助手方面的標準工作,然而由于不同標準組織本身定位不同,標準內(nèi)容各有偏重,標準呈現(xiàn)過于多樣化現(xiàn)象,缺乏可以作為市場導向的標準。針對這種現(xiàn)象,歸納主要分為以下幾個方面:
(1)語音數(shù)據(jù)源:行業(yè)對語音測試數(shù)據(jù)集構(gòu)建中的聲源定義基本一致,但數(shù)據(jù)源的具體分布并未根據(jù)實際的需要做出細分,如用戶的性別、年齡、語速和流暢度等因素在實際的語音識別過程中都會對測試結(jié)果造成一定的影響。
(2)測試環(huán)境:測試環(huán)境方面行業(yè)中認知差異不大,主要區(qū)別在核心場景的選取上。一些測試標準根據(jù)背景噪音的多少劃分場景,如安靜環(huán)境、高噪環(huán)境等,一些則考慮到用戶實際使用場景進行選擇,如家居、辦公室、車載等。
(3)評測指標:在語音助手的評估中,行業(yè)的重點聚焦在語音喚醒、語音識別(ASR)、語音合成(TTS)、語義理解等所對應的相關(guān)能力評估上,在這些能力評估方面,各項指標相對全面,可以客觀評價業(yè)務能力,但也存在一些需要改進的地方。
① 聲紋識別:部分表中的喚醒指標缺失聲紋識別,用戶的手機很容易被他人誤喚醒,即所謂的誤闖問題。通過在喚醒流程中增加聲紋技術(shù)可以消除誤闖問題,雖然無法100%解決,但是為了確保用戶體驗和安全性,建議增加誤闖率指標用來衡量此部分能力的優(yōu)劣。
② ASR能力評估:行業(yè)中多用準確率進行衡量,雖然字準率(WER)、句準率(SER)均可反映語音助手的ASR能力,但與良好的用戶體驗仍有一定差距,用戶的期望是ASR的結(jié)果可以看懂,關(guān)鍵詞準確率必不可少。
③ 語義理解能力指標單一:行業(yè)中多用用戶意圖識別率(端到端)的指標來評測語義理解能力,對于各個垂類的劃分也不盡相同。
④ 缺失用戶反饋層面測量指標:作為一個完整的產(chǎn)品,應密切關(guān)注用戶對于系統(tǒng)的反饋結(jié)果,需要制定相關(guān)GUI和VUI的指標來評估此部分。
移動智能終端內(nèi)置的語音助手漸漸成為了人們生活中的一部分,但智能語音助手亦可以窺探我們?nèi)粘5纳?,例如通過智能語音助手錄制用戶談話,再通過人工對語音做標注和反饋,再用以訓練語音助手,在這個過程中我們就不經(jīng)意地被陌生人“竊聽”;同樣,音箱未喚醒狀態(tài)下會出現(xiàn)有數(shù)據(jù)流出,存在隱私泄露隱患。類似案例還有很多。
語音助手用戶隱私保護方面應該引起各界的重視,標準組織應加強智能終端語音助手隱私保護方面的內(nèi)容,健全語音助手方面的隱私權(quán)限,與智能語音服務提供商妥善溝通隱私保護的問題,保證用戶個人信息的安全。
標準應更聚焦用戶實際體驗,不應只關(guān)注技術(shù)層的規(guī)范化。通過行業(yè)發(fā)布的語音助手、智能音箱測評報告,可以發(fā)現(xiàn)語音交互存在如下問題:
(1)理解能力不足:語義理解和多輪對話能力不足,對于連續(xù)性的語音不能自主地做出明確地間隔,識別分析用戶表達的語義。
(2)喚醒率低:外噪聲場景下喚醒率低,自噪聲下喚醒困難。
(3)人機交互:相對于近場語音,遠場語音的應用距離更遠,但是前后端識別的響應率較低,無法較好的喚醒語音助手。
當前標準多是測試其單輪對話能力,測試要求門檻低,不能更好推進語音助手發(fā)展,標準組織應多參考用戶的實際體驗,發(fā)現(xiàn)語音助手在與終端交互過程中產(chǎn)生的問題,提高語音助手的理解能力、提升在嘈雜環(huán)境中的喚醒率及遠場語音的前后端交互能力。
當前,智能語音在手機等移動智能終端應用場景滲透率迅速提升,語音交互作為泛智能終端交互入口的趨勢逐漸被看好。隨著用戶對語音助手的實際體驗提高,滿意度逐漸提升,各標準組織紛紛制定語音助手的相關(guān)標準,引領整個產(chǎn)業(yè)鏈發(fā)展。本文闡述了當前國內(nèi)外對移動智能終端語音助手的標準制定現(xiàn)狀,分析了當前語音助手標準化過程中的一些不足并給出相關(guān)建議。
未來,隨著語音技術(shù)的不斷完善,對于智能終端語音助手的標準制定在保證標準多樣化的前提下,應致力于制定統(tǒng)一市場導向的標準,促進整個生態(tài)的發(fā)展。其次,標準組織應加強語音助手隱私保護方面的標準制定,建立語音助手隱私安全保護體系,減少用戶的隱私被窺探。最后,標準化的制定過程應考慮到用戶對于語音助手的實際體驗,聚焦語音助手與終端實際交互過程中產(chǎn)生的問題,豐富標準內(nèi)容,提升語音交互方面的性能,促進移動智能終端標準化進程的快速發(fā)展。同時,語音助手能力的提升離不開技術(shù)的提升和生態(tài)的建設,隨著5G時代的到來,終端和云端協(xié)同一體,低時延、高速率會帶來更佳的語音交互體驗,將給整個產(chǎn)業(yè)的標準化工作帶來更大的影響。