亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        語(yǔ)音助手能力評(píng)估研究及趨勢(shì)分析

        2019-02-08 07:17:24
        廣東通信技術(shù) 2019年12期
        關(guān)鍵詞:用戶(hù)功能

        1 語(yǔ)音助手應(yīng)用現(xiàn)狀

        手機(jī)語(yǔ)音助手是集成語(yǔ)音識(shí)別、語(yǔ)義理解、語(yǔ)音合成等智能語(yǔ)音語(yǔ)義技術(shù)的手機(jī)應(yīng)用。以語(yǔ)音作為輸入,完成用戶(hù)相關(guān)請(qǐng)求,解放用戶(hù)雙手,實(shí)現(xiàn)更加便捷、優(yōu)質(zhì)的交互體驗(yàn)。

        近年來(lái)語(yǔ)音交互技術(shù)的迅速發(fā)展,使其成為人工智能技術(shù)重點(diǎn)的落地方向,繼2011年蘋(píng)果推出Siri后,各大移動(dòng)智能手機(jī)廠商紛紛在產(chǎn)品中導(dǎo)入語(yǔ)音助手,例如三星Bixby、小米小愛(ài)同學(xué)、華為小E、vivo Jovi等,并進(jìn)一步推動(dòng)語(yǔ)音交互技術(shù)在移動(dòng)互聯(lián)網(wǎng)中的應(yīng)用。語(yǔ)音助手漸漸融入消費(fèi)者生活中,逐步改變?nèi)藱C(jī)交互方式。

        根據(jù)中國(guó)電信終端研究測(cè)試中心調(diào)研,如圖1所示,用戶(hù)對(duì)語(yǔ)音助手的認(rèn)知率達(dá)95.6%,使用比例為58.6%,超過(guò)一半的智能手機(jī)用戶(hù)將語(yǔ)音助手作為其交互方式之一。

        圖1 主流AI功能認(rèn)知率與使用情況

        2 技術(shù)框架與流程

        2.1 邏輯框架

        用戶(hù)首先通過(guò)喚醒設(shè)備進(jìn)入激活狀態(tài),然后通過(guò)語(yǔ)音進(jìn)行人機(jī)對(duì)話(huà)交流;手機(jī)進(jìn)行語(yǔ)音識(shí)別后,進(jìn)行一系列的處理獲得相應(yīng)的結(jié)果和服務(wù),并給予用戶(hù)反饋,其中語(yǔ)音助手VUI的反饋是通過(guò)語(yǔ)音合成實(shí)現(xiàn)。用戶(hù)在不斷的交互中獲得反饋,同時(shí)語(yǔ)音助手在不斷的交互中更新自己的知識(shí)使得系統(tǒng)更加智能。語(yǔ)音助手邏輯框架如圖2所示。

        圖2 語(yǔ)音助手邏輯框架

        2.2 技術(shù)流程

        對(duì)話(huà)式交互技術(shù)包括語(yǔ)音識(shí)別/合成、語(yǔ)義理解和對(duì)話(huà)管理3個(gè)部分。語(yǔ)音識(shí)別ASR(Automatic Speech Recognition),通過(guò)聲學(xué)模型和語(yǔ)言模型,將用戶(hù)的語(yǔ)音轉(zhuǎn)化文本。語(yǔ)義理解NLU(Natural Language Understand)將漢字序列切分成詞序列、詞性標(biāo)注、命名實(shí)體識(shí)別、文本分類(lèi)、情感分析。對(duì)話(huà)管理DM(Dialog Management),是對(duì)話(huà)式交互系統(tǒng)的核心,負(fù)責(zé)控制整個(gè)對(duì)話(huà)過(guò)程,主要包括對(duì)話(huà)上下文、對(duì)話(huà)狀態(tài)跟蹤和對(duì)話(huà)策略幾部分。對(duì)話(huà)生成NLG(Natural Language Generation),即對(duì)話(huà)生成的技術(shù)。對(duì)于任務(wù)導(dǎo)向的對(duì)話(huà)來(lái)說(shuō),NLG 基本以模板形式來(lái)實(shí)現(xiàn),對(duì)話(huà)生成的原則是符合自然語(yǔ)言交互的習(xí)慣,易于用戶(hù)理解,最快完成對(duì)話(huà)。語(yǔ)音合成 TTS(Text To Speech)是指語(yǔ)音合成技術(shù)。對(duì)話(huà)系統(tǒng)的輸出是文本形式的NLG或者指令,當(dāng)對(duì)話(huà)返回的內(nèi)容是NLG時(shí),通過(guò)TTS技術(shù)能將這些文本轉(zhuǎn)換成流暢的語(yǔ)音,播放給用戶(hù)。語(yǔ)音助手整理技術(shù)流程如圖3所示。

        圖3 語(yǔ)音助手技術(shù)流程

        3 語(yǔ)音助手測(cè)試內(nèi)容與方案

        為準(zhǔn)確地評(píng)估當(dāng)前商用智能手機(jī)的語(yǔ)音助手的能力與功能豐富性,針對(duì)語(yǔ)音助手關(guān)鍵能力與功能設(shè)定量與定性相結(jié)合的測(cè)試方案。

        3.1 測(cè)試內(nèi)容

        3.1.1 語(yǔ)音喚醒

        測(cè)試指標(biāo)包括喚醒率、誤闖率。語(yǔ)音喚醒是語(yǔ)音交互的第一步,這兩項(xiàng)指標(biāo)直接關(guān)系到到用戶(hù)的實(shí)際體驗(yàn)。

        喚醒率指語(yǔ)音助手被本人(錄入喚醒詞用戶(hù))成功喚醒的比率,主要通過(guò)多人多輪次喚醒,統(tǒng)計(jì)喚醒成功次數(shù)。

        假設(shè)智能終端在喚醒時(shí)會(huì)出現(xiàn)兩種狀態(tài),概率圖模型如圖4所示。

        (1)總共有P次類(lèi)別為1的樣本,假設(shè)類(lèi)別1為成功喚醒。

        (2)總共有N次類(lèi)別為0的樣本,假設(shè)類(lèi)別0為喚醒失敗。

        誤闖率指語(yǔ)音助手被他人成功喚醒的比率,用于評(píng)價(jià)帶聲紋語(yǔ)音喚醒的聲紋區(qū)分度的指標(biāo)。

        圖4 概率圖模型

        3.1.2 語(yǔ)音助手能力測(cè)試

        包括基礎(chǔ)類(lèi)功能測(cè)試、進(jìn)階類(lèi)功能測(cè)試兩類(lèi)。

        基礎(chǔ)類(lèi)功能測(cè)試指語(yǔ)音助手支持功能的豐富性,涵蓋端側(cè)能力、系統(tǒng)設(shè)置、原生應(yīng)用、影像、商務(wù)金融、工具助手、便捷生活、兒童和家庭。

        如:端側(cè)能力測(cè)試主要包括在離線(xiàn)狀態(tài)下,通過(guò)語(yǔ)音助手實(shí)現(xiàn)“打電話(huà)”、“發(fā)短信”、“設(shè)置鬧鐘”等高頻簡(jiǎn)易操作。

        進(jìn)階類(lèi)功能測(cè)試指語(yǔ)音助手功能所實(shí)現(xiàn)深度,此類(lèi)測(cè)試能多方位的體現(xiàn)各語(yǔ)音助手的差異。內(nèi)容包括三方應(yīng)用操作、智能水平、多輪對(duì)話(huà)。

        例如“廣州天氣怎么樣”、“明天呢”、“那上海呢”;還包括中、英、數(shù)字混合類(lèi)識(shí)別,如“美國(guó)10年期TIPS收益率創(chuàng)下歷史最低紀(jì)錄-0.87%”等。

        3.2 測(cè)試方案

        廠商均優(yōu)先從高端產(chǎn)品導(dǎo)入語(yǔ)音助手新功能功能,本次測(cè)試主要選取主流廠商中高端產(chǎn)品。包括蘋(píng)果、華為、三星、小米、OPPO、vivo等品牌的12款機(jī)型,具體機(jī)型如表1所示。

        表1 測(cè)試機(jī)型列表

        測(cè)評(píng)方案結(jié)合定量、定性指標(biāo),定量指標(biāo)包括在不同背景噪音環(huán)境下的語(yǔ)音助手喚醒指標(biāo)。涵蓋安靜場(chǎng)景(不高于45 dB)、低噪場(chǎng)景(50~60 dB)、中噪(60~65 dB),測(cè)試距離包括短距(30 cm)、中距(80 cm)。測(cè)試不同環(huán)境交叉組合下的喚醒成功率與誤闖率,單場(chǎng)景測(cè)試次數(shù)共200次,通過(guò)人工嘴播放10人語(yǔ)音喚醒數(shù)據(jù),每人20次。具體測(cè)試場(chǎng)景如表2所示。

        表2 語(yǔ)音喚醒指標(biāo)測(cè)試場(chǎng)景

        定性評(píng)估參考google action 18個(gè)一級(jí)分類(lèi),主要測(cè)試語(yǔ)音助手的功能支持與語(yǔ)義理解。在語(yǔ)音助手處于激活狀態(tài),通過(guò)人工測(cè)試定性測(cè)試用例,內(nèi)容包括語(yǔ)音助手是否支持離線(xiàn)操作、調(diào)用原生應(yīng)用、打開(kāi)第三方APP、中/英/數(shù)字混合類(lèi)識(shí)別、生活?yuàn)蕵?lè)類(lèi)服務(wù)。主要目的測(cè)試語(yǔ)音助手是否能正確的識(shí)別用戶(hù)意圖,測(cè)試用例如表3所示。

        表3 語(yǔ)音助手能力測(cè)試部分用例

        4 語(yǔ)音助手評(píng)測(cè)結(jié)果

        華為、vivo、三星機(jī)型語(yǔ)音助手功能支持相對(duì)全面。3500元以上價(jià)格段,喚醒成功率TOP3機(jī)型是華為 P30 Pro、OPPO Reno、三星note10,三星note10 近場(chǎng)喚醒表現(xiàn)穩(wěn)定,OPPO Reno遠(yuǎn)場(chǎng)喚醒成功率表現(xiàn)優(yōu)異。語(yǔ)音助手喚醒成功率在遠(yuǎn)場(chǎng)、低信噪比條件下的語(yǔ)音識(shí)別性能亟需改進(jìn)。iPhone XR與中興天機(jī)10在遠(yuǎn)場(chǎng)(80 cm)喚醒成功率下降最為明顯,安靜環(huán)境下分別下降31.5pp與29.5 pp;低噪環(huán)境下,分別下降45.5 pp與43.5 pp。

        誤闖率TOP3機(jī)型是三星note 10、OPPO Reno、華為P30 pro;在語(yǔ)音喚醒算法層面喚醒率與誤闖率強(qiáng)相關(guān),若一款終端喚醒率越高,則其越容易被誤喚醒,廠商的方案是通過(guò)平衡喚醒率與誤闖率來(lái)實(shí)現(xiàn)用戶(hù)的體驗(yàn)最佳。

        語(yǔ)音助手能力測(cè)試以定性為主,廠商差異相對(duì)較小,在完成基礎(chǔ)的垂類(lèi)功能覆蓋,根據(jù)產(chǎn)品特色進(jìn)行特定范圍功能與能力拓展?;A(chǔ)功能方面,華為P30 pro、榮耀20 pro在各自?xún)r(jià)格段表現(xiàn)更優(yōu);進(jìn)階功能方面,3 500元以上價(jià)格段,三星note 10在表現(xiàn)優(yōu)異,3 500元以下,小米9優(yōu)于其他競(jìng)品。

        5 語(yǔ)音助手發(fā)展趨勢(shì)

        隨著主流廠商手機(jī)產(chǎn)品的普遍支持,語(yǔ)音助手的宣傳噱頭、炫技期結(jié)束,手機(jī)語(yǔ)音助手開(kāi)始進(jìn)入實(shí)打?qū)嵈蚰ゼ?xì)節(jié)的階段。

        (1)語(yǔ)音識(shí)別將持續(xù)優(yōu)化。語(yǔ)音識(shí)別作為語(yǔ)音助手的底層技術(shù)核心,整個(gè)過(guò)程包含語(yǔ)音信號(hào)處理、靜音切除、聲學(xué)特征提取、模式匹配等多個(gè)環(huán)節(jié)。由于語(yǔ)音信號(hào)的多樣性和復(fù)雜性,系統(tǒng)只能在一定限制條件下才能獲得滿(mǎn)意效果,而在真實(shí)使用場(chǎng)景中,受遠(yuǎn)場(chǎng)、方言、噪音、斷句等問(wèn)題,準(zhǔn)確率下降。當(dāng)前廠商亟需在語(yǔ)音增強(qiáng)、麥克風(fēng)陣列以及多說(shuō)話(huà)人分離等多項(xiàng)技術(shù)上持續(xù)投入,并結(jié)合后端語(yǔ)義,促進(jìn)對(duì)上下文的理解,從而提升識(shí)別效果, 優(yōu)化語(yǔ)音識(shí)別魯棒性問(wèn)題。

        (2)從聽(tīng)得懂向做得到進(jìn)階,做到真正幫用戶(hù)解放雙手。手機(jī)語(yǔ)音助手越來(lái)越需要具備復(fù)雜任務(wù)處理能力,從而滿(mǎn)足用戶(hù)實(shí)用性需求。由于很多高頻用戶(hù)需求功能是微信、淘寶、百度導(dǎo)航等“APP”應(yīng)用形式實(shí)現(xiàn)的,所以手機(jī)廠商需要聯(lián)合應(yīng)用提供商,包括常用的溝通、視頻、導(dǎo)航、音樂(lè)、出行、購(gòu)物等應(yīng)用主導(dǎo)廠商,共同打造語(yǔ)音服務(wù)生態(tài),通過(guò)語(yǔ)音助手操作應(yīng)用內(nèi)深層功能。

        (3)從“被動(dòng)服務(wù)”向“主動(dòng)服務(wù)”轉(zhuǎn)變。

        當(dāng)前的語(yǔ)音助手以應(yīng)答性為主,主要根據(jù)用戶(hù)的指令反饋相關(guān)信息或者提供服務(wù),與AI情節(jié)感知結(jié)合,如何前瞻性地主動(dòng)幫用戶(hù)解決問(wèn)題是其發(fā)展的重要方向。例如當(dāng)你遲到了,語(yǔ)音助手重新預(yù)約了一次午餐會(huì)議;督促你更多地進(jìn)行運(yùn)動(dòng)鍛煉,或者節(jié)省開(kāi)支。

        為每一個(gè)手機(jī)用戶(hù)的語(yǔ)音助手配備有專(zhuān)屬的AI算法和AI資源,通過(guò)精準(zhǔn)理解用戶(hù)個(gè)體的需求,實(shí)現(xiàn)變共性滿(mǎn)足到個(gè)性滿(mǎn)足,使得手機(jī)語(yǔ)音助手真正成為更貼心、更個(gè)性、更快捷方便的私人助手,或是手機(jī)語(yǔ)音助手在較長(zhǎng)一段時(shí)期的發(fā)展趨勢(shì)。

        猜你喜歡
        用戶(hù)功能
        也談詩(shī)的“功能”
        關(guān)于非首都功能疏解的幾點(diǎn)思考
        懷孕了,凝血功能怎么變?
        媽媽寶寶(2017年2期)2017-02-21 01:21:24
        “簡(jiǎn)直”和“幾乎”的表達(dá)功能
        關(guān)注用戶(hù)
        關(guān)注用戶(hù)
        關(guān)注用戶(hù)
        Camera360:拍出5億用戶(hù)
        100萬(wàn)用戶(hù)
        如何獲取一億海外用戶(hù)
        男女18视频免费网站| 加勒比黑人在线| 国产传媒剧情久久久av| 日韩精品中文字幕第二页| 麻豆md0077饥渴少妇| 综合无码一区二区三区| 91亚洲人成手机在线观看| 中国av一区二区三区四区| 人妻久久久一区二区三区蜜臀| 成人毛片一区二区| 福利一区二区三区视频午夜观看| 国产精品综合色区av| 视频在线观看免费一区二区| 国产精品乱码一区二区三区| 专区国产精品第一页| 国产女主播视频一区二区三区| 国产一区二区三区内射| 亚洲人成人网站在线观看| 亚洲AⅤ永久无码精品AA| 操老熟妇老女人一区二区| 青青草原综合久久大伊人精品| 日韩成人大屁股内射喷水| 中出高潮了中文字幕| 九一精品少妇一区二区三区| 欧美大屁股xxxx高潮喷水| 亚洲色偷拍区另类无码专区| 四虎无码精品a∨在线观看| 少妇被爽到高潮喷水免费福利| 99精品国产一区二区三区不卡| 久久aⅴ无码av免费一区| 日韩精品中文字幕免费人妻| 日本一区二区三区免费精品| 久久99热久久99精品| 99久久综合狠狠综合久久一区| 中文字幕有码在线亚洲| 中文字幕乱码熟妇五十中出| 在线免费观看国产精品| 一二区视频免费在线观看| 亚洲2022国产成人精品无码区| 亚洲熟伦熟女新五十路熟妇| 亚洲亚洲亚洲亚洲亚洲天堂|