陳 林 洪志云
(廣東美的制冷設(shè)備有限公司 佛山 528311)
隨著智能音箱[1]和語音家電的普及,AI語音已經(jīng)逐步滲透到人們的生活中,人們?cè)絹碓綐酚谑褂谜Z音交互和控制(家電),而語音交互的體驗(yàn)也越來越被重視。2018年來,無論是國(guó)內(nèi)外AI語音方向的巨頭還是國(guó)內(nèi)的統(tǒng)一語音解決方案廠商,都發(fā)布了自己的全雙工對(duì)話技術(shù)。語音家電作為語音入口之一,無論是控制家電還是播放音樂,都實(shí)現(xiàn)了全雙工對(duì)話技術(shù)的應(yīng)用。雖然全雙工對(duì)話這種模式各大廠商都已發(fā)布,但對(duì)于該技術(shù)(功能)至今都沒有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)去規(guī)范它的技術(shù)要求和實(shí)驗(yàn)方法。而語音家電和智能音箱天然不同的應(yīng)用屬性,決定了語音家電全雙工對(duì)話技術(shù)要求和實(shí)驗(yàn)方法迫切需要定義和實(shí)踐,源于語音家電作為語音入口,因?yàn)橛锌刂频膶傩?,在全雙工對(duì)話中,噪聲很有可能誤入繼而被識(shí)別成可控制設(shè)備的指令詞,這種情況對(duì)于很多大功率家電其實(shí)是一件非常影響用戶體驗(yàn)和危險(xiǎn)的事情。
本文將聚焦語音家電全雙工對(duì)話技術(shù)的識(shí)別率、語義打斷、噪聲誤打斷3個(gè)語音性能方面的測(cè)試要求和測(cè)試方法。
語音家電全雙工對(duì)話技術(shù),實(shí)際上是語音家電錄音的同時(shí)可以播放聲音,即一邊回答問題一邊聽用戶說話,這個(gè)過程中VAD[2]是常開的。因?yàn)槭浅i_,那么噪聲(外部噪聲、回聲噪聲)就很容易誤入并被識(shí)別成有意義的指令詞。對(duì)于語音家電來說,一個(gè)有意義的指令詞很有可能會(huì)觸發(fā)家電的控制,這是我們最關(guān)心的問題?;诖耍瑢?duì)于語音家電上全雙工對(duì)話技術(shù)的應(yīng)用,我們需要較好的用戶體驗(yàn),就要在要求較高的識(shí)別率[3]的同時(shí),要求噪聲環(huán)境下的語義打斷和噪聲誤打斷指標(biāo)也要足夠好。
語音家電(雙麥)全雙工狀態(tài)下的識(shí)別率要求如表1。
表1 雙麥語音家電全雙工狀態(tài)下識(shí)別率
語音家電(雙麥)全雙工狀態(tài)下的語義打斷要求如表2。
表2 雙麥語音家電全雙工狀態(tài)下語義打斷要求
語音家電(雙麥)全雙工狀態(tài)下的噪聲誤打斷要求如表3。
表3 雙麥語音家電全雙工狀態(tài)下噪聲誤打斷要求
表4 雙麥語音家電全雙工對(duì)話技術(shù)測(cè)試設(shè)備一覽表
人工嘴位于語音家電麥克風(fēng)正前方(注:其他角度如 45 °和 135 °結(jié)果僅作為參考),水平直線距離L米(有1 m、3 m、5 m三種方案);聲級(jí)計(jì)、語音家電麥克風(fēng)位于同一平面處,噪音源與語音家電麥克風(fēng)距離≥1 m;聲級(jí)計(jì)與語音家電麥克風(fēng)盡量靠近(兩者之間距離≤50 mm),但不能碰到被測(cè)設(shè)備的外殼,避免發(fā)音震動(dòng)引起的干擾。DUT(被測(cè)物)的位置有三種情況,分別時(shí)室內(nèi)居中放置、室內(nèi)靠墻放置、室內(nèi)角落放置,具體選擇哪種位置因被測(cè)物實(shí)際使用情況而定,比如風(fēng)扇,可選擇室內(nèi)居中位置、立式空調(diào)可選擇室內(nèi)角落、電飯煲可選擇室內(nèi)靠墻等。實(shí)際測(cè)試可按照產(chǎn)品實(shí)際情況選擇圖1~6的任意兩種或者一種布局方式進(jìn)行測(cè)試。
圖1 DUT室內(nèi)居中放置噪聲朝里布局示意圖
圖2 DUT室內(nèi)居中放置噪聲朝外布局示意圖
圖3 DUT室內(nèi)靠墻放置噪聲朝里布局示意圖
圖4 DUT室內(nèi)靠墻放置噪聲朝外布局示意圖
圖5 DUT室內(nèi)角落放置噪聲朝里布局示意圖
圖6 DUT室內(nèi)角落放置噪聲朝外布局示意圖
2.3.1 識(shí)別率測(cè)試數(shù)據(jù)要求如表5。
表5 雙麥語音家電全雙工對(duì)話技術(shù)指令詞測(cè)試數(shù)據(jù)要求
2.3.2 噪聲測(cè)試數(shù)據(jù)要求如表6。
表6 雙麥語音家電全雙工對(duì)話技術(shù)噪聲測(cè)試數(shù)據(jù)要求
分別調(diào)節(jié)音箱和人工嘴音量,使前述兩種設(shè)備單獨(dú)發(fā)聲時(shí)聲級(jí)計(jì)測(cè)出的分貝值計(jì)算信噪比,所有測(cè)試均保證信噪比SNR[4]≥10 dB。用人工嘴依次播放測(cè)試集語音命令,采用自動(dòng)記錄設(shè)備記錄識(shí)別結(jié)果。需要注意的是:
1)所有測(cè)試均在產(chǎn)品結(jié)構(gòu)合理并且達(dá)到結(jié)構(gòu)設(shè)計(jì)ID的標(biāo)準(zhǔn)后進(jìn)行測(cè)試;
2)所有測(cè)試均在典型混響環(huán)境[5]下測(cè)試(T60的值在200~400 ms);
3)聲音分貝以設(shè)備接收到的聲音的分貝為準(zhǔn);
4)噪聲源的朝向(朝里、朝外)不同的情況下,準(zhǔn)確率要求不變;
5)本文提到的語音性能自動(dòng)化測(cè)試環(huán)境單位dB均為dBA。
2.4.1 識(shí)別率測(cè)試
測(cè)試環(huán)境:滿足表1的要求;
測(cè)試數(shù)據(jù):家電控制指令詞,≥100人&≥200條/人,且滿足3.3的要求;
通判標(biāo)準(zhǔn):滿足表1的要求;
測(cè)試方法:
①切換到全雙工鏈路(很多語音設(shè)備可能同時(shí)存在半雙工鏈路和全雙工鏈路),
②進(jìn)行全雙工鏈路的識(shí)別率測(cè)試:
播放喚醒詞→確認(rèn)已經(jīng)被喚醒→播放指令詞→匹配識(shí)別結(jié)果→重復(fù)上述4個(gè)步驟。
2.4.2 語義打斷測(cè)試
測(cè)試環(huán)境:滿足表2的要求。
測(cè)試數(shù)據(jù):全雙工技能指令詞,≥5人&≥100條/人,同時(shí)滿足3.3的要求。
通判標(biāo)準(zhǔn):滿足表2的要求:
-實(shí)際播放指令次數(shù)為A,
-本地記錄打斷成功次數(shù)為B,
-本地記錄打斷成功且識(shí)別正確次數(shù)為C;
腳本設(shè)計(jì):
①喚醒(判斷喚醒標(biāo)志,保證喚醒成功且上一輪全雙工已經(jīng)退出);
②本地播放有長(zhǎng)TTS下發(fā)的指令詞(判斷識(shí)別正確且成功激活全雙工狀態(tài));
③檢測(cè)到“start tts”標(biāo)志后等待1 s(期間無“end tts標(biāo)志”且無全雙工退出標(biāo)志);
④播放測(cè)試指令詞,并記錄播放時(shí)間到本地excel;
⑤等待5 s;
⑥重復(fù)①~⑥,直到待測(cè)的指令詞播完,結(jié)束自動(dòng)化測(cè)試(待測(cè)指令此總數(shù)為A)。
按照上面的步驟,每次播完一個(gè)指令詞就重新喚醒再進(jìn)入全雙工。保存200條測(cè)試指令詞測(cè)試過程中的全部嵌入式端的日志到本地,測(cè)試完成后對(duì)該日志進(jìn)行數(shù)據(jù)處理,處理方法如下:
①按照進(jìn)入全雙工&退出全雙工為一組,通過腳本分析日志并統(tǒng)計(jì)數(shù)據(jù)如表7。
表7 進(jìn)入全雙工&退出全雙工統(tǒng)計(jì)數(shù)據(jù)
②計(jì)算語義打斷精確率和召回率:
-實(shí)際播放指令次數(shù)為A;
-本地記錄打斷成功次數(shù)為B=sum N1(200組N1的和);
-本地記錄打斷成功且識(shí)別正確次數(shù)為C=sum N2(200組N2的和);
2.4.3 噪聲誤打斷測(cè)試
測(cè)試環(huán)境:滿足表3的要求。
測(cè)試數(shù)據(jù):只需要測(cè)試噪聲環(huán)境的時(shí)候按照3.3的要求準(zhǔn)備噪聲數(shù)據(jù)。
通判標(biāo)準(zhǔn):
安靜環(huán)境,全雙工狀態(tài)下,噪聲誤打斷≤0次/100輪;
噪聲環(huán)境,全雙工狀態(tài)下,噪聲誤打斷≤10次/100輪。
腳本設(shè)計(jì):
前置條件:安靜環(huán)境的測(cè)試直接執(zhí)行下述腳本,噪聲環(huán)境的測(cè)試則同時(shí)啟動(dòng)噪聲播放和下述自動(dòng)化腳本的執(zhí)行。(有條件的話,可以對(duì)測(cè)試全過程進(jìn)行錄音,方便排查問題。)
①喚醒(判斷喚醒標(biāo)志,保證喚醒成功,且上一輪全雙工已經(jīng)退出);
②播放指令詞;
③判斷進(jìn)入全雙工狀態(tài),成功進(jìn)入計(jì)數(shù)N則+1,N的初始值為0;
④等待X s(X為對(duì)話主動(dòng)退出定義的超時(shí)時(shí)間);
⑤重復(fù)①~⑤,直到N=100后結(jié)束自動(dòng)化測(cè)試。
按照上面的步驟,每次播完一個(gè)指令詞成功進(jìn)入全雙工狀態(tài)后,則一直等到該全雙工狀態(tài)自然超時(shí)退出,中間不播放除待測(cè)噪聲外的任何音頻數(shù)據(jù),隨后再重新喚醒播放指令詞進(jìn)行下一輪全雙工的觸發(fā)。保存測(cè)試過程中的全部嵌入式端的日志到本地,測(cè)試完成后對(duì)該日志進(jìn)行數(shù)據(jù)處理,處理方法如下:
①按照進(jìn)入全雙工&退出全雙工為一組,通過腳本分析日志并統(tǒng)計(jì)數(shù)據(jù)如表8。
表8 進(jìn)入全雙工&退出全雙工統(tǒng)計(jì)數(shù)據(jù)
②計(jì)算噪聲誤打斷
安靜環(huán)境和噪聲環(huán)境的測(cè)試分開統(tǒng)計(jì),噪聲誤打斷次數(shù)=sum N3(100組N3的和)。
測(cè)試報(bào)告應(yīng)包括以下內(nèi)容:
1)語音家電種類;
2)使用的測(cè)試設(shè)備;
3)測(cè)試環(huán)境的詳細(xì)描述(房間噪聲值、混響值、測(cè)試設(shè)備擺放、距離、角度);
4)測(cè)試使用的數(shù)據(jù)詳細(xì)描述;
5)表1、表2、表3中各測(cè)試項(xiàng)目的數(shù)據(jù)指標(biāo)。
采用以上測(cè)試方法,選取市場(chǎng)了一款宣稱“全雙工對(duì)話”技術(shù)的空調(diào)DF100作為試驗(yàn)樣機(jī),按照以上試驗(yàn)步驟,部分測(cè)試結(jié)果如表9,部分測(cè)試過程數(shù)據(jù)見圖7,部分測(cè)試環(huán)境見圖8。
表9 DF100全雙工語音性能部分測(cè)試結(jié)果
圖7 部分測(cè)試過程數(shù)據(jù)
圖8 部分測(cè)試環(huán)境
家電的語音功能成為近年來各大家電企業(yè)宣稱重要賣點(diǎn)之一,消費(fèi)者也從“能動(dòng)口就不動(dòng)手”的角度出發(fā),希望購買集解放雙手和娛樂為一體的語音家電,而全雙工對(duì)話技術(shù)又是家電語音功能的一大亮點(diǎn),能夠?yàn)槿藗兲峁┳匀涣鲿车囊淮螁拘讯噍唵柎鸬念惾嘶慕换ンw驗(yàn)。本文解讀了語音家電全雙工對(duì)話技術(shù)的關(guān)鍵測(cè)試指標(biāo)、測(cè)試要求和方法,并結(jié)合語音空調(diào)產(chǎn)品的測(cè)試結(jié)果,為今后各家電企業(yè)及測(cè)試機(jī)構(gòu)針對(duì)語音家電全雙工對(duì)話技術(shù)測(cè)試提供了指引方法。