虞秋辰,周若華*,袁慶升
(1.北京建筑大學(xué)電氣與信息工程學(xué)院,北京 102616;2.國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京 100029)
喚醒詞檢測(cè)(WWD)系統(tǒng)是語(yǔ)音助手的重要組成部分。隨著“Hey Google”、“小藝小藝”和“Siri”等語(yǔ)音助手的出現(xiàn),該系統(tǒng)的應(yīng)用越來越廣泛,攜帶它們的設(shè)備也越來越多樣化。作為一個(gè)始終處于監(jiān)聽狀態(tài)的系統(tǒng),WWD 系統(tǒng)在接收到喚醒詞后立即被觸發(fā),從而啟用后續(xù)操作。為了降低能耗并提供流暢的用戶體驗(yàn),WWD 系統(tǒng)需具有高精度、低延遲和低內(nèi)存占用率3 個(gè)特點(diǎn)。
WWD 可以借鑒關(guān)鍵詞檢測(cè)(KWS)的方法。早期的解決方案是基于大詞匯量連續(xù)語(yǔ)音識(shí)別(LVCSR)[1-3],先從音頻信號(hào)中檢測(cè)出文本內(nèi)容,再找到喚醒詞進(jìn)行喚醒。LVCSR 方法雖然可以靈活替換喚醒詞內(nèi)容,但如果在移動(dòng)設(shè)備上使用,LVCSR方法占用資源大,無法滿足要求。
一個(gè)輕量的替代方案是關(guān)鍵詞/填充隱馬爾可夫模型(HMM)[4-6]。目前深 度神經(jīng)網(wǎng)絡(luò)(DNN)-HMM(DNN-HMM)系統(tǒng)使用DNN 代替高斯混合模型(GMM)進(jìn)行聲學(xué)特征建模[6-8]。
對(duì)于低資源的WWD,很多基于純粹神經(jīng)網(wǎng)絡(luò)的WWD 系統(tǒng),即基于DNN 的系統(tǒng)不使用任何序列模型。由于不需要復(fù)雜的序列搜索算法,這些WWD 系統(tǒng)具有更高的計(jì)算效率。該方法最早由Google 公司在2014 年提出[9]。它直接使用全連接前饋神經(jīng)網(wǎng)絡(luò)(FFNN)來估計(jì)單詞后驗(yàn)概率的序列,然后使用后處理方法來檢測(cè)關(guān)鍵詞。在這種范式下,許多DNN 架構(gòu)被提出來替代FFNN[10-12]。DNN 的優(yōu)點(diǎn)是可以通過改變DNN 中的參數(shù)數(shù)量來靈活地改變模型的大小,并且可以部署在硬件有限的設(shè)備上,這擴(kuò)展了WWD 系統(tǒng)的使用場(chǎng)景。如果希望在WWD 系統(tǒng)中使用序列級(jí)訓(xùn)練準(zhǔn)則,如CTC[13-14]和LF-MMI[15],則建模單元將是音素或HMM 狀態(tài)。然而,與自動(dòng)語(yǔ)音識(shí)別(ASR)相比,WWD 系統(tǒng)不一定需要序列對(duì)序列模型,因?yàn)樗惶蕾囉陂L(zhǎng)范圍的時(shí)間依賴。
WWD 系統(tǒng)面臨的一個(gè)問題就是難以選擇合適大小的檢測(cè)窗口。例如,對(duì)于一個(gè)有3 個(gè)音節(jié)的中文喚醒詞,其持續(xù)時(shí)間范圍可能為300 ms~2 000 ms。如果使用長(zhǎng)度為1 000 ms 的窗口檢測(cè)喚醒詞,就會(huì)導(dǎo)致在檢測(cè)短于1 000 ms 的喚醒詞的同時(shí),受到窗口內(nèi)非喚醒詞音頻的干擾;當(dāng)檢測(cè)長(zhǎng)于1 000 ms 的喚醒詞時(shí),無法對(duì)喚醒詞的全局信息進(jìn)行檢測(cè)。面對(duì)這個(gè)問題,一些研究采取兩階段方法[7-8],利用第一階段的DNN-HMM 系統(tǒng)確定喚醒詞在語(yǔ)音流中的候選片段,提取候選片段的段級(jí)或音素級(jí)的有區(qū)分性的特征,傳遞給第二階段的分類器進(jìn)行檢測(cè)。
本文提出一種基于純粹神經(jīng)網(wǎng)絡(luò)的多模型融合的WWD 方法,分別使用2 個(gè)窗口長(zhǎng)度不同的CNN模型檢測(cè)喚醒詞。運(yùn)用Ghost-SE-Res2Net 結(jié)構(gòu)模塊作為WWD 的小窗口檢測(cè)模型和大窗口檢測(cè)模型。由于在流式檢測(cè)時(shí),使用單一長(zhǎng)度窗口檢測(cè)會(huì)降低檢測(cè)效果,因此使用小窗口檢測(cè)部分的喚醒詞,大窗口檢測(cè)完整的喚醒詞,融合2 個(gè)模型的后驗(yàn)概率,確定喚醒詞是否被觸發(fā)。由于設(shè)計(jì)WWD 系統(tǒng)時(shí)希望盡可能減少內(nèi)存占用和計(jì)算消耗,因此提出模型都是基于擠壓與激勵(lì)殘差網(wǎng)絡(luò)(SE-Res2Net)架構(gòu)的二元分類器[16]。SE-Res2Net 的多重縮放機(jī)制能夠提高WWD 的檢測(cè)能力,并且相比ResNet,參數(shù)量更少。在此基礎(chǔ)上,使用Ghost 卷積[17]替代SE-Res2Net 中的普通卷積,以縮減模型參數(shù)量。
本文提出的多模型融合WWD 系統(tǒng)如圖 1 所示。系統(tǒng)主要有兩部分組成:小窗口喚醒詞檢測(cè)器Q1和大窗口喚醒詞檢測(cè)器Q2。Q1通過檢測(cè)由小滑動(dòng)窗處理得到的子頻譜圖,而Q2則檢測(cè)較大的子頻譜圖。由于WWD 中使用的深度神經(jīng)網(wǎng)絡(luò)無法同時(shí)很好地利用短期和長(zhǎng)期的時(shí)間依賴,本文結(jié)合小窗口和大窗口模型的后驗(yàn)概率來決定喚醒詞是否觸發(fā)。
圖1 多模型融合喚醒詞檢測(cè)系統(tǒng)Fig.1 Multi-model fusion wake-up word detection system
本文使用的Res2Net 模塊如圖2(b)所示,Res2Net 模塊由文獻(xiàn)[18]提 出。Res2Net 模塊是ResNet 模塊的擴(kuò)展。在Res2Net 模塊中,輸入特征圖被分成多個(gè)分支,每個(gè)分支使用不同的擴(kuò)張率進(jìn)行卷積。這些分支的輸出被連接并通過一個(gè)瓶頸層,該層降低了特征圖的維度。Res2Net 模塊的主要思想是通過增加分支數(shù)和每個(gè)分支內(nèi)卷積核的擴(kuò)張率,可以更有效地捕獲多尺度特征。
圖2 瓶頸模塊,Res2Net 模塊和SE-Res2Net 模塊Fig.2 Bottleneck module,Res2Net module,and SERes2Net module
Res2Net 的輸入是一個(gè)特征圖,其通道數(shù)為C,尺寸為H×W。如圖2(b)所示,在經(jīng)過一個(gè)1×1 卷積后,按照通道維度,輸入特征圖被均勻地分成s個(gè)子集,表示為xi,其中i?{1,2,…,s}。除x1外,每一個(gè)xi都經(jīng)過一個(gè)3×3 的卷積核Ki()。從i=3 開始,在輸入Ki()之前,xi先與Ki-1()的輸出相加。過程如式(1)所示:
擠壓與激勵(lì)模塊(SE block)通過顯式地建模通道間的相互依賴關(guān)系,可以為通道分配不同的權(quán)重,從而提高模型檢測(cè)喚醒詞的能力[19]。如圖2(c)所示,將Res2Net 模塊和SE 模塊堆疊在一起,構(gòu)成SERes2Net 模塊。
SE-Res2Net 模塊通過對(duì)多個(gè)分支進(jìn)行卷積操作提取多尺度特征,但該過程帶來了大量的計(jì)算成本。為了減少計(jì)算量,文獻(xiàn)[17]使用Ghost 模塊生成幻影特征圖(GFM),利用一部分特征即可生成更大的特征圖。
Ghost 模塊的計(jì)算過程如圖3 所示。首先采用一般卷積生成通道數(shù)較少的特征圖Y',由于通道數(shù)較少,這一步消耗的計(jì)算資源也較少,然后通過線性變換,即?i()操作,得到幻影特征圖,最后將本體特征圖和幻影特征圖拼接得到Y(jié)。?i()操作雖然也是常規(guī)的內(nèi)核卷積,但僅在一個(gè)通道上進(jìn)行卷積,減少了計(jì)算消耗。
圖3 Ghost 模塊Fig.3 Ghost module
假設(shè)輸入特征圖X?Rh×w×c、Y'=X?f、f?Rc×k×k×m為卷積核,則Y'?Rm×h/×w'。
Y'生成幻影特征圖如式(2)所示:
其中:m表示Y'的通道數(shù)為第i個(gè)通道;j表示進(jìn)行的第j次線性變換。
設(shè)每次使用的內(nèi)核大小為d×d,Ghost 模塊的理論計(jì)算加速比rs和參數(shù)壓縮比rc如式(3)、式(4)所示:
從式(3)、式(4)可以看出,相比一般的卷積,Ghost 卷積在計(jì)算速度和參數(shù)量縮小上都有s倍提高。
本文使用的Ghost-SE-Res2Net 模塊如圖4 所示,通過將3×3 的卷積核Ki()替換成Ghost 模塊,可有效縮減模型的參數(shù)量。
圖4 Ghost-SE-Res2Net 模塊Fig.4 Ghost-SE-Res2Net module
當(dāng)檢測(cè)喚醒詞時(shí),在一個(gè)檢測(cè)窗內(nèi)不是每一幀都提供平等的喚醒詞信息,比如喚醒詞兩端的非喚醒詞音頻和伴隨著喚醒詞的背景噪聲,這些幀的信息就應(yīng)該被忽略。當(dāng)使用全局平均池化層(GAP)時(shí),分配給每一幀的權(quán)重是相同的,這意味著神經(jīng)網(wǎng)絡(luò)不能像人耳一樣關(guān)注喚醒詞部分,忽略不相關(guān)的部分。因此,本文使用如圖5 所示的注意力池化層(ATP)[20]代替Res2Net 網(wǎng)絡(luò)中的GAP,利用注意力機(jī)制獲得更便于檢測(cè)的嵌入特征e(i)。GAP 生成嵌入特征的原理如式(5)所示:
其中:T是頻譜圖H(i)的長(zhǎng)度。
對(duì)頻譜圖H(i)中的每一幀ht,GAP 分配的權(quán)重是固定的αt=1/T,而注意力池化為每一幀ht分配一個(gè)權(quán)重αt,該權(quán)重是通過注意力機(jī)制學(xué)習(xí)得到的。首先通過學(xué)習(xí)得到標(biāo)量分?jǐn)?shù)st,如式(6)所示:
其中:v、W、b是所有ht共享的可訓(xùn)練參數(shù)。
然后使用標(biāo)量分?jǐn)?shù)計(jì)算歸一化權(quán)重αt,如式(7)所示:
最后計(jì)算得到嵌入特征e(i),如式(8)所示:
Q1和Q2都是二元分類器。在本文中,Q1和Q2為分別訓(xùn)練得到,從驗(yàn)證集中選擇表現(xiàn)最好的模型來搭建WWD 系統(tǒng)。為了簡(jiǎn)化設(shè)計(jì),WWD 系統(tǒng)中使用了相同的Ghost-SE-Res2Net 模塊結(jié)構(gòu)來構(gòu)建兩個(gè)模型。
本文使用的Ghost-SE-Res2Net架構(gòu)的原始版本由文獻(xiàn)[16]提供,它具有5個(gè)卷積階段(Conv 1~Conv 5)、全局平均池化層和全連接層。
為了減少模型參數(shù),通過修改網(wǎng)絡(luò)架構(gòu),替換全局平均池化層為注意力池化層,由于使用的是二維卷積,為使用一維的注意力池化層,增加一個(gè)1×1 卷積層。將輸出通道從[16,32,64,128]減少到[4,8,16,32],刪除Conv 5 階段,并調(diào)整了Conv 1 階段的最后一個(gè)核的步長(zhǎng)為2,得到Ghost-SE-Res2Net。作為對(duì)比,本文使用文獻(xiàn)[16]中的SE-Res2Net 和ResNet50 作為基線。SE-Res2Net 是將Ghost-SERes2Net 中的Ghost-SE-Res2Net 模塊替換為SERes2Net 模塊實(shí)現(xiàn)的。同時(shí),也對(duì)ResNet50 進(jìn)行相同的修改,降低模型參數(shù)量。多模型融合WWD 系統(tǒng)中的參數(shù)量是Q1和Q2中參數(shù)量的總和。本文使用的網(wǎng)絡(luò)具體結(jié)構(gòu)如表1 所示。
表1 ResNet50、SE-Res2Net 和Ghost-SE-Res2Net 模塊結(jié)構(gòu)Table 1 ResNet50,SE-Res2Net,and Ghost-SE-Res2Net module structures
由于Q1和Q2均以子頻譜圖作為輸入,在訓(xùn)練時(shí),使用在線困難樣本挖掘(OHEM)算法[21]自動(dòng)選擇難以識(shí)別的子頻譜圖進(jìn)行訓(xùn)練。
以數(shù)據(jù)集中的喚醒詞Nihao Wenwen 為正樣本,在訓(xùn)練時(shí)經(jīng)過滑動(dòng)窗的切片,子頻譜圖中可能包含Nihao、Nihao Wen 或者Haowen 等,某些子頻譜圖可能更難與負(fù)樣本區(qū)分開,因此,訓(xùn)練時(shí)使用OHEM 交叉熵?fù)p失函數(shù),如式(9)、式(10)所示,選擇一個(gè)批中損失值較大的樣本進(jìn)行訓(xùn)練。
其中:loga(p)是經(jīng)過網(wǎng)絡(luò)的輸出值;t是樣本標(biāo)簽;Knum是保留訓(xùn)練的樣本數(shù)。
將WWD 任務(wù)視作一個(gè)端到端二元分類任務(wù),當(dāng)檢測(cè)一個(gè)預(yù)定義的喚醒詞時(shí),其他喚醒詞作為負(fù)樣本。
對(duì)每個(gè)檢測(cè)窗的音頻信號(hào)的頻譜圖特征H(i)=,喚醒詞檢測(cè)器Q1或Q2會(huì)為其分配一個(gè)分?jǐn)?shù)由于Q1和Q2的檢測(cè)窗口長(zhǎng)度不同,在流式推理時(shí)中的最大值和(i)的平均值yf(i)>γ,表明喚醒詞被觸發(fā),閾值γ?(0,1)。
本文在Mobvo(iSLR87)公開數(shù)據(jù)集上驗(yàn)證所提方法的有效性。該數(shù)據(jù)集包含大約225 h 的數(shù)據(jù),共255 297 條音頻。數(shù)據(jù)采集自商用智能音箱,共有年齡3 歲到65 歲的788 名受試者。在1、3、5 m 的距離上采集每個(gè)受試者的關(guān)鍵詞和非關(guān)鍵詞數(shù)據(jù),并伴隨著不同信噪比(SNR)的背景噪聲(典型的家庭環(huán)境噪聲,如音樂和電視)。非關(guān)鍵詞數(shù)據(jù)共有大約187 h。其余每個(gè)音頻中都包含一個(gè)Hi Xiaowen 關(guān)鍵詞或一個(gè)Nihao Wenwen 關(guān)鍵詞。數(shù)據(jù)集的詳細(xì)信息如表2 所示。
表2 數(shù)據(jù)集統(tǒng)計(jì)信息(音頻數(shù))Table 2 Dataset statistics(number of audio files)單位:條
所有實(shí)驗(yàn)均使用Librosa庫(kù)[22]提取音頻的256 維Mel 頻譜圖特征。Mel 頻譜圖特征通過25 ms 幀長(zhǎng)和10 ms 幀移計(jì)算得到。
通過對(duì)訓(xùn)練集進(jìn)行抽樣統(tǒng)計(jì),發(fā)現(xiàn)99%的喚醒詞樣本的長(zhǎng)度在200 幀以下。因此,對(duì)于Q1,對(duì)不同的喚醒詞使用不同參數(shù)的滑動(dòng)窗。Hi Xiaowen 使用窗長(zhǎng)75 幀、窗移30%的滑動(dòng)窗,Nihao Wenwen 則使用窗長(zhǎng)100 幀、窗移30%的滑動(dòng)窗。對(duì)于Q2,不管是Hi Xiaowen 還是Nihao Wenwen,都使用窗長(zhǎng)200 幀、窗移30%的滑動(dòng)窗。當(dāng)頻譜圖長(zhǎng)度不滿足時(shí),使用0填充。
Ghost 模塊的壓縮比rc為4。此外,分類器的訓(xùn)練目標(biāo)為使用交叉熵?fù)p失的Softmax。Adam 優(yōu)化器的初始學(xué)習(xí)率設(shè)置為0.000 2。在訓(xùn)練的前5 代中,使用OHEM 交叉熵?fù)p失函數(shù),選擇每個(gè)mini-batch中損失值最大的前75%的樣本參與訓(xùn)練,之后使用一般的交叉熵?fù)p失函數(shù)。同時(shí),在前5 代中使用SpecAugment 策略[23]對(duì)數(shù)據(jù)進(jìn)行擴(kuò)充。對(duì)于每個(gè)訓(xùn)練音頻,隨機(jī)選擇0~30 個(gè)連續(xù)幀,將所有的Mel 濾波器設(shè)為0 進(jìn)行時(shí)間遮掩。對(duì)于頻率遮掩,隨機(jī)選擇256 個(gè)Mel 濾波器中的0~20 個(gè)連續(xù)維度,在所有幀上將它們的值設(shè)置為0。每個(gè)模型至少訓(xùn)練20 代,如果在驗(yàn)證集上的損失沒有降低,則終止訓(xùn)練。
在喚醒詞檢測(cè)時(shí),人們關(guān)心的是“在非喚醒詞的負(fù)樣本中每小時(shí)發(fā)生的錯(cuò)誤接受(FAH)少于特定次數(shù)的情況下,錯(cuò)誤拒絕(FR)占實(shí)際喚醒詞出現(xiàn)次數(shù)的比例”。因此,實(shí)驗(yàn)通常報(bào)告在預(yù)先指定的FAH 值下的錯(cuò)誤拒絕率(FRR)以供評(píng)估[24]。FAH 的值在0.1~1.0 次之間。本文中采用的評(píng)價(jià)指標(biāo)為FAH 為0.5 次時(shí)的FRR,即每小時(shí)錯(cuò)誤接受0.5 次情況下的錯(cuò)誤拒絕率。
本文所提的兩階段WWD 方法基于Python 編程語(yǔ)言實(shí)現(xiàn),采用CUDA v11.0 和PyTorch v1.9 深度學(xué)習(xí)框架。硬件設(shè)備配置為1 塊Intel 2.3 GHz Xeon?CPU 和1 塊NVIDIA Tesla V100S GPU。
1)Ghost-SE-Res2Net 的有效性
為了驗(yàn)證本文所提的Ghost-SE-Res2Net 模塊的有效性,將其與ResNet50 和SE-Res2Net 進(jìn)行對(duì)比。
不同模型對(duì)多模型融合系統(tǒng)的影響結(jié)果如圖6所示,并且所有的檢測(cè)誤差權(quán)衡曲線都是通過掃描閾值γ得到的。
圖6 不同模型對(duì)多模型融合系統(tǒng)的影響Fig.6 The impact of different models on multi-model fusion system
使用Ghost-SE-Res2Net 模塊的多模型融合系統(tǒng)在2 個(gè)喚醒詞上的表現(xiàn)都是最好的,比使用SE-Res2Net 的系統(tǒng)在2 個(gè)喚醒詞上分別有相對(duì)37%和23%的FRR 下降,比使用ResNet50 的系統(tǒng)在兩個(gè)喚醒詞上有著相對(duì)52%和57%的FRR 下降。這表明Ghost-SE-Res2Net 模塊能夠有效提升WWD 的性能。
2)困難樣本挖掘的有效性
為了分析困難樣本挖掘?qū)ο到y(tǒng)性能的影響,本文進(jìn)行對(duì)比實(shí)驗(yàn),選擇在訓(xùn)練時(shí)的前0、5、10、20 代使用OHEM 交叉熵?fù)p失函數(shù)。實(shí)驗(yàn)結(jié)果如表3所示。
表3 使用OHEM 交叉熵?fù)p失函數(shù)的代數(shù)Table 3 Number of epochs using the OHEM crossentropy loss function
在兩個(gè)喚醒詞上,在前5 代使用OHEM 交叉熵?fù)p失函數(shù)比不使用OHEM 交叉熵?fù)p失函數(shù)分別有相對(duì)39%和37%的FRR 下降。而繼續(xù)增加使用OHEM交叉熵?fù)p失函數(shù)的代數(shù)則會(huì)降低WWD 性能,其中,前20 代使用OHEM 交叉熵?fù)p失函數(shù)比只在前5 代使用帶來了相對(duì)37%和42%的FRR 增加。這可能是因?yàn)檫^多使用OHEM 導(dǎo)致網(wǎng)絡(luò)更關(guān)注困難信息而產(chǎn)生了過擬合現(xiàn)象??傮w來說,使用OHEM 至少使WWD 系統(tǒng)在兩個(gè)喚醒詞上有相對(duì)16%和10%的FRR 下降。
3)注意力池化的有效性
為了驗(yàn)證注意力池化的有效性,本文進(jìn)行消融實(shí)驗(yàn),將Ghost-SE-Res2Net 模塊中的注意力池化替換為全局平均池化。不同池化方法對(duì)多模型融合系統(tǒng)的影響如圖7 所示。
圖7 不同池化方法對(duì)多模型融合系統(tǒng)的影響Fig.7 The impact of different pooling methods on multi-model fusion system
使用注意力池化的Ghost-SE-Res2Net 模塊的系統(tǒng)性能明顯好于使用全局平均池化時(shí)的性能。在Hi Xiaowen 上有相 對(duì)16% 的FRR 下 降,在Nihao Wenwen 上有相對(duì)44%的FRR 下降。猜測(cè)系統(tǒng)性能的提升可能是由于使用注意力池化能夠減少檢測(cè)時(shí)喚醒詞兩端的非喚醒詞音頻和一些背景噪聲過大的幀的干擾。
4)多模型融合的有效性
為了驗(yàn)證多模型融合系統(tǒng)的性能,將多模型系統(tǒng)與單模型系統(tǒng)進(jìn)行比較。在使用單模型檢測(cè)時(shí),只要yQ1(i)或yQ2(i)大于閾值即認(rèn)為喚醒詞被觸發(fā)。結(jié)果如表4 所示,使用Ghost-SE-Res2Net的Q1性能要好于Q2,SE-Res2Net 情況相同,而使用ResNet50的Q1性能要差于Q2。
表4 多模型融合系統(tǒng)的有效性Table 4 Effectiveness of multi-model fusion system
多模型融合系統(tǒng)的性能是最好的,使用Ghost-SE-Res2Net 的多模型融合系統(tǒng)在兩個(gè)喚醒詞上分別至少有相對(duì)93% 和75% 的FRR 下降;使用SERes2Net 的多模型融合系統(tǒng)在兩個(gè)喚醒詞上分別至少有相對(duì)89%和67%的FRR 下降;使用ResNet50 的多模型融合系統(tǒng)則在兩個(gè)喚醒詞上分別至少有相對(duì)88%和29%的FRR 下降。結(jié)果表明,Q1和Q2有著很好的互補(bǔ)性,融合檢測(cè)喚醒詞的局部信息和全局信息能夠有效提高WWD 的檢測(cè)能力。
5)本文系統(tǒng)與其他系統(tǒng)的比較
本文提出的方法與在Mobvo(iSLR87)數(shù)據(jù)集上3 個(gè)最近 的基線 進(jìn)行比較[15,25-26],如 表5 所 示。文獻(xiàn)[25]使用完整喚醒詞作為建模單元搭建WWD 系統(tǒng),并通過選擇性負(fù)樣本挖掘來解決類不平衡問題。文獻(xiàn)[15]采用DNN-HMM 系統(tǒng),基于無對(duì)齊訓(xùn)練準(zhǔn)則進(jìn)行訓(xùn)練。文獻(xiàn)[26]則使用流式Transformer 搭建WWD 系統(tǒng)。與文獻(xiàn)[26]相比,盡管系統(tǒng)參數(shù)量更多,但在2 個(gè)喚醒詞上分別實(shí)現(xiàn)了相對(duì)23%和28%的FRR 下降。
表5 不同WWD 系統(tǒng)的性能對(duì)比Table 5 Performance comparison of different WWD systems
與最先進(jìn)的基線[15]相比,本文提出的多模型融合WWD 系統(tǒng)在Hi Xiaowen 上有相對(duì)13%的FRR 上升,在Nihao Wenwen 上有相對(duì)14%的FRR 下降。由于文獻(xiàn)[15]使用的是DNN-HMM 系統(tǒng),建模單元為音素,導(dǎo)致喚醒詞的音節(jié)數(shù)對(duì)WWD 性能有一定影響,三音節(jié)的Hi Xiaowen 比四音節(jié)的Nihao Wenwen的發(fā)音變化更少,更易于檢測(cè)[27]。因此,DNN-HMM系統(tǒng)[15]在音節(jié) 數(shù)更少 的Hi Xiaowen 上 的FRR 比Nihao Wenwen 低0.1。而本文提出的基于Ghost-SERes2Net 的多模型融合WWD 系統(tǒng)的建模單元為完整的喚醒詞和部分的喚醒詞,通過兩個(gè)不同大小的檢測(cè)窗,使得本文提出的WWD 系統(tǒng)在面對(duì)不同長(zhǎng)度的喚醒詞時(shí)魯棒性更好,在兩個(gè)喚醒詞上的表現(xiàn)只有0.03 的差距,并且由于Nihao Wenwen 的音節(jié)數(shù)更多,發(fā)音持續(xù)時(shí)間更長(zhǎng),使得多模型融合的效果略好于Hi Xiaowen。
值得注意的是,本文提出的系統(tǒng)在與最先進(jìn)的基線[15]的性能相似的同時(shí),系統(tǒng)的參數(shù)量相對(duì)減少了31%,實(shí)現(xiàn)了更低的內(nèi)存占用。
針對(duì)WWD 時(shí)檢測(cè)窗長(zhǎng)度選擇困難的問題,本文提出一種新的多模型融合WWD 系統(tǒng)。該系統(tǒng)包含兩個(gè)二元分類器,分別使用小檢測(cè)窗和大檢測(cè)窗檢測(cè)喚醒詞的局部信息和全局信息,2 個(gè)分類器均使用提出的Ghost-SE-Res2Net 模塊。通過Ghost 卷積替換一般的卷積減小模型參數(shù)量,利用Ghost-SERes2Net 模塊提取多尺度特征,并通過注意力池化替換全局平均池化,引入困難樣本挖掘算法提高網(wǎng)絡(luò)對(duì)復(fù)雜信息的學(xué)習(xí)能力,使用多模型融合方法融合大小檢測(cè)窗的檢測(cè)結(jié)果,確定喚醒詞是否被觸發(fā)。下一步將嘗試使用動(dòng)態(tài)大小的檢測(cè)窗,以實(shí)現(xiàn)從音頻流中更準(zhǔn)確地定位喚醒詞信息,同時(shí)改進(jìn)網(wǎng)絡(luò)模型,減少系統(tǒng)參數(shù)量,進(jìn)一步提高WWD 的性能。