亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多通道PNCC與殘差網(wǎng)絡(luò)命令詞識別系統(tǒng)

        2022-11-03 03:30曾慶寧鄭展恒卜玉婷
        現(xiàn)代電子技術(shù) 2022年21期
        關(guān)鍵詞:麥克風(fēng)命令殘差

        張 碩,曾慶寧,鄭展恒,卜玉婷

        (桂林電子科技大學(xué) 信息與通信學(xué)院,廣西 桂林 541004)

        0 引 言

        命令詞識別的目標(biāo)是在語音中檢測出預(yù)先定義的命令詞。近年來,由于硬件算力和互聯(lián)網(wǎng)大數(shù)據(jù)的發(fā)展,掀起了一股深度學(xué)習(xí)的浪潮,受此影響,語音領(lǐng)域也引發(fā)了一場科技革命,越來越多的專家學(xué)者提出與神經(jīng)網(wǎng)絡(luò)相關(guān)的命令詞識別系統(tǒng)。例如,文獻(xiàn)[3]提出訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)對目標(biāo)關(guān)鍵詞進(jìn)行預(yù)測,文獻(xiàn)[4]使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),獲得了參數(shù)更少、更加緊湊的模型,文獻(xiàn)[5]將卷積層和遞歸層的優(yōu)點相結(jié)合,用于小型關(guān)鍵詞識別系統(tǒng)的網(wǎng)絡(luò)模型。最近成果中,文獻(xiàn)[6]成功地把圖像識別領(lǐng)域的殘差網(wǎng)絡(luò)(Residual Network,ResNet)第一次應(yīng)用在語音命令詞識別領(lǐng)域。

        以上所有成果都是基于非特定人的語音識別系統(tǒng),這意味著非用戶的語音可能會錯誤觸發(fā)關(guān)鍵詞識別系統(tǒng),或者影響噪聲干擾系統(tǒng)對命令詞識別的準(zhǔn)確率。在部分應(yīng)用中,例如助聽器、人工耳蝸等,為了防止外部人干擾,要求命令詞識別系統(tǒng)在準(zhǔn)確識別語音命令的情況下,可以判斷命令是否由用戶發(fā)出。同時,生活中處處存在著噪聲,如何提高語音識別系統(tǒng)在噪聲環(huán)境下的魯棒性也是一個非常重要的問題。

        針對以上問題,本文提出一種多通道麥克風(fēng)陣列與殘差網(wǎng)絡(luò)的命令詞識別系統(tǒng)。首先,應(yīng)用殘差網(wǎng)絡(luò)構(gòu)建用戶/非用戶語音檢測和命令詞識別多任務(wù)模型。其次,應(yīng)用多通道麥克風(fēng)陣列采集語音數(shù)據(jù)集。最后,提取功率歸一化倒譜系數(shù)(Power Normalized Cepstrum Coefficient,PNCC)作為模型輸入特征。實驗結(jié)論表明,本文提出的標(biāo)準(zhǔn)ResNet-CW-15和低功耗ResNet-CW-6模型,匹配PNCC特征的多通道麥克風(fēng)陣列數(shù)據(jù)集進(jìn)行聯(lián)合優(yōu)化訓(xùn)練,在命令詞識別和用戶判斷雙系統(tǒng)中均取得了良好表現(xiàn)。

        1 網(wǎng)絡(luò)模型

        考慮到復(fù)雜環(huán)境下命令詞識別的穩(wěn)健性,本文應(yīng)用了具有一定降噪功能的共享閾值收縮殘差網(wǎng)絡(luò)(Residual Shrinkage Network with Channel-wise Threshold,RSN-CW)構(gòu)建多任務(wù)命令詞識別模型。

        通常來說,數(shù)值接近0的信號一般為噪聲或者無用的特征信息,在變換域中并不重要,因此可以通過設(shè)置一個軟閾值把接近0的特征信息直接置0。本文的數(shù)據(jù)集是基于多通道麥克風(fēng)陣列,通道數(shù)為4,需要對每個通道的特征信息分別求出軟閾值。圖1是收縮殘差單元結(jié)構(gòu)圖。

        圖1中是輸入,經(jīng)過CNN后通過線性整流(Rectified Linear Unit,ReLU)函數(shù),得到作為第二層CNN的輸入。在第二層CNN輸出后構(gòu)建軟閾值模塊,此模塊根據(jù)特征信息自動學(xué)習(xí)取值在0~1的閾值'。經(jīng)軟閾值化的特征和恒等映射()作為最終輸出,公式如下:

        圖1 收縮殘差單元結(jié)構(gòu)

        構(gòu)建標(biāo)準(zhǔn)多任務(wù)模型ResNet-CW-15。首先,第一層為標(biāo)準(zhǔn)卷積層,其次,連接6個收縮殘差網(wǎng)絡(luò)單元;本文多次實驗得出,使用6個收縮殘差單元可以達(dá)到命令詞識別和用戶判斷系統(tǒng)最優(yōu)效果。最后,加上標(biāo)準(zhǔn)卷積層,結(jié)果依次通過(Batch Normalization,BN)和平均池化層(Ave-pooling),應(yīng)用激活函數(shù)Softmax和Sigmoid分別作為命令詞識別輸出和用戶判別輸出。模型結(jié)構(gòu)如圖2所示。

        圖2 ResNet-CW-15網(wǎng)絡(luò)結(jié)構(gòu)

        為了防止系統(tǒng)被非用戶錯誤觸發(fā)影響用戶體驗,同時也為了讓系統(tǒng)在部署時盡可能的降低功耗,本文增加了用戶判斷機(jī)制,形成多任務(wù)模型。當(dāng)系統(tǒng)判斷命令由用戶發(fā)出時,會進(jìn)一步啟動命令詞識別任務(wù),否則不執(zhí)行命令詞識別功能。

        判斷原理為:

        式中:為輸入語音特征,主要包含語音的空間信息特征,對于不同位置的說話者,麥克風(fēng)所包含的空間特征信息是不同的;為用戶,為非用戶;只有當(dāng)(|)>0.5時才會對命令詞進(jìn)行預(yù)測,這里0.5是判斷閾值,判斷與系統(tǒng)交互的是否為用戶。

        為了增加網(wǎng)絡(luò)感受野,本文在收縮殘差單元的卷積層引入了空洞卷積技術(shù)。在語音識別領(lǐng)域內(nèi),網(wǎng)絡(luò)模型使用常規(guī)的濾波器會導(dǎo)致處理特征圖時感受野不足,因此選擇使用空洞卷積可以提升感受野亦減免特征信息的丟失。

        在相同實驗條件下,本文擴(kuò)展了實驗,提出低功耗模型ResNet-CW-6。將網(wǎng)絡(luò)中收縮殘差單元模塊直接減少至2個,同時在第一個卷積層后增加4×3的平均池化層,減小了時頻維度,因此沒有應(yīng)用空洞卷積技術(shù),網(wǎng)絡(luò)中特征輸出由45設(shè)置為30。值得注意的是,為了使網(wǎng)絡(luò)更快收斂,本文把收縮殘差單元的ReLU層均調(diào)整于BN層之前。

        2 麥克風(fēng)陣列

        為了提高命令詞識別系統(tǒng)對用戶/非用戶判斷的準(zhǔn)確度,同時也為了使系統(tǒng)可以廣泛地部署在多麥克風(fēng)智能設(shè)備上,本文提出的兩個多任務(wù)模型皆基于多通道麥克風(fēng)陣列展開命令詞識別研究。

        2.1 麥克風(fēng)陣列介紹

        麥克風(fēng)陣列主要是由多個麥克風(fēng)按一定規(guī)則排列組成,對聲場特性進(jìn)行采樣并處理的系統(tǒng),通過使用多個麥克風(fēng)可以在時域和頻域的基礎(chǔ)上再增加一個空間域,從而得到空間信息特征。實驗采用雙側(cè)麥克風(fēng)陣列,兩側(cè)各放置兩個前后麥克風(fēng)構(gòu)成多通道麥克風(fēng)陣列,如圖3圓心處所示,黑色圓在前,灰色圓在后,每側(cè)麥克風(fēng)之間距離1 cm。這種陣列結(jié)構(gòu)的優(yōu)點:其一,同時有微型與多通道的結(jié)構(gòu)特點,達(dá)到仿生人耳結(jié)構(gòu)的目的;其二,不同位置的陣元采集相同位置的聲源會包含不同的空間特征信息;其三,更適合廣泛部署于當(dāng)前的多陣列人工智能設(shè)備。

        麥克風(fēng)陣列中不同位置麥克風(fēng)采集的語音信號含有不同空間信息,有利于系統(tǒng)更好地辨別用戶與非用戶間的不同特征,提高用戶/非用戶判斷的準(zhǔn)確率。這一結(jié)論在后續(xù)的實驗與分析中也得到了證明。

        2.2 麥克風(fēng)陣列數(shù)據(jù)集

        本文使用文獻(xiàn)[12]的GSCD(Google Speech Commands Dataset)的公開數(shù)據(jù)集進(jìn)行實驗。聲學(xué)錄音場景如圖3所示。12個揚(yáng)聲器組成圓形陣列,陣列位于圓心。隨機(jī)選擇揚(yáng)聲器播放,圓心處麥克風(fēng)陣列獲取用戶聲音,1.5 m外揚(yáng)聲器處為非用戶語音。

        圖3 陣列語音采集示意圖

        數(shù)據(jù)集總共有50 626組命令詞語音,訓(xùn)練數(shù)據(jù)集、驗證數(shù)據(jù)集、測試數(shù)據(jù)集的占比分別為67.5%,10.8%和21.7%。選用的命令詞語音為:“l(fā)eft”“yes”“on”“up”“go”“right”“no”“down”“stop”“off”,其余未選用關(guān)鍵字單獨劃為未知類,共11類。

        3 特征工程

        語音識別領(lǐng)域經(jīng)典的特征是梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC),但MFCC容易受到噪聲干擾,在低信噪比條件下會導(dǎo)致系統(tǒng)的語音識別準(zhǔn)確率嚴(yán)重下降。為了提高語音識別系統(tǒng)在噪聲環(huán)境下的穩(wěn)健性,本文選擇了對噪聲具有一定魯棒性的PNCC。

        3.1 功率歸一化倒譜系數(shù)

        2016年,由Kim等提出的功率歸一化倒譜系數(shù)與MFCC相比,在保證語音識別性能的前提下,增加了語音識別的魯棒性。PNCC的改進(jìn)之處在:

        1)將梅爾倒譜系數(shù)的濾波器改為Gammatone;

        2)平滑每幀語音數(shù)據(jù)時,采用更長的時間窗口;

        3)采用類似譜減法消除低頻噪聲;

        4)PNCC使用冪函數(shù),更符合人耳聽覺神經(jīng)特性。

        PNCC特征提取流程圖如圖4所示。

        圖4 PNCC特征提取流程圖

        3.2 動態(tài)特征

        語音信號是非平穩(wěn)信號,一般提取MFCC與PNCC等特征系數(shù)的步驟僅僅反映了語音信號的靜態(tài)特性,但是神經(jīng)網(wǎng)絡(luò)可以更好地學(xué)習(xí)語音的動態(tài)特征參數(shù)。為了提高語音識別的準(zhǔn)確度,本文對特征系數(shù)進(jìn)行差分運算,語音的動態(tài)特征可以用靜態(tài)特征的差分運算來描述,原理如下:

        式中:d表示第次一階差分;表示倒譜系數(shù);表示倒譜系數(shù)的階數(shù);表示導(dǎo)數(shù)時間差,取1或2。將式中結(jié)果再次代入公式運算就可得到下一階差分結(jié)果。

        3.3 特征處理

        首先讓語音通過截止頻率為20 Hz和4 kHz的帶通濾波器。使用30 ms的漢明窗,10 ms幀移對語音數(shù)據(jù)分幀。同時,為了達(dá)到數(shù)據(jù)集擴(kuò)充的目的,對每組語音隨機(jī)移動ms,∈(-100,100),并且隨機(jī)截取GSCD中的噪聲片段,加入80%的訓(xùn)練數(shù)據(jù)集語音中。最后提取PNCC特征得到40維的特征參數(shù),由1幀語音對數(shù)能量、13維特征、13維一階差分特征、13維二階差分組成。在多通道麥克風(fēng)陣列信號的情況下,本文將上述特征提取獨立應(yīng)用于每個通道。

        4 實驗與結(jié)果分析

        4.1 網(wǎng)絡(luò)參數(shù)設(shè)置

        ResNet-CW-15和ResNet-CW-6網(wǎng)絡(luò)采用的優(yōu)化器是隨機(jī)梯度下降,其中下降參數(shù)設(shè)置為0.9,學(xué)習(xí)率=0.1,衰減系數(shù)=10,minibatch=32,訓(xùn)練次數(shù)epoch=40。

        4.2 實驗及結(jié)果分析

        本文基于多通道麥克風(fēng)陣列采集GSCD數(shù)據(jù)集,測試ResNet-CW-15和ResNet-CW-6網(wǎng)絡(luò)。本文使用單側(cè)麥克風(fēng)陣列MFCC信號作為輸入來測試標(biāo)準(zhǔn)ResNet15模型。該模型沒有用戶/非用戶語音判斷機(jī)制,只含有命令詞檢測功能作為對比基線。模型Multi-ResNet15和本文算法均采用命令詞識別、用戶/非用戶判斷多任務(wù)系統(tǒng)。為了體現(xiàn)PNCC和本文麥克風(fēng)陣列的效果,分別使用單麥克風(fēng)MFCC、單側(cè)雙麥克風(fēng)MFCC和PNCC、本文麥克風(fēng)陣列PNCC對Multi-ResNet15進(jìn)行測試。其中用戶數(shù)據(jù)集僅包含用戶的語音數(shù)據(jù),整體數(shù)據(jù)集包含非用戶語音干擾,目的是測試模型在干擾環(huán)境下的穩(wěn)健性。由于ResNet15模型和Multi-ResNet15模型參數(shù)一樣,所以下面選擇后者進(jìn)行參數(shù)數(shù)量對比。

        命令詞識別系統(tǒng)本質(zhì)是完成分類任務(wù),而評估系統(tǒng)分類性能一般使用ROC曲線,如圖5所示。

        圖5 ROC曲線對比

        ROC曲線下的面積是衡量系統(tǒng)優(yōu)劣的一種性能指標(biāo),面積范圍一般為(0.5,1),分?jǐn)?shù)越接近1真實性越高,當(dāng)分?jǐn)?shù)等于0.5時,真實性最低,無實用價值。其中“micro”和“macro”是求ROC值的不同方法。

        表1、表2分別對比模型在不同麥克風(fēng)陣列、特征以及單任務(wù)和多任務(wù)系統(tǒng)中的命令詞識別結(jié)果、參數(shù)數(shù)量。圖表分析如下:

        表1 語音命令詞識別準(zhǔn)確率

        表2 網(wǎng)絡(luò)參數(shù)數(shù)量表

        1)圖5在PNCC和本文陣列數(shù)據(jù)集的條件下,對比本文構(gòu)建的ResNet-CW-15與Multi-ResNet15的分類效果。從ROC曲線來看,ResNet-CW-15模型在命令詞識別分類效果中平均準(zhǔn)確率最高為0.998 4,達(dá)到了優(yōu)秀的分類精準(zhǔn)度,并且優(yōu)于Multi-ResNet15的0.996 6。

        2)表1中對比實驗1與實驗4均采用單側(cè)雙麥克風(fēng)MFCC做特征參數(shù),模型皆為標(biāo)準(zhǔn)殘差網(wǎng)絡(luò)構(gòu)建,不同之處在于實驗4加入了用戶/非用戶語音檢測模塊,為多任務(wù)模型。

        其中實驗1整體數(shù)據(jù)集表現(xiàn)較差,準(zhǔn)確率為67.45%。反觀實驗4,加入多任務(wù)機(jī)制后識別準(zhǔn)確率達(dá)到90.76%。因為在單任務(wù)機(jī)制下,用戶語音數(shù)據(jù)集加入距離較遠(yuǎn)且音質(zhì)較差的非用戶語音數(shù)據(jù)集時,嚴(yán)重影響了系統(tǒng)識別用戶命令詞的特征信息,導(dǎo)致整體數(shù)據(jù)集識別率急劇下降。實驗證明,使用多任務(wù)機(jī)制有利于提高系統(tǒng)在非用戶語音干擾時命令詞識別的穩(wěn)健性。

        3)對比實驗4與實驗5可知,在相同麥克風(fēng)陣列結(jié)構(gòu)和模型條件下,采用PNCC特征的命令詞識別準(zhǔn)確率在用戶數(shù)據(jù)集和整體數(shù)據(jù)集皆優(yōu)于MFCC,并且用戶/非用戶判斷的準(zhǔn)確率也有稍許提升。這是因為提取PNCC過程有降噪步驟,因此特征含有更少的干擾信息,有助于模型識別語音的有用信息。因此,使用PNCC可以提高系統(tǒng)對非用戶語音干擾時的魯棒性。

        4)對比實驗5和實驗6,實驗6采用本文提出的麥克風(fēng)陣列數(shù)據(jù),其命令詞識別準(zhǔn)確率在整體數(shù)據(jù)集的表現(xiàn)非常接近用戶數(shù)據(jù)集。這是不容易的,因為用戶數(shù)據(jù)集一般語音質(zhì)量較好,提取的特征比較明顯,容易正確完成用戶/非用戶的判斷任務(wù),得益于此,后續(xù)識別命令詞的任務(wù)相較于非用戶數(shù)據(jù)也容易一些;但是,整體數(shù)據(jù)集包含音質(zhì)較差的非用戶數(shù)據(jù),容易誤判為用戶,更容易在命令詞識別任務(wù)中產(chǎn)生錯誤判斷。

        對比實驗5和實驗6的用戶檢測部分,在相同模型和PNCC條件下,實驗6對于用戶的判斷比實驗5準(zhǔn)確率更高,這意味著實驗6的配置可以更好地防止非用戶錯誤觸發(fā)系統(tǒng),從而避免了系統(tǒng)對非用戶的低質(zhì)量語音識別,提高了系統(tǒng)整體的識別率,同時也降低了系統(tǒng)功耗。綜上所述,本文提出的麥克風(fēng)陣列結(jié)構(gòu)優(yōu)于單側(cè)麥克風(fēng),因為本文麥克風(fēng)陣列采集的數(shù)據(jù)含有更豐富的說話者方位角特征信息,有利于系統(tǒng)對用戶做出更精確的判斷,進(jìn)一步提高了系統(tǒng)整體效果。

        5)在表1命令詞識別部分,實驗7在用戶和整體數(shù)據(jù)集的準(zhǔn)確率都超過了實驗6。在用戶判斷檢測部分,也得到相同的結(jié)論。結(jié)合圖6用戶判別率對比可更直觀看出,實驗7的ResNet-CW-15模型在360°方位角的判斷都比較準(zhǔn)確,而實驗6的Multi-ResNet15模型把部分0°,45°附近和180°~270°之間的語音誤判為用戶。這是因為,得益于收縮殘差網(wǎng)絡(luò)把干擾和無用特征信息置零的功能,使得ResNet-CW-15模型對噪聲具有更好的魯棒性。因此,可以得出結(jié)論,本文構(gòu)建的ResNet-CW-15模型在復(fù)雜環(huán)境下的魯棒性優(yōu)于Multi-ResNet15模型,更適用于情況復(fù)雜的現(xiàn)實生活場景。

        圖6 用戶判別率對比

        6)實驗8的結(jié)果在用戶數(shù)據(jù)集和整體數(shù)據(jù)集效果對比實驗6、7有所降低,但是參考表2的參數(shù)數(shù)量對比可知,ResNet-CW-6的參數(shù)數(shù)量比Multi-ResNet15降低了80.9%,較ResNet-CW-15降低了82.8%,極大地減少了系統(tǒng)的資源占用率。該模型雖然在識別精度上有所降低,但也足夠滿足應(yīng)用要求,是部署在小型低功耗設(shè)備的極佳網(wǎng)絡(luò)。

        5 結(jié) 語

        本文針對穩(wěn)健的命令詞識別系統(tǒng),提出了雙側(cè)多通道麥克風(fēng)陣列結(jié)構(gòu),并將PNCC特征應(yīng)用到多通道陣列數(shù)據(jù)集之中,最后配合本文構(gòu)建的標(biāo)準(zhǔn)多任務(wù)ResNet-CW-15模型聯(lián)合優(yōu)化訓(xùn)練的方法。

        首先采用雙側(cè)多通道麥克風(fēng)陣列結(jié)構(gòu)采集語音數(shù)據(jù),這一步驟可以采集到豐富的聲源位置信息。其次對數(shù)據(jù)集提取PNCC特征,達(dá)到對語音初步降噪的目的。最后把特征導(dǎo)入多任務(wù)ResNet-CW-15模型進(jìn)行訓(xùn)練。在相同實驗條件下,本文還構(gòu)建了一種緊湊的ResNet-CW-6模型,該模型適合廣泛部署于低功耗智能設(shè)備中。通過實驗對比,驗證了本文提出的命令詞識別系統(tǒng)在噪聲和非用戶干擾下的魯棒性。后續(xù)研究將著重于對模型進(jìn)一步改進(jìn),例如調(diào)整網(wǎng)絡(luò)寬度,在不增加網(wǎng)絡(luò)功耗的條件下提高識別精準(zhǔn)度,或者測試更深層次的模型。

        猜你喜歡
        麥克風(fēng)命令殘差
        基于雙向GRU與殘差擬合的車輛跟馳建模
        只聽主人的命令
        基于殘差學(xué)習(xí)的自適應(yīng)無人機(jī)目標(biāo)跟蹤算法
        基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
        Binaural Rendering based on Linear Differential Microphone Array and Ambisonic Reproduction
        基于數(shù)字麥克風(fēng)的WIFI語音發(fā)射機(jī)
        移防命令下達(dá)后
        麥克風(fēng)的藝術(shù)
        這是人民的命令
        麥克風(fēng)
        都市激情亚洲综合一区| 久久婷婷国产剧情内射白浆| 亚洲男女免费视频| 中文字幕二区三区在线| 在线a亚洲视频播放在线播放| 精品国产拍国产天天人| 99视频一区| 亚洲国产精品美女久久久| 久久99天堂av亚洲av| 在线涩涩免费观看国产精品 | 国产内射合集颜射| 成年女人片免费视频播放A| 在线日本国产成人免费精品| 乱码丰满人妻一二三区| 久久AV老司机精品网站导航| 厕所极品偷拍一区二区三区视频| 中文字幕免费人成在线网站| 国产福利精品一区二区| 97国产免费全部免费观看| 国产精品久久国产三级国| 亚洲精品久久久久一区二区| 日韩精品一区二区三区免费视频 | 无码熟妇人妻AV不卡| 久久99精品综合国产女同| 久久国产免费观看精品3| 无遮挡亲胸捏胸免费视频| 亚洲一级av大片在线观看| 亚洲av午夜一区二区三| 四川老熟妇乱子xx性bbw| 最新日韩av在线不卡| 中文日本强暴人妻另类视频| 人妻少妇精品视频专区| 午夜高清福利| 国产免费一区二区三区三| 深夜爽爽动态图无遮无挡| 久热在线播放中文字幕| 蜜桃伦理一区二区三区| 懂色av一区二区三区尤物| 少妇高潮潮喷到猛进猛出小说| 亚洲区精选网址| 在线观看国产白浆一区三区|