亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于雙微陣列與卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別方法

        2019-12-23 07:19:04劉偉波曾慶寧卜玉婷鄭展恒
        計(jì)算機(jī)應(yīng)用 2019年11期
        關(guān)鍵詞:語(yǔ)音識(shí)別穩(wěn)健性卷積神經(jīng)網(wǎng)絡(luò)

        劉偉波 曾慶寧 卜玉婷 鄭展恒

        摘 要:為解決噪聲環(huán)境下語(yǔ)音識(shí)別率降低以及傳統(tǒng)波束形成算法難以處理空間噪聲的問題,基于雙微陣列結(jié)構(gòu)提出了一種改進(jìn)的最小方差無畸變響應(yīng)(MVDR)波束形成方法。首先,采用對(duì)角加載提高雙微陣列增益,并利用遞歸矩陣求逆降低計(jì)算復(fù)雜度;然后,通過后置調(diào)制域譜減法對(duì)語(yǔ)音作進(jìn)一步處理,解決了一般譜減法容易產(chǎn)生音樂噪聲的問題,有效減小了語(yǔ)音畸變,獲得了良好的噪聲抑制效果;最后,采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行語(yǔ)音模型的訓(xùn)練,提取語(yǔ)音深層次的特征,有效地解決了語(yǔ)音信號(hào)多樣性問題。實(shí)驗(yàn)結(jié)果表明,提出的方法在經(jīng)CNN訓(xùn)練的語(yǔ)音識(shí)別系統(tǒng)模型中取得了較好的識(shí)別效果,在信噪比為10dB的F16噪聲環(huán)境下的語(yǔ)音識(shí)別率達(dá)到了92.3%,具有良好的穩(wěn)健性。

        關(guān)鍵詞:語(yǔ)音識(shí)別;雙微陣列;卷積神經(jīng)網(wǎng)絡(luò);噪聲環(huán)境;穩(wěn)健性

        中圖分類號(hào):TN912.34

        文獻(xiàn)標(biāo)志碼:A

        Speech recognition method based on dual microarray and convolutional neural network

        LIU Weibo,ZENG Qingning*,BU Yuting, ZHENG Zhanheng

        School of Information and Communication, Guilin University of Electronic Technology, Guilin Guangxi 541004, China

        Abstract:

        In order to solve the low speech recognition rate in noise environment, and the difficulty of traditional beamforming algorithm in dealing with spatial noise problem, an improved Minimum Variance Distortionless Response (MVDR) beamforming method based on dual microarray was proposed. Firstly, the gain of microarray was increased by diagonal loading, and the computational complexity was reduced by the inversion of recursive matrix. Then, through the modulation domain spectrum subtraction for further processing, the problem that music noise was easily produced by general spectral subtraction was solved, effectively reducing speech distortion, and well suppressing the noise. Finally, the Convolution Neural Network (CNN) was used to train the speech model and extract the deep features of speech, effectively solve the problem of speech signal diversity. The experimental results show that the proposed method achieves good recognition effect in the CNN trained speech recognition system, and has the speech recognition accuracy of 92.3% in F16 noise environment with 10dB signaltonoise ratio, means it has good robustness.

        Key words:

        speech recognition; dual microarray; Convolutional Neural Network (CNN); noise environment; robustness

        0?引言

        語(yǔ)音識(shí)別技術(shù)作為模式識(shí)別的一個(gè)重要分支,主要目的是讓機(jī)器理解人類所說內(nèi)容的含義,從而實(shí)現(xiàn)人與機(jī)器自然的交流,以擺脫現(xiàn)有的以文本輸入形式進(jìn)行交互的局限性。語(yǔ)音作為目前人機(jī)交互最便捷的方式,具有高效、直接、自然的特性,也是人類本身之間最方便快捷的溝通交流方式之一[1]。目前人機(jī)智能語(yǔ)音交互的最大意義就是可以徹底解放人的雙手,降低學(xué)習(xí)成本。但是,在實(shí)際應(yīng)用時(shí),語(yǔ)音總會(huì)受到環(huán)境噪聲或者傳輸介質(zhì)的干擾,導(dǎo)致音質(zhì)受損,影響其中蘊(yùn)含的語(yǔ)言信息正常傳遞,所以,如何對(duì)復(fù)雜環(huán)境下的語(yǔ)音進(jìn)行處理,減少噪聲以及干擾的影響,進(jìn)而提升語(yǔ)音識(shí)別系統(tǒng)的穩(wěn)健性就顯得至關(guān)重要[2]。

        近年來,研究者在噪聲環(huán)境下以及遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別應(yīng)用領(lǐng)域探索了廣泛的波束形成實(shí)現(xiàn)方法,例如,Zhang等[3]提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的麥克風(fēng)陣列降噪算法,有效提高了真實(shí)噪聲環(huán)境下的語(yǔ)音識(shí)別率;Higuchi等[4]使用基于時(shí)頻掩蔽的波束形成方法應(yīng)用到語(yǔ)音識(shí)別任務(wù)中,有效抑制了噪聲干擾并提高了語(yǔ)音識(shí)別率;Lukas等[5]研究了廣義旁瓣抵消波束形成器的三種變體結(jié)構(gòu),并應(yīng)用后置濾波器來進(jìn)一步增強(qiáng)語(yǔ)音信號(hào)的方法在CHiME 國(guó)際多通道語(yǔ)音分離與識(shí)別大賽中取得了優(yōu)異的成績(jī)。以上研究成果表明,針對(duì)噪聲或干擾語(yǔ)音設(shè)計(jì)的麥克風(fēng)陣列語(yǔ)音算法可以作為語(yǔ)音識(shí)別系統(tǒng)的輸入端處理算法,達(dá)到提高語(yǔ)音質(zhì)量的目的,對(duì)噪聲及遠(yuǎn)場(chǎng)環(huán)境下的語(yǔ)音識(shí)別性能有一定的提升。

        本文針對(duì)傳統(tǒng)波束形成算法難以處理的空間噪聲問題,提出了一種綜合了最小方差無畸變響應(yīng)(Minimum Variance Distortionless Response, MVDR)波束形成與對(duì)角加載的麥克風(fēng)陣列語(yǔ)音波束形成方法,并通過后置調(diào)制域譜減法對(duì)語(yǔ)音進(jìn)一步處理,獲得了較好的降噪效果和識(shí)別準(zhǔn)確率(該方法已申請(qǐng)發(fā)明專利[6])。該方法中定義了一個(gè)加權(quán)因子,對(duì)語(yǔ)音信號(hào)采樣協(xié)方差矩陣進(jìn)行對(duì)角加載處理,使得環(huán)境噪聲中非相關(guān)性比較強(qiáng)的協(xié)方差元素得到抑制,降低噪聲增益從而達(dá)到提高陣列增益的目的[7]。為了降低計(jì)算量和復(fù)雜度,本文采用了遞推算法,減少矩陣求逆運(yùn)算。另外,通過采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)從原始語(yǔ)音數(shù)據(jù)中提取高維隱含的特征,有力地處理數(shù)據(jù)的可變性和豐富性,減少了神經(jīng)網(wǎng)絡(luò)訓(xùn)練的參數(shù)。實(shí)驗(yàn)結(jié)果表明,該方法在噪聲抑制和提升語(yǔ)音質(zhì)量方面均取得了優(yōu)于傳統(tǒng)方法的效果,在噪聲環(huán)境下的語(yǔ)音識(shí)別系統(tǒng)中具有一定的穩(wěn)健性。

        1?遞歸矩陣求逆的MVDR

        1.1?雙微陣列

        圖1所示為本文采用的雙微陣列,采用KEMAR人工頭模擬人耳特性。兩側(cè)分別是一個(gè)微型陣列,左右陣間距離為模擬人耳的間距,一般為12~18cm,微型陣內(nèi)距離為2~4cm,此時(shí)陣間麥克風(fēng)采集的噪聲信號(hào)相關(guān)性較弱或者是非相關(guān)噪聲,陣內(nèi)麥克風(fēng)采集的噪聲相關(guān)性較強(qiáng)[8]。有研究表明,麥克風(fēng)間距在12~18cm的噪聲低頻帶相關(guān)性較強(qiáng),而高頻帶的噪聲相關(guān)性較弱,因此利用相關(guān)性算法能夠達(dá)到較好的去噪效果[8]。

        1.2?最小方差無畸變響應(yīng)

        雙微麥克風(fēng)陣列接收到的語(yǔ)音信號(hào)模型采用如下形式表示:

        ym(t)=xm(t)+nm(t); m=1,2,…,M(1)

        其中: t表示時(shí)間索引,M表示麥克風(fēng)數(shù)量,xm(t)表示純凈語(yǔ)音信號(hào),nm(t)表示加性噪聲和干擾信號(hào),ym(t)表示含噪語(yǔ)音信號(hào)。

        對(duì)式(1)進(jìn)行傅里葉變換,得到頻域表示形式

        Y(l,k)=X(l,k)+N(l,k)(2)

        其中: l是時(shí)間索引,k是頻率索引,下文為簡(jiǎn)潔起見,適當(dāng)省略部分索引符號(hào)。

        最小方差無畸變響應(yīng)波束形成器是由Capon首先提出的一種經(jīng)典的麥克風(fēng)陣列自適應(yīng)波束形成方法,滿足目標(biāo)信號(hào)無失真的條件下最小化陣列輸出的約束,可以有效實(shí)現(xiàn)抑制噪聲以及非目標(biāo)方向干擾的目的[9-10]。MVDR需滿足以下約束優(yōu)化條件:

        arg minw{WHRnW}

        WHD(k)=1 (3)

        其中: D(k)是期望信號(hào)導(dǎo)向矢量,Rn 是噪聲協(xié)方差矩陣。采用Lagrange算子,定義函數(shù)[9]:

        F(w,λ)=12wHRnw+λ(1-wHD(k))(4)

        將該函數(shù)對(duì)w求導(dǎo),并令該導(dǎo)數(shù)為0,得到:

        F(w,λ)w=Rnw-λD(k)=0(5)

        進(jìn)行求解得到加權(quán)向量:

        W=λRn-1D(k)(6)

        代入前面式(3)的約束條件中,求得:

        λ=1D(k)HRn-1D(k)(7)

        把式(7)代入式(6)中可求出最優(yōu)加權(quán)向量為:

        WMVDR=R-1nD(k)D(k)HR-1nD(k)(8)

        MVDR波束形成器要求精確的導(dǎo)向矢量和噪聲協(xié)方差矩陣估計(jì),而在實(shí)際應(yīng)用環(huán)境中,由于麥克風(fēng)接收到的信號(hào)的導(dǎo)向矢量存在偏差以及協(xié)方差矩陣估計(jì)不準(zhǔn)確,使得MVDR波束形成器的性能下降,不能有效地抑制干擾。

        1.3?對(duì)角加載

        假設(shè)導(dǎo)向矢量和協(xié)方差矩陣都沒有誤差,考慮M個(gè)麥克風(fēng)組成的雙微陣列結(jié)構(gòu),假設(shè)語(yǔ)音信號(hào)和噪聲之間互不相關(guān),一般通過有限次快拍估計(jì)的數(shù)據(jù)協(xié)方差矩陣代替噪聲的協(xié)方差矩陣[10]

        R^n=1K∑Kt=1y(t)yH(t)(9)

        其中K為快拍數(shù)。在實(shí)際應(yīng)用時(shí),陣列結(jié)構(gòu)的導(dǎo)向矢量存在偏差,麥克風(fēng)接收的數(shù)據(jù)里面也往往含有一部分的期望信號(hào),這就導(dǎo)致無法得到理想的噪聲協(xié)方差矩陣。因此本文引入對(duì)角加載的方法來抑制協(xié)方差矩陣中小特征值擾動(dòng)造成偏差的輸出性能的影響[10]:

        Rεn=R^n+εI(10)

        其中:R^n為進(jìn)行對(duì)角加載前的噪聲信號(hào)的協(xié)方差矩陣;Rεn為對(duì)角加載后協(xié)方差矩陣;ε為對(duì)角加載量,本文取0.01,I為單位矩陣。將協(xié)方差矩陣對(duì)角加載抑制非相關(guān)噪聲,式(10)中的協(xié)方差矩陣為:

        Rεn=

        r11+εr12…r1N

        r21r22+ε…r2N

        rN1rN2…rNN+ε(11)

        得到對(duì)角加載后的權(quán)向量為:

        WMVDR=Rεn-1D(k)D(k)HRεn-1D(k)(12)

        1.4?遞歸矩陣求逆

        MVDR波束形成器中的加權(quán)向量是通過對(duì)協(xié)方差矩陣進(jìn)行求逆運(yùn)算得到的最佳權(quán)值矢量,其計(jì)算復(fù)雜度較高,運(yùn)算量會(huì)隨著陣元數(shù)目和采樣數(shù)目的增加逐漸劇增,為了降低計(jì)算量和復(fù)雜度,本文采用了遞推算法,減少矩陣求逆運(yùn)算量[11-12]。假設(shè)對(duì)經(jīng)雙微陣列結(jié)構(gòu)采集的含噪語(yǔ)音進(jìn)行處理時(shí),噪聲與語(yǔ)音信號(hào)相互獨(dú)立,含噪語(yǔ)音信號(hào)的功率譜密度為Φy=E(YYH),且滿足有Φy=Φx+Φn。

        對(duì)功率譜密度在時(shí)間上求平均進(jìn)行估計(jì):

        Φn(l)=αnΦn(l-1)+[1-αn]Y(l)Y(l)H(13)

        Φx+n(l)=αxΦx+n(l-1)+[1-αx]Y(l)Y(l)H(14)

        其中:Φn為噪聲的功率譜密度,Φx+n為含噪語(yǔ)音的功率譜密度;αn和αx為一固定常數(shù),通過式(15)求得:

        αn=1-μx

        αx=1-μx(1-x) (15)

        對(duì)含噪語(yǔ)音端點(diǎn)檢測(cè),檢測(cè)到語(yǔ)音幀時(shí)μx=1,噪聲幀時(shí)μx=0,其中x∈(0,1]本文取固定常數(shù)0.95。

        該遞推算法的基本流程[11]是:

        1)計(jì)算初始噪聲的相關(guān)矩陣即功率譜密度進(jìn)行求逆運(yùn)算,得到初始化權(quán)值;

        2)開始對(duì)初始噪聲段進(jìn)行Woodbury更新;

        3)進(jìn)入語(yǔ)音段處理,用前一幀的求逆相關(guān)矩陣替代當(dāng)前幀的相關(guān)矩陣;

        4)進(jìn)入噪聲段處理,對(duì)2)中的相關(guān)矩陣進(jìn)行Woodbury更新;

        5)遞推完成整個(gè)信號(hào)長(zhǎng)度的運(yùn)算。

        根據(jù)矩陣求逆引理,相關(guān)矩陣求逆運(yùn)算后可表示為:

        Φn-1(l)=αn-1Φn-1(l-1)-

        αn-1(1-αn)Φ-1n(l-1)Y(l)YH(l)Φn-1(l-1)αn+(1-αn)YH(l)Φn-1(l-1)Y(l)(16)

        對(duì)式(16)進(jìn)一步簡(jiǎn)化[7],令:

        gn=(1-αn)Φn-1(l-1)y(l)αn+(1-αn)yH(l)Φn-1(l-1)y(l)(17)

        最后遞推得到MVDR波束形成器的加權(quán)向量為:

        WMVDR(l)=D(k)HΦn-1(l-1)D(k)αnvD(k)HΦn-1(l)×

        [Ι-gnyH(l)]WMVDR(l-1)(18)

        將求得的遞歸矩陣求逆的MVDR的權(quán)值矢量系數(shù)與含噪雙微陣列語(yǔ)音信號(hào)的頻譜相乘即得到進(jìn)行波束形成增強(qiáng)后的語(yǔ)音信號(hào)。

        (l,k)=WMVDRY(l,k)(19)

        2?調(diào)制域譜減法

        語(yǔ)音增強(qiáng)的目標(biāo)是提高噪聲環(huán)境下的語(yǔ)音質(zhì)量,這就需要在噪聲抑制和引起的語(yǔ)音失真之間找到一個(gè)平衡點(diǎn)。在許多增強(qiáng)方法中,譜減法是一種簡(jiǎn)單而有效的方法,適用于平穩(wěn)或緩慢變化的加性噪聲環(huán)境,常見的功率譜譜減法,側(cè)重于信號(hào)幅度的估計(jì),在信號(hào)重構(gòu)中采用帶噪相位,即信號(hào)功率譜由含噪信號(hào)功率譜的估計(jì)值減去噪聲功率譜的估計(jì)值來估計(jì)[13]。當(dāng)信噪比較高時(shí),含噪語(yǔ)音相位接近于純凈語(yǔ)音信號(hào)相位,可直接用于純凈語(yǔ)音的估計(jì),但隨著信噪比的降低,噪聲相位在信號(hào)重構(gòu)中變得不足。同時(shí),傳統(tǒng)譜減法引起的“音樂噪聲”問題也需要解決,因此,本文引入調(diào)制域譜減法進(jìn)行改善。

        與頻域表示的是頻率與幅度間關(guān)系和時(shí)域表示時(shí)間和幅度間關(guān)系不同,調(diào)制域是時(shí)間和頻率之間的相互關(guān)系,三者之間可由圖2所示的坐標(biāo)系表示[13]。

        對(duì)式(19)求得的語(yǔ)音信號(hào)的頻譜估計(jì)(l,k)使用極坐標(biāo)表示形式:

        (l,k)=|(l,k)|ej∠(l,k)(20)

        式(20)中|(l,k)|表示語(yǔ)音幅度譜,∠(l,k)表示語(yǔ)音相位譜,對(duì)|(l,k)|再次進(jìn)行傅里葉變換,從頻域進(jìn)入調(diào)制域

        (l,k,u)=X^(l,k,u)+P(l,k,u)(21)

        (l,k,u)=|(l,k,u)|ej∠(l,k,u)(22)

        其中,l表示調(diào)制幀,u表示調(diào)制頻率,|(l,k,u)|表示調(diào)制域幅度譜,∠(l,k,u)表示調(diào)制域相位譜,P(l,k,u)表示噪聲調(diào)制譜,X^(l,k,u)是調(diào)制域譜減法處理后估計(jì)的語(yǔ)音信號(hào)。在實(shí)際計(jì)算中,通常對(duì)信號(hào)進(jìn)行端點(diǎn)檢測(cè)(Voice Activity Detection,VAD),只在噪聲段進(jìn)行估計(jì)和更新噪聲,或者取信號(hào)的前幾幀作靜音段,取這幾幀分幅度平均值作為整體估計(jì)出的噪聲。調(diào)制域譜減法的原理與經(jīng)典譜減法原理相似,通過下面計(jì)算可得到調(diào)制域幅度譜[13]:

        |X^(l,k,u)|=

        (|(l,k,u)|2-η|P^(l,k,u)|2)1/2,

        |(l,k,u)|2≥(λ+η)|P^(l,k,u)|2

        (λ|P(l,k,u)|2)1/2,?其他 (23)

        其中:η是過減因子,λ是增益補(bǔ)償因子,P^(l,k,u)是估計(jì)的調(diào)制噪聲譜,由式(24)得到:

        P^(l,k,u)|2=γ|P^(l-1,k,u)|2+(1-γ)|(l,k,u)|2(24)

        其中γ是平滑系數(shù)。得到語(yǔ)音調(diào)制域幅度譜后再結(jié)合含噪語(yǔ)音調(diào)制域相位譜進(jìn)行傅里葉逆變換可得估計(jì)的最終純凈語(yǔ)音信號(hào)頻域幅度譜:

        X^(l,k,u)=|X^(l,k,u)|ej∠(l,k,u)(25)

        X^(l,k)=IDFT(X^(l,k,u))(26)

        對(duì)式(26)得到的語(yǔ)音幅度譜,再結(jié)合含噪語(yǔ)音的相位譜進(jìn)行傅里葉逆變換即得到最終消噪后的信號(hào):

        (n)=IDFT(X^(l,k))(27)

        3?卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)

        本文采用CNN進(jìn)行語(yǔ)音模型的訓(xùn)練,其中卷積層和池化層是其核心也是優(yōu)勢(shì)所在,相比全連接神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)在于可以大幅減少參數(shù)的數(shù)量。本文卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)如圖3所示,包含卷積層1、池化層1、卷積層2、池化層2、全連接層1、全連接層2。

        3.1?卷積層

        卷積層能夠?qū)崿F(xiàn)神經(jīng)網(wǎng)絡(luò)中的局部連接和權(quán)值共享功能,局部連接利用了語(yǔ)音短時(shí)時(shí)間內(nèi)語(yǔ)音特征信息相關(guān)性強(qiáng),距離較遠(yuǎn)的特征相關(guān)聯(lián)性較弱的特點(diǎn),只對(duì)局部特征進(jìn)行學(xué)習(xí),在神經(jīng)網(wǎng)絡(luò)的更高層對(duì)各局部特征進(jìn)行綜合,相對(duì)于全連接層全部神經(jīng)元都進(jìn)行連接的特點(diǎn),CNN層與層間的連接只是上一層神經(jīng)元節(jié)點(diǎn)只與下一層的部分節(jié)點(diǎn)連接[14]。CNN的卷積操作通過卷積核在特征平面上滑動(dòng)得到,形成局部連接的區(qū)域,卷積核的權(quán)重隨機(jī)初始化得到,通過訓(xùn)練過程不斷更新,直到網(wǎng)絡(luò)達(dá)到最優(yōu)。經(jīng)卷積核卷積運(yùn)算后的每張?zhí)卣鲌D(feature map)就是一種局部的卷積方式,這樣可以提取不同特征的局部表示,卷積運(yùn)算的方式如式(28)[15]所示:

        ykj=σ(∑nj=1(wkijxj)+bkj)(28)

        其中:x表示第k層的輸出作為k+1層的輸入,y表示第k+1層的輸出,σ表示激活函數(shù),wkij表示第k層的第i個(gè)神經(jīng)單元與第k+1層的第j個(gè)神經(jīng)單元之間的權(quán)值矩陣,b是第k+1層的偏置項(xiàng)。

        本文上述激活函數(shù)采用Leaky relus函數(shù),它是在ReLU激活函數(shù)基礎(chǔ)上改進(jìn)的,保留了一部分負(fù)值,當(dāng)輸入為負(fù)值時(shí)乘以較小的系數(shù)a,本文中取0.01,其數(shù)學(xué)表達(dá)式[16]為:

        f(x)=x,x>0ax,其他 (29)

        3.2?池化層

        卷積神經(jīng)網(wǎng)絡(luò)的池化層處理可以使網(wǎng)絡(luò)參數(shù)大幅減小,而且對(duì)說話人差異引起的信號(hào)變化具有更好的魯棒性,實(shí)現(xiàn)了對(duì)高維度特征的抽象獲取。池化層的輸入是前一卷積層的局部區(qū)域進(jìn)行下采樣等得到,下采樣大幅降低了計(jì)算復(fù)雜度,也提高了模型的泛化能力[16]。通常進(jìn)行最大池化(max pooling)和均值池化(average pooling)操作,最大池化是取池化范圍內(nèi)的最大元素,可以減少卷積層參數(shù)誤差導(dǎo)致的估計(jì)偏差,均值池化是取池化范圍內(nèi)所有元素的算術(shù)平均值,在語(yǔ)音識(shí)別研究領(lǐng)域,通常采用最大池化。最大池化的計(jì)算公式如下:

        pm,n=maxGi=1(qm,(n-1)×s+i) (30)

        其中:G表示池化尺寸;s表示步長(zhǎng),決定相鄰采樣窗口的重疊程度。

        3.3?損失函數(shù)

        損失函數(shù)是進(jìn)行網(wǎng)絡(luò)模型訓(xùn)練的關(guān)鍵,用來描述預(yù)測(cè)值與真實(shí)值之間的差距,一般有均值平方差(Mean Squared Error,MSE)損失函數(shù)和交叉熵(Cross Entropy,CE)損失函數(shù)[16]。本文訓(xùn)練模型時(shí)采用交叉熵函數(shù),它一般用于分類問題,表示預(yù)測(cè)樣本屬于某一類別的概率,表達(dá)式如式(31)所示:

        c=-1n∑x[ylna+(1-y)ln(1-a)](31)

        其中:y表示真實(shí)的分類,a表示預(yù)測(cè)值。

        上述交叉熵的值越小,代表預(yù)測(cè)結(jié)果越準(zhǔn)確,模型越好。

        3.4?模型訓(xùn)練

        卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程分為前向傳播與反向傳播兩個(gè)部分,假設(shè)已經(jīng)對(duì)所有權(quán)值矩陣和偏置進(jìn)行初始化,已知提取后的輸入特征參數(shù)矩陣。

        1)前向傳播。

        ①對(duì)于卷積層來說,卷積核與輸入特征矩陣對(duì)應(yīng)位置相乘后再相加,得到輸出矩陣對(duì)應(yīng)位置的值。假設(shè)輸入矩陣為M*N大小,卷積核為a*b大小,則輸出矩陣大小為(M-a+1)*(N-b+1)大小[16]。

        ②對(duì)于池化層來說,前向傳播按照選定的池化規(guī)則把輸入張量進(jìn)行降維,比如最大池化,只取池化窗口的最大值作為輸出值。

        ③全連接層的前向傳播與一般的前向傳播方式一致。

        2)反向傳播。

        卷積神經(jīng)網(wǎng)絡(luò)的反向傳播由于其卷積層和池化層的特殊性,與一般的反向傳播不一樣。首先,池化層沒有激活函數(shù),這個(gè)問題可以容易解決,可以將激活函數(shù)看成其本身,則池化層激活函數(shù)的導(dǎo)數(shù)為1;另外,池化層進(jìn)行前向傳播的過程中對(duì)輸入進(jìn)行了壓縮降維,所以進(jìn)行反向傳播推到上一層誤差時(shí),需要進(jìn)行上采樣; 最后,卷積層是通過卷積后求和得到輸出,進(jìn)行上一層誤差的計(jì)算方式不同[15-16]。

        假設(shè)通過前向傳播計(jì)算后輸出層:

        ai,l=σ(zi,l)=σ(wlai,l-1+b)(32)

        定義損失函數(shù)為J(w,b),則輸出層的誤差可計(jì)算為:

        δi,l=-(y-ai,l)·σ′(zi,l)(33)

        在反向傳播時(shí),首先會(huì)把δi,l的所有子矩陣還原成進(jìn)行池化之前的大?。喝绻亲畲蟪鼗?,則把δi,l的所有子矩陣的各個(gè)池化局域的值放在之前做前向傳播算法得到最大值的位置;如果是均值池化,則把δi,l的所有子矩陣的各個(gè)池化局域的值取平均后放在還原后的子矩陣位置,這個(gè)過程一般叫作upsample[16]。

        根據(jù)以上前向傳播與后向傳播訓(xùn)練準(zhǔn)則,逐層進(jìn)行訓(xùn)練,對(duì)權(quán)值系數(shù)矩陣和偏置進(jìn)行更新,損失函數(shù)的值逐漸變小,直到完成模型的訓(xùn)練過程。

        4?實(shí)驗(yàn)與分析

        本文實(shí)驗(yàn)所采用的數(shù)據(jù)通過在安靜的實(shí)驗(yàn)室環(huán)境下使用KEMAR人工頭設(shè)備以及MAudio多路音頻采集器采集。采用四通道的雙微陣列結(jié)構(gòu)錄制,其中使用雙微陣列采集的純凈語(yǔ)音數(shù)據(jù)進(jìn)行模型訓(xùn)練,實(shí)驗(yàn)語(yǔ)音數(shù)據(jù)共30人進(jìn)行錄制,其中男20人,女10人,每人讀取25條不同的語(yǔ)音,每條兩遍,共1-500條語(yǔ)句,其中60%作為訓(xùn)練集,20%作為驗(yàn)證集,20%的數(shù)據(jù)作為測(cè)試集,測(cè)試集的語(yǔ)音加入不同信噪比的噪聲,進(jìn)行后續(xù)處理以驗(yàn)證本文算法以及對(duì)比算法的效果。

        本文采用的語(yǔ)音特征參數(shù)為13維的梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient, MFCC)及其一階差分、二階差分共同組成39維的特征向量,然后拼接當(dāng)前幀結(jié)合前后各5幀的共11幀參數(shù),不足5幀的進(jìn)行補(bǔ)零,組合好的MFCC參數(shù)特征共429維。語(yǔ)音分幀長(zhǎng)度為25ms,幀移10ms,預(yù)加重系數(shù)取0.97。由于每條語(yǔ)音長(zhǎng)度不一致,本文實(shí)驗(yàn)中的語(yǔ)音時(shí)間長(zhǎng)度均低于2s,因此假設(shè)最多可分為200幀,不足的進(jìn)行補(bǔ)零,組成200×429的參數(shù)矩陣作為網(wǎng)絡(luò)的輸入。將參數(shù)進(jìn)行歸一化后,輸入到卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,第一個(gè)卷積層采用5×5的卷積核采樣窗口,步長(zhǎng)為1,32個(gè)卷積核抽取特征,把輸入和權(quán)值向量進(jìn)行卷積,再加上偏置值,然后輸入到激活函數(shù)為L(zhǎng)eaky_relu函數(shù)的激活層;池化層采用2×2大小的最大池化,步長(zhǎng)為2,提取對(duì)應(yīng)窗口的最大值;第二個(gè)卷積層采用5×5的卷積核采樣窗口,64個(gè)卷積核抽取特征,同樣進(jìn)行最大池化。最后把池化層2的輸出扁平化為1維,有序連接成一個(gè)向量作為第一個(gè)全連接層的輸入,同時(shí),為了防止過擬合引入dropout機(jī)制,在不同的訓(xùn)練過程中隨機(jī)丟棄一部分神經(jīng)元,提升模型的泛化能力[17]。全連接層的節(jié)點(diǎn)數(shù)為1-024個(gè)節(jié)點(diǎn),本文初始權(quán)值系數(shù)和偏置系數(shù)均采用截?cái)嗾龖B(tài)分布隨機(jī)數(shù)truncated_normal,該函數(shù)具有截?cái)喙δ?,可以生成相?duì)比較溫和的初始值。優(yōu)化函數(shù)使用Adam,使用交叉熵?fù)p失函數(shù),初始學(xué)習(xí)率為0.000-1,語(yǔ)音標(biāo)簽信息采用onehot編碼,訓(xùn)練時(shí)一次取10條數(shù)據(jù)進(jìn)行訓(xùn)練。

        驗(yàn)證本文算法對(duì)提升噪聲環(huán)境下語(yǔ)音識(shí)別穩(wěn)健性的可行性,采用三種噪聲作對(duì)比實(shí)驗(yàn),分別為Noisex92噪聲庫(kù)中的F16噪聲、volvo噪聲和babble噪聲,信噪比分別為-5dB、0dB、5dB、10dB,并且進(jìn)行同種條件下的對(duì)比實(shí)驗(yàn),分別采用廣義旁瓣抵消(Generalized Sidelobe Canceller,GSC),文獻(xiàn)[18]中的最小方差無畸變響應(yīng)波束形成后置改進(jìn)維納濾波算法(Minimum Variance Distortionless Response combined with Modify Wiener Filter,MVDRMWF)[18]和本文算法。圖4為F16噪聲環(huán)境,信噪比為0dB時(shí),對(duì)一段語(yǔ)音采用本文以及對(duì)比算法進(jìn)行實(shí)驗(yàn)得到的語(yǔ)音時(shí)域波形仿真。

        由圖4可以看出,本文算法應(yīng)用在語(yǔ)音識(shí)別系統(tǒng)前,對(duì)含噪語(yǔ)音實(shí)現(xiàn)了較好的去噪效果,有效抑制了噪聲對(duì)語(yǔ)音信息的損壞,主要因?yàn)楸疚乃惴梢猿浞掷名溈孙L(fēng)陣列的方位信息,并且調(diào)制域譜減法將幅度譜補(bǔ)償從頻域轉(zhuǎn)移到調(diào)制域減少語(yǔ)音畸變的產(chǎn)生,取得了較好的降噪效果。而對(duì)比算法的去噪效果并不明顯,并且有較多的毛刺存在,經(jīng)過試聽可以聽到明顯的語(yǔ)音畸變。

        為對(duì)比本文采用的遞歸求逆運(yùn)算在減少算法計(jì)算復(fù)雜度方面的優(yōu)劣,在Matlab 2014實(shí)驗(yàn)環(huán)境下采用一段不同噪聲環(huán)境下的信噪比為0dB的含噪語(yǔ)音進(jìn)行處理的運(yùn)行時(shí)間對(duì)比,對(duì)比算法分別為傳統(tǒng)MVDR算法以及本文基于遞歸矩陣求逆與對(duì)角加載的改進(jìn)算法,運(yùn)行時(shí)間情況如表1所示??梢悦黠@看出,本文的改進(jìn)MVDR波束形成算法相比傳統(tǒng)的MVDR算法的運(yùn)算時(shí)間較短,大幅降低了運(yùn)算復(fù)雜度。

        為了驗(yàn)證本文算法對(duì)噪聲環(huán)境下語(yǔ)音識(shí)別的效果,采用上述三種算法以及不對(duì)含噪語(yǔ)音進(jìn)行任何處理做對(duì)比實(shí)驗(yàn),分別得到在F16噪聲、volvo噪聲、babble噪聲環(huán)境下經(jīng)不同算法處理后語(yǔ)音的識(shí)別率,如表2~4所示。

        由表2~4的語(yǔ)音識(shí)別對(duì)比實(shí)驗(yàn)結(jié)果可以看出,本文算法對(duì)噪聲環(huán)境下的語(yǔ)音識(shí)別率得到了明顯的提升,相對(duì)于未經(jīng)處理的含噪語(yǔ)音,經(jīng)麥克風(fēng)陣列算法處理后,在CNN模型上,語(yǔ)音識(shí)別率得到了明顯的改善,在信噪比為10dB的F16噪聲環(huán)境下語(yǔ)音識(shí)別率達(dá)到了92.3%,相對(duì)于對(duì)比算法和不做處理時(shí)的識(shí)別率有較大的提升,說明本文在語(yǔ)音識(shí)別系統(tǒng)前端使用雙微陣列的結(jié)構(gòu)進(jìn)行消噪處理,來提高語(yǔ)音識(shí)別率的方法是切實(shí)可行的。另外,卷積神經(jīng)網(wǎng)絡(luò)的方法具有獨(dú)特的優(yōu)勢(shì),主要是CNN擔(dān)任了特征提取器的角色,可以提取語(yǔ)音深層次的特征,而采用拼幀操作也較好地利用了語(yǔ)音信號(hào)的長(zhǎng)時(shí)相關(guān)性。

        5?結(jié)語(yǔ)

        本文針對(duì)傳統(tǒng)波束形成算法難以處理空間噪聲問題,提出了一種改進(jìn)的最小方差無畸變響應(yīng)波束形成方法,并通過后置調(diào)制域譜減法對(duì)語(yǔ)音進(jìn)一步進(jìn)行處理,獲得了較好的降噪效果,另外,本文采用卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練語(yǔ)音模型,實(shí)驗(yàn)結(jié)果表明,取得了優(yōu)于對(duì)比算法的識(shí)別效果,在噪聲環(huán)境下具有良好的穩(wěn)健性。

        在下一步的研究工作中,鑒于深度學(xué)習(xí)在語(yǔ)音識(shí)別領(lǐng)域的廣泛應(yīng)用,將在語(yǔ)音模型訓(xùn)練優(yōu)化方面進(jìn)行進(jìn)一步研究,以提升噪聲環(huán)境下語(yǔ)音識(shí)別的穩(wěn)健性。

        參考文獻(xiàn) (References)

        [1]? 韓紀(jì)慶, 張磊, 鄭鐵然. 語(yǔ)音信號(hào)處理[M]. 北京:清華大學(xué)出版社,2004: 1-4.(HAN J Q, ZHANG L, ZHENG T R. Speech Signal Processing[M].Beijing: Tsinghua University Press,2004: 1-4.)

        [2]? 宋知用. Matlab在語(yǔ)音信號(hào)分析與合成中的應(yīng)用[M].北京: 北京航空航天大學(xué)出版社, 2013: 176-199.(SONG Z Y. Application of Matlab in Speech Signal Analysis and Synthesis[M]. Beijing: Beihang University Press, 2013: 176-199.)

        [3]? ZHANG X, WANG Z, WANG D. A speech enhancement algorithm by iterating single and multimicrophone processing and its application to robust ASR[C]// Proceedings of the 2017 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2017:276-280.

        [4]? HIGUCHI T, ITO N, ARAKI S, et al. Online MVDR beamformer based on complex Gaussian mixture model with spatial prior for noise robust ASR[J]. IEEE/ACM Transactions on Audio Speech and Language Processing, 2017, 25(4):780-793.

        [5]? PFEIFENBERGER L, SCHRANK T, ZHRER M, et al. Multichannel speech processing architectures for noise robust speech recognition: 3rd CHiME challenge results [C]// Proceedings of the 2015 IEEE Workshop on Automatic Speech Recognition and Understanding. Piscataway: IEEE, 2016: 1-7.

        [18]? 馬金龍,曾慶寧, 龍超,等. 多噪聲環(huán)境下可懂度提升的助聽器語(yǔ)音增強(qiáng)[J].計(jì)算機(jī)工程與設(shè)計(jì), 2016, 37(8):2160-2164.(MA J L, ZENG Q N, LONG C, et al. Intelligibility improved speech enhancement for hearing aids in complex noise environment [J].Computer Engineering and Design, 2016, 37(8):2160-2164.)

        This work is partially supported by the National Natural Science Foundation of China (61461011), the State Key Program of National Nature Science of Guangxi Zhuang Autonomous Region (2016GXNSFDA380018), the Director Fund of Key Laboratory of Cognitive Radio and Information Processing of Ministry of Education (CRKL160107, CRKL170108).

        LIU Weibo, born in 1991, M. S. candidate. His research interests include speech recognition.

        ZENG Qingning, born in 1963, Ph. D., professor. His research interests include speech signal processing, image processing.

        BU Yuting, born in 1995, M. S. candidate. Her research interests include speech signal processing.

        ZHENG Zhanheng, born in 1978, M. S., senior experimentalist. His research interests include speech signal processing.

        猜你喜歡
        語(yǔ)音識(shí)別穩(wěn)健性卷積神經(jīng)網(wǎng)絡(luò)
        會(huì)計(jì)穩(wěn)健性的定義和計(jì)量
        商情(2019年3期)2019-03-29 12:04:52
        會(huì)計(jì)穩(wěn)健性的文獻(xiàn)綜述
        財(cái)訊(2018年22期)2018-05-14 08:55:57
        基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法
        通話中的語(yǔ)音識(shí)別技術(shù)
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
        軟件工程(2016年8期)2016-10-25 15:47:34
        基于卷積神經(jīng)網(wǎng)絡(luò)的樹葉識(shí)別的算法的研究
        面向移動(dòng)終端的語(yǔ)音簽到系統(tǒng)
        貨幣政策、會(huì)計(jì)穩(wěn)健性與銀行信貸關(guān)系探析
        農(nóng)業(yè)物聯(lián)網(wǎng)平臺(tái)手機(jī)秘書功能分析與實(shí)現(xiàn)
        亚洲一区二区三区综合网| 青青草视频在线观看网| 日本一级三级在线观看| 蜜桃a人妻精品一区二区三区| 亚洲精品一区二区三区在线观| 亚洲av手机在线一区| 黑人玩弄极品人妻系列视频| 伦伦影院午夜理论片| 成人国产精品一区二区视频| 精品深夜av无码一区二区| 亚洲妇女水蜜桃av网网站| 美女精品国产一区二区三区 | 国产西西裸体一级黄色大片| 色综合中文字幕综合网| 校园春色人妻激情高清中文字幕| 亚洲中文字幕精品视频| 免费人成小说在线观看网站| 久久国产加勒比精品无码| 亚洲精品aa片在线观看国产| 亚洲另类自拍丝袜第五页| 高清国产亚洲va精品| 久久亚洲精品一区二区| 亚洲小少妇一区二区三区| 亚洲一区精品在线中文字幕| 亚洲精品色午夜无码专区日韩| 欧美成人精品a∨在线观看| 无码人妻精品丰满熟妇区| 级毛片免费看无码| 少妇勾引视频网站在线观看| 偷拍美女上厕所一区二区三区| 尤物yw午夜国产精品视频| 肉体裸交137日本大胆摄影| 一本一本久久a久久精品综合| 两个人看的www中文在线观看| 国产免费久久精品99re丫y| 成人偷拍自拍在线视频| 久久黄色国产精品一区视频| 久久国产人妻一区二区| 99国内精品久久久久久久| 国产av日韩a∨亚洲av电影| 日本一区二区三区专区|