亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        低信噪比條件下深度學(xué)習(xí)麥克風(fēng)陣列波束形成

        2022-12-14 08:27:22鐘雙蓮劉雨佶章宇棟陳東升
        兵器裝備工程學(xué)報 2022年11期
        關(guān)鍵詞:麥克風(fēng)波束信噪比

        鐘雙蓮,童 峰,3,劉雨佶, 章宇棟,陳東升,3

        (1.廈門大學(xué) 水聲通信與海洋信息技術(shù)教育部重點實驗室, 福建 廈門 361005;2.廈門大學(xué) 海洋與地球?qū)W院, 福建 廈門 361102; 3.廈門大學(xué) 深圳研究院, 廣東 深圳 518000)

        1 引言

        隨著智能家居、遠(yuǎn)程會議、智能裝備、可穿戴設(shè)備技術(shù)蓬勃發(fā)展,作為語音入口的語音交互技術(shù)發(fā)展迅速,麥克風(fēng)陣列在前端語音增強(qiáng)中得到廣泛研究和應(yīng)用[1-4]。與單通道語音增強(qiáng)算法相比,麥克風(fēng)陣列語音增強(qiáng)算法可以充分利用多通道語音空間信息實現(xiàn)噪聲、干擾抑制。但是,在低信噪比環(huán)境下,傳統(tǒng)麥陣增強(qiáng)技術(shù)面臨增強(qiáng)效果下降、語音清晰度和可懂度降低等問題,嚴(yán)重影響正常工作。

        麥克風(fēng)陣列波束形成算法主要有3類:固定波束形成算法(基于時延累加波束形成(delay-and-sum beamforming,DSB)算法[5]、濾波累加波束形成(filter-and-sum beamforming,FSB)算法[6]),自適應(yīng)波束形成算法[7],后置濾波算法[8]。固定波束形成算法在設(shè)計濾波器系數(shù)時通常是根據(jù)一定的準(zhǔn)則,利用已知聲源位置、麥克風(fēng)陣列陣型、聲源場景等先驗知識來設(shè)計,適用于固定的場景,以及非相關(guān)的噪聲環(huán)境,但是對相關(guān)的噪聲以及動態(tài)聲學(xué)場景效果較差。而自適應(yīng)波束形成算法通常是利用輸入信號的統(tǒng)計特性來計算濾波器系數(shù),從而能適應(yīng)動態(tài)的聲學(xué)場景,但是波束形成的收斂速度比較慢,難以跟蹤快速變化的聲學(xué)場景。后置濾波算法主要是解決非相干噪聲場中不相關(guān)噪聲信號,但是現(xiàn)實多是相干噪聲環(huán)境[9]。

        基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型的麥克風(fēng)陣列語音增強(qiáng)算法成為了新的研究熱點。在時頻掩蔽多通道波束形成中,結(jié)合深度學(xué)習(xí)得到廣泛研究,鄧賀元等[10]通過聯(lián)合頻譜特征和空間特征進(jìn)行多通道的波束形成語音增強(qiáng),在測試數(shù)據(jù)集上下降了27.6%的WER。因時頻掩蔽方法需要利用語音和噪聲的頻譜、相位特征的區(qū)分信息,在低信噪比條件下語音、噪聲頻譜信息往往難以明顯區(qū)分,導(dǎo)致增強(qiáng)效果下降[11]。

        面向語音識別需求,采用前端、識別端聯(lián)合序列訓(xùn)練[12-13]。Ravanelli等[14]提取梅爾倒譜系數(shù)(mel-frequency cepstral coefficient,MFCC)特征,并改進(jìn)深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來增加波束形成的語音增強(qiáng)網(wǎng)絡(luò)和語音識別網(wǎng)絡(luò)的通信,通過聯(lián)合訓(xùn)練來降低低信噪比條件下的語音識別詞錯誤率(word error rate,WER)。這類優(yōu)化方式可以直接服務(wù)于提高語音識別準(zhǔn)確率的任務(wù),但是因無需對語音信號進(jìn)行重構(gòu),不輸出增強(qiáng)的語音信號,因而不適合需要語音輸出的應(yīng)用,如遠(yuǎn)程會議、通話終端等。

        考慮到智能語音應(yīng)用中低信噪比場景,引入深度學(xué)習(xí)進(jìn)行麥克風(fēng)陣列波束形成語音增強(qiáng),本文通過構(gòu)建一個空間域優(yōu)化的深度學(xué)習(xí)波束形成網(wǎng)絡(luò),獲得增強(qiáng)語音輸出,從而保證低信噪比條件下的語音增強(qiáng)性能。介紹了波束形成網(wǎng)絡(luò)框架設(shè)計及基于LSTM波束形成網(wǎng)絡(luò)結(jié)構(gòu),最后對所提方案進(jìn)行仿真和實驗驗證。

        2 基于深度學(xué)習(xí)的波束形成網(wǎng)絡(luò)設(shè)計

        2.1 網(wǎng)絡(luò)結(jié)構(gòu)框架

        本文所提深度學(xué)習(xí)波束形成網(wǎng)絡(luò)框架如圖1所示,網(wǎng)絡(luò)分為波束形成器訓(xùn)練部分和語音增強(qiáng)部分(又為測試部分)。模型訓(xùn)練階段,首先對訓(xùn)練集的多通道語音信號進(jìn)行預(yù)處理,接著輸入神經(jīng)網(wǎng)絡(luò)中,以干凈的單通道信號的特征值為訓(xùn)練目標(biāo)進(jìn)行訓(xùn)練,訓(xùn)練完成后,對測試集的多通道語音進(jìn)行同樣的預(yù)處理方式后,輸入到訓(xùn)練好的波束形成器網(wǎng)絡(luò)和語音重構(gòu)得到增強(qiáng)的語音信號。

        其中預(yù)處理模塊包括時頻分解和特征提取。時頻分解方法主要有短時傅里葉變換法(short time fourier transform,STFT)和小波變換等2種。本文中的網(wǎng)絡(luò)模型采用STFT對多通道語音信號進(jìn)行時頻變換,得到頻譜X。STFT的幀長是512個采樣點,幀移是幀長的一半,故X的維度為257F,F(xiàn)為幀數(shù);選取z-score[15]標(biāo)準(zhǔn)化后|X|的功率譜作為特征。

        圖1 網(wǎng)絡(luò)結(jié)構(gòu)框圖

        2.2 波束形成的神經(jīng)網(wǎng)絡(luò)模型

        當(dāng)前基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型較多,其中傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN)模型存在對時序信號處理不敏感和參數(shù)膨脹的問題;而深度循環(huán)遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)模型能對語音信號按時間序列進(jìn)行分析[16],但是存在梯度消失的問題;而LSTM神經(jīng)網(wǎng)絡(luò)模型不僅適合對于時序信號的處理,而且從當(dāng)前的研究表明,相教于傳統(tǒng)的DNN神經(jīng)網(wǎng)絡(luò)模型,其對于未出現(xiàn)的說話人和噪聲具有更好的泛化性[17],同時也解決了RNN神經(jīng)網(wǎng)絡(luò)模型梯度消失的問題。因此在Tensorflow框架上搭建了基于LSTM的神經(jīng)網(wǎng)絡(luò)模型。

        神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)主要有2層LSTM(128 維)的主網(wǎng)絡(luò)、1層DNN 掩碼(257×6 維)的掩碼(MASK)模塊和1層遮蔽層的疊加輸出模塊,模型主體網(wǎng)絡(luò)結(jié)構(gòu)框圖如圖2。其中多通道的特征通過LSTM層訓(xùn)練,輸入到一個DNN MASK層,獲得每個通道的MASK估計結(jié)果,為了與輸入特征維度適配,MASK層的節(jié)點數(shù)為F(通道數(shù))。DNN MASK層輸出結(jié)果再與輸入多通道特征值相乘做加權(quán)平均后得到預(yù)測的單通道的特征。

        圖2 模型主體網(wǎng)絡(luò)結(jié)構(gòu)框圖

        2.3 損失函數(shù)與訓(xùn)練目標(biāo)設(shè)置

        損失函數(shù)為訓(xùn)練目標(biāo)和預(yù)測輸出的歐式距離,并采用Adam優(yōu)化器作為網(wǎng)絡(luò)的優(yōu)化器。網(wǎng)絡(luò)訓(xùn)練目標(biāo)為幅值控制的單通道功率譜特征值。幅值控制根據(jù)本文中所訓(xùn)練的波束形成網(wǎng)絡(luò)的波束圖能量分布設(shè)計,其中波束形成網(wǎng)絡(luò)對準(zhǔn)方向相應(yīng)通道信號的幅值無損失,其他通道信號根據(jù)與波束形成網(wǎng)絡(luò)對準(zhǔn)方向的角度差來對該信號進(jìn)行幅值控制。θmodel為模型訓(xùn)練所對準(zhǔn)的角度,θsignal為該通道信號的方向,Atarget為幅值控制后的通道信號的幅值,Asignal為原始通道信號的幅值,通過幅值控制,使得模型訓(xùn)練的波束具有指向性。訓(xùn)練目標(biāo)幅值控制權(quán)重設(shè)置如表1所示。

        表1 訓(xùn)練目標(biāo)幅值控制權(quán)重設(shè)置

        3 實驗設(shè)置與實驗結(jié)果

        3.1 數(shù)據(jù)庫說明

        模型訓(xùn)練數(shù)據(jù)集采用中文語音數(shù)據(jù)庫THCHS-30數(shù)據(jù)庫[16],該數(shù)據(jù)集是在安靜辦公室環(huán)境下錄制的單通道語音信號,信號的采樣率16 kHz,數(shù)據(jù)庫總時長約為30 h,該數(shù)據(jù)包含了訓(xùn)練集、驗證集和測試集。將數(shù)據(jù)庫的訓(xùn)練集單通道語音信號作為仿真多通道數(shù)據(jù)的原始信號,仿真均勻分布的麥克風(fēng)圓形陣列的時延關(guān)系并生成多通道語音信號,其中麥克風(fēng)陣列直徑為65 mm,獲取以15°為劃分的24個角度的多通道語音信號。具體的仿真條件為:先通過IMAGE模型[18]模擬11 m×11 m×3 m典型辦公室尺寸的房間沖激響應(yīng),產(chǎn)生反射強(qiáng)度分別為0.2、0.4、0.6、0.8的房間沖激響應(yīng),將房間沖激響應(yīng)與多通道語音信號進(jìn)行卷積,得到4種不同混響強(qiáng)度的混響信號,再隨機(jī)疊加信噪比為5 dB、10 dB、15 dB的白噪,來仿真實際環(huán)境中的帶噪語音。

        仿真測試集在不同信噪比(signal to noise ratio,SNR)下帶噪語音的改善效果如表2所示,本文中的SNR[19]計算公式為:

        (1)

        式(1)中:Psignal為信號的功率;Pnoise為噪聲的功率。

        表2 傳統(tǒng)算法及神經(jīng)網(wǎng)絡(luò)模型SNR結(jié)果

        從表2可以看出,波束對準(zhǔn)角度的語音信號經(jīng)過FSB算法處理,信噪比平均能提升7 dB左右,這是由于仿真測試集疊加的是高斯白噪聲,符合FSB算法的算法模型,處理效果好,總體上看,本文算法的處理效果略好于FSB算法。

        3.2 實驗設(shè)置與結(jié)果分析

        3.2.1實驗設(shè)置

        麥陣增強(qiáng)實驗在某大廳中進(jìn)行,實驗環(huán)境如表3所示。實驗中利用 MARSHALL Kilburn移動式藍(lán)牙音箱播放文獻(xiàn)[4]中的數(shù)據(jù)庫語音,利用ReSpeaker Far-field Mic Array 7元(圓周均勻分布6個、陣中心分布1個)麥克風(fēng)圓形陣列作為采集設(shè)備進(jìn)行麥陣信號轉(zhuǎn)錄。轉(zhuǎn)錄過程中以麥克風(fēng)陣列為中點調(diào)整對準(zhǔn)音響的角度,每次調(diào)整30°,總計獲得3 549條有效轉(zhuǎn)錄麥克風(fēng)陣列語音數(shù)據(jù)。為了模擬低信噪比環(huán)境的典型噪聲,對轉(zhuǎn)錄麥克風(fēng)陣列語音數(shù)據(jù)隨機(jī)疊加實錄吹風(fēng)機(jī)、音樂、道路背景噪聲,生成不同信噪比的帶噪信號進(jìn)行測試。

        表3 實驗環(huán)境規(guī)格

        3.2.2實驗結(jié)果分析

        實驗選取SNR以及詞錯誤率(word error rate,WER)來評估模型的性能。圖3展示了FSB算法、LSTM波束形成算法處理的增強(qiáng)后語音的波形圖。由圖3可以看出:波束對準(zhǔn)角度的語音信號經(jīng)過FSB算法增強(qiáng)后,頻域有一定的增強(qiáng)效果,信號高頻部分的噪聲被抑制,噪聲能量小,但同時信號部分的中高頻分量也有一定的減弱,而對于低頻部分1 K以下的噪聲抑制不明顯,甚至略有增強(qiáng);而經(jīng)過本文算法增強(qiáng)后,語音信號時域的噪聲段信號幅值很小,時域的增強(qiáng)效果明顯,并且頻域方面,在高頻抑制噪聲干擾的同時對高頻分量的增強(qiáng)最明顯,信號失真最小。

        圖3 波束對準(zhǔn)角度的語音信號波形圖和時域圖

        具體對比在不同指標(biāo)下模型的提升效果,將不同信噪比的實驗信號經(jīng)過FSB波束形成算法、LSTM波束形成算法處理增強(qiáng)后,其語音的平均信噪比結(jié)果如表4所示。

        表4 傳統(tǒng)算法及神經(jīng)網(wǎng)絡(luò)模型平均信噪比SNR結(jié)果

        從表4可以看出,在實際測試場景中,傳統(tǒng)FSB算法對于原始信號沒有信噪比提升的效果,這是由于FSB算法雖然對于高頻成分的噪聲的抑制比較強(qiáng),但是對于低頻的噪聲抑制比較弱,甚至可能有加強(qiáng)噪聲的趨勢,而實際場景噪聲的能量由低頻成分噪聲占大部分;本文算法在信噪比較高的環(huán)境中,信噪比提升與傳統(tǒng)方法相當(dāng);但在低信噪比情況下,本文算法對語音的增強(qiáng)效果明顯優(yōu)于傳統(tǒng)方法。

        進(jìn)一步使用語音識別軟件[20]對實驗增強(qiáng)語音進(jìn)行識別性能評估,文本識別率定義為:

        R=1-RWE

        (2)

        式(2)中,RWE為文本的詞錯誤率。

        在波束對準(zhǔn)角度的信號經(jīng)過FSB算法、本文算法處理后的信號識別率對比,表5給出了實際辦公室場景下的對應(yīng)結(jié)果。由表5可以看出,在不同信噪比情況下,本文算法都較FSB算法有更高的識別率,平均提高在5%左右,這是由于本文算法在降低環(huán)境噪聲的同時保留了較高的高頻成分的信號,使得信號的失真較少,使得信號的識別率較高。需要指出,實驗采用識別率主要用于從識別端角度評估不同語音增強(qiáng)方法的性能,實際上,此時的識別率并不具有人機(jī)交互實用意義。

        表5 傳統(tǒng)算法及神經(jīng)網(wǎng)絡(luò)模型識別率計算結(jié)果

        最后對比傳統(tǒng)FSB算法和本文算法的算法復(fù)雜度,如表6所示,基于LSTM深度學(xué)習(xí)模型的算法,在增強(qiáng)階段算法復(fù)雜度為O(LSTM),其計算公式為[21]:

        O(ni*n1+4nl*nl+3nl+nl*no)

        (3)

        式(3)中:ni為輸入層的單元個數(shù);nl為隱藏層的單元個數(shù);no為輸出層的單元個數(shù)。

        由此可知,LSTM深度學(xué)習(xí)模型的算法復(fù)雜度與模型的層數(shù)和單元個數(shù)有關(guān);而傳統(tǒng)算法FSB算法復(fù)雜度與波束形成器的濾波器的階數(shù)以及信號的通道數(shù)有關(guān)O(FSB),其為:

        O(N*FIR1)

        (4)

        式(4)中:FIR1為濾波器的階數(shù);N為通道數(shù)。訓(xùn)練階段LSTM網(wǎng)絡(luò)層的算法復(fù)雜度為:

        T*S*O(LSTM)

        (5)

        式(5)中:T為訓(xùn)練次數(shù);S為數(shù)據(jù)量。計算LSTM深度學(xué)習(xí)模型的參數(shù)量為1.7 M個;通過使用8GB RAM和3.00 GHz Interl(R)Core(TM)i5-7400CPU處理器,計算增強(qiáng)階段100條時長為1 s的語音信號的平均運行時間,其中FSB算法的運行時長為0.072 s,而基于LSTM深度學(xué)習(xí)模型的運行時間為0.062 s,在增強(qiáng)階段,基于LSTM深度學(xué)習(xí)算法較傳統(tǒng)算法的運行速度有所提升。傳統(tǒng)算法及神經(jīng)網(wǎng)絡(luò)模型算法復(fù)雜度對比如表6所示。

        表6 傳統(tǒng)算法及神經(jīng)網(wǎng)絡(luò)模型算法復(fù)雜度

        4 結(jié)論

        本文將深度學(xué)習(xí)引入波束形成器進(jìn)行信號級優(yōu)化設(shè)計,并通過仿真、實驗評估了傳統(tǒng)波束形成算法、LSTM深度學(xué)習(xí)模型的語音增強(qiáng)性能。

        本文所提方法的語音增強(qiáng)性能在低信噪比環(huán)境中優(yōu)于傳統(tǒng)增強(qiáng)算法,在其他情況下與傳統(tǒng)算法不相上下。實驗結(jié)果表明,在低信噪比條件下深度網(wǎng)絡(luò)優(yōu)化空域代價函數(shù)構(gòu)造波束形成器可有效增強(qiáng)語音。

        猜你喜歡
        麥克風(fēng)波束信噪比
        基于深度學(xué)習(xí)的無人機(jī)數(shù)據(jù)鏈信噪比估計算法
        Binaural Rendering based on Linear Differential Microphone Array and Ambisonic Reproduction
        毫米波大規(guī)模陣列天線波束掃描研究*
        基于數(shù)字麥克風(fēng)的WIFI語音發(fā)射機(jī)
        電子測試(2018年23期)2018-12-29 11:11:24
        低信噪比下LFMCW信號調(diào)頻參數(shù)估計
        電子測試(2018年11期)2018-06-26 05:56:02
        圓陣多波束測角探究
        電子測試(2018年6期)2018-05-09 07:31:54
        低信噪比下基于Hough變換的前視陣列SAR稀疏三維成像
        Helix陣匹配場三維波束形成
        麥克風(fēng)的藝術(shù)
        麥克風(fēng)
        永久免费看黄在线观看| 久久国产精品二国产精品| 国产农村妇女毛片精品久久久| 开心激情站开心激情网六月婷婷| 少妇激情高潮视频网站| 欧洲多毛裸体xxxxx| 久久久久亚洲av无码专区导航| 成人国产永久福利看片| 91中文在线九色视频| 色偷偷色噜噜狠狠网站30根| 国产真实夫妇交换视频| 久久一区二区三区四区| 国产一区二区三区特区| 精品国产yw在线观看| 99国内精品久久久久久久| 中文字幕不卡高清免费| 久久精品国产亚洲av网在| 国产三级a三级三级| 999国内精品永久免费视频| 亚洲中文字幕久爱亚洲伊人| 熟女一区二区国产精品| av无码国产在线看免费网站| 色94色欧美sute亚洲线路二| 精品黑人一区二区三区| 97成人精品视频在线| 中国丰满熟妇xxxx性| 国产系列丝袜熟女精品视频| 日韩日本国产一区二区| 亚洲熟女精品中文字幕| 国产69精品久久久久9999| 国产精品女丝袜白丝袜| 亚洲一区二区国产一区| 日日碰狠狠添天天爽| 国产午夜精品一区二区三区不| 在线视频精品少白免费观看| 美女内射毛片在线看免费人动物| 色老汉免费网站免费视频| 人妻丰满少妇一二三区| 国产亚洲一区二区在线观看| 免费a级毛片无码无遮挡| 日韩欧美亚洲国产一区二区三区|