亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        工業(yè)噪聲環(huán)境下多麥狀態(tài)空間模型語(yǔ)音增強(qiáng)算法

        2020-06-07 07:07:12吳慶賀吳海鋒
        計(jì)算機(jī)應(yīng)用 2020年5期
        關(guān)鍵詞:延遲時(shí)間麥克風(fēng)卡爾曼濾波

        吳慶賀,吳海鋒,沈 勇,曾 玉

        (云南民族大學(xué)電氣信息工程學(xué)院,昆明650504)(通信作者電子郵箱whf5469@gmail.com)

        0 引言

        語(yǔ)音是語(yǔ)言的聲學(xué)表現(xiàn),是人類(lèi)交流信息最自然和最方便的形式。在很多工業(yè)環(huán)境中,大型設(shè)備的作業(yè)往往需要多人協(xié)同操作,比如一人根據(jù)作業(yè)環(huán)境發(fā)出指令,一人根據(jù)指令進(jìn)行操作,而語(yǔ)音通信就成為相互協(xié)作中有效的溝通方式。然而,語(yǔ)音不可避免受到環(huán)境噪聲的干擾,特別當(dāng)大型設(shè)備的動(dòng)力系統(tǒng)和作業(yè)系統(tǒng)所產(chǎn)生的聲音強(qiáng)度遠(yuǎn)遠(yuǎn)大于語(yǔ)音強(qiáng)度時(shí),相互通信的有效性就會(huì)產(chǎn)生影響,嚴(yán)重時(shí)還會(huì)產(chǎn)生通信失效,導(dǎo)致協(xié)同作業(yè)的失敗。語(yǔ)音增強(qiáng)是通過(guò)減輕或抑制背景噪聲來(lái)相對(duì)提高語(yǔ)音功率的一種技術(shù),由于它能減小噪聲對(duì)通信雙方所產(chǎn)生的干擾,因此廣泛應(yīng)用于噪聲環(huán)境的語(yǔ)音通信場(chǎng)景[1-3]。

        早期的語(yǔ)音通信設(shè)備常采用單麥克風(fēng)設(shè)計(jì),因此其語(yǔ)音增強(qiáng)也基于單麥技術(shù)[1-5]。單麥語(yǔ)音增強(qiáng)由于只使用一個(gè)麥克風(fēng),缺少參考信號(hào),導(dǎo)致直接從帶噪語(yǔ)音中估計(jì)的語(yǔ)音與真實(shí)語(yǔ)音差異較大,語(yǔ)音增強(qiáng)效果受到影響[4]。為了更準(zhǔn)確地估計(jì)語(yǔ)音,一種可行的方法是用自回歸(AutoRegression,AR)對(duì)語(yǔ)音進(jìn)行狀態(tài)空間模型(State Space Model,SSM)建模,再用卡爾曼濾波解決該AR模型(AR-Kalman)[5-7]。該方法的性能往往與AR系數(shù)的階次相關(guān),只有較高的階次才能準(zhǔn)確恢復(fù)語(yǔ)音,但這又會(huì)使得語(yǔ)音增強(qiáng)的計(jì)算復(fù)雜度增高。多麥克風(fēng)技術(shù)是在語(yǔ)音設(shè)備的不同位置配備多個(gè)麥克風(fēng),相當(dāng)于產(chǎn)生了多個(gè)通道的語(yǔ)音信號(hào)[8-9]。相較于單麥技術(shù),多麥語(yǔ)音增強(qiáng)更容易消噪,因此也得到了更廣泛的應(yīng)用[5,10-11]。較早的多麥語(yǔ)音增強(qiáng)采用雙麥克風(fēng)設(shè)計(jì),兩個(gè)麥克風(fēng)所收集的噪聲信號(hào)近似相等,收集的語(yǔ)音信號(hào)具有不同的衰減,因此兩者進(jìn)行相減就可以將噪聲相消(Noise Cancel,NC)[12-14]。這種NC算法簡(jiǎn)單,易于實(shí)施,但若系統(tǒng)本身存在的噪聲功率較大,相消后的殘余噪聲仍然會(huì)極大地干擾語(yǔ)音信號(hào)。近年來(lái),由于深度神經(jīng)網(wǎng)絡(luò)的興起,深度學(xué)習(xí)也被嘗試用于多麥的語(yǔ)音增強(qiáng)中[8],但是深度學(xué)習(xí)需要對(duì)不同的環(huán)境噪聲進(jìn)行大規(guī)模的數(shù)據(jù)訓(xùn)練,而且深度網(wǎng)絡(luò)的訓(xùn)練參數(shù)數(shù)目往往極其龐大,這些都使得實(shí)施成本變得昂貴。另外,若將工業(yè)噪聲也看成一個(gè)源信號(hào),多麥語(yǔ)音增強(qiáng)也可以是一個(gè)盲源分離的“雞尾酒會(huì)”問(wèn)題[15-17]。盲源分離算法中具有代表性的是獨(dú)立成分分析(Independent Component Analysis,ICA)[15-18],但I(xiàn)CA需要計(jì)算四階統(tǒng)計(jì)量,要求盡可能多的觀(guān)測(cè)值,即使運(yùn)算速度較快的FastICA[15-18]也需經(jīng)多次循環(huán)迭代才能收斂,其實(shí)時(shí)性能難以滿(mǎn)足即時(shí)語(yǔ)音通信的要求[9]。

        針對(duì)以上傳統(tǒng)語(yǔ)音增強(qiáng)應(yīng)用于工業(yè)噪聲環(huán)境下的問(wèn)題,本文提出了一種采用多麥的卡爾曼算法(Multi-Microphone Kalman Algorithm,MMKA)來(lái)進(jìn)行語(yǔ)音增強(qiáng)。與傳統(tǒng)的ARKalman相比,其狀態(tài)方程采用較為簡(jiǎn)單的差分方程來(lái)減少AR系數(shù)數(shù)目,同時(shí)利用多麥技術(shù),在狀態(tài)空間方程中構(gòu)建了混合矩陣。該算法的實(shí)時(shí)性和復(fù)雜度優(yōu)于ICA類(lèi)算法和傳統(tǒng)的AR卡爾曼濾波。另外,為了進(jìn)一步降低計(jì)算復(fù)雜度,本文還根據(jù)多麥技術(shù)構(gòu)建混合矩陣,采用最小二乘方法進(jìn)行語(yǔ)言增強(qiáng)(Least Square Speech Enhancement,LSSE)。實(shí)驗(yàn)中,本文采用公開(kāi)數(shù)據(jù)庫(kù)中的一組純凈語(yǔ)音信號(hào)和來(lái)自?xún)山M不同環(huán)境的工廠(chǎng)噪聲信號(hào),模擬了多麥技術(shù)下多通道的帶噪語(yǔ)音。實(shí)驗(yàn)結(jié)果表明,本文的MMKA的輸出語(yǔ)噪比(增強(qiáng)后的語(yǔ)音與殘留噪聲之比)優(yōu)于傳統(tǒng)AR卡爾曼濾波約2 dB,而運(yùn)行時(shí)間僅不到其2%。同時(shí),MMKA還能夠滿(mǎn)足實(shí)時(shí)性要求,其延遲時(shí)間為毫秒級(jí)別,而FastICA和AR-Kalman卻存在約平均半秒的延遲。另外,當(dāng)考慮低復(fù)雜度的語(yǔ)音增強(qiáng)算法時(shí),本文提出的低復(fù)雜度的LSSE運(yùn)行時(shí)間與傳統(tǒng)NC算法相當(dāng),但輸出語(yǔ)噪比卻優(yōu)于其約1 dB。

        1 相關(guān)工作

        早期的通信設(shè)備多采用單麥克風(fēng)對(duì)語(yǔ)音的采集,由于缺少參考信號(hào),因此需要對(duì)語(yǔ)音信號(hào)建模。較流行的方法是通過(guò)AR建模,得到狀態(tài)空間方程[5,7],表示為:

        其中:X k=[Sk Nk]為第k時(shí)刻的狀態(tài)矢量,Sk為純凈語(yǔ)音信號(hào),Nk為環(huán)境噪聲信號(hào)(k=1,2,…,K);φk=[ρkυk]T為狀態(tài)高斯白噪聲矢量,ρk為純凈語(yǔ)音信號(hào)AR模型所含噪聲,υk為環(huán)境噪聲信號(hào)AR模型所含噪聲;μk為測(cè)量過(guò)程噪聲;A為AR模型系數(shù)相關(guān)矩陣;H1、H2分別為狀態(tài)方程和測(cè)量方程系數(shù)矩陣。

        根據(jù)式(1)、(2),卡爾曼濾波求解該AR狀態(tài)空間模型[5],完成語(yǔ)音增強(qiáng);然而,對(duì)Sk和Nk進(jìn)行AR建模時(shí)需要分別對(duì)信號(hào)分幀,這會(huì)直接影響矩陣A維度大小,從而影響卡爾曼濾波的復(fù)雜度與延遲時(shí)間。若模型階數(shù)取得過(guò)大,矩陣A的維度增大,計(jì)算復(fù)雜度增加;若階數(shù)過(guò)小,AR建模信號(hào)又會(huì)與真實(shí)值偏差過(guò)大。

        為提高語(yǔ)音傳輸?shù)馁|(zhì)量,語(yǔ)音設(shè)備可配備多個(gè)麥克風(fēng)。相比單麥語(yǔ)音,多麥克風(fēng)可采集多個(gè)通道的語(yǔ)音信號(hào),相當(dāng)于有更多的觀(guān)測(cè)值,以減小降噪和去噪的難度。較早的多麥語(yǔ)音增強(qiáng)采用雙麥克風(fēng)設(shè)計(jì)來(lái)實(shí)現(xiàn)噪聲相消[10-12],若兩個(gè)麥克風(fēng)采集的語(yǔ)音信號(hào)間所存在延遲僅可以避免造成符號(hào)間的干擾,則可表示為:

        其中:y1k和y2k分別為主麥克風(fēng)和參考麥克風(fēng)接收的帶噪語(yǔ)音信號(hào),h1和h2分別為主麥克風(fēng)和參考麥克風(fēng)對(duì)應(yīng)的語(yǔ)音信號(hào)衰減系數(shù),N1k和N2k分別為主麥克風(fēng)和參考麥克風(fēng)接收到的環(huán)境噪聲信號(hào),w1k和w2k分別為主麥克風(fēng)和參考麥克風(fēng)接收到的高斯白噪聲。

        雙麥克風(fēng)的配備使得Sk經(jīng)過(guò)了h1和h2的不同衰減,而N1k和N2k又近似相等,因此若不考慮延遲,兩麥克風(fēng)相減信號(hào)y1k-y2k理論上僅剩純凈語(yǔ)音信號(hào)。然而實(shí)際應(yīng)用過(guò)程中,當(dāng)環(huán)境噪聲信號(hào)功率遠(yuǎn)大于語(yǔ)音信號(hào)時(shí),N1k-N2k會(huì)遠(yuǎn)大于Sk,同時(shí)還會(huì)存在白噪聲殘余信號(hào)w1k-w2k。

        另外,若將n個(gè)麥克風(fēng)接收的語(yǔ)音信號(hào)看成多源信號(hào)的混合疊加,則式(3)、式(4)可以表示為:

        其中:Y k=[y1ky2k…yNk]T,N為麥克風(fēng)總數(shù);B為混合矩陣,由各語(yǔ)音信號(hào)和環(huán)境噪聲到各麥克風(fēng)的衰減系數(shù)構(gòu)成;w k為高斯白噪聲矢量。從式(5)求解Sk是一典型的盲源分離問(wèn)題[17-18],求解該問(wèn)題的一種代表性算法是ICA類(lèi)算法,而其中快速I(mǎi)CA算法(也稱(chēng)為FastICA)的計(jì)算速度和魯棒性都比較高,表示為:

        其中:W為分離矩陣,z為Y k白化后所得到的,g(?)為負(fù)熵的魯棒近似函數(shù)的導(dǎo)數(shù),g'(?)為g(?)的導(dǎo)數(shù)。從式(6)可以看到,F(xiàn)astICA算法需要計(jì)算負(fù)熵函數(shù),其一般為四階統(tǒng)計(jì)量,而且其分離矩陣W需要循環(huán)迭代。因此,將其應(yīng)用于實(shí)時(shí)性較高的語(yǔ)言通信系統(tǒng)中,會(huì)出現(xiàn)計(jì)算復(fù)雜度高和收斂速度慢的缺點(diǎn)。同時(shí),多麥克風(fēng)的帶噪語(yǔ)音信號(hào)不含有關(guān)于源信號(hào)排序信息,分離的噪聲和語(yǔ)言信號(hào)的順序也是不確定的[17-18]。

        2 問(wèn)題提出

        在工業(yè)環(huán)境中,語(yǔ)音是人們?cè)趨f(xié)同工作中完成溝通的常用方式,然而各種復(fù)雜生產(chǎn)環(huán)境產(chǎn)生的噪聲極易對(duì)語(yǔ)言信號(hào)的通信造成干擾,例如機(jī)械設(shè)備的動(dòng)力系統(tǒng)或傳動(dòng)系統(tǒng)產(chǎn)生的噪聲。這些噪聲遠(yuǎn)比普通生活場(chǎng)景中的噪聲強(qiáng)度高,其信號(hào)功率也通常大于語(yǔ)音信號(hào)功率,而語(yǔ)音增強(qiáng)可以有效降低噪聲對(duì)語(yǔ)言通信造成的不利影響。

        多麥技術(shù)配備多個(gè)麥克風(fēng)來(lái)增強(qiáng)語(yǔ)音,如圖1所示,第k時(shí)刻的語(yǔ)言源信號(hào)Sk和噪聲源信號(hào)Nk分別經(jīng)a1,a2,…,a N和b1,b2,…,bN的衰減到達(dá)麥克風(fēng)1,麥克風(fēng)2,…,麥克風(fēng)N,并與白噪聲w k疊加形成含有白噪聲的帶噪語(yǔ)音信號(hào)Y k=[y1ky2k…y Nk]T。若令則Y k由式(5)來(lái)表示,而語(yǔ)音增強(qiáng)的問(wèn)題就是從觀(guān)測(cè)的語(yǔ)音信號(hào)Y k中盡可能得到純凈語(yǔ)音信號(hào)Sk。由于語(yǔ)音通信的實(shí)時(shí)性要求,采用的語(yǔ)音增強(qiáng)算法應(yīng)該具有處理速度快和延遲時(shí)間少的特點(diǎn),另外,為了滿(mǎn)足可應(yīng)用于工程實(shí)踐的要求,算法還應(yīng)該具有較低的計(jì)算復(fù)雜度,以保證較低的系統(tǒng)實(shí)現(xiàn)成本。下面主要從以上要求來(lái)介紹本文的語(yǔ)音增強(qiáng)算法。

        圖1 多麥克風(fēng)的帶噪語(yǔ)音增強(qiáng)問(wèn)題Fig.1 Multi-microphone noisy speech enhancement problem

        3 MMKA

        3.1 狀態(tài)空間模型

        由于語(yǔ)音信號(hào)本身的非平穩(wěn)性,可以利用狀態(tài)空間模型來(lái)表示語(yǔ)音信號(hào)不同時(shí)刻的相關(guān)性[7];同時(shí),卡爾曼濾波是一種通過(guò)狀態(tài)空間模型和貝葉斯準(zhǔn)則來(lái)估計(jì)隱藏狀態(tài)的一種算法[7],因此建立有效的SSM方程就可以采用卡爾曼算法來(lái)對(duì)語(yǔ)音增強(qiáng)。SSM方程通??梢员硎緸椋?/p>

        其中:h(?)為狀態(tài)函數(shù),f(?)為測(cè)量函數(shù),ωk是狀態(tài)噪聲矢量,μk是觀(guān)測(cè)噪聲矢量。通過(guò)式(5)估計(jì)X k,需要知道函數(shù)h(?)和f(?),若它們均為線(xiàn)性函數(shù)時(shí),可以利用線(xiàn)性卡爾曼濾波法估計(jì)X k;若為非線(xiàn)性函數(shù),可以利用擴(kuò)展卡爾曼、粒子濾波或積分卡爾曼等非線(xiàn)性濾波[7]。但是,無(wú)論采用何種方法估計(jì)X k,必須知道這兩個(gè)方程。

        3.1.1 狀態(tài)方程

        下面,先來(lái)構(gòu)造狀態(tài)方程(7)。對(duì)語(yǔ)音信號(hào)Sk進(jìn)行歸一化,令:

        若ω1k∈ [Sl,Sr],則將[Sl,Sr]分成 2L個(gè)區(qū)間l1,l2,…,l2L,分 別 統(tǒng) 計(jì)ω1k落 在 各 個(gè) 區(qū) 間 的 概 率P(ω1k∈li)(i=1,2,…,2L)。當(dāng)采樣周期Δt較小時(shí),其概率分布圖近似于高斯分布。圖2(a)給出了來(lái)自IEEE語(yǔ)音庫(kù)中一個(gè)語(yǔ)音信號(hào)的P(ω1k∈li)概率分布,其中Δt=0.5 ms。由圖2(a)可以看出,該語(yǔ)音信號(hào)ω1k值越小,發(fā)生的概率越大,分布曲線(xiàn)近似于零均值的高斯分布。接著,計(jì)算ω1k的自相關(guān)函數(shù)R1(τ),其中τ=k1-k2,k1、k2∈ {1,2,…,K},其波形近似單位沖擊響應(yīng)函數(shù)δ(τ),符合白噪聲特性。圖3(a)給出了圖2(a)中語(yǔ)音信號(hào)的R1(τ)的波形,由圖中可以看到,當(dāng)τ=0時(shí),R1(τ)取得最大值,而τ取其他值時(shí),R1(τ)均較小,因此,可以推斷ω1k為一近似高斯白噪聲。另外,對(duì)工業(yè)噪聲信號(hào)Nk進(jìn)行歸一化,令:

        當(dāng)采樣周期Δt較小時(shí),ω2k同樣滿(mǎn)足高斯白噪聲特性。圖2(b)和圖3(b)分別給出了一個(gè)工廠(chǎng)噪聲信號(hào)的P(ω2k∈li)和ω2k的自相關(guān)函數(shù)R2(τ)波形圖,其中Δt=0.5 ms。從圖中可以看到,其概率分布和自相關(guān)函數(shù)圖也近似于高斯分布和單位沖擊相應(yīng)函數(shù)。

        圖2 純凈語(yǔ)音信號(hào)和噪聲信號(hào)factory 1相鄰兩時(shí)刻差值的概率分布Fig.2 Probability distribution of thedifference between two adjacent timesof purespeech signal and noisesignal factory 1

        圖3 純凈語(yǔ)音信號(hào)和噪聲信號(hào)factory 1相鄰兩時(shí)刻差值的自相關(guān)分布Fig.3 Autocorrelation distribution of the difference between two adjacenttimesof purespeechsignal and noisesignal factory 1

        其中ωk=[ω1kω2k]T是高斯白噪聲矢量。

        3.1.2 測(cè)量方程

        根據(jù)式(3),測(cè)量值Y k為各麥克風(fēng)接收到Sk和Nk的線(xiàn)性

        根據(jù)以上分析,可以將式(7)改寫(xiě)為:疊加,因此測(cè)量方程(8)可改寫(xiě)為:

        其中μk=[μ1kμ2k…μN(yùn)k]T是方差矩陣為Qμ的高斯白噪聲為對(duì)角陣。若方程(12)能夠確定,則混合矩陣B需已知。在多麥語(yǔ)音系統(tǒng)中,語(yǔ)音的衰減隨其與麥克風(fēng)距離的波動(dòng)而波動(dòng)[19],距離麥克風(fēng)較遠(yuǎn)的語(yǔ)音衰減系數(shù)大于距離近的語(yǔ)音。同時(shí),由于兩個(gè)麥克風(fēng)安裝在同一個(gè)電話(huà)上,因此其距離不會(huì)超過(guò)電話(huà)本身長(zhǎng)度,設(shè)兩麥克風(fēng)間距離為10-2m,若噪聲到麥克風(fēng)的距離在10 m,則噪聲源到不同麥克風(fēng)的相對(duì)距離差在10-2/10=10-3的量級(jí),若噪聲到麥克風(fēng)的距離在1 m時(shí),距離差在10-2/1=10-2的量級(jí)。由此可確定,只要噪聲源離電話(huà)距離相對(duì)較遠(yuǎn)時(shí),距離差可近似看作零。因此在工業(yè)環(huán)境中,若語(yǔ)音源與多個(gè)麥克風(fēng)的距離相對(duì)固定,例如手持電話(huà)的一個(gè)麥在下端,一個(gè)在背面[10-11],那么衰減系數(shù)也相對(duì)不變。此時(shí),可預(yù)先對(duì)B進(jìn)行測(cè)量,以保證B為已知。至此,確定式(11)、式(12)為本文語(yǔ)音增強(qiáng)的SSM方程,其中式(11)中狀態(tài)過(guò)渡矩陣僅僅是常數(shù)1,相比于式(1)的AR-Kalman的狀態(tài)過(guò)渡矩陣A具有更小的維度。

        3.2 卡爾曼濾波法

        在式(11)、(12)的SSM方程中,由于狀態(tài)方程和測(cè)量方程均為線(xiàn)性函數(shù),因此可以直接采用卡爾曼濾波來(lái)估計(jì)隱藏狀態(tài)X k,從而得到語(yǔ)音信號(hào)Sk以完成語(yǔ)音增強(qiáng)。又由于ωk和μk均為高斯白噪聲矢量,因此卡爾曼濾波可以保證在貝葉斯準(zhǔn)則下估計(jì)的隱藏狀態(tài)X k為最優(yōu)。下文算法步驟給出了本文提出的MMKA步驟,其中引入了符號(hào)k|k和k+1|k,表示為給定觀(guān)測(cè)值Y k下對(duì)第k時(shí)刻和第k+1時(shí)刻參數(shù)的估計(jì)和預(yù)測(cè)。例如,X?k|k表示給定觀(guān)測(cè)值Y k下對(duì)X k的估計(jì)值,X k的最終估計(jì)值就由X?k|k來(lái)表示。

        算法步驟

        輸入 觀(guān)測(cè)值為帶噪語(yǔ)音信號(hào),即Y k=[y1ky2k…y Nk]T。

        已知參數(shù) 過(guò)渡矩陣為單位矩陣A k=I,測(cè)量矩陣B k=B,動(dòng)態(tài)噪聲的協(xié)方差矩陣Qω,測(cè)量噪聲的協(xié)方差矩陣Qμ。

        3.3 最小二乘法

        為進(jìn)一步減少計(jì)算復(fù)雜度,本文采用最小二乘估計(jì)(Least Square,LS)X k來(lái)實(shí)現(xiàn)語(yǔ)音增強(qiáng)。根據(jù)式(12),若混合矩陣B為已知,LSSE表示為:

        此時(shí)可使白噪聲μk的平方對(duì)估計(jì)造成的影響減少至最小。另外一方面,NC算法將兩個(gè)麥克風(fēng)的語(yǔ)音相減,即使能把工業(yè)噪聲消除,但兩個(gè)麥克風(fēng)的白噪聲不盡相同,白噪聲無(wú)法消除,仍然會(huì)影響語(yǔ)音的增強(qiáng)性能。

        3.4 算法復(fù)雜度分析

        本節(jié)將給出本文提出的語(yǔ)音增強(qiáng)算法與已有算法的一些相關(guān)參數(shù),以此說(shuō)明各算法的計(jì)算復(fù)雜度。MMKA和ARKalman都采用卡爾曼濾波來(lái)對(duì)語(yǔ)音信號(hào)增強(qiáng),其復(fù)雜度與其狀態(tài)方程的過(guò)渡矩陣密切相關(guān)。對(duì)于狀態(tài)過(guò)渡矩陣維度,MMKA中,其過(guò)渡矩陣為常系數(shù)1,因此維度為1×1。對(duì)于AR-Kalman算法,其SSM引入了AR建模,因此其過(guò)渡矩陣維度為J×J,其中J=p+r,p和r分別為是Sk和Nk的AR模型階數(shù)。由于后者的過(guò)渡矩陣維度更大,因此導(dǎo)致采用卡爾曼濾波時(shí)的計(jì)算復(fù)雜度較高。

        除此之外,對(duì)于各算法的循環(huán)次數(shù):FastICA的解混矩陣需要反復(fù)循環(huán)Kf次才能收斂,通常有Kf>1。并且,F(xiàn)astICA每次循環(huán)中計(jì)算高階統(tǒng)計(jì)量需對(duì)K個(gè)數(shù)據(jù)同時(shí)處理,因此只有K個(gè)時(shí)刻的語(yǔ)音接收完畢才能進(jìn)行處理,影響了實(shí)時(shí)性。MMKA、LSSE、NC和AR-Kalman算法均由第k時(shí)刻觀(guān)察值Y k可直接得到語(yǔ)音信號(hào)S?k,因此不需要循環(huán),其循環(huán)次數(shù)均為1。

        最后,NC和LSSE兩種算法既不需要ICA類(lèi)算法進(jìn)行循環(huán)來(lái)收斂,也不需要卡爾曼濾波算法進(jìn)行迭代,計(jì)算復(fù)雜度較低。LSSE復(fù)雜度集中在對(duì)混合矩陣求偽逆,其乘法次數(shù)為N3量級(jí),其中N是混合矩陣B的維度。NC是將兩個(gè)麥克風(fēng)信號(hào)相減,不涉及乘法,復(fù)雜度更低。

        4 實(shí)驗(yàn)與分析

        4.1 實(shí)驗(yàn)數(shù)據(jù)

        本實(shí)驗(yàn)數(shù)據(jù)為公開(kāi)數(shù)據(jù),純凈語(yǔ)音信號(hào)來(lái)源于IEEE語(yǔ)音庫(kù) ,下 載 網(wǎng) 址 :https://www.cs.columbia.edu/~hgs/audio/harvard.html,本文選取的純凈語(yǔ)音信號(hào)為男性所朗讀一句英文 :The birch canoe slid on the smooth planks,采 樣 率25 000 Hz,時(shí)長(zhǎng)3.1 s。兩段噪聲信號(hào)factory1.wav和factory2.wav來(lái)源于Noisex-92數(shù)據(jù)庫(kù),下載網(wǎng)址為http://spib.linse.ufsc.br/noise.html,其中第一段為工廠(chǎng)車(chē)間切板和電焊設(shè)備所產(chǎn)生的噪聲,第二段為汽車(chē)生產(chǎn)車(chē)間所產(chǎn)生的噪聲,兩者的采樣率均為16000 Hz,時(shí)長(zhǎng)235 s。

        實(shí)驗(yàn)中所使用的噪聲信號(hào)為從factory1.wav和factory2.wav中隨機(jī)截取,并使其與純凈語(yǔ)音信號(hào)的時(shí)長(zhǎng)和采樣頻率等時(shí)長(zhǎng),最終的信號(hào)長(zhǎng)度均為K=77 499,采樣率fs=25 000 Hz。然后,對(duì)語(yǔ)音信號(hào)和噪聲信號(hào)做歸一化處理后得到Sk和Nk。

        麥克風(fēng)采用雙麥克風(fēng)設(shè)置,因此衰減系數(shù)B為2階方陣。把Sk和Nk經(jīng)過(guò)不同的線(xiàn)性疊加信噪比和B進(jìn)行線(xiàn)性疊加并加入高斯白噪聲得到觀(guān)測(cè)信號(hào)Y k。為了接近真實(shí)的工業(yè)噪聲環(huán) 境 ,本 文 設(shè) 置 衰 減 系 數(shù) 矩 陣B=[αβ]=[0.5 0.8;0.1 0.9],此時(shí)的純凈語(yǔ)音信號(hào)幾乎淹沒(méi)于噪聲之中,達(dá)到人耳基本無(wú)法分辨的程度。最后,利用語(yǔ)音增強(qiáng)算法對(duì)Y k處理得到增強(qiáng)后的語(yǔ)音信號(hào)對(duì)歸一化之后進(jìn)行相關(guān)實(shí)驗(yàn)指標(biāo)的分析。

        4.2 實(shí)驗(yàn)設(shè)置

        實(shí)驗(yàn)中,將本文提出的MMKA和LSSE算法與已存在的MMKA、AR-Kalman和FastICA算法進(jìn)行對(duì)比,以評(píng)判本文算法的性能。除4.3.1節(jié)中語(yǔ)譜圖的結(jié)果外,其余均為運(yùn)行200次后結(jié)果的平均,其中選擇factory1.wav或factory2.wav作為工業(yè)噪聲各100次。以上相關(guān)算法的參數(shù)設(shè)置如下:

        1)MMKA。過(guò)程噪聲協(xié)方差Qω=[1 0;0 1],測(cè)量噪聲協(xié)方差Qμ=[0.1 0;0 1],濾波誤差協(xié)方差矩陣[1 0;0 1],初值。

        2)FastICA。雙麥克風(fēng)設(shè)置,并且將帶噪語(yǔ)音信號(hào)分為約40段,對(duì)每段進(jìn)行盲分離,則處理的延遲時(shí)間為每段語(yǔ)音占用時(shí)間與盲處理該段語(yǔ)音占用時(shí)間之和,以確保處理的實(shí)時(shí)性。

        3)AR-Kalman。單個(gè)麥克風(fēng)設(shè)置,Sk和Nk的AR模型階數(shù)p=r=10,幀長(zhǎng)l=500,幀移比例ξ=40%(相鄰幀的重疊值),卡爾曼濾波的

        過(guò)程噪聲協(xié)方差Qω=0p×p,測(cè)量噪聲協(xié)方差Qμ=0p×p,濾波誤差協(xié)方差矩陣,初值。

        4)NC。雙麥克風(fēng)設(shè)置。

        5)LSSE。雙麥克風(fēng)設(shè)置,偽逆矩陣采用B?。

        在對(duì)比中,本文分別測(cè)試了在不同輸入語(yǔ)噪比(輸入的語(yǔ)音信號(hào)與工業(yè)噪聲功率之比)SNRi和輸入信噪比(輸入的語(yǔ)音信號(hào)與高斯白噪聲功率之比)SNRw下的輸出語(yǔ)噪比(增強(qiáng)后輸出的語(yǔ)音信號(hào)與殘留噪聲功率之比)SNRo的性能,分別定義如下:

        另外,實(shí)驗(yàn)還給出了主觀(guān)語(yǔ)音質(zhì)量評(píng)估(Perceptual Evaluation of Speech Quality,PESQ)[20]和算法運(yùn)行時(shí)間等指標(biāo)。

        4.3 實(shí)驗(yàn)結(jié)果

        4.3.1 語(yǔ)譜圖

        圖4給出了語(yǔ)音增強(qiáng)前后的語(yǔ)譜圖,其中圖4(a)給出純凈語(yǔ)音信號(hào)的語(yǔ)譜圖,圖4(b)和(c)給出了兩個(gè)麥克風(fēng)接收的帶噪語(yǔ)音信號(hào)的語(yǔ)譜圖,其工業(yè)噪聲為factory1.wav在SNRi=5 dB時(shí)得到,白噪聲為SNRw=30 dB時(shí)得到(factory2.wav情況類(lèi)似)。通過(guò)對(duì)比,圖4(b)和(c)中帶噪語(yǔ)音在頻率2 000 Hz以下具有較大的功率,其他頻率段功率較小,但無(wú)論在哪個(gè)頻率段,功率分布均勻、沒(méi)有顯著的差異,這表明語(yǔ)音的功率已淹沒(méi)于噪聲功率之中。

        圖4 含有高斯白噪聲的帶噪語(yǔ)音信號(hào)經(jīng)不同算法增強(qiáng)后語(yǔ)音信號(hào)語(yǔ)譜圖對(duì)比Fig.4 Speech signal spectrogram comparison of noisy speech signal containing Gaussian white noise enhanced by different algorithms

        由圖4(d)可以看出,AR-Kalman算法增強(qiáng)后的語(yǔ)音信號(hào)在0.5、1、1.5、2.5 s時(shí)刻和1 000 Hz頻率附近處有較大功率,其功率分布與純凈語(yǔ)音信號(hào)的語(yǔ)譜圖一致。同時(shí),圖4(f)~(h)中通過(guò)MMKA、LSSE和FastICA增強(qiáng)后的語(yǔ)音信號(hào)在1 000 Hz附近的功率分布也與純凈語(yǔ)音信號(hào)的一致。該結(jié)果表明,經(jīng)過(guò)以上算法增強(qiáng)的語(yǔ)音信號(hào)在低頻段確實(shí)保留了原純凈語(yǔ)音信號(hào)的功譜分布特性。除此之外,圖4(h)的NC算法得到的增強(qiáng)語(yǔ)音在1 000 Hz處,功率在各時(shí)刻上分布較為均勻,因此可推知它還原純凈語(yǔ)音信號(hào)的語(yǔ)譜特性較弱。另外,從圖4還可以注意到,以上幾種算法在5 000 Hz附近的功率在各時(shí)間段的分布較為均勻,與純凈語(yǔ)音信號(hào)的語(yǔ)譜不太一致。然而,由于人耳對(duì)1 000~3 000 Hz的語(yǔ)音信號(hào)最為敏感[20],因此,該頻段信號(hào)對(duì)語(yǔ)音通信的干擾不會(huì)很大。

        4.3.2 信噪比和PESQ

        圖5給出了各算法在不同SNRi和SNRw下SNRo的性能對(duì)比,從圖中可以看到,除FastICA算法以外的幾種算法的SNRo曲線(xiàn)由上到下排列大致為:MMKA、AR-Kalman、LSSE和NC,造成這一結(jié)果的原因如下:NC將兩個(gè)麥克風(fēng)信號(hào)相減仍然無(wú)法完全消除工業(yè)噪聲信號(hào)和白噪聲信號(hào),因此輸出信噪比值較低;LSSE通過(guò)對(duì)混合矩陣求逆可以較好地消除工業(yè)噪聲,因此輸出信噪比高于NC;但是,LSSE只能在最小二乘原則上去消除白噪聲的影響,而卡爾曼濾波是在最優(yōu)貝葉斯準(zhǔn)則下消除白噪聲的影響,因此,其輸出信噪比低于AR-Kalman和MMKA;另外,MMKA采用雙麥克風(fēng)建模,相較于單麥克風(fēng)AR-Kalman的輸出信噪比值要高;FastICA算法情況稍顯復(fù)雜,它采用盲分離對(duì)帶噪語(yǔ)音進(jìn)行增強(qiáng),若將白噪聲也看成一個(gè)源信號(hào),那么源信號(hào)數(shù)將變?yōu)?,此時(shí)分離的信號(hào)將不可避免產(chǎn)生信號(hào)混疊,因?yàn)榻邮盏柠溈孙L(fēng)數(shù)只有2,因此,當(dāng)白噪聲SNRw小于5 dB時(shí),其輸出SNRo低于其余幾種算法。

        圖5 含有高斯白噪聲的帶噪語(yǔ)音信號(hào)在不同算法下的輸出語(yǔ)噪比Fig.5 Output speech-to-noise ratio of noisy speech signal containing Gaussian white noise under different algorithms

        圖6給出了各算法在SNRw=30 dB下,PESQ隨SNRi從-10 dB變化至5 dB的曲線(xiàn)。從圖中可以看到,當(dāng)SNRi大于-5 dB時(shí),各算法的PESQ值由高到低的排列順序基本與圖5的一致,這也表明各算法在不同評(píng)價(jià)指標(biāo)下所展示的性能具有一致性。

        圖6 不同算法增強(qiáng)語(yǔ)音信號(hào)的PESQ對(duì)比Fig.6 Comparison of PESQof speech signal enhanced by different algorithms

        4.3.3 算法運(yùn)行和延遲時(shí)間

        表1給出了各算法對(duì)帶噪語(yǔ)音信號(hào)進(jìn)行增強(qiáng)的平均運(yùn)行時(shí)間和算法的延遲時(shí)間(當(dāng)前時(shí)刻的帶噪語(yǔ)音需要多長(zhǎng)時(shí)間才能得到增強(qiáng)后的語(yǔ)音),以評(píng)判各算法的時(shí)間復(fù)雜度和各算法的實(shí)時(shí)性能。在實(shí)驗(yàn)中,運(yùn)行的計(jì)算機(jī)采用ThinkPad E520,處理器為Intel Core i3-2350M,內(nèi)存4 GB,操作系統(tǒng)為64位Microsoft Windows 10專(zhuān)業(yè)版,處理的軟件為MatLab2017b。

        表1 不同算法運(yùn)行時(shí)間與延遲時(shí)間的對(duì)比 單位:sTab.1 Runningtimeand delay timecomparison of different algorithms unit:s

        從表中算法運(yùn)行時(shí)間可見(jiàn):AR-Kalman的運(yùn)行時(shí)間最長(zhǎng),達(dá)到了約175 s,其原因在于它首先需要對(duì)信號(hào)進(jìn)行分幀處理,同時(shí)還需要對(duì)Sk和Nk進(jìn)行AR建模,而AR建模也需較多的耗時(shí);FastICA運(yùn)行時(shí)間其次,因?yàn)樗残枰獙?duì)信號(hào)進(jìn)行分幀處理以保證實(shí)時(shí)性,同時(shí)每一幀信號(hào)的處理都需要多次循環(huán)以保證收斂;MMKA的運(yùn)行時(shí)間介于NC、LSSE與ARKalman、FastICA之間,該結(jié)果與3.4節(jié)復(fù)雜度分析的一致,即NC和LSSE算法的計(jì)算復(fù)雜度相對(duì)較小,因此所需的運(yùn)行時(shí)間也較少。

        而由表中算法延遲時(shí)間可知:AR-Kalman濾波采用分幀處理方式,最終得到的增強(qiáng)語(yǔ)音信號(hào)是每個(gè)幀處理的結(jié)果,因此延遲時(shí)間為相鄰幀重疊部分占用時(shí)間與處理該重疊部分占用時(shí)間之和;FastICA也采用分幀處理,其延遲時(shí)間也是每個(gè)幀時(shí)間與處理時(shí)間之和。因此,該兩種算法具有較大的延遲時(shí)間;相反,MMKA、NC和LSSE根據(jù)每個(gè)采樣點(diǎn)進(jìn)行處理,延遲時(shí)間僅為對(duì)每一采樣點(diǎn)信號(hào)處理的運(yùn)行時(shí)間,因此延遲時(shí)間較少。

        多次實(shí)驗(yàn)的結(jié)果表明,本文提出的卡爾曼算法,即MMKA的輸出語(yǔ)噪比平均比傳統(tǒng)的AR-Kalman提高約2 dB,而運(yùn)行時(shí)間只有不到其2%。特別地,本文的卡爾曼算法也具有較少的延遲時(shí)間,與FastICA平均接近0.4 s的延遲時(shí)間相比,MMKA的延遲時(shí)間僅是毫秒級(jí)別。另外,結(jié)果也表明MMKA與較為簡(jiǎn)單的NC算法相比會(huì)有較長(zhǎng)的運(yùn)行時(shí)間,但是,本文提出的最小二乘算法,即LSSE算法的運(yùn)行時(shí)間與NC的相當(dāng),均是毫秒級(jí)別,但輸出語(yǔ)噪比平均要比NC高出約1 dB。

        5 結(jié)語(yǔ)

        針對(duì)工業(yè)噪聲環(huán)境,本文研究了采用多麥技術(shù)的語(yǔ)音增強(qiáng)算法,從降低算法復(fù)雜度和提高實(shí)時(shí)性的角度提出了卡爾曼濾波和最小二乘的算法。實(shí)驗(yàn)利用了公開(kāi)數(shù)據(jù)庫(kù)的語(yǔ)音信號(hào)和噪聲信號(hào)來(lái)得到最后的帶噪語(yǔ)音信號(hào),以此評(píng)判本文提出的算法與傳統(tǒng)算法的輸出語(yǔ)噪比,運(yùn)行時(shí)間和延遲時(shí)間等性能,實(shí)驗(yàn)結(jié)果表明所提出的算法達(dá)到了降低算法復(fù)雜度和提高實(shí)時(shí)性的要求。

        本文只使用了兩個(gè)麥克風(fēng),增強(qiáng)后的語(yǔ)音信號(hào)還含有一定的噪聲,如何使用多個(gè)麥克風(fēng)利用深度學(xué)習(xí)算法訓(xùn)練噪聲參數(shù)進(jìn)一步提高語(yǔ)音增強(qiáng)效果和處理的實(shí)時(shí)性需要進(jìn)一步研究。

        猜你喜歡
        延遲時(shí)間麥克風(fēng)卡爾曼濾波
        二氧化碳對(duì)乙烷燃燒著火延遲時(shí)間的影響
        煤氣與熱力(2021年3期)2021-06-09 06:16:22
        LTE 系統(tǒng)下行鏈路FDRX 節(jié)能機(jī)制研究
        基于分層COX模型的跟馳反應(yīng)延遲時(shí)間生存分析
        Binaural Rendering based on Linear Differential Microphone Array and Ambisonic Reproduction
        基于數(shù)字麥克風(fēng)的WIFI語(yǔ)音發(fā)射機(jī)
        基于遞推更新卡爾曼濾波的磁偶極子目標(biāo)跟蹤
        麥克風(fēng)的藝術(shù)
        延遲時(shí)間對(duì)氣輔注射成型氣體穿透行為影響的數(shù)值模擬和實(shí)驗(yàn)研究
        基于模糊卡爾曼濾波算法的動(dòng)力電池SOC估計(jì)
        麥克風(fēng)
        国内精品熟女一区二区| 日本边添边摸边做边爱的网站| 久久久窝窝午夜精品| 日韩乱码人妻无码中文字幕久久| 宝贝把腿张开我要添你下边动态图 | 亚洲人成网站免费播放| 亚洲国产剧情一区在线观看| 国产一级黄色片在线播放| 国产免费无遮挡吸奶头视频 | 少妇太爽了在线观看免费视频| 国产视频精品一区白白色| 日韩精品视频免费在线观看网站| 青青草国产精品一区二区| 久久国产精品波多野结衣av| 国产在线白浆一区二区三区在线| 久久综合久久综合久久| 亚洲娇小与黑人巨大交| 国产三级欧美| 尤物成av人片在线观看| 欧美a级毛欧美1级a大片| 在线亚洲午夜理论av大片| 中文字幕第一页亚洲观看| 亚洲av一二三四五区在线| 国产精品天干天干综合网| 免费又黄又爽又猛的毛片| 欧美在线Aⅴ性色| 蜜桃视频在线观看网址| 亚洲国色天香卡2卡3卡4| 国产成人综合久久久久久| 日本不卡一区二区三区在线观看| 亚洲av中文无码乱人伦在线咪咕| 成熟丰满熟妇高潮xxxxx| 亚洲无码啊啊啊免费体验| 青青草在线免费播放视频| 久久亚洲私人国产精品va| 国产精品99久久久精品免费观看| 日韩人妻一区二区中文字幕| 少妇伦子伦精品无吗| 国产人成精品综合欧美成人 | 欧美色欧美亚洲另类二区| 国产91网址|