亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        復雜噪聲中基于MFCC距離的語音端點檢測算法

        2020-03-19 13:10:44韓云霄符玉襄
        計算機工程 2020年3期
        關鍵詞:端點語音準確率

        韓云霄,邵 清,符玉襄,郭 慶

        (1.上海理工大學 光電信息與計算機工程學院,上海 200093; 2.中國電子科技集團公司第三十六研究所,浙江 嘉興 314000)

        0 概述

        端點檢測也稱話音活動檢測,主要目標是檢測輸入信號中語音的起止點,完成語音與非語音的分離。在語音識別中,背景的復雜噪聲會嚴重影響語音信號的可懂度和識別性能,而提升復雜噪聲中端點檢測的準確率可以減少語音識別工作的計算量,并且提高識別結(jié)果的準確率。同時,對于某些需要不間斷、長時間人工值守的通信偵察、無線電監(jiān)聽等特殊應用場景,端點檢測可以顯著減少人工復聽或監(jiān)聽的工作量。

        目前語音端點檢測可分為兩類:一類是以機器學習[1-3]、深度學習[4-6]、建模[7-9]等為基礎的模式識別方法,另一類是基于語音特征[10-11]直接進行分類的規(guī)則性語音端點檢測方法。在復雜噪聲環(huán)境下,第1類方法相比于第2類方法具有更高的準確率,但是它需要對海量數(shù)據(jù)樣本進行訓練,且抽取的特征需要具備全面、精準的特性,算法相對繁瑣,計算量較大。因此,該方法不適用于實時應用?;谡Z音特征的方法計算復雜度相對較低,且具有響應速度快、實時性高的優(yōu)點,更符合實際應用的需求。

        語音噪聲可分為加性噪聲和卷積噪聲。針對加性噪聲,文獻[12]在語音的端點檢測過程中,先對含噪語音使用最小均方(Least Mean Square,LMS)誤差自適應濾波減噪,再利用雙參數(shù)雙門限進行平滑處理,提高了在低信噪比環(huán)境下檢測結(jié)果的準確率與穩(wěn)健性。文獻[13] 采用分類和回歸樹(Classification and Regression Tree,CART)利用多個特征進行語音端點檢測,并在語音撥號手機的隔離語音識別算法中進行驗證,結(jié)果表明,在低信噪比環(huán)境中采用多種特征的方法比使用單一特征的方法效果更好。針對卷積噪聲,文獻[14]使用卷積傳遞函數(shù)估計語音和房間脈沖響應幅度譜圖,通過學習模型進行2個階段的迭代,其處理的數(shù)據(jù)在算法中能獲得更優(yōu)的去噪效果。

        實用的語音識別系統(tǒng)需要在復雜噪聲環(huán)境中具有較強的魯棒性和較快的計算響應速度,但因為短時能量特征極易將復雜多變環(huán)境中的非平穩(wěn)噪聲誤判為語音,而計算復雜度低、實時性高的過零率特征對噪聲魯棒性較差,所以只利用單一的語音特征很難處理復雜的噪聲情況,目前研究者一般都采用雙門限算法。本文采用多個特征進行算法判定修正,以MFCC距離特征作為主要判斷依據(jù),同時結(jié)合其他特征的優(yōu)勢,建立組合規(guī)則,通過自適應噪聲模型匹配方法實現(xiàn)復雜噪聲中語音信號端點的準確檢測。

        1 多維語音信號特征參數(shù)計算

        1.1 語音信號的預處理

        由于實際的語音信號是模擬信號,因此在對語音信號進行數(shù)字處理之前,首先要將模擬語音信號s(t)以采樣周期T采樣,將其離散化為s(n),采樣周期的選取應根據(jù)模擬語音信號的帶寬(奈奎斯特采樣定理)來確定,以避免信號的頻域混疊失真。

        對離散后的語音信號進行量化處理的過程會帶來一定的量化噪聲和失真。語音信號的頻率范圍通常是300 Hz~3 400 Hz,一般情況下取采樣率為8 kHz。本文對語音信號的預處理過程包括重采樣、加窗以及分幀。

        重采樣的目的是將輸入語音信號的采樣率統(tǒng)一為8 kHz,以方便后續(xù)處理。設語音波形時域信號為x(n),加窗函數(shù)為w(n),分幀處理后得到的第i幀語音信號為yi(n),則yi(n)滿足:

        yi(n)=w(n)×x((i-1)×Linc+n)

        1≤n≤L,1≤i≤fn

        (1)

        其中:w(n)為窗函數(shù),一般為矩形窗或漢明窗;yi(n)是一幀的數(shù)值,n=1,2,…,L,i=1,2,…,fn;L為幀長;Linc為幀移長度;fn為分幀后的總幀數(shù)。

        對yi(n)進行傅里葉變換,計算MFCC距離,使用濾波器和歸一化處理數(shù)據(jù)使得其能更好地匹配建立的模型,并以短時過零率、短時能量和MFCC距離差分累加和這3個特征作為判定條件,對語音信號和非語音信號進行數(shù)值判斷并標識。

        1.2 短時過零率

        語音信號的短時過零率是指單位時間內(nèi)信號波形穿過橫軸(零電平)從而改變符號的次數(shù)。當窗起點為i=0時,信號的短時過零率用Z0表示,它對相鄰2個取樣點改變符號的次數(shù)進行求和,計算如下:

        (2)

        其中,sgn[x]為符號函數(shù),其含義為:

        (3)

        在復雜噪聲環(huán)境中,單一過零率特征不具備良好的辨別特征,尤其是在強噪聲環(huán)境中,過零率數(shù)值的持續(xù)增加,在一定程度上增加了語音與噪聲的判別難度。

        1.3 短時能量

        短時能量是短時平均能量的簡稱,語音信號進行分幀等預處理后,每一幀的短時能量值等于該幀內(nèi)樣點值的平方和。計算第i幀語音信號yi(n)的短時能量公式為:

        (4)

        短時能量特征參數(shù)在以下幾方面具有較好表現(xiàn):1)可以作為區(qū)分清音和濁音的特征參數(shù);2)在信噪比較高的情況下,短時能量可以作為區(qū)分有聲和無聲的依據(jù);3)在復雜噪聲環(huán)境下,可以作為輔助的特征參數(shù)與其他特征參數(shù)相結(jié)合用于語音識別。

        1.4 MFCC距離差分累加和

        由于環(huán)境復雜多變,因此在語音信號中可能同時存在加性和卷積兩類噪聲。為了把卷積噪聲轉(zhuǎn)換為加性噪聲,本文采取倒譜分析方式,等同于求取語音倒譜特征參數(shù)。通過對時域語音信號做傅里葉變換,取對數(shù),然后再進行反傅里葉變換,最后得到加性時域信號。倒譜分析可以分為復倒譜、實倒譜和功率倒譜,由于在語音信號領域功率譜特征性明顯,因此本文采用功率倒譜進行倒譜分析。

        1.4.1 MFCC特征

        MFCC與普通實際頻率倒譜分析不同,其著眼于人耳的聽覺特性,Mel頻率與實際頻率的具體關系公式計算為:

        Mel(f)=2 595lg(1+f/700)

        (5)

        其中,f為實際頻率,單位是Hz。

        為了將卷積信號轉(zhuǎn)換成加性信號,需要把預處理后的信號yi(n)進行從時域到頻域的轉(zhuǎn)換。首先計算其幅度譜Yi(k),計算公式為:

        (6)

        其中,L是幀長,K是DFT長度。

        然后計算其功率譜Pi(k),公式如下:

        (7)

        由此得到頻域特征值Pi(k)。本文通過Mel濾波器組對頻域的幅值進行精簡,去除冗余的頻域信號,使得每一個頻段用一個值來表示。

        由于人耳對聲音的感知與信號幅度大致呈對數(shù)關系,通過取對數(shù)運算,可以使語音信號呈現(xiàn)線性關聯(lián)。

        本文取Mel濾波器系數(shù)為Xmel,與功率譜相乘可得濾波后的信號頻域值MelValue,然后對其進行l(wèi)og運算使得MellogValue更符合人耳對聲音的辨識關系。

        MelValue=Xmel×Pi(k)

        (8)

        MellogValue=lg(MelValue+eps)

        (9)

        式(9)中使用eps函數(shù)增加取對數(shù)后頻域信號精度。

        1.4.2 MFCC距離特征累加和

        為了保存數(shù)據(jù)原始特征,加快計算速度,本文未采用常規(guī)MFCC方法。常規(guī)MFCC方法通過離散余弦變換(Discrete Cosine Transform,DCT)來獲取頻率譜的低頻信息,并且對數(shù)據(jù)進行降維壓縮,獲得最后的特征參數(shù),本文采取對濾波后取對數(shù)的數(shù)據(jù)MellogValue進行中值濾波和平滑濾波的措施,從而得到Ci,直接對相鄰幀的特征參數(shù)進行差分運算,公式如下:

        dt=Ci-Ci-1

        (10)

        通過條件判定計算MFCC累加和并作為語音端點判定條件之一,其偽代碼如下所示:

        算法1Sum of MFCC Distance

        輸入對數(shù)運算結(jié)果MellogValue;

        輸出差分累加和distanceFinal

        1:function Valuefiltering(MellogValue)

        2: CiMellogValue

        3:return Ci

        4:function sumDifferencing(Ci,Mi)

        //Mi(n)是模型值

        6:dtCi

        7:while dt>0 do

        9:return distance&sum

        10:function Ranging(oldDistance,distance,sum,mZ,mE)

        11:while distance>oldDistance||distance

        13:else

        15:return distanceFinal

        2 自適應噪聲模型的建立

        自適應噪聲模型在普通噪聲模型的基礎上,對模型參數(shù)進行閾值判定并更新,使其能更靈活地應用于各類噪聲模型。假設在某段連續(xù)的短時間內(nèi),復雜噪聲MFCC距離值Mp(i)的概率密度函數(shù)符合如下公式:

        (11)

        (12)

        λ值越小,說明MFCC距離分布越集中,即MFCC距離波動越平穩(wěn)。

        Mp(i)占信號主導地位的時間極短,所以,本文將在短時內(nèi)的值作為噪聲特征。根據(jù)大量實驗數(shù)據(jù)分析,本文假定噪聲特征在500 ms ~700 ms(設其包含l幀)內(nèi)保持分布的同一性,并根據(jù)其中前80 ms~400 ms信號(設其包含r幀)MFCC距離值對均值μ和均方差σ進行估計。μ和σ計算如下:

        (13)

        (14)

        其中,n-1為前r幀的總采樣點數(shù)。

        滑動分析窗長度為l幀,由前r幀信號預估噪聲模型參數(shù),并確定閾值θ。

        (15)

        其中,α(0<α<1)表示靈敏度系數(shù),可根據(jù)不同情況適當修改。根據(jù)閾值θ,檢驗后l-r幀信號的MFCC距離特征符合噪聲還是語音。每新輸入一幀信號,分析窗滑動至下一幀,并校正分布模型,重新計算μ、λ和θ,自適應噪聲模型如圖1所示。

        圖1 自適應噪聲模型示意圖

        3 基于MFCC距離匹配的檢測算法

        在語音信號端點檢測領域,特征提取極為重要,可以從時域進行特征提取,例如短時能量、熵等,也可以從頻域提取特征,例如Mel譜系數(shù)、差分熵等。為了最大程度地優(yōu)化規(guī)則,本文對語音特征的選擇原則是:被選特征應盡可能從多個方面反映語音信號和噪聲信號之間的差異。雖然每個特征都能在其特定環(huán)境中作為最優(yōu)端點檢測手段,但是在其他環(huán)境下并不能保證總是有效。本文采用的短時能量特征、短時過零率特征和MFCC距離,相互間冗余性小,增強了端點檢測的魯棒性,且這3個特征計算復雜度為O(n),計算響應速度較快,對于實時應用更好。

        基于MFCC距離匹配的算法具體步驟如下:

        步驟1對語音信號進行降低采樣率、預加重和分幀操作,幀長0.5 s,幀移50%,完成預處理過程。

        步驟2對第m幀信號加窗并進行N點(N≥4 096)離散傅里葉變換,獲得離散變量,便于其他變量計算使用。

        步驟3計算各頻譜分量的短時過零率Zm,作為特征之一。

        步驟4計算各頻譜分量的能量Pm(k)(0≤k

        步驟5通過在Mel刻度上均勻分布的三角帶通濾波器組與Pm(k)相乘,并求其對數(shù),得到本文MFCC特征。

        步驟6對MFCC進行中值濾波和平滑濾波,使得數(shù)據(jù)能具備良好的分離性能。

        步驟7計算MFCC差分累加和。

        步驟8計算閾值。

        步驟9計算MFCC距離Lm并根據(jù)距離閾值θ和θ+η修正,得到Ln。

        步驟10若Ln>θ,則該點為語音,否則標注成噪聲。

        步驟11輸出結(jié)果。

        由于數(shù)據(jù)形式非單一性,存在多種復雜環(huán)境,因此本文通過多次濾波與歸一化處理后,使得差分MFCC距離值與所建噪聲模型能進行相似度匹配與分離。

        4 實驗與結(jié)果分析

        4.1 實驗數(shù)據(jù)集

        本文數(shù)據(jù)集來自實際樣本和TIMIT標準語音庫,每組信號長度不等,采樣率不同。標準語音庫語音樣本所含背景白噪聲來源于NOISE92標準噪聲數(shù)據(jù)庫。為了使得數(shù)據(jù)具有可比性,本實驗將采樣率調(diào)整至相同頻率(8 kHz)并截取等長數(shù)據(jù)段(3.84 s)進行數(shù)據(jù)分析。

        4.2 噪聲模型校驗

        取N=4 096的實際噪聲樣本和同樣長度TIMIT標準人聲語音樣本,頻率降采樣至8 kHz,在基于MFCC距離匹配的算法中計算歸一化平滑MFCC,結(jié)果如圖2所示。

        圖2 噪聲、標準噪聲和人聲對比曲線

        通過大量實驗,對噪聲建立模型函數(shù)如下:

        4.3 多樣性實驗

        圖3為一個端點檢測實例,輸入信號截取自45 s語音中的5 s,內(nèi)容為一段信息播報,整段錄音全部存在強噪聲,主要為實錄的強電磁流噪聲。在區(qū)間10.00 s~12.29 s和12.54 s~15.00 s中,有語音(男聲)且語音能量較弱,基本被強背景噪聲所掩蓋;在區(qū)間12.29 s~12.54 s中,無話音,為說話停頓間隔。在實際應用中,為了避免因漏檢語音段而造成無法挽回的損失,本文適當放寬語音判定閾值。

        圖3 端點檢測實例

        圖4為TIMIT庫中SA類型測試庫中2種女生純聲語音實例。在圖4(a)中,flag為人工標注,flag=0為噪聲,flag=1為語音。SA類型針對同一音素在不同方言中的發(fā)音進行測試,語音內(nèi)容為“She had your dark suit and ingressive wash water all year.”。從實驗數(shù)據(jù)可以看出,發(fā)音方法也是影響語音檢測的因素。本文方法針對輕音也能準確檢測出語音端點。

        圖4 TIMIT語音庫2種純清音方言語音檢測結(jié)果

        Fig.4 Detection results of two pure voiceless dialects in TIMIT speech database

        4.4 對比實驗

        為比較本文算法與雙門限能量檢測[15]和倒譜距離[16]這2種經(jīng)典算法的性能差異,在多種環(huán)境條件下進行大量實驗,算法準確率以標注出語音信號幀數(shù)為評判標準,即準確率為正確標記語音信號幀數(shù)占人工標定有效語音總幀數(shù)的比例。

        如表1所示,傳統(tǒng)的雙門限算法在較低信噪比情況下已經(jīng)無法正常工作,雖然倒譜距離算法在某些情況下性能優(yōu)于雙門限算法,但依舊無法滿足實際應用需求。

        表1 多種噪聲環(huán)境語音信號截取準確率比較

        Table 1 Comparison of speech signal interception accuracy in various noise environments

        噪聲準確率/%類型SNR/dB雙門限算法倒譜距離算法本文算法White-568.276.587.8083.185.389.4587.790.793.91092.195.198.0Pink-563.277.283.9075.681.688.8583.488.894.51089.392.495.4F16-565.274.383.6078.680.587.4586.489.894.11090.193.797.5平均80.285.491.2

        本文算法相比于對比算法在性能上有以下改善:

        1)在3類噪聲環(huán)境下信噪比越高識別準確率越高。這是因為本文采用自適應閾值來浮動定義噪聲閾值,以防檢測過程中噪聲能量驟變影響判斷結(jié)果,這也是語音在較小信噪比下其準確率依然超過80%的原因之一。并且本文判斷算法采用改進的MFCC距離差分累加和算法,具有不壓縮數(shù)據(jù)維度的優(yōu)點,兩者結(jié)合更有利于辨別能量近似的噪聲和語音。

        2)本文算法在白噪聲環(huán)境下識別準確率效果最好[17],這是由于白噪聲具有平坦功率譜的性質(zhì),可以當作常數(shù)進行處理,特征極其明顯。

        3)在粉紅噪聲環(huán)境下本文算法準確率提升了9.213%,提升程度最高,這歸因于粉紅噪聲是一種集中在中低頻頻率的噪聲,在一定范圍內(nèi)音頻數(shù)據(jù)波形具有相同或類似的能量,而本文算法結(jié)合了短時能量與短時過零率的優(yōu)勢能更好地辨別能量相似的噪聲。

        在實驗過程中仍然會出現(xiàn)一些輕聲誤判現(xiàn)象,因此可以考慮在閾值更新階段加入清輔音[18-19]檢測來進一步提高識別的準確率。

        5 結(jié)束語

        在實際應用環(huán)境中噪聲變化多樣,采用單一特征無法滿足語音端點檢測準確率需求。本文通過觀察大量信號,分析各個特征的特點,結(jié)合MFCC、短時能量和短時過零率對傳統(tǒng)算法進行改進,設計一種新的算法實現(xiàn)語音端點檢測。實驗結(jié)果表明,該算法在復雜噪聲環(huán)境中能夠有效避免如瀑布、下雨、機艙運轉(zhuǎn)等環(huán)境影響,在信噪比較低的情況下,大幅提升準確率,并且在信噪比較高的諸如辦公室電話錄音、訪談等環(huán)境下均能精準地識別結(jié)果。但在本文實驗中,一些有規(guī)律的響聲也可能被判斷為語音。下一步將針對該問題,使用模式識別方法對規(guī)律進行提取,判斷其是否包含特定信息信號,若為無用信號則可根據(jù)小波變換進行濾波處理。

        猜你喜歡
        端點語音準確率
        非特征端點條件下PM函數(shù)的迭代根
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
        2015—2017 年寧夏各天氣預報參考產(chǎn)品質(zhì)量檢驗分析
        不等式求解過程中端點的確定
        魔力語音
        基于MATLAB的語音信號處理
        電子制作(2019年14期)2019-08-20 05:43:38
        基于MQ3與MP3的價廉物美的酒駕語音提醒器
        電子制作(2019年9期)2019-05-30 09:42:10
        對方正在輸入……
        小說界(2018年5期)2018-11-26 12:43:42
        高速公路車牌識別標識站準確率驗證法
        青草网在线观看| 97人伦色伦成人免费视频| 在线观看免费人成视频| 911精品国产91久久久久| 青青草视频在线视频播放| 国产亚洲综合另类色专区| 男女猛烈拍拍拍无挡视频| 欧美性videos高清精品| 精品一区二区三区在线视频观看| 加勒比av在线一区二区| 午夜三级a三级三点在线观看| 青草国产精品久久久久久| 欧美日韩亚洲综合久久久| 日本女优五十路中文字幕| 欧美老熟妇乱xxxxx| 亚洲国产成人va在线观看天堂| 久久久久久免费播放一级毛片| 久久精品国产9久久综合| 国产卡一卡二卡3卡4乱码| 六月丁香婷婷色狠狠久久| 亚洲av福利天堂在线观看| 中文字幕精品亚洲字幕| 国产成人精品午夜视频| 99热成人精品免费久久| 亚洲无av高清一区不卡| 大肉大捧一进一出好爽视频动漫| 欧美熟妇色ⅹxxx欧美妇| 久久99精品波多结衣一区| 精品一区二区三区人妻久久福利 | 曰本无码人妻丰满熟妇啪啪| 一本久道久久综合久久| 亚洲国产精品成人一区二区三区| 亚洲国产精品无码久久一线| 精品国产乱码久久久久久口爆网站 | 婷婷中文字幕综合在线| 免费精品美女久久久久久久久久 | 黑人老外3p爽粗大免费看视频| 中国内射xxxx6981少妇| 91精品综合久久久久m3u8| 日本在线观看一二三区| 少妇下面好紧好多水真爽播放|