亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Toeplitz含噪語音端點(diǎn)魯棒檢測

        2013-08-30 10:00:18王景芳寧礦鳳
        關(guān)鍵詞:信息量端點(diǎn)特征值

        王景芳,寧礦鳳

        WANG Jingfang1,NING Kuangfeng2

        1.湖南涉外經(jīng)濟(jì)學(xué)院 電氣工程系,長沙 410205

        2.湖南涉外經(jīng)濟(jì)學(xué)院 計(jì)算機(jī)科學(xué)系,長沙 410205

        1.Electric Engineering Department,Hunan International Economics University,Changsha 410205,China

        2.Computer Science Department,Hunan International Economics University,Changsha 410205,China

        1 引言

        語音作為語言的聲學(xué)表現(xiàn),是聽覺器官對外界聲音傳播介質(zhì)機(jī)械振動(dòng)的感知,是人類信息傳遞和情感交流的重要載體。目前,語音處理技術(shù)要求語音輸入在安靜的環(huán)境下進(jìn)行,當(dāng)周圍環(huán)境有噪聲(如工廠、機(jī)場等)時(shí),系統(tǒng)性能會急劇下降。然而,語音通信過程不可避免地受到來自周圍環(huán)境、傳播介質(zhì)等噪聲的影響。語音端點(diǎn)檢測是數(shù)字語音處理的重要環(huán)節(jié)[1-5],其目的是從采樣得到的數(shù)字信號中檢測出語音信號段和噪聲信號段。將采集的語音信號分為純噪聲段和帶噪語音段,判斷各語音片段的起止點(diǎn),是語音增強(qiáng)算法和語音編碼的重要組成部分之一。在語音識別過程中,正確確定語音段的起止端點(diǎn),可減少計(jì)算量和語音識別誤判率。

        短時(shí)能量是語音端點(diǎn)檢測算法中最常用的特征[6],它在高信噪比環(huán)境中可以有效地分出語音和噪聲,但是大量的實(shí)驗(yàn)結(jié)果顯示,基于短時(shí)能量的方法在低信噪比和非平穩(wěn)噪聲環(huán)境中,其性能明顯下降。當(dāng)然,部分算法在低信噪比環(huán)境中可以保持穩(wěn)定的性能[7]。其缺點(diǎn)是計(jì)算復(fù)雜度太大,不適合實(shí)時(shí)語音識別系統(tǒng)的應(yīng)用。Shen[8]最早提出將信息熵用于語音/噪聲分類,人的發(fā)音和噪聲的差異可以從它們的頻譜熵表現(xiàn)出來?;谡Z音頻譜熵的算法在低信噪比環(huán)境下勝過基于能量的方法。在白噪聲效果較好,但在有色噪聲還是難以奏效。

        在語音增強(qiáng)方面利用過信號子空間[9-12];本文針對在低信噪比、非平穩(wěn)噪聲條件下難以實(shí)現(xiàn)語音端點(diǎn)檢測,提出了一種基于Toeplitz最大特征值的去噪語音端點(diǎn)檢測方法。該方法用相語帶頻譜自相關(guān)序列構(gòu)造一個(gè)對稱Toeplitz矩陣,利用該矩陣最大特征值的信息量對語音信號進(jìn)行雙門限端點(diǎn)檢測。該算法大大提高了算法的檢測精度與有效性,能在多種噪聲環(huán)境和低信噪比條件中都能保持較好的檢測性能。

        2 構(gòu)造Toeplitz信息矩陣

        語音信號從整體來看其特性及表征其本質(zhì)特征的參數(shù)均是隨時(shí)間而變化的,是一個(gè)典型的非平穩(wěn)過程,但在一個(gè)短時(shí)間段內(nèi)(10~30 ms),其特性相對保持穩(wěn)定,因而可以看做是一個(gè)準(zhǔn)平穩(wěn)過程,即語音信號的短時(shí)平穩(wěn)性。目前絕大多數(shù)的語音信號處理技術(shù)均是在“短時(shí)”的基礎(chǔ)上,將語音信號分為許多段來逐段分析其特征參數(shù),其中每一段稱為一“幀”,分段的過程稱為“分幀”處理,通過對語音信號加窗函數(shù)來實(shí)現(xiàn),幀長一般取10~30 ms。分幀可以連續(xù)分段,但一般是通過一個(gè)滑動(dòng)窗口進(jìn)行交疊式分段,這樣使幀與幀之間平滑過渡,保持了信號的連續(xù)性。在窗函數(shù)的選取上,為了能夠得到高的頻率分辨率并克服Gibbs現(xiàn)象,選取漢寧(Hanning)窗交疊式分段。

        對帶噪語音信號x(n)進(jìn)行分幀,幀長FrameLen,幀移StepLen(StepLen<FrameLen),總幀數(shù)Num,若第k幀的信號經(jīng)過快速傅里葉變換(FFT)得到它在譜上的NFFT個(gè)點(diǎn)YF(i,k)(0≤i≤NFFT),因語音頻譜范圍(200 Hz~4 kHz),找其對應(yīng)的點(diǎn)區(qū)間 [Nd,Ng]點(diǎn) (0≤Nd<Ng≤NFFT),記 L=Ng-Nd+1,LM=L/2為Toeplitz矩陣大小;Xk(i)=YF(i+Ng-1,k)(1≤i≤L)。

        第k幀語帶頻譜自相關(guān)序列R(m):

        構(gòu)造LM維實(shí)對稱Toeplitz矩陣A:

        這樣Toeplitz矩陣階數(shù)不高,求特征值速度快。

        3 語音端點(diǎn)檢測實(shí)現(xiàn)過程

        3.1 求最大特征值迭代法原理分析

        冪法是求方陣的最大特征值及對應(yīng)特征向量的一種迭代法。設(shè) An有n個(gè)線性相關(guān)的特征向量v1,v2,…,vn,對應(yīng)的特征值 λ1,λ2,…,λn,滿足:

        3.1.1 基本思想

        因?yàn)閧v1,v2,…,vn}為 Cn的一組基,所以任給 x(0)≠0 ,

        若 a1≠0,則知,當(dāng) k充分大時(shí) A(k)x(0)≈λk1a1v1=c v1屬λ1的特征向量。

        另一方面,記max(x)=xi,其中|xi|=||x||∞,則當(dāng) k充分大時(shí):

        若a1=0,則因舍入誤差的影響,會有某次迭代向量在v1方向上的分量不為0,迭代下去可求得λ1及對應(yīng)特征向量的近似值。

        3.1.2 規(guī)范化

        在 實(shí) 際 計(jì) 算 中 ,若 |λ1|> 1 則 |λk1a1|→ ∞ ,若 |λ1|< 1 則

        注:若A的特征值不滿足條件式(3),冪法收斂性的分析較復(fù)雜,但若 λ1=λ2= … =λr且 |λ1|>|λr+1|≥ … ≥|λn|則定理結(jié)論仍成立。此時(shí)不同初始向量的迭代向量序列一般趨向于l1的不同特征向量。

        3.2 Toeplitz矩陣A最大特征值求解算法

        求解一個(gè)最大特征值,在這里用冪法,這樣避免求特征值中出現(xiàn)矩陣分解或求逆矩陣計(jì)算。其實(shí)現(xiàn)步驟:

        (1)賦初值:LM維列向量 y=[1,1,…,1]H,H為轉(zhuǎn)置;LM維列向量 y0=[0,0,…,0]H;循環(huán)判決條件eps=0.000 1(一個(gè)較小數(shù)),d=1。

        (2)矩陣計(jì)算:z=A y。

        (3)歸一化:

        其中 ||z||∞=max{|z(i)|,i=1,2,…,LM}。

        (4)計(jì)算:d=max{|y(i)-y0(i)|,i=1,2,…,LM},保留上一次的 y,y0=y。

        (5)循環(huán)判決:如果 d>eps轉(zhuǎn)第(2)步,否則轉(zhuǎn)第(6)步。

        (6)計(jì)算最大特征值:

        (7)保留第k幀最大特征值信息量:

        3.3 雙門限語音端點(diǎn)判別

        為了防止各幀最大特征值信息量Tzv出現(xiàn)鋸齒形波動(dòng),將Tzv相鄰3幀平均濾波。雙門限語音端點(diǎn)判別:

        步驟1認(rèn)定初始的N0幀為噪聲幀,對Tzv(l)(0<l≤N0)求均值A(chǔ)vg與標(biāo)準(zhǔn)方差Std。定義雙門限語音幀閾值TS和噪聲幀閾值TN分別為:

        步驟2計(jì)算下一幀語音信號最大特征值信息量Tzv(l)。當(dāng)前一幀為噪聲幀,則和閾值TS比較,小于TS則判定為噪聲幀,大于TS則為語音幀。當(dāng)前一幀為語音幀,則和閾值TN比較,小于TN則為噪聲幀,大于TN則為語音幀。循環(huán)步驟2至信號采樣結(jié)束。

        α、β 可選取在(0,4)之間,不同噪聲選取不同值;語音段至少有一定的延續(xù)段,比如持續(xù)0.2 s;若檢測到語音段小于它,則稱為“語音碎片”(在非高斯噪聲[如:工廠噪聲(factory)、嘈雜噪聲(babble)]下常見),最后對孤立“語音碎片”剔除或?qū)ο噜彙罢Z音碎片”整合。

        4 實(shí)驗(yàn)評估

        圖1 原語音與混合不同噪聲(SNR=5 dB)的端點(diǎn)檢測對比

        背景噪聲選自Noisex-92數(shù)據(jù)庫[13],它的采樣頻率 fs=19.98 kHz。以同樣的采樣頻率 fs,在計(jì)算機(jī)噪聲與室內(nèi)噪音環(huán)境錄下“語、音、端、點(diǎn)”音見圖1(a),門框折線為本文方法端點(diǎn)檢測結(jié)果。在語音分幀過程中,每幀取25 ms,即幀長 FrameLen=[0.025 fs]點(diǎn),幀移[FrameLan/4],確定每幀的快速傅里葉變換(FFT)長度取它等于幀長FrameLen,截取開始噪聲幀N0=20。

        將原語音、原語音與噪聲Noisex-92庫中的噪聲——白噪聲(white)、粉色噪聲(pink)、戰(zhàn)機(jī)噪聲(f16_cockpit)、人嘈雜噪聲(babble)用本文Toeplitz矩陣最大特征值法進(jìn)行端點(diǎn)檢測,在信噪比SNR=5 dB、0 dB、-5 dB時(shí),用本文算法與信號遞歸度分析法[14]對比檢測結(jié)果分別列圖1~3。圖中左部的橫坐標(biāo)為時(shí)間(s)、縱坐標(biāo)為幅度;中部的橫坐標(biāo)為幀數(shù)、縱坐標(biāo)為Toeplitz矩陣最大特征值信息量(dB);右部的橫坐標(biāo)為幀數(shù)、縱坐標(biāo)為遞歸度(%)。圖1~3的左部為語音、混有不同噪聲的語音及它們的端點(diǎn)檢測,圖中部為本文算法的Toeplitz矩陣最大特征值信息量與端點(diǎn)分割線;本文算法在多種噪聲混合情況下,Toeplitz矩陣最大特征值信息量曲線變化不大,語音端點(diǎn)分割準(zhǔn)確,自適應(yīng)性好。

        在混有噪聲的低信噪比情形下測試,測試結(jié)果由3個(gè)指標(biāo)衡量[15]:

        其中,N1和N0分別為測試語音中手工標(biāo)記語音幀和噪聲幀總個(gè)數(shù),N1,0為手工標(biāo)記語音幀而識別為噪聲幀的錯(cuò)誤個(gè)數(shù),N0,1為手工標(biāo)記噪聲幀而識別為語音幀的錯(cuò)誤個(gè)數(shù)。則P(A/S)為語音幀檢測正確率,P(A/N)為非語音幀檢測正確率,P(A)為總的檢測正確率。

        表1給出不同噪聲不同信噪比環(huán)境下的兩種方法實(shí)驗(yàn)結(jié)果的簡表。

        5 結(jié)束語

        圖2 原語音與混合不同噪聲(SNR=0 dB)的端點(diǎn)檢測對比

        圖3 原語音與混合不同噪聲(SNR=-5 dB)的端點(diǎn)檢測對比

        表1 語音端點(diǎn)檢測實(shí)驗(yàn)結(jié)果

        文中從新視覺角度提出了一種基于Toeplitz最大特征值的含噪語音端點(diǎn)魯棒檢測的新方法,本方法用語帶頻譜范圍(200 Hz~4 kHz)自相關(guān)序列構(gòu)造一個(gè)對稱Toeplitz矩陣,利用該矩陣最大特征值的信息量對語音信號進(jìn)行雙門限端點(diǎn)檢測。用最大特征值抽提主體信號,更好地抑制了噪聲。在信噪比低于5 dB時(shí),一般的語音端點(diǎn)檢測方法,如短時(shí)譜估計(jì),顯得幾乎無能為力;該算法仍實(shí)用,它具有計(jì)算簡單,抗噪聲能力強(qiáng)的特點(diǎn),并通過實(shí)驗(yàn)表明該方法的正確性,還具有很好的魯棒性;本文算法通用性好,適應(yīng)環(huán)境寬。特別是噪聲混疊在低、高頻段的含噪語音檢測甚佳,噪聲混疊在語音帶頻段的情形值得進(jìn)一步改進(jìn)。

        [1]Raj B,Singh R.Classifier-based non-linear projection for adaptive endpointing of continuous speech[J].Computer Speech and Language,2003,17:5-26.

        [2]Tanyer S G,Ozer H.Voice activity detection in nonstationary noise[J].IEEE Transactions on Speech and Audio Processing,2000,8(4):478-482.

        [3]Karray L,Martin A.Towards improving speech detection robustness for speech recognition in adverse conditions[J].Speech Communication,2003,40:261-276.

        [4]Kuroiwa S,Naito M,Yamamoto S,et al.Robust speech detection method for telephone speech recognition system[J].Speech Communication,1999,27:135-148.

        [5]Ramirez J,Segura J C,Benitez C,et al.Efficient voice activity detection algorithms using long-term speech information[J].Speech Communication,2004,42:271-287.

        [6]Ramirze J,Segura J C,Benitez C,et al.An efective subband OSF-based VAD with noise reduction for robust speech recognition[J].IEEE Transactions on Speech and Audio Processing,2005,13(6):1119-1129.

        [7]Nemer E,Goubran R,Mahmoud S.Robust voice activity detection using higher-order statistics in the LPC residual domain[J].IEEE Transactions on Speech and Audio Processing,2001,9(3):217-231.

        [8]Shen J,Hung J,Lee L.Robust entropy-based endpoint detection for speech recognition in noisy environments[C]//Proc of International Conference on Spoken Language Processing,Sydney,Australia,1998:232-238.

        [9]Ephraim Y,van Trees H L.A signal subspace approach for speech enhancement[J].IEEE Trans on Speech Audio Processing,1995,3(4):251-266.

        [10]Klein M,Kabal P.Signal subspace speech enhancement with perceptual post filtering[C]//IEEE-ICASSP’02,Orlando,F(xiàn)lorida,USA,2002:537-540.

        [11]Mittal U,Phamdo N.Signal/noise KLT based approach for enhancing speech degraded by colored noise[J].IEEE Trans on Speech Audio Processing,2000,8:159-167.

        [12]Yi H,Loizou P C.A generalized subspace approach for enhancing speech corrupted by colored noise[J].IEEE Trans on Speech and Audio Processing,2003,11(4).

        [13]Spib noise data[EB/OL].[2011-10-20].http://spib.rice.edu/spib/select_noise.html.

        [14]閆潤強(qiáng),朱貽盛.基于信號遞歸度分析的語音端點(diǎn)檢測方法[J].通信學(xué)報(bào),2007(1):35-39.

        [15]Marzinzik M,Kollmeier B.Speech pause detection for noise spectrum estimation by tracking power envelope dynamics[J].IEEE Trans on Speech and Audio Processing,2002,10:109-118.

        [16]李晉,王景芳,高金定.基于經(jīng)驗(yàn)?zāi)B(tài)分解和遞歸圖的語音端點(diǎn)檢測算法[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(34):132-135.

        [17]王景芳.實(shí)時(shí)語音端點(diǎn)魯棒檢測[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(20):147-149.

        猜你喜歡
        信息量端點(diǎn)特征值
        非特征端點(diǎn)條件下PM函數(shù)的迭代根
        一類帶強(qiáng)制位勢的p-Laplace特征值問題
        單圈圖關(guān)聯(lián)矩陣的特征值
        不等式求解過程中端點(diǎn)的確定
        基于信息理論的交通信息量度量
        參數(shù)型Marcinkiewicz積分算子及其交換子的加權(quán)端點(diǎn)估計(jì)
        如何增加地方電視臺時(shí)政新聞的信息量
        新聞傳播(2016年11期)2016-07-10 12:04:01
        基丁能雖匹配延拓法LMD端點(diǎn)效應(yīng)處理
        基于商奇異值分解的一類二次特征值反問題
        基于多尺度互信息量的數(shù)字視頻幀篡改檢測
        国产大屁股视频免费区| 国产亚洲欧美在线播放网站| 国产免费午夜福利蜜芽无码| 国产激情视频在线观看首页| 国产日韩厂亚洲字幕中文| 无码人妻aⅴ一区二区三区| 精品麻豆国产色欲色欲色欲www| 亚洲色AV性色在线观看| 天堂av在线一区二区| 激情五月开心五月啪啪| 欧美男生射精高潮视频网站| 丰满人妻熟妇乱又伦精品软件| 久久精品国产亚洲AⅤ无码| 国产亚洲精品综合99久久| 久久99精品久久只有精品| 一本无码中文字幕在线观| 亚洲精品美女久久久久99| 色窝窝无码一区二区三区2022| 亚洲精品国产一区av| 人妻少妇猛烈井进入中文字幕| 国产综合色在线视频区| 精品久久久噜噜噜久久久| 亚洲Av无码专区尤物| 亚洲一区二区三区精品久久av| 色翁荡熄又大又硬又粗又动态图 | 免费蜜桃视频在线观看| 亚洲精品国产第一区二区| 亚洲 自拍 另类小说综合图区| 亚洲国产精品久久久久秋霞1| 亚洲免费人成网站在线观看| 大量漂亮人妻被中出中文字幕| 久久久无码精品亚洲日韩蜜臀浪潮 | 人妻洗澡被强公日日澡电影| 特黄a级毛片免费视频| 青榴社区国产精品| 国产自拍视频免费在线观看| 丰满熟妇人妻av无码区| 午夜dj在线观看免费视频| 狠狠色丁香婷婷久久综合2021| av网站不卡的av在线| 亚洲精品国产成人片|