亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于譜熵的耳語音增強研究*

        2012-10-22 01:06:38杜志然景新幸
        傳感器與微系統(tǒng) 2012年6期
        關(guān)鍵詞:子帶錄音噪音

        杜志然,周 萍,景新幸,李 杰

        (1.桂林電子科技大學計算機科學與工程學院,廣西桂林 541004;2.桂林電子科技大學電子工程與自動化學院,廣西桂林 541004;3.桂林電子科技大學信息與通信學院,廣西桂林 541004)

        0 引言

        耳語音作為一種特殊的語音,因其特殊性,給后續(xù)處理帶來了不便。尤其是被噪聲污染過的語音信號,在提取特征參數(shù)過程,往往會受到干擾。因此,對其進行增強處理是一個值得關(guān)注的問題。目前對耳語音的增強研究多使用基于神經(jīng)元的方法[1]和自適應濾波的方法[2]。這些方法往往計算量比較大,需要參考信號的輸入,而參考信號在現(xiàn)實中有時是不可知的。譜減法是一種比較傳統(tǒng)的增強方法,計算比較簡單,效果良好,而且不需要參考信號的輸入,在現(xiàn)實生活中有著廣泛的應用。由于耳語音的特性,傳統(tǒng)譜減法對耳語音的增強效果較差,本文采用基于子帶功率譜熵的改進譜減法,對耳語音進行增強處理。

        1 耳語音的發(fā)音特點

        發(fā)音系統(tǒng)主要由肺部、聲帶、聲道、雙唇構(gòu)成。耳語音發(fā)音時,聲門處于半開狀態(tài),肺部氣流從聲門的后半部分即氣門摩擦而出,表現(xiàn)為氣聲發(fā)音,聲帶不振動,能量較低。同時,由于聲門半開,聲道因為增加了氣管和肺部,傳輸函數(shù)與正常發(fā)音相比,也發(fā)生了改變。這些包含不同頻率的氣聲聲波經(jīng)聲道產(chǎn)生不同程度的加強和抑制[3]。

        由于獨特的發(fā)音方式,耳語音有以下特點:1)聲帶不振動,沒有基頻;2)氣聲發(fā)音,激勵源類似于噪聲,能量低,信噪比低;3)耳語音的聲道傳輸函數(shù)與正常音不同,耳語音的共振峰相對于正常音向高頻偏移,帶寬變大;4)為了使耳語音盡可能聽清楚,一般情況下耳語音語速較慢,音長較長。圖1是正常音與耳語音“san”的基本特征對比圖。

        圖1 正常音與耳語音基本特征對比圖Fig 1 Comparison diagram of basis feature of normal and whispered speech

        2 耳語音庫的建立

        目前在耳語音方面進行研究所使用的語音庫大多是實驗者自己所建的。為了研究方便,本實驗建立了一個小型耳語音庫:

        1)錄音環(huán)境:耳語音信噪比較低,不易辨識,所以,在比較安靜的情況下進行。本實驗在普通實驗室進行的,時間為晚上9點到10點,連續(xù)多天。關(guān)閉門窗、空調(diào)、飲水機等以保證室內(nèi)安靜。錄音時,只有錄音人在內(nèi),其他人在門外等候。

        2)錄音設(shè)備:考慮到耳語音的發(fā)音特點,經(jīng)過對比試驗,選擇使用SONY ICD-UX91F立體聲數(shù)碼錄音棒、外置麥克風為錄音設(shè)備。錄音棒設(shè)置為ST(高質(zhì)量立體聲錄音)模式,存儲為MP3格式。之后為了實驗的方便使用Cool Edit 2.1軟件將其轉(zhuǎn)換為頻率為8kHz,單聲道,量化精度為16 bit的wav文件。

        3)發(fā)音人:錄制的語音庫分為2個部分,第一部分有31個發(fā)音人,其中15個男生,16個女生,普通話發(fā)音??紤]到地域因素,所選的發(fā)音人涉及多個省份;第二部分為單人女聲發(fā)音。

        4)錄音內(nèi)容

        a.數(shù)字0~9;桂林電子科技大學;雜志中隨機一段文字。31個發(fā)音人,每人大概讀1 min,均為耳語音發(fā)音。之后同樣的內(nèi)容用正常音重復一遍。

        b.單人女聲發(fā)音,其中100個常用字,50個常用詞,數(shù)字0~9,26個英文字母,4個聲調(diào)的發(fā)音10組,常用句5個,均用耳語音發(fā)音5遍,正常音1遍。

        5)注意事項:錄音前,每位錄音者需要熟悉錄音內(nèi)容,并且掌握耳語音的發(fā)音技巧。錄音時,每位發(fā)音人需要吐字清晰,語調(diào)平穩(wěn),并且盡量保持不動。

        3 耳語音的增強處理

        3.1 加噪耳語音信號的子帶功率譜熵

        信源熵是信源的平均不確定度的度量,不確定度越大,熵值越大[4]。在語音信號中,功率譜熵與信號的功率譜大小無關(guān),僅與變化程度有關(guān)。耳語音與正常音相比,能量比較小。使用短時能量、短時平均幅度等方法不易檢測出耳語音的噪聲段和語音段,而采用功率譜熵可以彌補這些缺點。

        首先對信號分幀,加窗,F(xiàn)FT。幀內(nèi)各頻點的功率譜概率密度函數(shù)為

        其中,m為幀號,s(f(i,m))為信號經(jīng)FFT后第m幀第i個點的頻譜分量,|s(f(i,m)|2為其功率譜能量,N為快速傅里葉變換的點數(shù),則第m幀信號的功率譜熵為

        為了消除突發(fā)性噪音對某一頻點的影響,采用子帶功率譜熵的方法[5]把幾個頻點組成一個子帶,這樣一幀信號就分為Nb個子帶,本實驗把4個頻點組成一個子帶,則一幀信號中有N/4個子帶。

        根據(jù)子帶的功率密度函數(shù)求每幀信號的功率譜熵,這樣得到的功率譜熵相對要平緩一點,子帶的功率密度函數(shù)為

        其中,|s(f(i,m)|2是第m幀第i子帶內(nèi)頻點功率譜能量之和,則第m幀信號的功率譜熵為

        根據(jù)最大熵定理,當構(gòu)成信源的各個符號出現(xiàn)的概率相等時,這時出現(xiàn)任何符號的可能性相等,也就是不確定最大,這時熵值最大[4]。噪音信號頻譜分布比較均勻,而語音信號的頻譜分布變換范圍比較大,根據(jù)最大熵定理,噪音的功率譜熵要大于語音的功率譜熵。因此,可以利用語音信號的子帶功率譜熵有效的檢測出一段語音信號的語音段和噪音段。圖2是一段加噪耳語音信號的波形圖及其子帶功率譜熵圖。

        圖2 加噪耳語音信號的波形及其子帶功率譜熵圖Fig 2 Waveform and band-partitioning power spectral entropy of noisy whispered speech

        從圖2可以看出:加噪耳語音信號雖然幅值、能量比較小,但利用子帶功率譜熵還是可以有效地分辨出噪音段和語音段。上圖中熵值大的部分為噪音段,熵值較小的部分為語音段。

        圖3分別是耳語音“san”的在信噪比為10和5情況下的子帶功率譜熵圖,從圖中可以看出兩者的噪音段雖然信噪比不同,但譜熵值沒有明顯的改變,仍介于值3.6~3.8之間。但語音段在低信噪比為5情況下的譜熵值明顯增大,譜熵值由原來的 3.3~3.4 上升到 3.4~3.6。由此可以推測出在一段混雜不穩(wěn)定噪音的語音段中,若某幀的譜熵較大,說明這幀語音被污染得比較嚴重。

        圖3 不同信噪比下的子帶功率譜熵圖Fig 3 Band-partitioning power spectral entropy under the condition of different SNR

        3.2 改進譜減法

        設(shè)帶噪語音信號為y(t),純凈語音信號為x(t),噪聲信號為n(t)。因為非線性噪聲可以轉(zhuǎn)換為線性噪聲來處理,為了研究方便,一般假定噪聲信號和純凈語音信號是線性相加的[6],則有

        設(shè)Y(ω),X(ω),N(ω)分別為y(t),x(t),n(t)對應的頻譜,則等式兩邊經(jīng)傅里葉變換后有

        因為假設(shè)Xi,Ni是相互獨立的,則對應的功率譜有以下關(guān)系

        為了防止負值現(xiàn)象的出現(xiàn),當|Y(ω)|2-|N(ω)|2<0時置0。將原始語音的相位作為增強后語音的相位,通過逆傅里葉變換,就可以得到增強后的語音信號。

        基本譜減法比較簡單,但存在很大的缺點,就是音樂噪聲的出現(xiàn)。因為在現(xiàn)實中噪聲并非一直穩(wěn)定的,而且噪聲與純凈語音并非都是線性相加的,某些點譜減后可能會形成一個個的峰值,造成音樂噪聲,聽覺上難以接受。目前關(guān)于如何消除音樂噪聲有很多種方法,大多數(shù)方法采用下式

        當α=2,β=1時為基本譜減法;通過實驗設(shè)定α,β為某一確定的值;自適應改變α,β的值都可以提高去噪的靈活性[7~9]。當α一定,增大β可以減少殘余噪聲,但是語音可能會有較大的失真;當β一定時,增大α,殘余噪聲增大,但失真較小。

        本文利用改進譜減公式|X(ω)|=[|Y(ω)|αβ|N(ω)|α]-α進行去噪。首先利用信號的子帶譜熵設(shè)定閾值,有效判斷出噪聲段和語音段,然后分開處理噪聲段和語音段。噪音信號并非一直穩(wěn)定的,因此,為了更好地去噪,需要實時更新噪聲|N(ω)|,同時在噪音段和語音段自適應調(diào)節(jié)α,β值,以達到良好的增強效果。

        3.3 算法實現(xiàn)

        首先選取無音部分的前10幀計算初始噪聲,然后利用信號的子帶功率譜熵值判斷出信號的噪音段和語音段。如果是噪音段則更新噪聲,選取當前幀權(quán)重為0.8,上一幀更新后的噪聲權(quán)重為0.2。如果是語音段,則根據(jù)被污染的程度實時調(diào)節(jié)譜減系數(shù)β,為了避免語音失真,適當增大α。

        具體步驟如下:

        1)加噪、分幀、加窗、預加重、快速傅里葉變換。

        2)選取無音部分前10幀,計算其平均幅度作為初始噪音幅度Noise。

        3)計算每一幀的子帶功率譜熵Hi,并記最大熵值為Hmax,最小熵值為Hmin。

        4)當Hi/Hmax>0.93(0.93 經(jīng)過反復試驗確定)時,可以判斷其為噪音段,更新噪音Noise=0.2×Noise+0.8×Noise(i)。

        其中,Noise為前一幀更新的噪聲,Noise(i)為當前幀噪音。設(shè)定譜減系數(shù)β=2.5,α=2,β經(jīng)過反復實驗確定,轉(zhuǎn)步驟(6)。

        5)當Hi/Hmax<0.93可判斷其為語音段,設(shè)譜減系數(shù)β,當H(i)比較大時,說明此幀污染較嚴重,β也相應增大,為了避免語音失真,設(shè)定α=3,轉(zhuǎn)步驟(6)。

        6)譜減,若譜減后小于0,則置0。

        7)合成語音,去加重,實驗結(jié)束。

        4 實驗結(jié)果

        為了驗證本文方法的有效性,從錄制的語音庫中截取一段耳語音“0,1,2,3”以不同信噪比加入高斯白噪聲,采樣頻率8kHz,量化精度16bit,幀長512,幀移256,采用上述方法利用Matlab進行仿真實驗。

        圖4是以信噪比5加入高斯白噪聲,用本文方法處理后的原始波形圖和增強波形圖。從圖中可以看出:本文方法對耳語音的去噪效果良好,計算后得知增強后的信噪比得到了提高。并且經(jīng)過試聽,發(fā)現(xiàn)音樂噪聲得到了有效的消除。表1是以不同信噪比加入高斯白噪聲,利用基本譜減法和本文方法增強后的信噪比對比。

        表1 輸出信噪比的對比Tab 1 Comparison of output SNR

        圖4 原始波形圖與增強后波形圖對比Fig 4 Comparison of original and enhanced waveform

        5 結(jié)論

        本文建立了一個小型耳語音庫,分析了耳語音的發(fā)音特點和功率譜熵特性,并利用基于子帶功率譜熵的改進譜減法對耳語音進行增強處理。實驗證明:此方法比較簡單,且與傳統(tǒng)譜減法相比,信噪比有了較大的提高,削減了噪聲的干擾,為耳語音說話人識別、耳語音到正常音的轉(zhuǎn)換等后續(xù)研究打下良好的基礎(chǔ)。

        [1] 孫 靜,陶 智,顧濟華.基于AD神經(jīng)網(wǎng)絡的耳語音增強研究[J].計算機工程與應用,2007,43(29):242 -244.

        [2] 孫 靜,陶 智,顧濟華.基于LMS自適應濾波的耳語音增強的研究[J].通信技術(shù),2007(12):394-396.

        [3] 沈 炯,王理嘉.耳語音的性質(zhì)[J].漢語學習,1984(4):35-40.

        [4] 曹雪虹,張宗橙.信息論與編碼[M].北京:北京郵電大學出版社,2002.

        [5] Li Xin,Liu Huaping,Zheng Yu,et al.Robust speech endpoint detection based on improved adaptive band-partitioning spectral entropy[C]∥Lecture Notes in Computer Science,2007:36 -45.

        [6] 張雪英.數(shù)字語音處理[M].北京:電子工業(yè)出版社,2010.

        [7] Gao Liuyang,Guo Yunfei,Li Shaomei.Speech enhancement alogrithm based on improved spectral subtraction[C]∥IEEE International Conference on Intelligent Computing and Intelligent Systems,ICIS2009,2009:140 -143.

        [8] 劉志坤,唐小明,朱洪偉.基于改進譜減法的語音增強研究[J].計算機仿真,2009,26(6):363 -366.

        [9] 陶 智,趙鶴鳴,龔呈卉.基于譜減法的聽覺模擬的語音增強[J].計算機工程與應用,2005(4):57-60.

        猜你喜歡
        子帶錄音噪音
        Listen and Paint, etc.
        一種基于奇偶判斷WPT的多音干擾抑制方法*
        Funny Phonics
        噪音,總是有噪音!
        子帶編碼在圖像壓縮編碼中的應用
        電子制作(2019年22期)2020-01-14 03:16:24
        無法逃避的噪音
        噪音的小把戲
        白噪音的三種用法
        Coco薇(2017年9期)2017-09-07 22:09:28
        Colorful Seasons多彩四季
        A New Term
        伊人久久综在合线亚洲不卡| 人妻无码一区二区三区| 巨茎中出肉欲人妻在线视频| 久久99精品久久久久久野外| 国产亚洲AV片a区二区| 色视频不卡一区二区三区| 国产99视频精品免视看7| 狠狠色丁香久久婷婷综合蜜芽五月| 欧美中文字幕在线看| 久久精品久久精品中文字幕| 制服丝袜一区二区三区| 大肉大捧一进一出视频出来呀| 亚洲AV秘 无码一区二区三区臀| 成人性生交c片免费看| 亚洲av综合国产av日韩| 精品水蜜桃久久久久久久| 亚洲国产99精品国自产拍| 人妻av中文字幕精品久久| 午夜无码一区二区三区在线观看| 九月婷婷人人澡人人添人人爽| 久9热免费精品视频在线观看| 久久婷婷综合色一区二区| 亚洲人成国产精品无码果冻| 亚洲精品无码久久毛片| 黄色网页在线观看一区二区三区| av在线免费高清观看| 99国产精品人妻噜啊噜| 国产片AV在线永久免费观看| 一区二区在线观看日本免费| 成人国产一区二区三区| 亚洲综合久久成人a片| 女人被躁到高潮嗷嗷叫免费软| 美女被男人插得高潮的网站| 色 综合 欧美 亚洲 国产| 欧美中文字幕在线看| 日韩精品一区二区亚洲专区| 久久亚洲精品成人av无码网站| 无码AV高潮喷水无码专区线| 天堂a版一区二区av| 久久精品国产亚洲夜色av网站| 日日躁夜夜躁狠狠久久av|