亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        幀間差分相位譜幀長(zhǎng)和幀移的最優(yōu)設(shè)置方法

        2013-04-12 00:32:38王金芳聶新禮
        關(guān)鍵詞:互信息差分準(zhǔn)則

        王金芳,虢 明,聶新禮

        (吉林大學(xué)通信工程學(xué)院,長(zhǎng)春130012)

        說話人識(shí)別是一種利用語音識(shí)別人身份的技術(shù),處理過程分為訓(xùn)練和測(cè)試。訓(xùn)練是指從語音中提取出能表征說話人個(gè)性的特征并建立模型的過程,測(cè)試是指將待測(cè)試語音與已建立的模型匹配以判斷此說話人身份的過程。說話人識(shí)別分為說話人鑒定和說話人確認(rèn)。由于相位卷繞(Wrapping)等問題[1-3],目前大多數(shù)特征的提取都是利用語音的幅度信息,很少顧及相位。最近可懂度測(cè)評(píng)實(shí)驗(yàn)[4]表明了語音相位的重要性,在合理選擇幀長(zhǎng)(100~1000 ms)的條件下,短時(shí)相位譜對(duì)人類感知有不可忽視的作用[5-8],且在相位分析方面矩形窗明顯優(yōu)于其他窗函數(shù)[8-10]。分別對(duì)短時(shí)相位譜取時(shí)間、頻率微分得到兩種常用參數(shù),瞬時(shí)頻率[11-12]和群時(shí)延[13]。無論何種參數(shù),幀長(zhǎng)和幀移的選取極大地影響語音信號(hào)短時(shí)相位譜。McCowan等[14]提出從相鄰幀間相位譜差中提取特征,指出幀長(zhǎng)和幀移參數(shù)的設(shè)置需在相位突變檢測(cè)能力和相位噪聲兩方面進(jìn)行折中考慮,但其參數(shù)設(shè)定僅依靠經(jīng)驗(yàn)分析。

        利用互信息理論[15]選擇說話人識(shí)別特征,已進(jìn)行了一定的研究[16-17],在此基礎(chǔ)上,本文提出利用短時(shí)幅度譜和Mel頻率Delta相位倒譜系數(shù)(Mel-Frequency Delta-Phase Cepstral Coefficients,MFDPs)間互信息確定幀長(zhǎng)和幀移的方法。這里雖以MFDP特征為例,但同樣適用于其他基于短時(shí)相位譜的特征提取,仿真實(shí)驗(yàn)驗(yàn)證了其可靠性。

        1 Mel頻率幀間差分相位倒譜系數(shù)

        語音信號(hào)為s(n),其短時(shí)離散傅里葉變換定義為

        式中:m是幀索引;w(n)表示長(zhǎng)為的窗函數(shù);D指幀移(滿足D≤T)。與幅度不同的是,窗函數(shù)對(duì)相位有影響,并且同一語音信號(hào)各幀間無共同時(shí)間參考點(diǎn),解決方法是對(duì)短時(shí)相位譜進(jìn)行補(bǔ)償。定義幀間差分相位譜

        以幀間差分相位譜的絕對(duì)值|ΔΨm(k)|代替幅度譜按照Mel頻率倒譜處理方法提取MFDP特征,其性能僅略低于基于幅度譜的MFCC特征[14]。

        2 相位譜參數(shù)確定

        2.1 互信息

        離散隨機(jī)變量的信息熵H(X)定義為

        式中:p(xi)=p{X=xi}表示隨機(jī)變量X取值為xi的概率。

        在隨機(jī)變量Y條件下X的平均條件熵定義為

        兩個(gè)隨機(jī)變量X、Y所構(gòu)成的信息集合間的相關(guān)性可用互信息來衡量,定義為

        互信息具有非負(fù)性MI(X;Y)≥0,對(duì)稱性MI(X;Y)=MI(Y;X)和有界性MI(X;Y)≤H(X) +H(Y)。

        2.2 幀長(zhǎng)和幀移選擇

        為度量說話人自身與語音特征間的相關(guān)性,文獻(xiàn)[16]將聲學(xué)空間到特征空間映射過程捕獲的信息量用互信息表示,當(dāng)互信息量達(dá)到最大時(shí),識(shí)別錯(cuò)誤率最低。

        離散瞬時(shí)頻率是對(duì)相鄰時(shí)刻點(diǎn)之間的相位作差,而幀間差分相位是對(duì)相鄰幀相位作差,幀移可以不是一個(gè)采樣點(diǎn),因此可以看作是瞬時(shí)頻率基礎(chǔ)上的延展。幀移增大,相位變化的分布范圍展寬,導(dǎo)致檢測(cè)相位突變的能力提高,但同時(shí)在遠(yuǎn)端FFT頻率間隔內(nèi)引入相位噪聲。最優(yōu)的幀移與幀長(zhǎng)比(D/T)在增大相位檢測(cè)突變能力和抑制噪聲之間達(dá)到平衡。依據(jù)互信息理論確定最優(yōu)幀長(zhǎng)和幀移的準(zhǔn)則函數(shù)可定義為

        式中:X是傅里葉變換幅度譜(Fourier Transform Magnitude Spectrum,F(xiàn)TMS),作為參考譜表征說話人聲學(xué)空間,Y表示MFDP特征。圖1為基于互信息準(zhǔn)則的參數(shù)選擇算法框圖。

        圖1 基于互信息準(zhǔn)則的參數(shù)選擇算法框圖Fig.1 Parameter selection scheme based on mutual information criterion

        3 實(shí)驗(yàn)結(jié)果與分析

        實(shí)驗(yàn)選用的語料庫為TIMIT庫,是語音信號(hào)處理的標(biāo)準(zhǔn)語料庫,共有630個(gè)說話人,語音為16 kHz采樣、16 bits量化。從庫中選取114位參錄者的語音用于實(shí)驗(yàn),每人10條,每條語音長(zhǎng)約3 s。其中9條語音串接起來用于訓(xùn)練,1條用于測(cè)試。設(shè)計(jì)實(shí)驗(yàn)與文獻(xiàn)[14]中參數(shù)設(shè)置實(shí)施對(duì)照,使用矩形窗T=4096,D=160,Mel濾波器數(shù)量取24,模型選用高斯混合模型,共進(jìn)行如下3組實(shí)驗(yàn)。

        實(shí)驗(yàn)1 確定高斯混合度。圖2給出特征維數(shù)取12時(shí),混合度為4~48的5次說話人識(shí)別實(shí)驗(yàn)結(jié)果。當(dāng)混合度為12~24時(shí),系統(tǒng)平均識(shí)別正確率最大,獲得相對(duì)最好的性能。綜合考慮計(jì)算代價(jià)和準(zhǔn)確率,混合度選定為16。

        圖2 不同混合度的說話人識(shí)別性能Fig.2 Speaker recognition performance of differentmixtures

        實(shí)驗(yàn)2 分析所提出算法的性能,并確定最優(yōu)參數(shù)。實(shí)驗(yàn)采用矩形窗,T分別取2048、4096、8192,并且20<D<T,Mel濾波器數(shù)量為24,特征維數(shù)為22。圖3是某說話人的互信息與D/T關(guān)系曲線。實(shí)驗(yàn)結(jié)果表明,隨著T增加,互信息曲線逐漸呈現(xiàn)單峰性。由不同T的曲線形態(tài)可知,改變幀長(zhǎng)導(dǎo)致基于相位譜的MFDP特征對(duì)說話人表征能力存在差別。經(jīng)統(tǒng)計(jì)發(fā)現(xiàn),T不小于2048點(diǎn)時(shí),最優(yōu)D/T都介于0到0.1之間,且隨T增加,最優(yōu)D/T呈現(xiàn)減小趨勢(shì)。圖3(c)較之于圖3(b),當(dāng)D/T大于0.4時(shí),曲線出現(xiàn)“階梯性”,變得不平滑。因此,綜合考慮性能和運(yùn)算代價(jià),最優(yōu)幀長(zhǎng)確定為4096。圖4給出基于最大互信息準(zhǔn)則的不同幀長(zhǎng)的最優(yōu)D分布曲線,最優(yōu)D取值如表1所示。

        圖3 某說話人不同T的互信息與D/T關(guān)系Fig.3 Relation between M I and D/T for some speaker w ith different T s

        圖4 不同T下最優(yōu)D的分布Fig.4 Distribution of optimal D w ith different T s

        表1 不同T下的最優(yōu)D取值Table 1 Optimal D w ith different T s

        實(shí)驗(yàn)3 在說話人識(shí)別系統(tǒng)上檢驗(yàn)上述幀長(zhǎng)和幀移參數(shù)的有效性。下面給出以干凈語音訓(xùn)練說話人模型,分別用干凈和帶噪語音進(jìn)行測(cè)試的結(jié)果。

        實(shí)驗(yàn)按圖4(b)改變最優(yōu)D,5次干凈語音測(cè)試結(jié)果如圖5所示,其中D取值20~160,平均識(shí)別率總體趨勢(shì)先增大后降低,D=60處識(shí)別率達(dá)到峰值,其變化趨勢(shì)與圖4(b)中最優(yōu)D分布曲線相吻合。最優(yōu)D的其他取值識(shí)別結(jié)果明顯優(yōu)于作為對(duì)照D=160的情況。實(shí)驗(yàn)驗(yàn)證了所提出算法的準(zhǔn)確性和可靠性,同時(shí)說明通過經(jīng)驗(yàn)分析得到的參數(shù)存在缺陷。

        圖5 不同D下以干凈語音測(cè)試的識(shí)別性能Fig.5 Test performance of clean speech w ith different D s

        將干凈語音按5~40 dB疊加高斯白噪聲生成帶噪語音進(jìn)行測(cè)試,D取60的識(shí)別性能如圖6所示。40 dB帶噪語音與干凈語音對(duì)系統(tǒng)的測(cè)試結(jié)果接近。識(shí)別性能隨信噪比降低而急劇惡化。由此可見,訓(xùn)練和測(cè)試條件不匹配導(dǎo)致MFDP特征對(duì)說話人個(gè)性表征能力減弱。

        圖6 D=60用帶噪語音測(cè)試的識(shí)別性能Fig.6 Test performance of noisy speech w ith D=60

        4 結(jié)束語

        本文提出一種利用最大互信息準(zhǔn)則確定幀間差分相位譜幀長(zhǎng)和幀移的參數(shù)設(shè)置方法。首先依據(jù)相位信息提取特征矢量集,然后計(jì)算此特征矢量集與幅度譜的互信息,按照最大化互信息準(zhǔn)則確定幀長(zhǎng)和幀移。實(shí)驗(yàn)結(jié)果表明,本文方法較經(jīng)驗(yàn)分析方法更準(zhǔn)確,有效彌補(bǔ)后者的缺陷,而且本文方法的有效性和正確性得以充分驗(yàn)證。由實(shí)驗(yàn)過程發(fā)現(xiàn),訓(xùn)練和測(cè)試條件不匹配對(duì)系統(tǒng)識(shí)別率產(chǎn)生極大影響,這將是下一步需要著重解決的主要問題。

        [1]Al-Nashi H.Phase unwrapping of digital signals[J]. IEEE Transactions on Acoustics,Speech and Signal Processing,1989,37(11):1693-1702.

        [2]Murthy H A,Madhu Murthy K V,Yegnanarayana B. Formant extraction from phase using weighted group delay function[J].Electronics Letters,1989,25(23): 1609-1611.

        [3]Yegnanarayana B,Murthy H A.Significance of group delay functions in spectrum estimation[J].IEEE Transactions on Signal Processing,1992,40(9):2281-2289.

        [4]Alsteris L D,Paliwal K K.Further intelligibility results from human listening tests using the short-time phase spectrum[J].Speech Communication,2006,48(6): 727-736.

        [5]Liu L,He J,Palm G.Effects of phase on the perception of intervocalic stop consonants[J].Speech Communication,1997,22(4):403-417.

        [6]Oppenheim A V,Lim JS.The importance of phase in signals[J].Proceedings of the IEEE,1981,69(5): 529-541.

        [7]Schroeder M R.Models of hearing[J].Proceedings of the IEEE,1975,63(9):1332-1350.

        [8]Alsteris L D,Paliwal K K.Short-time phase spectrum in speech processing:A review and some experimental results[J].Digital Signal Processing,2007,17(3):578-616.

        [9]Reddy N,Swamy M.Derivative of phase spectrum of truncated autoregressive signals[J].IEEE Transactions on Circuits and Systems,1985,32(6):616-618.

        [10]Alsteris L D,Paliwal K K.Importance of window shape for phase-only reconstruction of speech[C]∥ in Proc. IEEE International Conference on Acoustics,Speech,and Signal Processing(ICASSP '04),Montreal,Quebec,Canada,2004:573-576.

        [11]Wang Y,Hansen J,Allu GK,etal.Average instantaneous frequency (AIF)and average log-envelopes (ALE)for ASR with the Aurora 2 database[C]∥ in Proc.Interspeech 2003,Geneva,Switzerland,2003:25-28.

        [12]Stark A P,Paliwal K K.Speech analysis using instantaneous frequency deviation[C]∥in Proc.Interspeech 2008,Brisbance,Australia,2008:2602-2605.

        [13]Murthy H A,Gadde V.Themodified group delay function and its application to phoneme recognition[C]∥in Proc.IEEE International Conference on Acoustics,Speech,and Signal Processing(ICASSP'03),Hong Kong,China,2003:68-71.

        [14]McCowan I,Dean D,McLaren M,et al.The deltaphase spectrum with application to voice activity detection and speaker recognition[J].IEEE Transactions on Audio,Speech,and Language Processing,2011,19(7): 2026-2038.

        [15]McEliece R J.信息論與編碼理論(第二版)[M]:北京:電子工業(yè)出版社,2003.

        [16]Eriksson T,Kim S,Hong-Goo K,et al.An informationtheoretic perspective on feature selection in speaker recognition[J].IEEE Signal Processing Letters,2005,12 (7):500-503.

        [17]Rajan P,Hegde R M,Murthy H A.Dynamic selection ofmagnitude and phase based acoustic feature streams for speaker verification[C]∥in Proc.European Signal Process.Conf.,Glasgow,Scotland,2009:1244-1248.

        猜你喜歡
        互信息差分準(zhǔn)則
        數(shù)列與差分
        具非線性中立項(xiàng)的二階延遲微分方程的Philos型準(zhǔn)則
        基于Canny振蕩抑制準(zhǔn)則的改進(jìn)匹配濾波器
        基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        一圖讀懂《中國(guó)共產(chǎn)黨廉潔自律準(zhǔn)則》
        改進(jìn)的互信息最小化非線性盲源分離算法
        基于增量式互信息的圖像快速匹配方法
        基于差分隱私的大數(shù)據(jù)隱私保護(hù)
        相對(duì)差分單項(xiàng)測(cè)距△DOR
        太空探索(2014年1期)2014-07-10 13:41:50
        日本一区不卡在线观看| 99久久精品国产一区二区蜜芽| 337p日本欧洲亚洲大胆精品| 亚洲欧洲日产国码高潮αv| 无国产精品白浆免费视| 搡老女人老妇女老熟妇69| 三级日韩视频在线观看| 中文天堂国产最新| 先锋影音av资源我色资源| 熟女少妇av免费观看| 风韵人妻丰满熟妇老熟| 青青国产揄拍视频| 中文字幕免费观看视频| 亚洲人妻有码中文字幕| 日本精品视频免费观看| 亚洲人成无码网站在线观看| 中年人妻丰满AV无码久久不卡| 一区二区三区成人av| 精品亚洲麻豆1区2区3区| 亚洲精品国产av成拍色拍 | 亚洲第一se情网站| 国产91色在线|亚洲| 如何看色黄视频中文字幕| 91成人国产九色在线观看 | 国产精品一区二区三级| 久久人妻少妇嫩草av蜜桃 | 99热久久精里都是精品6| 一本加勒比hezyo无码视频| 中文日本强暴人妻另类视频| 免费国产成人肉肉视频大全| 自拍偷自拍亚洲精品播放| 亚洲av第一区综合激情久久久| 亚洲av午夜一区二区三| 亚洲精品乱码久久久久久蜜桃图片| 最新国产成人在线网站| 中文字幕午夜精品一区二区三区| 无码一区二区三区免费视频| 国产精品一区二区电影| 亚洲码无人客一区二区三区 | 试看男女炮交视频一区二区三区| 白白色福利视频在线观看|