亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于MFCC的頻譜重構(gòu)實現(xiàn)音高估計和發(fā)聲分類

        2019-12-03 09:12:04
        測控技術(shù) 2019年11期
        關(guān)鍵詞:分類

        (杭州電子科技大學(xué) 新型電子器件與應(yīng)用研究所,浙江 杭州 310018)

        梅爾頻率倒譜系數(shù)(MFCC)廣泛用于語音識別、說話人識別和其他語音處理系統(tǒng)。近年來,有一種新興的方法可以預(yù)測MFCC矢量的基頻和發(fā)聲,這使得語音信號能從分布式語音識別(Distributed Speech Recognition,DSR)后端的MFCC矢量流中重構(gòu)[1-3]。該算法通過對基頻和MFCC的聯(lián)合密度建模來預(yù)測基頻。該方法基于高斯混合模型(Gaussian Mixture Model,GMM),并利用隱馬爾可夫模型(Hidden Markov Model,HMM)將一系列依賴于狀態(tài)的GMM連接在一起。特定說話者的HMM-GMM預(yù)測器顯示出良好的結(jié)果。然而,非特定說話者的HMM-GMM會產(chǎn)生很多錯誤。此外,HMM-GMM預(yù)測器需要一組基于單音的HMM和一組特定狀態(tài)的GMM訓(xùn)練。訓(xùn)練的預(yù)測器被指定為某種語言,并且必須用其他語言重新訓(xùn)練。

        量化MFCC的低比特率語音編碼方案在文獻[4]和文獻[5]中被提出,從MFCC重構(gòu)了語音波形但沒有涉及音高和能量。重構(gòu)通過Moore-Penrose偽逆從MFCC恢復(fù)幅度譜,然后利用最小二乘估計,逆短時傅里葉變換幅度算法重構(gòu)語音幀。此外,近年來有學(xué)者提出了一些新穎的音高檢測方法。一種名為具有幅度壓縮的音高估計濾波器(A Pitch Estimation Algorithm Robust to High Levels of Noise,PEFAC)的算法利用非線性幅度壓縮來衰減窄帶噪聲分量,并利用梳狀濾波器來衰減對數(shù)下頻率功率譜平滑變化的噪聲分量[6]。在文獻[4]~文獻[6]的新方法研究的推動下,通過MFCC反演操作重構(gòu)語音頻譜和倒譜,并利用倒譜/頻譜估計音高。

        所提出的算法通過梅爾加權(quán)函數(shù)利用Moore-Penrose偽逆從MFCC重構(gòu)倒譜/頻譜。利用重構(gòu)的倒譜,可以直接從峰值估計音高,而由于重構(gòu)失真可能存在大的誤差。提出了一種組合非線性幅度壓縮和對數(shù)頻率功率譜域濾波器的方法,以減少誤差。利用濾波后的功率譜和音高的相關(guān)性,提出了一種基于GMM的音高估計方法,以獲得更可靠的音高。此外,還提出了一種發(fā)聲分類方法。所提出的方法的主要優(yōu)點是特征提取,其使用經(jīng)過重構(gòu)和濾波的幅度譜而不是原始的MFCC矢量。與以前的工作[1-3]相比,所提出的方法是一種非特定說話者/語言的預(yù)測器。

        1 頻譜重構(gòu)

        MFCC被定義為特殊倒譜,在對數(shù)運算和離散余弦變換(Discrete Cosine Transform,DCT)之前將一組加權(quán)函數(shù)作用于功率譜。這種加權(quán)函數(shù)基于人類對音高的感知,最常見的是以梅爾克度(Mel-Scale)[4],即文獻[5]中的一組三角形濾波器的形式實現(xiàn)。其中第t個語音幀St(n)的梅爾倒譜M的計算公式為(省略下標(biāo)t以簡化符號)

        (1)

        式中,wm為梅爾加權(quán)函數(shù);S(ω)為S(n)的離散傅里葉變換(Discrete Fourier Transform,DFT)。在式(1)中具有梅爾加權(quán)的功率譜可以以矩陣形式表示為

        (2)

        式中,y為J×1的向量(J為梅爾濾波器的數(shù)量);Wm為J×L的加權(quán)矩陣(L為幀長度)。

        在式(1)中通過應(yīng)用梅爾標(biāo)度加權(quán)會使頻譜信息丟失,而其他操作如離散余弦變換,求對數(shù)和平方根都是可逆的。為了逆梅爾加權(quán),可以采用最小歐幾里德范數(shù)的解,即

        (3)

        2 基于頻譜重構(gòu)的音高估計和聲音分類

        2.1 基于頻譜濾波器的音高估計

        文獻[2]的作者利用MFCC和基頻(即音高)的相關(guān)性,用GMM預(yù)測音高。同時,發(fā)現(xiàn)重構(gòu)幅度譜與音高之間的相關(guān)性更高。表1給出了使用TIMIT訓(xùn)練子集計算的不同矢量(MFCC,重構(gòu)幅度譜和濾波頻譜)與音高之間的相關(guān)性。

        表1 音高與不同向量(MFCC、重構(gòu)幅度譜、濾波頻譜)之間的相關(guān)性

        表1的結(jié)果表明,重構(gòu)幅度譜和音高之間的相關(guān)性高于MFCC。與MFCC矢量相比,幅度譜包含更多關(guān)于音高頻率的信息。 因此重構(gòu)幅度譜更適合于基于GMM的音高估計和發(fā)聲分類。

        事實上,語音信號總是被各種噪聲干擾或卷積,并且幅度譜的諧波峰值將通過成幀窗口加寬。為了減少重構(gòu)失真引起的誤差,使用一種音高估計方法,結(jié)合非線性幅度壓縮來衰減窄帶噪聲分量,并采用對數(shù)頻率功率譜域濾波器來衰減平滑變化的噪聲分量[6]。該算法描述如下。

        ③ 通過式(4)壓縮功率譜密度(Power Spectral Density,PSD):

        (4)

        ④ 通過以下公式過濾壓縮PSD。

        h(q)=β-log(γ-cos(2πeq))

        (5)

        (6)

        2.2 基于GMM的音高估計

        為了更準(zhǔn)確地估計音高,利用濾波后的PSD和音高的相關(guān)性。特征向量Φ表示為

        Φ=[Ω,f]

        (7)

        通過GMM構(gòu)建特征向量Φ。從訓(xùn)練集中,使用期望最大化(Expectation Maximization,EM)算法產(chǎn)生一組K高斯聚類。Φ的概率密度函數(shù)(Probability Density Function,PDF)為

        (8)

        每個K聚類由先驗概率πk和高斯PDFN(Φ)表示,具有平均向量μk和協(xié)方差矩陣Φk。

        (9)

        使用著名的Linde-Buzo-Gray(LBG)算法找到EM訓(xùn)練的初始聚類位置,最大EM聚類迭代為100。在實驗部分中討論K的選擇。

        (10)

        后驗概率hk(Ωi)為

        (11)

        2.3 清音/濁音分類

        音高估計應(yīng)該僅應(yīng)用于重構(gòu)表示有聲語音的頻譜。在文獻[2]中,通過擴展HMM-GMM音高預(yù)測器來實現(xiàn),其需要一組基于單音的HMM和一組狀態(tài)特定的GMM訓(xùn)練。 訓(xùn)練好的預(yù)測器被指定為某種語言,并且必須以其他語言進行再訓(xùn)練。

        提出了一種低復(fù)雜度的語音分類算法,該算法是通過基于GMM的模型實現(xiàn)的。該模型利用幀平均功率和濾波頻譜峰值的相關(guān)性,其包括更多潛在的發(fā)聲信息。

        從一組訓(xùn)練數(shù)據(jù)中提取特征向量Ψ:

        Ψ=[s,χ]

        (12)

        式中,s=logμpsd,χ=Σpitch/μpsd。其中,μpsd為式(4)中壓縮PSD的平均功率值,Σpitch為式(6)中3個候選音高的總和。

        對于濁音/清音分類器有兩個GMM,一個用濁音矢量Ψv組成的訓(xùn)練集進行濁音建模,一個用清音矢量Ψμ組成的訓(xùn)練集進行清音建模,建模方法與文獻[8]中描述的相同。濁音的幀的概率為

        P(v)=(1+exp(pu-pv))-1

        (13)

        式中,pu和pv分別為清音GMM和濁音GMM的后驗概率。

        對于輸入特征向量Ψi,用GMM計算pv(ψi)和pu(ψi)的后驗概率,然后通過式(13)計算被發(fā)聲的概率。如果P(v)>ε(ε是閾值,設(shè)置為0.5),則該幀被分類為濁音,否則被分類為清音。

        3 實驗結(jié)果

        下面將評估音高估計和發(fā)聲分類的結(jié)果。使用TIMIT數(shù)據(jù)庫進行培訓(xùn)和測試。每個句子的持續(xù)時間約為3 s,下采樣頻率為8 kHz。語料庫使用漢明窗框架成200個樣本(25 ms),幀移位為80個樣本(10 ms)。

        3.1 頻譜/倒譜重構(gòu)結(jié)果

        將MFCC反變換到頻譜是一項具有難度的任務(wù),因為式(2)中的梅爾加權(quán)函數(shù)會造成大量信息的丟失,而式(3)只是近似解。很明顯,梅爾濾波器越多,幅度譜的信息就越少。 在本文中,梅爾濾波器的數(shù)量是23,就像DSR前端一樣[9]??紤]到反變換,所有23個MFCC都被保留,而在DSR中舍去了10個高階系數(shù)。

        圖1 MFCC對濁音語音幀的頻譜/倒譜重構(gòu)

        圖1顯示了MFCC的頻譜和倒譜的重構(gòu)結(jié)果。圖1(a)比較了原始譜和重構(gòu)譜,從中可以看出式(3)的原始和近似解之間只有微小的差別。圖1(b)展示了原始和重構(gòu)的倒譜,峰值是候選音高。

        3.2 音高估計結(jié)果

        音高估計結(jié)果如圖2所示。

        圖2展示了利用MFCC重構(gòu)頻譜/倒譜的音高估計結(jié)果。首先直接估計具有重構(gòu)倒譜峰值的音高(即ceps.線條)。然后利用非線性幅度壓縮和對數(shù)下頻率功率譜濾波器來減少誤差(即filt.線條)。

        圖2 估計結(jié)果與參考音高輪廓的對比

        所提出的基于GMM的音高估計器利用經(jīng)濾波的PSD和音高的相關(guān)性,可以得到更可靠音高估計結(jié)果(即GMM線條)。由于音高的頻率范圍是60~400 Hz,幀長度是200,所以候選音高在式(6)輸出的31~62之間。因此式(7)中Ω的尺寸為32(即GMM線條)。參考音高輪廓用ref.線條表示。在實驗中,GMM[10]聚類的數(shù)量是32,在下面的評估中將討論參數(shù)的更多細(xì)節(jié)。

        圖2展示了直接利用重構(gòu)的倒譜峰值(即ceps.線條)估計音高可以跟蹤參考音高輪廓,但由于倒譜重構(gòu)失真所以存在一些誤差。可以通過在對數(shù)下對頻率進行壓縮和過濾(即filt.線條)從而獲得更好的結(jié)果。采用GMM的MAP音高估計結(jié)果與參考值完全匹配。

        (14)

        在音高估計之前,應(yīng)使用第3.3節(jié)中描述的方法將幀分類為濁音或清音。使用百分比發(fā)聲分類誤差EC來測量準(zhǔn)確度,其中N是測試集的總幀數(shù),NV/U和NU/V是可分辨清音和濁音幀的錯誤分類數(shù)量。

        表2 清音/濁音分類誤差EC

        表2顯示了不同GMM群集的分類誤差,清音和濁音GMM群集的數(shù)量相等。從結(jié)果可以看出隨著GMM聚類數(shù)量的增加,分類誤差減少了。但是當(dāng)數(shù)量增加到16,準(zhǔn)確性卻沒有進一步提高,這可能是因為過擬合。

        對于進一步濁音幀,使用百分比音高頻率誤差Ep來測量音高預(yù)測精度,即

        (15)

        表3 音高估計誤差Ep和E20%

        音高估計誤差與3種方法的比較如表3所示。具有重構(gòu)倒譜峰值(ceps.)的音高估計器表現(xiàn)一般。利用非線性幅度壓縮和對數(shù)下頻率功率譜濾波器(filt.),在精度上有所提高?;贕MM的估計器展現(xiàn)出高精度,并且增加聚類數(shù)可以減少估計誤差[11]。

        4 結(jié)束語

        利用梅爾頻率倒譜系數(shù)(MFCC)重構(gòu)頻譜,提出了一種新的音高估計和聲音分類的方法。所提出的算法通過梅爾加權(quán)函數(shù)來構(gòu)造來自MFCC的具有Moore-Pemose偽逆的頻譜。重構(gòu)的頻譜在對數(shù)下進行頻率壓縮和過濾。通過高斯混合模型(GMM)對音高頻率和濾波器頻譜的聯(lián)合密度建模來實現(xiàn)音高估計?;贕MM的模型也可以實現(xiàn)發(fā)聲分類,測試結(jié)果表明,超過99%的語音幀可以被正確分類。音高估計的結(jié)果表明,所提出的基于GMM的音高估計器具有高精度,TIMIT數(shù)據(jù)庫上的相對誤差為6.62%。

        猜你喜歡
        分類
        2021年本刊分類總目錄
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        星星的分類
        我給資源分分類
        垃圾分類,你準(zhǔn)備好了嗎
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        按需分類
        教你一招:數(shù)的分類
        扒下语文老师的丝袜美腿| 亚洲人成色777777老人头| 欧美成人三级一区二区在线观看| 日韩人妻无码中文字幕一区| av一区二区在线免费观看| 欧美国产激情二区三区| 国产一区二区三区在线观看免费| 真人在线射美女视频在线观看| 日韩午夜三级在线视频| 国产av无码专区亚洲a∨毛片| 亚洲产国偷v产偷v自拍色戒| 欧美日本道免费二区三区| 国产精品国产三级国a| 人人超碰人人爱超碰国产 | 天天燥日日燥| 亚洲AV永久青草无码性色av| 亚洲成人免费久久av| 国产亚洲av无码av男人的天堂| 蜜桃麻豆www久久囤产精品| 国产乱人伦偷精品视频免| 免费黄网站永久地址进入| 精品无码人妻夜人多侵犯18| 国产成人一区二区三区在线观看| 国产成人永久在线播放| 亚洲男同免费视频网站| 国产美女做爰免费视频| 亚洲av无码一区二区二三区下载| 极品美女销魂一区二区三| 人妻免费一区二区三区免费| 久久综合国产乱子伦精品免费 | 中文字幕一区,二区,三区| 东北熟妇露脸25分钟| 色avav色av爱avav亚洲色拍| 成人无码h真人在线网站| 国产成人高清亚洲一区二区| 欧洲乱码伦视频免费| 午夜精品久久久久久中宇| 在线你懂| 精品国产三级a在线观看不卡| 国产麻豆成人精品av| 亚洲ⅤA中文字幕无码|