雷穎思,楊 燕
(蘭州交通大學(xué)電子與信息工程學(xué)院,蘭州 730070)
基于語(yǔ)音轉(zhuǎn)折點(diǎn)檢測(cè)的改進(jìn)波形相似疊加時(shí)長(zhǎng)規(guī)整算法
雷穎思,楊 燕
(蘭州交通大學(xué)電子與信息工程學(xué)院,蘭州 730070)
波形相似疊加算法忽略語(yǔ)音本身感知特性,對(duì)整段語(yǔ)音統(tǒng)一規(guī)整,在采樣率較低或規(guī)整比例較大時(shí)處理效果不佳。為此,通過(guò)分析人耳聽(tīng)覺(jué)系統(tǒng)的預(yù)測(cè)特點(diǎn),提出一種改進(jìn)的波形相似疊加時(shí)長(zhǎng)規(guī)整算法。采用子帶譜熵法檢測(cè)出語(yǔ)音的轉(zhuǎn)折部分并保持其不變,以保證轉(zhuǎn)折區(qū)的語(yǔ)音信息不受損壞,并給出一種局部補(bǔ)償法以修正整體規(guī)整精度。仿真結(jié)果表明,該算法在整體規(guī)整比例不變的情況下可提高合成語(yǔ)音的自然度。
時(shí)長(zhǎng)規(guī)整算法;波形相似疊加算法;聽(tīng)覺(jué)預(yù)測(cè);轉(zhuǎn)折點(diǎn)檢測(cè);子帶譜熵;局部補(bǔ)償法
DO I:10.3969/j.issn.1000-3428.2015.10.049
語(yǔ)音時(shí)長(zhǎng)規(guī)整是對(duì)原始語(yǔ)音信號(hào)進(jìn)行時(shí)域擴(kuò)展或壓縮的一項(xiàng)技術(shù),目的在于擴(kuò)展或壓縮語(yǔ)音的長(zhǎng)度,并且在改變語(yǔ)音速度的同時(shí)保持原始語(yǔ)音信號(hào)的特性,如基音頻率、說(shuō)話人音色以及語(yǔ)義清晰性等不變[1]。語(yǔ)音時(shí)長(zhǎng)規(guī)整廣泛應(yīng)用于語(yǔ)音壓縮、語(yǔ)言教學(xué)、影視制作,以及人機(jī)交互等領(lǐng)域。例如,在語(yǔ)音通信中,對(duì)信號(hào)進(jìn)行不改變易懂性的時(shí)域壓縮能使之以更小的體積進(jìn)行網(wǎng)絡(luò)傳輸或存儲(chǔ),節(jié)省網(wǎng)絡(luò)帶寬或磁盤(pán)資源[2];外語(yǔ)教學(xué)和殘疾人訓(xùn)練中,在保持原有語(yǔ)音特色的前提下對(duì)多媒體教學(xué)資源播放速度進(jìn)行有意識(shí)的控制,能便于學(xué)生掌握發(fā)音技巧和練習(xí)聽(tīng)力,使殘疾人達(dá)到更好的訓(xùn)練效果[3];在影視后期制作中,對(duì)語(yǔ)音信號(hào)進(jìn)行時(shí)長(zhǎng)規(guī)整,能實(shí)現(xiàn)語(yǔ)音與影像的精準(zhǔn)同步[4]。 此外,對(duì)語(yǔ)音時(shí)長(zhǎng)規(guī)整技術(shù)的研究有利于推動(dòng)人機(jī)交互領(lǐng)域的發(fā)展[5]。
國(guó)內(nèi)外學(xué)者對(duì)語(yǔ)音時(shí)長(zhǎng)規(guī)整提出了許多有效的方法,主要分為時(shí)域法[6]、頻域法[7]和參數(shù)法[8]3大
類。頻域法和參數(shù)法由于參數(shù)多、算法復(fù)雜,合成語(yǔ)音質(zhì)量較差且不適合于實(shí)時(shí)處理[9]。時(shí)域規(guī)整算法由于具有簡(jiǎn)單、有效、便于實(shí)現(xiàn)等特點(diǎn)應(yīng)用最為廣泛,目前的商業(yè)產(chǎn)品也大多數(shù)基于時(shí)域方法[10]。
時(shí)域法基于對(duì)語(yǔ)音時(shí)域的拼接和合成思想,其中同步波形疊加(Similarity Overlap-and-Add,SOLA)法[6]、波形相似疊加(Waveform Similarity Overlapand-Add,WSOLA)法[11]能在低的計(jì)算量下達(dá)到較好的合成效果,適合于實(shí)時(shí)處理系統(tǒng)。但是在采樣率較低或規(guī)整比例較大時(shí)處理效果會(huì)明顯降低,這是由于算法忽略了語(yǔ)音本身的感知特性,對(duì)所有語(yǔ)音采取相同的規(guī)整措施。為提高合成語(yǔ)音質(zhì)量,有學(xué)者提出了對(duì)語(yǔ)音的分段規(guī)整算法[12],在SOLA算法的基礎(chǔ)上把語(yǔ)音分解為瞬態(tài)成分、穩(wěn)態(tài)成分和安靜成分,對(duì)不同成分采用不同的規(guī)整因子,但由于不同規(guī)整因子的引入,對(duì)語(yǔ)音的整體比例并不能達(dá)到預(yù)期要求。文獻(xiàn)[13-14]通過(guò)Mel倒譜法把語(yǔ)音分為瞬態(tài)和暫態(tài),對(duì)不同狀態(tài)的語(yǔ)音采用不同的規(guī)整因子,計(jì)算量大,且 Mel倒譜法難以選擇合適的閾值。
人耳聽(tīng)覺(jué)系統(tǒng)是根據(jù)轉(zhuǎn)折信息進(jìn)行聽(tīng)覺(jué)預(yù)測(cè)的,轉(zhuǎn)折區(qū)包含的信息對(duì)語(yǔ)音信號(hào)的感知度有至關(guān)重要的作用[15],對(duì)整段語(yǔ)音采用統(tǒng)一的規(guī)整則忽略了語(yǔ)音信號(hào)的感知特性,在壓縮時(shí)容易丟失轉(zhuǎn)折區(qū)的信息,在擴(kuò)大時(shí)容易造成轉(zhuǎn)折區(qū)語(yǔ)音的模糊。因此,本文采用保持語(yǔ)音轉(zhuǎn)折區(qū)不變的思路來(lái)提高WSOLA算法的合成感知度。通過(guò)文獻(xiàn)[16]提出的譜熵法準(zhǔn)確檢測(cè)出語(yǔ)音的轉(zhuǎn)折部分,在合成時(shí)保持其不變,從而提高輸出質(zhì)量,并通過(guò)引入局部補(bǔ)償算法,保證整體規(guī)整比例不變。
SOLA算法和WSOLA算法是時(shí)域法中規(guī)整效果較好的2種算法,兩者都是重疊疊加算法(Overlapand-Add,OLA)的改進(jìn)。OLA算法把輸入語(yǔ)音信號(hào)χ以幀長(zhǎng)N、幀移S1分解成一系列重疊幀,合成時(shí)則把各分解幀以幀移S2進(jìn)行疊加合成,從而達(dá)到改變語(yǔ)音速度的目的。α=S2/S1即為規(guī)整因子,α>1時(shí)表示對(duì)語(yǔ)音進(jìn)行減速規(guī)整,α<1時(shí)表示對(duì)語(yǔ)音進(jìn)行加速規(guī)整。該算法沒(méi)有考慮到相鄰幀之間的連續(xù)性,容易造成基音斷裂,合成效果較差。為了解決此問(wèn)題,SOLA算法在合成時(shí),在理想合成幀移S2的某一鄰域內(nèi)尋找當(dāng)前分解幀與相鄰合成幀的最大相關(guān)位置插入分解幀;WSOLA算法則是在原語(yǔ)音信號(hào)中,從當(dāng)前分解幀的某一鄰域內(nèi)尋找同前一合成幀波形最相似的幀,以幀移S2疊加到輸出合成信號(hào),從而減小了基音斷裂。與SOLA算法相比,WSOLA算法在規(guī)整時(shí)長(zhǎng)精度上更高,其具體算法原理如下:
存在線性映射關(guān)系τ(S1·m)=S2·m,其中,m為幀索引。在合成時(shí),第一幀直接寫(xiě)入輸出信號(hào),之后的每一步合成時(shí),在原語(yǔ)音信號(hào) S1·m的鄰域[-Δmax,Δmax]內(nèi)尋找與前一合成幀波形最相似的幀,以距離S2疊加到輸出信號(hào),如圖1所示。
圖1 WSOLA算法
相似度 C(m,δ)由歸一化的互相關(guān)系數(shù)來(lái)表示:
輸出合成語(yǔ)音y(i)即為:
其中,ω(n)為窗函數(shù),本文采用 50%重疊的hamming窗的取值不小于輸入語(yǔ)音基音周期的一半,同時(shí),為了防止引入時(shí)間回響,Δmax<S1/2。
語(yǔ)音轉(zhuǎn)折點(diǎn)即語(yǔ)音信號(hào)中各段落的起始點(diǎn)和終點(diǎn)。檢測(cè)方法主要可采用基于能量和過(guò)零率的檢測(cè)方法、基于Mel頻率的倒譜距離測(cè)量方法(Mel Frequency Cepstrum Coefficient,MFCC)以及基于譜熵檢測(cè)方法?;诙虝r(shí)能量和短時(shí)平均過(guò)零率的檢測(cè)法計(jì)算簡(jiǎn)便,但魯棒性低,當(dāng)信噪比低時(shí)檢測(cè)效果差;MFCC倒譜距離測(cè)量方法檢測(cè)效果較好,但計(jì)算復(fù)雜,運(yùn)算量大,且難以選擇合適的閾值?;谧V熵的檢測(cè)方法檢測(cè)效果好、魯棒性高,且計(jì)算量較低[17],本文的語(yǔ)音轉(zhuǎn)折點(diǎn)檢測(cè)采用譜熵法。
由Shannon的信息熵原理,信息量可由事務(wù)發(fā)生的不確定性,即事務(wù)各狀態(tài)出現(xiàn)的概率來(lái)度量。假設(shè)信源發(fā)出N個(gè)符號(hào),它們出現(xiàn)的概率分別為P1,P2,…,PN,那么信息源的熵H(χ)即為:
熵反映了信號(hào)的平均信息量,由于語(yǔ)音信號(hào)為頻帶受限信號(hào),頻率集中在300 Hz~3 400 Hz。在此頻帶內(nèi),語(yǔ)音信號(hào)的隨機(jī)事件多,因此熵值大,噪聲在此頻帶內(nèi)的熵值則較小,可以通過(guò)熵值來(lái)判斷信號(hào)的出現(xiàn)與停止,檢測(cè)出語(yǔ)音信號(hào)的轉(zhuǎn)折區(qū)。
由于語(yǔ)音信號(hào)是功率信號(hào),具有短時(shí)平穩(wěn)特性,可通過(guò)語(yǔ)音信號(hào)的短時(shí)功率譜來(lái)構(gòu)造語(yǔ)音信息熵。由Wiener-Khinchin定理,平穩(wěn)隨機(jī)信號(hào)的功率譜密度為其自相關(guān)函數(shù)的傅里葉變換,語(yǔ)音信號(hào)的短時(shí)功率譜可轉(zhuǎn)換為其自相關(guān)函數(shù)的傅里葉變換。基于譜熵的轉(zhuǎn)折點(diǎn)檢測(cè)流程如圖2所示。
圖2 基于譜熵法的語(yǔ)音轉(zhuǎn)折點(diǎn)檢測(cè)算法流程
設(shè)輸入信號(hào)以hamming窗分幀后的每一幀為χm,共M幀,那么其自相關(guān)函數(shù)為:
對(duì)自相關(guān)函數(shù)進(jìn)行K點(diǎn)FFT變換:
每一幀的譜能量為:
為提高檢測(cè)魯棒性及準(zhǔn)確性,結(jié)合文獻(xiàn)[18]的子帶譜熵法,將每一幀劃分為 Kb個(gè)不同的子帶,得每一子帶的譜熵為:
子帶譜能量概率為:
子帶功率譜熵即為:
本文Kb子帶數(shù)取為K/8,通過(guò)對(duì)H(m)設(shè)定一個(gè)門(mén)限值,即可檢測(cè)出語(yǔ)音的轉(zhuǎn)折點(diǎn),本文取為前10幀譜熵的平均值。
圖3為對(duì)TIM IT語(yǔ)音庫(kù)中某一條測(cè)試語(yǔ)音進(jìn)行轉(zhuǎn)折點(diǎn)檢測(cè)和標(biāo)記的情況。
圖3 基于譜熵法的語(yǔ)音轉(zhuǎn)折點(diǎn)檢測(cè)
4.1 局部補(bǔ)償修正算法
對(duì)語(yǔ)音的轉(zhuǎn)折區(qū)采取保持不變的策略必然會(huì)造成對(duì)整段語(yǔ)音的規(guī)整比例的偏差。例如,當(dāng)對(duì)語(yǔ)音信號(hào)做加速規(guī)整時(shí),整體規(guī)整時(shí)長(zhǎng)就會(huì)比理想值大;對(duì)信號(hào)作減速規(guī)整時(shí),整體規(guī)整時(shí)長(zhǎng)則會(huì)比理想值小。為解決此問(wèn)題,提出局部補(bǔ)償修正,在每一步合成時(shí),根據(jù)已規(guī)整原信號(hào)長(zhǎng)度和對(duì)其規(guī)整后的已合成語(yǔ)音長(zhǎng)度,重新計(jì)算對(duì)當(dāng)前幀的合成幀移。
首先,保持 S1不變,理想規(guī)整時(shí)長(zhǎng)和實(shí)際規(guī)整時(shí)長(zhǎng)之間的偏差由時(shí)變的S2(m)來(lái)逐步補(bǔ)償。
S2(m)即每一幀合成時(shí)重新計(jì)算的合成距離S2;XL為合成第m幀時(shí)已規(guī)整的輸入信號(hào)長(zhǎng)度;YL為已規(guī)整輸出信號(hào)長(zhǎng)度;α0為理想規(guī)整因子;Nc設(shè)定為0.5 s。圖4為對(duì)TIM IT語(yǔ)音庫(kù)中一條語(yǔ)音進(jìn)行1.5倍減速規(guī)整時(shí),實(shí)際的規(guī)整因子隨時(shí)間變化的情況。
圖4 局部補(bǔ)償算法下時(shí)變的規(guī)整因子
從圖4中可以看出,在語(yǔ)音的轉(zhuǎn)折點(diǎn),規(guī)整因子為1,也就是保持當(dāng)前幀的不變,在剩余的非轉(zhuǎn)折區(qū),規(guī)整因子則在1.5周?chē)▌?dòng)。
4.2 改進(jìn)的WSOLA算法流程
通過(guò)基于語(yǔ)音轉(zhuǎn)折點(diǎn)的檢測(cè)及局部補(bǔ)償修正方法的提出,可得到改進(jìn)WSOLA語(yǔ)音時(shí)長(zhǎng)規(guī)整算法具體實(shí)現(xiàn)流程如圖5所示。
圖5 改進(jìn)WSOLA語(yǔ)音時(shí)長(zhǎng)規(guī)整算法流程
實(shí)驗(yàn)測(cè)試英文語(yǔ)音來(lái)自TIMIT數(shù)據(jù)庫(kù),中文語(yǔ)音來(lái)自北京航空航天大學(xué)開(kāi)放語(yǔ)音庫(kù),各隨機(jī)選取其中的 20條語(yǔ)句作為測(cè)試語(yǔ)音,采樣率均為16 kHz。規(guī)整因子α取0.3,0.5,0.7,0.9,1.5,2.0,
2.5 ,3.0。仿真實(shí)驗(yàn)在MatlabR2007b軟件中進(jìn)行。
考慮到語(yǔ)音信號(hào)的短時(shí)平穩(wěn)性,在16 kHz采樣率下,幀長(zhǎng)N取400;Δmax取一個(gè)平均基音周期的一半,實(shí)驗(yàn)中,男聲Δmax取4.5 m s,女聲Δmax取2.5 m s。
采用以上參數(shù),在規(guī)整因子α為0.3,0.5,0.7,0.9,1.5,2,2.5,3時(shí)對(duì)分析信號(hào)分別用WSOLA算法和本文提出的改進(jìn)WSOLA算法進(jìn)行時(shí)長(zhǎng)規(guī)整。
對(duì)其中一條測(cè)試語(yǔ)句在 α為 0.3分別采用WSOLA算法和本文提出的改進(jìn)WSOLA算法規(guī)整后的時(shí)域波形如圖6所示,規(guī)整后的語(yǔ)譜圖如圖7所示。
圖6 規(guī)整因子α=0.3時(shí)實(shí)驗(yàn)所得波形
圖7 規(guī)整因子α=0.3時(shí)實(shí)驗(yàn)所得語(yǔ)譜
由圖可看出,改進(jìn)WSOLA算法合成的波形與原語(yǔ)音更加相似;語(yǔ)譜圖上,在α為0.3時(shí),WSOLA算法規(guī)整后的語(yǔ)譜圖已經(jīng)模糊,而改進(jìn)WSOLA算法規(guī)整后的語(yǔ)譜圖與原信號(hào)語(yǔ)譜圖更加相似。
對(duì)實(shí)驗(yàn)中采用WSOLA算法和改進(jìn)WSOLA算法規(guī)整后的輸出語(yǔ)音,用主觀測(cè)評(píng)法評(píng)價(jià)語(yǔ)音質(zhì)量。在主觀評(píng)測(cè)中,共邀請(qǐng)了50人(25男25女),對(duì)在相同規(guī)整因子α下分別采用W SOLA算法和改進(jìn)WSOLA算法規(guī)整的40條測(cè)試語(yǔ)音,做出規(guī)整后合成信號(hào)音質(zhì)較優(yōu)者的選擇。最后,統(tǒng)計(jì)出在各不同規(guī)整因子下 2種算法的選擇比例,結(jié)果如表1所示。
表1 主觀語(yǔ)音質(zhì)量選擇比例 %
由表1可以看出,改進(jìn)WSOLA算法在各不同規(guī)整因子下的規(guī)整語(yǔ)音質(zhì)量都優(yōu)于WSOLA算法,尤其是當(dāng)規(guī)整比例較大時(shí),改進(jìn)WSOLA算法的優(yōu)勢(shì)更加明顯。
總的來(lái)說(shuō),由客觀規(guī)整波形、語(yǔ)譜圖分析以及聽(tīng)覺(jué)比較可見(jiàn),改進(jìn)WSOLA算法合成信號(hào)的聽(tīng)覺(jué)效果明顯優(yōu)于WSOLA算法合成信號(hào),提高了WSOLA算法的合成感知度。
本文以改善WSOLA算法語(yǔ)音時(shí)長(zhǎng)規(guī)整效果為目的,分析了WSOLA算法在采樣率降低或規(guī)整比例增大時(shí),處理效果明顯降低的原因,給出檢測(cè)語(yǔ)音轉(zhuǎn)折區(qū)部分并保持其不變的步驟,并通過(guò)進(jìn)一步局部補(bǔ)償修正,保證了語(yǔ)音時(shí)長(zhǎng)的精確規(guī)整,形成了具有較好輸出感知效果的改進(jìn)WSOLA語(yǔ)音時(shí)長(zhǎng)規(guī)整算法。理論分析和實(shí)驗(yàn)結(jié)果表明,本文提出的改進(jìn)算法和WSOLA算法相比,既繼承了WSOLA算法的低復(fù)雜度等優(yōu)點(diǎn),又彌補(bǔ)了其在輸出語(yǔ)音感知效果不佳方面的不足,在提高語(yǔ)音時(shí)長(zhǎng)規(guī)整質(zhì)量上具有比較明顯的優(yōu)勢(shì)。但轉(zhuǎn)折區(qū)檢測(cè)的引入加大了算法的時(shí)間復(fù)雜度,下一步工作將研究如何降低處理復(fù)雜度。
[1] Moulines E,Laroche J.Non-parametric Techniques for Pitch-scale and Time-scale Modification of Speech[J]. Speech Communication,1995,16(2):175-205.
[2] Stylianou Y,Cappé O,Moulines E.Continuous Probabilistic Transform for Voice Conversion[J].IEEE Transactions on Speech and Audio Processing,1998,6(2):131-142.
[3] Nejime Y,Aritsuka T,Imamura T,et al.A Portable Digital Speech-rate Converter for Hearing Impairment[J].IEEE Transactions on Rehabilitation Engineering,1996,4(2):73-83.
[4] Arfib D,Verfaille V.Driving Pitch-shifting and Timescaling Algorithms with Adaptive and Gestural Techniques[C]//Proceedings of the 6th International Conference on Digital Audio Effects.London,UK:[s.n.],2003.
[5] Amatriain X,Bonada J,Loscos A,et al.Content-based Transformations[J].Journal of New Music Research,2003,32(1):95-114.
[6] Roucos S,Wilgus A.High Quality Time-scale Modification for Speech[C]//Proceedings of IEEE International Conference on Acoustics,Speech,and Signal Processing.Washington D.C.,USA:IEEE Press,1985:493-496.
[7] Griffin D,Lim J S.Signal Estimation from Modified Short-time Fourier Transform[J].IEEE Transactions on Acoustics,Speech and Signal Processing,1984,32(2):236-243.
[8] McAulay R,Quatieri T F.Speech Analysis/Synthesis Based on a Sinusoidal Representation[J].IEEE Transactions on Acoustics,Speech and Signal Processing,1986,34(4):744-754.
[9] 葉錫恩,張巧文.基于WSOLA算法的語(yǔ)音時(shí)長(zhǎng)調(diào)整研究[J].科技通報(bào),2005,21(5):593-596.
[10] 周 俊,高 悅,譚 薇,等.語(yǔ)音時(shí)長(zhǎng)規(guī)整技術(shù)的研究回溯[J].現(xiàn)代電子技術(shù),2006,29(18):102-105.
[11] Verhelst W,Roelands M.An Overlap-add Technique Based on Waveform Similarity(WSOLA)for High Quality Timescale Modification of Speech[C]//Proceedings of IEEE International Conference on Acoustics,Speech,and Signal Processing.Washington D.C.,USA:IEEE Press,1993:554-557.
[12] 黃 吳,郭 立,李 琳.基于感知敏感成分劃分的語(yǔ)音時(shí)長(zhǎng)規(guī)整算法[J].數(shù)據(jù)采集與處理,2009,23(6):740-745.
[13] 謝貴武,楊繼紅,肖 勇,等.基于語(yǔ)音分段的自適應(yīng)時(shí)長(zhǎng)調(diào)整算法[J].軍事通信技術(shù),2008,29(2):56-61.
[14] Demol M,Struyve K,Verhelst W,et al.Efficient Nonuniform Time-scaling of Speech with WSOLA for CALL Applications[EB/OL].(2004-07-11).http://academic. research.microsoft.com/Publication/10354418/efficient-nonuniform-time-scaling-of-speech-with-wsola.
[15] Furui S.On the Role of Spectral Transition for Speech Perception[J].The Journal of the Acoustical Society of America,1986,80(4):1016-1025.
[16] Shen Jialin,Hung Jeih-Weih,F(xiàn)en Qin.Robust Entropybased Endpoint Detection for Speech Recognition in Noisy Environments[C]//Proceedings of the 5th International Conference on Spoken Language Processing.Sydney,Australia:[s.n.],1998:232-235.
[17] 許作輝.基于信息熵的語(yǔ)音端點(diǎn)檢測(cè)算法研究與實(shí)現(xiàn)[D].長(zhǎng)春:吉林大學(xué),2012.
[18] Wu Bingfei,Wang Kun-Ching.Robust Endpoint Detection Algorithm Based on the Adaptive Band-partitioning Spectral Entropy in Adverse Environments[J].IEEE Transactions on Speech and Audio Processing,2005,13(5):762-775.
編輯 顧逸斐
Improved Waveform Similarity Overlap-and-Add Time Warping Algorithm Based on Speech Turning Point Detection
LEI Yingsi,YANG Yan
(School of Electronic and Information Engineering,Lanzhou Jiaotong University,Lanzhou 730070,China)
The Waveform Similarity Overlap-and-Add(WSOLA)algorithm neglects the perceptual characteristics of real sound speech signals,and employs uniform time scaling of the entire signal.When sampling rate is low or scaling proportion is large,the scale quality is degraded.Aiming at such problems,an enhanced WSOLA algorithm is proposed through analyzing the acoustic prediction characteristics of human auditory system.This method detects the turning points of the speech using a subband spectrum entropy measure and leaves them intact to ensure the turning points undamaged,while time scaling the remainder of the signal.A local compensate measure is further put forward to correct the whole scale accuracy.Simulation results show that the new algorithm improves the natural degree of the synthetic speech signals with the whole scale proportion unchanged.
time warping algorithm;Waveform Similarity Overlap-and-Add(WSOLA)algorithm;acoustic prediction;turning point detection;subband spectrum entropy;local compensation method
雷穎思,楊 燕.基于語(yǔ)音轉(zhuǎn)折點(diǎn)檢測(cè)的改進(jìn)波形相似疊加時(shí)長(zhǎng)規(guī)整算法[J].計(jì)算機(jī)工程,2015,41(10):260-264.
英文引用格式:Lei Yingsi,Yang Yan.Improved Waveform Similarity Overlap-and-Add Time Warping Algorithm Based on Transition Segment Detection of Speech Signals[J].Computer Engineering,2015,41(10):260-264.
1000-3428(2015)10-0260-05
A
TP301.6
甘肅省科技廳自然科學(xué)基金資助項(xiàng)目(1310RJZA050)。
雷穎思(1989-),女,碩士研究生,主研方向:語(yǔ)音信號(hào)處理,數(shù)字圖像處理;楊 燕,副教授、博士。
2014-08-11
2014-09-03E-m ail:0212679@stu.lzjtu.edu.cn