王春柳 朱歡
摘 ?要:本文提出一種基于CELP解碼端的直線擬合的基音推導方法用于基音估計,該方法在CELP解碼端出現語音幀丟失時能夠更好地恢復丟失幀中的自適應碼書部分,同時,為了保證丟失幀后的正常激勵信號與實際激勵信號同步,文中采用對聲門脈沖進行再同步來提高幀擦除掩蔽后的語音合成質量。將這兩種方法在ITU-T G.729編碼標準中進行嘗試,結果表明,所建議方法能夠比原始方案取得更好的恢復效果,對基于CELP模型的語音編碼器幀擦除掩蔽都有很好的效果。
關鍵詞:基音估計;幀擦除;幀擦除掩蔽;CELP
中圖分類號:TN912.3 ? ? 文獻標識碼:A 文章編號:2096-4706(2019)17-0055-04
Abstract:A novel pitch extrapolation based on straight line fitting in the decoder of CELP was proposed in this paper. This method can better recover the adaptive codebook part of the lost frame when the voice frame loss occurs at the CELP decoder. In addition,in order to ensure the synchronization of normal excitation signals and actual excitation signals after missing frames,a glottal pulse resynchronization method is used which improves the quality of speech synthesis after frame erasure concealment. We applied the two technologies to the ITU-T G.729 codec,the results show that the proposed method can achieve better recovery effect than the original scheme,and have good performance for frame erasure concealment of other speech codec based on CELP.
Keywords:pitch estimation;frame erasure;frame erasure concealment;CELP
0 ?引 ?言
隨著計算機網絡和通信技術的蓬勃發(fā)展,網絡電話VoIP(Voice over Internet Protocol)相對于傳統(tǒng)電話的低成本和多功能受到越來越多的關注[1]。然而,編碼后的語音幀根據實時傳輸協(xié)議(RTP,Real-Time Transprot Protocol)和用戶數據報協(xié)議(UDP,User Datagram Protocol)在打包傳輸的過程中并不能保證傳輸的可靠性,從而可能導致語音包的丟失。總丟包數可以是由網絡擁塞所丟棄的,也可以是由接收方丟棄延遲到達的。當語音包不能按時到達接收端用于解碼時,語音的質量就會下降,因此在對語音傳輸質量的研究主要集中在幀丟失隱藏系統(tǒng)(FLC,Frame Loss Concealment)的設計上。FLC系統(tǒng)的設計可以分為基于發(fā)送方和基于接收方兩種不同的設計方案[2]?;诎l(fā)送方的方案需要發(fā)送方的參與,主要基于前向糾錯等冗余信息的傳輸,這是一種提高語音幀可靠性、減少恢復丟失幀所需時間的有效方法[3,4]。而基于接收方的方案僅限于接收方,該方案則試圖從相鄰幀中恢復丟失幀,恢復丟失幀的一種常見而簡單的方法是插入一個替換幀,這個替換幀可以是一個靜音幀或一個噪聲幀[5],或上一個接收幀的重復,簡單性和低延遲要求是該方法的一大優(yōu)點,但不可避免的人為干擾以及該方法引入的自然語音和合成語音之間突然明顯的過渡,使得語音的感知質量沒有明顯提高;恢復丟失幀的另一種方法是使用插值技術,利用相鄰幀的參數生成丟失幀[6]的替換等。
本文主要考慮基于接收方的幀丟失隱蔽方法,此方法應用于ITU-T的8kB/s的G.729編碼方案,G.729具有低延遲的特點,廣泛應用于各種VoIP通信設備,是一種共軛結構的碼激勵線性預測(CS-CELP,Conjugate-Structure Code Excited Liner Predictive)編碼器[7]。由于CELP編碼器是根據其幀之間的相關性對其傳輸參數進行解碼的,所以一幀信息的丟失不僅會影響當前幀,還會將恢復幀的錯誤繁衍到隨后的正常幀。特別是濁音幀的丟失,其影響將會持續(xù)6幀左右,濁音幀的脈沖變化非常緩慢,雖然通過對擦除幀恢復的激勵和沒有發(fā)生幀丟失之前的激勵是近似的,但差別可能在于周期脈沖的波形和周期脈沖的位置,特別是周期脈沖的位置將會嚴重影響合成語音的質量。
本文采用一種聲門脈沖同步技術,能夠快速同步激勵信號,減少脈沖位置錯位導致的合成語音質量下降。此外基音周期的估計對聲門脈沖的同步起到關鍵作用,因此對基音周期采用新型線性預測來提高基音周期的準確性,將該算法與G.729標準方法進行性能比較,通過測試表明可以得到較高的語音質量。本文首先簡要介紹G.729的幀擦除掩蔽算法,然后詳細介紹聲脈沖同步技術等方法,最后給出實驗結果。
1 ?G.729的幀擦除掩蔽算法
G.729中的幀丟失隱藏技術是基于以前接收到的信息來重構丟失幀,不需要編碼端提供冗余信息。一旦檢測幀丟失,則重構丟失幀的合成濾波器,其參數使用最后幀的合成濾波器的線性預測LP(Linear Predictive)參量;自適應碼書增量和固定碼書增量分別建立在前一子幀的增益衰減基礎之上;增益預測器存儲器的衰減用接收好幀的固定碼本的能量進行衰減來修正;丟失幀激勵信號的產生取決于最后重構幀的分類:
如果最后的重構幀是周期性的,則現行幀同樣考慮為周期性的,這樣的情況下,激勵信號只使用自適應碼書部分,固定碼書部分的貢獻為零,基音延遲用前幀基音延遲的整數部分。為了避免過渡性的周期性,每移動一個子幀,延遲就增加1,但以143為邊界。
如果最后的重構幀是非周期性的,則現行幀同樣考慮為非周期性的,同時自適應碼書的貢獻為零。固定碼書的貢獻是無規(guī)則的選擇碼書指針和碼書符號來產生的。無規(guī)則發(fā)生器采用函數式如下:
Seed=Seed*31821+13849
初始的Seed值為21845。固定碼書的指針是從下一個無規(guī)數的13個最低有效位得到,固定碼書的符號是從下一個無規(guī)數的4個最低有效位得到。
2 ?幀擦除掩蔽算法的改進
幀擦除隱藏技術的優(yōu)劣在于對濁音幀恢復效果如何。自適應碼書是表現濁音的最重要成分,而自適應碼書是以基音周期為延遲,內插過去激勵生成的,所以對于丟失幀,如果能有效地恢復基音周期,使其接近或等于未發(fā)生幀丟失時的值,則能大大提高丟失幀的合成效果,因此可以提高基音估計的準確性,來更好地恢復丟失幀中的自適應碼書部分。
2.1 ?基音估計
當檢測最后重構幀是周期信號時,原始幀擦除掩蔽算法中,前一基音信息被用于重新構建當前丟失幀。當前估測的基音精度可直接影響原始信號的相位對齊程度,并對當前丟失幀的重建質量以及丟失幀之后接收到的幀起到很關鍵的作用。如果使用若干過去基音周期而非僅僅復制前一基音周期,這將使得基音估計在合成語音效果方面有更好的表現[8]。本文采用一種基于直線擬合的基音推導方法用于基音估計。如文獻[9]和[10]中所指出的,在幀邊界處對編碼的基音進行線性插值來表示基音周期并不影響語音的質量,該算法的主要優(yōu)點是采用加權誤差函數進行線性擬合。
由于編碼器端沒有多余比特數傳輸脈沖位置,所以丟失幀最后一個脈沖的位置P1并不確定,因此需要在解碼端通過第一個正確幀的參數“估計”得到最大脈沖的位置。文獻[11]提出了一種在解碼端通過估計得到幀尾最大脈沖的正確位置的方法。其方法是:假設當前幀尾為丟失幀后的第一個正常幀,將更新的第一子幀自適應碼書的存儲器設為零,自適應碼書、固定碼書和對應的增益的解碼不變,從而得到兩個子幀的激勵信號e0(n)。經驗證,該激勵信號的最大脈沖位置最接近正確的脈沖位置,通過在第二子幀基音周期范圍內搜索可得到最大脈沖的位置P3,這樣可達到丟失幀后的正常幀脈沖同步的效果,但在丟失幀和第一個正常幀的銜接處存在不連續(xù)現象,這是由于幀間的基音周期突變造成的,所以不能對丟失幀后的第一個正常幀的激勵進行脈沖同步,但對其后的正常幀可實現脈沖同步。
3 ?測試結果
為了評估改進的CELP語音幀丟失掩蔽算法,本文實驗采用ITU-T推出的PESQ(主觀語音質量評估,Perceptual Evaluation of Speech Quality)軟件對合成語音的質量進行評估。
表1為G.729原始編碼器與根據本文方法修改后的編碼器幀擦除掩蔽效果對比情況,可見本文提出的方法能夠更好地恢復丟失幀。
圖1對G.729中的幀擦除掩蔽技術在3%幀錯誤率下的語音性能進行了質量測試,可見,修正后編碼器在幀擦除掩蔽性能方面有了很大的提高。
5 ?結 ?論
本文提出一種基于直線擬合的基音推導方法用于基音估計,同時采用對聲門脈沖進行再同步技術來提高幀擦除掩蔽后的語音合成質量,該方法主要用于G.729編碼器中,通過對不同幀擦除條件下的PESQ測量,與標準G.729編碼器中的擦除掩蔽算法相比,本文提出的方法提高了語音質量,并取得良好的掩蔽效果。實驗證明本文提出的方法對CELP模型的語音編碼器中幀擦除掩蔽有很好的效果。
參考文獻:
[1] Merazka F. Packet loss concealment by interpolation for speech over IP network services [C]//Signal Processing (CIWSP 2013),2013 Constantinides International Workshop on.IET,2013.
[2] Perkins C,Hodson O,Hardman V. A survey of packet loss recovery techniques for streaming audio [J].IEEE Network,2002,12(5):40-48.
[3] 徐昶,王平,王紅霞.VoIP中的丟幀補償策略研究的概況 [J].艦船電子工程,2005,25(5):100-102.
[4] Chua T K,Pheanis D C. Effects of Loss Characteristics on Loss-Recovery Techniques for VoIP [C]//International Conference on Systems & International Conference on International Conference on Networking,IEEE Computer Society,2006.
[5] Jayant N S,Christensen S W. Effect of Packet Losses in Waveform Coded Speech and Improvements Due to an Odd-Even Sample-Interpolation Procedure [J].IEEE Transactions on Communications,1981,29(2):101-109.
[6] Gueham T,Merazka A,Markovic G,et al. An enhanced insertion packet loss concealment method for voice over IP network ?services [C]//2017 40th International Conference on Telecommunications and Signal Processing,2017:377-382.
[7] Internation Telecommunication Union. Coding of speech at 8kbit/s using conjugate-structure algebraic-code-excited linear prediction (CS-ACELP) [R/OL].(1999-09-15).https://www.itu.int/rec/T-REC-G.729-199611-S!AnnA/en.
[8] Lecomte J,Tomasek A,Markovic G,et al. Ehanced time domain packet loss concealment in switched speech/audio codec [C]//2015 IEEE International Conference on Acoustics,Speech and Signal Processing,2015:5922-5926.
[9] Kleijn W.B.,Ramachandran R.P.,Kroon P. Interpolation of the pitch-predictor parameters in analysisby-synthesis speech coders [C]//IEEE International Conference on Acoustic,Speech and Signal Processing (ICASSP),1994,2:42-54.
[10] Leong M,Kabal P.Smooth Speech Reconstruction Using Waveform Interpolation [C]//Speech Coding for Telecommunications,1993,Proceedings,IEEE Workshop on,1993:39-40.
[11] Chibani M,Lefebvre R,Gournay P. Resynchronization of the adaptive codebook in a constrained CELP codec after a frame erasure [C]//IEEE international Conference on Acoustics,Speech and Signal Processing,2006:13-16.
作者簡介:王春柳(1989.01-),女,漢族,安徽宿州人,助教,碩士研究生,研究方向:語音編碼、DSP。