汪 洋 李海鵬 王 斌
(1.92941部隊(duì)91分隊(duì) 葫蘆島 125001)(2.海裝重慶局 重慶 402263)
?
一種適合地面遙測(cè)接收站的語音編碼方法
汪 洋1李海鵬1王 斌2
(1.92941部隊(duì)91分隊(duì) 葫蘆島 125001)(2.海裝重慶局 重慶 402263)
論文提出了一種適用于地面遙測(cè)接收站的語音編碼方法。針對(duì)地面簡(jiǎn)易站擴(kuò)頻接收帶寬小的特點(diǎn),在混合激勵(lì)線性預(yù)測(cè)(MELP)算法的基礎(chǔ)上,設(shè)計(jì)了一種2.4Kbps的低速率語音編碼算法。該算法通過增加幀長(zhǎng)、多幀聯(lián)合及參數(shù)內(nèi)插等方法降低語音的編碼速率。經(jīng)仿真結(jié)果表明該語音編碼方法適合目前地面遙測(cè)接收站技術(shù)要求,實(shí)用性強(qiáng),適合在其它遙測(cè)系統(tǒng)中推廣應(yīng)用。
地面遙測(cè)站; 語音編碼; 多幀聯(lián)合
Class Number V243
隨著靶船測(cè)試技術(shù)的發(fā)展,常規(guī)試驗(yàn)數(shù)據(jù)傳輸已經(jīng)不能滿足測(cè)試需要,語音的直接表述更適合對(duì)靶船的指令傳遞。現(xiàn)有地面遙測(cè)接收站特別是在采用擴(kuò)頻體制后數(shù)據(jù)帶寬小(通常不超過10kbps),因此若需傳輸語音,則要求語音占用數(shù)據(jù)帶寬盡可能小,更容易適應(yīng)現(xiàn)有地面遙測(cè)接收站的信道傳輸要求[1]。
本文采用2.4kbps混合激勵(lì)線性預(yù)測(cè)(Mixe Excitation Linear Prediction,MELP)低比特率數(shù)字語音編碼技術(shù),是在基本的線性預(yù)測(cè)編碼(Linear Predictive Coding,LPC)的基礎(chǔ)上結(jié)合混合激勵(lì)、多帶激勵(lì)以及原型波形內(nèi)插等編碼方法的優(yōu)點(diǎn)[2~4],采用了一種新的更符合人的發(fā)音機(jī)制模型來編碼和合成語音,并利用自適應(yīng)頻譜增強(qiáng)技術(shù),提高合成語音與原始語音的匹配度,從而實(shí)現(xiàn)了低碼率、高質(zhì)量的合成語音。既滿足了語音的傳輸質(zhì)量,又能滿足現(xiàn)有地面簡(jiǎn)易遙測(cè)站的技術(shù)要求。
語音遙傳是將語音采集到的原碼編碼后送入編碼器組幀,生產(chǎn)PCM流經(jīng)過發(fā)射機(jī)擴(kuò)頻后發(fā)射。地面遙測(cè)接收站收經(jīng)接收解調(diào),將語音數(shù)據(jù)挑路后送入語音解碼模塊后輸出語音,如圖1所示。
圖1 語音遙傳系統(tǒng)框圖
原始語音信號(hào)經(jīng)過8KHz/8位采樣和濾除50Hz的工頻干擾后,對(duì)每個(gè)子幀分別提取線譜對(duì)頻率、基音周期、清濁音模式、能量、非周期標(biāo)志及傅里葉幅度等參數(shù)[5],處理流程如圖2所示。
圖2 語音編碼器的功能框圖
本文算法由三個(gè)連續(xù)語音子幀組成一個(gè)超級(jí)幀,子幀幀長(zhǎng)25ms,總幀長(zhǎng)75ms,編碼比特為180bit,總計(jì)為180bit/75ms=2.4kbps。本文算法選擇了對(duì)合成語音質(zhì)量影響較大的線譜對(duì)頻率、傅里葉幅度、基音周期和清濁音模式、能量以及非周期標(biāo)志等參數(shù)進(jìn)行量化[6]。具體參數(shù)的量化比特分配如表1所示。
表1 MELP聲碼器比特分配表
本文考慮到線譜對(duì)頻率的幀間相關(guān)性和誤差的相對(duì)獨(dú)立性,同時(shí)為了減少編碼比特?cái)?shù),因此采用了幀間內(nèi)插的方案:對(duì)1、3子幀的LSF參數(shù)采用多級(jí)矢量量化,而2子幀的LSF參數(shù)由內(nèi)插方法得到。1、3子幀進(jìn)行四級(jí)矢量量化,量化采用4級(jí)碼本,各級(jí)量化比特?cái)?shù)分別為7bit、6bit、6bit、6bit,總共25bit。
本文采用動(dòng)態(tài)比特分配方案,將3個(gè)子幀共九種清濁音模式,分為五類情況對(duì)基音周期和清濁音模式進(jìn)行動(dòng)態(tài)比特分配以及聯(lián)合矢量量化。編碼比特共15位,包括模式位和基音位:當(dāng)子幀全是清音,分配全0碼字;當(dāng)僅有1個(gè)濁音子幀時(shí),基音周期采用8bit標(biāo)量量化;當(dāng)有2、3、4個(gè)濁音子幀時(shí),分別采用10bit、12bit、12bit的加權(quán)矢量量化算法對(duì)基音周期參數(shù)進(jìn)行編碼[7]。
在每個(gè)子幀中,提取一個(gè)能量參數(shù),組合成三維矢量,在對(duì)數(shù)域進(jìn)行量化。再對(duì)殘差信號(hào)進(jìn)行FFT得到殘差譜,然后殘差譜經(jīng)過峰值提取得到傅里葉諧波幅度,最后對(duì)最低10階傅里葉諧波幅度采用8位矢量量化[8]。
解碼算法先進(jìn)行參數(shù)譯碼,再分別合成每個(gè)子幀的語音信號(hào)。與傳統(tǒng)線性預(yù)測(cè)合成方法不同的是它充分反映了語音信號(hào)的本質(zhì)特征,極大地提高了合成語音的質(zhì)量。其他后續(xù)處理,如混合激勵(lì)產(chǎn)生、自適應(yīng)頻譜增強(qiáng)、線性預(yù)測(cè)合成、增益校正、脈沖離散濾波等,與MELP算法一致[9~10]。
線譜對(duì)頻率解碼時(shí)先分別對(duì)第1、3子幀的線譜對(duì)頻率進(jìn)行解碼,再通過內(nèi)插公式得到第2子幀的線譜對(duì)頻率?;糁芷诮獯a時(shí)先判斷清濁音模式,再根據(jù)清濁音模式和碼本序號(hào)對(duì)基音周期進(jìn)行解碼[11]。
上述參數(shù)保證了合成語音的可懂度,為了提高合成語音的自然度,還需對(duì)傅里葉幅度、能量參數(shù)以及非周期標(biāo)志進(jìn)行恢復(fù),在降低語音編碼速率的同時(shí)保證了合成語音的質(zhì)量。
圖3 原始語音和合成語音比較
本文使用Matlab對(duì)該2.4kbps語音編碼算法進(jìn)行了仿真,并給出仿真結(jié)果圖,編碼時(shí)將輸入文件按聯(lián)合幀75ms進(jìn)行整體編碼,經(jīng)過高通濾波器后存入緩存器,提取參數(shù)時(shí)對(duì)基音周期、帶通清的判決采用MELP標(biāo)準(zhǔn)算法,對(duì)第1、3子幀求得LSF系數(shù),進(jìn)行量化,解碼時(shí)先對(duì)超級(jí)幀進(jìn)行解包。利用文中提到的第1、3子幀LSF系數(shù)運(yùn)算得到第2子幀的LSF系數(shù),完成各參數(shù)解碼。
圖3是一組語音的仿真結(jié)果圖,從時(shí)域波形上看合成語音在時(shí)間包絡(luò)上同原始語音非常接近,包括能量強(qiáng)度也基本一致,根據(jù)實(shí)驗(yàn)表明,該方法適合地面簡(jiǎn)易遙測(cè)站擴(kuò)頻傳輸?shù)膸捯?滿足遙測(cè)通信使用,同時(shí)語音清晰自然。
本文設(shè)計(jì)并驗(yàn)證了一種低比特率數(shù)字語音編碼算法,根據(jù)地面遙測(cè)站的技術(shù)指標(biāo)特征選取MELP算法,并針對(duì)遙測(cè)傳輸要求完成了算法優(yōu)化和實(shí)現(xiàn)。最終通過軟件Matlab的仿真驗(yàn)證,實(shí)現(xiàn)了該語音編碼系統(tǒng)。試驗(yàn)結(jié)果表明,該語音編碼算法合成語音具備了一定的自然度,質(zhì)量達(dá)到了預(yù)期的效果,可應(yīng)用于地面遙測(cè)站語音傳輸。
[1] 林小江,鄭海昕.實(shí)驗(yàn)遙測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].裝備指揮技術(shù)學(xué)院學(xué)報(bào),2002,13(2):63-67.
[2] Alan V. McCree, Kwan Truong, E. Bryan George, et al. A 2.4K bits MELP Coder Candidate for the new U.S. Federal[C]//Proceeding of ICASSP,1996:107-112.
[3] McCree AV, Barnwell TP. A New Mixed Excitation LPC Vocoder[J]. ICASSP,1991:593-596.
[4] 劉寬海,葛萬成.MELP低比特率數(shù)字語音編碼技術(shù)研究[J].信息技術(shù),2003,27(8):52-54.
[5] Selma Ozaydin, Buyuman Baykal. Matrix quantization and Mixed Excitation Based Linear Predictive Speech Coding at Very Low Bit rates[J]. Speech Communication,2003,41(38):381-392.
[6] Baudion G, Chami F. Corpus Based Very Low Bit Rate Speech Coding[J]. ICASSP Paper,2003:87-91.
[7] A. V. McCree, K. truong, E. George, et al. A 2.4kbits/s MELP Coder Candidate for the New U.S Federal standard[J]. Proceeding of CASSP-96,1996:165-167.
[8] A. V. Mcree, T. P., Barnwell III. A Mixed Excitation LPC Vocoder Model for Low Bit Rate Speech Coding[J]. IEEE Transactions on Speech and Audio Processing,1995,3(4):240-250.
[9] T. Wang, K. Koishida, V. Cuperman, et al. A 1200/2400bps Coding Suite Based on MELP[J]. IEEE Speech Coding Workshop Proceedings,2003:90-92.
[10] 肖東,莫福源,陳庚,等.混合激勵(lì)線性預(yù)測(cè)語音編碼標(biāo)準(zhǔn)中線譜頻率量化的研究[J].應(yīng)用聲學(xué),2012,31(2):109-112.
[11] 呂聲,王炳錫.一種改進(jìn)的混合激勵(lì)線性預(yù)測(cè)的基音周期估計(jì)算法[J].信號(hào)處理,2001,17(1):56-59.
A Voice Coding Method for Ground Tele-metring Receive Station
WANG Yang1LI Haipeng1WANG Bin2
(1. Unit 91, No. 92941 Troops of PLA, Huludao 125001) (2. Chongqing Bureau of Naval Equipment Department, Chongqing 402263)
A voice coding method which is suitable for ground tele-metring receive station is presented in this paper. Aiming at that the spread spectrum characteristic of simple ground station receiver bandwidth is small, a 2.4K bps low rate voice coding algorithm based on the Mixed Excitation Linear Prediction(MELP) is designed. The algorithm reduces speech coding rate by increasing the frame length, joining multi frames, and interpolating parameters. The simulation results show that the voice coding method is suitable for the technical requirements of the current ground tele-metring receive stations, and it is applicable for other telemetry systems.
ground tele-metring receive station, voice coding, multi-frame joint
2015年1月3日,
2015年2月5日 作者簡(jiǎn)介:汪洋,男,碩士,高級(jí)工程師,研究方向:靶場(chǎng)測(cè)量與控制。
V243
10.3969/j.issn1672-9730.2015.07.026