亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        G.718音頻編碼器核心層的一種低延時編碼方案

        2014-12-07 06:58:04陳利峰秦永左
        關(guān)鍵詞:基音核心層開環(huán)

        陳利峰,秦永左

        (長春理工大學(xué) 電子信息工程學(xué)院,長春 130022)

        語音編解碼延時是衡量語音編碼性能的重要指標(biāo)之一,較大的編碼延時不僅會降低語音通信的服務(wù)質(zhì)量,同時還可能減小系統(tǒng)容量。1992年ITU正式公布了G.728標(biāo)準(zhǔn)[1],即16kbit/s LD-CELP低延遲碼激勵線性預(yù)測編碼標(biāo)準(zhǔn),它能達(dá)到0.625ms幀緩沖,一路編解碼延時小于2ms。1996年公布的8Kbps、15ms延時的G.729標(biāo)準(zhǔn)[2],比特率有所下降,音質(zhì)也略低于G.728。文獻(xiàn)[3]提出的BI-CELP的算法,性能略高于G.729標(biāo)準(zhǔn)但延時仍為15ms。

        ITU-T G.718編碼器[4]是ITU-T于2008年6月制定的全新的嵌入式寬帶語音和音頻編解碼器標(biāo)準(zhǔn),編解碼器采用了嵌入式分層結(jié)構(gòu),即將低速率的碼流嵌入在高碼率的碼流中。G.718最主要的應(yīng)用是分組語音傳輸,編碼器的嵌入式結(jié)構(gòu)可以在不影響低層解碼的情況下丟棄高層,能夠適用于擁塞控制和服務(wù)質(zhì)量管理。G.718的另一個重要應(yīng)用是高質(zhì)量的音頻和視頻會議。其他應(yīng)用包括多點(diǎn)接入家庭網(wǎng)關(guān)和多媒體流等。

        1 G.718編碼器核心層算法

        G.718編碼器是在幀長為20ms下進(jìn)行處理的。對于WB輸入和輸出,核心層的算法延時為32.875ms,其中包括20ms的幀長,1.875ms的輸入輸出重采樣濾波器延時,10ms的前向預(yù)測,以及1ms的后濾波延時。對于NB的輸入和輸出,核心層的算法延時為33.875ms,包括20ms的幀長,2ms的輸入重采樣濾波器延時,10ms的前向預(yù)測,以及1.875ms的輸出重采樣濾波器延時。

        下面介紹G.718編碼器的信號分類、線性預(yù)測(LP)系數(shù)的分析和量化以及開環(huán)基音搜索過程。

        1.1 G.718編碼器信號分類

        為了在8Kbps時獲得最好的語音編碼性能,首先進(jìn)行VAD(Voice Activitity Detection)檢測判斷語音信號是否為活動語音信號,非活動語音信號如果采用DTX(Discontinuous Transmission)可以按照 CNG(Comfort Noise Generator)進(jìn)行編碼。對于非活動語音不采用DTX方式時和活動語音,核心層將信號分成清音(unvoiced)、濁音(voiced)、過渡音(transition)和普通音(generic)四種類型,對這四種類型信號分別采用不同的編碼模式:清音編碼UC(Unvoiced Coding)、濁音編碼VC(Voiced Coding)、過渡音編碼TC(Transition Coding)和普通音編碼GC(Generic Coding)。核心層編碼時的信號分類流程如圖1所示。

        圖1 核心層編碼時的信號分類

        1.2 G.718編碼器線性預(yù)測分析

        在G.718編碼器編碼過程中,frame-end幀和mid-frame幀的LP(Linear Predictive)參數(shù)被估計,每一部分都使用一個25ms的對稱窗(漢明窗),在frame-end自相關(guān)計算中使用了10ms的前向預(yù)測。幀結(jié)構(gòu)如圖2所示。

        圖2 LP分析窗的相關(guān)位置和長度

        frame-end語音幀利用相鄰幀間的ISF(Immittance Spectral Frequency)殘差系數(shù)進(jìn)行量化。ISF參數(shù)采用了兩種不同的預(yù)測量化器進(jìn)行量化:在第一個預(yù)測器中,預(yù)測系數(shù)值接近0.7,稱為strongly-predictive路徑;在第二個預(yù)測器中,預(yù)測系數(shù)值設(shè)置為0或0.3附近,分別稱為safety-net路徑和weakly-predictive路徑。

        對于mid-frame幀,首先將ISF系數(shù)表示為前一幀和當(dāng)前幀的量化frame-end幀ISF系數(shù)的加權(quán)和,然后在一個閉環(huán)方式內(nèi)對權(quán)值進(jìn)行搜索,使得未量化mid-frame幀ISF系數(shù)與這個加權(quán)和之間的均方誤差最小。另外,由于沒有足夠比特來傳輸每個ISF系數(shù)的權(quán)值,所以將ISF系數(shù)矢量分裂成一系列的子矢量,每個子矢量只傳輸一個權(quán)值。分裂點(diǎn)、每個分裂組的比特數(shù)和權(quán)值在不同編碼模式下是不同的。在TC模式下中間幀的ISF是不用量化的。

        1.3 G.718編碼器開環(huán)搜索分析

        開環(huán)基音分析是為了平滑基音演變輪廓,將閉環(huán)基音估計的值限定在開環(huán)估計值附近,以達(dá)到簡化基音分析過程的目的。

        (1) 灌漿材料中的塊狀渣體含量對化學(xué)灌漿固結(jié)效果影響明顯,塊狀渣體占比越高(由5%提高至10%),其孔隙率相對增大,漿液擴(kuò)散越容易,固結(jié)強(qiáng)度越高。

        開環(huán)基音分析是將加權(quán)信號2倍后采樣進(jìn)行運(yùn)算的。開環(huán)基音分析在每幀進(jìn)行三次估計,以找到基音延時的三個估計值(運(yùn)算長度均為10ms),其中兩個在當(dāng)前幀進(jìn)行運(yùn)算,第三個在前向預(yù)測中進(jìn)行運(yùn)算。

        每個10ms區(qū)間的相關(guān)值是在兩組基音延時的基礎(chǔ)上的計算得來的,兩組的每個基音延時值的自相關(guān)函數(shù)由采樣信號sd(n)計算得來,公式為:

        其中,求和上限Lsec取決于延時值所在的延時區(qū)間,對一個給定的延時值,在相關(guān)計算中至少包含一個基音周期。

        2 基于G.718的低延時編碼方案

        該方案在幀長為5ms基礎(chǔ)上進(jìn)行編解碼。由于VC編碼模式比GC編碼模式的基音周期平穩(wěn),在幀長5ms的條件下無法得到基音周期的穩(wěn)定性,所以需要改變信號的分類過程。漢明窗不適合幀長較短的情況,在線性預(yù)測分析中使用非對稱混合窗[5]代替原來的對稱漢明窗,避免了前向預(yù)測,從而降低了延遲,并且改變了LPC參數(shù)量化方法,在降低延遲的同時盡可能少增加額外的比特率。在G.718編碼器中,開環(huán)搜索的自相關(guān)計算中加權(quán)長度隨基音延遲的變化而改變,在低延時方案中幀長有時不能包含一個周期,相關(guān)計算中采用統(tǒng)一的加權(quán)長度計算。

        2.1 低延時編碼器的基本結(jié)構(gòu)

        由于低延時編碼中幀長為5ms,所以要在G.718編碼器核心層子幀的基礎(chǔ)上進(jìn)行編碼。通過判斷每幀中四個子幀基音周期的平穩(wěn)性,G.718編碼器將語音編碼方式分為GC編碼模式和VC編碼模式,但由于本算法中幀長較短,無法得到基音周期的平穩(wěn)性估計,所以采用同一種編碼方式:VC編碼模式。另外,由于幀長的原因TC編碼模式也不適用,所以本算法中只采用VC編碼模式和UC編碼模式兩種編碼方式。語音分類過程如圖3所示。

        圖3 低延時編碼時信號分類

        2.2 線性預(yù)測分析

        在不引入前向預(yù)測的情況下,本方案采用非對稱混合窗代替漢明窗,混合窗包含兩個部分,自回歸部分和非自回歸部分。相對于漢明窗,混合窗沒有使用前向預(yù)測,所以混合窗使得延時降低了10ms,如圖4所示。

        圖4 LPC分析中的混合窗說明

        混合窗函數(shù)wm(k)定義如下:

        混合窗函數(shù)中參數(shù)b=0.988861084,α=0.992833749,c=0.0239,m=0.1673。該窗中長度為114個樣點(diǎn)(即N值為114),其中自回歸部分包括70個樣點(diǎn)(即L值為70),非自回歸部分包括64個樣點(diǎn)。加窗后語音信號仍采用自相關(guān)法和Durbin-Levinson算法得到LP參數(shù),此窗相對于漢明窗不僅加強(qiáng)了當(dāng)前幀的數(shù)據(jù),而且避免了引入前向預(yù)測。

        在低延時編碼器中,ISF參數(shù)的量化類似于G.718中frame-end部分的量化過程。VC模式和UC模式都采用strongly-predictive路徑和weakly-predictive路徑進(jìn)行量化,比較兩種路徑加權(quán)誤差,選擇誤差較小的預(yù)測器量化值作為最后的量化結(jié)果。具體量化比特分配情況如表1所示。

        在低延時編碼中對ISF參數(shù)進(jìn)行多級矢量量化,對于每個編碼模式和每級的子碼本規(guī)劃如表2所示。

        表1 ISF參數(shù)量化比特數(shù)分配

        表2 子碼本規(guī)劃

        表中U1(6)表示碼本U1的大小為6比特,在量化過程中,最后一級的碼本沒有全部使用。例如,對于VC,NB模式的safety-net量化方法,總的量化比特數(shù)(預(yù)測器選擇除外)為26比特,所以最后一級的量化只需要4個比特,盡管C3碼本有32個比特,但是只使用了C3的前一半碼本(8個碼字)進(jìn)行量化。

        2.3 開環(huán)搜索分析

        由于幀長的限制,開環(huán)搜索自相關(guān)計算采用統(tǒng)一的加權(quán)長度,即幀長。開環(huán)搜索過程具體如下:

        首先在以下三個區(qū)間內(nèi)i=1:124,…,231;i=2:64,…,123;i=3:34,…,63通過自相關(guān)計算得到三個相關(guān)值最大值,信號s(n)自相關(guān)計算公式為

        對于三個區(qū)間

        保留下來的最大值R(ti)通過下式歸一化:

        類似于G.718編碼器,通過比較t的大小決定最后的基音延時,為了避免選擇多個基音延時值,所以在三個最大值中更傾向于選擇較低范圍內(nèi)的值作為最后的開環(huán)搜索值。

        2.4 低延時編碼比特分配

        在語音編碼中,在降低編碼延時的條件下,必須保證盡可能少地增加比特率,在本方案中濁音信號編碼(VC模式)和清音信號編碼(UC模式)比特數(shù)分配情況分別如表3和表4所示。

        表3 VC模式的比特分配

        表4 UC模式比特分配

        由表3和表4可以看出,在VC編碼模式和UC編碼模式中使用的比特數(shù)為65bits,由于幀長為5ms,所以在低延時編碼方案中比特率為13kbit/s。

        3 語音質(zhì)量評測

        本實(shí)驗使用了NTT-AT中文語料庫為實(shí)驗數(shù)據(jù),包括8kHz語料和16kHz語料各96條(4男4女各12條),對算法進(jìn)行性能估計。實(shí)驗通過對G.718編解碼器和它的低延時編解碼器合成語音進(jìn)行PESQ(Perceptual Evaluation of Speech Quality)評分[6],表5為96句語音平均的PESQ得分對比,實(shí)驗結(jié)果表明,與G.718編碼器相比,低延時編碼器的重建語音質(zhì)量只是略有下降,聽覺效果并無明顯差別。

        表5 G.718低延時編碼器和G.718編碼器PESQ得分對比

        4 結(jié)論

        本文提出了基于G.718編碼器核心層的一種低延時編碼方案,它對于寬帶輸入和輸出具有7.875ms的算法延時,對于窄帶輸入和輸出具有8.875ms算法延時。該方案編碼速率為13kbit/s,而且具有接近G.718核心層的編碼質(zhì)量。

        [1]CCITT Recommendation G.728,Coding of speech at 16kbit/s using low-delay code excited linear prediction[S].Geneva,1992.

        [2]ITU-T Recommendation G.729,Coding of speech at 8kbit/s using conjugate-structure algebraic-code-excited linear-prediction(CS-ACELP)[S].1996.

        [3]Kwon S Y,Hochong Park,Hyokang Chang.A high quality BI-CELP speech coder at 8kbit/s and below[C].IEEE International Conference on Acoustics,Speech,and Signal Processing.1997.

        [4]ITU-T Recommendation G.718,F(xiàn)rame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32kbit/s[S].2008.

        [5]Zhang Gang,Xie Keming,Zhang Xueying.Improving G.728’s Hybrid Window and Excitation[C].IEEE APCCAS,2004:185-188.

        [6]楊海.感知語音質(zhì)量評價PESQ及其在通信系統(tǒng)中的應(yīng)用[J].江西通信科技,2004(2):46-47.

        猜你喜歡
        基音核心層開環(huán)
        職業(yè)教育教師核心能力結(jié)構(gòu)模型構(gòu)建、特征分析及實(shí)踐價值
        基于基音跟蹤的語音增強(qiáng)研究
        轉(zhuǎn)速開環(huán)恒壓頻比的交流調(diào)速系統(tǒng)的分析與仿真研究
        電子測試(2018年1期)2018-04-18 11:52:24
        淺談寬帶IP城域網(wǎng)結(jié)構(gòu)規(guī)劃和建設(shè)
        校園網(wǎng)核心層設(shè)計探究
        一種溫和環(huán)醚開環(huán)成雙酯的新方法
        基于開環(huán)補(bǔ)償?shù)娘w機(jī)偏航角控制系統(tǒng)設(shè)計及仿真
        樂理小知識
        小演奏家(2014年11期)2014-12-17 01:18:52
        一種改進(jìn)的基音周期提取算法
        面向TD-LTE的城域傳送網(wǎng)核心層組網(wǎng)探討
        中文字幕日韩精品永久在线| 国产在线精品一区二区不卡| 亚洲色婷婷免费视频高清在线观看| AV中文码一区二区三区| 日本在线免费不卡一区二区三区 | 精品国产sm最大网站| 国色天香精品一卡2卡3卡4| 亚洲 暴爽 av人人爽日日碰| 精品一级毛片| 加勒比东京热久久综合| 麻豆国产精品一区二区三区| 亚洲色图片区| 国产台湾无码av片在线观看| 欧美激情αv一区二区三区| 亚洲精品久久久中文字| 日韩精品一二三区乱码| 24小时日本在线视频资源| 欧美日韩中文国产一区| 国产剧情无码中文字幕在线观看不卡视频 | 成人欧美一区二区三区白人| 亚洲国产成人久久综合三区| 午夜理论片日本中文在线| 亚洲av成人片在线观看| 国产精品乱码在线观看| 中文字幕一区,二区,三区| 日本黑人亚洲一区二区 | 久久精品人妻一区二区三区| 青青草99久久精品国产综合| 亚洲国产av一区二区三区天堂 | 少妇被躁爽到高潮无码文| 国产精品久久久久久久y| 顶级高清嫩模一区二区| 亚洲成av人影院| 亚洲性啪啪无码AV天堂| 最好的99精品色视频大全在线| 国产精品久久久久一区二区三区 | 美女福利一区二区三区在线观看| 国产黑色丝袜在线看片| 老外和中国女人毛片免费视频| 婷婷色国产精品视频一区| 国产区一区二区三区性色|