楊 超,徐向旭,劉云飛,朱 弘,芮天宇
(1.海軍航空大學,山東煙臺264001;2.92635部隊,山東青島266041;3.海軍航空大學青島校區(qū),山東青島266041;4.91602部隊,上海200082;5.92877部隊,浙江舟山316200)
隨著信息技術的迅速發(fā)展,各類電子產品進入千家萬戶,音視頻等多媒體被廣泛應用于人們的生活工作學習中,音頻編碼應運而生,為了解決日益增加的多媒體信息和有限的存儲空間及傳輸帶寬的矛盾[1-3],音頻壓縮編碼研究也越來越受到重視。目前聲音編碼技術分為:波形編碼、參數(shù)編碼以及混合編碼[4-5]。應用各種帶寬擴展技術,聲音編碼標準發(fā)展的趨勢是從窄帶(8 kHz采樣)到寬帶(16 kHz采樣),再到超寬帶(32 kHz采樣),最終到全頻帶(48 kHz采樣)[2];應用各種可分級聲音編碼技術,聲音編碼標準發(fā)展從固定碼率,到多速率,再到更精細的可變比特率,更靈活地利用傳輸帶寬;傳統(tǒng)的音頻編碼標準通過各種降低延時和碼率的技術,提高其對聲音的編碼效率[6-8]。為降低碼率,本文提出一種將預測編碼、基于神經(jīng)網(wǎng)絡的矢量編碼及Huffman編碼相結合的音頻編碼算法。
聲音音線性預測編碼[9](Linear Prediction Coding,LPC)的基本思路是,利用已知的過去的若干個聲音信號的線性組合對當前的聲音采樣值進行逼近(預測),使其線性預測值在最小方均誤差意義上等于聲音的當前采樣值,再將預測值和當前采樣值相減,得到預測誤差,最后對預測誤差編碼。計算公式如下:
從過去的p個值:x(n-1),x(n-2),…,x(n-p)來推算當前的預測值:
預測器的預測誤差為:
由于聲音信號前后具有較強的相關性,所以,在統(tǒng)計意義上說,預測誤差值的變化范圍小于當前采樣值的變化范圍,因而可以用更少的碼元來表示。
矢量量化[10]就是把需要量化的數(shù)值每n個作為一組,任何一組的n個數(shù)值都可以看成n維空間的一個點,構成一個n維矢量X。由于n維空間的每一維都是模擬量(或連續(xù)量),所以n維空間也是一個連續(xù)空間,即使每一維的最大值是有限制的,但它包含的矢量數(shù)目是無窮多的。矢量量化要做的工作就是將此n維連續(xù)空間劃分為有限個區(qū)間,在每一個區(qū)間找一個代表矢量,凡是落在本區(qū)間的所有的矢量都用該代表矢量來表示,這就是矢量量化的基本方法[11-12]。
矢量量化過程中,X′和X的接近程度可以有多種衡量方法,最常用的誤差測度是均方誤差,相當于兩者之間的歐幾里得距離,即
人類的神經(jīng)系統(tǒng)是迄今為止最復雜也是科學史上最智能的系統(tǒng)了,即使是最先進的計算機與人腦神經(jīng)系統(tǒng)比起來也要遜色不少。人腦神經(jīng)系統(tǒng)可實現(xiàn)自動學習、模式識別和分類歸納等功能,人工神經(jīng)網(wǎng)絡就是利用一些簡單的自適應元件及其層次組織的大規(guī)模并行聯(lián)結構組成的網(wǎng)絡,目的在于模仿人腦神經(jīng)網(wǎng)絡的工作模式來處理客觀數(shù)據(jù)[13]。神經(jīng)元是神經(jīng)網(wǎng)絡的基本單元,它一般是一個多輸入單輸出的非線性結構體。
神經(jīng)元的結構如圖1所示。圖1中:ui是神經(jīng)元的內部狀態(tài);θi為閾值;xj為輸入信號;wji表示從uj到ui連接的權值;si為外部用來調節(jié)神經(jīng)元的初始狀態(tài)輸入信號。
圖1 神經(jīng)元結構模型Fig.1 Neuron structure model
模型可以表述為:
人工神經(jīng)元的信息處理過程為:先對輸入信號和神經(jīng)元接聯(lián)的內積運算,然后將結果通過激活函數(shù),再經(jīng)過閾值函數(shù)判決,若輸出值大于閾值門限,則神經(jīng)元被激活,否則該神經(jīng)元處于抑制狀態(tài)。網(wǎng)絡的學習本質就是神經(jīng)元根據(jù)既定規(guī)則和輸出模式自動的調節(jié)權值和閾值,以達到最終的穩(wěn)定的神經(jīng)元狀態(tài)。
Kohonen自組織映射算法是由T.Kohonen提出的無監(jiān)督的學習方式,自組織映射神經(jīng)網(wǎng)絡SOM就是利用這一算法的人工神經(jīng)網(wǎng)絡。這種神經(jīng)網(wǎng)絡的輸出層為按一定規(guī)則排列的二維矩陣,網(wǎng)絡神經(jīng)元局部連接,輸入層與輸出層間通過權值構成全連接。進行學習時,輸出層二維網(wǎng)絡節(jié)點對輸入層的特定模式的節(jié)點形成特殊反應,隨著輸入節(jié)點的變化,輸出節(jié)點也從一個節(jié)點轉到相應領域,這樣不僅能實現(xiàn)分類識別,還能掌握輸入的整體分布[14-17]。
課題提出的編碼方案是線性預測編碼、基于SOM神經(jīng)網(wǎng)絡的矢量編碼及huffman編碼[18]的聯(lián)合編碼法。具體方法是:將1列聲音采樣信號按照奇偶順序轉換成2列,分別對每列信號進行預測,得到誤差值。同時,對2列信號的2個誤差值進行基于自組織神經(jīng)網(wǎng)絡的矢量編碼;恢復聲音時,譯碼過程與編碼過程相反;最后,對譯碼數(shù)據(jù)用切比雪夫Ⅰ型濾波器濾波。該方法創(chuàng)新性地將一列聲音信號轉換為2列信號,這樣就可以進行后續(xù)的矢量編碼。將預測編碼和矢量編碼巧妙地結合在一起。
壓縮率的計算公式為:
式(5)中:r表示編碼的壓縮率;b1是編碼后表示聲音文件的二進制碼的總位數(shù);b是表示原始聲音信號所需要的二進制碼總位數(shù)。
信噪比的計算公式為:
式(6)中:Ps為原始信號的功率;Pn為聲音的噪聲功率。
圖2為課題提出的編碼算法的流程圖。該算法創(chuàng)新之處是將一列聲音信號轉換為2列聲音信號,2列信號同時進行預測,同時得到2個預測值和2個誤差值,這樣就可以進行矢量編碼。
圖2 編碼程序流程圖Fig.2 Code program flow chart
實驗中,選取一段5 s音樂信號《say hi》作為處理對象,對該段音樂信號進行25 kHz的采樣和8位量化。采用10階線性預測公式計算預測值,進而計算誤差,SOM神經(jīng)網(wǎng)絡的碼本數(shù)為31,碼本訓練次數(shù)為300次。人耳的主觀感覺是,恢復的聲音信號與原始聲音信號相比基本沒有差別。
圖3為《say hi》音樂段時域恢復情況。從圖3 a)、b)的波形圖對比可知,與原始聲音信號波形相比,恢復的聲音信號基本沒有變化,只是個別時間點上聲音強度略低,這是由于聲音信號的高頻部分略有不同造成的。
圖3 《say hi》音樂段時域恢復情況Fig.3 Time domain recovery of《say hi》music segment
圖4為《say hi》音樂段頻域恢復情況。由圖4 a)、4b)的頻譜圖對比可得,恢復的聲音信號頻譜與原始聲音信號頻譜基本一致,7 kHz以后的高頻段略有不同,但是人耳在這個頻段范圍不敏感[8]。這與人的主觀感覺結果相一致。
計算得到的信噪比為12.41dB。壓縮率為30.2%,碼率也變?yōu)?2.5 kbps。這個碼率小于MEPG-1 Layer3[19]的最低的64 kbps的標準碼率。
由于預測編碼較非預測編碼有更好的壓縮率,矢量編碼較標量編碼有更好的壓縮率,基于神經(jīng)網(wǎng)絡的方法尋找碼本較LBG方法具有更好的壓縮率,Huffman編碼是常用的無損壓縮方法,它通常用于多級編碼的最后一級,對非均勻概論分布的碼元具有一定的壓縮率,文中根據(jù)以上每一種編碼所具有的壓縮性質,將這3種壓縮方法結合,提出的基于預測編碼、SOM自主神經(jīng)網(wǎng)絡矢量編碼和Huffman編碼的聯(lián)合編碼就具有比單獨使用任何一種編碼方法更好的壓縮性質,因而能達到實驗數(shù)據(jù)中得到的較小的壓縮率。譯碼時,用切比雪夫Ⅰ型濾波器對譯碼信號進行低通濾波,在語音信號基本不損失的同時,抑制矢量量化引起的高頻量化噪聲,保證了壓縮率較小時的語音質量良好。
圖4 《say hi》音樂段頻域恢復情況Fig.4 Frequency domain recovery of the《say hi》music segment
本文提出了一種預測編碼、SOM自主神經(jīng)網(wǎng)絡矢量編碼和Huffman編碼的聯(lián)合編碼算法,并在譯碼時用切比雪夫Ⅰ型濾波器對譯碼信號進行濾波。實驗結果表明,本文提出的編碼算法,算法簡單,且在保證聲音質量較好的前提下,可以達到小于MEPG-1 Layer3的最低的64 kbps的標準碼率,從而可以減少聲音信號的存儲空間和傳輸帶寬。
[1]丁榮格.音頻編碼技術在數(shù)字化傳輸中的應用[J].計算機與網(wǎng)絡,2013,39(13):50-52.DING RONGGE.The application of audio coding technology in digital transmission[J].Computer and Network,2013,39(13):50-52.(in Chinese)
[2]楊可歆.音頻編碼技術在數(shù)字化傳輸中的應用探究[J].科技創(chuàng)新與應用,2015(16):89.YANG KEXIN.Application of audio coding technology in digital transmission[J].Technology Innovation and Application,2015(16):89.(in Chinese)
[3]張楊.音頻編碼技術及廣播電臺數(shù)字編碼壓縮傳輸系統(tǒng)建設[J].科技傳播,2015,11:113-115.ZHANG YANG.Audio coding technology and digital coding compression transmission system construction of radio station[J].Science and Technology Communication,2015,11:113-115.(in Chinese)
[4]李曉明.語音與音頻信號的通用編碼方法研究[D].北京:北京工業(yè)大學,2014.LI XIAOMING.Research on universal coding method for speech and audio signals[D].Beijing:Beijing University of Technology,2014.(in Chinese)
[5]梁冬蕾.音頻語音聯(lián)合編碼算法研究[D].西安:西安電子科技大學,2010.LIANG DONGLEI.Research on joint audio and audio coding algorithm[D].Xi’an:Xi’an Electronic and Science University,2010.(in Chinese)
[6]趙群群.基于SOFM的直接矢量量化方法在LD-CELP語音編碼算法中的應用[D].太原:太原理工大學,2008.ZHAO QUNQUN.Application of direct vector quantization method based on SOFM in LD-CELP speech coding algorithm[D].Taiyuan:Taiyuan University of Technology,2008.(in Chinese)
[7]杜維濤.面向實時通信的低延遲高質量音頻編碼算法[J].科學技術與工程,2013,13(7):1970-1974.DU WEITAO.High eficient perceptualand low delay audio coding algorithm[J].Science Technology and Engineering,2013,13(7):1970-1974.(in Chinese)
[8]周游,賀珊,李琳,等.多制式音頻解碼關鍵模塊的FPGA設計與驗證[J].中國科技論文,2014,9(7):798-802.ZHOU YOU,HE SHAN,LI LIN,et al.Design and verification of FPGA-based key modules in multi-standard autio decoding[J].China Science Paper,2014,9(7):798-802.(in Chinese)
[9]樊昌信,曹麗娜.通信原理[M].7版.北京:國防工業(yè)出版社,2015:302-305.FAN CHANGXIN,CAO LINA.Principle of communication[M].7thed.Beijing:National Defense Industry Press,2015:302-305.(in Chinese)
[10]MARHOUL JOHN.Vector quantization in speech coding[J].Proceeding of IEEE.1985,73(11):1551-1588.
[11]楊超,賀一君,任建存,等.碼本均衡矢量編碼算法[J].現(xiàn)代電子技術,2016,39(13):38-40.YANG CHAO,HE YIJUN,REN JIANCUN,et al.Codebook equilibrium algorithm for vector coding[J].Modern Electronics Technique,2016,39(13):38-40.(in Chinese)
[12]楊超,董世錕.矢量量化圖像壓縮方法[J].海軍航空工程學院學報,2011,26(1):11-14.YANG CHAO,DONG SHIKUN.Image compresion method beased on vector quantization[J].Journal of Naval Aeronautical and Astronautic University,2011,26(1):11-14.(in Chinese)
[13]錢海軍.基于BP神經(jīng)網(wǎng)絡的圖像壓縮的Matlab實現(xiàn)[J].電腦開發(fā)與應用,2011,24(12):77-79.QIAN HAIJUN.Image compression based on nural network using matlab[J].Computer Development and Application,2011,24(12):77-79.(in Chinese)
[14]陳明.神經(jīng)網(wǎng)絡原理與實例精解[M].北京:清華大學出版社,2013:246-250.CHEN MING.The neural network principle and example[M].Beijing:Tsinghua University Press,2013:246-250.(in Chinese)
[15]王龍,杜敦偉,白艷萍.SOM網(wǎng)絡在雷達目標識別中的應用[J].科技視界,2015(16):505-509.WANG LONG,DU DUNWEI,BAI YANPING.Application of SOM network in radar target recognition[J].Science&Technology Vision,2015(16):505-509.(in Chinese)
[16]楊晨,閆薇.利用SOM網(wǎng)絡模型進行聚類研究[J].網(wǎng)絡安全技術與應用,2014(2):44-45.YANG CHEN,YANG WEI.Research on the clustering by using SOM network model[J].Network security&Application,2014(2):44-45.(in Chinese)
[17]鄒瑜,帥仁俊.基于改進的SOM神經(jīng)網(wǎng)絡的醫(yī)學圖像分割算法[J].計算機工程與設計,2016,37(9):2533-2537.ZOU YU,SHUAI RENJUN.Improved segmentation algorithm of medical images based on SOM neural network[J].Communication Technology,2016,37(9):2533-2537.(in Chinese)
[18]孟歡,包海燕,潘飛.Xilinx哈夫曼編碼系統(tǒng)設計[J].電子產品世界,2017(11):51-54.MEN HUAN,BAO HAIYAN,PAN FEI.Design of Xilinx Huffman coding system[J].Eelectronic Engineering&Product World,2017(11):51-54.(in Chinese)
[19]MUSMANN HG.Genesis of the MP3 audio coding standard[J].IEEE Transactions on Consumer Electronics,2006,52(3):1043-1049.