鮑 楓 ,劉 鑫 ,賈懋 ,鮑長春
(北京工業(yè)大學(xué)電子信息與控制工程學(xué)院語音與音頻信號處理研究室,北京 100124)
近年來,非線性研究得到了快速發(fā)展,已廣泛應(yīng)用到天文、水文、氣象以及經(jīng)濟領(lǐng)域。通過對事物已知的時間序列進行非線性分析來預(yù)測其未來的演變趨勢是非線性研究的核心所在。隨著科學(xué)技術(shù)的發(fā)展,在許多學(xué)科之中都出現(xiàn)了非線性問題。傳統(tǒng)的線性化方法已不能滿足解決非線性問題的要求,非線性動力學(xué)也就由此產(chǎn)生。非線性動力學(xué)中的相空間重構(gòu)理論對音頻頻譜非線性特性的分析有著巨大的吸引力。目前,在語音與音頻信號的非線性分析方面,已有科研人員對語音序列進行了非線性分析[1,2],而針對不同類型音頻信號頻譜信息非線性特性的統(tǒng)計分析還有待進一步研究[3-5]。基于該背景,本課題針對各類型音頻信號的修正離散余弦變換(Modified Discrete Cosine Transform,MDCT)系數(shù)的混沌特性展開分析和研究。
相關(guān)文獻證明,最大李雅普諾夫(Lyapunov)指數(shù)定量地表征了相空間中兩相鄰軌線運動的發(fā)散情況,當(dāng)某一序列的最大Lyapunov指數(shù)為正時,可以判定該段信號存在混沌現(xiàn)象[4-8]?;诖?本課題通過對MDCT域序列的最大Lyapunov指數(shù)進行統(tǒng)計分析,來驗證音頻信號頻域信息的非線性特性,最終實現(xiàn)一種基于最大Lyapunov指數(shù)的音頻信號MDCT系數(shù)混沌特性分析方法,為非線性動力學(xué)理論引入音頻信號處理領(lǐng)域奠定基礎(chǔ)。
MDCT是音頻編碼中常用的一種變換編碼技術(shù),其原理是:將原來在時間域相關(guān)性很強的信號,經(jīng)正交變換,轉(zhuǎn)化為在變換域內(nèi)的一組系數(shù),通過對變換域基矢量的選擇,大大減弱變換域系數(shù)之間的相關(guān)性,并使得信號能量主要集中在某些系數(shù)上,從而達到對數(shù)據(jù)壓縮的目的。由于采用了時域混疊消除技術(shù),因此與傳統(tǒng)DCT變換相比,MDCT可以有效地減小變換域系數(shù)量化失真所造成的邊界效應(yīng)。
MDCT可以定義為
式中,x(n)(n=0,1,…,N-1)表示長度為N的時域信號。為消除邊界塊效應(yīng),引入時域混疊消除技術(shù)對信號進行加窗處理,窗函數(shù)選擇正弦窗,即:
加窗后MDCT定義為
由于采用了時域混疊消除技術(shù),時域信號在進行時頻分析時將采用50%的疊接方式進行逐幀MDCT。
由于MDCT具有良好的正交性、稀疏性以及消除塊效應(yīng)的能力,本文采用MDCT作為音頻信號時頻分析的主要工具,從而為其頻域信息非線性特性的分析奠定基礎(chǔ)。
對于一個混沌系統(tǒng)來說,經(jīng)過一段時間變化,其產(chǎn)生的運動軌跡會呈現(xiàn)出一定規(guī)律。而由于觀測條件的限制,通常只能通過某些實驗觀測方式來獲得表征動力學(xué)系統(tǒng)特性的一組時域序列。系統(tǒng)中任意分量的形成都是由其與之相關(guān)聯(lián)的分量所共同決定,這樣可以從某一分量中提取并重構(gòu)出系統(tǒng)的相空間,從而恢復(fù)出原來動力學(xué)系統(tǒng)所表征的運動規(guī)律,這種方式稱作相空間重構(gòu)技術(shù)。非線性動力學(xué)則是在重構(gòu)相空間的基礎(chǔ)上對復(fù)雜系統(tǒng)運動規(guī)律展開研究的。在相空間重構(gòu)過程中,通常采用時間延遲法。該方法選取適當(dāng)?shù)难舆t時間,取整數(shù)倍延遲后的觀測值作為新的坐標(biāo),從而構(gòu)成一個多維狀態(tài)空間??梢宰C明這樣的空間可以將原始混沌系統(tǒng)中吸引子的許多特性保存下來,同時初步確定該系統(tǒng)真實相空間的維數(shù)[6]。
在相空間重構(gòu)過程中最重要的兩個參數(shù)分別為延遲時間 τ和嵌入維數(shù)m。由F.Takens的延遲嵌入定理可知[8],在時間序列無限長、無噪聲、無限精確的情況下,可以任意選取τ,但實際測量得到的時間序列是有限長的,且有一定的噪聲污染和測量誤差,所以只能根據(jù)經(jīng)驗來選取延遲時間 τ,同時要使Xn與Xn+τ具有某種程度的獨立但又不完全無關(guān)。如果τ太小,Xn與Xn+τ的值過分靠近,以至于不能區(qū)別它們,相空間軌跡會集中在同一位置,信息被擠壓產(chǎn)生大量冗余;如果 τ太大,會導(dǎo)致Xn與Xn+τ不相關(guān),吸引子的軌跡會投影在完全不相關(guān)的方向上,不能真實地刻畫出軌跡的規(guī)律。
序列{Xi}在時間間隔 τ下的自相關(guān)函數(shù)可以表示為
當(dāng)自相關(guān)函數(shù)降低到RXX(0)的1-1/e時,可以表明相鄰τ點延遲數(shù)據(jù)之間存在的相關(guān)性較低,而系統(tǒng)信息不會過多的丟失,此時的 τ即為重構(gòu)相空間的時間延遲。
在相空間重構(gòu)過程中同時還要考慮參數(shù)嵌入維數(shù)m,同時要滿足Takens嵌入定理,即如果嵌入維數(shù)m≥2d+1,該條件是充分的,但并不是必要的,其中d為動力學(xué)系統(tǒng)的真實維數(shù)。如果嵌入維數(shù)m過大,雖然相軌跡可以完全展開,但會增加軌跡的計算量。本文采用虛假近鄰點法來選擇合適的嵌入維數(shù)m。隨著嵌入維數(shù)m的增加,相軌跡逐漸展開,由軌跡折疊產(chǎn)生的虛假近鄰點也將逐步剔除。當(dāng)虛假近鄰點數(shù)不隨維數(shù)增加而減少時,證明相軌跡已經(jīng)完全展開,則將此時的空間維數(shù)定義為嵌入維數(shù)m。
在m維相空間中,每個相點為X(t)={x(t),x(t+τ),…,x[t+(m-1)τ]},都存在某個距離內(nèi)最近鄰點XN,其距離為Dm(t)=‖X(t)-XN(t)‖。從相空間的維數(shù)m增加到m+1維時,這兩個相點的距離會發(fā)生變化,即:
若相點與其近鄰點之間的距離有較大變化,則可以認為是由高維奇異吸引子中兩個相鄰的點在投影到低維相空間上所造成的,此時該近鄰點記為偽最近鄰點。令Ym表示該距離的相對變化程度,即:
則若Ym>YT,XN可記為虛假最近鄰點。閾值YT可在[10,50]之間選取。
在實際測量中,從嵌入維數(shù)的最小值開始計算虛假緊鄰點的比值,當(dāng)增加嵌入維數(shù)m到偽近鄰點的比值小于5%或者偽最近鄰點不再隨著嵌入維數(shù)m的增加而減少時,這時認為相空間完全展開,此時的m為最佳嵌入維數(shù)[7]。
通過以上方法對信號進行分析,可以確定其延遲時間 τ和嵌入維數(shù)m。利用這兩個參數(shù),可以將一維觀測序列轉(zhuǎn)換到重構(gòu)相空間中,構(gòu)成相應(yīng)的相點 X(t)={x(t),x(t+τ),…,x[t+(m-1)τ]}。
根據(jù)非線性動力學(xué)原理可知,混沌系統(tǒng)對初始條件具有較強的敏感性。相空間初始距離很近的兩條軌跡會以指數(shù)速率發(fā)散,Lyapunov指數(shù)就是根據(jù)相軌跡的發(fā)散率來定量地判斷系統(tǒng)的混沌特性從而初步度量了復(fù)雜系統(tǒng)的預(yù)測性[7]。
對一維映射y(t+1)=F[y(t)],假設(shè)初始位置 y(t0)附近有一點 y(t0)+βx(t0),則經(jīng)過 n次迭代后,有:
式中,t0、tn分別為預(yù)選的初始時間與當(dāng)前時間。
設(shè)相軌跡上兩點之間的初始距離為 βx(t0) ,用 βx(tn) 表示經(jīng)過 n次迭代后該兩點之間的距離 ,由式(8),有:
當(dāng)λ>0,相鄰軌跡按指數(shù)發(fā)散,具有系統(tǒng)混沌特性;λ=0,系統(tǒng)具有周期性;λ<0,系統(tǒng)有穩(wěn)定的不動點,不具有混沌特性。
本文采用基于Rosenstein小數(shù)據(jù)量法[7]對Lyapunov指數(shù)進行計算,對于一個音頻信號時間序列{x(i),i=1,2…,N}進行MDCT變換,利用前一節(jié)介紹的相關(guān)方法獲得延遲時間 τ和嵌入維數(shù)m,進而實現(xiàn)相空間重構(gòu),重構(gòu)的相點記為X(t)={x(t),x(t+τ),…,x[t+(m-1)τ]},t=1,2,…,M,其中M=N-(m-1)τ。在相空間中,尋找任意點X(t)的最近鄰點 X(t′),即 :
式中,t′=1,2,…,M,且 t≠t′,T為時間序列平均周期,d(0)代表初始時刻一對最近鄰點之間的距離。
對于相空間中的每一個X(t),計算出該點與其近鄰點在i時刻后的距離d(i):
式中,i=1,2,…,min(M-t,M-t′)。對每個時刻i,求出所有相點與其近鄰點的平均對數(shù)距離,即:
式中,q為d(i)的非零數(shù)目,Δt表示相軌跡演變步長。用最小二乘法對 x(i)和i的映射關(guān)系進行線性回歸,該斜率為最大Lyapunov指數(shù)。
根據(jù)非線性動力學(xué)相關(guān)原理可知,當(dāng)某一序列的最大Lyapunov指數(shù)為正時,可以判定該段信號存在混沌現(xiàn)象?;诖?本文分別對不同類型音頻信號頻域序列的最大Lyapunov指數(shù)進行了統(tǒng)計和分析,相關(guān)實驗原理如圖1所示。
圖1 音頻頻域序列最大Lyapunov指數(shù)概率統(tǒng)計原理框圖Fig.1 The probability statistic diagram of maximum Lyapunov exponents for audio spectrum series
打擊樂音頻信號的最大Lyapunov指數(shù)曲線和時域波形如圖2所示。當(dāng)音頻信號沒有聲音時,Lyapunov指數(shù)維持在一定正值范圍內(nèi);聲音起奏時,Lyapunov指數(shù)會迅速下降,但數(shù)值仍然為正,然后再返回到最初的數(shù)值,總體數(shù)值都為正數(shù),所以此音頻具有混沌特性。
華覺明:就傳統(tǒng)工藝學(xué)科建設(shè)的建制化而言,工藝美術(shù)院校和相關(guān)研究機構(gòu)已相對完善,而其他手工藝的學(xué)科建設(shè)則相當(dāng)薄弱甚至有空白之處。必須正視這個事實,敦促主管部門采取措施彌補這一缺陷。專家學(xué)者具有專門的學(xué)識和廣博的視野,能把握方向,起著引領(lǐng)和指導(dǎo)的重要作用。在日本的“無形文化財”中,每一個項目都由一個專家組長期跟蹤、調(diào)查研究、監(jiān)管指導(dǎo)。專家提出重要的措施和決策,政府主管部門給予保障,負責(zé)實施。在我國,要想盡可能地發(fā)揮專家學(xué)者的引領(lǐng)和指導(dǎo)作用,基礎(chǔ)在于傳統(tǒng)工藝的學(xué)科建設(shè)及傳統(tǒng)工藝學(xué)科建設(shè)的建制化。
圖2 打擊樂信號的最大Lyapunov指數(shù)曲線和時域波形Fig.2 The maximum Lyapunov exponents curve and time domainwaveform of percussion signal
管樂音頻信號的最大Lyapunov指數(shù)曲線和時域波形如圖3所示。音頻信號在從無聲到有聲突然加載聲音時,Lyapunov指數(shù)會下降,但仍為正數(shù),隨著音頻信號的繼續(xù)輸出,Lyapunov指數(shù)趨勢較為平穩(wěn),在個別聲音突變處指數(shù)會出現(xiàn)向下浮動,負指數(shù)通常處在音頻過渡或者小能量信號幀中,所占概率不超過5%,圖中從統(tǒng)計意義上來看,音頻信號的頻域序列具有顯著的混沌特征。
圖3 管樂的最大Lyapunov指數(shù)曲線和時域波形Fig.3 The maximum Lyapunov exponents curve and time domain waveform of pipe signal
圖4 4類音頻信號的最大Lyapunov指數(shù)統(tǒng)計直方圖Fig.4 The histograms of the maximum Lyapunov exponents for four types of audio signals
除了對以上兩種器樂音頻信號的頻域序列最大Lyapunov指數(shù)進行了相關(guān)統(tǒng)計外,本文還對不同類型音頻信號最大Lyapunov指數(shù)的分布進行了直方圖統(tǒng)計。圖4分別表示管樂、鍵盤樂、弦樂和打擊樂的最大Lyapunov指數(shù)統(tǒng)計直方圖,圖5表述了語音信號最大Lyapunov指數(shù)的分布情況,可見各個類型的音頻信號頻譜序列的最大Lyapunov指數(shù)均為正數(shù)。
圖5 語音信號的最大Lyapunov指數(shù)統(tǒng)計直方圖Fig.5 The histogram of the maximum Lyapunov exponents for speech signal
為了進一步驗證具體器樂音頻信號的非線性特性,本文還對音頻信號頻域序列的平均最大Lyapunov指數(shù)進行了統(tǒng)計,如表1所示。
表1 器樂音頻信號頻域序列的平均最大Lyapunov指數(shù)Table 1 The average maximum Lyapunov exponents of the spectrum series for instrumental audio signal
由圖4、圖5和表1的統(tǒng)計結(jié)果可以看出,各段音頻信號最大Lyapunov指數(shù)分布大于零且平均值也大于零,并未出現(xiàn)負值,即便出現(xiàn)負值,若其概率不超過5%,在統(tǒng)計意義上仍可視此音頻信號具有混沌特性。
通過以上實驗可以證明,音頻信號的頻域序列具有典型的非線性特性,這為非線性動力學(xué)理論引入音頻信號處理領(lǐng)域奠定基礎(chǔ)。可以從奇異吸引子重構(gòu)相空間的角度研究音頻系統(tǒng)的動力學(xué)特性和本質(zhì)規(guī)律,并利用相關(guān)混沌理論對音頻信號的頻譜進行更加精確地分析、處理和控制,這具有很重要的理論和實際意義。
本文針對音頻信號頻域信息的非線性特性分析展開研究。首先利用MDCT來對音頻信號進行時頻分析,并基于時間延遲法利用適當(dāng)?shù)难舆t時間和嵌入維數(shù),重構(gòu)出音頻信號MDCT域信息的相空間,最終實現(xiàn)一種基于最大Lyapunov指數(shù)的音頻信號MDCT系數(shù)混沌特性分析方法。相關(guān)統(tǒng)計結(jié)果證明,各類音頻信號的頻譜信息具有明顯的非線性特性,這為非線性動力學(xué)理論引入音頻信號處理領(lǐng)域奠定了基礎(chǔ)。
[1] 閆潤強.語音信號動力學(xué)特性遞歸分析[D].上海:上海交通大學(xué),2006.YAN Run-qiang.Recurrence Analysis of Dynamical Characteristics for Speech Signals[D].Shanghai:Shanghai Jiaotong University,2006.(in Chinese)
[2] 胡水清,張宇,華一滿,等.漢語語音的非線性動力學(xué)特性分析[J].聲學(xué)學(xué)報,2000,25(4):329-334.HU Shui-qing,ZHANG Yu,HUA Yi-man,et al.Nonlinear Dynamic Characteristic Analysis of Speech for Chinese[J].Acta Acustica,2000,25(4):329-334.(in Chinese)
[3] 沙永濤.音頻頻帶擴展技術(shù)研究[D].北京:北京工業(yè)大學(xué),2010.SHA Yong-tao.Research on Bandwidth Extension of Audio Signals[D].Beijing:Beijing University of Technology,2010.(in Chinese)
[4] Yong-tao Sha,Chang-chun Bao,Mao-shen Jia,et al.High frequency reconstruction of audio signal based on chaotic prediction theory[C]//Proceeding of IEEE International Conference on Acoustics Speech and Signal Processing.Dallas,Texas,USA:IEEE,2010:381-384.
[5] Xin Liu,Chang-chun Bao,Mao-shen Jia,et al.Nonlinear Bandwidth Extension based on Nearest-Neighbor Matching[C]//Proceeding of the Second Asia-Pacific Signal and Information Processing Association Annual Summit and Conference.Biopolis,Singapore:APSIPA,2010:169-172.
[6] 許小可.基于非線性分析的海雜波處理與目標(biāo)檢測[D].大連:大連海事大學(xué),2008.XU Xiao-ke.Sea Clutter Processing and Target Detecting Based on Nonlinear Analysis[D].Dalian:Dalian Maritime University,2008.(in Chinese)
[7] 韓敏.混沌時間序列預(yù)測理論與方法[M].北京:中國水利水電出版社,2007.HAN Min.Prediction theory and method of chaotic time series[M].Beijing:China Water Power Press,2007.(in Chinese)
[8] 劉秉正,彭建華.非線性動力學(xué)[M].北京:高等教育出版社.2004.LIU Bing-zheng,PENG Jian-hua.Nonlinear dynamics[M].Beijing:Higher Education Press,2004.(in Chinese)