喬 艦,范淑芬
(1.中國礦業(yè)大學(xué) 理學(xué)院,北京 100083;2.中央民族大學(xué) 附屬中學(xué),北京 100081)
?
小波非參數(shù)回歸分析方法的實現(xiàn)及比較研究*
喬艦1,范淑芬2
(1.中國礦業(yè)大學(xué) 理學(xué)院,北京 100083;2.中央民族大學(xué) 附屬中學(xué),北京 100081)
摘要:旨在利用小波進行非參數(shù)回歸分析.比較了基于小波核、小波基展開與小波閾值理論的三種非參數(shù)回歸分析實現(xiàn)方法.分析了三種方法的理論基礎(chǔ)、相互關(guān)系、優(yōu)缺點,通過對實現(xiàn)過程中未知參數(shù)的選擇標準進行定義,進行了相應(yīng)的數(shù)值模擬.結(jié)果表明:文中給出的模型適用條件、參數(shù)選擇標準、自變量適用條件不滿足時修正算法的合理性.
關(guān)鍵詞:小波;非參數(shù)回歸分析;小波基;小波閾值
小波理論可以為非參數(shù)回歸提供迄今最新的強有力工具[1].從20世紀90年代開始,非參數(shù)回歸分析方法主要由小波閾值理論所主導(dǎo).基于小波的非參數(shù)回歸本質(zhì)上是基于正交基的非參數(shù)回歸分析方法的特例,但由于其快捷的實現(xiàn)算法以及良好的可視化效果,又被稱為小波收縮、曲線估計或小波回歸.盡管基于小波理論的非參數(shù)回歸分析應(yīng)用廣泛,但對于其實現(xiàn)方法的比較研究卻未見報道.本質(zhì)上基于小波的非參數(shù)回歸分析主要基于三種不同的理論基礎(chǔ):小波核、小波基展開與小波閾值理論.考慮標準的單變量回歸分析問題
(1)
式中:Yi為已知含噪因變量觀測樣本;Xi為已知自變量觀測樣本;g(X)為未知待估回歸函數(shù);εi為隨機誤差項,假定獨立同分布于均值為零,方差為σ2的正態(tài)分布.標準單變量回歸分析問題一般可通過兩種模式進行定義:①固定設(shè)計,其中自變量Xi非隨機抽樣得到,應(yīng)該記為xi;②隨機設(shè)計,其中(Xi,Yi)為獨立同分布的二維隨機變量.兩種模式下研究目標都是基于含噪觀測樣本Yi估計回歸函數(shù)g(X).
1三種理論基礎(chǔ)下小波回歸估計量
1.1基于小波核的小波回歸估計量
基于核理論的密度函數(shù)估計為
(2)
基于小波理論的線性密度函數(shù)估計為
(3)
通過式(2)與式(3)之間的類比,可得
(4)
即窗寬為h的核函數(shù)與分辨率為J的再生核函數(shù)在密度函數(shù)估計中的作用相當,由于∫REJ(x,y)dy=1,EJ(x,xi)又被稱為分辨率為J的小波核.
固定設(shè)計情形下,文獻[2]基于g(X)的Gasser-Muller核估計量給出了相應(yīng)情形下基于小波核的估計量
(5)
進一步,基于隨機設(shè)計情形下g(X)的Nadaraya-Watson核估計量給出了相應(yīng)情形下基于小波核的估計量
(6)
式中:J∈Z為某分辨率.
運行以上兩種估計量時,需要事先選定小波父函數(shù)φ(x)及分辨率J.小波父函數(shù)φ(x)在小波估計中的作用類似核估計中的核函數(shù),對估計結(jié)果的影響遠小于分辨率J.文獻[3]構(gòu)造的具有指定光滑度的緊支撐非對稱正交小波基族在統(tǒng)計學(xué)中應(yīng)用最為廣泛,文中采用了具有5階消失矩的Daubechies小波函數(shù)族.分辨率J在小波估計中的作用類似核估計中的窗寬,但由于取值整數(shù),相對核估計中的窗寬取值范圍小了許多,可通過最小化交叉驗證估計量來選擇相應(yīng)參數(shù)J[2],交叉驗證估計量為
(7)
1.2基于小波基的小波回歸估計量
若式(1)中xi=i/n,i=1,…,n,n=2J;假定g(x)為區(qū)間[0,1]上的平方可積函數(shù),則由小波多分辨率分析理論,g(x)在分辨率J所在尺度函數(shù)空間的正交投影為
(8)
式中:cJ,k為對應(yīng)φJ,k(x)的小波父函數(shù)系數(shù).
小波基展開式為
(9)
式中:φJ,k(x)為分辨率為J平移參數(shù)為k的小波母函數(shù);dj,k為對應(yīng)φJ,k(x)的小波母函數(shù)系數(shù).
基于式(8),文獻[4]給出g(x)小波估計量為
(10)
式中:φJ,k(xi)為分辨率為J平移參數(shù)為k的小波父函數(shù)在xi點處的取值.
在式(9)、式(10)的實現(xiàn)過程中,小波父函數(shù)φ(x)及分辨率J的確定可參照本文基于小波核的實現(xiàn)過程;在式(10)的實現(xiàn)過程中還需確定門限閾值λ與閾值函數(shù)δ.對于閾值函數(shù)δ,文獻[5]給出了軟閾值和硬閾值函數(shù),分別定義為
1.3基于小波收縮的小波回歸估計量
k=0,1,…,2j-1
(11)
2三種小波回歸估計量的比較
三種不同理論基礎(chǔ)下的小波估計量本質(zhì)上可分為線性估計量和非線性估計量兩類,文中式(4)、式(9)為線性估計量;式(10)、式(11)為非線性估計量.式(4)、式(9)是通過對式(7)的小波父函數(shù)系數(shù)進行估計來實現(xiàn),均假定函數(shù)g(x)為分段常數(shù)函數(shù),即
(12)
自變量取值區(qū)間非(0,1)、非等間距、樣本容量非2J的處理方式:由于基于小波基展開或小波收縮理論的回歸估計量都是建立在自變量取值在區(qū)間(0,1)內(nèi)、等間距排列、樣本容量為2J的前提條件下.當條件不滿足時,盡管可以使用基于小波核理論的回歸方法,但由于在其實現(xiàn)過程中快速離散小波變換算法不可使用,故而算法實現(xiàn)速率較慢,需將自變量取值區(qū)間非(0,1)、非等間距、樣本容量非2J的自變量取值進行相應(yīng)處理.常見的處理方式有兩種:
(13)
(14)
式(13)~(14)所形成二維變量(tk,sk)為滿足小波基或小波收縮理論回歸估計要求的對應(yīng)于原始二維樣本變量(xk,yk)的相應(yīng)數(shù)據(jù),式(13)主要用于基于小波基展開的回歸分析;式(14)為Matlab軟件實現(xiàn)小波回歸程序算法,主要用于基于小波收縮的回歸分析.
三種基于小波的非參數(shù)回歸估計結(jié)果在待估函數(shù)支撐的邊界點附近存在邊界效應(yīng),盡管基于小波核的估計中核函數(shù)隨待估數(shù)據(jù)點而變化.常見處理方式為在待估區(qū)間左右邊界點處將原始數(shù)據(jù)反對稱排列形成新的數(shù)據(jù),然后基于新的數(shù)據(jù)在待估區(qū)間上估計回歸函數(shù).
3算例及分析
假定(xi,yi)來自于模型Yi=2Xi+sin(9πXi)+εi,i=1,2,…,n,其中n=256,{xi}為從[0,1]中等間距抽樣得到,x0=0,xn=1,εi~N(0,0.22),基于此數(shù)據(jù)的小波回歸估計結(jié)果如圖1所示,小波基展開估計中通過交叉驗證得到最優(yōu)分辨率為4,小波收縮估計中使用了全局門限閾值和軟閾值函數(shù).
選取非參數(shù)回歸分析中的經(jīng)典數(shù)據(jù)集mcycle為分析對象,該數(shù)據(jù)包含了摩托車事故模擬試驗中摩托車加速時間xi和駕駛者頭部加速度數(shù)值yi,i=1,2,…,133,主要用于測試頭盔質(zhì)量,其中自變量xi非等間距抽取.基于此試驗數(shù)據(jù)的小波回歸估計結(jié)果如圖2所示,小波核估計中通過交叉驗證得到最優(yōu)分辨率為-2,原始數(shù)據(jù)插值等間距處理后的小波基展開估計中通過交叉驗證得到最優(yōu)分辨率為4,原始數(shù)據(jù)分區(qū)等間距處理后的小波收縮估計中使用了全局門限閾值和軟閾值函數(shù).
圖1 等間距模擬數(shù)據(jù)小波回歸結(jié)果
圖2 摩托車實例數(shù)據(jù)小波回歸結(jié)果
4結(jié) 論
基于小波理論的非參數(shù)回歸分析方法相對基于核理論的相應(yīng)分析方法,具有算法實現(xiàn)快捷,可視化效果較好的優(yōu)點,但其算法設(shè)計本身的理論基礎(chǔ)是不同的,如文中所述,主要有三種:小波核、小波基展開與小波閾值理論.
文中對這三類算法設(shè)計的理論基礎(chǔ),適用條件 進行了對比;對算法設(shè)計中未知參數(shù)的選擇標準進行了綜述;對三種小波估計量進行了分類對比;對不滿足算法設(shè)計適用條件的自變量類型給出了修正算法.數(shù)值分析結(jié)果:對于第一組模擬數(shù)據(jù),依據(jù)本文給出的參數(shù)選擇標準得到的估計結(jié)果對真實已知函數(shù)擬合效果良好;對于第二組實例數(shù)據(jù),依據(jù)文中給出的參數(shù)選擇標準進行的三種小波估計結(jié)果相差較小,說明文中給出的參數(shù)選擇標準及自變量適用條件不滿足時修正算法的合理性.
參 考 文 獻:
[1]童恒慶.經(jīng)濟回歸模型及計算[M].武漢:湖北科學(xué)技術(shù)出版社,1999.
TONG Hengqing.Economic Regression Model and Computation[M].Wuhan:Hubei Science Technology Press,1999.(in Chinese)
[2]ANTONIADS A,GROGOIRE G,MCKEAGUE W.Wavelet Methods for Curve Estimation[J].Journal of the American Statistical Association,1994,89(428):1340.
[3]DAUBECHIES I.Ten Lectures on Wavelets[M].Philadelphia:Society for Industrial and Applied Mathematicsatics,1992.
[4]ABRAMOVICH F,BAILEY T.C,SAPATINAS T.Wavelet Analysis and Its Statistical Applications[J].Journal of the Royal Statistical Society,2000,49(1):1.
[5]DONOHO D L,JOHNSTONE I M.Adapting to Unknown Smoothness via Wavelet Shrinkage[J].Journal of the American Statistical Association,2015,90(432):1200.
[6]BRUCE A G,GAO H Y.Understanding WaveShrink:Variance and Bias Estimation[J].Biometrika,1996,83(4):727.
[7]OGDEN R.T.Essential Wavelets for Statistical Applications and Data Analysis[M].Boston:Birkh?user Basel,1997.
[8]DONOHO D.L,JOHNSTONE I.M.Ideal Spatial Adaptation Via Wavelet Shrinkage[J].Biometrika,1994,81(3):425.
[9]KOVAC A,SILVERMAN B.W.Extending the Scope of Wavelet Regression Methods by Coefficient Dependent Thresholding[J].Journal of the American Statistical Association,1999,95(449):172.
[10]HARDLE W,KERKYACHARIAN G,PICARD D,et al,Wavelets,Approximation and Statistical Applications[M].New York:Springer Verlag,1998.
(責任編輯、校對張超)
【相關(guān)參考文獻鏈接】
趙文芝,夏志明,賀興時.基于小波的非參數(shù)回歸模型多變點檢測[J].2012,26(4):536.
李體政,曹艷平,李陽.前向神經(jīng)網(wǎng)絡(luò):一個新的非參數(shù)回歸方法[J].2009,22(2):207.
賀飛躍,朱敏慧,成濤.一類半?yún)?shù)回歸模型的經(jīng)驗似然[J].2010,23(2):155.
強懷博,吳瓊.線切割工藝參數(shù)優(yōu)化的非線性回歸模型[J].2011,31(7):621.
董威,孟奇,王堯.1JHA4Y軟磁材料矯頑力測量中的多元回歸法應(yīng)用[J].2006,26(4):312.
孫穎,楊君慧.Logistic回歸與分類樹模型的比較[J].2014,34(9):689.
穆靜,杜亞勤,王長元,等.小波包變換的圖像融合技術(shù)的研究[J].2005,25(4):356.
丁鋒,何正嘉,張新運.小波包分析在滾動軸承信號消噪處理中的應(yīng)用[J].2006,26(1):8.
張超.正交小波變換在鉆削刀具狀態(tài)特征提取中的應(yīng)用[J].2007,27(3):223.
樊亞軍,曹蔚,王蕊.利用改進的小波閾值算法進行圖像消噪處理[J].2007,27(6):567.
魏娟,馬穎.超小波多閾值估計的圖像去噪新方法[J].2011,31(1):84.
尚宇,劉素勤.基于分數(shù)階小波變換的心電信號去噪處理研究[J].2014,34(9):710.
張德生,張小靜,武新乾.通貨膨脹的非參數(shù)回歸模型[J].2007,27(1):95.
王志,吳紅芳.基于小波神經(jīng)網(wǎng)絡(luò)補償?shù)娘w艇滑??刂芠J].2011,31(5):465.
姚紅革,杜亞勤,劉洋.基于小波分析和BP神經(jīng)網(wǎng)絡(luò)的圖像特征提取[J].2008,28(6):568.
黃師娟,張德生,常振海,等.國際黃金價格的小波變換FAR預(yù)測模型[J].2009,29(1):84.
黨曉敏,趙鳳群,張菊梅.微分方程的Legendre小波方法[J].2009,29(6):589.
Implementation of and Comparison Between Nonparametric Wavelet Regression Analysis Methods
QIAO Jian1,F(xiàn)AN Shufen2
(1.College of Sciences,China Unversity of Mining and Technology,Beijing 100083,China;2.The High School Affiliated to Minzu University of China,Beijing 100081,China)
Abstract:The paper makes the nonparametric regression analysis based on wavelet.First,a comparison is made between the implementations of the three nonparametric regression methods based on wavelet kernel,wavelet base expansion and wavelet threshold theory,respectively.Then their theoretical basis,relationships,advantages and disadvantages are analyzed.Finally,the numerical simulations are made based on the review of the selection criteria of unknown parameters. The results show the rationality of the conditions for applying the models,of the criteria for selecting parameters,and of the modifination of the algorithm when the independent variable is not satisfied.
Key words:wavelet;nonparametric regression analysis;wavelet base;wavelet threshold
DOI:10.16185/j.jxatu.edu.cn.2016.05.002
收稿日期:2015-04-27
基金資助:中央高?;緲I(yè)務(wù)費(2015QS01)
作者簡介:喬艦(1977-),男,中國礦業(yè)大學(xué)講師,主要研究方向為風險管理.E-mail:qj@cumtb.edu.cn.
文獻標志碼:中圖號:O212A
文章編號:1673-9965(2016)05-0352-05