關(guān)海洋,唐燕武,楊聯(lián)強
(1.安徽大學 數(shù)學科學學院,安徽 合肥 230601; 2.安慶師范學院 數(shù)學與計算科學學院,安徽 安慶 246133)
?
基于懲罰回歸樣條的函數(shù)導數(shù)擬合
關(guān)海洋1,唐燕武2,楊聯(lián)強1
(1.安徽大學 數(shù)學科學學院,安徽 合肥 230601; 2.安慶師范學院 數(shù)學與計算科學學院,安徽 安慶 246133)
摘要:在函數(shù)形式未知,而已知該函數(shù)的帶誤差的離散數(shù)據(jù)點情況下,運用基于p次截斷冪基的懲罰回歸樣條擬合數(shù)據(jù)點,并在擬合出的曲線基礎(chǔ)上求出函數(shù)的一階導數(shù)。該方法將經(jīng)典最小二乘法和懲罰樣條方法進行結(jié)合,既考慮了擬合優(yōu)度,又兼顧擬合曲線的光滑性,模擬和實際應(yīng)用的例子顯示此種方法效果較理想。
關(guān)鍵詞:數(shù)據(jù)擬合;回歸;懲罰樣條;導數(shù)
函數(shù)導數(shù)的計算是理論分析和實際應(yīng)用中最常見的運算,但在很多情況下并不知道函數(shù)的初等形式,直接基于函數(shù)表達式的求導法則此時是無法使用的。例如,在現(xiàn)實世界中,有些函數(shù)只能收集到一些離散數(shù)據(jù)點(xi,yi),而且這些點是受到誤差影響的,即yi=f(xi)+εi,εi是隨機誤差項,且f未知,此時如何估計該函數(shù)的導數(shù)值。該類問題在工程技術(shù)、數(shù)據(jù)分析等實際問題中非常普遍,所以對它的研究頗為重要。已有的導數(shù)估計方法有Bessel方法和Akima方法[1],而邢永旭,張彩明[2]在此基礎(chǔ)上得到了基于三次參數(shù)曲線新的導數(shù)估計方法。JiguoCao,JingCai,LiangliangWang[3]提出參數(shù)懲罰樣條回歸方法估計函數(shù)及導函數(shù)曲線,并得出此種估計方法的精確性較高。江桂清[4]給出了連續(xù)約束和離散約束這兩種對風洞試驗所得的數(shù)據(jù)進行導數(shù)擬合方法,樊天薇[5]則給出了基于離散數(shù)據(jù)點的一階導數(shù)估計方法。本文給出一種新的基于p次截斷冪基的懲罰樣條回歸方法來擬合帶有噪音數(shù)據(jù)的函數(shù)及其導數(shù),并通過模擬和實際例子來演示該方法的有效性。
1懲罰回歸樣條擬合函數(shù)及其導數(shù)
對于給定的帶有噪音的數(shù)據(jù)點(xi,yi),i=1,2,…,n,設(shè)其隱含的函數(shù)關(guān)系表示為
yi=f(xi)+εi
其中εi~N(0,σ2)為隨機誤差項。f未知,將基于p次截斷冪基的樣條函數(shù)設(shè)為
其中
β=(β0,β1,…,βp,βp1,…,βpk)T
Y=(y1,y2,…,yn)T
X=(X1,X2,…,Xn)T
ε=(ε1,ε2,…,εn)T
則
Y=Xβ+ε
(1)
(2)
則Y的估計值
(3)
D=diag(0p+1,1k)
即D表示前p+1個元素為0后K個元素為1的對角矩陣。并設(shè)模型(1)擬合目標函數(shù)為
‖Y-Xβ‖2+λ2βTDβ
(4)
其中λ2βTDβ稱作懲罰項,λ稱作懲罰參數(shù),則β的廣義最小二乘估計量為
(5)
從目標函數(shù)的設(shè)置易知,懲罰參數(shù)λ是用其來控制擬合曲線的對數(shù)據(jù)的擬合優(yōu)度與曲線總體光滑度之間的平衡。如果太大的話會使得曲線整體過于光滑,而太小導致曲線波動性較大,對于它最優(yōu)值的選擇本文采用的是廣義交叉驗證GCV(generalized cross-validation)法,即通過搜索最佳的λ,使得如下定義的GCV得分達到最小[6,7]
則有擬合函數(shù)的一階導函數(shù)估計式為
2模擬
本節(jié)給出兩個模擬實例,以顯示本文所提出方法的擬合效果,所有計算、作圖、分析工作均在R3.02中完成。
圖1,圖2中擬合的均方誤差分別為
圖4函數(shù)及其擬合 圖5導數(shù)及其擬合
圖4,圖5中的擬合均方誤差為
3應(yīng)用
圖7是某次物理實驗測得的小車位移x隨時間t變化的散點圖以及利用本文提出的方法得出的擬合函數(shù)圖形。取截斷冪基的次數(shù)p=2,節(jié)點取所有時間點,圖8是圖7曲線的一階導函數(shù)圖,即本次實驗中的小車的瞬時速度曲線。
圖7位移隨時間變化圖 圖8速度隨時間變化圖
4總結(jié)
本文以基于截斷冪基的懲罰回歸樣條為工具,給出了一種在已知函數(shù)帶誤差的離散數(shù)據(jù)點集的情形下,估計該函數(shù)的導函數(shù)的方法。該方法首先針對離散數(shù)據(jù)點集,通過懲罰樣條回歸擬合出函數(shù)的近似表達式,該近似表達式是以多項式形式給出的,通過該多項式表達式從而可以簡潔的求出其導函數(shù)。該方法理論簡單,計算快捷,模擬效果顯示精確度較高,在實際應(yīng)用中,具有較好的應(yīng)用價值。
參考文獻:
[1] 法中.計算機輔助幾何圖形設(shè)計與非均勻有理 B樣條[M]. 北京:北京航天航空大學出版社,1994:78.
[2] 邢永旭,張彩明.基于三次參數(shù)曲線的導數(shù)估計方法[C].中國圖學新進展2007——第一屆中國圖學大會暨第十屆華東六省一市工程圖學學術(shù)年會論文集,2007:105-107.
[3] Cao J,Cai J,Wang L.Estimating curves and derivatives with parametric penalized spline smoothing[J].Statistics and Computing,2012,22(5):1059-1067.
[4] 江桂清.風洞試驗曲線及其導數(shù)的兩個擬合計算方法[J].空氣動力學學報,1982(1):60-65.
[5] 樊天蔚.用于曲線擬合的一個一階導數(shù)估計方法[J].數(shù)值計算與計算機應(yīng)用,1982,3(1):1-11.
[6] Ruppert D,Wand M P,Carroll R J. Semiparametric regression[M]. Cambridge university press, 2003:69.
[7] 靳云匯,金賽男.高級計量經(jīng)濟學(上冊)[M].北京:北京大學出版社,2007:39-40.
[8]Trevor Hastie, Robert Tibshirani,Jerome Friedman.The Elements of Statistical Learning [M].2004:81-83.
Fitting Derivative Function Based on Penalized Regression Spline
GUAN Hai-yang1,TANG Yan-wu2,YANG Lian-qiang1
(1.School of Mathematics and Computation Science, Anhui University, Hefei 230601, China;
2. School of Mathematics and Computation Science,Anqing Teachers College,Anqing 246133,China)
Abstract:When the function is not identified but its discrete data points are given, fitting function based on penalized spline with pth-degree truncated power basis is constructed, and the first derivative of function is given. The method combines classical ordinary least squares and penalized spline smoothing, both the goodness and the smoothness of fitting curve are considered, simulations and application show its good efficiency.
Key words:data fitting, regression, penalized spline, derivative
中圖分類號:O212.7
文獻標識碼:A
文章編號:1007-4260(2015)01-0013-03
DOI:10.13757/j.cnki.cn34-1150/n.2015.01.004
通訊作者:楊聯(lián)強,男,安徽桐城人,博士,安徽大學數(shù)學科學學院副教授,研究方向為數(shù)據(jù)分析與統(tǒng)計計算。
作者簡介:關(guān)海洋,男,安徽阜陽人,安徽大學數(shù)學科學學院碩士研究生,研究方向為統(tǒng)計學。