嚴(yán)恒普, 楊聯(lián)強(qiáng), 戴習(xí)民
(1.安徽大學(xué)數(shù)學(xué)科學(xué)學(xué)院,安徽合肥230601; 2.合肥工業(yè)大學(xué)數(shù)學(xué)學(xué)院,安徽合肥230009)
?
基于懲罰回歸樣條的積分近似計(jì)算與應(yīng)用
嚴(yán)恒普1,楊聯(lián)強(qiáng)1,戴習(xí)民2
(1.安徽大學(xué)數(shù)學(xué)科學(xué)學(xué)院,安徽合肥230601;2.合肥工業(yè)大學(xué)數(shù)學(xué)學(xué)院,安徽合肥230009)
[摘要]提出一種利用懲罰回歸樣條擬合被積函數(shù)f(x),從而計(jì)算復(fù)雜積分f(x)dx的新方法.在僅知f(x)帶隨機(jī)擾動的離散數(shù)據(jù)點(diǎn)集的情況下,利用基于截?cái)鄡缧问降臉訔l基函數(shù),通過懲罰樣條回歸,給出函數(shù)的多項(xiàng)式擬合結(jié)果,再根據(jù)該多項(xiàng)式形式便捷計(jì)算出積分.模擬和實(shí)際應(yīng)用結(jié)果顯示該方法計(jì)算簡單快捷,并具有較好的準(zhǔn)確度.
[關(guān)鍵詞]懲罰樣條; 積分計(jì)算; 回歸
1引言
2懲罰回歸樣條與積分計(jì)算
對于給定的離散數(shù)據(jù)點(diǎn)集(xi,yi),i=1,2,…,n. 有多種方法可以發(fā)掘其內(nèi)在的函數(shù)關(guān)系yi=f(xi)+εi,在以截?cái)鄡缁鶚訔l函數(shù)為擬合工具情況下[6],通常設(shè)
(1)
記
y=(y1,y2,…,yn)′,D=diag[0p+1,1m],即D是由p+1個(gè)0和m個(gè)1構(gòu)成的對角矩陣.模型(1)的擬合方法設(shè)為添加了懲罰項(xiàng)的廣義最小二乘回歸,目標(biāo)函數(shù)為
‖y-Xβ‖2+λβ′Dβ,λ≥0,
(2)
其中λβ′Dβ稱作懲罰項(xiàng),其意義是控制擬合曲線對數(shù)據(jù)點(diǎn)的過度擬合現(xiàn)象,從而使得擬合曲線在擬合優(yōu)度與曲線總體光滑性之間達(dá)到一個(gè)良好的平衡,λ稱為懲罰參數(shù).
令L=(y-Xβ)′(y-Xβ)+λβ′Dβ,化簡后
L=y′y-2X′yβ+β′X′Xβ+λβ′Dβ,
(3)
(4)
(5)
懲罰參數(shù)λ的取值是使得如下定義的GCV(generalized cross-validation)得分取值最小的數(shù)值[6],
3模擬
本節(jié)給出兩個(gè)被積函數(shù)已知的實(shí)例來說明上節(jié)方法的應(yīng)用,并觀察計(jì)算結(jié)果.
如圖1a中所示,實(shí)曲線為原函數(shù)f(x)=sin2x+2e-16x2,虛線為擬合曲線,可以看出兩條曲線幾乎重合.圖1b為篩選最優(yōu)懲罰參數(shù)的結(jié)果圖,在R軟件中調(diào)用語句讀出λ=31.5.
a.離散數(shù)據(jù)點(diǎn)、原函數(shù)、擬合函數(shù) b. 懲罰參數(shù)取值 圖1 例1中離散數(shù)據(jù)點(diǎn)集、原函數(shù)和擬合函數(shù)圖像及懲罰參數(shù)取值圖
(6)
a.離散數(shù)據(jù)點(diǎn)、原函數(shù)、擬合函數(shù) b. 懲罰參數(shù)取值 圖2 例2中離散數(shù)據(jù)點(diǎn)集、原函數(shù)和擬合函數(shù)圖像及懲罰參數(shù)取值圖
(7)
從(6), (7)式相對誤差來看,本文提出的積分估計(jì)方法還是比較合理的.
方法比較:我們還把本文提出的估計(jì)積分的方法與文獻(xiàn)[1],[2]中提出的方法進(jìn)行了比較,首先可以借助Matlab的內(nèi)置函數(shù)求出
基于本文懲罰樣條回歸估計(jì)下的積分值為F1=0.7029668,文獻(xiàn)[1]中最佳積分值為F2=0.664468.相對誤差分別為e1=0.09%,e2=5.1%;使用文獻(xiàn)[2]中的方法計(jì)算出上述積的最佳值為F=0.634938,絕對誤差e=9.5%.結(jié)果表明本文提出的估計(jì)積分的方法優(yōu)于文獻(xiàn)[1],[2]中的方法.
4應(yīng)用
基尼系數(shù)[8,9](Gini coefficient)是20世紀(jì)初意大利經(jīng)濟(jì)學(xué)家基尼,根據(jù)洛倫茨曲線所定義的判斷收入分配公平程度的指標(biāo).基尼系數(shù)低于0.2表示收入過于公平;而0.4是社會分配不平均的警戒線,故基尼系數(shù)應(yīng)保持在0.2~0.4之間,低于0.2社會動力不足;高于0.4,社會不安定.基尼系數(shù)的理論值等于絕對公平曲線與洛倫茨曲線所圍面積與絕對公平曲線以下的面積之比.文章采用二次懲罰樣條擬合的方法來擬合洛倫茨曲線.數(shù)據(jù)來源于《2011年安徽省統(tǒng)計(jì)年鑒》,以2010年安徽省農(nóng)村居民人均年收入作為實(shí)證對象,計(jì)算出2010年安徽省農(nóng)村居民的基尼系數(shù),擬合結(jié)果如下:
圖3 洛倫茨曲線的擬合
如圖3,令絕對公平曲線與洛倫茨曲線所圍面積為A,洛倫茨曲線以下的面積為B.則基尼系數(shù)理論值
由此看來2010年安徽省農(nóng)村居民人均年收入分配比較公平.
5總結(jié)
本文以基于截?cái)鄡缁膽土P回歸樣條為工具,給出了一種在已知函數(shù)帶誤差的離散數(shù)據(jù)點(diǎn)集的情形下求取該函數(shù)的積分的方法.該方法首先針對離散數(shù)據(jù)點(diǎn)集,通過懲罰樣條回歸擬合出函數(shù)的近似表達(dá)式,該近似表達(dá)式是以多項(xiàng)式形式給出的,通過該多項(xiàng)式表達(dá)式可以簡潔的求出函數(shù)的積分近似值.該方法理論簡單,計(jì)算快捷,模擬效果顯示精確度較高,在實(shí)際應(yīng)用中,具有較好的應(yīng)用價(jià)值.
[參考文獻(xiàn)]
[1]李平樂.工程設(shè)計(jì)中一類定積分的近似計(jì)算[J].湖南工業(yè)大學(xué)學(xué)報(bào),2012,26(1):6-9.
[2]鄭立飛,解小莉,王潔.關(guān)于定積分近似計(jì)算中矩形法的誤差估計(jì)[J].高等數(shù)學(xué)研究,2011,14(001):5-6.
[3]劉清珺,陳婷,陳舜琮,等.正態(tài)分布積分近似計(jì)算公式及其在實(shí)驗(yàn)結(jié)果判定中的應(yīng)用[J].現(xiàn)代測量與實(shí)驗(yàn)室管理,2009(3):21-23.
[4]楊少華.Monte Carlo方法在定積分近似計(jì)算中的應(yīng)用[J].長春大學(xué)學(xué)報(bào),2012,22(2): 185-187.
[5]Al-Nasser A D, Al-Talib M.The ranked sample-mean Monte Carlo method for unidimensional integral estimation [J].Asian Journal of Mathematics & Statistics,2010,3(1):130-138.
[6]Ruppert D,Wand M P,Carroll R J. Semiparametric regression [M].Cambridge University Press,2003.
[7]靳云匯,金賽男.高級計(jì)量經(jīng)濟(jì)學(xué)[M].北京:北京大學(xué)出版社,2007.
[8]張建華.一種簡便易用的基尼系數(shù)計(jì)算方法[J].山西農(nóng)業(yè)大學(xué)學(xué)報(bào):社會科學(xué)版,2007,6(3):275-278.
[9]Al-Talib M M,Al-Nasser A D.Estimation of Gini-index from continuous distribution based on ranked set sampling[J].Electronic Journal of Applied Statistical Analysis,2008,1(1): 33-41.
Calculation of Integral Based on Penalized
Regression Spline and its Applications
YANHeng-pu1,YANGLian-qiang1,DAIXi-min2
(1.School of Mathematical Science,Anhui University, Hefei 230601,China;
2.School of Mathematics,Hefei University of Technology, Hefei 230009,China)
Abstract:This paper presents a new approach for calculating complex integral f(x)dx.When the discrete data points with errors of f(x) are given, the penalized regression splines are used to fit the function, and the fitted functions are expressed as polynomials. Then the integration can be calculated via the polynomials. Simulations and applications show that this method can be easily used and has good accuracy.
Key words:penalized splines; calculation of integration; regression
[基金項(xiàng)目]國家自然科學(xué)基金(11026076)
[收稿日期]2014-08-11
[中圖分類號]O212.7
[文獻(xiàn)標(biāo)識碼]C
[文章編號]1672-1454(2015)02-0056-05