唐東躍,唐偉靖
(1.浙江省河海測(cè)繪院,浙江杭州 310008; 2.浙江省煤炭測(cè)繪院,浙江杭州 310021)
整體最小二乘法在非線性擬合中的若干探討
唐東躍1?,唐偉靖2
(1.浙江省河海測(cè)繪院,浙江杭州 310008; 2.浙江省煤炭測(cè)繪院,浙江杭州 310021)
基于整體最小二乘的思想進(jìn)行曲線擬合,是整體最小二乘法應(yīng)用研究的熱點(diǎn)之一,它的基本要求是,在曲線擬合時(shí)要顧及因變量與自變量的誤差,它與普通的最小二乘法相比,是以正交距離的范數(shù)最小為約束準(zhǔn)則。本文先闡述了整體最小二乘法的原理及基本解算法,并對(duì)曲線方程進(jìn)行線性化,使之能夠進(jìn)行整體最小二乘法求解,最后結(jié)合實(shí)例說(shuō)明該方法的可行性和有效性。
整體最小二乘;奇異值分解;最小二乘;非線性回歸
長(zhǎng)期以來(lái),測(cè)繪工作者經(jīng)過(guò)不斷的研究與實(shí)踐,將基于高斯創(chuàng)立的最小二乘理論的經(jīng)典平差發(fā)展成完整的理論體系。在實(shí)際工程的測(cè)量或?qū)嶒?yàn)數(shù)據(jù)采集過(guò)程中,自變量與因變量都是通過(guò)一定觀測(cè)手段或儀器得到,觀測(cè)值都不可能避免存在誤差,在這種情況下,傳統(tǒng)的最小二乘法就不再適用了,它是有偏的,難以保證估計(jì)結(jié)果的最優(yōu)性,而且偏差的協(xié)方差也隨著自變量噪聲誤差的作用而增大。鑒于此,本文引入了整體最小二乘回歸問(wèn)題,它是考慮自變量與因變量同時(shí)存在誤差的一種求回歸方程參數(shù)解的方法。
整體最小二乘(Total Least Squares,TLS)的基本思想可歸納為:在觀測(cè)方程L=Ax中,不僅觀測(cè)向量L中存在誤差vL,同時(shí)系數(shù)矩陣A中也含有誤差vA。此時(shí),可用TLS方法求得參數(shù)^x。也就是說(shuō),在TLS中,考慮的是矩陣方程的求解。
求解上式整體最小二乘法的最優(yōu)化準(zhǔn)則:
‖?‖F(xiàn)是D的F(Frobenius)范數(shù),求解‖?‖F(xiàn)=min的問(wèn)題就是整體最小二乘問(wèn)題。為了得到滿足條件的解,通常采用奇異值分解方法進(jìn)行解算。
將線性相容方程L=Ax改為:
記增廣矩陣C=[AL],待求增廣矩陣^C=[^A^L],對(duì)增廣矩陣C進(jìn)行奇異值分解:
其中,∑=diag(σ1,σ2,…,σn,σn+1),σ1≥σ2≥…≥σn≥σn+1≥0。因σn+1≠0,增廣矩陣C的秩為n+1,故方程[AL][xT-1]T≈0為矛盾方程,為求得整體最小二乘解,待求的增廣矩陣C的秩應(yīng)為n。由矩陣定理,矩陣C=[AL]最佳逼近矩陣^C=[^A^L]必然滿足:
整體最小二乘改正量滿足:
其改正量為:
μn+1,vn+1分別為正交矩陣U和V的第n+1列,注意到,整體最小二乘的改正量[EAEL]的秩為1,有下式成立:
則整體最小二乘解可由增廣矩陣右奇異向量的最后一列vn+1得到,即:
2.1 一般方法
設(shè)觀測(cè)值為x的非線性函數(shù):
假定觀測(cè)值x有近似值x0則可將函數(shù)式(7)按泰勒級(jí)數(shù)在點(diǎn)x0處展開為:
這樣,就將非線性函數(shù)式(7)化成了線性函數(shù)式(10)。
2.2 化曲線回歸為直線回歸的特殊類型
通常利用直線檢驗(yàn)法或一階表差法檢驗(yàn)的曲線回歸方程都可以通過(guò)變量代換轉(zhuǎn)為直線回歸方程,這類曲線方程式有以下幾種類型:
顯然,式(12)中的各式都是直線回歸方程。任取式(12)中一個(gè)等式作說(shuō)明,如:
令:
則式(13)可以表示為:
故式(14)就是普通的一元直線方程。
以文獻(xiàn)[3]中139頁(yè)算例數(shù)據(jù)作比較分析,共有15組數(shù)據(jù)如下表1所示。
首先把樣本觀測(cè)數(shù)據(jù)點(diǎn)使用MATLAB軟件作樣本數(shù)據(jù)曲線圖,即圖1。由圖1可以看出曲線很像冪函數(shù)y=axb,因此取函數(shù)類型為y=axb。對(duì)等式兩邊取對(duì)數(shù)可以得到lny=lna+blnx。令y′=lny,x′=lnx,b0=lna,那么轉(zhuǎn)化后的數(shù)據(jù)變量值如表2所示。
圖1 樣本觀測(cè)數(shù)據(jù)曲線
樣本觀測(cè)值 表1
代換后的變量數(shù)據(jù)值 表2
方法1是以x′為自變量,考慮變量誤差的情況下得到的曲線方程,方法2是以為自變量,考慮x′變量誤差的情況下得到的曲線方程,比較2個(gè)方法,可以看出其解算結(jié)果是不一致的。方法3是x′,均存在誤差,建立的方程式為=b0+b的情況下計(jì)算結(jié)果;方法4也是變量x′,y′均存在誤差,建立的方程為=c0+c的情況下得到的結(jié)果,將它換算為統(tǒng)一的表達(dá)形式,方法3與方法4的結(jié)果完全相同。因此,在非線性回歸的問(wèn)題中,采用整體最小二乘平差進(jìn)行解算,其結(jié)果也不受方程式的建立方式的影響,得到的曲線方程式是唯一的。表3是4種方法的詳細(xì)比較。
四種方法的比較 表3
圖2 三種擬合方法的曲線圖
基于整體最小二乘的思想進(jìn)行曲線擬合,是整體最小二乘法應(yīng)用研究的一個(gè)熱點(diǎn)之一,它的基本要求是,在曲線擬合時(shí)要同時(shí)顧及因變量與自變量的誤差,與普通最小二乘法相比,是以正交距離殘差平和最小為約束條件。本章主要介紹了一元非線性函數(shù)方程的擬合方法,由圖2可以看出,兩種方法所得到的擬合曲線方程都很接近;但是,普通最小二乘法對(duì)自變量選擇不同的擬合方向,曲線方程的擬合結(jié)果是不同的。而采用整體最小二乘平差進(jìn)行解算,其結(jié)果也不受方程式的建立方式的影響,得到的曲線方程式是唯一的。
[1] Golub G H,Van Loan C F.An analysis of the total least squares problem[J].SIAM J.Numer Anal 1980,17(6): 883~893
[2] 萬(wàn)保峰,程新文,歐龍.TLS與LS數(shù)據(jù)處理方法對(duì)比研究[J].城市勘測(cè),2007(4)
[3] 費(fèi)業(yè)泰.誤差原理與數(shù)據(jù)處理[M].北京:機(jī)械工業(yè)出版社,2004
[4] 丁克良.整體最小二乘理論及其在測(cè)量數(shù)據(jù)處理中的若干應(yīng)用研究[D].武漢:中國(guó)科學(xué)院測(cè)量與地球物理研究所,2006
Discussion about Total Least Squares in Nonlinear Fitting
Tang Dongyue1,Tang Weijing2
(1.ZheJiang Surveying Institute of Estuary and Coast,Hangzhou 310008,China;2.ZheJiang Surveying Institute of Coal,Hangzhou 310021,China)
Curve fitting based on total least squares theory is one of the focus of total least squares application research.Its basic requirement is considering the error between dependent variable and independent variable.Comparing with the common least square,it takes the norm minimum of orthogonal distance as constraint criterion.This thesis discusses the principle and basic solution of total least squares,and linearizes curve equation for solution with total least squares.Finally it illustrates the feasibility and validity of this theory with examples.
Total least squares;singular value decomposition;least square;nonlinear regression
2011—01—13
唐東躍(1985—),男,助理工程師,主要從事河口、海岸水下測(cè)繪工作。
1672-8262(2011)05-107-03
P207
B