黃 凱
(上海市測繪院,上海,200063)
在測量數(shù)據(jù)處理中,常常要對一系列觀測數(shù)據(jù)進行分析研究,這些數(shù)據(jù)通常與時間有很強的關聯(lián)性,通常稱它們?yōu)椤皠討B(tài)數(shù)據(jù)”或“時間序列”。在時間序列分析中,通常假定觀測誤差只含有偶然誤差,不含系統(tǒng)誤差,而在實際觀測數(shù)據(jù)中一般含有系統(tǒng)誤差。測量數(shù)據(jù)處理建立的動態(tài)處理模型中AR(p)模型、MA(q)模型、ARMA(p,q)模型等都是假定觀測值沒有系統(tǒng)誤差時建立的模型,存在模型誤差。
半?yún)?shù)回歸分析模型是一種既含有參數(shù)分量又含有非參數(shù)分量,本文將半?yún)?shù)回歸分析方法引入AR(p)模型,建立適于測量數(shù)據(jù)處理的理論與方法,在確定未知參數(shù)的同時能將模型誤差與偶然誤差分離開來,并對半?yún)?shù)模型的引入對精度的影響進行比較研究。
時間序列[1]的定義,由一串隨機變量…,x1,x2,x3,…構成的序列叫做隨機序列,用xt(t=…,1,2,3,…)或{xt}表示。如果下標t是整數(shù)變量,它代表著間隔的時刻增長量,而整數(shù)變量t即認為是指某時刻。建立時序模型的基本思想是認為同一變量在現(xiàn)在時刻的觀測值,在時間上同以前的觀測值是有聯(lián)系的,當然在新的時刻會出現(xiàn)未預料的新情況。因此,若記xt(t=…,-2,-1,0,1,2,…)是一個時間上無限伸展的序列,則可提出一種描述該序列的模型是xt=f(xt-1,xt-2,…)+at,這里的函數(shù)f把現(xiàn)在的情況同以前的情況聯(lián)系起來,而at表示時刻t出現(xiàn)的新情況,假定它是同t時前的情況無關的隨機因素。模型主要包括:
時間序列模型中只有有限項模型xt=φ1xt-1+φ2xt-2+…+φpxt-p+a1,稱為自回歸(Autoregressive)模型,其中p為自回歸的階,φ1,φ2,…,φp為自回歸系數(shù),at是均值為0、方差為σ2a的正態(tài)分布白噪聲,即at-NID(0,σ2a),符號NID表示獨立正態(tài)分布。這樣的模型記為AR(p)。
時間序列模型中只有有限項的模型xt=atθ1at-1-…-θqat-q稱為滑動(Moving Average)平均模型。這里q為模型的階次;θ1,θ2,…,θq為滑動平均系數(shù);at是白噪聲序列,其平均值為0,方差為σ2a。這樣的模型記為MA(q)。
為了使模型在擬合實際數(shù)據(jù)時具有更大的靈活性,有時在模型中既包含自回歸部分也包括滑動平均部分,這就是自回歸滑動平均模型。其表達式為xt-φ1xt-1-…-φpxt-p=at-θ1at-1-…-θqat-q簡記為ARMA(p,q)。其中p和q分別是自回歸部分和滑動平均部分的階數(shù),φi(i=1,2,3,…,p)和θi(i=1,2,3,…,q)分別是自回歸系數(shù)和滑動平均系數(shù)。
在測量數(shù)據(jù)處理中,通常假定觀測誤差只含有偶然誤差,不含系統(tǒng)誤差和粗差。觀測真值可表示為一組參數(shù)的線性函數(shù),在這種情況下,稱觀測值已被完全參數(shù)化,但實際上觀測值很難被完全參數(shù)化。首先,影響觀測值取值的因素很多,建立數(shù)學模型時往往無法考慮到所有的這些因素。其次,觀測值與參數(shù)之間的函數(shù)關系可能比較復雜,為了處理方便,經(jīng)常選擇較為簡單的函數(shù)關系來代替。因此,平差時建立的函數(shù)模型只是實際問題的近似表達,也就是說存在模型誤差。當模型誤差與偶然誤差相比是一個微小量時,忽略模型誤差不會對參數(shù)估計值產(chǎn)生太大的影響,而當模型誤差比較大時,就會對參數(shù)估計產(chǎn)生較大的影響,甚至會導致錯誤的結論。
上述問題得不到很好解決的主要原因在于沒有找到一個合適的數(shù)學模型來描述殘差的模型誤差或觀測值中的系統(tǒng)誤差。用半?yún)?shù)回歸分析模型既含有參數(shù)分量又含有非參數(shù)分量,用它描述實際問題時,更能充分地利用觀測值所提供的信息。將半?yún)?shù)回歸分析方法引入AR(p)模型,建立適于測量數(shù)據(jù)處理的理論與方法,在確定未知參數(shù)的同時能將模型誤差與偶然誤差分離開來,從而使這一問題得到解決。
AR(p)模型[3]為
在此模型中,通常假定A是期望為0的偶然誤差。也就是說除去觀測誤差,觀測值xi完全表示為參數(shù)φ的函數(shù)。如果模型不準確,或觀測值中有系統(tǒng)誤差,式(1)并不能嚴格成立,而改寫為
式中:S=[s1,s2,…,sN-1-p]T是一個描述模型誤差或系統(tǒng)誤差的N維未知向量[4]??紤]一般的情形,可認為模型誤差或觀測值的系統(tǒng)誤差的性態(tài)非常復雜,無法用少數(shù)參數(shù)表示,因此,給每個觀測方程增加一個待定量,也就是所謂的非參數(shù)分量。這樣再觀測方程中既有參數(shù)分量又有非參數(shù)分量,因此,式(2)稱為半?yún)?shù)模型[5]。
根據(jù)式(2)可寫出誤差方程為
根據(jù)最小二乘原理
得到法方程
式中:P為對稱正定方陣,是觀測值Y的權,未知量為參數(shù)φ和非參數(shù)S,共有N個,而方程只有N-P個。所以從式(5)無法得到唯一解,因此,需要修改平差準則。一個合理的選擇為
式中:R是一個適當?shù)恼ň仃?,稱為正規(guī)化矩陣,二次型STRS反映對向量S的某種度量,α是一個給定的純量因子,在極小化過程中對A和S起平衡作用,稱為平滑因子。這時可把平差問題歸結為一個條件極值問題。由拉格朗日乘數(shù)法[6],構造函數(shù)
將式(8)代入式(10),考慮到式(3),得
令H=XTPX,由于H可逆,所以有
由式(3)左乘P,考慮到式(8)、式(9),得
將式(12)代入式(13),經(jīng)整理得到令M=P+αR-PXH-1XTP,則
這樣就可以通過式(15)、式(12)及式(3)計算非參數(shù)分量的估值S、參數(shù)分量的估值及觀測值改正數(shù)A。通過分析得到的非參數(shù)分量,就可以重新認識所選的數(shù)學模型,從而實現(xiàn)對模型的精化。在上述分析中,平滑參數(shù)α、正規(guī)化矩陣R都是事先給定的量,R的選擇與具體問題有關。
數(shù)據(jù)來源:以某地東西向長約700m的短水準為例,見表1。
表1 數(shù)據(jù)來源
1)通過模型Y=Xφ+AT(AR模型),F(xiàn)檢驗求階數(shù)可得p=2。
2)通過AR(p)模型Y=Xφ+AT求解,編制程序將階數(shù)p=2代入計算得到結果如下:
XTX:(表示X的轉置乘以X后再求逆,它是2行2列的矩陣)
XTX×XT:(表示XTX乘以X的轉置,它是2行28列的矩陣)
3)通過半?yún)?shù)模型AT=Xφ+S-Y求解,編制程序將階數(shù)p=2、系數(shù)A=0.9(平滑系數(shù))計算得到結果如下:
φ:(φ是參數(shù)分量,它是2行1列的矩陣)
4)比較兩模型的結果如下:
圖1是分別用AR(p)模型和半?yún)?shù)模型求得的平差值圖。x坐標表示第i個數(shù)據(jù);y坐標表示各個平差值的大小。
圖1 AR(p)模型(虛線與▲)和半?yún)?shù)模型(實線與→)求得的平差值的比較圖
從圖中可以看出用AR(p)模型求得的平差值的變化較大而且快,曲線也不光滑;而用半?yún)?shù)模型求得的平差值的變化小,而且慢,曲線也非常光滑;由此可以看出當觀測值中存在粗差或模型中存在模型誤差時得出來的結果是不精確的或是錯誤的;而引入半?yún)?shù)后,就可以檢查出一般模型不能檢查出的粗差或模型誤差,提高結果的精度。
當AR(p)模型存在模型誤差或觀測值中含有未參數(shù)化的系統(tǒng)誤差時,常規(guī)的最小二乘平差很難發(fā)現(xiàn)和識別。使用附加系統(tǒng)參數(shù)的平差法,只能引入少量系統(tǒng)性參數(shù),往往無法描述復雜多變的模型誤差,若引入系統(tǒng)性參數(shù)太多,則可能引起過度參數(shù)化而導致法方程病態(tài)。從本文的算例可見,若對模型誤差不加處理,將給參數(shù)估計值帶來不利影響,甚至會導致錯誤的結論,引入半?yún)?shù)后,就可以檢查出一般模型不能檢查出的粗差或模型誤差,提高結果的精度。另外,模型誤差本身也是一種有用的信息,找到模型誤差的規(guī)律不僅可以對選用的數(shù)學模型加以改進,而且還可以根據(jù)這種信息對其他相關問題進行研究。
[1]吳云,孫海燕.半?yún)?shù)估計的自然樣條函數(shù)法[J].武漢大學學報:信息科學版,2004,29(5):398-401.
[2]胡宏昌.半?yún)?shù)模型的估計方法及其應用[D].武漢:武漢大學,2004.
[3]孫孝前,尤進紅.縱向數(shù)據(jù)半?yún)?shù)建模中的迭代加權偏樣條最小二乘估計[J].中國科學,2003,33(5):470-480.
[4]米川,張永杰.半?yún)?shù)模型與最小二乘配置模型的比較[J].測繪與空間地理信息,2010,33(5):206-208.
[5]潘雄,劉立龍,陳剛,等.半?yún)?shù)平差模型估計量的精度評定[J].測繪工程,2008,17(6):13-15.
[6]王成勇.半?yún)?shù)回歸模型研究綜述[J].數(shù)理統(tǒng)計與管理,2009,28(5):845-357.