周 清,王奉偉
(1.東華理工大學(xué) 測(cè)繪工程學(xué)院,江西 南昌 330013;2.江西省數(shù)字國土重點(diǎn)實(shí)驗(yàn)室,江西 南昌 330013)
?
變形監(jiān)測(cè)缺失數(shù)據(jù)序列灰色建模方法探討
周清1,2,王奉偉1
(1.東華理工大學(xué)測(cè)繪工程學(xué)院,江西 南昌 330013;2.江西省數(shù)字國土重點(diǎn)實(shí)驗(yàn)室,江西 南昌 330013)
在測(cè)量工作中,由于氣候環(huán)境、觀測(cè)方法、觀測(cè)儀器以及觀測(cè)人員自身因素等多方面的原因,可能造成觀測(cè)數(shù)據(jù)的丟失或者不完全。文中針對(duì)這類數(shù)據(jù)的處理,采用加權(quán)平均法和三次樣條插值法對(duì)缺失數(shù)據(jù)進(jìn)行修復(fù),建立GM(1,1)模型,并與非等間隔預(yù)測(cè)模型進(jìn)行對(duì)比。通過兩組仿真數(shù)據(jù)和兩組實(shí)測(cè)數(shù)據(jù)驗(yàn)證發(fā)現(xiàn):對(duì)于呈指數(shù)增長的序列和高增長序列修復(fù)之后建模預(yù)測(cè)精度更高;三次樣條插值法數(shù)據(jù)修復(fù)后GM(1,1)建模預(yù)測(cè)精度較加權(quán)平均法預(yù)測(cè)精度更高;對(duì)于低增長序列,直接采用非等間隔建模預(yù)測(cè)精度更高。
缺失數(shù)據(jù);非等間隔建模法;加權(quán)平均法;三次樣條插值
對(duì)于時(shí)間序列而言,由于數(shù)據(jù)本身的相關(guān)性,若數(shù)據(jù)中存在缺失值,就會(huì)使得觀測(cè)序列本身的相關(guān)性產(chǎn)生變化,如果沒有合理的數(shù)據(jù)處理方法,那么必然會(huì)導(dǎo)致數(shù)據(jù)分析的不可靠,使得變形預(yù)報(bào)工作的準(zhǔn)確度大大降低[1]。因此,針對(duì)變形監(jiān)測(cè)工作中數(shù)據(jù)缺失這一情況,尋找一種合理的數(shù)據(jù)處理方法,使觀測(cè)數(shù)據(jù)能夠被合理利用而不至于完全丟失,同時(shí)又能滿足精度和準(zhǔn)確度的要求,則顯得尤為重要。對(duì)于變形監(jiān)測(cè)數(shù)據(jù)而言,通常采用灰色預(yù)測(cè)模型進(jìn)行建模。GM(1,1)模型是灰色系統(tǒng)理論的重要內(nèi)容,由于建模過程簡單,模型表達(dá)式簡潔,便于求解,能較好地對(duì)系統(tǒng)行為特征值進(jìn)行預(yù)測(cè),在很多領(lǐng)域得到了廣泛的應(yīng)用[2-7]。對(duì)于缺失數(shù)據(jù)序列的處理,本文分別采用直接將序列看成非等間隔序列進(jìn)行建模和對(duì)數(shù)據(jù)進(jìn)行修復(fù)后建立GM(1,1)模型,并對(duì)預(yù)測(cè)精度進(jìn)行比較分析。
設(shè)有非等間隔的數(shù)據(jù)序列為
(1)
(2)
對(duì)X(0)作1-WAGO生成,得到生成序列為
(3)
其中:
(4)
X(1)的GM(1,1)模型的白化微分方程形式為
(5)
其中α,μ為待定參數(shù),通過最小二乘有
(6)
式中:
(7)
解方程(5)得
(8)
由式(4)得
(9)
兩式相減得到差分還原公式為
(10)
2數(shù)據(jù)修復(fù)建模方法2.1加權(quán)平均法
加權(quán)內(nèi)插法是以待求點(diǎn)為中心,確定一個(gè)鄰域范圍,用落在鄰域范圍內(nèi)的點(diǎn)根據(jù)加權(quán)平均的方法內(nèi)插出待求點(diǎn)的值,即
(11)
2.2三次樣條插值
設(shè)采樣數(shù)據(jù)為
(12)
(13)
在此區(qū)間存在插值函數(shù)
(14)
式中的函數(shù)個(gè)數(shù)為k,還有4k個(gè)待定系數(shù),需要建立4k個(gè)方程才能確定方程中的各系數(shù)。為了保證三次樣條插值曲線的連續(xù)性,式(14)要滿足條件
(15)
(16)
為保證插值函數(shù)在離散數(shù)據(jù)點(diǎn)處的1階導(dǎo)數(shù)存在且連續(xù),需滿足條件
(17)
為保證插值函數(shù)在離散數(shù)據(jù)點(diǎn)處的2階導(dǎo)數(shù)存在且連續(xù),需滿足條件
(18)
由式(15)~(18)可知,為求解式(14)得系數(shù)4k還需要建立2個(gè)方程,并且不能只對(duì)插值函數(shù)在中間節(jié)點(diǎn)建立約束方程,同時(shí)也要對(duì)插值多項(xiàng)式在兩端點(diǎn)的狀態(tài)建立約束方程,也就是兩個(gè)邊界條件
(19)
由式(15)~(19)聯(lián)合可以求解式(14)4k個(gè)系數(shù)。
對(duì)缺失數(shù)據(jù)進(jìn)行修復(fù)之后,采用傳統(tǒng)的GM(1,1)模型對(duì)修復(fù)后的序列進(jìn)行建模。
3實(shí)例分析3.1低增長指數(shù)序列
表1 各模型預(yù)測(cè)結(jié)果與實(shí)際值對(duì)比(實(shí)例1)
從實(shí)例1的預(yù)測(cè)精度可以看出,對(duì)于低增長的指數(shù)序列,對(duì)數(shù)據(jù)進(jìn)行修復(fù)之后建立GM(1,1)模型預(yù)測(cè)精度明顯高于直接進(jìn)行非等間隔GM(1,1)模型的預(yù)測(cè)精度;并且三次樣條插值法對(duì)數(shù)據(jù)修復(fù)之后建模預(yù)測(cè)精度較加權(quán)平均法修復(fù)后建模預(yù)測(cè)精度更高。
3.2高增長指數(shù)序列
實(shí)例2:以x=e0.5(i-1),i=1,2,…,10生成原始數(shù)據(jù),x(0)={1.000,1.648 7,2.718 3,4.481 7,7.389 1,12.182 5,20.085 5,33.115 5,54.598 2,90.017 1}。由于數(shù)據(jù)增長較快,這是一個(gè)高增長指數(shù)序列。假設(shè)第5個(gè)數(shù)據(jù)丟失,分別采用非等間隔GM(1,1)模型,加權(quán)平均法修復(fù)后GM(1,1)模型,三次樣條插值修復(fù)后GM(1,1)模型對(duì)第11到第14個(gè)數(shù)據(jù)進(jìn)行預(yù)測(cè),結(jié)果見表2。
表2 各模型預(yù)測(cè)結(jié)果與實(shí)際值對(duì)比(實(shí)例2)
從實(shí)例2的預(yù)測(cè)精度可以看出,對(duì)于高增長指數(shù)序列,對(duì)數(shù)據(jù)修復(fù)之后建模預(yù)測(cè)精度明顯高于直接進(jìn)行非等間隔建模的預(yù)測(cè)精度;三次樣條插值法對(duì)數(shù)據(jù)修復(fù)之后建模預(yù)測(cè)精度較加權(quán)平均法修復(fù)后建模預(yù)測(cè)精度更高。
3.3實(shí)測(cè)低增長序列
實(shí)例3:利用文獻(xiàn)[9]某煉鋼廠鋼爐的沉降觀測(cè)點(diǎn)的10期沉降觀測(cè)數(shù)據(jù),x(0)={2.79,4.34,5.17,6.97,7.63,8.4,9.13,9.74,10.09,10.46},由于數(shù)據(jù)變化平緩,為低增長數(shù)列。假設(shè)第4個(gè)數(shù)據(jù)缺失,分別采用非等間隔GM(1,1)模型,加權(quán)平均法修復(fù)后GM(1,1)模型,三次樣條插值修復(fù)后GM(1,1)模型對(duì)第8到第10個(gè)數(shù)據(jù)進(jìn)行預(yù)測(cè),結(jié)果見表3。
從實(shí)例3的預(yù)測(cè)精度可以看出,對(duì)于低增長的序列,對(duì)數(shù)據(jù)直接進(jìn)行非等間隔建模的預(yù)測(cè)精度明顯高于對(duì)數(shù)據(jù)修復(fù)之后建模的預(yù)測(cè)精度,三次樣條插值法對(duì)數(shù)據(jù)修復(fù)之后建模預(yù)測(cè)精度和加權(quán)平均法修復(fù)后建模預(yù)測(cè)精度相當(dāng)。
表3 各模型預(yù)測(cè)結(jié)果與實(shí)際值對(duì)比(實(shí)例3)
3.4實(shí)測(cè)高增長序列
實(shí)例4:數(shù)據(jù)來源于文獻(xiàn)[10],原始數(shù)列x(0)={2.718,7.389,20.086,54.598,148.41,403.43,1 096.61}。由于數(shù)據(jù)增長較快,這是一個(gè)高增長序列。假設(shè)第3個(gè)數(shù)據(jù)缺失,分別采用非等間隔GM(1,1)模型,加權(quán)平均法修復(fù)后GM(1,1)模型,三次樣條插值修復(fù)后GM(1,1)模型對(duì)第6、7個(gè)數(shù)據(jù)進(jìn)行預(yù)測(cè),結(jié)果見表4。
表4 各模型預(yù)測(cè)結(jié)果與實(shí)際值對(duì)比(實(shí)例4)
從實(shí)例4的預(yù)測(cè)精度可以看出,對(duì)于高增長序列,對(duì)數(shù)據(jù)修復(fù)之后建模預(yù)測(cè)精度明顯高于直接進(jìn)行非等間隔建模的預(yù)測(cè)精度,三次樣條插值法對(duì)數(shù)據(jù)修復(fù)之后建模預(yù)測(cè)精度較加權(quán)平均法修復(fù)后建模預(yù)測(cè)精度更高。
通過實(shí)例分析發(fā)現(xiàn),對(duì)于呈指數(shù)增長的序列及高增長序列,對(duì)數(shù)據(jù)修復(fù)之后建模預(yù)測(cè)精度明顯高于直接進(jìn)行非等間隔建模的預(yù)測(cè)精度,三次樣條插值法對(duì)數(shù)據(jù)修復(fù)之后建模預(yù)測(cè)精度較加權(quán)平均法修復(fù)后建模預(yù)測(cè)精度更高;對(duì)于低增長的序列,對(duì)數(shù)據(jù)直接進(jìn)行非等間隔建模的預(yù)測(cè)精度明顯高于對(duì)數(shù)據(jù)修復(fù)之后建模的預(yù)測(cè)精度,三次樣條插值法對(duì)數(shù)據(jù)修復(fù)之后建模預(yù)測(cè)精度和加權(quán)平均法修復(fù)后建模預(yù)測(cè)精度相當(dāng)。
[1]BARZI F, WOODWARD M.Imputations of missing values in practice: results from imputations of serum cholesterol in 28 cohort studies[J].American journal of epidemiology,2004,160(1):34-45.
[2]李大軍,孫旭紅,湯擁軍.PGM(1,1)灰色預(yù)測(cè)模型及其應(yīng)用[J].華東地質(zhì)學(xué)院學(xué)報(bào),2002,25(1):40-43.
[3]周世健,賴志坤,藏德彥,等.加權(quán)灰色預(yù)測(cè)模型及其計(jì)算實(shí)現(xiàn)[J].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2002,27(5):451-455.
[4]何偉,李明,闞起源.抗差加權(quán)非等時(shí)距GM(1,1)模型在大型建筑物沉降預(yù)測(cè)中的應(yīng)用[J].測(cè)繪工程,2014,23(4):62-64.
[5]周永領(lǐng),黃其歡.非等間距WGM-AR模型在基坑周邊建筑物沉降預(yù)測(cè)中的應(yīng)用[J].測(cè)繪工程,2014,23(6):43-45.
[6]曹昶,樊重俊. 非等間距無偏GM(1,1)模型在建筑沉降預(yù)測(cè)中的應(yīng)用[J]. 測(cè)繪工程,2013,22(6):55-57.
[7]朱成林,花向紅,邱衛(wèi)寧,等. 改進(jìn)的灰色建模及在沉降監(jiān)測(cè)點(diǎn)重建中的應(yīng)用[J]. 測(cè)繪工程,2009,18(3):69-72.
[8]張菊清,陳再輝,魏建忠.DEM空間數(shù)據(jù)抗差內(nèi)插模型及其分析[J].測(cè)繪科學(xué),2007,32(6):33-34.
[9]黃聲享,劉經(jīng)南,柳響林.小波分析在高層建筑動(dòng)態(tài)監(jiān)測(cè)中的應(yīng)用[J].測(cè)繪學(xué)報(bào),2003,32(2):153-157.
[10] 王國興. GM(1,1)模型的改進(jìn)及應(yīng)用[J].應(yīng)用泛函分析學(xué)報(bào),2013,15(3):211-217.
[責(zé)任編輯:劉文霞]
The gray modeling method in missing datasequence of deformation monitoring
ZHOU Qing1,2,WANG Fengwei1
(1.School of Surveying and Mapping Engineering, East China University of Technology,Nanchang 330013,China;2,Jiangxi Province Key Lab for Digital Land,Nanchang 330013,China)
For the measurement work, because of the climatic environment, observation method, observation instrument and the factors of the observation, the data can be lost or incomplete. This paper proposes to repair the missing data by using weighed averaging method and the spline interpolation method.Then the GM(1, 1)model is established.Compared two methods with the non-equal interval forecasting model,the experimental results show that the models of repairing missing data have higher prediction accuracy for exponential growth and high growth sequence.But for the two methods,the prediction accuracy of the spline model is higher than the weighted averaging method.For the low growth sequences,the prediction accuracy of the non-equal interval method is higher than the other.
missing data; non-equal interval modeling method; weighted average method; spline
2015-12-22
江西省數(shù)字國土重點(diǎn)實(shí)驗(yàn)室開放研究基金資助項(xiàng)目(DLLJ201516);國家自然科學(xué)基金資助項(xiàng)目(41401437)
周清(1988-),女,碩士研究生.
P207;TU196
A
1006-7949(2016)12-0070-04