王吉凱
(中國人民解放軍61175 部隊,江蘇 南京 210000)
數(shù)字高程模型是在二維空間上對三維地形表面的客觀表達,它在二維平面上對研究區(qū)域進行網格劃分,形成格網空間架構,以覆蓋整個區(qū)域。地理學分析中的數(shù)字高程模型作為等高線地形圖的替代產品,其是科學研究、經濟建設和國防建設的基礎數(shù)據(jù)和有力工具,也是地理學分析、生物學等區(qū)域性科學基本參數(shù)的提供者和科學研究成果的表現(xiàn)形式。同時,各種不同分辨率的數(shù)字高程模型是數(shù)字繪圖和綜合必需數(shù)據(jù)[1]。在數(shù)字高程模型建立過程中的重要內容是格網點的高程內插計算,內插計算是構建數(shù)字高程模型的核心內容,貫穿了數(shù)字高距離模型的生產、品質控制、精度評價以及分析應用的所有環(huán)節(jié)[2]。在DEM 數(shù)據(jù)內插研究過程中,研究人員不僅對各種傳統(tǒng)方法在地形表面建模中的可行性、特點進行了充分而深入的研究,而且也引進相關學科的內插方法(例如克里金、有限元等內插技術),同時根據(jù)地形表面的特點發(fā)展地形數(shù)據(jù)的各種內插方法。
該文利用實際測量的GPS 數(shù)據(jù),運用廣義回歸神經網絡算法、反距離權法、普通克里格法以及多項式插值法對地形高程插值進行研究。
廣義回歸神經網絡是基于徑向基網絡的一種演變算法。該算法基于非參數(shù)回歸算法,使用樣本集充當驗證數(shù)據(jù),運用Parzen 非參數(shù)估計,以最大概率原則輸出廣義回歸神經網絡的運算結果。非線性逼近能力十分優(yōu)異,與徑向基相比,訓練更方便,廣義回歸神經網絡非常適合解決曲線擬合的問題。
x、y為隨機變量,其聯(lián)合概率密度為f(x,y),假設x的觀測值為x0,對y進行求導,那么y對x的回歸E(y|x0)如公式(1)所示。
那么在輸入為x0的情況下,y的輸出預測即為y(x0)。執(zhí)行Parzen 非參數(shù)估計,得到樣本數(shù)據(jù)集{xi,yi},根據(jù)公式(2)估計密度函數(shù)f(x0,y)。
式中:n為樣本容量;p為隨機變量x的維數(shù);σ為光滑因子,也就是高斯函數(shù)的標準差。
密度函數(shù)f(x0,y)公式中導數(shù)d(x0,xi)和d(y,yi)分別為x數(shù)據(jù)集xi的均方根誤差和y數(shù)據(jù)集yi的方差,如公式(3)所示。
將公式(3)的d(x0,xi)代入密度函數(shù),并交換求和與積分順序,如公式(4)所示。
式中:分子為所有訓練樣本算得的yi值的加權和;e-d(x0,xi)為權值。
廣義回歸神經網絡不需要訓練,但是平滑因子的值對網絡性能有很大的影響,并且需要優(yōu)化值。如果光滑因子取值非常大,那么d(x0,xi)趨近于0,y(x0)近似于所有樣本因變量的平均值。如果光滑因子趨近于0,那么y(x0)與訓練樣本的值非常接近,當需要預測的點在訓練樣本時,算得的預測值與樣本中的期望輸出非常接近,但是一旦給定新的輸入,預測的結果就會急劇變差,使網絡失去推廣能力,這種現(xiàn)象就是過學習[3]。
廣義回歸神經網絡由4 層構成,即輸入層、模式層、求和層和輸出層。設輸入層為X=[x1,x2,...,xn]T,其輸出層為Y=[y1,y2,...,yn]T。
1.1.1 輸入層
輸入層神經元的數(shù)量等于學習樣本中輸入向量的維數(shù),每個神經元是簡單的分布單位,并且將輸入變量直接傳遞到模式層[4]。
1.1.2 模式層
模式層神經元的數(shù)目等于學習樣本的數(shù)目n,每個神經元對應不同的樣本,而模式層神經元傳遞函數(shù)如公式(6)所示。
式中:σ為樣本標準差;X為網絡輸入變量;Xi為第i個神經元對應的學習樣本[4]。
神經元i的輸出為輸入變量與其對應的樣本X之間Eucd距離平方的指數(shù)平方Di2=(X-Xi)T(X-Xi)的指數(shù)形式。
1.1.3 求和層
在求和層中,使用2 種神經元進行求和。
第一種求和如公式(7)所示。
它對所有模式層神經元的輸出進行算術求和,其模式層與各神經元的連接權值為1,傳遞函數(shù)如公式(8)所示[4]。
式中:SD為傳遞函數(shù)。
第二種求和如公式(9)所示。
它對所有模式層的神經元進行加權求和,模式層中第i個神經元與求和層中第j個分子求和神經元之間的連接權值為第i個輸出樣本Yi中的第j個元素,傳遞函數(shù)如公式(10)所示[4]。
式中:k為無限值(因為式中存在n,所以用k代指)。
1.1.4 輸出層
輸出層中的神經元數(shù)目等于學習樣本中輸出向量的維數(shù)k,各神經元與求和層的輸出相除,神經元j的輸出對應估計結果(X)的第j個元素,如公式(11)所示[4]。
使用MATLAB 編程實現(xiàn)廣義回歸神經網絡對高程進行預測的功能,輸入歸一化后的信號X、Y通過中間節(jié)點(隱層點)作用于輸出節(jié)點,經過非線形變換產生輸出信號Z,并反歸一化X、Y值[5]。廣義回歸神經網絡的所有訓練樣本為輸入值X、輸入值Y、期望值Z0以及輸出值Z與期望值Z0的偏差。調節(jié)隱層與輸入節(jié)點的連接強度、隱層與輸出節(jié)點的連接強度以及閾值,使偏差沿梯度下降,通過不斷訓練學習,最終確定與最小誤差相適應的權值和閾值。經過學習訓練的神經網絡算法可以自動對相似的樣本信息進行計算,輸出擬合程度最高的結果。
該程序設置學習率為0.01,訓練精度要求為0.000 1,最大訓練次數(shù)為10 000 次,網絡輸入向量的最大值和最小值為歸一化后X、Y的最大值和最小值,設置每層神經元個數(shù),共設3 層神經元,每層個數(shù)分別為15、40 和1。誤差反向傳播神經網絡算法的隱含層的傳遞函數(shù)是“S”形函數(shù),輸出層是線性函數(shù)。前兩層使用雙正切“S”形函數(shù)傳輸函數(shù),“S”形函數(shù)(Sigmoid function)是誤差反向傳播神經網絡算法中常用的非線性作用函數(shù),由于誤差反向傳播神經網絡算法的傳遞函數(shù)必須可微,因此一般使用“S”形函數(shù)或者線性函數(shù)作為傳遞函數(shù)。第三層為線性傳輸函數(shù)。
選定Levenberg-Marquardt 訓練函數(shù),萊文拜格-馬夸特方法(Levenberg–Marquardt algorithm)能計算數(shù)值非線性最小化的解。該方法可以通過在計算時修改參數(shù)來實現(xiàn)梯度下降法和高斯算法的優(yōu)點,并優(yōu)化這2 種方法的缺點。核心思想就是用雅可比矩陣代替H 矩陣的計算,從而提高優(yōu)化效率。萊文拜格-馬夸特方法的優(yōu)點是可以優(yōu)化調節(jié),一旦下降過快,就可以改變參數(shù),使用小的阻尼系數(shù)λ,使該算法與高斯法類似,一旦下降過慢,就可以改變參數(shù),使用更大的λ,使算法與梯度下降法類似。
使用該神經網絡輸出預期值Z與實際值Z0進行比較,得出預測精度,并使用神經網絡得出該地區(qū)所有高程值并可視化,得到的平面地形圖和三維地形圖如圖1 和圖2 所示。
圖1 帶點地形圖
圖2 三維地形圖
該文采用廣義回歸神經網絡法、反距離權重法、克里格法以及多項式法的地表高程插值得到預測結果,并進行精度驗證和評價分析,得出預測值與驗證數(shù)據(jù)高程值對比,如圖3 所示。
由圖3 可知,數(shù)據(jù)點由低到高的離散程度逐漸變大,廣義回歸網絡方法在整個高程范圍內的數(shù)據(jù)點距擬合線平均距離最近,近似呈線性分布,擬合程度最高,其他方法隨著高程的增加逐漸變高,數(shù)據(jù)點離散程度提高,擬合程度逐漸降低。綜上所述,GRNN 方法擬合程度最高,其插值數(shù)據(jù)逐漸接近驗證數(shù)據(jù)。
圖3 離散回歸點線圖
該文用均方根誤差(RMSE)、方差(SSE)以及確定系數(shù)(R2)來評價預測精度,見表1。
表1 精度指數(shù)
對比發(fā)現(xiàn),在4 種方法中,廣義回歸神經網絡算法的均方根誤差、方差最小,確定系數(shù)最接近1。說明在樣本數(shù)據(jù)的數(shù)目和分布狀況均相同的條件下,廣義回歸神經網絡算法的插值精度最高,且使用廣義回歸神經網絡算法得到的均方根誤差的值達到比較理想的值(5)附近。綜上所述,廣義回歸神經網絡算法是4 種方法中最適合該地區(qū)進行地形擬合的插值算法。
該文以陜西省延安市安塞地區(qū)GNSS 實測高程數(shù)據(jù)為基礎,分別采用GRNN、O-Kriging、IDW 以及Polynome 方法對樣本點進行高程插值及精度驗證。結果表明,在樣本數(shù)據(jù)一定的情況下,GRNN 方法的插值精度明顯高于其他方法,是最適合該地形區(qū)域的插值算法。試驗證明該高程插值方法能夠較準確地插值未測量地區(qū)的高程,但是不能滿足對工程施工的精度要求,目前只能作為非精密測量區(qū)域的地形參考。且各種地表高程插值方法適用的地形特征不同,在實際使用過程中可能需要嘗試多種方法,以比較預測精度。