吳 靜,張德罡,李純斌
(1.甘肅農(nóng)業(yè)大學 草業(yè)學院/草業(yè)生態(tài)系統(tǒng)教育部重點實驗室/甘肅省草業(yè)工程實驗室/中-美草地畜牧業(yè)可持續(xù)發(fā)展研究中心,甘肅 蘭州 730070;2甘肅農(nóng)業(yè)大學資源與環(huán)境學院,甘肅 蘭州 730070)
地表是連續(xù)分布的曲面,但地面觀測的數(shù)據(jù)是離散的,不能完全覆蓋地表范圍,目前尚沒有很好的辦法找到一個曲面來覆蓋地表[1-4]。以地面觀測的樣本點數(shù)據(jù)為基礎來模擬連續(xù)地表曲面,傳統(tǒng)上多采用建立數(shù)字地面模型來實現(xiàn),即在現(xiàn)有的站點基礎上直接利用空間插值算法來進行插值。但存在站點較密集的地方插值效果好,精度高,而站點較少的地方則誤差較大的缺點[5]??梢圆捎孟冗M行站點加密,再進行空間插值的方法解決這一問題。辜智慧等[6]在錫林郭勒盟利用地統(tǒng)計學分析方法進行了站點的加密研究,認為增加站點是解決插值問題的手段之一。
中國西北地區(qū)氣象站點總數(shù)量少,分布不均勻[7-10],因而直接利用站點數(shù)據(jù)進行空間插值效果較差?!? ℃年積溫是重要的氣象要素,是草原綜合順序分類中的重要指標[11-14],試驗以西北地區(qū)的甘肅省為研究區(qū),利用人工神經(jīng)網(wǎng)絡方法,對≥0 ℃年積溫站點數(shù)據(jù)進行插值加密,以期改善西部地區(qū)由于氣象站點數(shù)量少、分布不均勻帶來的氣象要素空間插值結果誤差較大的問題。
研究采用甘肅省及陜西、寧夏、青海、新疆、內(nèi)蒙古周邊地區(qū)202個氣象站點1960~2009年逐日氣溫資料(圖1),各項數(shù)據(jù)來源于美國國家氣候數(shù)據(jù)中心(National Climatic Data Center,NCDC)第7版數(shù)據(jù)集(http:∥www.ncdc.noaa.gov/)以及中國氣象科學數(shù)據(jù)共享網(wǎng)(http:∥cdc.cma.gov.cn/satellite/)。
人工神經(jīng)網(wǎng)絡(Artificial Neural Network,ANN)不要求對事物機制有明確的了解,輸出結果取決于系統(tǒng)輸入和輸入輸出之間的權重,而權重的數(shù)值通過訓練樣本的學習獲得[15]。這種方式對解決機理尚不明確的問題特別有效,非常適合用來解決區(qū)域插值問題[16,17],該方法在氣象要素的插值方面已經(jīng)有了一定的應用,被認為是一種可行的方法[18,19]。
人工神經(jīng)網(wǎng)絡具有三層或三層以上的多層神經(jīng)網(wǎng)絡。最基本的神經(jīng)元網(wǎng)絡是三層網(wǎng)絡結構,即一個輸入層、一個隱含層(中間層)和一個輸出層。輸入層的功能是向神經(jīng)元網(wǎng)絡計算機提供信號,通常把模擬的感覺輸入到神經(jīng)網(wǎng)絡;隱含層是輸入與輸出層之間的層次,為神經(jīng)元網(wǎng)絡提供記憶和計算功能;輸出層輸出神經(jīng)元網(wǎng)絡的計算結果,也輸出處理元素實現(xiàn)其功能(圖2)。
圖1 甘肅省及周邊地區(qū)202個氣象站點分布Fig.1 Distribution of 202 meteorological stations inside and around Gansu Province
圖2 三層神經(jīng)網(wǎng)絡模型Fig.2 Common artificial neural network(ANN) model with three layers
圖2中,橢圓代表神經(jīng)元,也稱節(jié)點。隱含層用于模擬輸入數(shù)據(jù)的非線性模式,網(wǎng)絡可以有多個隱蔽層,每層的節(jié)點數(shù)可以不同。
輸入層用Pi表示(i為輸入層的節(jié)點數(shù));隱含層用hj=f(Sj)表示(j為隱含層的節(jié)點數(shù));輸出層用ok
=f(Sj)表示(k為輸出層的節(jié)點數(shù))。它們之間的關聯(lián)是:
輸入層Pi
(1)
(2)
輸入層只是輸入數(shù)據(jù)的接口而不對數(shù)據(jù)進行任何處理;隱含層和輸出層的節(jié)點都包含處理單元,所作的處理包括一個加權求和及變換操作。wji和wkj代表權重;通常采用線性函數(shù)和對數(shù)函數(shù)或S型函數(shù)(Sigmoid函數(shù))作為網(wǎng)絡的激活函數(shù),其表達式為:
(3)
人工神經(jīng)網(wǎng)絡的運行可分成2個階段即網(wǎng)絡學習(或訓練)和網(wǎng)絡的聯(lián)想。
根據(jù)神經(jīng)網(wǎng)絡的拓撲結構和信息流的傳遞方式,人工神經(jīng)網(wǎng)絡可以分為前饋網(wǎng)、反饋網(wǎng)和混合網(wǎng)3種形式。BP(Back Propagation)網(wǎng)絡是1986年由Rumelhart和McCelland為首的科學家小組提出,是按誤差逆?zhèn)鞑ニ惴ㄓ柧毜亩鄬忧梆伨W(wǎng)絡,是目前應用最廣泛的神經(jīng)網(wǎng)絡模型之一。
(1)氣象數(shù)據(jù)處理 根據(jù)≥0 ℃年積溫的定義,從原始的每日氣溫氣象數(shù)據(jù)中提取每年≥0 ℃的所有天數(shù)的加和,得到氣象站點逐年≥0 ℃年積溫數(shù)據(jù)。
(2)建立神經(jīng)網(wǎng)絡擬合≥0 ℃年積溫 在Matlab平臺上建立了含2個隱含層的BP神經(jīng)網(wǎng)絡(圖3)。
圖3 神經(jīng)網(wǎng)絡結構Fig.3 Structure of ANN
其中,輸入層有3組數(shù)據(jù),分別是經(jīng)度、緯度和海拔;輸出層一組數(shù)據(jù),為擬合值。第1隱含層有10個神經(jīng)元,第2隱含層有20個神經(jīng)元。
處理步驟:數(shù)據(jù)的歸一化處理用mapminmax函數(shù)將輸入數(shù)據(jù)集和目標數(shù)據(jù)集分別作歸一化處理(映射到[0,1]),以提高網(wǎng)絡訓練效率和去量綱。
數(shù)據(jù)分類:用dividevec函數(shù)打亂數(shù)據(jù)順序,抽取正常訓練用數(shù)據(jù)(train data),變量數(shù)據(jù)(validate data),以及測試數(shù)據(jù)(test data),可以使數(shù)據(jù)更加具備典型性和更優(yōu)良的泛化能力。
建立神經(jīng)網(wǎng)絡:用newff函數(shù)建立BP神經(jīng)網(wǎng)絡,設置網(wǎng)絡層數(shù),每層的節(jié)點數(shù),隱含層的傳輸函數(shù)等。
指定訓練參數(shù)進行訓練:設置最大訓練次數(shù),訓練目標,學習率、訓練算法等參數(shù),進行網(wǎng)絡訓練。完成訓練后,用sim函數(shù)調(diào)用訓練結果,輸入測試數(shù)據(jù),進行測試。
數(shù)據(jù)反歸一化處理:用mapminmax函數(shù)將結果進行反歸一化處理。
利用神經(jīng)網(wǎng)絡分別對分區(qū)已有站點數(shù)據(jù)訓練網(wǎng)絡,經(jīng)過多次訓練試驗和調(diào)整參數(shù),得到網(wǎng)絡輸出值與實測值擬合效果好的網(wǎng)絡;然后,用訓練好的網(wǎng)絡對加密的站點進行≥0 ℃年積溫擬合。
3.2.1 分區(qū)與站點加密 為提高插值精度,根據(jù)甘肅省地形和氣候特點,以六盤山和烏鞘嶺為分界線,將研究區(qū)劃分為東部,中部和西部,東部以隴東黃土高原為主,中部以隴中黃土高原為主,西部以河西走廊戈壁荒漠、沙漠為主。
通過神經(jīng)網(wǎng)絡,西區(qū)加密站點202個,中區(qū)加密站點102個,東區(qū)加密站點65個, 這樣將用于插值的氣象站點數(shù)量由202個增加為571個(圖4)。加密方法為隨機選點加密。
圖4 站點加密處理前后對比Fig.4 Comparison between Pre-and post increasing density of stations
3.2.2 圖表分析 用散點圖和曲線擬合圖從總體上來衡量網(wǎng)絡輸出值與實測值的吻合情況。以訓練樣點的實測值為橫坐標,以神經(jīng)網(wǎng)絡輸出值為縱坐標做出散點圖。圖4中散點的擬合直線越接近45°方向上的直線,則表明輸出值越接近實測值,結果越理想。以訓練點為橫坐標,網(wǎng)絡輸出值和實測值為縱坐標,畫出各點網(wǎng)絡輸出值與實測值的擬合曲線圖5。兩條曲線越相似,說明網(wǎng)絡輸出值與實測值越接近,結果越理想。
圖5 ≥0 ℃年積溫輸出值與實測值的散點Fig.5 Scatter Diagram of ≥0 ℃ annual accumulated temperature between output value and measured value
圖6 ≥0 ℃年積溫輸出值與實測值的曲線擬合Fig.6 Fitting Curve of ≥0 ℃ annual accumulated temperature between output value and measured value
注:綠色曲線代表實測值,藍色曲線代表訓練輸出值
3.2.3 精度評價 用平均絕對誤差(MAE)、平均相對誤差(MRE)和均方根誤差RMSE等指標對精度進行了評價。
(4)
(5)
(6)
式中:Zri為神經(jīng)網(wǎng)絡輸出值,Zpi為實際測定值,n為樣點數(shù)。
平均絕對誤差將各次輸出值與實測值的絕對誤差取絕對值后再求平均值,平均相對誤差等于絕對誤差與實測值之比的平均值,通常用百分數(shù)表示。均方根誤差等于輸出值與實測值偏差的平方和觀測次數(shù)n比值的平方根(表1)。
表1 神經(jīng)網(wǎng)絡擬合誤差Table 1 Fitting error of ANN
通過分析,東部要明顯好于中部和西部,而西部的精度最差,查看氣象站點的分布可以看出,東部的氣象站點分布密度明顯高于其他區(qū)域,而西部的氣象站點又為三者中最少。其中,相差最大的是MAE,東部要比西部低79.30 ℃。
將甘肅省劃分為東、中、西3個區(qū)域,利用氣象站點地面觀測≥0 ℃年積溫數(shù)據(jù),建立人工神經(jīng)網(wǎng)絡,擬合得到571個地面點數(shù)據(jù),并對3個區(qū)域結果精度進行了圖表及指標分析。結果表明:東部的插值精度明顯好于中部和西部,西部的插值精度最差,主要原因是氣象站點數(shù)據(jù)過于稀疏。
參考文獻:
[1] 李新,程國棟,盧玲.空間插值方法比較[J].地理科學進展,2000,15(3):260-265.
[2] 林忠輝,莫興國,李宏軒,等.中國陸地區(qū)域氣象要素的空間插值[J].地理學報,2002,57(1):47-56.
[3] 方書敏,錢正堂,李遠平.甘肅省降水的空間內(nèi)插方法比較[J].干旱區(qū)資源與環(huán)境,2005,19(3):47-50.
[4] 劉宇,陳泮勤,張穩(wěn).一種地面氣溫的空間插值方法及其誤差分析[J].大氣科學,2006,30(1):146-152.
[5] 張國平,晁瑗,許鳳雯,等.站點密度對泥石流當日雨量和前期有效雨量計算的影響[J].地理研究,2011,30(7):1237-1243.
[6] 辜智慧,史培軍,陳晉.氣象觀測站點稀疏地區(qū)的降水插值方法探討[J].北京師范大學學報(自然科學版),2006,42(2):204-208.
[7] 趙軍,楊梅,楊東輝.基于GIS的甘南高原積溫資源空間插值分析[J].甘肅科技,2010,26(13):40-42.
[8] 郭婧, 柳小妮, 任正超.基于GIS模塊的氣象數(shù)據(jù)空間插值方法新改進——以甘肅省為例[J].草原與草坪,2011,31(4):41-45.
[9] 吳靜,張德罡,李純斌,等.基于3S技術的天祝縣土地利用/土地覆蓋變化研究[J].草原與草坪,2007,27(6):29-32.
[10] 王紅霞,柳小妮,任正超,等.降水量的空間插值方法研究—以甘肅省為例[J].草原與草坪,2012,32(5):12-16.
[11] 李純斌.草原綜合順序分類系統(tǒng)第二級亞類的定量化研究——以甘肅省為例[D].蘭州:甘肅農(nóng)業(yè)大學,2012.
[12] 郭婧,柳小妮,任正超.基于AMMRR插值法的草地綜合順序分類研究——以甘肅省為例[J].草業(yè)科學,2012,29(3):384-391.
[13] 吳靜,李純斌,張德罡,等.適用于3S技術的草原綜合順序分類法水熱指標的改進[J].中國草地學報,2012(4):109-115.
[14] 吳靜,李純斌,胡自治,等.基于定量遙感的甘肅省草原綜合順序分類[J].農(nóng)業(yè)工程學報,2013,29(1):126-133.
[15] 張婷婷.遙感技術概論[M].鄭州:黃河水利出版社,2011.
[16] 李啟權,王昌全,岳天祥,等.不同輸入方式下RBF 神經(jīng)網(wǎng)絡對土壤性質空間插值的誤差分[J].土壤學報,2008,45(2):360-365.
[17] 邵月紅,張萬昌,劉永和,等.BP神經(jīng)網(wǎng)絡在多普勒雷達降水量的估測中的應用[J].高原氣象,2009,28(4):846-854.
[18] 金龍,覃志年,黃海洪,等.人工神經(jīng)網(wǎng)絡預報模型的過擬合研究[J].氣象學報,2004,62(1):62-70.
[19] 黃子洋,李毅,高太長.一種基于神經(jīng)網(wǎng)絡的氣象要素插值方法與分析[J].解放軍理工大學學報(自然科學版),2008,9(4):404-408.