任艷敏,郜允兵,劉 玉
(1北京農(nóng)業(yè)信息技術(shù)研究中心,北京100097;2國家農(nóng)業(yè)信息化工程技術(shù)研究中心,北京100097;3農(nóng)業(yè)部農(nóng)業(yè)信息技術(shù)重點實驗室,北京100097)
耕地質(zhì)量數(shù)據(jù)的標(biāo)準(zhǔn)、規(guī)范化處理是耕地質(zhì)量大數(shù)據(jù)平臺建設(shè)的基礎(chǔ)性工作。國家及地方層面的耕地質(zhì)量調(diào)查監(jiān)測與評價工作一直在進行中,積累了豐富的數(shù)據(jù),為摸清耕地質(zhì)量底牌與制定管理決策等提供了有力支撐[1]。但耕地質(zhì)量監(jiān)測與評價的基礎(chǔ)數(shù)據(jù)為分散性點位,如何構(gòu)建高效、規(guī)范化的空間插值方法,快速、準(zhǔn)確獲取縣域乃至全國的耕地質(zhì)量指標(biāo)分布圖,是建設(shè)耕地質(zhì)量大數(shù)據(jù)平臺、服務(wù)宏觀決策等亟待解決的重要問題。
本研究基于國內(nèi)外文獻,梳理空間插值方法的概念、流程和精度影響因素等;從土壤理化性質(zhì)空間分異模擬、重金屬空間預(yù)測和環(huán)境屬性制圖3方面分析空間插值方法的應(yīng)用現(xiàn)狀,并結(jié)合耕地質(zhì)量大數(shù)據(jù)平臺建設(shè)的實際應(yīng)用需求,提出耕地質(zhì)量指標(biāo)插值制圖的深化研究方向,以期為耕地質(zhì)量數(shù)據(jù)標(biāo)準(zhǔn)化處理提供方法參考。
空間插值是在一定數(shù)量已知采樣點信息的基礎(chǔ)上,分析和發(fā)掘?qū)傩杂蚝涂臻g域的映射關(guān)系,通過空間建模生成充分逼近要素空間分布特征的數(shù)學(xué)模型,進而推求區(qū)域范圍內(nèi)其他未知點處的屬性信息[2]。理論假設(shè)是:空間位置越近的點,具有相似屬性值的可能性越大;反之,屬性值相似的可能性越小??臻g插值方法很多,按照不同的分類標(biāo)準(zhǔn),有不同的分類結(jié)果(表1)。
表1 空間插值方法的分類依據(jù)及主要類型
通常,空間插值通過對采樣點數(shù)據(jù)的加權(quán)平均預(yù)測未知點處的屬性值,計算公式如(1)所示。
其中,Z*(x)表示未知點處的預(yù)測屬性值,λi和Z(xi)分別表示第i個已知采樣點的權(quán)重和屬性值。λi一般與未知點到已知點的空間距離呈反比。
通過梳理,空間插值一般包括4個步驟(圖1):(1)數(shù)據(jù)收集與預(yù)處理,包括投影轉(zhuǎn)換、格式轉(zhuǎn)換、錯誤修正、異常值檢測等;(2)從空間分異和數(shù)據(jù)分布2方面進行樣點數(shù)據(jù)特征分析;(3)基于數(shù)據(jù)特征,選擇插值方法并設(shè)置參數(shù),開展插值分析計算;(4)基于精度檢驗指標(biāo),對插值方法及其結(jié)果進行綜合評價。
圖1 空間插值技術(shù)流程
精度是空間插值方法選擇的重要考量因素[2]。在方法選擇時,需結(jié)合樣點設(shè)計與空間分布以及數(shù)據(jù)本身分布特征來確??臻g插值結(jié)果的可信。
(1)樣點設(shè)計與空間分布。包括樣點數(shù)量、樣點密度、空間分布、時間變化等具體因素。其中,樣點數(shù)量和樣點密度主要通過影響變異函數(shù)的穩(wěn)定性和空間結(jié)構(gòu)來影響插值精度,樣點數(shù)量越多,密度越大,插值結(jié)果越精確[3-4];樣點的空間分布也對插值精度影響較大,空間上高度集聚分布的樣點,不同方法插值結(jié)果精度差異較小[5];在時間尺度上,數(shù)據(jù)的季節(jié)性變化也對插值結(jié)果產(chǎn)生重要影響。另外,樣點在不同地表類型中的分布特征,比如明顯或尖銳的地表變化、物理障礙的存在和地形差異等均會影響空間插值的精度[6]。
(2)數(shù)據(jù)本身分布特征。包括正態(tài)分布、各向同/異性、空間變異和精確性等方面。其中,樣點數(shù)據(jù)是否符合正態(tài)分布直接影響不同插值方法的插值結(jié)果與精度;各向同/異性特征主要影響克里金插值方法下的插值結(jié)果精度:樣點呈現(xiàn)各向同性時,插值效果較好;而呈現(xiàn)各向異性時,插值結(jié)果有偏差;空間變異主要受采樣間隔影響[7-8]:不考慮地理阻隔等因素影響,采樣間隔越大,變異越強,空間相關(guān)性越弱,插值精度越低;數(shù)據(jù)的精確性一般采用有無噪聲以及噪聲程度來表征,當(dāng)數(shù)據(jù)噪聲較多時,插值結(jié)果不理想。
另外,不同影響因素間可能存在相互作用,在評估插值精度時要充分考慮,即在插值方法、表面類型、采樣模式、噪聲與空間相關(guān)性等因素間的不同組合都會影響空間插值效果[9]。樣點密度、空間變異和采樣方式等也會交叉地影響插值精度。
空間插值精度驗證方法一般分為交叉驗證法和獨立數(shù)據(jù)集驗證法[2]。其中,交叉驗證法又包括去一法交叉驗證法(cross-validation with replacement)和k折交叉驗證法(k-fold cross validation)。在用來比較不同方法或同一方法不同參數(shù)選擇的插值結(jié)果時,交叉驗證法具有快速、經(jīng)濟的特點,被廣泛應(yīng)用在不同領(lǐng)域。而獨立數(shù)據(jù)集驗證法是估計空間不確定性更為直接和獨立的方法,精度更高,但需要額外采集驗證數(shù)據(jù)集,預(yù)測成本較高。
空間插值精度評價指標(biāo)包括絕對驗證指標(biāo)和相對驗證指標(biāo)。其中,絕對驗證指標(biāo)包括平均誤差、平均絕對誤差、均方根誤差等;相對驗證指標(biāo)包括散點圖、殘差圖、半方差函數(shù)殘差等。在實際應(yīng)用中,可根據(jù)樣點數(shù)據(jù)及其分布特點選擇部分指標(biāo),進行不同方法或同一方法不同參數(shù)設(shè)置情境下的插值結(jié)果精度或擬合效果的對比[2]。
從離散點到連續(xù)面的空間插值運算是耕地質(zhì)量監(jiān)測與評價工作的重要環(huán)節(jié)。本研究從土壤理化性質(zhì)空間分異模擬、土壤重金屬空間預(yù)測和土壤及其環(huán)境屬性制圖3方面總結(jié)耕地質(zhì)量空間插值方法的研究進展。
土壤在形成與發(fā)育過程中由于成土母質(zhì)受物理、化學(xué)、生物和人類活動等因素的不斷影響,使得土壤的各種理化性質(zhì)在一定程度上存在高度的時空異質(zhì)性[5],這也為空間插值方法的應(yīng)用發(fā)展提供了契機。(1)在土壤物理性質(zhì)插值方面,從20世紀(jì)70年代開始國內(nèi)外學(xué)者就已利用空間插值方法開展相關(guān)研究。如Burgess等[10]采用地統(tǒng)計技術(shù)分析了土壤屬性空間變異性,并對其進行了預(yù)測和模擬;Vauclin等[11]以沙粒含量為協(xié)同變量,使用協(xié)克里金法預(yù)測土壤含水量;McBratney等[12]以心土粉粒和沙粒為輔助屬性計算了表土粉粒含量的空間分布;Silvio J Gumiere等[13]使用反距離加權(quán)法、樣條函數(shù)法及克里金法對土壤物理特性和水分含量進行了空間插值預(yù)測;徐吉炎等[14]、張詩祁等[7]、孫智妍等[15]也先后對土壤沙質(zhì)和含水量等指標(biāo)進行了插值分析。(2)在土壤化學(xué)性質(zhì)方面,程先富等[16]、王勝利等[17]、龍軍等[6]、趙凱等[18]、馬利芳等[19]分別就土壤全氮、全鉀、有機質(zhì)等指標(biāo)進行了空間插值分析;安永龍等[8]、李莉婕等[20]、張貝爾等[3]、石淑芹等[21]、李曉婷等[22]根據(jù)地統(tǒng)計學(xué)的原理與方法,結(jié)合DEM、土地利用地理背景和GIS空間分析技術(shù),從分析土壤養(yǎng)分綜合指標(biāo)的空間變異性入手,研究了不同采樣數(shù)量和插值方法對土壤質(zhì)量預(yù)測精度的影響。以上研究有助于提供精細的土壤理化屬性空間模擬結(jié)果,對推動土壤質(zhì)量的定量化研究、精準(zhǔn)施肥、調(diào)整農(nóng)業(yè)結(jié)構(gòu)和優(yōu)化農(nóng)產(chǎn)品布局等具有重要意義。
準(zhǔn)確描述土壤重金屬含量及其空間分布是開展土壤重金屬污染修復(fù)和治理工作的基礎(chǔ)。土壤重金屬在空間分布上具有較強的空間異質(zhì)性和依賴性,空間插值可為其估測分析提供技術(shù)支撐[23-24]。土壤重金屬空間預(yù)測研究大致分為2個方向:(1)土壤重金屬空間分布特征及其影響因素[25-27]?,F(xiàn)有研究通過分析砷、鋅、銅、鉻、鈷、鎘、汞和鉛等重金屬污染類型、含量和空間變異結(jié)構(gòu),揭示區(qū)域分異背景下的污染成因或影響因素[28-29],對劃分污染區(qū)域、評估風(fēng)險等級等具有重要意義,其研究成果可為重金屬污染防治工作等提供參考[30-32]。(2)重金屬模擬預(yù)測中的插值方法選擇。陳思萱等[33]對比分析了反距離加權(quán)法、樣條函數(shù)法、普通克里金法在區(qū)域土壤中砷濃度估算精度、污染分布特征和污染格局空間區(qū)劃中的差異;章清等[34]在對比分析普通克里金、協(xié)克里金和與主成分相結(jié)合的協(xié)克里金3種空間插值模擬的精度后,提出最優(yōu)空間模型方法,進一步分析了研究區(qū)土壤銅含量的空間分布特征;侯沁言等[35]采用單因子指數(shù)法對比分析了不同插值方法應(yīng)用下的土壤重金屬空間分布特征;吳倩鑫等[36]通過比較普通克里金法和協(xié)克里金法的空間預(yù)測效果,建議根據(jù)土壤重金屬空間變異程度選擇空間插值方法;肖艷桐等[37]將土壤重金屬空間分析方法歸納為地統(tǒng)計學(xué)插值法、非地統(tǒng)計學(xué)插值法和組合插值法,闡釋了常用方法的插值特征、插值性能及其影響因素,明確了土壤重金屬插值方法的選擇原則,為特定研究區(qū)或采樣數(shù)據(jù)情境下的插值方法選擇提供參考。
空間分布制圖是土壤及其環(huán)境屬性空間變異性的最直觀表達形式,是管理者進行分析決策的基礎(chǔ)性資料。目前,常用的方法是利用易獲取的與土壤及其環(huán)境屬性密切相關(guān)的數(shù)據(jù),通過空間插值來推導(dǎo)區(qū)域內(nèi)其他未知點處的屬性信息。如Goovaerts[38]將土壤圖和實地采樣的土壤屬性信息結(jié)合,采用克里金方法實現(xiàn)了土壤屬性的高精度制圖;Zhang等[39]結(jié)合土地利用信息、土壤圖信息完成了不同組合下的土壤屬性制圖;Bourennane[40]以實際采集的含水量樣點為硬數(shù)據(jù),以采集的電阻率為輔助數(shù)據(jù),采用同位協(xié)同模擬法模擬了含水量的空間分布;Neumann[41]采用殘差克里金法研究了地下水水位的空間變異性,并對其進行制圖;Soutter等[42]使用地統(tǒng)計學(xué)對瑞士西部區(qū)域農(nóng)藥對地下水脆弱性影響進行評價并制圖;趙士鵬等[43]應(yīng)用克里金法進行了土壤環(huán)境背景值制圖;龐龍輝等[44]采用隨機森林模型制作了青海省表層土壤多要素屬性分布圖;張路偉等[45]以空間差異度為評價標(biāo)準(zhǔn),比較了不同插值方法的土壤屬性制圖效果;張世文等[46]探究了地學(xué)模型支持下區(qū)域土壤質(zhì)量數(shù)字制圖方法;王庫[47]利用回歸克里金法繪制了表層土壤全氮分布圖;檀滿枝等[48]將模糊c-均值算法和地統(tǒng)計學(xué)空間插值相結(jié)合,實現(xiàn)了區(qū)域土壤預(yù)測制圖。
當(dāng)前,耕地質(zhì)量領(lǐng)域常用的空間插值方法很多,明晰耕地質(zhì)量大數(shù)據(jù)平臺建設(shè)對空間插值方法的現(xiàn)實應(yīng)用需求,梳理常用插值方法的內(nèi)涵、流程、適用條件等,可為全國不同類型的耕地質(zhì)量指標(biāo)插值計算提供技術(shù)參考[49-52]。
《耕地質(zhì)量保護與提升行動方案》(農(nóng)農(nóng)發(fā)〔2015〕5號)首次提出要“建設(shè)耕地質(zhì)量大數(shù)據(jù)平臺”。耕地質(zhì)量大數(shù)據(jù)平臺是基于“耕地一張圖”,實現(xiàn)國家與省、市、縣各級耕地質(zhì)量監(jiān)測保護體系的數(shù)據(jù)共享、業(yè)務(wù)協(xié)同,最終為耕地質(zhì)量調(diào)查、監(jiān)測、評價、建設(shè)、保護等業(yè)務(wù)提供信息化支撐的平臺。對該平臺來說,耕地質(zhì)量監(jiān)測點是以點狀信息代表匯聚耕地基礎(chǔ)地理、立地條件、土壤自然屬性、土壤健康狀況、農(nóng)田建設(shè)管理等區(qū)域信息的重要資源,基于有限點推求區(qū)域尺度的空間插值預(yù)測分析是平臺數(shù)據(jù)處理的重要工作。如何構(gòu)建高效、規(guī)范化的適用于不同區(qū)域的空間插值方法,快速、準(zhǔn)確獲取縣域乃至全國尺度的耕地質(zhì)量指標(biāo)分布圖,是耕地質(zhì)量大數(shù)據(jù)平臺建設(shè)亟待解決的重要問題。
梳理全國耕地質(zhì)量監(jiān)測點數(shù)據(jù)發(fā)現(xiàn),不同區(qū)縣監(jiān)測點在采樣強度(監(jiān)測點間距及其自相關(guān)性等)、采樣策略(規(guī)則格網(wǎng)采樣、隨機采樣、分層采樣等)、空間分布特征(空間連續(xù)性、空間自相關(guān)等)、數(shù)據(jù)特點(符合正態(tài)分布、存在趨勢面等)等方面存在較大差異。監(jiān)測點情境不同,適用的空間插值方法也不同。為使插值結(jié)果最大限度地接近實際,在區(qū)域指標(biāo)運算時需結(jié)合當(dāng)?shù)乇O(jiān)測點組合特征合理選定插值方法。另外,在理論創(chuàng)新和技術(shù)進步的綜合支持下,將氣候、高程、地貌類型、植被、土壤等輔助變量納入空間插值模型,能有效提高結(jié)果精度[17,53]。但這種方法技術(shù)含量高、操作相對復(fù)雜,不適用于全國不同區(qū)域監(jiān)測點空間插值制圖。綜上,現(xiàn)階段需根據(jù)監(jiān)測點數(shù)據(jù)特征,充分利用已有成熟方法和流程化的插值模塊,探索面向全國的基于監(jiān)測點及其指標(biāo)特征的空間插值方法選擇路徑。
為實現(xiàn)耕地質(zhì)量定位監(jiān)測點不足、數(shù)據(jù)估計缺失以及對不同區(qū)域未知數(shù)據(jù)的推求,為耕地質(zhì)量大數(shù)據(jù)平臺提供方法規(guī)范、標(biāo)準(zhǔn)統(tǒng)一、描述準(zhǔn)確的數(shù)據(jù)成果,亟需圍繞以下4方面開展空間插值方法的深化研究。
(1)分區(qū)域空間插值方法研究。全國共有2000多個縣(市、區(qū)),各地區(qū)地形地貌、區(qū)位條件、地塊規(guī)模、種植結(jié)構(gòu)等差異較大,縣域內(nèi)部特征不同,加之表征耕地質(zhì)量的指標(biāo)多樣,全國采用統(tǒng)一的方法進行空間插值,不能精確表征監(jiān)測點及其指標(biāo)特征的局部差異。為使插值結(jié)果更貼合實際,未來可以借鑒《耕地質(zhì)量等級》(GB/T 33469—2016)中一級農(nóng)業(yè)區(qū)和二級農(nóng)業(yè)區(qū)的劃分結(jié)果,對全國縣域進行類型分區(qū),研究面向不同類型區(qū)的空間插值方法。
(2)考慮地理阻隔的空間插值方法研究。對于地貌起伏較大的山地丘陵區(qū),監(jiān)測點往往受山體、大型河流等地理阻隔因素影響,導(dǎo)致地理距離較近的樣點指標(biāo)值差異較大,如僅考慮地理距離進行空間相關(guān)性分析以及空間插值運算,會導(dǎo)致插值結(jié)果存在較大誤差。因此,未來在面向全國不同地理區(qū)位的縣域耕地質(zhì)量指標(biāo)插值預(yù)測時,探索考慮地理阻隔因素的空間插值方法具有較強的理論價值和現(xiàn)實意義。
(3)基于輔助變量的空間插值方法研究。在進行全國耕地質(zhì)量指標(biāo)值預(yù)測時,需盡量采用較為成熟的插值方法。這些方法在平原地區(qū)等常規(guī)情境下效果較好,插值精度能夠滿足應(yīng)用需要。然而,對于丘陵山地等地表起伏較大的地區(qū),由于一些極值點會被平滑掉,導(dǎo)致插值結(jié)果差強人意。為此,需針對典型區(qū)域,引入地形因子、成土母質(zhì)、土壤類型等輔助變量,并借助機器學(xué)習(xí)等算法,優(yōu)化模型參數(shù)進行指標(biāo)樣點插值,進而提升結(jié)果精度。
(4)空間插值功能模塊設(shè)計。耕地質(zhì)量插值制圖涉及的區(qū)域廣、指標(biāo)多,是一項復(fù)雜繁瑣的工作。在保證不同區(qū)域插值結(jié)果標(biāo)準(zhǔn)規(guī)范的同時提高插值分析效率,需在空間插值方法研究完善后,結(jié)合耕地質(zhì)量大數(shù)據(jù)平臺功能定位,設(shè)計、開發(fā)面向全國不同區(qū)域的空間插值功能模塊,將其作為一個子模塊掛到數(shù)據(jù)處理的整個鏈條上,并做好插值成果數(shù)據(jù)的規(guī)范存儲管理。