摘 要:為了探討采樣點(diǎn)數(shù)據(jù)聚集程度對(duì)于空間插值的影響,本研究采用藍(lán)田縣部分區(qū)域DEM數(shù)據(jù)為原始數(shù)據(jù),使用多種采樣方式模擬了150組具有不同空間聚集強(qiáng)度的試驗(yàn)數(shù)據(jù)集。建立了一種度量樣本數(shù)據(jù)集空間聚集程度差異的方法,對(duì)比不同樣點(diǎn)數(shù)、不同聚集程度采樣數(shù)據(jù)集普通克里金法(Ordinary Kriging,OK)插值精度的差異。結(jié)果表明:相同樣點(diǎn)數(shù)目情況下,空間聚集程度較高的樣點(diǎn)集插值精度小于空間聚集程度較低的樣點(diǎn)集;且隨著樣點(diǎn)數(shù)目增加,聚集強(qiáng)度差異對(duì)于OK插值精度的影響逐漸減小。故在樣點(diǎn)數(shù)量較少時(shí),樣點(diǎn)集聚集程度的識(shí)別和處理對(duì)于提高OK插值精度尤為重要。
關(guān)鍵字:普通克里金;采樣方式;樣點(diǎn)聚集程度;插值精度
中圖分類號(hào):S159.9 ? ? 文獻(xiàn)標(biāo)志碼:A ? ? 文章編號(hào):1003-5168(2022)1-0125-04
DOI:10.19968/j.cnki.hnkj.1003-5168.2022.01.028
Spatial Interpolation-Oriented Measure of Spatial Aggregation of Sampled Point Data
WANG Xiang1,2
(1.School of Earth Science and Resources, Chang'an University, Xi'an 710064,China;2.Research Center of Information Technology, Beijing Academy of Agriculture and Forestry Sciences, Beijing? 100097,China)
Abstract: In order to investigate the influence of data aggregation degree on spatial interpolation, this study used DEM data of some areas in Lantian County as the original data, and simulated 150 experimental data sets with different spatial aggregation strength using various sampling methods. A method was established to measure the differences in spatial aggregation of the sample data sets, and the differences in the interpolation accuracy of ordinary kriging (OK) were compared for different sets of data with the same number of points and different degrees of aggregation. The results show that the interpolation accuracy of the sample data set with higher spatial aggregation is smaller than that of the sample data set with lower spatial aggregation, and the effect of the difference in aggregation intensity on the interpolation accuracy of OK decreases as the number of sample points increases. Therefore, when the number of sample points is small, the identification and processing of the aggregation degree of the sample point set is especially important to improve the OK interpolation accuracy.
Keywords: ordinary kriging; sampling method; sample point aggregation;interpolation accuracy
數(shù)字空間制圖是對(duì)地理要素空間分布特征的反映[1],體現(xiàn)地理要素的形成與發(fā)展過程,在環(huán)境科學(xué)研究中具有廣泛的應(yīng)用。其制作過程大致分為四步:獲取研究對(duì)象數(shù)據(jù)、確定采樣方法與策略、選擇制圖模型方法、生成研究對(duì)象的數(shù)字化圖像[2]。獲取研究數(shù)據(jù)過程十分重要,地學(xué)研究中環(huán)境要素?cái)?shù)據(jù)信息的獲取比較困難,受到人力、物力、財(cái)力、研究區(qū)狀況等客觀因素的限制,樣點(diǎn)數(shù)量不可能無限多,通過采樣檢測的方式獲取研究對(duì)象的特征是環(huán)境科學(xué)研究常用的方法[3],但研究者要獲取的不僅僅是有限的采樣點(diǎn)處的研究對(duì)象的信息,更關(guān)注研究對(duì)象在空間的連續(xù)變化情況。如環(huán)境污染研究人員需要了解土壤中重金屬含量的連續(xù)變化情況,有針對(duì)性地開展污染治理工作;地貌地形研究人員不僅僅需要有限采樣點(diǎn)的高程、坡度,更關(guān)注地形在空間的連續(xù)變化情況。
空間插值技術(shù)就是根據(jù)給定的采樣點(diǎn)數(shù)據(jù)及其空間位置,擬合出一個(gè)能充分反映對(duì)象特征與空間位置間的數(shù)學(xué)關(guān)系的函數(shù)方程,從而獲得研究對(duì)象在整個(gè)研究區(qū)域空間上的連續(xù)分布情況。OK是一個(gè)確切估計(jì)器,使得其估計(jì)的隨機(jī)場在樣本點(diǎn)的取值與對(duì)應(yīng)觀測值一致[4],其他空間點(diǎn)的估計(jì)不會(huì)與實(shí)際情況相距太遠(yuǎn);這一優(yōu)勢使得OK法在環(huán)境科學(xué)領(lǐng)域、氣象、土壤、生態(tài)、水文等領(lǐng)域具有廣泛的應(yīng)用[5]。OK插值精度受制于多種因素的影響。采樣數(shù)目、采樣密度等都會(huì)影響OK插值過程及結(jié)果,進(jìn)而影響通過空間插值分析地理要素特性的空間分布和變異規(guī)律[6-11]。但是目前針對(duì)樣點(diǎn)空間分布對(duì)于OK插值影響的研究還比較少,本研究利用多種采樣方式模擬不同聚集程度采樣數(shù)據(jù),提出了一種度量采樣點(diǎn)數(shù)據(jù)空間聚集程度的方法,分析樣點(diǎn)數(shù)據(jù)集的樣點(diǎn)空間聚集程度對(duì)OK插值精度的影響規(guī)律,可為耕地質(zhì)量評(píng)價(jià)、土壤污染詳查等領(lǐng)域空間制圖提供理論借鑒。
1 研究區(qū)概況和數(shù)據(jù)來源
1.1 研究區(qū)概況
藍(lán)田縣位于西安市東南。本研究所采用的高程數(shù)據(jù)取自藍(lán)田縣東北的矩形區(qū)域,地理位置在北緯33°84′—33°97′,東經(jīng)109°07′—109°49′,東西長為10 km,南北寬為14 km,總面積為140 km2。研究區(qū)域北部連接橫嶺余脈,東南部毗鄰秦嶺山地,西部為平原,整體走勢呈現(xiàn)東高西低,境域內(nèi)最高點(diǎn)海拔為1 709 m,最低點(diǎn)海拔為211 m,平均海拔約為950 m。研究區(qū)域內(nèi)高程地形多樣,既包括平原等地形簡單區(qū)域,又包括山地等地形變化復(fù)雜區(qū)域,在此區(qū)域內(nèi)采樣能較好地模擬復(fù)雜多變地理要素的采樣過程,獲得真實(shí)可靠的試驗(yàn)數(shù)據(jù)。
1.2 數(shù)據(jù)來源及預(yù)處理
DEM數(shù)據(jù)來源于ASF Data Search平臺(tái),分辨率為12.5 m,通過對(duì)研究區(qū)域DEM進(jìn)行不同方式采樣,獲得多種聚集分布狀態(tài)的樣點(diǎn)數(shù)據(jù)集。根據(jù)等高線密集程度的差異,選擇目的性采樣、分層采樣、隨機(jī)采樣三種方式,按照100點(diǎn)、300點(diǎn)、500點(diǎn)、700點(diǎn)、900點(diǎn)分別實(shí)現(xiàn)10次采樣,共獲得150個(gè)試驗(yàn)數(shù)據(jù)集,通過提取分析等處理,使用含高程屬性的采樣點(diǎn)模擬真實(shí)采樣數(shù)據(jù)進(jìn)行樣點(diǎn)空間聚集強(qiáng)度度量研究。
2 研究方法
2.1 采樣數(shù)據(jù)聚集程度表征方法
空間聚集因子(Cluster Factor,CF)表示樣點(diǎn)數(shù)據(jù)空間聚集度,公式見式(1)。
式中,對(duì)樣點(diǎn)創(chuàng)建泰森多邊形,n為對(duì)多邊形面積聚類后得到的最小類泰森多邊形的個(gè)數(shù);si為n個(gè)多邊形中第i個(gè)的面積;S為研究區(qū)總面積;N為樣本總數(shù);CF∈(0,1),樣點(diǎn)在研究區(qū)域內(nèi)完全均勻布時(shí),CF=1;當(dāng)樣點(diǎn)存在空間聚集情況則0<CF<1,最小類的泰森多邊形個(gè)數(shù)越多、面積越小則值越小,樣本數(shù)據(jù)集聚集程度越大;隨著聚集程度加深,CF值逐漸趨近于0;樣點(diǎn)完全均勻分布CF=1。
地理空間特征呈現(xiàn)聚集分布的樣點(diǎn)的泰森多邊形會(huì)呈現(xiàn)面積小且相鄰的特點(diǎn),故利用樣點(diǎn)在研究區(qū)域生成的泰森多邊形,以泰森多邊形面積為屬性進(jìn)行K-means聚類,當(dāng)面積較小且空間鄰接的泰森多邊形聚集在一起,它們所代表的樣點(diǎn)在空間分布上亦聚集。針對(duì)各樣點(diǎn)數(shù)量級(jí)下的試驗(yàn)樣點(diǎn)集空間聚集程度的差異,利用K-means聚類算法將其劃分成K類。其中,K-means聚類算法是以距離作為相似性評(píng)價(jià)指標(biāo),指定K個(gè)初始聚類中心,根據(jù)樣本之間的距離劃分成K類。利用局部Moran′sⅠ系數(shù)將樣點(diǎn)泰森多邊形面積的空間格局可視化,不斷調(diào)整聚類數(shù)K。當(dāng)K-means聚類法結(jié)果中的最小類與低值聚集區(qū)域(LL)范圍相同或相似時(shí),該區(qū)域代表的樣點(diǎn)在空間特征上亦呈現(xiàn)聚集分布狀態(tài)。
2.2 空間插值方法及插值結(jié)果精度評(píng)價(jià)
2.2.1 空間插值方法。OK是以變異函數(shù)理論和結(jié)構(gòu)分析為基礎(chǔ)的一種常見空間插值方法,在區(qū)域變量存在空間自相關(guān)的前提下,根據(jù)未知點(diǎn)和其一定范圍內(nèi)采樣點(diǎn)的距離及空間關(guān)系擬合模型確定權(quán)重,對(duì)區(qū)域內(nèi)未知點(diǎn)的屬性進(jìn)行線性無偏、最優(yōu)估計(jì)。無偏最優(yōu)估計(jì)也就是使估計(jì)值等于實(shí)際值的數(shù)學(xué)期望,且方差最小[12]。
2.2.2 插值結(jié)果精度評(píng)價(jià)。本研究利用3種采樣方式獲取不同空間分布狀態(tài)的含高程屬性的點(diǎn)數(shù)據(jù),在具有真實(shí)DEM的情況下,采用平均絕對(duì)誤差(Mean Absolute Error,MAE)來定量描述不同聚集程度樣點(diǎn)數(shù)據(jù)對(duì)于空間制圖的影響。平均絕對(duì)誤差計(jì)算公式為
3 結(jié)果與分析
3.1 樣點(diǎn)數(shù)據(jù)空間聚集計(jì)算結(jié)果
計(jì)算150個(gè)樣點(diǎn)集的空間聚集因子并按照從小到大、分樣點(diǎn)數(shù)量繪制空間聚集因子離散圖。經(jīng)過計(jì)算得到150個(gè)樣點(diǎn)集的空間聚集因子,其中300、500點(diǎn)樣點(diǎn)集的空間聚集因子值按升序排列后呈現(xiàn)兩個(gè)階梯;而100、700、900樣點(diǎn)數(shù)呈現(xiàn)三個(gè)階梯。
3.2 相同樣點(diǎn)數(shù)量、不同聚集程度樣點(diǎn)空間插值結(jié)果精度對(duì)比
基于圖2中各樣點(diǎn)集空間聚集因子的分布狀況,將100、300、500、700、900樣點(diǎn)的30個(gè)數(shù)據(jù)集按照聚集程度分別劃分成3類、2類、2類、3類、3類(圖1),計(jì)算并統(tǒng)計(jì)相同樣點(diǎn)數(shù)量下同類別數(shù)據(jù)集OK插值結(jié)果的MAE。本研究首先利用SPSS.24統(tǒng)計(jì)分析軟件剖析了150個(gè)數(shù)據(jù)集高程值的統(tǒng)計(jì)特征,為滿足OK插值需求,通過Box-Cox變換使之達(dá)到或近似正態(tài)分布;在此基礎(chǔ)上使用GS+7.0軟件進(jìn)一步計(jì)算了各個(gè)試驗(yàn)數(shù)據(jù)集的半變異函數(shù)參數(shù);最后在ArcGIS10.6軟件的支持下,生成預(yù)測柵格,對(duì)比分析不同樣點(diǎn)數(shù)量、不同樣點(diǎn)聚集程度下的預(yù)測精度的差異。
樣本點(diǎn)聚集程度差異對(duì)于OK插值結(jié)果的平均絕對(duì)誤差的影響如表1所示,當(dāng)樣點(diǎn)數(shù)量為100時(shí),第一類樣點(diǎn)集OK插值結(jié)果的MAE為58.180;第二類為56.852,第三類為48.525。插值精度:第一類<第二類<第三類;聚集強(qiáng)度:第一類>第二類>第三類。同理,300、500、700、900樣點(diǎn)數(shù)量的樣點(diǎn)集亦均表現(xiàn)出樣點(diǎn)聚集強(qiáng)度越高,插值精度越差,平均絕對(duì)誤差越大的趨勢。100樣點(diǎn)聚集強(qiáng)度較高的數(shù)據(jù)集MAE均值與聚集強(qiáng)度較低的數(shù)據(jù)集MAE均值的差值為9.655,900樣點(diǎn)聚集強(qiáng)度較高、較低數(shù)據(jù)集間MAE均值的差值為1.759。結(jié)果表明:低聚集采樣數(shù)據(jù)插值精度明顯優(yōu)于高聚集;且隨著樣點(diǎn)數(shù)量增加,不同聚集強(qiáng)度樣點(diǎn)集的OK插值結(jié)果MAE差異逐漸減小。
隨著樣點(diǎn)數(shù)量增加,OK插值精度不斷提高,樣點(diǎn)數(shù)量為100時(shí)(30個(gè)數(shù)據(jù)集)OK插值結(jié)果的平均MAE為55.229,樣點(diǎn)數(shù)量為500時(shí)MAE為30.599,樣點(diǎn)數(shù)量為900時(shí)MAE為25.292。明顯表明增加樣點(diǎn)數(shù)量能有效提升插值精度,但是此過程并非線性遞增。樣點(diǎn)數(shù)量由100點(diǎn)增加到300點(diǎn)時(shí)OK插值結(jié)果精度得到明顯的改善,增加200個(gè)樣本點(diǎn),MAE減小了33.282%。但由300點(diǎn)增加到900點(diǎn)時(shí),增加600個(gè)樣本點(diǎn),OK插值結(jié)果精度雖仍在提升,但提升的幅度并不大,MAE分別僅減小31.161%。
綜上所述,提升樣點(diǎn)數(shù)量能有效提升插值結(jié)果精度,但存在閾值。超過閾值繼續(xù)增加樣點(diǎn)數(shù)目對(duì)于改善插值結(jié)果精度的效果不再顯著;聚集程度較低的樣點(diǎn)集空間插值精度優(yōu)于較高的數(shù)據(jù)集,隨著樣點(diǎn)數(shù)量增加,聚集程度差異對(duì)于OK插值結(jié)果的MAE影響越來越小。
4 結(jié)論
本研究基于DEM數(shù)據(jù),模擬了不同樣本點(diǎn)數(shù)量(100、300、500、700、900)、不同聚集程度樣點(diǎn)集,應(yīng)用普通克里金法進(jìn)行空間插值。闡述采樣數(shù)據(jù)空間聚集差異對(duì)于OK插值精度的影響,高聚集樣點(diǎn)數(shù)據(jù)的插值結(jié)果MAE明顯大于低聚集樣點(diǎn)數(shù)據(jù),且在樣點(diǎn)數(shù)較少的情況下差異尤為明顯。研發(fā)的面向空間插值的采樣點(diǎn)數(shù)據(jù)空間聚集程度的度量方法,可以判斷判斷多個(gè)數(shù)據(jù)集間的聚集程度差異,可以為采樣數(shù)據(jù)去冗精化提供借鑒,服務(wù)于面源與重金屬污染、耕地質(zhì)量檢測、地下水和地表水中的污染物濃度分析等領(lǐng)域。
參考文獻(xiàn):
[1] 李瑩瑩,趙正勇,楊旗.數(shù)字土壤制圖在土壤養(yǎng)分方面的研究綜述[J].江西農(nóng)業(yè)學(xué)報(bào),2021,33(7):61-67.
[2] 朱阿興,楊琳,樊乃卿,等.數(shù)字土壤制圖研究綜述與展望[J].地理科學(xué)進(jìn)展,2018,37(1):66-78.
[3] 陸安詳,曹珊珊,高秉博.面向農(nóng)業(yè)環(huán)境監(jiān)測的空間插值方法[M].北京:經(jīng)濟(jì)科學(xué)出版社,2017.
[4] LE N D, ZIDEK J V. Statistical analysis of environmental space-time processes[M]. Springer Science & Business Media, 2006.
[5] 高秉博,郝朝展,李發(fā)東,等.面向土壤環(huán)境質(zhì)量等級(jí)劃分的統(tǒng)計(jì)推斷與加密采樣優(yōu)化方法研究綜述[J].農(nóng)業(yè)環(huán)境科學(xué)學(xué)報(bào),2021,40(4):712-722.
[6] ERICSON B,CARAVANOS J,CHATHAM-STEPHENS K,et al. Approaches to systematic assessment of environmental exposures posed at hazardous waste sites in the developing world:The toxic sites identification program[J]. Environmental Monitoring and Assessment,2013,185(2):1755-1766.
[7] 張貝爾,黃標(biāo),趙永存,等.采樣數(shù)量與空間插值方法對(duì)華北平原典型區(qū)土壤質(zhì)量評(píng)價(jià)空間預(yù)測精度的影響[J].土壤,2013,45(3):540-547.
[8] 巫振富,趙彥鋒,程道全,等.樣點(diǎn)數(shù)量與空間分布對(duì)縣域尺度土壤屬性空間預(yù)測效果的影響[J].土壤學(xué)報(bào),2019,56(6):1321-1335.
[9] 龐夙,李廷軒,王永東,等.縣域農(nóng)田土壤銅含量的協(xié)同克里格插值及采樣數(shù)量優(yōu)化[J].中國農(nóng)業(yè)科學(xué),2009,42(8):2828-2836.
[10] 李潤林,姚艷敏,唐鵬欽,等.縣域耕地土壤鋅含量的協(xié)同克里格插值及采樣數(shù)量優(yōu)化[J].土壤通報(bào),2013,44(4):830-838.
[11] 趙業(yè)婷,常慶瑞,李志鵬,等.基于Cokriging的耕層土壤全氮空間特征及采樣數(shù)量優(yōu)化研究[J].土壤學(xué)報(bào),2014,51(2):415-422.
[12] 靳國棟,劉衍聰,牛文杰.距離加權(quán)反比插值法和克里金插值法的比較[J].長春工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2003(3):53-57.
收稿日期:2021-12-26
基金項(xiàng)目:科技部重點(diǎn)研發(fā)計(jì)劃課題“黑土地耕地質(zhì)量時(shí)空多維大數(shù)據(jù)預(yù)警系統(tǒng)研發(fā)”(2021YFD1500104)。
作者簡介:王翔(1994—),男,碩士生,研究方向:空間數(shù)據(jù)處理與分析。
3688500338221