李海濤,邵澤東
空間信息技術(shù)是自20世紀60年代以來逐漸發(fā)展起來的信息技術(shù)的總稱,用于獲取,管理和分析與地理位置相關(guān)的空間信息[1].它以人類的生活環(huán)境為主要研究對象,以遙感(Remote Sensing,RS)、全球定位系統(tǒng)GPS(Global Position System)和地理信息系統(tǒng)(Geographic Information System,GIS)技術(shù)為代表,它不僅是客觀數(shù)據(jù)的集合,而且是從收集、處理、測量和分析到地理空間數(shù)據(jù)和信息的管理、存儲、顯示和發(fā)布的整個信息流程.它具有客觀獲取、準確定位、靈活管理、空間分析和視覺表達的特點[1].
在空間數(shù)據(jù)中,具有不均勻位置分布的數(shù)據(jù)被稱為離散數(shù)據(jù),在平面二維地理空間的定位中,離散數(shù)據(jù)的坐標(biāo)由不規(guī)則分布的離散樣本的平面坐標(biāo)實現(xiàn).高程和屬性值通常用作第三維數(shù)據(jù).空間插值則是一種通過這些離散的空間數(shù)據(jù)計算未知空間數(shù)據(jù)的方法.它是基于“地理學(xué)第一定律”的基本假設(shè):空間位置上越靠近的點,具有相似特征值的可能性越大,而距離遠的點,其具有相似特征值的可能性越小[2].它通常用于將離散點的測量數(shù)據(jù)轉(zhuǎn)換為連續(xù)數(shù)據(jù)表面,以便于比較其他空間現(xiàn)象的分布情況.
空間插值分析算法的分類方式有多種:按插值的區(qū)域范圍分類,可以分為整體插值、局部插值、邊界內(nèi)插法等[3];整體插值是用研究區(qū)的所有采樣點進行全區(qū)特征擬合,在整體插值方法中,整個區(qū)域的數(shù)值會影響單個插值點的數(shù)值,同樣單個采樣點的數(shù)值的增加、減少或刪除對整個區(qū)域的特征擬合都有影響[3],代表性插值方法具有趨勢面分析插值方法等.局部插值是使用相鄰數(shù)據(jù)點來估計未知點的值,首先定義鄰域或搜索范圍,然后搜索屬于該區(qū)域的數(shù)據(jù)點,然后選擇可以表示此有限點空間變化的數(shù)學(xué)函數(shù),最后通過計算為該鄰域或者該區(qū)域內(nèi)的未知點賦值[3],代表插值方法有樣條函數(shù)插值法[4]、反距離權(quán)重插值法[5]、Kriging插值法[6]等.邊界內(nèi)插規(guī)則假設(shè)值和屬性的任何變化發(fā)生在特定區(qū)域的邊界線上,并且邊界內(nèi)屬性的變化是均勻和同質(zhì)的,主要的插值法是泰森多邊形法.
按照插值的標(biāo)準分類,可以分為確定性插值、地統(tǒng)計插值.確定性插值法主要采用數(shù)學(xué)工具,利用函數(shù)的方法來進行插值,這種方式用來研究某區(qū)域內(nèi)部的相似性,其代表插值法有反距離加權(quán)插值法[7]等;地統(tǒng)計插值是基于空間自相關(guān)性的,由觀測數(shù)據(jù)產(chǎn)生具有統(tǒng)計關(guān)系的曲面,代表插值法是Kriging 插值法[7].
按插值的精度分類,可以劃分為精確插值、近似插值.精確插值生成包括所有觀測點的曲面,而近似插值生成不包含所有觀測點曲面[8].
隨著生產(chǎn)、研究應(yīng)用的不斷深入,越來越多的插值算法被提出和不斷改進.本文將對適用性高、性能卓越、應(yīng)用場景廣泛的泰森多邊形法、反距離權(quán)重插值法、樣條函數(shù)插值法與克里金插值法進行研究綜述,并對空間插值算法的未來的研究方向進行展望.
荷蘭氣候?qū)W家Thiessen AH 提出泰森(Thiessen)多邊形法,根據(jù)離散分布的氣象站的降雨量來計算平均降雨量,所有相鄰氣象站以三角形連接,在三角形的每一邊作垂直平分線,因此氣象站周圍有幾個垂直平分線包圍的多邊形[8].用某多邊形內(nèi)所包含的單獨的氣象站的降雨強度來表示該多邊形區(qū)域內(nèi)的降雨強度,該多邊形稱為泰森多邊形.如圖1所示,圖中虛線形成的多邊形就是泰森多邊形,A、B、C、D 分別為離散觀測點,一個泰森多邊形內(nèi)僅包含一個離散觀測點,泰森多邊形的每個頂點都是每個三角形的外接圓心[1].泰森多邊形也被稱為Voronoi 圖或dirichlet 圖[3].
圖1 泰森多邊形示意圖
泰森多邊形利用離散觀測點的值對該點所在的區(qū)域進行賦值,得到的結(jié)果往往是數(shù)值的變化只發(fā)生在多邊形的邊界上,而多邊形內(nèi)部的數(shù)值則是均勻、同質(zhì)的[9].其數(shù)學(xué)表達式為:
其中,Ve表示待插值點的距離,Vi表示i示點的離散觀測值.i點必須滿足如下條件:
其中,dij表示點i(xi,yi) 與點j(xj,yj)間的歐幾里德距離[8].
泰森多邊形的關(guān)鍵是將離散觀測點合理地連接到三角網(wǎng)絡(luò)中,即構(gòu)造Delaunay 三角網(wǎng)絡(luò)[3].構(gòu)建泰森多邊形步驟如圖2所示.
圖2 泰森多邊形創(chuàng)建流程
泰森多邊形反映了離散觀測點的空間控制范圍或者是勢力范圍,它適用于較小區(qū)域內(nèi)、空間變異性不高的情況,距離近的點比距離遠的點更相似,比較符合人的邏輯思維[10].同時,它的實現(xiàn)不需要其他前提條件,效率高,方法簡單,但是受樣本觀測值的影響較大,沒有考慮空間因素、變量以及其他某些規(guī)律,只考慮距離因素,實際效果不是很理想.
泰森多邊形插值法也在進行不斷改進發(fā)展,其中自然鄰域法就是改進的一種,它的基本原理是在插值點創(chuàng)建一個新的多邊形,新多邊形與原始多邊形的重疊比例作為觀測點數(shù)值的權(quán)重,通過這種方式計算插值點的估計值[7].另外,劉金雅等人將泰森多邊形與最小累計阻力模型相結(jié)合[11],用于估算京津冀城市群生態(tài)系統(tǒng)服務(wù)價值;祁春陽等人將泰森多邊形與虛擬力算法、質(zhì)心算法相結(jié)合,提出VFVP 算法策略來提高無線傳感網(wǎng)絡(luò)覆蓋率[12];戚遠航等人提出了一種基于泰森多邊形的離散蝙蝠算法來解決多車場車輛路徑問題[13];羅浩將泰森多邊形應(yīng)用于人臉區(qū)域分割進行關(guān)鍵特征提取來實現(xiàn)人臉識別的新算法[14].
泰森多邊形適用于樣本點分布均勻的較小區(qū)域內(nèi)空間變異性不明顯的場景,允許少量的數(shù)據(jù)缺失,它可應(yīng)用于氣象降水、無線網(wǎng)絡(luò)規(guī)劃、計算機視覺等領(lǐng)域的定性分析、統(tǒng)計分析以及鄰近分析中,泰森多邊形算法正在更廣闊的應(yīng)用于空間區(qū)域相關(guān)的新領(lǐng)域.
反距離權(quán)重插值法[15]最初是由Shepard 提出,后來經(jīng)過持續(xù)不斷的改進發(fā)展.它的最重要的一個假設(shè)就是觀測點對于插值點都會有局部影響,任意一個觀測點的值對插值點值的影響都是隨著距離的不斷增加而不斷減弱的[16],在估計插值點的值時,假設(shè)距離估計插
值點最近的N個觀測點對該插值點有影響,則這N個觀測點對插值點的影響與它們之間的距離成反比關(guān)系[17].因此更接近插值點的觀測點將被賦予的權(quán)重更大,而且權(quán)重的和為1.
IDW 的數(shù)學(xué)表達式:
其中,是點(x0,y0)處的估計值,Qi是估計插值點與觀測點相對應(yīng)的權(quán)重系數(shù),n表示插值點的個數(shù)[18].
權(quán)重系數(shù)Qi的計算是反距離加權(quán)算法的關(guān)鍵,通常由下式給出:
其中,n是已知觀測點的數(shù)量,f(dej)表示已知觀測點與插值點之間已知距離dej的權(quán)重函數(shù),最常用的一種形式是:
其中,b是合適的常數(shù).當(dāng)b取值為1 或2 時,此時是反距離倒數(shù)插值和反距離倒數(shù)平方插值[17].
反距離權(quán)重插值作為一種全局插值算法,它的所有離散觀測點都將參與每一插值點數(shù)值的計算,同時,它也是一種精準插值,插值生成的曲面中的預(yù)測的觀測值與實測的觀測值完全一致.它綜合了基于泰森多邊形的自然鄰域法和多元回歸漸變方法的有點,不僅考慮了距離因子,還為鄰近插值點的離散觀測點根據(jù)距離分配權(quán)重,當(dāng)出現(xiàn)各向異性時,還會考慮方向的權(quán)重.距離權(quán)重函數(shù)與從插值點到觀測點的距離次冪成反比,隨著觀測點與插值點之間距離的不斷擴大,權(quán)重呈現(xiàn)冪函數(shù)遞減趨勢[19].如表1所示.
表1 反距離權(quán)重插值與相關(guān)方法的比較
IDW 簡便易操作,不會出現(xiàn)無法解釋的無意義結(jié)果,即使觀測點數(shù)據(jù)集的變化波動很大也能夠得到一個比較合理的結(jié)果[17].但是,IDW 對權(quán)重函數(shù)的選擇特別敏感,權(quán)重函數(shù)存在細微差別對生成的結(jié)果會有較大的波動,而且易受觀測點數(shù)據(jù)集的影響,由于數(shù)據(jù)集的影響,可能存在孤立的分布模式,其中部分點數(shù)據(jù)高于其他周圍數(shù)據(jù).
反距離權(quán)重算法的應(yīng)用不斷發(fā)展,李正泉對IDW進行優(yōu)化改進,在傳統(tǒng)IDW 算法的基礎(chǔ)上添加用于反映樣點方位的調(diào)和權(quán)重系數(shù)K,來減小或者克服樣點方位分布不均的問題[21];王家潤提出了IDW 并行優(yōu)化的線程任務(wù)分解模型[22],提升了硬件加速能力,降低了并行編程任務(wù)劃分難度;劉瑋將IDW 模型應(yīng)用于鼠尾藻群體數(shù)量分布的計算且能夠反映鼠尾藻群體的空間分布[23].
反距離權(quán)重插值適用于表現(xiàn)出均勻分布而且足夠密集以反映局部差異的觀測點數(shù)據(jù)集的場景,提供合理的插值結(jié)果,它普遍適用于空氣質(zhì)量、氣象、土壤等領(lǐng)域的研究,尤其適用于當(dāng)某個現(xiàn)象呈現(xiàn)出局部變異性的情況.
樣條函數(shù)S(x)是一個分段函數(shù),在區(qū)間[a,b]是一個連續(xù)可微的函數(shù),如圖3所示.
給定一組節(jié)點:
其中,S(x) 滿足在每個子區(qū)間[xi,xi+1](n=0,1,2,…,n-1) 上是次數(shù)不超過m的多項式且在區(qū)間上有m-1階連續(xù)導(dǎo)數(shù),則稱S(x)是定義在[a,b]上的m次樣條函數(shù)[24].
樣條函數(shù)插值的目標(biāo)是找到滿足最佳平滑原理的曲面,并使用樣本觀察點以最小化曲面曲率擬合平滑曲線[25].使用最小化表面總曲率的數(shù)學(xué)函數(shù)來估計插值點的值,從而在輸入點之后生成平滑表面.其表達式:
其中,是點(x0,y0)處的估計值,r是預(yù)測點與樣點之間的距離,n表示預(yù)測點的數(shù)量.
樣條函數(shù)主要劃分為規(guī)則樣條函數(shù)和張力樣條函數(shù)[4],兩類函數(shù)對比如表2所示.
對于規(guī)則樣條函數(shù),R(ri)和T(x,y)表達式如下:
其中,c是實常數(shù),a是線性方程系數(shù),τ是權(quán)重系數(shù),k0校正貝塞爾函數(shù),ri是從插值點到觀測點的距離[4].
對于張力樣條函數(shù),R(ri)和T(x,y)表達式如下:
其中,c為常數(shù),a為線性方程系數(shù),φ是權(quán)重系數(shù),k0是改正后的貝塞爾函數(shù),ri是插值點到觀測點的距離.
圖3 樣條函數(shù)示意
表2 兩類樣條函數(shù)的比較
樣條函數(shù)插值不斷改進發(fā)展,張海燕利用三次樣 條函數(shù)進行GNSS 高程擬合[26],具有很好的適應(yīng)性;高茂庭提出了一種基于遺傳算法的B 樣條擬合算法[27],有效提高了精度并加快了收斂速度;胡蓉利用多親遺傳算法對B 樣條函數(shù)進行優(yōu)化[28],實現(xiàn)玻璃搬運機器人軌跡的優(yōu)化.
樣條函數(shù)插值速度快,且產(chǎn)生的視覺效果好,但樣條函數(shù)插值的誤差不能直接計算,適用于屬性值在短距離內(nèi)變化不大的區(qū)域范圍,它廣泛應(yīng)用于測繪、統(tǒng)計學(xué)、計算幾何等領(lǐng)域.
克里金插值算法也稱為空間自協(xié)方差最佳插值法[29],它是以南非礦業(yè)工程師Krige DG 的名字命名的一種最優(yōu)內(nèi)插法[30],以變異函數(shù)理論和結(jié)構(gòu)分析為基礎(chǔ)[31],適用于區(qū)域化變量存在空間相關(guān)性,假設(shè)都是空間相關(guān)性且所有隨機誤差都具有二階平穩(wěn)性.其表達式:
其中,是點(x0,y0)處的插值估計值,即z0=z(x0,y0).這里的 λ0是權(quán)重系數(shù).它同樣是用空間上所有已知觀測點的數(shù)據(jù)加權(quán)求和來估計插值點的值.但權(quán)重系數(shù)不是距離的倒數(shù),而是一組最佳系數(shù),它們能夠滿足點(x0,y0)處的插值估計值與真實值的差最小,同時滿足無偏估計的條件:
這樣來看,插值點值的好壞完全取決于 λ0權(quán)重系數(shù).所有類型的克里金插值法的權(quán)重系數(shù)必須都要滿足最優(yōu)性和無偏性的條件[32].
當(dāng)Zi的E(Zi)=m已知,則將這種克里金插值法成為簡單克里金插值法[33],此時簡單克里金的表達式為:
簡單克里金插值法的插值點的精度在很大程度上取決于m值的大小.
當(dāng)Zi的E(Zi)為未知常數(shù),則將這種克里金插值法成為普通克里金插值法[33],求解權(quán)重系數(shù)的表達式為:
以上方程組中,μ是拉格朗日乘子,協(xié)方差Cov(xi,yi)可用變異函數(shù)γ(xi,yi)表示[34]:
當(dāng)Zi的E(Zi)=m(xi)時,即在插值區(qū)域內(nèi)是非平穩(wěn)的,協(xié)方差或變異函數(shù)已知,此時被稱為泛克里金插值法[35],m(xi)就是在這xi的期望值,即漂移.泛克里金插值法是一種地統(tǒng)計學(xué)方法,它考慮到了有漂移的無偏線性估計量[34].泛克里金插值方法求解權(quán)重系數(shù)的方程組的表達式:
當(dāng)研究某一閾值特異值時需要一種非參數(shù)地統(tǒng)計學(xué)方法,稱之為指示克里金插值法[34],對于某一區(qū)域觀測值,任意指定已閾值z,引入指示函數(shù)l(x,z),表達式如下:
其變異函數(shù)表達式:
當(dāng)已知任意區(qū)域二維概率分布時,對插值點的估計值的一種非線性地統(tǒng)計法稱之為析取克里金插值[36],它是一種非線性、最小方差的無偏估計方法,其表達式:
其中,fi(Zi)為未確定函數(shù),根據(jù)Hermiet 多項式的正交性用于擬合法向變形函數(shù)以估計插值點的值.
當(dāng)利用多個區(qū)域變量之間的互相關(guān)性,通過建立模型用觀測點的數(shù)據(jù)值對插值點數(shù)據(jù)值進行估計,被稱為協(xié)同克里金插值[37],這是一種多變量地統(tǒng)計學(xué)研究的基本方法,是基于協(xié)同區(qū)域化變量理論.協(xié)同區(qū)域化是指定義在同一空間域,并且在統(tǒng)計及空間位置上具有一定程度相關(guān)性的區(qū)域化變量.協(xié)同克里金插值表達式:
從表達式可以看出,協(xié)同克里金插值的估計量是K 個協(xié)同區(qū)域化變量的所有有效值的線性組合.
多種克里金插值法的比較如表3所示.
表3 多種克里金插值法的比較
克里金插值法也在不斷的發(fā)展,陳光使用NM 單純形算法對克里金變異函數(shù)模型進行改進優(yōu)化[38],提高無線傳感器網(wǎng)絡(luò)的性能;顧軍華利用VIRE 算法和克里金插值實現(xiàn)室內(nèi)的精確定位[39];鄧岳川采用克里金插值法從空間分布的角度提出構(gòu)建多路徑誤差的模型,實現(xiàn)對指定測區(qū)內(nèi)的多路徑誤差的空間分布特征的探究[40].
克里金插值算法適用于樣本數(shù)據(jù)存在隨機性和結(jié)構(gòu)性特征的場景,廣泛應(yīng)用于各類觀測的空間插值,地面風(fēng)場、降雨、土壤、環(huán)境污染等領(lǐng)域.
結(jié)合上述空間插值算法的原理及應(yīng)用,總結(jié)了這些算法的逼近程度、處理速度、推算能力以及適應(yīng)范圍[41],使用分值1~5 表示由弱到強,對比結(jié)果如表4所示.
表4 空間插值算法對比
本文綜述了一系列的空間插值分析算法的插值原理和應(yīng)用,經(jīng)過幾十年的不斷發(fā)展,空間插值算法不斷完善,并逐漸趨于成熟,不斷被應(yīng)用到土壤水質(zhì)、海洋環(huán)境、地質(zhì)勘探、空氣質(zhì)量等諸多領(lǐng)域.雖然空間插值算法的應(yīng)用領(lǐng)域廣闊,但是依然存在一些問題,空間插值算法未來的發(fā)展應(yīng)當(dāng)需要根據(jù)不同的應(yīng)用場景不斷的進行研究優(yōu)化與完善,不斷形成更加符合真實場景的空間插值算法.
首先,隨著空間插值分析算法的不斷發(fā)展以及機器學(xué)習(xí)的不斷發(fā)展,王輝贊等提出了支持向量機的克里金插值算法的在海洋數(shù)據(jù)方面的實驗[42],邱云翔提出的粒子群優(yōu)化BP 神經(jīng)網(wǎng)絡(luò)在降雨空間插值的應(yīng)用[43],程家昌等人利用BP 神經(jīng)網(wǎng)絡(luò)插值方法對研究區(qū)土壤的氮和磷進行空間插值預(yù)測,比傳統(tǒng)插值算法具有更強的的泛化能力[44],李純斌等人以BP 神經(jīng)網(wǎng)絡(luò)和支持向量機模型為研究對象,構(gòu)建降水量空間插值模型[45],大量的關(guān)于空間插值算法的新的探索已經(jīng)廣泛展開,并在降雨降水、土壤勘測、海洋資料等應(yīng)用鄰域取得了一定成果.未來可繼續(xù)在機器學(xué)習(xí)以及人工智能等方面促進空間插值算法的進一步研究.
其次,空間插值分析算法的不再是緊緊局限于傳統(tǒng)意義上的地理信息系統(tǒng),國內(nèi)外的研究者將空間插值的思想特性引入各行各業(yè),體現(xiàn)著空間插值分析算法的作用與意義.未來可以在空間插值分析算法應(yīng)用的各個方面不斷加深算法的適應(yīng)性改進.
最后,所需要解決的實際問題大多都是離散型問題,空間插值分析算法需要根據(jù)實際情況進行建模分析、具體設(shè)計,然而算法的改進并不能保證獲得最好的結(jié)果,怎樣改進空間插值分析算法能夠獲得更優(yōu)更合理的結(jié)果都需要進行深入的研究與探討.