賀 超,張景雄,萬(wàn) 月,楊文靜,楊蕊寧
(1.武漢大學(xué)測(cè)繪學(xué)院,湖北 武漢 430079;2.航天科工智能運(yùn)籌與信息安全研究院(武漢)有限公司,湖北 武漢 430048;3.山東師范大學(xué)地理與環(huán)境學(xué)院,山東 濟(jì)南 250358)
GlobeLand30數(shù)據(jù)2020基準(zhǔn)年生產(chǎn)應(yīng)用到的影像數(shù)據(jù)源豐富,對(duì)其進(jìn)行科學(xué)合理的質(zhì)量評(píng)價(jià)具有理論研究和實(shí)際應(yīng)用的重要意義[1-3]。因此,本文針對(duì)土地覆蓋數(shù)據(jù)的特點(diǎn),考慮勻質(zhì)區(qū)和異質(zhì)區(qū)對(duì)數(shù)據(jù)質(zhì)量評(píng)估的影響,以上海市數(shù)據(jù)為研究對(duì)象,應(yīng)用顧及空間異質(zhì)性的類別異質(zhì)性空間抽樣方法,結(jié)合同時(shí)相的高分辨率參考影像,對(duì)數(shù)據(jù)進(jìn)行精度評(píng)估分析,供數(shù)據(jù)生產(chǎn)者和使用者參考[4-12]。
采用類別異質(zhì)性分層抽樣方法,劃分勻質(zhì)層和異質(zhì)層的原則為基于類別占優(yōu)原則。統(tǒng)計(jì)各類別像素3×3鄰域內(nèi)的所有類別,類別中心像素在鄰域內(nèi)占比大于4個(gè)的像素劃為勻質(zhì),小于等于4個(gè)的像素劃為異質(zhì),得到勻質(zhì)和異質(zhì)層。該方法考慮勻質(zhì)區(qū)和異質(zhì)區(qū)的區(qū)別,將各類別劃分為勻質(zhì)層和異質(zhì)層,在同類別區(qū)域內(nèi)按層分別布設(shè)樣本。針對(duì)類別數(shù)據(jù)劃分勻質(zhì)/異質(zhì)層,在所得的每個(gè)層(設(shè)為h)中,樣本的精度可表示為:
式中,nh為層內(nèi)樣本總數(shù),
層內(nèi)樣本方差sh為:
參照文獻(xiàn)[13]中的樣本量估計(jì)模型所獲得的分層抽樣樣本量計(jì)算公式進(jìn)行樣本量的確定。首先通過(guò)預(yù)采樣的判讀結(jié)果計(jì)算各個(gè)類別的樣本層內(nèi)方差,樣本總量n為:式中,Z1-α/2為正態(tài)分布的分位數(shù);d為定義的誤差限差;Wh為每一層的面積占比。樣本在各個(gè)層內(nèi)的數(shù)量分布可由內(nèi)曼分配獲得,內(nèi)曼分配可使得總體精度的估計(jì)值方差達(dá)到最小,其中各層的樣本像素個(gè)數(shù)為:
按照內(nèi)曼分配獲得的樣本量受面積占比影響較大,當(dāng)某個(gè)地物類別面積占比較小時(shí),獲得的樣本量往往較小。Hay[14-15]等在文獻(xiàn)中給出建議,當(dāng)區(qū)域內(nèi)土地覆蓋類別層數(shù)較多且小于12時(shí),每個(gè)層的最小樣本容量不能低于50。因此,需要對(duì)理論樣本量根據(jù)該準(zhǔn)則進(jìn)行重新調(diào)整。確定樣本量之后,在層內(nèi)隨機(jī)布設(shè)樣本。
精度驗(yàn)證以像素為最小評(píng)估單元進(jìn)行參考數(shù)據(jù)采集。參考數(shù)據(jù)選擇同時(shí)相或臨近時(shí)相的Google Earth高分辨率影像數(shù)據(jù)、Landsat數(shù)據(jù),且主要時(shí)相優(yōu)先為2020年生長(zhǎng)季,避免對(duì)草地和耕地等類別的誤判。每個(gè)評(píng)價(jià)單元由3個(gè)專家按面積占優(yōu)原則分別進(jìn)行判讀,并根據(jù)參考影像的色調(diào)、紋理、位置、形狀等特征以獲取參考數(shù)據(jù)。過(guò)程中,將該像素邊界生成30×30矢量框,在矢量框外疊加像素中心300 m的矩形框便于判讀(如圖1)。每個(gè)專家指定唯一的類別標(biāo)簽作為該像素類別,取2個(gè)專家及以上判讀的類別為最終類別。
圖1 樣本單元示例(耕地)
分類數(shù)據(jù)的精度評(píng)估方法主要是應(yīng)用混淆矩陣來(lái)計(jì)算總體精度(OA)、用戶精度(UA)以及制圖精度(PA),總體精度是指正確分類的類別像素?cái)?shù)占總抽取的像素?cái)?shù)的百分比,其估計(jì)方式為:
式中,N為像素總量,其方差估計(jì)為:
式中,Nh為每層像素總量,用戶精度及制圖精度應(yīng)用比率估計(jì)進(jìn)行估計(jì)[16],用戶精度是指在分類圖上,落在該類別上的像素點(diǎn)被正確分類為該類別的比率,生產(chǎn)者精度是指該類別的地面真實(shí)參考數(shù)據(jù)被正確分類的概率,表示為:
式中,估計(jì)用戶精度時(shí):
估計(jì)制圖精度時(shí):
估計(jì)方差表示為:
式中:
本實(shí)驗(yàn)對(duì)上海2020基準(zhǔn)年的GlobeLand30數(shù)據(jù)進(jìn)行精度評(píng)估。上海是長(zhǎng)江三角洲沖積平原的一部分,是我國(guó)的經(jīng)濟(jì)、金融、貿(mào)易中心,其地理位置為120°52′E~122°12′E,30°40′N~31°53′N之間,面積約6 340 km2。數(shù)據(jù)共包含耕地、森林、草地、灌木地、濕地、水體、人造地表7個(gè)類別,其中人造地表和耕地占比最多,分別占41.87%和40.68%。灌木地類別為稀少地類,且分布非常集中,面積占比低于0.1%,因此不納入本文評(píng)價(jià)范圍。各地類的分布如圖2所示。
圖2 上海GlobeLand30 2020土地覆蓋分類圖
對(duì)上海6個(gè)主要類別進(jìn)行勻質(zhì)/異質(zhì)層劃分,劃分結(jié)果如圖3所示,得到數(shù)據(jù)包含12個(gè)層。為確定抽樣總樣本量,需進(jìn)行預(yù)采樣以計(jì)算各層方差。按照文獻(xiàn)[13]中的樣本量設(shè)定,每個(gè)類別選取30個(gè)樣本進(jìn)行判讀,判讀的各層層內(nèi)方差作為樣本量計(jì)算的方差。取α為95%,d為0.01,按照公式(3)進(jìn)行抽樣12個(gè)層的總樣本量理論值為2 024,按每個(gè)類別不低于50個(gè)樣本像素,結(jié)合各層占比,對(duì)樣本量進(jìn)行重新分配和增加,樣本量如表1所示。
圖3 上海GlobeLand30 2020土地覆蓋重分類圖
表1 預(yù)采樣結(jié)果及樣本分配
根據(jù)布設(shè)樣本產(chǎn)生2 500個(gè)樣本判讀單元,解譯專家按照設(shè)計(jì)中的方式進(jìn)行樣本單元的真實(shí)性檢驗(yàn),并記錄相關(guān)信息。得到的結(jié)果進(jìn)行交叉制表,并以混淆矩陣的形式對(duì)分類結(jié)果和真實(shí)結(jié)果進(jìn)行表示。上海2 500個(gè)驗(yàn)證點(diǎn)的混淆矩陣如表2所示。
表2 上海GlobeLand30混淆矩陣
根據(jù)混淆矩陣結(jié)果顯示,各個(gè)類別的勻質(zhì)區(qū)的精度總是高于異質(zhì)區(qū)的數(shù)據(jù)精度。根據(jù)層內(nèi)精度統(tǒng)計(jì)結(jié)果可知,人造地表類別的勻質(zhì)區(qū)和異質(zhì)區(qū)的差別最大,其次是水體和耕地。水體勻質(zhì)層和耕地勻質(zhì)層精度較高,分別達(dá)到了84.72%和78.97%。人造地表異質(zhì)區(qū)的精度最低,僅有45%。通過(guò)混淆矩陣可進(jìn)行總體精度、用戶精度及制圖精度的估計(jì)。其中,用戶精度和制圖精度的統(tǒng)計(jì)結(jié)果如表3所示。
表3 各類別用戶精度及制圖精度
從用戶精度來(lái)看,耕地、水體、人造地表精度較高,均超過(guò)了70%。耕地的用戶精度最高,為76.72%。草地的用戶精度最低,因?yàn)樵谕恋馗采w分類過(guò)程中,草地、耕地等地類因紋理相似而容易出現(xiàn)混淆的情況。人造地表地類的制圖精度最高,為85.11%,表明該類別提取較為成功。草地制圖精度最低,僅為15.07%,一方面是因?yàn)樵诶帽壤烙?jì)時(shí),草地為稀有地類(面積占比小于2%),估值容易受其他地類錯(cuò)分為草地而受到影響;另一方面,在判讀過(guò)程中,上海的城鄉(xiāng)結(jié)合處因混合像元問(wèn)題而導(dǎo)致的人造地表和其他地類,尤其是草地混在一起難以區(qū)分,在分類時(shí)容易導(dǎo)致錯(cuò)分。應(yīng)用加權(quán)估計(jì)法對(duì)區(qū)域的總體精度、異質(zhì)區(qū)及勻質(zhì)區(qū)的總體精度進(jìn)行估計(jì)。得到上海的勻質(zhì)區(qū)的精度為78.92%,異質(zhì)區(qū)的精度為50.65%,區(qū)域總體精度為77.89%。其中,勻質(zhì)區(qū)比異質(zhì)區(qū)的精度高28.27%,異質(zhì)區(qū)的精度較低,數(shù)據(jù)質(zhì)量較差,佐證了在異質(zhì)區(qū)和勻質(zhì)區(qū)布設(shè)樣本的必要性,以及可使得樣本分布更符合精度的分布模式。
土地覆蓋數(shù)據(jù)在制圖過(guò)程易受到空間異質(zhì)性影響而導(dǎo)致數(shù)據(jù)存在不確定性,在精度驗(yàn)證中估計(jì)空間異質(zhì)性的抽樣方式可顧及數(shù)據(jù)精度的空間格局,對(duì)土地覆蓋精度驗(yàn)證有一定助益。針對(duì)GlobeLand30全球土地覆蓋數(shù)據(jù)上海域,應(yīng)用考慮空間異質(zhì)性的抽樣方法,在勻質(zhì)區(qū)和異質(zhì)區(qū)進(jìn)行樣本布設(shè),采集了時(shí)相相近的參考數(shù)據(jù),通過(guò)專家解譯的方式進(jìn)行樣本的真實(shí)類別檢核,并通過(guò)基于混淆矩陣的指標(biāo)對(duì)上海的數(shù)據(jù)進(jìn)行了精度評(píng)定。實(shí)驗(yàn)結(jié)果表明,2020基準(zhǔn)年上海的6個(gè)類別2 500個(gè)樣本總體精度為77.89%,基本反映了上海地區(qū)2020年的土地覆蓋狀況。異質(zhì)區(qū)精度為50.65%,勻質(zhì)區(qū)精度為78.92%。劃分勻質(zhì)層和異質(zhì)層可助于樣本分布符合精度的分布模式,且勻質(zhì)區(qū)和異質(zhì)區(qū)的精度差異較大,在數(shù)據(jù)質(zhì)量評(píng)估時(shí)可關(guān)注該問(wèn)題。未來(lái)該評(píng)價(jià)方法可應(yīng)用于全球范圍的土地覆蓋數(shù)據(jù)產(chǎn)品,也可在大范圍內(nèi)探索更高效的空間抽樣方法,在生產(chǎn)中考慮數(shù)據(jù)的錯(cuò)分模式,以提高未來(lái)土地覆蓋數(shù)據(jù)生產(chǎn)的精度。