段增強(qiáng),劉杰東,鹿 鳴,孔祥斌,楊 娜
(中國農(nóng)業(yè)大學(xué)土地科學(xué)與技術(shù)學(xué)院 自然資源部農(nóng)用地質(zhì)量與監(jiān)測重點(diǎn)實(shí)驗(yàn)室,北京 100193)
圖像語義分割(Image Semantic Segmentation,ISS)是指,為圖像中的每一個(gè)像素分配一個(gè)預(yù)先定義好的表示其語義類別的標(biāo)簽[1]?;诰矸e神經(jīng)網(wǎng)絡(luò)的圖像語義分割方法(Image Semantic Segmentation based on Convolutional Neural Network,CNN-ISS)是一門涉及計(jì)算機(jī)視覺、模式識(shí)別與人工智能等研究領(lǐng)域的交叉學(xué)科,是當(dāng)前數(shù)字圖像處理與機(jī)器視覺的研究熱點(diǎn)內(nèi)容之一[2-5]。作為典型CNN-ISS模型,DeepLab V3模型在Pascal VOC數(shù)據(jù)集上的均交并比(Mean Intersection over Union,mIoU)值達(dá)到86.9%,DeepLab V3+模型的分割精度達(dá)到了89.0%,在Cityspace公開數(shù)據(jù)集上也達(dá)到82.1%的分類精度[6-7]。CNN-ISS在遙感影像分類方面也具有較為廣泛的應(yīng)用,相較于傳統(tǒng)遙感影像分類方法[8-9],CNN-ISS具有較強(qiáng)的遷移學(xué)習(xí)能力和泛化能力,能夠有效提取地物紋理、幾何等深層次特征,在高分辨率影像解譯、復(fù)雜地物識(shí)別和作物分布制圖等方面具備一定優(yōu)勢[10-14]。
出于效率或者硬件性能限制的考慮,通常需要對大幅的遙感影像進(jìn)行瓦片切圖[15],將生成的影像瓦片作為語義分割數(shù)據(jù)處理對象。人為的遙感影像瓦片化過程會(huì)產(chǎn)生瓦片邊緣地物碎片,進(jìn)而影響遙感影像邊緣附近像素的分類精度,從而產(chǎn)生瓦片邊緣附近像素分類精度低于瓦片中央?yún)^(qū)域像素分類精度的現(xiàn)象,即瓦片邊緣效應(yīng)[16]。目前學(xué)者針對CNN-ISS遙感影像分類的研究主要有3個(gè)方面,一是僅在瓦片尺度進(jìn)行模型驗(yàn)證和精度評(píng)價(jià)[17-18];二是側(cè)重于優(yōu)化地物邊緣分類的研究,并未對瓦片邊緣效應(yīng)做專門分析及特別考慮[19-20];三是通過“重疊預(yù)測”和概率圖累加算法來降低或消除瓦片邊緣效應(yīng)[21]。目前鮮見對CNN-ISS模型分類結(jié)果的瓦片邊緣效應(yīng)進(jìn)行定量化分析的研究文獻(xiàn)。
本研究系統(tǒng)分析了研究區(qū)在高分辨率遙感影像CNN-ISS(以DeepLab V3為核心模型)分類中的瓦片邊緣效應(yīng),構(gòu)建了一個(gè)消除CNN-ISS瓦片邊緣效應(yīng)的數(shù)據(jù)后處理框架,以實(shí)現(xiàn)大幅遙感影像分類解譯和瓦片邊緣效應(yīng)消除。
研究區(qū)位于河北省唐山市曹妃甸區(qū)北部以及灤南縣南部地區(qū)(118°18"E~118°48"E,39°30"N~40°12"N)。具有典型的鄉(xiāng)村土地覆被特點(diǎn),土地覆被類型主要包括水田、水澆地、設(shè)施農(nóng)用地、農(nóng)村居民點(diǎn)、河流、坑塘、交通用地等(圖1)。
2.1.1 訓(xùn)練區(qū)數(shù)據(jù)集構(gòu)建
本研究訓(xùn)練區(qū)面積為200 km2(圖1),研究采用2019年5月4日高分二號(hào)影像,經(jīng)預(yù)處理后,最終得到空間分辨率為1 m的真彩色融合影像。通過人工目視解譯土地覆被類型,分類標(biāo)準(zhǔn)如表1所示,進(jìn)而構(gòu)建CNN-ISS訓(xùn)練樣本數(shù)據(jù)集(圖2)。
表1 土地覆被類型及目視解譯劃分標(biāo)準(zhǔn) Table 1 Visual interpretation division criteria of land cover type
CNN-ISS模型神經(jīng)網(wǎng)絡(luò)層數(shù)多、參數(shù)規(guī)模大,模型訓(xùn)練計(jì)算量大,出于模型學(xué)習(xí)精度和學(xué)習(xí)效率的考慮,通常限定特定尺寸圖像作為訓(xùn)練和預(yù)測對象,常用的瓦片大小有256×256、512×512像素等。如果對大幅遙感影像進(jìn)行語義分割,則需要首先將大幅影像進(jìn)行瓦片化處理,以特定大小的瓦片作為基本處理單元。
本研究以DeepLab V3模型作為核心CNN-ISS模型,以512×512像素瓦片作為訓(xùn)練和預(yù)測處理單元。通過對訓(xùn)練區(qū)順序裁剪生成2000張訓(xùn)練瓦片,并在此基礎(chǔ)上采用隨機(jī)翻轉(zhuǎn)、增加點(diǎn)噪聲、高斯濾波和雙邊濾波等數(shù)據(jù)增強(qiáng)處理方式[22-23],共計(jì)生成15000幅瓦片。由于道路和河流溝渠像素占試驗(yàn)區(qū)影像總像素比例較低,采用過采樣方案[24]增加了3000幅包括高速公路和河流瓦片。最終的訓(xùn)練集包括512×512像素瓦片共計(jì)18000幅。選取其中的75%作為訓(xùn)練數(shù)據(jù)集,25%作為驗(yàn)證數(shù)據(jù)集。綜合考慮效率及最終精度,本試驗(yàn)以ResNet V2_50預(yù)訓(xùn)練模型[25]為基礎(chǔ)進(jìn)行遷移訓(xùn)練。
2.1.2 預(yù)測區(qū)數(shù)據(jù)集構(gòu)建
選取同幅影像內(nèi)與訓(xùn)練區(qū)毗鄰的14 km2區(qū)域作為預(yù)測區(qū)(圖3),采用與訓(xùn)練區(qū)相同的分類標(biāo)準(zhǔn),通過人工目視解譯對預(yù)測區(qū)土地覆被類型進(jìn)行劃分。
預(yù)測區(qū)影像、土地覆被類型劃分及瓦片化結(jié)果如圖3所示。模型精度評(píng)估、影像瓦片邊緣效應(yīng)分析與消除等均基于預(yù)測區(qū)數(shù)據(jù)集完成。
2.2.1 核心網(wǎng)絡(luò)
語義分割(ISS)是在像素級(jí)別進(jìn)行分類。CNN-ISS將輸入的遙感影像通過CNN提取影像特征,得到像素類別得分圖后,再通過softmax函數(shù)以及argmax函數(shù)得到輸入影像的像素類別[26]。
典型的語義分割模型數(shù)據(jù)處理過程[27]如圖4中CNN-ISS標(biāo)注部分所示,具體可以概況為以下3個(gè)過程:
1)將瓦片輸入至CNN-ISS模型中,進(jìn)行影像特征提取。其公式為V=F(T,θ),其中,V為經(jīng)過系列特征提取后形成的類別得分矩陣,T為瓦片處理單元矩陣,θ為CNN-ISS模型中各層網(wǎng)絡(luò)的參數(shù)。實(shí)現(xiàn)過程依具體CNN-ISS模型而定,以DeepLab V3為例,這個(gè)過程包括了卷積、池化、空洞空間池化金字塔及上采樣等數(shù)據(jù)處理過程。
2)將類別得分圖中各像素的分值分別經(jīng)softmax函數(shù)處理后,統(tǒng)一歸一化至0~1范圍內(nèi),生成的圖像為類別概率圖。這一過程的公式為P=softmax(V),P為類別概率矩陣。
3)選取某一像素點(diǎn)對應(yīng)的概率矩陣中最大值的索引作為該像素的最終類別,這一過程輸出的結(jié)果即為遙感影像分類圖。這一過程的公式為C=argmax(P),C為分類結(jié)果矩陣。
本研究以DeepLab V3作為核心模型,該模型以ResNet 50作為特征提取網(wǎng)絡(luò),加入了空洞空間池化金字塔(Atrous Spatial Pyramid Pooling,ASPP)模塊來提取全局、多尺度信息。ASPP采用了4個(gè)并行的卷積,即1個(gè)1×1的卷積和3個(gè)擴(kuò)張率分別為(6、12、18)的3×3擴(kuò)張卷積,同時(shí)加入了批歸一化(Batch Normalization,BN)層對影像特征進(jìn)行處理,最后通過16倍的上采樣恢復(fù)到原圖大小[28]。
2.2.2 瓦片邊緣效應(yīng)消除方案
遙感影像瓦片化會(huì)在瓦片邊緣產(chǎn)生土地覆被類型碎片,從而影響分類精度,存在瓦片邊緣效應(yīng)。
本研究中,以整幅影像上做移窗切圖后生成的512×512像素瓦片影像作為處理單元,縱向和橫向均以512像素步長,依次從左到右,從上到下進(jìn)行移窗和瓦片影像語義分割。為消除瓦片邊緣效應(yīng),設(shè)定不同的移窗起點(diǎn)位置(i,k),i、k為該移窗偏置起點(diǎn)的像素行列位置,從而保證整幅遙感影像上任意像素點(diǎn)一定處于某次偏置設(shè)置下生成的瓦片中央?yún)^(qū)域。假定共進(jìn)行m次移窗,則可為每個(gè)輸入影像像素生成至多m批次的類別打分值,假定有n個(gè)分類類別,則每個(gè)像素至多生成m×n個(gè)類別打分值,以該像素的m×n個(gè)類別打分值為基礎(chǔ),設(shè)計(jì)不同的瓦片效應(yīng)消除技術(shù)方案,從而提高語義分割精度。
設(shè)輸入遙感影像為H×W×3的矩陣X,其中,H為影像高度,W為影像寬度,H和W單位都為像素,像素x(a,b)=[xR,xG,xB],xR,xG,xB代表輸入影像的彩色通道,(a,b)代表某一像素在輸入遙感影像上的坐標(biāo)。
對X設(shè)定一個(gè)移窗切圖的移窗起點(diǎn)為(i,k),進(jìn)行移窗切圖,將生成的瓦片數(shù)據(jù)集經(jīng)核心CNN-ISS模型處理得到瓦片像素類別打分結(jié)果,拼接后得到全圖打分結(jié)果,記為類別得分矩陣V(i,k),其中(i,k)為偏置起點(diǎn)的像素位置。對偏置起點(diǎn)為(0,0)的情況,得到類別得分矩陣V(0,0)。
其中v(a,b)為像素x(a,b)的各類別得分值所組成的一維向量組,即v(a,b)=[v1(a,b),...,vc(a,b),...,vn(a,b)],vc(a,b)代表像素x(a,b)預(yù)測分類c的類別得分值,c=1,2,..,n,n為語義分割的分類數(shù)量。
當(dāng)偏置起點(diǎn)為(i,k)時(shí),輸入影像的前i行和前k列像素不參與瓦片生成和后續(xù)的CNN-ISS核心模型數(shù)據(jù)處理,因此無法得到其所對應(yīng)的類別得分,則為其進(jìn)行非數(shù)填充處理,在下邊的矩陣表達(dá)中用NaN表示,得到偏置起點(diǎn)為(i,k)的類別得分矩陣V(i,k)
假定第s次偏置中,像素的c類別打分值記為為了消除基于瓦片數(shù)據(jù)處理而產(chǎn)生的瓦片邊緣效應(yīng),本研究進(jìn)行多次、不同的偏置處理,并對多次偏置生成的多個(gè)類別得分矩陣進(jìn)行合成。表示編號(hào)s的偏置方案中,像素x(a,b)對應(yīng)類別c的類別得分值和概率值,(,)abcv和 (,)abcp則表示合成后的c類別得分值和概率值;c(a,b)表示像素x(a,b)的分類結(jié)果。其中,c∈[1,n],s∈[1,m]。具體的瓦片邊緣效應(yīng)消除方案處理邏輯如表2所示,其操作對象均為像素x(a,b),故將下標(biāo)(a,b)進(jìn)行省略。
表2 瓦片邊緣效應(yīng)消除方案 Table 2 Tile edge effect elimination solution
方案1:假設(shè)影像中某一點(diǎn)在第s次偏置時(shí),到瓦片邊緣的距離最大,則選取此次偏置中該點(diǎn)對應(yīng)的打分值作為該點(diǎn)的最終打分值后經(jīng)softmax函數(shù)處理得到整幅影像的類別概率值Pc,進(jìn)而得到最終分類結(jié)果。
方案2:對每個(gè)類別c,在m次偏置中形成的m個(gè)像素類別打分值中選最大值,作為類別c的類別判斷打分值vc,進(jìn)而根據(jù)vc計(jì)算類別概率pc和分類。
方案3:對m次偏置中形成的m個(gè)像素類別打分值求平均值,作為類別c的類別判斷打分值vc,通過softmax函數(shù)得到類別概率pc,然后選取pc對應(yīng)的類別作為最終分類結(jié)果。
方案4:將m次移窗得到的m組打分值分別進(jìn)行softmax處理,得到m組像素類別概率值選擇其中最大的類別概率值作為類別c的類別判斷概率值pc,并將pc對應(yīng)的類別作為像素的最終類別。
需要指出的是,本研究通過消除瓦片邊緣效應(yīng)來提升語義分割精度,是對CNN-ISS瓦片化處理結(jié)果的一種后處理方案,可采用不同的核心模型,且可以直接繼承所采用不同核心模型的預(yù)訓(xùn)練結(jié)果或遷移學(xué)習(xí)結(jié)果。
2.2.3 精度評(píng)價(jià)指標(biāo)
本研究采用總精度(Pixel Accuracy,PA)[29]、Kappa系數(shù)[30]、交并比(Intersection over Union,IoU)[31]、均交并比(Mean Intersection over Union,mIoU)[32]作為精度評(píng)價(jià)指標(biāo)。PA、Kappa系數(shù)、IoU和mIoU的數(shù)值越大,說明CNN-ISS模型分類精度越高。
瓦片邊緣效應(yīng)具體體現(xiàn)為距離瓦片邊緣愈近的區(qū)域,其錯(cuò)分像素占比愈高。本研究通過構(gòu)建瓦片邊緣距離誤判率ERD(Error Rate with a Distance to tile edges,ERD)和整體誤判率ERW(Error Rate of the Whole image,ERW)2個(gè)指標(biāo),來對CNN-ISS遙感影像分類解譯的瓦片邊緣效應(yīng)進(jìn)行定量分析,其計(jì)算式如下
式中d記為到瓦片邊緣的像素距離,單位為像素,N為柵格總數(shù),Nd瓦片邊緣距離為d的柵格總數(shù),表示到瓦片邊緣距離為d的錯(cuò)分柵格總數(shù),NF表示錯(cuò)分柵格總數(shù)。
本研究以DeepLab V3作為CNN-ISS核心模型。偏置起點(diǎn)設(shè)為(0,0),在不進(jìn)行多次偏置前提下,得到的影像分類結(jié)果等同于將DeepLab V3原始模型分類瓦片直接拼接形成的分類圖。本研究基于此結(jié)果對DeepLab V3分類精度進(jìn)行評(píng)估,同時(shí)將其作為邊緣效應(yīng)消除方案的對照數(shù)據(jù)。由于各瓦片邊緣效應(yīng)消除方案均設(shè)置有多個(gè)瓦片切割起點(diǎn)偏置,因此有效預(yù)測范圍與對照組不同,以下所有分析均選取公共有效區(qū)域進(jìn)行。
本試驗(yàn)操作系統(tǒng)為Windows10,編程語言為Python 3.5,使用開源深度學(xué)習(xí)框架TensorFlow 1.9.0,計(jì)算機(jī)CPU為i7-7700HQ,配16 GB RAM和一塊GTX 1070(8 GB)。DeepLab V3模型訓(xùn)練參數(shù)batch_size為4,初始學(xué)習(xí)率為0.0001,每8000次迭代學(xué)習(xí)率遞減50%,L2正則化系數(shù)為0.0001。
在最終的分類模型中,訓(xùn)練集loss值為0.0698,驗(yàn)證集loss值為0.0011,在預(yù)測區(qū)總分類精度為94.99%,Kappa系數(shù)為0.8688,mIoU值為76.24%,各覆蓋類型IoU值見表3中的對照組數(shù)據(jù)。與相關(guān)研究結(jié)果對比[13],本研究的PA、Kappa系數(shù)和mIoU值均達(dá)到較高數(shù)值,說明本研究的CNN-ISS模型具有較高分類精度,但由于訓(xùn)練數(shù)據(jù)及數(shù)據(jù)量較小,且道路和溝渠占比較少,導(dǎo)致其IoU相對較低。
表3 對照組精度匯總表 Table 3 Accuracy summary table of control group
CNN-ISS分類精度與標(biāo)簽精度及訓(xùn)練樣本數(shù)據(jù)量有關(guān),相關(guān)研究已經(jīng)驗(yàn)證了DeepLab V3模型在遙感影像分類中的性能[2,33-36],而本研究重點(diǎn)在于瓦片邊緣效應(yīng)分析及其消除方案,因此不再對DeepLab V3在本試驗(yàn)中各地類精度進(jìn)行更詳細(xì)分析。
當(dāng)遙感影像中的地物位于輸入模型瓦片的邊緣處時(shí),會(huì)產(chǎn)生地物碎片或不完整地物,從而丟失部分識(shí)別信息,影響到分類精度。
本研究CNN-ISS影像瓦片大小為512×512像素,預(yù)測區(qū)總面積為14 km2。將每個(gè)瓦片按照3×3平均劃分為9個(gè)區(qū)域,并將外圍的8個(gè)子區(qū)作為邊緣區(qū)域,中央子區(qū)作為中央?yún)^(qū)域,分別以邊緣區(qū)域、中央?yún)^(qū)域和整個(gè)瓦片區(qū)域作為統(tǒng)計(jì)范圍。14 km2預(yù)測區(qū)內(nèi)對照組所有瓦片邊緣處與中心處的精度評(píng)估結(jié)果如表4所示,整個(gè)瓦片區(qū)域的精度評(píng)價(jià)結(jié)果如表3所示。
表4 對照組瓦片邊緣與中心處精度對比 Table 4 Accuracy comparison between tip edge and center of control group
PA、Kappa和mIoU評(píng)估結(jié)果整體表現(xiàn)為中央?yún)^(qū)域>整個(gè)瓦片區(qū)域>邊緣區(qū)域;根據(jù)各地類中央?yún)^(qū)域IoU與邊緣IoU的差值從高到低排序依次為,坑塘(6.41個(gè)百分點(diǎn))>農(nóng)村居民點(diǎn)(1.42個(gè)百分點(diǎn))>道路(0.68個(gè)百分點(diǎn))>其他農(nóng)用地(0.67個(gè)百分點(diǎn))>河流溝渠(?3.77個(gè)百分點(diǎn)),其中坑塘、農(nóng)村居民點(diǎn)中央?yún)^(qū)域IoU與邊緣區(qū)域IoU相比均高出1%以上,說明這2個(gè)土地覆蓋類型的邊緣效應(yīng)更加突出。對照遙感影像和預(yù)測區(qū)標(biāo)簽可以發(fā)現(xiàn),坑塘和農(nóng)村居民點(diǎn)均由多種顏色和紋理的小斑塊組成,屬于典型的“異構(gòu)體”復(fù)雜對象,因此瓦片切割產(chǎn)生的碎片更易損失對象的整體特征信息,因而其瓦片邊緣效應(yīng)更加突出。當(dāng)?shù)缆?、河流溝渠等線狀地物靠近瓦片邊緣或以較小夾角通過瓦片邊緣時(shí),也較易產(chǎn)生瑣碎或狹長碎片,從而也具有瓦片邊緣效應(yīng)。“其他農(nóng)用地”是整個(gè)景觀中“基質(zhì)”成分,瓦片切割造成的獨(dú)立和零散分布的碎片較少,瓦片邊緣效應(yīng)相對較弱,表3數(shù)據(jù)也表明其他農(nóng)用地具有較弱的瓦片邊緣效應(yīng)。
道路和河流溝渠在訓(xùn)練區(qū)樣本數(shù)量都比較低,包含道路和河流溝渠的瓦片數(shù)量少,包含道路和河流溝渠的瓦片中其像素占比也很小,造成道路和河流溝渠分類精度相對較低。在預(yù)測區(qū)也存在類似情況,使得道路和河流溝渠精度統(tǒng)計(jì)學(xué)意義降低。
為消除邊緣效應(yīng),本研究設(shè)置的橫、縱向移窗偏置步長均為1/3瓦片寬度(高度),共計(jì)9次偏置,即在本研究中,s=9,因此除整幅遙感影像邊緣處外,可以確保任意像素一定處于某次偏置設(shè)置下生成的移窗瓦片的中央?yún)^(qū)域。
運(yùn)用2.2.2中各方案對預(yù)測區(qū)影像進(jìn)行重新分類,測試了不同瓦片邊緣效應(yīng)消除方案的效果。如圖5所示,瓦片邊框處的河流溝渠、農(nóng)村居民點(diǎn)和坑塘,瓦片內(nèi)地物碎片導(dǎo)致分類結(jié)果出現(xiàn)明顯的局部錯(cuò)分或漏分。較對照組,本研究所提5種瓦片邊緣消除方案對瓦片邊緣處的地物分類效果均有不同程度提升。
各方案精度匯總?cè)绫?所示。由表5可知,相較于對照組,方案1~5的各項(xiàng)評(píng)價(jià)指標(biāo)均有不同程度提升。不同方案的Kappa系數(shù)從高到低依次為:方案2(0.8810)>方案5(0.8789)>方案3(0.8788)>方案4(0.8777)>方案1(0.8759),均大于對照組(0.8688)。方案2的分類效果最好,因此本文將以方案2為例,分析不同土地覆被類別精度可知,相對于對照組,各類型IoU提升幅度次序從高到低為:道路(4.13個(gè)百分點(diǎn))>坑塘(2.97個(gè)百分點(diǎn))>河流溝渠(1.61個(gè)百分點(diǎn))>農(nóng)村居民點(diǎn)(0.65個(gè)百分點(diǎn))>其他農(nóng)用地(0.46個(gè)百分點(diǎn)),總體規(guī)律表現(xiàn)為線狀地物和復(fù)雜異構(gòu)體(坑塘、農(nóng)村居民點(diǎn))的提升幅度高于基底地類(其他農(nóng)用地)。方案2的mIoU最高達(dá)到78.20%,較對照組的76.24%提升了1.97百分點(diǎn)。
表5 各方案精度匯總表 Table 5 Accuracy summary table of each solution
預(yù)測區(qū)內(nèi)對照組和方案2的所有瓦片的瓦片邊緣距離誤判率ERD統(tǒng)計(jì)結(jié)果如圖6所示。對照組瓦片邊緣距離誤判率ERD隨著到瓦片邊緣距離的增加呈現(xiàn)波動(dòng)下降的趨勢,在瓦片邊緣處時(shí),ERD最高,達(dá)到了6.93%,在到瓦片邊緣距離為242像素時(shí),RED最低,為3.52%,而整體誤判率ERW則為5.01%。ERD與到瓦片邊緣的距離負(fù)相關(guān),具有瓦片邊緣效應(yīng)。對照組整體誤判率ERW為5.01%,方案2ERW下降到4.61%。與對照組相比,方案2ERD在所有距離上均有所下降,其中瓦片邊緣附近ERD值由對照組的6.93%下降至4.75%,下降幅度最大,說明像素到邊緣的距離對方案2 ERD的影響降低,瓦片邊緣效應(yīng)得到有效改善。
本研究中DeepLab V3模型對高分辨率下具有復(fù)雜遙感影像特征的異構(gòu)體(坑塘、農(nóng)村居民點(diǎn))識(shí)別能力較好,而對于線狀地物(道路、河流溝渠)分辨能力較弱,產(chǎn)生這種現(xiàn)象的一個(gè)重要原因是訓(xùn)練區(qū)中的道路和河流溝渠樣本占總像素比例低,即使進(jìn)行過采樣預(yù)處理,模型對于這種小樣本地物的影像特征獲取依然不足,這個(gè)問題在遙感影像CNN-ISS分類中普遍存在。因此可從以下幾個(gè)方面進(jìn)行優(yōu)化:一是在數(shù)據(jù)預(yù)處理階段,除了一般的圖像處理數(shù)據(jù)增強(qiáng)手段,以及人為增加包含像素占比較少的小樣本地物(如道路、河流溝渠等)瓦片數(shù)量的過采樣方式,亦可通過“小樣本地物提取+背景轉(zhuǎn)換”的高級(jí)數(shù)據(jù)擴(kuò)展方法,從而盡可能增加小樣本地物、及其在各種環(huán)境場景中的圖像特征信息[37]。二是構(gòu)造適用于小樣本數(shù)據(jù)的損失函數(shù),通過增大損失函數(shù)中小樣本地物的權(quán)重值來解決由于不平衡樣本導(dǎo)致的模型精度問題。三是針對不同地物分類效果的差異特性,構(gòu)建一種混合分類模型。例如,線狀地物的像素在整幅影像中占比少且紋理簡單,傳統(tǒng)遙感影像分類方法對于此種類型地物識(shí)別效果較好,而對于復(fù)雜異構(gòu)體而言,CNN-ISS模型能夠更為有效提取其深層次影像特征,在今后的研究中可考慮根據(jù)地物類型整合使用各自最優(yōu)的分類模型。
本研究提出的通過多次移窗偏置消除瓦片邊緣效應(yīng)的技術(shù)方案,本質(zhì)上是通過多視野的方法降低地物碎片對圖像分類精度的影響,而多視野信息是否綜合以及如何綜合消除瓦片邊緣效應(yīng)的效果各方案也有所不同。本研究提出的方案1直接將分類置信度最高視野中的像素分類作為該像素最終的分類結(jié)果,并未進(jìn)行多視野信息綜合;方案2~5不但進(jìn)行多視野判斷,還同時(shí)對每個(gè)視野(移窗)獲取的類別打分矩陣或類別概率矩陣進(jìn)行了信息綜合。方案2、3分別在類別打分層次對多視野打分結(jié)果取最大值和取平均值,然后再以類別打分為基礎(chǔ)計(jì)算類別概率值,進(jìn)而對像素類別進(jìn)行判斷。方案4、5則在類別判斷概率層次對多視野信息進(jìn)行綜合,其中方案4對多視野形成的類別判斷概率取最大值,方案5對多視野類別判斷概率取平均值;然后再在類別判斷概率的基礎(chǔ)進(jìn)行類別判斷。研究結(jié)果表明,上述多視野信息綜合方案中,方案2效果分類精度最高。本研究提出的方案1~5的分類精度差異是否在不同場景保持一致有待進(jìn)一步驗(yàn)證和分析。
對于具有代表性的DeepLab模型,從DeepLab V3到DeepLab V3-JFT、DeepLab V3+ (Xception)、DeepLab V3+ (Xception-JFT)的迭代過程中,在PASCAL VOC 2012數(shù)據(jù)集的mIoU依次分別提升了1.2%、0.9%和1.2%[7]。Liu等構(gòu)建了一種全卷積神經(jīng)網(wǎng)絡(luò)——SRI-Net模型,在WHU Aerial Building Dataset中得到的IoU值較DeepLab V3+在該數(shù)據(jù)集中得到的IoU提升了1.78%[38]。本研究提出的消除瓦片邊緣效應(yīng)的技術(shù)方案是對CNN-ISS(DeepLab V3)的后處理方案,以方案2為例,相較于對照組,其mIoU提升了1.97個(gè)百分點(diǎn),特別是對于線狀地物和異構(gòu)體的提升效果更大,對道路和坑塘的IoU分別提升了4.13和2.97個(gè)百分點(diǎn)。因此研究者認(rèn)為,本研究的提出的瓦片邊緣效應(yīng)消除方案,作為一種CNN-ISS模型的后處理方案,能夠有效提升整幅遙感影像分類精度,尤其針對復(fù)雜異構(gòu)體和線狀地物精度提升幅度更大。但是上述結(jié)論還應(yīng)該在更多應(yīng)用場景中進(jìn)一步驗(yàn)證。
本文所用到的高分二號(hào)影像,經(jīng)過預(yù)處理后,其空間分辨率為1m,在這種空間分辨率影像中,城市高大建筑物的陰影和側(cè)墻面均表現(xiàn)明顯,且對分類有較大影響。目前有研究提出專門的模型用于消除高大建筑物陰影對建筑物識(shí)別的影響[39]。城市建筑物,特別是具有復(fù)雜平面結(jié)構(gòu)的建筑物,在瓦片化過程中的瓦片化效應(yīng)應(yīng)該更加突出,在未來可單獨(dú)針對此應(yīng)用場景展開瓦片邊緣效應(yīng)的相關(guān)研究。
由瓦片邊緣距離誤判率的統(tǒng)計(jì)結(jié)果可知,CNN-ISS分類精度與像素位置到瓦片邊緣的距離呈正相關(guān)關(guān)系,瓦片中央?yún)^(qū)域精度高于瓦片邊緣區(qū)域;各類型地物瓦片中央與邊緣處的精度差異表明,不同類型地物的瓦片邊緣效應(yīng)程度不同,由復(fù)雜顏色、紋理圖像特征構(gòu)成的復(fù)雜異構(gòu)體(農(nóng)村居民點(diǎn)、坑塘)和線狀地物瓦片邊緣效應(yīng)較其他地物的瓦片邊緣效應(yīng)更加突出。本文設(shè)計(jì)的5個(gè)消除瓦片邊緣效應(yīng)的技術(shù)方案,均可從不同程度消除瓦片邊緣效應(yīng),其中取多次偏置中各像素類別打分值最大值對應(yīng)的類別作為其最終類別的方案對精度的提升最大;此外,瓦片邊緣效應(yīng)消除方案對不同類型地物的效果也有差異,瓦片邊緣效應(yīng)消除方案對復(fù)雜異構(gòu)體(農(nóng)村居民點(diǎn),坑塘)和線狀地物分類精度的提升更大。