李 星, 曹建農(nóng)
(長安大學(xué) 地質(zhì)工程與測繪學(xué)院, 西安 710054)
隨著遙感技術(shù)的不斷發(fā)展, 遙感影像處理技術(shù)也越來越成熟. 目前許多學(xué)者使用基于像素的方法進(jìn)行建筑物提取. Huang 等通過建筑物陰影的形態(tài)學(xué)指數(shù)提取高分影像上的建筑物[1,2]; Lin等利用邊緣檢測算法和建筑物在影像上的規(guī)則排列方向及外形完成建筑物的定位提取[3]. 相比于基于像素的提取方法, 面向?qū)ο蟮姆椒軌蚓C合考慮目標(biāo)的光譜、紋理和空間結(jié)構(gòu)特征[4], 更適合建筑物的提取. 朱芳芳等[5]建立了一種基于特征分量的面向?qū)ο竽P蛠韺崿F(xiàn)對高分影像城市建筑物的提取. 施文灶等[6]通過圖像分割理論實現(xiàn)高分影像上的建筑物的變化監(jiān)測. 在基于特征優(yōu)化的地物提取方面, 梁加玲等[7]基于Relief算法的多分類算法ReliefF算法進(jìn)行特征優(yōu)化后識別的耕地圖斑, 取得較好提取結(jié)果. 肖艷等[8]基于ReliefF和PSO的混合特征選擇方法選擇最優(yōu)特征子集, 并使用支持向量機分類器對土地進(jìn)行分類. 但是這些方法并沒有有效去除冗余特征, 沒有構(gòu)成最優(yōu)特征子集, 效率不高. 因此本文將Relief算法和FCBF算法相結(jié)合,有效去除了不相關(guān)特征和冗余特征, 構(gòu)成最優(yōu)特征子集進(jìn)行建筑物提取, 提高了提取精度和效率, 為今后基于特征優(yōu)化的建筑物提取提供借鑒意義, 并且對建筑物的信息有一個清晰準(zhǔn)確地掌握.
本文主要是基于特征優(yōu)化進(jìn)行建筑物提取, 在遙感影像提取過程中, 并非特征越多, 提取建筑物越容易,應(yīng)該在繁多特征中選出有用特征, 提高分類精度, 技術(shù)流程如圖1所示.
圖1 技術(shù)流程圖
1.1.1 最小誤差閾值分割
一幅影像大小為M×N, 其每個像素點(x, y)的灰度值為f(x, y). 用直方圖h(g)描述圖像灰度概率分布.假設(shè)理想的灰度分布模型符合混合正態(tài)分布p(g)=其中 pi表示子分布的先驗概率, p(g)的兩個子分布p(j|i)分別服從均值為i[9], 方差為σ2的正態(tài)分布.
對于閾值 t ∈G, Kittler等基于最小分類誤差思想給出下面的函數(shù)[9]:
最佳閾值選為使J(t)最小化的t=t*.
上述方法稱為最小誤差閾值法[9]. 對影像進(jìn)行最小誤差閾值分割處理, 得到建筑物初步分割結(jié)果, 如圖2所示, 此算法可以很好的分割建筑物和非建筑物, 但仍然將部分道路誤分為建筑物.
圖2 最小誤差閾值分割結(jié)果
1.1.2 多尺度分割
多尺度分割是指在影像信息損失最小的前提下,基于異質(zhì)性最小原則的區(qū)域合并算法, 以任意尺度生成最小異質(zhì)性和最大同質(zhì)性的有意義影像多邊形對象的過程[10], 其是一種影像抽象的手段, 即把高分辨率像元的信息保留到低分辨率的對象上, 不同的地物類型可以在相應(yīng)尺度的對象上得到反映. 多尺度分割的參數(shù)構(gòu)成包括光譜和形狀兩個因子, 其中形狀因子又包括光滑度(smoothness)和緊致度(compactness) . 大多數(shù)情況下, 顏色因子對生成對象最重要, 形狀因子有效控制著影像對象的破碎程度, 可以防止“同物異譜”和“同譜異物”現(xiàn)象與“胡椒鹽效應(yīng)”, 以此提高分類精度.
各個波段分割權(quán)重的確定十分重要. 通過計算影像的相關(guān)性矩陣和協(xié)方差矩陣確定其R、G、B三波段分割權(quán)重[11], 結(jié)果如表1和表2所示. 從表可得R、G、B三波段方差大小相當(dāng), 且波段之間的相關(guān)性顯著, 對分割的貢獻(xiàn)度大[7], 所以把R、G、B的權(quán)重均設(shè)為1.
表1 波段的相關(guān)性矩陣
表2 波段的協(xié)方差矩陣
確定多尺度分割的最優(yōu)參數(shù)和最優(yōu)尺度是多尺度分割的關(guān)鍵, 包括shape、compactness因子和scale尺度. 對各因子做0.1-0.9的多次重復(fù)實驗, 觀察分割結(jié)果與建筑物邊界的貼合程度以及“過分割”和“欠分割”現(xiàn)象. 如圖3和圖4所示, 最終確定最優(yōu)shape為0.6,最優(yōu)compactness為0.5. 使用局部方差法進(jìn)行分析確定最優(yōu)scale, 如圖5所示, 該影像對象同質(zhì)性局部變化(local variance)取得極大值時對應(yīng)最優(yōu)得分割尺度scale, 最后可得最優(yōu)分割尺度為125.
圖3 不同形狀因子參數(shù)分割效果(分割尺度, 形狀因子, 緊致度)
圖4 不同緊致度參數(shù)分割效果(分割尺度, 形狀因子, 緊致度)
圖5 局部誤差分析
僅多尺度分割方法存在較多的過分割和欠分割現(xiàn)象, 因此將最小誤差閾值分割結(jié)果與多尺度方法進(jìn)行融合, 改進(jìn)部分欠分割與過分割現(xiàn)象. 由圖6可知, 與僅多尺度分割結(jié)果相比, 改進(jìn)的多尺度分割方法能夠分割出更多的細(xì)小地物且完整性較好, 分割效果更好. 由于分割的精度會對分類結(jié)果產(chǎn)生較大影響, 所以改進(jìn)的多尺度分割也會提高最終建筑物分類的精度.
圖6 影像分割結(jié)果對比
特征空間集中包括不相關(guān)特征性和相關(guān)性特征,相關(guān)性特征中由包括弱相關(guān)性且冗余特征、弱相關(guān)性但不冗余特征和強相關(guān)性特征. 其中弱相關(guān)性但不冗余特征和強相關(guān)性特征構(gòu)成了最優(yōu)特征子集, 關(guān)系圖如圖7所示. Relief算法和FCBF算法能互相彌補缺陷, 可有效去除弱相關(guān)性特征和冗余特征.
圖7 特征關(guān)系圖
1.2.1 Relief算法
Relief算法是一種特征權(quán)值算法(feature weighting algorithms), 依據(jù)所有特性和類型的關(guān)聯(lián)性給與特點差異的權(quán)值, 權(quán)值低于特定閾值的特性將被刪除. Relief算法中特征和類別的相關(guān)性是基于特征對近距離樣本的區(qū)分能力[11]. 計算特征權(quán)重公式如下:
其中, d iff(A,R1,R2) 表 示樣本R1和 R2關(guān)于特征A的距離差值, m表示抽樣次數(shù), Mj(C) 表 示最近鄰樣本, P (C)表示對象樣本所占比例[12].
獲取影像中每個對象的多個特征, 其中包括9個光譜特征, 27個形狀特征和60個紋理特征, 經(jīng)過Relief算法可有效去除不相關(guān)性特征和弱相關(guān)性特征, 通過計算各特征的權(quán)重均值, 得到前50特征權(quán)重如圖8所示.
圖8 前50特征變量的平均權(quán)重
1.2.2 FCBF算法
FCBF算法的全稱是fast correlation-based filter即快速相關(guān)性濾波算法, 提出應(yīng)用SU (smymetrical uncertainty)代替信息增益IG (information gain)作為衡量一個特征是否與類別C相關(guān)或者是否冗余[11]. 計算公式如下:
其中, H表示信息熵, Pi表示某個灰度在該圖像中出現(xiàn)的概率, 由灰度直方圖得到.
由于Relief算法本身存在局限, 不能去除冗余特征, 而FCBF算法正好可以彌補它的缺陷, 可有效的去除冗余特征. 所以對前50特征進(jìn)行FCBF特征提取并進(jìn)行精度分析. 由圖9可知, 當(dāng)特征數(shù)目為13時的總體分類精度(OA)和Kappa系數(shù)最高, 所以最優(yōu)特征子集數(shù)目為13, 具體特征包括3個光譜特征: Brightness、MeanLayer2和Standard deviation Layer 2; 2個形狀特征: Density和Main direction; 8個紋理特征: GLCM Mean (0?、GLCM Mean (135?、GLDV Ang.2nd moment (135?、GLCM Homogeneity (90?、GLDV Ang. 2nd moment (0?和GLDV Ang.2nd moment(0?.
圖9 不同特征數(shù)目的提取精度
隨機森林就是屬于集成學(xué)習(xí)中的Bagging (bootstrap aggregation)方法, 具有高準(zhǔn)確度、抗噪聲能力強、性能穩(wěn)定等優(yōu)勢. 它的基本單元是決策樹, 通過訓(xùn)練多個決策樹, 生成模型, 然后綜合利用多個決策樹進(jìn)行分類, 其輸出的類別是由個別樹輸出的類別的眾數(shù)而定[13].
其中, hi(x)表 示某一決策樹的分類結(jié)果, H (x)表示隨機森林分類結(jié)果, I (·)表示示性函數(shù)[14].
本文選取河南省新鄉(xiāng)市局部區(qū)域作為研究區(qū)域,通過 Bigmap下載Google Earth高清衛(wèi)星遙感正射影像, 研究場景主要是廠區(qū). 影像空間分辨率為0.5 m, 包括紅、綠、藍(lán)3波段, 影像中不同建筑物的光譜差異大, 有些建筑物的光譜信息和道路相近, 所以除光譜特征外, 本文結(jié)合了形狀和紋理等多種特征通過特征優(yōu)化后進(jìn)行建筑物提取.
基于13個特征構(gòu)成最優(yōu)特征集, 使用隨機森林方法進(jìn)行提取, 然后與決策樹、神經(jīng)網(wǎng)絡(luò)和支持向量機方法進(jìn)行比較. 如圖10所示, 隨機森林的提取效果最好, 能把大部分建筑物提取出來; 神經(jīng)網(wǎng)絡(luò)和支持向量機方法會遺漏微小建筑物, 神經(jīng)網(wǎng)絡(luò)還會把一些植被誤判為建筑物, 精度較低; 由于光譜相近, 決策樹方法會把一些道路誤判為建筑物, 精度較低.
圖10 不同分類器的分類結(jié)果
本文是基于特征優(yōu)化進(jìn)行建筑物提取, 此外僅用Relief算法和僅用FCBF算法生成13個相應(yīng)的特征子集, 并且與基于原始特征集、僅用Relief的特征子集和僅FCBF的特征子集使用隨機森林的方法進(jìn)行提取, 與基于Relief和FCBF的最優(yōu)特征子集進(jìn)行比較, 結(jié)果如圖11所示, 基于最優(yōu)特征子集的建筑物提取效果最好.
圖11 不同特征集的分類結(jié)果
本文使用總體分類精度(OA)、F1分?jǐn)?shù)和Kappa系數(shù)進(jìn)行提取精度評定. 由表3和表4可得, 基于特征優(yōu)化的隨機森林方法提取精度最高, 總體分類精度為0.93, Kappa系數(shù)為0.91, 比原始特征集提取精度提高了1.07%, 比僅使用Relief算法提取結(jié)果精度提高了1.24%, 比僅FCBF算法提高了1.06%. 在不同分類器比較中, 神經(jīng)網(wǎng)絡(luò)的精度最低, 隨機森林的精度最高.由于影像中有些建筑物被植被遮蓋, 提取的建筑物邊界不規(guī)則, 所以使用最小外接矩形方法優(yōu)化建筑物邊界, 得到優(yōu)化結(jié)果如圖12所示, 最終影像提取結(jié)果如圖12(a)所示.
圖12 最小外接矩形界優(yōu)化結(jié)果
表3 不同分類器的精度評定
表4 不同特征集提取的精度評定
為驗證特征優(yōu)化方法的泛化性, 除了廠區(qū)范圍的正射影像, 本文還研究了居民地范圍的傾斜影像. 在影像種類上, 正射影像地物是在一個平面的, 而傾斜影像可以很好地反映地物的真實情況, 具有真實高度; 在影像場景上, 廠區(qū)建筑物不規(guī)整, 植被遮蓋嚴(yán)重, 而居民區(qū)建筑物整齊規(guī)范, 但存在高度干擾. 因此在影像種類和場景兩方面來驗證特征優(yōu)化方法的泛化性和優(yōu)化性,使用的是空間分辨率為1 m的無人機傾斜攝影影像.
結(jié)果如圖13和表5所示, 對比不同特征集, 經(jīng)過Relief和FCBF算法優(yōu)化的最優(yōu)特征集提取建筑物效果最好, 效率最高; 由于僅經(jīng)過Relief算法優(yōu)化的特征集存在冗余特征, 僅經(jīng)過FCBF算法優(yōu)化的特征集存在不相關(guān)特征, 提取效果較差精度較低; 而原始特征集中存在過多冗余特征和不相關(guān)特征, 因此進(jìn)行建筑物提取效果最差. 對比不同的分類器, 神經(jīng)網(wǎng)絡(luò)方法提取效果最差, 錯分較多; 基于最優(yōu)特征子集的隨機森林方法建筑物提取效果最好, 可以正確提取絕大部分建筑物, 錯分較少, 總體分類精度為94.46%, Kappa系數(shù)為90.98%, 相比于原始特征集分別提高了4.22%、3.48%,相比于Relief算法分別提高了3.4%、3.01%, 相比于FCBF算法分別提高了2.88%、2.52%, 體現(xiàn)了隨機森林方法準(zhǔn)確度高, 性能穩(wěn)定的優(yōu)勢以及特征優(yōu)化方法的優(yōu)化性與泛化性.
表5 不同方法建筑物提取精度對比
圖13 傾斜攝影影像建筑物提取結(jié)果對比
本文提出了一種基于特征優(yōu)化和面向?qū)ο蟮慕ㄖ锾崛》椒? 精度比原始特征集和優(yōu)化特征集有所提高, 而且保證了建筑物的完整度. 在居民地和廠區(qū)兩種場景以及正射影像和傾斜影像兩種類別上進(jìn)行對比和驗證, 體現(xiàn)了方法的優(yōu)化和泛化性. 但仍存在一些問題,一方面, 本文的Relief算法只適用于目標(biāo)和背景兩類,不適用于多分類, 后續(xù)應(yīng)進(jìn)行拓展; 另一方面, 目前影像分割并沒有成熟的理論基礎(chǔ), 分割精度嚴(yán)重影響了分類精度, 以至于大尺度影像分割效果較差, 最終導(dǎo)致建筑物提取效果差, 后續(xù)會深入研究, 使其適應(yīng)更大區(qū)域內(nèi)的多樣建筑物提取.