袁歡歡, 隋立春, 徐家利, 李彥東, 李冠宇
(長(zhǎng)安大學(xué)地質(zhì)工程與測(cè)繪學(xué)院, 西安 710061)
道路作為交通網(wǎng)絡(luò)的主要組成部分,也是重要的基礎(chǔ)地理信息,在智能交通、物流配送、資源環(huán)境等方面起著關(guān)鍵作用。目前遙感影像道路提取方法很多依賴人工操作,自動(dòng)化程度低,因而如何從影像上快速高效獲取準(zhǔn)確的道路成為研究重點(diǎn)。
目前道路提取的算法主要有以下幾類[1]:第一類是基于像素層次的道路提取,該類算法是在提取像素特征如光譜特征的基礎(chǔ)上,根據(jù)分類規(guī)則依次判別像素點(diǎn)是否劃分為道路,獲得道路提取結(jié)果。洪紹軒等[2]提出融合模糊C均值聚類(fuzzyC-means, FCM)與支持向量機(jī)(support vector machine,SVM)的提取算法,提高道路提取的完整度;Shi等[3]提出SVM結(jié)合光譜與空間特征的算法提取道路區(qū)域,減少錯(cuò)誤提取的道路像元數(shù)目。第二類為基于對(duì)象層次的提取算法,采用分割算法將影像分成不同的對(duì)象,結(jié)合對(duì)象的光譜特征、形狀特征、紋理特征、語(yǔ)義特征等選取最優(yōu)特征組合,提取道路信息。周家香等[4]使用Mean-shift算法分割影像,引入形狀因子去除干擾區(qū)域,實(shí)現(xiàn)城區(qū)道路網(wǎng)的提?。徊茉苿偟萚5]在多尺度分割基礎(chǔ)上決策融合像素級(jí)與對(duì)象級(jí)特征,采用SVM對(duì)特征分類提取道路,減少粘連現(xiàn)象。第三類為基于知識(shí)層次的道路提取,綜合學(xué)習(xí)已給定的先驗(yàn)知識(shí)或利用卷積神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí)的知識(shí)提取道路。Poullis等[1]融合感知編組理論提出了自動(dòng)化檢測(cè)特征、分類、提取復(fù)雜道路網(wǎng)的框架,對(duì)于衛(wèi)星影像與激光雷達(dá)數(shù)據(jù)均有較好的道路提取效果;Buslaev等[6]提出以基于預(yù)訓(xùn)練的ResNet-34網(wǎng)絡(luò)為編碼器、U-Net網(wǎng)絡(luò)為解碼器的卷積神經(jīng)網(wǎng)絡(luò),設(shè)計(jì)混合損失函數(shù),穩(wěn)健而準(zhǔn)確地提取影像道路。
現(xiàn)有較高精度的道路提取算法大多屬于監(jiān)督學(xué)習(xí),需要大量帶有標(biāo)簽的樣本進(jìn)行訓(xùn)練,但實(shí)際應(yīng)用中難以人工標(biāo)注大規(guī)模的道路樣本集。因此現(xiàn)提出一種基于自適應(yīng)標(biāo)注樣本的高分辨率遙感影像道路提取算法,利用基于馬氏距離的模糊C均值聚類算法進(jìn)行初步道路分類,根據(jù)分類結(jié)果標(biāo)注樣本;利用基于二次投票的集成去噪算法定位標(biāo)簽錯(cuò)誤的噪聲樣本,更新樣本數(shù)據(jù)集;利用隨機(jī)森林訓(xùn)練更新的樣本集,獲得道路提取結(jié)果;最后采用多方向形態(tài)學(xué)濾波,去除非道路區(qū)域,得到最終提取道路的二值圖像。
本文算法流程如圖1所示。
模糊C均值聚類算法是通過(guò)求解最小目標(biāo)函數(shù),得到像元對(duì)不同類別的隸屬度,從而實(shí)現(xiàn)聚類的一種非監(jiān)督聚類算法[7-8]。
假設(shè)X={x1,x2,…,xn}是影像像元的灰度值集合,且影像共有c個(gè)類別,則影像的模糊集合表示為A={[μA(xi),xi]|xi∈A}。
隸屬函數(shù)J(U,C)表示為
(1)
式(1)中:dij(ci,xj)=‖ci-xj‖;U為隸屬度矩陣;C為聚類中心;m表示模糊程度,一般取值為2。
傳統(tǒng)的FCM算法采用歐氏距離計(jì)算目標(biāo)函數(shù),這一準(zhǔn)則成立的前提是數(shù)據(jù)在特征空間中不相關(guān),各簇具有相同的超球形結(jié)構(gòu)。實(shí)際影像聚類中不滿足該條件,傳統(tǒng)FCM算法聚類效果不佳。歐式距離計(jì)算樣本間的距離,而馬氏距離計(jì)算樣本與分布總體的距離,能夠克服歐氏距離的缺點(diǎn),并且在高維特征數(shù)據(jù)有著計(jì)算優(yōu)勢(shì)。因此采取基于馬氏距離的FCM算法提取道路。
馬氏距離計(jì)算公式為
(2)
式(2)中:Σ為協(xié)方差矩陣。
此時(shí)隸屬函數(shù)調(diào)整為
(3)
約束條件為
(4)
基于馬氏距離的FCM算法的樣本標(biāo)注首先輸入待標(biāo)注影像,設(shè)置各參數(shù),初始化聚類中心與隸屬度矩陣,通過(guò)迭代計(jì)算馬氏距離更新隸屬度矩陣,繼而更新聚類中心,直至前后兩次誤差小于閾值,結(jié)束算法。該算法具體實(shí)現(xiàn)過(guò)程如表1所示。
圖1 道路自動(dòng)提取方法流程Fig.1 The process flow of the proposed approach for automatic extraction of road
表1 改進(jìn)FCM算法實(shí)現(xiàn)過(guò)程Table 1 The process of the improved FCM algorithm
樣本的類別標(biāo)簽來(lái)源于上述改進(jìn)FCM算法的標(biāo)注,不可避免地存在特征數(shù)據(jù)與類別標(biāo)簽不一致的情況,此類樣本即為標(biāo)簽噪聲樣本。標(biāo)簽噪聲樣本對(duì)于分類器的決策會(huì)產(chǎn)生較大偏差,造成提取道路中包含較多錯(cuò)誤分類的像元。
針對(duì)標(biāo)簽噪聲的問(wèn)題,處理方法主要有兩種,一類是利用模型對(duì)標(biāo)簽噪聲魯棒的特性降低噪聲干擾[9],另一類是建立模型檢測(cè)并剔除標(biāo)簽噪聲[10]。設(shè)計(jì)了基于二次投票的集成去噪算法,首先通過(guò)K折交叉驗(yàn)證的方式多次劃分?jǐn)?shù)據(jù)集,即每個(gè)數(shù)據(jù)集下輪流選擇1份數(shù)據(jù)作為測(cè)試集,其余K-1份數(shù)據(jù)作為訓(xùn)練集。然后分別對(duì)每一數(shù)據(jù)集采用訓(xùn)練樣本集建立隨機(jī)森林模型,按照多數(shù)投票的方式得到測(cè)試集的噪聲樣本。最后對(duì)所有數(shù)據(jù)集預(yù)測(cè)的噪聲樣本二次投票,去除誤分類的正確標(biāo)簽樣本,獲得最終的噪聲樣本集。
樣本去噪算法的主要步驟如下。
步驟1數(shù)據(jù)準(zhǔn)備。原圖像與標(biāo)簽圖像構(gòu)成樣本數(shù)據(jù)集,采取K折交叉驗(yàn)證方法對(duì)數(shù)據(jù)集多次隨機(jī)劃分成m個(gè)不同的數(shù)據(jù)塊,每個(gè)數(shù)據(jù)塊劃分為訓(xùn)練集與測(cè)試集。
步驟2定位標(biāo)簽噪聲樣本。對(duì)于任一數(shù)據(jù)塊,首先將訓(xùn)練集投入隨機(jī)森林訓(xùn)練得到n個(gè)決策樹(shù)。然后對(duì)于測(cè)試集的每個(gè)樣本進(jìn)行統(tǒng)計(jì),如果超過(guò)半數(shù)的決策樹(shù)未能正確分類該樣本,將此樣本加入噪聲樣本集。
步驟3二次投票表決噪聲樣本。m個(gè)數(shù)據(jù)塊決策出m個(gè)噪聲樣本集,采取一致投票方法獲得交集,即為最終的標(biāo)簽噪聲樣本集。在之后提取道路的算法中不參與模型訓(xùn)練。
本文算法剔除噪聲樣本的效果如圖2所示,經(jīng)本文算法去除噪聲后,在不同噪聲比例下,訓(xùn)練樣本集的標(biāo)簽正確率均得到明顯提高。
圖2 不同噪聲比例下的去噪效果Fig.2 Noise cleaning results with different mislabeled ratios
隨機(jī)森林算法是以決策樹(shù)為基分類器的一種集成學(xué)習(xí)算法,并且引入隨機(jī)屬性擾動(dòng),降低過(guò)擬合風(fēng)險(xiǎn),噪聲容忍度高,性能優(yōu)異[11-12]。隨機(jī)森林提取道路區(qū)域的主要步驟為。
步驟1首先采用 bootstrap有放回重抽樣方法得到n個(gè)訓(xùn)練樣本子集,每次未被抽取的樣本作為袋外樣本。本算法中訓(xùn)練集為經(jīng)過(guò)樣本標(biāo)簽噪聲檢測(cè)后的數(shù)據(jù)集。
步驟2設(shè)置參數(shù),建立T棵決策樹(shù)模型。每棵決策樹(shù)的根節(jié)點(diǎn)包含所有訓(xùn)練樣本,從根節(jié)點(diǎn)根據(jù)基尼系數(shù)G進(jìn)行一系列屬性判別測(cè)試,最后葉節(jié)點(diǎn)儲(chǔ)存決策結(jié)果?;嵯禂?shù)計(jì)算公式為
(5)
式(5)中:D為樣本集合;c為數(shù)據(jù)集中包含類別數(shù)目;pk為D中第k類樣本所占比例。
步驟3T棵決策樹(shù)組成隨機(jī)森林,將測(cè)試集輸入模型中,每棵樹(shù)預(yù)測(cè)出樣本的分類結(jié)果,進(jìn)行多數(shù)投票,票數(shù)最高者為樣本的類別屬性。
步驟4輸出道路二值圖像。
其中,決策樹(shù)數(shù)量T極大影響隨機(jī)森林的分類性能,如圖3所示。當(dāng)T較小時(shí),隨機(jī)森林的袋外分類(out-of-bag,OOB)誤差明顯較大;當(dāng)T逐漸增大時(shí),袋外分類誤差明顯降低,但運(yùn)算效率同樣降低。選擇決策樹(shù)數(shù)量T,必須兼顧提取精度與運(yùn)算效率,因此在袋外分類誤差趨于穩(wěn)定時(shí),需要選擇較小的決策樹(shù)數(shù)量節(jié)省計(jì)算開(kāi)銷。
圖3 參數(shù)T對(duì)分類誤差的影響Fig.3 The influence of parameter T on classification error
高分辨率影像空間分辨率增大造成同物異譜現(xiàn)象增加,道路提取結(jié)果易受車輛、陰影、建筑物、空地等干擾,路面出現(xiàn)孔洞、粘連等現(xiàn)象,道路邊緣的平行性遭到破壞,提取的道路結(jié)果目視效果較差。
數(shù)學(xué)形態(tài)學(xué)是數(shù)學(xué)與拓?fù)鋵W(xué)的有機(jī)結(jié)合,將圖像處理的復(fù)雜操作轉(zhuǎn)換為簡(jiǎn)單的集合運(yùn)算。其基本思想是借助帶有對(duì)象某種特征的結(jié)構(gòu)元素進(jìn)行影像中特定目標(biāo)的識(shí)別與檢測(cè)。數(shù)學(xué)形態(tài)學(xué)中的膨脹、腐蝕及其組合運(yùn)算可以有效填充孔洞、去除毛刺、消除孤立噪聲,但普通結(jié)構(gòu)元素的形態(tài)學(xué)運(yùn)算無(wú)法區(qū)分建筑物等其他地物與道路混疊的區(qū)域。在高分辨率遙感影像中,道路呈現(xiàn)細(xì)長(zhǎng)且有一定像素寬度的長(zhǎng)條狀,具有方向性。因此可以構(gòu)造一種具有明顯道路特征的多方向形態(tài)學(xué)濾波[13],將道路從粘連區(qū)域中獨(dú)立出來(lái)。
結(jié)構(gòu)元素EL,αi表達(dá)式為
(6)
式(6)中:αi為方向角;L為結(jié)構(gòu)元素的長(zhǎng)度。
利用該結(jié)構(gòu)元素對(duì)道路二值圖像進(jìn)行開(kāi)運(yùn)算,提取道路區(qū)域。
多方向結(jié)構(gòu)元素顯示如圖4(a)所示,圖4(b)與圖4(c)為道路片段利用該結(jié)構(gòu)元素形態(tài)學(xué)濾波去除非道路區(qū)域的作用效果。
圖4 多方向形態(tài)學(xué)濾波結(jié)果Fig.4 Multi-direction morphological filtering results
算法試驗(yàn)環(huán)境為Intel(R) Core(TM) i7-9750H CPU、8 GB內(nèi)存、Win10系統(tǒng),在MATLAB 2019b平臺(tái)實(shí)現(xiàn),共設(shè)計(jì)了3組實(shí)驗(yàn),從不同方法、不同分辨率、不同道路類型進(jìn)行對(duì)比道路提取效果,驗(yàn)證本文算法的有效性。
道路提取算法的精度評(píng)價(jià)從定性和定量?jī)蓚€(gè)角度出發(fā),定性評(píng)價(jià)主要是從目視效果上對(duì)比道路提取是否完整、是否存在毛刺、孔洞等;而定量評(píng)價(jià)采用完整率(completeness,Com)、正確率(correctness,Cor)、檢測(cè)質(zhì)量(quality,Q)等指標(biāo)綜合評(píng)價(jià)道路提取效果[14]。具體指標(biāo)計(jì)算公式為
(8)
(9)
(10)
式中:TP為正確提取的道路像元個(gè)數(shù);FN為未提取出的道路像元個(gè)數(shù);FP為錯(cuò)誤提取的道路像元個(gè)數(shù)。
試驗(yàn)數(shù)據(jù)選取Massachusetts Roads Dataset[15]與預(yù)處理后的ZY-3衛(wèi)星影像數(shù)據(jù)。前者參考道路圖像來(lái)源于數(shù)據(jù)集的標(biāo)記圖像,后者為人工目視解譯結(jié)果。試驗(yàn)數(shù)據(jù)相關(guān)信息如表2所示。
表2 3組試驗(yàn)數(shù)據(jù)信息Table 2 Three experimental datasets
通過(guò)與文獻(xiàn)[2-4]中算法對(duì)比,3組實(shí)驗(yàn)結(jié)果分別如圖5~圖7所示,各方法精度評(píng)價(jià)如表3所示。
試驗(yàn)1數(shù)據(jù)區(qū)域?yàn)榘?jiǎn)單直線道路的城鎮(zhèn)區(qū)域,地物類型包括道路、建筑物及少量植被。由圖5中的提取結(jié)果可以看出,幾種算法都可以較為完整地提取道路。但文獻(xiàn)[2]提取道路存在較多的斷裂,毛刺現(xiàn)象突出;面向?qū)ο蟮奈墨I(xiàn)[4]方法提取出的道路存在少量的粘連現(xiàn)象,道路與部分空地未分離開(kāi);本文算法提取結(jié)果的視覺(jué)效果較好,基本上將全部道路提取完整,從定量角度看,本文算法與其他兩種算法相比,完整率、正確率、提取質(zhì)量上均最優(yōu)。
試驗(yàn)2區(qū)域由曲率較大的道路組成,道路標(biāo)志線與部分土地植被光譜特征相似,提取難度增加。由圖6可知,相較文獻(xiàn)[2]與文獻(xiàn)[4]算法,本文算法對(duì)于城郊曲線型道路提取效果較好,提取結(jié)果光滑流暢,基本保持道路邊緣的平行性,而且提取道路較為完整,正確率及提取質(zhì)量高于其他兩種算法。
試驗(yàn)3數(shù)據(jù)為ZY-3號(hào)衛(wèi)星數(shù)據(jù),分辨率較航空影像有所降低,場(chǎng)景較為復(fù)雜,存在較多建筑物遮擋,部分陰影下的道路區(qū)域光譜特征不明顯,幾種算法整體上提取結(jié)果較差。本文算法相較其他算法較為完整地提取出主要道路,但未能準(zhǔn)確提取出陰影下的道路區(qū)域,造成道路上的斷裂、遺漏等。道路提取的完整率、正確率與提取質(zhì)量數(shù)值相對(duì)較高,優(yōu)于其他算法,但與試驗(yàn)1與試驗(yàn)2中的結(jié)果相比,提取效果較差。
圖5 試驗(yàn)數(shù)據(jù)1不同方法道路提取結(jié)果Fig.5 The road extraction results by different methods of data1
圖6 試驗(yàn)數(shù)據(jù)2不同方法道路提取結(jié)果Fig.6 The road extraction results by different methods of data2
圖7 試驗(yàn)數(shù)據(jù)3不同方法道路提取結(jié)果Fig.7 The road extraction results by different methods of data3
表3 不同算法提取精度Table 3 Extraction accuracy of different algorithms
提出了一種基于自適應(yīng)標(biāo)注樣本的提取遙感影像道路方法,得到以下結(jié)論。
(1)該方法自主標(biāo)注訓(xùn)練樣本的類別標(biāo)簽,避免人工采集樣本數(shù)據(jù),提高作業(yè)效率,得到較為精確的道路提取結(jié)果。
(2)3組實(shí)驗(yàn)通過(guò)不同場(chǎng)景、不同分辨率進(jìn)行各方法的對(duì)比,實(shí)驗(yàn)結(jié)果表明,本文算法有效改善了道路提取中的椒鹽噪聲以及相似地物之間的粘連現(xiàn)象。對(duì)于高分辨率遙感影像中直線型及曲線型道路均有較好的道路提取效果。
(3)對(duì)于存在較多建筑物陰影、光譜特征受到破壞的城鎮(zhèn)復(fù)雜影像提取效果一般,但優(yōu)于其他算法。
自適應(yīng)樣本標(biāo)注方法得到的類別標(biāo)簽含有一定噪聲,影響道路提取精度,因此在今后的研究中將探索如何更精準(zhǔn)地標(biāo)注類別標(biāo)簽。另外,如何提取陰影遮擋下的道路區(qū)域需要進(jìn)一步研究。