李梟,王雙亭,王春陽,都偉冰,趙利霞
(河南理工大學(xué) 測繪與國土信息工程學(xué)院,河南 焦作 454000)
隨著多視影像密集匹配技術(shù)的發(fā)展[1],可以較為容易地獲取到類比于激光點(diǎn)云精度和密度的傾斜攝影測量點(diǎn)云。該點(diǎn)云主要用于后續(xù)的三維建模,基于傾斜影像所構(gòu)建的三維模型僅是一個單一的表面模型,缺乏語義信息,所以如何在點(diǎn)云層面自動判別場景內(nèi)的地物并完成建模,實(shí)現(xiàn)地物的單體化有著重要的研究意義。
點(diǎn)云分類是三維建模的第一步也是非常重要的一步[2]。目前,點(diǎn)云分類的研究主要集中在激光點(diǎn)云,主要通過有監(jiān)督的機(jī)器學(xué)習(xí)來進(jìn)行。Zhang等[3]采用支持向量機(jī)(support vector machine,SVM)對3個不同密度的激光點(diǎn)云數(shù)據(jù)集進(jìn)行分類處理,并利用連通域分析進(jìn)行后處理優(yōu)化。Ni等[4]利用隨機(jī)森林(random forest,RF)對聚類后的點(diǎn)云數(shù)據(jù)進(jìn)行分類,并設(shè)置一定的語義規(guī)則對錯分現(xiàn)象進(jìn)行修正。Xu等[5]結(jié)合機(jī)載掃描點(diǎn)云對5種常見的分類器的分類效果進(jìn)行了系統(tǒng)性的分析。而針對傾斜攝影測量點(diǎn)云的分類研究相對較少,比較代表性的有何雪等[6]將點(diǎn)云與影像進(jìn)行結(jié)合,構(gòu)建超體素,并采用上下文關(guān)系進(jìn)行優(yōu)化處理,收到了較好的分類效果;趙利霞等[7]利用隨機(jī)森林對幾何和光譜特征進(jìn)行優(yōu)選,減少了特征冗余現(xiàn)象,有效地提高了分類的效率。
上述分類方法均通過監(jiān)督分類的方式進(jìn)行。有監(jiān)督的機(jī)器學(xué)習(xí)通常利用全部訓(xùn)練集進(jìn)行一次分類,這會導(dǎo)致分類的效率和精度很大程度上都受到訓(xùn)練集的影響。人為選取的訓(xùn)練樣本存在較大的主觀性,不可避免地存在一些冗余甚至“負(fù)作用”的數(shù)據(jù)。此外,上述文獻(xiàn)中所利用的后處理優(yōu)化方式,需要大量參數(shù)、閾值以及規(guī)則的設(shè)置,優(yōu)化過程的自動化程度較低。
為了解決上述問題,本文利用信息熵改進(jìn)隨機(jī)森林,利用小樣本不斷迭代的方式,逐步抽取“信息含量”高的訓(xùn)練數(shù)據(jù)參與分類,充分挖掘訓(xùn)練集的分類能力。針對優(yōu)化過程自動化程度不高的現(xiàn)象,本文構(gòu)建了循環(huán)置信傳播網(wǎng)絡(luò)(loopy belief propagation,LBP)[8]。該方法通過鄰域內(nèi)信息傳遞的方式,使鄰近的點(diǎn)云類別趨近相同從而達(dá)到優(yōu)化分類結(jié)果的目的。
本文的分類框架由三部分組成:數(shù)據(jù)預(yù)處理;利用信息熵改進(jìn)的隨機(jī)森林初次分類;利用LBP算法對初步分類結(jié)果進(jìn)行優(yōu)化。詳細(xì)的技術(shù)流程如圖1所示。
圖1 技術(shù)流程
由于傾斜攝影測量點(diǎn)云是高密度的三維彩色點(diǎn)云,所以要對數(shù)據(jù)進(jìn)行預(yù)處理,處理過程主要遵循以下步驟:
①保留原始特征情況下對點(diǎn)云進(jìn)行降采樣。
②利用布料模擬濾波算法(cloth simulation filtering,CSF)[9]對點(diǎn)云進(jìn)行濾波,將地面點(diǎn)作為一類納入分類結(jié)果。該算法模擬了虛擬布料覆蓋于倒置點(diǎn)云的簡單物理過程,通過設(shè)定布料節(jié)點(diǎn)和激光點(diǎn)的距離閾值將點(diǎn)云分為地面點(diǎn)和非地面點(diǎn)。
③考慮每個非地面點(diǎn)與鄰域內(nèi)其他點(diǎn)的歐式距離,設(shè)定閾值進(jìn)行離散噪聲點(diǎn)的濾除。
④選擇大約10%的點(diǎn)云作為訓(xùn)練集,選取一定數(shù)量的點(diǎn)作為驗(yàn)證數(shù)據(jù)。
傾斜攝影測量點(diǎn)云區(qū)別于激光點(diǎn)云,有真實(shí)的紋理信息,本文特征的計(jì)算主要從幾何特征和光譜特征2個方面進(jìn)行,兩者融合有助于提高分類效果[10],鄰域大小為K(K=8)。本文采用的特征集如下:
①協(xié)方差系列特征。包括法向量nx、ny、nz,線性(linearity,Lλ),平面性(planarity,Pλ),球度性(scattering,Sλ)以及各向異性(anisotropy,Aλ),這些特征均反映了點(diǎn)云的鄰域內(nèi)的空間分布[11]。
②高程系列特征。包括歸一化高程、鄰域高程差異以及鄰域高程標(biāo)準(zhǔn)差,這些特征能夠反映點(diǎn)云的高度變化,有助于區(qū)分存在高程差異的地物。
③顏色模型特征。包括HSV顏色模型和Lab顏色模型,這兩者顏色特征區(qū)別于RGB顏色,加入了感官特征,反映點(diǎn)云顏色的明暗和深淺。
④植被指數(shù)特征。包括差異植被指數(shù)(visible-band difference vegetation index,VDVI)、歸一化綠藍(lán)差異指數(shù)(normalized green-blue difference index,NGBDI)、紅綠藍(lán)植被指數(shù)(red-green-blue vegetation index,RGBVI)。植被指數(shù)特征的加入有助于區(qū)分植被和非植被地物。
信息熵是信息不確定性的描述[12],信息熵越大,表示信息不確定性越高,信息含量越高。本文引入二次Renyi熵作為評價(jià)信息不確定性的標(biāo)準(zhǔn)。二次Renyi熵可以通過歸一化處理后的式(1)得到
(1)
式中:R2(X)表示二次Renyi熵值;p(xi)表示某個點(diǎn)第i個的類別標(biāo)簽的概率;n表示類別個數(shù)。
隨機(jī)森林在點(diǎn)云分類領(lǐng)域有良好的表現(xiàn)[13-14],所以本文將二次Renyi熵與隨機(jī)森林結(jié)合,提出一種改進(jìn)的監(jiān)督分類方法。具體的算法流程如下:
①對原始訓(xùn)練集進(jìn)行抽樣(10%)作為初始迭代的子訓(xùn)練集,剩余數(shù)據(jù)作為迭代過程中更新訓(xùn)練集的數(shù)據(jù)源。
②首次迭代,獲得初次的分類結(jié)果。將每個點(diǎn)預(yù)測類別的投票數(shù)轉(zhuǎn)化為概率值,計(jì)算所有點(diǎn)云的二次Renyi熵值。
③從剩余的訓(xùn)練集中選取熵值較大的一定數(shù)量(初始子訓(xùn)練集的1/3~1/2)的點(diǎn)作為下次迭代所增加的新數(shù)據(jù),更新訓(xùn)練集,并在剩余訓(xùn)練集中對應(yīng)剔除,保證所選取的訓(xùn)練集不冗余。
④滿足迭代次數(shù),輸出分類結(jié)果(類別標(biāo)簽;類別標(biāo)簽概率;優(yōu)選的訓(xùn)練集)。
在上述算法流程中,更新訓(xùn)練集所添加的數(shù)據(jù)為本次迭代過程中熵值較大的一些點(diǎn),熵值越大代表著這些點(diǎn)標(biāo)簽不確定性和信息含量越高,但是由于其真實(shí)類別標(biāo)簽已知,所以本文將這些數(shù)據(jù)作為已知信息加入下一次迭代,不斷優(yōu)化分類結(jié)果。
傳統(tǒng)分類方法在沒有空間關(guān)系作為先驗(yàn)知識的情況下進(jìn)行分類過程,依據(jù)所得到的類別標(biāo)簽概率去標(biāo)記每個點(diǎn)的類別是存在一定局限性的。因此,基于單點(diǎn)的分類過程不可避免地會出現(xiàn)散亂點(diǎn)錯分的現(xiàn)象,即常見的“椒鹽”現(xiàn)象。
為了改善這種現(xiàn)象,本文引入在圖像分割領(lǐng)域常用的多級logistic(multi-level logistic,MLL)模型函數(shù),它能夠促使圖像分割時(shí)鄰近像素更可能地被分為一類[15-16]。本文利用MLL模型作為描述點(diǎn)云類別標(biāo)簽空間約束關(guān)系的先驗(yàn)概率,計(jì)算方式如式(2),當(dāng)點(diǎn)i和j的類別標(biāo)簽xi和xj一致時(shí),該函數(shù)會賦予較大的權(quán)重,促使鄰近點(diǎn)更可能被標(biāo)記一致。在引入先驗(yàn)概率的基礎(chǔ)上,獲取每個點(diǎn)的最大后驗(yàn)概率(maximum a posteriori,MAP)是優(yōu)化過程的核心。
(2)
式中:Z表示歸一化常數(shù);μ表示平滑度;C表示點(diǎn)云的鄰域范圍;δ(xi-xj)是一個單位脈沖函數(shù),當(dāng)xi=xj時(shí),函數(shù)值為1,反之為0。
最大后驗(yàn)概率可以通過求解最大后緣概率(maximum a posteriori marginal,MPM)的方式來進(jìn)行[17]。因此,本文構(gòu)建了LBP網(wǎng)絡(luò),通過求解置信度的方式來獲取最大后驗(yàn)邊緣的概率分布,以此確定每個點(diǎn)的類別標(biāo)簽。置信傳播是一種特殊的馬爾科夫隨機(jī)場(markov random filed,MRF),它描述了每個點(diǎn)的類別標(biāo)簽獨(dú)立于整個點(diǎn)云而只依賴于鄰近其他點(diǎn)。其中,2個能量函數(shù)關(guān)聯(lián)勢φi(xi,yi)和交互勢ψij(xi,xj)分別利用初次分類結(jié)果的類別標(biāo)簽概率和MLL模型構(gòu)建的空間約束的先驗(yàn)概率表示。
置信傳播通過信息傳遞的方式,將該點(diǎn)的信息經(jīng)過加權(quán)處理傳遞到鄰域的其他節(jié)點(diǎn),以影響其他節(jié)點(diǎn)的概率分布。經(jīng)過一定次數(shù)的迭代,每個點(diǎn)的概率分布將會處于一個穩(wěn)定的狀態(tài)[18]。每個點(diǎn)通過所有接收到的信息來計(jì)算置信度[8],以此確定每個點(diǎn)的類別標(biāo)簽。本文循環(huán)置信傳播過程采用標(biāo)準(zhǔn)最大乘置信度傳播(max-product,MP),算法借鑒文獻(xiàn)[16]。圖2表示某次迭代過程中信息傳遞情況。
圖2 信息傳遞
置信傳播過程中信息傳遞和置信度的計(jì)算公式如式(3)、式(4)所示:
(3)
(4)
迭代結(jié)束后,選擇置信度高的類別標(biāo)簽對所有點(diǎn)云進(jìn)行重新標(biāo)記,如式(5)所示,得到優(yōu)化后的分類結(jié)果。
xi=argmaxbi(xi)
(5)
本文使用的數(shù)據(jù)為鶴壁市某區(qū)域的傾斜攝影測量點(diǎn)云,研究區(qū)域占地0.51 km2,點(diǎn)云數(shù)量為1 430 003個,如圖3所示。我們利用Matlab 2016a和開源軟件Cloud Compare平臺驗(yàn)證本文提出的分類框架。本次分類只針對非地面點(diǎn),所以使用布料模擬濾波算法對地面點(diǎn)進(jìn)行濾除,濾波結(jié)果如圖4所示,其中,圖4(a)為濾波后的地面點(diǎn)數(shù)據(jù),將其納為單獨(dú)的地物類別,圖4(b)為后續(xù)待分類的點(diǎn)云數(shù)據(jù)集。
圖3 研究區(qū)域圖示
圖4 布料模擬濾波結(jié)果
針對濾波后的非地面點(diǎn)進(jìn)行去噪處理。得到參與分類的點(diǎn)云數(shù)據(jù)集如表1所示。
表1 實(shí)驗(yàn)數(shù)據(jù)集 /個
本文改進(jìn)的隨機(jī)森林算法是利用小樣本迭代的方式進(jìn)行的,所以對原始訓(xùn)練集抽樣方式的研究也是一個值得討論的問題??紤]到不平衡數(shù)據(jù)的存在,為了使每一類的點(diǎn)云都會被抽取到,本小節(jié)主要對等概率和等數(shù)量2種抽樣方式進(jìn)行簡單分析。前者在抽樣過程中保留了原始訓(xùn)練集不同類別點(diǎn)云數(shù)量的比例,后者保證每類點(diǎn)云都能抽到相同數(shù)量。圖5表示2種抽樣方式的迭代過程。從圖5(a)、圖5(b)可以發(fā)現(xiàn)2種抽樣方式進(jìn)行的迭代分類,分類精度曲線均呈現(xiàn)一種先上升后穩(wěn)定的趨勢,但是,相對于等數(shù)量抽樣,等概率抽樣最大限度地模擬了原始訓(xùn)練集,該抽樣方法能夠獲得較高的初次分類的精度,而且變化曲線相對比較平穩(wěn),可以提高算法運(yùn)行的穩(wěn)定性,所以本文的研究也將延用該種抽樣方式。
圖5 不同抽樣方式迭代過程
圖6表示算法改進(jìn)前后分類結(jié)果的對比情況。從圖中可以看出,當(dāng)?shù)M(jìn)行到第三次時(shí),改進(jìn)后算法的分類結(jié)果中總體精度和Kappa系數(shù)都已經(jīng)超過傳統(tǒng)算法,隨著迭代的進(jìn)行,分類精度還有一定的提高。此外,迭代到第三次所耗費(fèi)的總時(shí)間僅為149.14 s,而利用全部訓(xùn)練集進(jìn)行傳統(tǒng)隨機(jī)森林分類則會消耗333.54 s。本文的方法雖然分類精度并沒有較大的提升,但是算法的運(yùn)行效率卻有了很大的提高。其次,從圖6中可以發(fā)現(xiàn)隨著訓(xùn)練集的不斷增加,分類的精度趨于穩(wěn)定甚至略有下降,說明新添加的訓(xùn)練集對整體的分類效果并沒有產(chǎn)生促進(jìn)作用,這些數(shù)據(jù)的加入反而使得訓(xùn)練樣本冗余,甚至?xí)霈F(xiàn)一些“負(fù)作用”的數(shù)據(jù)。所以訓(xùn)練集的優(yōu)選對提高分類的精度和效率有十分重要的意義。
圖6 算法改進(jìn)前后分類結(jié)果的對比情況
此外,針對不同點(diǎn)云數(shù)據(jù)集進(jìn)行了大量的實(shí)驗(yàn)發(fā)現(xiàn),本文提出的改進(jìn)算法均能在較短的迭代次數(shù)內(nèi)使分類精度達(dá)到峰值(一般為3~5次),隨著迭代的進(jìn)行分類精度將會保持穩(wěn)定狀態(tài)。
為了驗(yàn)證優(yōu)選的訓(xùn)練集能否達(dá)到預(yù)期的分類效果,選擇第三次迭代過程的訓(xùn)練集參與隨機(jī)森林分類,從表2可以看出,利用優(yōu)選出的訓(xùn)練集進(jìn)行實(shí)驗(yàn),能夠在保證分類精度的前提下,將運(yùn)行時(shí)間縮短80.15%,運(yùn)行效率大大提高。所以,信息熵改進(jìn)的隨機(jī)森林方法能夠優(yōu)選出一組適合于該分類模型且分類能力較強(qiáng)的子訓(xùn)練集,同時(shí)能夠?yàn)樵摂?shù)據(jù)集后續(xù)的二次使用節(jié)約運(yùn)行成本。
表2 訓(xùn)練集優(yōu)選前后對比結(jié)果
在以下小節(jié)中,對文中提出的分類框架和傳統(tǒng)單點(diǎn)分類的結(jié)果進(jìn)行定性和定量的分析,并引入一些常用的分類算法進(jìn)行對比實(shí)驗(yàn)。此外,文末還對分類框架的適用性進(jìn)行了簡單的實(shí)驗(yàn)分析。
1)定性分析。圖7(a)、圖7(b)表示基于單點(diǎn)的隨機(jī)森林分類和文中提出的分類框架二者分類結(jié)果,圖7(c)至圖7(f)表示局部放大圖。圖7(c)、圖7(e)反映了基于單點(diǎn)的分類中出現(xiàn)散亂點(diǎn)錯分的“椒鹽”現(xiàn)象,其中,大量散亂的植被點(diǎn)云被錯分為建筑物。從圖7(d)、圖7(f)中可以看出,引入LBP算法進(jìn)行優(yōu)化后,錯分的植被點(diǎn)基本都被修正,說明文中提出的分類框架對解決基于單點(diǎn)分類中的“椒鹽”現(xiàn)象十分有效。
圖7 分類結(jié)果可視化
但是本文提出的分類框架也有著一定的局限性,對于成團(tuán)簇結(jié)構(gòu)錯分的點(diǎn)云,優(yōu)化能力有限。從圖8(a)、圖8(b)的黑色框中可以發(fā)現(xiàn),圖8(a)中植被錯分為建筑物的點(diǎn)云僅有散亂點(diǎn)錯分現(xiàn)象被修正,對于團(tuán)簇結(jié)構(gòu)錯分的點(diǎn)云,并沒有起到多大的效果,甚至將原本類別標(biāo)簽正確的一些點(diǎn)錯誤標(biāo)記。這是由于在LBP算法優(yōu)化過程中,這些點(diǎn)局部鄰域范圍內(nèi)存在大量錯誤標(biāo)記的點(diǎn)云,信息傳遞過程中這些點(diǎn)被賦予了較大的權(quán)重信息,隨著迭代的進(jìn)行,錯誤信息進(jìn)行了放大,從而出現(xiàn)了原始標(biāo)簽正確但優(yōu)化后被標(biāo)記錯誤的現(xiàn)象。
圖8 未修正現(xiàn)象
2)定量分析。本小節(jié)中對2種分類方法進(jìn)行定量的分析。為了驗(yàn)證算法的有效性,引入了總體精度、Kappa系數(shù)、查準(zhǔn)率、查全率以及F分?jǐn)?shù)作為評判標(biāo)準(zhǔn)。從表3、表4的結(jié)果可以看出,本文提出的方法分類的總體精度較傳統(tǒng)方法提高了2.15%,Kappa系數(shù)增加了4.22%。從兩表的查準(zhǔn)率可以發(fā)現(xiàn),表4中每一類地物的分類準(zhǔn)確性較表3都有一定程度的提高,其中,車輛點(diǎn)的分類準(zhǔn)確性較傳統(tǒng)方法提高了13.43%。相比于其他2種地物,車輛點(diǎn)通常情況下為獨(dú)立地物點(diǎn)且不與其他地物點(diǎn)發(fā)生“粘連”現(xiàn)象,這使得車輛點(diǎn)局部鄰域內(nèi)點(diǎn)的類別更可能為車輛。在LBP算法信息傳遞過程中,車輛點(diǎn)的高權(quán)重信息影響了其鄰域內(nèi)錯分點(diǎn)云的概率分布,錯分點(diǎn)云被修正,致使車輛的分類準(zhǔn)確性大幅提高。由此可見,文中提出的分類框架的分類性能較傳統(tǒng)方法更優(yōu)。
表3 傳統(tǒng)隨機(jī)森林分類結(jié)果
表4 本文提出的方法分類結(jié)果
同時(shí),本文還引入了目前比較常用的分類器對該數(shù)據(jù)集進(jìn)行分類處理。從表5中可以看出,本文傾斜攝影測量點(diǎn)云的分類框架相比于其他幾種分類器的分類結(jié)果有著較高的分類精度。此外,為了驗(yàn)證本文分類框架的適用性,將分類框架中的隨機(jī)森林分類器替換為SVM分類器,利用二次Renyi熵改進(jìn)傳統(tǒng)SVM,并利用LBP算法進(jìn)行后處理優(yōu)化。從表5中的實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),改進(jìn)后的算法較傳統(tǒng)SVM分類效果更好,總體精度提高了3.19%,Kappa系數(shù)提升了6.25%,說明本文分類框架具有適用于不同傳統(tǒng)分類器的能力。
表5 多種分類器分類結(jié)果
針對目前點(diǎn)云分類過程大多缺乏對訓(xùn)練集的考慮,以及后處理過程自動化程度較弱的兩種現(xiàn)象,本文提出了一種新的分類框架,利用二次Renyi熵改進(jìn)傳統(tǒng)的隨機(jī)森林,構(gòu)建LBP網(wǎng)絡(luò)做優(yōu)化,并對算法進(jìn)行了驗(yàn)證,得出了以下結(jié)論:①信息熵改進(jìn)的傳統(tǒng)隨機(jī)森林算法能夠在很短的時(shí)間內(nèi)達(dá)到傳統(tǒng)分類精度,效率成倍提高,優(yōu)選的訓(xùn)練集仍有很高的分類能力。因此在數(shù)據(jù)量較大的情況下建議使用。②通過迭代過程發(fā)現(xiàn),隨著訓(xùn)練集數(shù)量的增加,分類精度并不會呈現(xiàn)正相關(guān)趨勢,反而保持平穩(wěn)甚至略有下降。③置信傳播的優(yōu)化處理過程高度自動化,能夠提高分類精度,改善“椒鹽”現(xiàn)象。④分類框架具有較強(qiáng)的適用性,替換分類器依舊可以獲得很好的分類效果。⑤LBP優(yōu)化算法對成簇狀錯分點(diǎn)云的修正能力有限,仍需改進(jìn)。