楊 柳,劉啟亮,袁浩濤
(中南大學(xué)地球科學(xué)與信息物理學(xué)院地理信息系,湖南 長沙 410083)
近年來,車載或地面激光掃描技術(shù)已成為城市三維信息快速獲取的重要手段,并廣泛用于智能交通、環(huán)境保護(hù)、智慧城市等領(lǐng)域[1,2]。點(diǎn)云語義分割旨在從雜亂無序的點(diǎn)云中識(shí)別與提取地物目標(biāo)[3],是城市激光點(diǎn)云數(shù)據(jù)處理的核心任務(wù)之一[4,5]。由于城市激光點(diǎn)云數(shù)據(jù)中目標(biāo)多樣、密度不均且存在缺失等[6,7],從中提取地物目標(biāo)一直是一項(xiàng)具有挑戰(zhàn)性的難題[8-10]。長期以來,點(diǎn)云語義分割主要依賴人工設(shè)計(jì)的特征描述子[11-16],包括屬性特征[17-19](如顏色、高程、反射強(qiáng)度等)、局部幾何特征[20-22](如法向量、曲率、主方向等)以及宏觀特征[23,24](如形狀、特征值分布、離散度等)?;谏鲜鎏卣髅枋鲎?,國內(nèi)外學(xué)者主要采用兩種策略提取點(diǎn)云目標(biāo)[25]:1)逐點(diǎn)聚類或分割的策略,即逐點(diǎn)分析局部鄰域內(nèi)特征描述子的差異,采用聚類分析法將點(diǎn)云分割為不同目標(biāo)[26-30];2)面向?qū)ο蟮牟呗?,即將點(diǎn)云分割為一系列均質(zhì)的對(duì)象,依據(jù)對(duì)象特征通過聚類識(shí)別點(diǎn)云中的目標(biāo)[31-36]。然而,人工設(shè)計(jì)的特征描述子僅能夠表達(dá)點(diǎn)云低層次的基礎(chǔ)特征,難以識(shí)別建模場景中高層次語義特征,嚴(yán)重影響了上述點(diǎn)云語義分割方法在復(fù)雜城市場景中的應(yīng)用效果[37]。
近年來,深度學(xué)習(xí)在圖像模式識(shí)別領(lǐng)域的突破性進(jìn)展為城市激光點(diǎn)云語義分割提供了新的研究思路,深度網(wǎng)絡(luò)可從數(shù)據(jù)中自動(dòng)提取從底層到高層的特征,建立從低層次特征到高層次語義的映射關(guān)系[38]。當(dāng)前,國內(nèi)外學(xué)者嘗試將深度學(xué)習(xí)思想引入點(diǎn)云語義分割領(lǐng)域[39],研究方法主要分為以下3類:
(1)基于體素或多視圖的方法。為使深度網(wǎng)絡(luò)能夠適應(yīng)散亂的點(diǎn)云數(shù)據(jù),首先對(duì)點(diǎn)云數(shù)據(jù)進(jìn)行規(guī)則化處理,再采用深度網(wǎng)絡(luò)進(jìn)行點(diǎn)云語義分割。基于體素的方法利用固定大小的三維格網(wǎng)對(duì)空間進(jìn)行劃分,落在同一格網(wǎng)中的點(diǎn)被視為一個(gè)體素,從而將點(diǎn)云數(shù)據(jù)轉(zhuǎn)化為三維規(guī)范數(shù)據(jù)并輸入3D CNN網(wǎng)絡(luò)中,以識(shí)別輸入對(duì)象的類別[40-42];多視圖方法通過選擇不同的方向?qū)⑷S點(diǎn)云投影為二維圖片,并在二維圖片上應(yīng)用2D CNN實(shí)現(xiàn)類別判斷[43,44]。上述方法對(duì)于原始點(diǎn)云數(shù)據(jù)的規(guī)則化處理不利于點(diǎn)云細(xì)節(jié)特征的提取。
(2)基于原始點(diǎn)云的方法。為避免體素化或投影帶來的信息損失,相繼提出了一些直接針對(duì)原始不規(guī)則點(diǎn)云數(shù)據(jù)的深度網(wǎng)絡(luò)。例如:PointNet[45]首次將散亂的三維坐標(biāo)作為網(wǎng)絡(luò)的輸入,并引入對(duì)稱函數(shù)使得網(wǎng)絡(luò)對(duì)點(diǎn)云的輸入順序不敏感,但其對(duì)局部細(xì)節(jié)信息的學(xué)習(xí)能力不足;改進(jìn)的PointNet++[46]通過將原始點(diǎn)云劃分為局部小區(qū)域,在小區(qū)域中迭代使用PointNet以實(shí)現(xiàn)局部細(xì)節(jié)信息的學(xué)習(xí);PointCNN[47]使用卷積操作融合鄰域特征以得到局部特征的一維表示;為得到更有效的多尺度細(xì)節(jié)信息,Guo等[48]從不同層次的卷積操作中提取特征并進(jìn)行融合,將融合后的特征輸入分類器進(jìn)行點(diǎn)云目標(biāo)識(shí)別。上述針對(duì)點(diǎn)云設(shè)計(jì)的深度網(wǎng)絡(luò)奠定了深度學(xué)習(xí)方法在點(diǎn)云語義分割中應(yīng)用的理論基礎(chǔ),但其僅針對(duì)單個(gè)點(diǎn)進(jìn)行操作,難以適應(yīng)城市大場景的語義分割任務(wù)。
(3)面向?qū)ο蟮姆椒?。為提高點(diǎn)云語義分割的效率,在點(diǎn)云語義分割的深度網(wǎng)絡(luò)構(gòu)建中引入了面向?qū)ο蟮牟呗?。例如:基于超點(diǎn)圖的深度網(wǎng)絡(luò)(SPG)[49]首先對(duì)海量點(diǎn)云過分割得到超點(diǎn),基于超點(diǎn)提取抽象特征并構(gòu)建拓?fù)溥B接圖,然后引入長短期記憶網(wǎng)絡(luò)實(shí)現(xiàn)地物語義分割;Wang等[50]通過將原始點(diǎn)云劃分為點(diǎn)簇以縮減數(shù)據(jù)量,并利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)點(diǎn)簇的特征進(jìn)行地物提取,使得深度網(wǎng)絡(luò)在大場景的應(yīng)用成為可能;羅海峰等[51]采用連通分支與基于體素的歸一化方法對(duì)原始點(diǎn)云分割得到目標(biāo)對(duì)象,再利用深度網(wǎng)絡(luò)對(duì)目標(biāo)對(duì)象的二值圖像進(jìn)行語義分割。
綜上,基于深度學(xué)習(xí)的點(diǎn)云語義分割研究已成為近年來點(diǎn)云數(shù)據(jù)處理的熱點(diǎn),但其在城市激光點(diǎn)云語義分割任務(wù)中的應(yīng)用效果尚缺乏客觀的對(duì)比與評(píng)價(jià),如PointNet、PointNet++、PointCNN等網(wǎng)絡(luò)僅在室內(nèi)場景的點(diǎn)云語義分割中進(jìn)行了驗(yàn)證;此外,深度網(wǎng)絡(luò)是否能夠提取比人工設(shè)計(jì)的特征描述子更“高級(jí)”的特征尚缺乏驗(yàn)證。為此,本文試圖通過實(shí)驗(yàn)對(duì)比分析,探索如下問題:1)當(dāng)前基于深度學(xué)習(xí)的點(diǎn)云語義分割方法是否真的優(yōu)于基于特征描述子的方法?2)不同類型的點(diǎn)云語義分割深度網(wǎng)絡(luò)在不同類型城市激光點(diǎn)云數(shù)據(jù)中的表現(xiàn)存在多大程度的差異?
本文采用3組開放城市激光點(diǎn)云數(shù)據(jù)集——Semantic 3D[52]、Oakland[53]及TerraMobilita/iQmulus 3D urban (Paris數(shù)據(jù)集)[54],對(duì)當(dāng)前4種代表性點(diǎn)云語義分割深度網(wǎng)絡(luò)(PointNet、PointNet++、PointCNN、SPG)以及一種基于特征描述子的方法(層次化點(diǎn)云語義分割方法)進(jìn)行對(duì)比研究,分別采用總體精度、精度、召回率及F1指數(shù)對(duì)上述5種方法的應(yīng)用效果進(jìn)行定量評(píng)價(jià),為實(shí)際應(yīng)用中選擇點(diǎn)云語義分割方法及點(diǎn)云語義分割深度網(wǎng)絡(luò)的設(shè)計(jì)優(yōu)化提供借鑒。
層次化點(diǎn)云語義分割方法[8]采用面向?qū)ο蟮牟呗蕴岣唿c(diǎn)云語義分割的效率,融合點(diǎn)云的幾何、紋理和強(qiáng)度等多類型特征進(jìn)行分割和分類,并借助層次化的語義分割策略,降低了不同類型目標(biāo)相隔較近時(shí)的提取誤差。如圖1所示:首先利用點(diǎn)云的距離、顏色、強(qiáng)度等信息計(jì)算得到的綜合距離生成超級(jí)體素(一種內(nèi)部均質(zhì)但形狀大小均不固定的點(diǎn)云簇);進(jìn)而依據(jù)不同地物幾何特征的差異性(如建筑物立面、地面等表現(xiàn)為法向量的一致性、桿狀地物表現(xiàn)為主方向一致性、樹冠等表現(xiàn)為顏色一致性等)將超級(jí)體素分為面狀、桿狀、球狀體素,分別采用法向量、主方向及顏色等信息聚類3種類型的超級(jí)體素;最后依據(jù)先驗(yàn)知識(shí)計(jì)算分割區(qū)域的顯著性,對(duì)分割區(qū)域依據(jù)顯著度進(jìn)行層次化排序,以顯著性最大的區(qū)域?yàn)橹行膮^(qū)域與其鄰近區(qū)域聚類得到目標(biāo),直到所有目標(biāo)均被識(shí)別。為判斷地物目標(biāo)的類別,層次化點(diǎn)云語義分割方法利用人類先驗(yàn)知識(shí)設(shè)置每種地物目標(biāo)的幾何特征約束(如長度、寬度、拓?fù)潢P(guān)系等),對(duì)地物目標(biāo)類別進(jìn)行標(biāo)記。
圖1 層次化點(diǎn)云語義分割方法流程Fig.1 Flow chart of hierarchical semantic segmentation of point clouds
PointNet[45]直接將原始點(diǎn)云數(shù)據(jù)作為輸入,解決了深度網(wǎng)絡(luò)應(yīng)用于點(diǎn)云語義分割的兩大難點(diǎn)(圖2):1)無序性,點(diǎn)云本質(zhì)上是一長串無序點(diǎn)集合,點(diǎn)的順序不影響點(diǎn)云對(duì)于物體形狀的表達(dá);2)旋轉(zhuǎn)不變性,相同的點(diǎn)經(jīng)過一系列剛性變換(如旋轉(zhuǎn)、平移等),坐標(biāo)會(huì)發(fā)生變化,但其表達(dá)的形狀并未改變。PointNet通過引入對(duì)稱矩陣使得點(diǎn)云輸入順序不影響學(xué)習(xí)結(jié)果。具體地,PointNet將最大池化函數(shù)作為對(duì)稱函數(shù),在使用對(duì)稱函數(shù)前,卷積操作僅在單個(gè)點(diǎn)上操作,可提高每個(gè)點(diǎn)的特征維度。經(jīng)過若干卷積層后在每個(gè)維度上分別使用最大池化函數(shù),得到每個(gè)維度上最顯著的特征信息,盡可能保留點(diǎn)云中最重要的高維特征,并使保留的特征與輸入順序無關(guān),對(duì)稱函數(shù)的操作如圖3所示。針對(duì)旋轉(zhuǎn)不變性問題,PointNet在提取高維特征之前,通過網(wǎng)絡(luò)學(xué)習(xí)一個(gè)類似于仿射變換矩陣的變換矩陣,以規(guī)范點(diǎn)云的輸入方向,從而使網(wǎng)絡(luò)對(duì)點(diǎn)云的剛性變換不敏感。
圖2 PointNet整體框架(改自文獻(xiàn)[45])Fig.2 Overall framework of PointNet
圖3 對(duì)稱函數(shù)示意Fig.3 Illustration of symmetric function
PointNet采用對(duì)稱函數(shù)僅能獲取點(diǎn)云數(shù)據(jù)的全局特征,忽略了點(diǎn)云的局部結(jié)構(gòu),影響了其針對(duì)復(fù)雜場景的泛化能力。PointNet++[46]為一種層次化的深度網(wǎng)絡(luò)結(jié)構(gòu)(圖4),可將點(diǎn)云劃分為相互重疊的局部區(qū)域,利用卷積算子從小區(qū)域中捕獲點(diǎn)云的局部特征,并將其作為下次分組的小單元,與其他特征構(gòu)成高級(jí)別的小區(qū)域,從而實(shí)現(xiàn)更高級(jí)別的特征提取,直到得到整個(gè)點(diǎn)云的高級(jí)特征。PointNet++在小區(qū)域內(nèi)迭代使用PointNet,充分考慮了點(diǎn)云的局部自相關(guān),更有利于提取細(xì)節(jié)特征,可減少特征損失。
圖4 PointNet++整體框架(改自文獻(xiàn)[46])Fig.4 Overall framework of PointNet++
為解決點(diǎn)云數(shù)據(jù)的無序性問題,同時(shí)捕捉點(diǎn)云數(shù)據(jù)的局部相關(guān)性,Li等針對(duì)圖像數(shù)據(jù)的卷積算子在點(diǎn)云數(shù)據(jù)中進(jìn)行了擴(kuò)展,提出了PointCNN網(wǎng)絡(luò)[47]。PointCNN采用轉(zhuǎn)置矩陣(圖5)處理點(diǎn)云無序性問題,使得無序點(diǎn)云能夠規(guī)范到統(tǒng)一的抽象空間,從而避免輸入順序的影響。與PointNet采用對(duì)稱函數(shù)處理點(diǎn)云無序性相比,PointCNN可降低特征的損失。為學(xué)習(xí)點(diǎn)云的局部特征,PointCNN在圖像卷積算子的基礎(chǔ)上構(gòu)建了X卷積算子(X-Conv),每次卷積時(shí),X卷積算子尋找最鄰近中心點(diǎn)的K個(gè)點(diǎn),將其特征融合。隨著網(wǎng)絡(luò)的加深,參與運(yùn)算的點(diǎn)越來越少,但每個(gè)中心點(diǎn)上的特征逐漸增加,以此實(shí)現(xiàn)與卷積算子相同的信息融合效果。在網(wǎng)絡(luò)整體架構(gòu)上,PointCNN首先通過學(xué)習(xí)變換矩陣消除點(diǎn)云無序性的影響,而后通過X卷積算子不斷融合局部信息,實(shí)現(xiàn)網(wǎng)絡(luò)對(duì)于局部信息的學(xué)習(xí)。在每次卷積中,X卷積算子尋找中心點(diǎn)的K鄰域,再通過加權(quán)求和融合K鄰域的特征,使其能達(dá)到與規(guī)則數(shù)據(jù)中卷積算子融合鄰域特征同樣的效果(圖6)。
圖5 轉(zhuǎn)置矩陣示意Fig.5 Illustration of transformation matrix
圖6 X卷積算子示意(改自文獻(xiàn)[47])Fig.6 Illustration of X-Conv operator
上述點(diǎn)云深度學(xué)習(xí)方法雖然解決了點(diǎn)云的無序性和旋轉(zhuǎn)不變性等問題,但網(wǎng)絡(luò)每次輸入的點(diǎn)數(shù)固定,要求點(diǎn)云數(shù)據(jù)輸入前必須人為劃分為統(tǒng)一大小,一定程度上切斷了部分點(diǎn)的拓?fù)潢P(guān)系;而且點(diǎn)云數(shù)據(jù)量大,直接基于單個(gè)點(diǎn)的操作降低了網(wǎng)絡(luò)處理的效率,限制了其在大場景中的應(yīng)用。針對(duì)以上問題,Landrieu等引入基于對(duì)象和圖的思想,構(gòu)建了一種基于超點(diǎn)圖的深度網(wǎng)絡(luò)(SPG)(圖7),實(shí)現(xiàn)了大規(guī)模場景地物目標(biāo)識(shí)別[49]。
圖7 SPG網(wǎng)絡(luò)結(jié)構(gòu)[49]Fig.7 Structure of SPG net
SPG首先采用一種弱監(jiān)督分類方法,依據(jù)點(diǎn)的線性、平面性和散射特征將點(diǎn)云劃分為一系列幾何同質(zhì)且富有意義的幾何形狀,即超點(diǎn)。超點(diǎn)的引入大大縮減了網(wǎng)絡(luò)處理的數(shù)據(jù)量,基于超點(diǎn)間的拓?fù)潢P(guān)系構(gòu)圖很好地保留了點(diǎn)云間的拓?fù)潢P(guān)系。由于基于超點(diǎn)構(gòu)建的圖遠(yuǎn)小于基于單個(gè)點(diǎn)構(gòu)建的圖,從而使得網(wǎng)絡(luò)處理大場景點(diǎn)云數(shù)據(jù)成為可能。對(duì)于每個(gè)超點(diǎn),采用PointNet學(xué)習(xí)其抽象特征,并將該特征作為基于圖結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò)的輸入。為同時(shí)學(xué)習(xí)更高級(jí)的語義特征和圖結(jié)構(gòu)的拓?fù)湫畔?,又將門控循環(huán)單元(GRU)通過圖的形式串聯(lián),每個(gè)GRU的輸入特征由其對(duì)應(yīng)的超點(diǎn)以及與其拓?fù)湎噜彽某c(diǎn)對(duì)應(yīng)的GRU的輸出共同組成,通過這種圖相連的形式進(jìn)行信息傳遞,得到分割結(jié)果。
上述城市激光點(diǎn)云語義分割方法的異同與主要特點(diǎn)總結(jié)于表1。
表1 城市激光點(diǎn)云語義分割方法對(duì)比Table 1 Comparison of the five semantic segmentation methods for laser point clouds in urban areas
本文分別采用Semantic 3D數(shù)據(jù)集中的bildstein3、Oakland及Paris數(shù)據(jù)集,對(duì)以上5種方法進(jìn)行測試。對(duì)于4種基于深度學(xué)習(xí)的方法,分別從原作者處獲取核心網(wǎng)絡(luò)代碼,修改后使其適用于3個(gè)基準(zhǔn)數(shù)據(jù)集的語義分割任務(wù);對(duì)于層次化點(diǎn)云語義分割方法,由于原作者未公布源代碼,本文獨(dú)立實(shí)現(xiàn)了該方法。所有算法均在一臺(tái)32 G內(nèi)存、64位8核處理器(3.5 GHz)的工作站上測試,操作系統(tǒng)為ubuntu 16.4,深度學(xué)習(xí)環(huán)境在cuda 9.0和tensorflow 1.2下搭建,算法編程語言為Python 3.6。本文采用機(jī)器學(xué)習(xí)模型評(píng)估常用的“留出法”(hold-out)對(duì)基于深度學(xué)習(xí)方法進(jìn)行評(píng)估。為平衡評(píng)估結(jié)果的保真性與訓(xùn)練模型的可靠性, 依據(jù)當(dāng)前機(jī)器學(xué)習(xí)領(lǐng)域的研究經(jīng)驗(yàn),從每個(gè)數(shù)據(jù)集中隨機(jī)選取每種類別70%的數(shù)據(jù)進(jìn)行訓(xùn)練,剩余30%數(shù)據(jù)作為測試樣本[55]。對(duì)于層次化點(diǎn)云語義分割方法,選用與基于深度學(xué)習(xí)方法相同的測試樣本進(jìn)行精度評(píng)價(jià),評(píng)價(jià)指標(biāo)包括總體精度、精度、召回率及F1指數(shù)。
為測試5種方法針對(duì)不同場景、不同形態(tài)目標(biāo)的分割效果,本文選取了不同區(qū)域、不同采集方式、不同場景的3組點(diǎn)云基準(zhǔn)數(shù)據(jù)進(jìn)行測試。1)Semantic 3D數(shù)據(jù)集中的bildstein3數(shù)據(jù)是蘇黎世聯(lián)邦理工學(xué)院采用靜態(tài)掃描儀采集的城市郊區(qū)點(diǎn)云數(shù)據(jù),包含樹木(點(diǎn)數(shù):3 174 966)、建筑物(點(diǎn)數(shù):592 462)、硬景觀(點(diǎn)數(shù):540 129)、汽車(點(diǎn)數(shù):92 875)4類地物,地物不規(guī)則且點(diǎn)密度較大。2)Oakland數(shù)據(jù)集是使用搭載了SICK LMS激光雷達(dá)掃描系統(tǒng)的智能車輛Navlab11在芝加哥大學(xué)校園收集的,包含樹木(點(diǎn)數(shù):290 251)、線狀(點(diǎn)數(shù):7 264)、桿狀(點(diǎn)數(shù):10 460)、建筑物(點(diǎn)數(shù):129 096)4類地物,地物較規(guī)則且點(diǎn)密度較低。3)Paris數(shù)據(jù)集由法國國家測繪局(IGN)開發(fā)的移動(dòng)掃描系統(tǒng)在巴黎密集城市環(huán)境中獲得,去除噪聲、未標(biāo)記點(diǎn)及地面點(diǎn)后,保留樹木(點(diǎn)數(shù):207 454)、建筑物(點(diǎn)數(shù):7 025 886)、汽車(點(diǎn)數(shù):322 305)3類地物,地物數(shù)據(jù)差異較大,點(diǎn)密度也較大。
分析5種方法的實(shí)驗(yàn)結(jié)果(圖8-圖10,彩圖見附錄1)及語義分割評(píng)價(jià)結(jié)果(表2-表4)可知:1)針對(duì)Semantic 3D數(shù)據(jù)集中的bildstein3數(shù)據(jù)集,層次化點(diǎn)云語義分割方法效果最佳,其識(shí)別精度為92.6%。對(duì)于每種地物而言,層次化點(diǎn)云語義分割方法除對(duì)樹木的提取精度、召回率、F1指數(shù)及硬景觀的精度低于SPG外,對(duì)其余地物的提取效果均優(yōu)于其他方法;基于深度網(wǎng)絡(luò)的方法在該數(shù)據(jù)集上的識(shí)別精度從高到低依次為SPG(88.1%)、PointCNN(81.4%)、PointNet++(68.4%)、PointNet(61.3%),且這4種方法對(duì)數(shù)量較少的地物識(shí)別效果普遍較差。2)針對(duì)Oakland數(shù)據(jù)集,SPG識(shí)別精度高達(dá)96.3%,層次化點(diǎn)云語義分割方法精度為94.8%,PointNet、PointNet++及PointCNN的精度分別為68.7%、49.4%和69.3%。5種方法對(duì)線(桿)狀地物識(shí)別結(jié)果的F1指數(shù)均低于樹木和建筑物,PointNet和PointNet++幾乎無法識(shí)別線(桿)狀地物。3)針對(duì)Paris數(shù)據(jù)集,SPG識(shí)別精度最高(98.2%),其次為層次化點(diǎn)云語義分割方法(97.4%),但其對(duì)汽車和樹木的識(shí)別精度均高于SPG,而對(duì)建筑物立面的識(shí)別精度低于SPG,這主要是因?yàn)榈匚镎趽鯇?duì)建筑物造成了一定的空洞,導(dǎo)致點(diǎn)云結(jié)構(gòu)與人工設(shè)置的語義參數(shù)不符;PointNet++和PointCNN整體效果較好,精度分別為95.0%和95.5%,但二者對(duì)樹木的識(shí)別精度較低;PointNet的地物識(shí)別效果最差,無法識(shí)別汽車和樹木。
表2 bildstein3數(shù)據(jù)集語義分割結(jié)果評(píng)價(jià)Table 2 Evaluation of semantic segmentation results of different methods for bildstein3 dataset %
表3 Oakland數(shù)據(jù)集語義分割結(jié)果評(píng)價(jià)Table 3 Evaluation of semantic segmentation results of different methods for Oakland dataset %
表4 Paris數(shù)據(jù)集語義分割結(jié)果評(píng)價(jià)Table 4 Evaluation of semantic segmentation results of different methods for Paris dataset %
圖8 bildstein3數(shù)據(jù)集實(shí)驗(yàn)結(jié)果對(duì)比Fig.8 Semantic segmentation results of bildstein3 dataset
圖9 Oakland數(shù)據(jù)集實(shí)驗(yàn)結(jié)果對(duì)比Fig.9 Semantic segmentation results of Oakland dataset
圖10 Paris數(shù)據(jù)集實(shí)驗(yàn)結(jié)果對(duì)比Fig.10 Semantic segmentation results of Paris dataset
分析5種方法的運(yùn)行效率(表5)可知:1)SPG的效率最高,雖然層次化方法也采用基于對(duì)象的思想,但其生成的超級(jí)體素的數(shù)量遠(yuǎn)多于SPG構(gòu)建的超點(diǎn);此外,層次化方法生成超級(jí)體素、層次化提取目標(biāo)過程耗時(shí)較多。2)PointCNN效率最低,主要是由于X卷積算子的計(jì)算效率較低。
表5 5種方法運(yùn)行時(shí)間比較Table 5 Running time of the five methods min
(1)當(dāng)前基于深度學(xué)習(xí)的點(diǎn)云語義分割方法是否真的優(yōu)于基于特征描述子的方法?通過實(shí)驗(yàn)對(duì)比,發(fā)現(xiàn)當(dāng)前基于深度網(wǎng)絡(luò)的代表性方法(PointNet、PointNet++、PointCNN和SPG)雖然采用了大量訓(xùn)練數(shù)據(jù)(數(shù)據(jù)集的70%),但其語義分割質(zhì)量仍普遍低于基于特征描述子的層次化點(diǎn)云語義分割方法,雖然SPG在Oakland和Paris數(shù)據(jù)集上的識(shí)別總體精度略高于層次化方法,但考慮到SPG需要大量的訓(xùn)練樣本,這種精度提升可以忽略。這一結(jié)論說明,基于深度學(xué)習(xí)的方法理論上的優(yōu)勢并沒有真正在當(dāng)前方法中得到充分體現(xiàn),其主要原因可能在于:1)當(dāng)前應(yīng)用于點(diǎn)云語義分割的深度網(wǎng)絡(luò)尚難以提取能真正反映目標(biāo)本質(zhì)的“高級(jí)特征”,在單一數(shù)據(jù)集上訓(xùn)練提取的特征可能不如當(dāng)前廣泛采用的特征描述子穩(wěn)健,深度網(wǎng)絡(luò)的架構(gòu)設(shè)計(jì)還需進(jìn)一步優(yōu)化;2)現(xiàn)有深度網(wǎng)絡(luò)缺乏對(duì)地物目標(biāo)語義信息和先驗(yàn)知識(shí)的描述,這些信息和知識(shí)往往是基于大量的總結(jié)和歸納而得,僅通過一個(gè)或幾個(gè)數(shù)據(jù)集的訓(xùn)練學(xué)習(xí)難以準(zhǔn)確捕捉這些語義信息和先驗(yàn)知識(shí),尤其是當(dāng)目標(biāo)數(shù)量較少時(shí)(如bildstein3數(shù)據(jù)集),當(dāng)前深度網(wǎng)絡(luò)結(jié)構(gòu)的特征提取能力尚存在欠缺。3)層次化分割方法有效實(shí)現(xiàn)了地物的多尺度信息建模,可在一定程度上克服現(xiàn)有深度網(wǎng)絡(luò)普遍存在的“過平滑”問題,有利于識(shí)別不同大小的地物目標(biāo)。
(2)不同類型的點(diǎn)云語義分割深度網(wǎng)絡(luò)在不同類型城市激光點(diǎn)云數(shù)據(jù)中的表現(xiàn)存在多大程度的差異?通過實(shí)驗(yàn)發(fā)現(xiàn)SPG的地物語義分割質(zhì)量最高,其主要原因在于:SPG與PointNet++和PointCNN相比,不僅能夠構(gòu)建點(diǎn)云的局部特征,而且可通過圖的形式描述點(diǎn)云的空間關(guān)系,這種空間關(guān)系可能更有利于學(xué)習(xí)點(diǎn)云目標(biāo)的語義信息。由于PointNet++與PointCNN能夠構(gòu)建點(diǎn)云的局部特征,其語義分割質(zhì)量大部分情況下優(yōu)于PointNet。PointCNN比PointNet++效果更好,這主要是由于PointCNN能夠?qū)W習(xí)不同鄰域點(diǎn)對(duì)中心特征的貢獻(xiàn)權(quán)重,獲取的局部信息更全面,而PointNet++僅能獲得局部最顯著的特征。當(dāng)目標(biāo)數(shù)量較少時(shí),當(dāng)前基于深度學(xué)習(xí)方法的語義分割質(zhì)量明顯降低,這亦表明訓(xùn)練數(shù)據(jù)的數(shù)量和多樣性嚴(yán)重影響網(wǎng)絡(luò)的學(xué)習(xí)效果。雖然SPG網(wǎng)絡(luò)語義分割精度較高,但其相比層次化語義分割方法沒有優(yōu)勢,主要原因可能在于超點(diǎn)降采樣與PointNet提取特征時(shí)(最大池化)導(dǎo)致信息損失。
針對(duì)深度學(xué)習(xí)方法在城市激光點(diǎn)云語義分割任務(wù)中的應(yīng)用效果缺乏客觀的對(duì)比與評(píng)價(jià)的問題,本文選取4種代表性的點(diǎn)云語義分割深度網(wǎng)絡(luò)(PointNet、PointNet++、PointCNN、SPG)以及1種基于特征描述子的層次化點(diǎn)云語義分割方法,在3種公開數(shù)據(jù)集上進(jìn)行對(duì)比分析,結(jié)果發(fā)現(xiàn):1)當(dāng)前基于深度學(xué)習(xí)的點(diǎn)云語義分割方法的實(shí)際效果不如基于特征描述子的層次化點(diǎn)云語義分割方法,尤其是當(dāng)目標(biāo)數(shù)量較少時(shí),深度網(wǎng)絡(luò)的目標(biāo)識(shí)別質(zhì)量穩(wěn)定性較差;2)在測試的4種深度網(wǎng)絡(luò)中,同時(shí)考慮點(diǎn)云局部特征與空間關(guān)系的SPG網(wǎng)絡(luò)在測試數(shù)據(jù)集中效果最佳,且運(yùn)行效率最高。
通過本文的實(shí)驗(yàn)與分析,未來基于深度網(wǎng)絡(luò)的點(diǎn)云語義分割研究在以下方面需要繼續(xù)深入:1)面向城市點(diǎn)云語義分割的基準(zhǔn)數(shù)據(jù)集設(shè)計(jì),深度網(wǎng)絡(luò)的語義分割效果嚴(yán)重依賴訓(xùn)練樣本數(shù)量、質(zhì)量和多樣性,雖然當(dāng)前針對(duì)圖像分類的大規(guī)?;鶞?zhǔn)數(shù)據(jù)集已經(jīng)出現(xiàn),但適用于城市點(diǎn)云語義分割的大規(guī)?;鶞?zhǔn)數(shù)據(jù)集尚未構(gòu)建;2)在深度網(wǎng)絡(luò)構(gòu)建過程中融入先驗(yàn)知識(shí)和語義約束,充分融合深度學(xué)習(xí)和基于特征描述子方法的優(yōu)點(diǎn),降低深度網(wǎng)絡(luò)的訓(xùn)練成本;3)面向?qū)ο笏枷朐邳c(diǎn)云深度網(wǎng)絡(luò)設(shè)計(jì)中具有一定的優(yōu)勢,但是對(duì)象生成的誤差以及對(duì)象間特征融合過程中的過擬合等問題依然需要深入研究;4)地物間的空間關(guān)系以及地物的多尺度特征在深度網(wǎng)絡(luò)設(shè)計(jì)中需引起充分重視。