楊必勝,韓 旭,董 震
武漢大學(xué)測(cè)繪遙感信息工程國(guó)家重點(diǎn)實(shí)驗(yàn)室,武漢 430079
智慧城市建設(shè)、城市精細(xì)化管理、自然資源立體監(jiān)測(cè)等國(guó)家重大戰(zhàn)略對(duì)城市立體空間內(nèi)人事物發(fā)生發(fā)展的全過程精細(xì)刻畫、仿真建模、模擬預(yù)測(cè)等需求強(qiáng)烈,尤其對(duì)全域、全要素、實(shí)時(shí)、高質(zhì)量的三維地理信息需求尤其迫切。長(zhǎng)期以來,以地圖和影像為代表的二維空間數(shù)據(jù)表達(dá)已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足多種應(yīng)用需求[1],迫切需要從以4D測(cè)繪產(chǎn)品(數(shù)字正射影像DOM、數(shù)字高程模型DEM、數(shù)字線劃地圖DLG、數(shù)字柵格地圖DRG)為基礎(chǔ)的信息化測(cè)繪走向智能化測(cè)繪,從而滿足智慧社會(huì)、智慧城市等對(duì)高質(zhì)量、精細(xì)化三維地理信息的緊迫需求。近年來,智能小衛(wèi)星、低空無人機(jī)、地面移動(dòng)三維掃描測(cè)量等對(duì)地對(duì)觀測(cè)技術(shù)的創(chuàng)新發(fā)展快速提升了全空間、全時(shí)域的感知能力[2],尤其是以點(diǎn)云為代表的三維數(shù)據(jù)獲取能力,有力促進(jìn)了三維地理信息快速提取的進(jìn)步[3]。不同于自然地表空間要素,城市立體空間要素具有高度的復(fù)雜性、動(dòng)態(tài)性、交錯(cuò)性和多態(tài)性,對(duì)三維精準(zhǔn)提取城市立體空間地理信息要素提出了巨大挑戰(zhàn)。點(diǎn)云作為矢量地圖和影像數(shù)據(jù)后的一類獨(dú)特的時(shí)空數(shù)據(jù),已成為物理空間實(shí)體對(duì)象三維數(shù)字化結(jié)果的重要表達(dá)方式[4]。如何利用人工智能手段,高度提升點(diǎn)云的解譯能力,實(shí)現(xiàn)城市地物目標(biāo)的語義標(biāo)識(shí)與三維精準(zhǔn)提取成為亟待攻克的難題。
盡管目前一些研究者提出了諸多基于模型擬合或特征聚類的方法[5-6],但是這些方法僅限于較為簡(jiǎn)單的實(shí)體目標(biāo),且對(duì)于具有弱泛化性的目標(biāo)結(jié)構(gòu)需要較多的先驗(yàn)知識(shí)。深度學(xué)習(xí)在處理具有規(guī)則結(jié)構(gòu)的二維圖像領(lǐng)域(如目標(biāo)識(shí)別、分割等)取得了長(zhǎng)足的進(jìn)步。近年來,點(diǎn)云深度學(xué)習(xí)日益受到關(guān)注,且發(fā)布了一定規(guī)模的點(diǎn)云數(shù)據(jù)集,如ShapeNet[7]、ModelNet[8]、ScanNet[9]、Semantic3D[10]、
KITTI[11]、WHU-TLS[12]、WHU-MLS[13]等,使得深度學(xué)習(xí)模型從三維點(diǎn)云中學(xué)習(xí)有效特征成為可能。然而,傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)難以直接應(yīng)用于空間分布不規(guī)則的點(diǎn)云[14],并且大多數(shù)點(diǎn)云語義分割的方法都難以處理大規(guī)模的點(diǎn)云[15],尤其是城市場(chǎng)景大規(guī)模點(diǎn)云的語義標(biāo)識(shí)。部分學(xué)者嘗試將點(diǎn)云投影到不同視角的圖像中,然后利用CNN從圖像中提取特征[16-18],但是在投影過程中,有限的投影視角不可避免地丟失有用的細(xì)節(jié),因此不利于目標(biāo)的準(zhǔn)確提取。也有學(xué)者將點(diǎn)云體素化為3D網(wǎng)格,通過3D CNN提取目標(biāo)特征[19-20]。然而,此類方法計(jì)算成本高且難以滿足大規(guī)模點(diǎn)云語義分割的需求。顯然,原始點(diǎn)云可以更準(zhǔn)確和直接地刻畫目標(biāo)的幾何結(jié)構(gòu),為此有學(xué)者相繼提出了PointNet[21]和PointNet++[22]用于直接學(xué)習(xí)逐個(gè)點(diǎn)的特征。除此之外,圖卷積[23,24]、核卷積[25-27]被提出用于學(xué)習(xí)不規(guī)則點(diǎn)云的特征。盡管上述方法可以從不同角度有效地學(xué)習(xí)點(diǎn)云的特征,但它們主要適用于具有簡(jiǎn)單結(jié)構(gòu)的模型或室內(nèi)場(chǎng)景點(diǎn)云,難以有效地學(xué)習(xí)更為復(fù)雜的結(jié)構(gòu)。文獻(xiàn)[28]通過融合2D圖像和3D點(diǎn)云對(duì)大規(guī)模三維場(chǎng)景進(jìn)行語義分割,但是需要基準(zhǔn)數(shù)據(jù)集(同時(shí)包括2D和3D室外數(shù)據(jù))的支撐,且兩者融合的質(zhì)量嚴(yán)重影響語義分割結(jié)果。文獻(xiàn)[29]提出了一種具有注意力嵌入模塊的遞歸順序切片網(wǎng)絡(luò),從不同的角度學(xué)習(xí)空間關(guān)系并使用CNN提取高級(jí)信息,但是該網(wǎng)絡(luò)模型規(guī)模較大,且泛化能力較弱。
不同于規(guī)則格網(wǎng)的二維影像,城市場(chǎng)景大規(guī)模點(diǎn)云具有點(diǎn)位空間分布不均、因遮擋導(dǎo)致的數(shù)據(jù)缺失及目標(biāo)多樣且尺度差異大等獨(dú)特性。點(diǎn)云深度學(xué)習(xí)需要突破現(xiàn)有的深度學(xué)習(xí)網(wǎng)絡(luò)在點(diǎn)云采樣、局部特征提取與聚合,以及訓(xùn)練樣本不均衡方面存在的缺陷,從而有望實(shí)現(xiàn)點(diǎn)云場(chǎng)景的全面精準(zhǔn)感知。為此,本文旨在構(gòu)建一種直接用于城市場(chǎng)景大規(guī)模點(diǎn)云的目標(biāo)語義標(biāo)識(shí)深度學(xué)習(xí)網(wǎng)絡(luò),用于解決大規(guī)模點(diǎn)云的有效采樣、點(diǎn)云局部特征自主學(xué)習(xí)與聚合,以及訓(xùn)練樣本不平衡等難點(diǎn),實(shí)現(xiàn)多類目標(biāo)的正確語義標(biāo)識(shí),為高質(zhì)量三維地理信息的快速提取提供核心支撐。
點(diǎn)云深度學(xué)習(xí)的本質(zhì)是基于訓(xùn)練樣本學(xué)習(xí)點(diǎn)云特征并予以表達(dá),然后通過損失函數(shù)度量數(shù)據(jù)預(yù)測(cè)值與訓(xùn)練樣本真值之間的差異(兩者之間的差異越小說明模型與參數(shù)對(duì)訓(xùn)練樣本的擬合越好)。由于城市點(diǎn)云場(chǎng)景的復(fù)雜性(點(diǎn)位分布不均且量大、目標(biāo)多樣等),為保證點(diǎn)云深度學(xué)習(xí)網(wǎng)絡(luò)的高效和準(zhǔn)確,必須首先對(duì)大規(guī)模點(diǎn)云進(jìn)行采樣,降低點(diǎn)云的數(shù)據(jù)量,從而減少計(jì)算量,保證網(wǎng)絡(luò)的高效性;其次,要克服點(diǎn)位不均勻分布和因遮擋導(dǎo)致的不完整對(duì)點(diǎn)云特征準(zhǔn)確學(xué)習(xí)的影響;同時(shí)要盡量減少由于訓(xùn)練樣本不均衡而對(duì)網(wǎng)絡(luò)預(yù)測(cè)結(jié)果的影響。為此,本文重點(diǎn)圍繞點(diǎn)云深度學(xué)習(xí)的效率和結(jié)果的準(zhǔn)確性,從高效的點(diǎn)云空間降采樣策略,基于點(diǎn)特征抽象表達(dá)與傳播以及提升總體表現(xiàn)的損失函數(shù)3個(gè)方面出發(fā),構(gòu)建了點(diǎn)云語義標(biāo)識(shí)深度學(xué)習(xí)網(wǎng)絡(luò)。該深度學(xué)習(xí)網(wǎng)絡(luò)直接輸入點(diǎn)云數(shù)據(jù),并端到端地標(biāo)識(shí)每個(gè)點(diǎn)的語義類別,其總體框架如圖1所示。
圖1 端到端的點(diǎn)云語義標(biāo)識(shí)深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)
該網(wǎng)絡(luò)使用下采樣-上采樣結(jié)構(gòu)和跳躍連接的U形結(jié)構(gòu)作為骨干網(wǎng)絡(luò)。下采樣過程包括空間下采樣和特征聚合,空間下采樣用于減少點(diǎn)數(shù),而特征聚合則得到空間采樣后的點(diǎn)云特征。下采樣過程將特征逐層映射到更高的特征空間,并擴(kuò)大感受野以獲得更高層次、更抽象的特征,而上采樣過程旨在逐步將抽象特征傳播到每個(gè)點(diǎn),從而獲得逐點(diǎn)特征。
(1)
圖2 特征聚合模塊
在每個(gè)聚合過程之前,對(duì)每個(gè)下采樣點(diǎn)通過K近鄰(KNN)分組得到用于特征聚合的局部單元N(x)。通過設(shè)置一個(gè)較大的K=σk(σ為擴(kuò)張比,σ>1,例如,σ=1.5),然后對(duì)k點(diǎn)在前幾層中隨機(jī)采樣,以嘗試擴(kuò)大感受野。在對(duì)輸入特征進(jìn)行編碼的過程中,對(duì)點(diǎn)的原始空間位置、相對(duì)空間位置和相對(duì)特征(邊特征)融合。對(duì)于每個(gè)位置x,其相鄰ith位置的原始空間信息定義為
(2)
式中,xi∈N(x),xgl是分塊前的全局位置;⊕表示特征級(jí)聯(lián)。需要注意:x∈X(空間下采樣后的點(diǎn)集),xi∈Xin(原始點(diǎn)集)。
相對(duì)空間位置定義為
(3)
式中,‖·‖表示歐幾里得距離的計(jì)算。
邊特征定義為
(4)
式中,f∈F(空間下采樣后的特征集);fi∈Fin(原始特征集)。
最后,通過簡(jiǎn)單的級(jí)聯(lián)操作獲得位置x的ith鄰域點(diǎn)的融合特征
(5)
(6)
式中,w∈RD表示可學(xué)習(xí)權(quán)重(有D′個(gè));g∈Rk表示空間映射值(有D′個(gè))。
(7)
式中,w(d′)d表示d'th個(gè)w的dth個(gè)權(quán)值;σ是一個(gè)非線性激活函數(shù)。
(8)
式中,·表示逐元素相乘;max是最大池化操作。
由于城市點(diǎn)云場(chǎng)景中目標(biāo)類別數(shù)量差異大,且訓(xùn)練樣本不均衡,簡(jiǎn)單地分配不同的類權(quán)重平衡網(wǎng)絡(luò)的監(jiān)督信號(hào)難以有效控制深度學(xué)習(xí)網(wǎng)絡(luò)的整體性能。如何控制不同類別目標(biāo)的權(quán)重變得尤為重要?;诩訖?quán)交叉熵的代價(jià)函數(shù)更專注于單個(gè)類的精度,而不關(guān)注特定類中的錯(cuò)誤,這意味著如果為小樣本分配了更大的權(quán)重,則這些類的錯(cuò)誤點(diǎn)數(shù)也可能更大。為此,本文提出的深度學(xué)習(xí)網(wǎng)絡(luò)主要根據(jù)訓(xùn)練過程中存在的點(diǎn)數(shù),合理提高對(duì)小樣本學(xué)習(xí)的關(guān)注,定義了代價(jià)函數(shù)L,旨在平衡少數(shù)類的表現(xiàn)和整體表現(xiàn)
(9)
式中,Nc是訓(xùn)練過程中出現(xiàn)的cth類的總點(diǎn)數(shù);M表示類別數(shù);yc、pc分別表示cth類的真實(shí)標(biāo)簽向量和預(yù)測(cè)標(biāo)簽向量。
整個(gè)場(chǎng)景在訓(xùn)練期間被分成10 m×10 m的塊,每個(gè)塊被隨機(jī)采樣到20 000點(diǎn),使用0.8 m半徑的鄰域范圍進(jìn)行法向量計(jì)算。輸入點(diǎn)的特征包含全局坐標(biāo)、分塊內(nèi)標(biāo)準(zhǔn)化坐標(biāo)、法向量和強(qiáng)度。本文構(gòu)造的網(wǎng)絡(luò)采用0.05 m網(wǎng)格作為分塊前規(guī)則采樣的分辨率,然后是采樣比為0.25、0.25、0.25、0.25、0.25、0.5、0.5的下采樣層。該網(wǎng)絡(luò)在PyTorch平臺(tái)上實(shí)現(xiàn)。在網(wǎng)絡(luò)訓(xùn)練期間,Adam優(yōu)化器用于更新模型,動(dòng)量和初始學(xué)習(xí)率分別設(shè)置為0.9和0.001,衰減率設(shè)置為0.000 1,學(xué)習(xí)速率每16個(gè)遍歷(epoch)降低一半。該模型在NVIDIA GTX 1080Ti的GPU上訓(xùn)練了100個(gè)批量大小為28的迭代,并且選擇使用具有最佳mIoU的模型進(jìn)行測(cè)試。
為驗(yàn)證本文構(gòu)建的深度學(xué)習(xí)網(wǎng)絡(luò)性能,使用WHU-MLS數(shù)據(jù)集[13]進(jìn)行測(cè)試。WHU-MLS數(shù)據(jù)集包括40個(gè)場(chǎng)景,超過3億點(diǎn),其中30個(gè)場(chǎng)景作為訓(xùn)練場(chǎng)景和10個(gè)場(chǎng)景作為測(cè)試。其中的地物目標(biāo)類包括:行車道(driveway)、非駕駛車道(nd.way)、道路標(biāo)線(rd.mrk)、建筑物(building)、圍欄(fence)、樹木(tree)、低矮植被(low veg)、路燈(light)、電線桿(tel.pole)、市政立桿(mun.pole)、交通信號(hào)燈(trff.light)、監(jiān)控探頭(detector)、廣告牌或提示牌(board)。動(dòng)態(tài)目標(biāo)類包括:行人(pedestrian)和車輛(vehicle)。
為評(píng)估本文構(gòu)造網(wǎng)絡(luò)的性能,采用如下的幾類指標(biāo):精度(Precision)、召回(Recall)、F1-Score、IoU和總體精度(OA)
(10)
(11)
(12)
(13)
(14)
式中,TP是預(yù)測(cè)正確的該類別樣本數(shù)量;FP是將其他類別樣本錯(cuò)預(yù)測(cè)成該類別的樣本數(shù)量;FN是將該類比樣本錯(cuò)預(yù)測(cè)成其他類別的樣本數(shù)量;N是樣本總數(shù)。精度、召回、F1-Score和IoU在每個(gè)類別中分別計(jì)算,然后計(jì)算平均值。
不同測(cè)試場(chǎng)景的預(yù)測(cè)結(jié)果如圖3所示。圖3(a)所示場(chǎng)景具有較為復(fù)雜的結(jié)構(gòu)。圖4和圖5分別從更細(xì)節(jié)的角度和駕駛角度展示了語義標(biāo)識(shí)的結(jié)果。從示例結(jié)果可以看出,該網(wǎng)絡(luò)語義標(biāo)識(shí)的整體表現(xiàn)較好,但也存在一定的錯(cuò)誤標(biāo)識(shí),如圖6所示。造成此類錯(cuò)誤分類的原因有幾種:①語義模糊性,如某些類定義較為模糊,這意味著一個(gè)點(diǎn)可能既屬于某一類,同時(shí)也屬于另一類,例如由提示牌和路燈連接的桿狀結(jié)構(gòu),如圖6(a)所示;②多個(gè)目標(biāo)相互重疊,例如在樹叢中豎立的燈,如圖6(b)所示;③局部位置預(yù)測(cè)出了不同的類別,由于場(chǎng)景在點(diǎn)被送入網(wǎng)絡(luò)之前被劃分為塊,推測(cè)主要是因?yàn)橄噜彽膮^(qū)塊在重疊區(qū)域內(nèi)預(yù)測(cè)結(jié)果存在不同,如圖6(c)所示。
注:左側(cè)為人工標(biāo)記的結(jié)果;右側(cè)為預(yù)測(cè)結(jié)果。
圖4 WHU-MLS數(shù)據(jù)集中部分類別的預(yù)測(cè)結(jié)果
圖5 WHU-MLS數(shù)據(jù)集中單個(gè)場(chǎng)景的預(yù)測(cè)結(jié)果
圖6 WHU-MLS數(shù)據(jù)集上錯(cuò)誤的語義標(biāo)識(shí)
為定量地評(píng)價(jià)本文構(gòu)建的深度學(xué)習(xí)網(wǎng)絡(luò)的效果,分別計(jì)算了WHU-MLS數(shù)據(jù)集中17個(gè)精細(xì)類別(樹木、非機(jī)動(dòng)車道、建筑物、箱狀地物、路燈、電線桿、市政立桿、低矮植被、提示牌、駕駛車道、道路標(biāo)線、車輛、行人、信號(hào)燈、探頭、圍欄和電線)和6個(gè)粗分類(動(dòng)態(tài)物體、桿狀目標(biāo)、植被、建筑和地面)的IOU、F1-Score、精度、召回率,見表1。由表1可以看出,本文的深度學(xué)習(xí)網(wǎng)絡(luò)在一些大尺寸目標(biāo),如車道(IoU:83.6,F(xiàn)1-Score:91.0)、建筑(IoU:77.1,F(xiàn)1-Score:87.1)和樹(IoU:84.5,F(xiàn)1-Score:91.6),以及一些運(yùn)動(dòng)目標(biāo),如行人(IoU:60.8,F(xiàn)1-得分:75.6)和車輛(IoU:79.1,F(xiàn)1-得分:88.3)上取得較好結(jié)果。
表1 WHU-MLS語義標(biāo)識(shí)結(jié)果
表2比較了本文構(gòu)造的網(wǎng)絡(luò)與其他幾個(gè)主流的點(diǎn)云深度學(xué)習(xí)網(wǎng)絡(luò)在17個(gè)類別語義標(biāo)識(shí)中的表現(xiàn)。可以看出,本文的深度學(xué)習(xí)網(wǎng)絡(luò)在非機(jī)動(dòng)車道、建筑物、箱體、燈、電線桿、市政立桿、提示牌、機(jī)動(dòng)車道、道路標(biāo)線、車輛、行人、探頭和電線等大多數(shù)類別中優(yōu)于其他幾種方法。
表2 WHU-MLS數(shù)據(jù)集上本文網(wǎng)絡(luò)和主流網(wǎng)絡(luò)的性能對(duì)比
表3給出了本文構(gòu)建的深度學(xué)習(xí)網(wǎng)絡(luò)在不同網(wǎng)絡(luò)層中的參數(shù)個(gè)數(shù)和推理時(shí)間。時(shí)間為使用一百萬個(gè)點(diǎn)單次前向傳播的耗時(shí)??梢姳疚牡纳疃葘W(xué)習(xí)網(wǎng)絡(luò)可以在2 s內(nèi)預(yù)測(cè)100萬個(gè)點(diǎn),表明了該網(wǎng)絡(luò)的輕量級(jí)和高性能。
表3 本文構(gòu)建的深度學(xué)習(xí)網(wǎng)絡(luò)在單個(gè)GPU單次預(yù)測(cè)1 000 000點(diǎn)的參數(shù)和平均推理時(shí)間
本文構(gòu)造了一種城市大規(guī)模點(diǎn)云語義標(biāo)識(shí)的端到端深度學(xué)習(xí)網(wǎng)絡(luò),為目標(biāo)的識(shí)別和信息的提取提供了關(guān)鍵支撐。該深度學(xué)習(xí)網(wǎng)絡(luò)直接對(duì)大規(guī)模三維點(diǎn)云進(jìn)行特征學(xué)習(xí),通過卷積操作模擬人眼擴(kuò)大視覺感受野,兼顧了單個(gè)點(diǎn)的上下文特征,有力提高了不同尺度目標(biāo)特征準(zhǔn)確刻畫和表達(dá)的能力,為目標(biāo)的提取和類別的區(qū)分提供了有益的知識(shí)。實(shí)際的測(cè)試表明:該深度學(xué)習(xí)網(wǎng)絡(luò)在高效的采樣策略、多層的特征聚合與傳播,以及兼顧樣本不平衡的代價(jià)損失函數(shù)具有較好的性能,可高效地對(duì)大規(guī)模的室外場(chǎng)景點(diǎn)云進(jìn)行近20類目標(biāo)的正確語義標(biāo)識(shí),且性能優(yōu)于現(xiàn)有的幾個(gè)主流網(wǎng)絡(luò)(如:PointNet等),為三維地理信息的快速有效提取提供了有力支撐。當(dāng)前,本文構(gòu)造的點(diǎn)云深度學(xué)習(xí)網(wǎng)絡(luò)測(cè)試的目標(biāo)多為人工地物,在自然地物的語義類別的自動(dòng)識(shí)別方面還需要進(jìn)一步測(cè)試。其次,本文當(dāng)前的研究尚未開展實(shí)體對(duì)象的識(shí)別工作,下一步將在語義類別的基礎(chǔ)上開展實(shí)體對(duì)象的提取研究。