方莉娜,沈貴熙,游志龍,郭迎亞,付化勝,趙志遠,陳崇成
1. 福州大學(xué)數(shù)字中國研究院(福建),福建 福州 350002; 2. 福州大學(xué)計算機與大數(shù)據(jù)學(xué)院,福建 福州 350002; 3. 福建省水利水電勘測設(shè)計研究院,福建 福州 350002
道路兩側(cè)行道樹、車輛及桿狀交通設(shè)施(路燈、交通標志牌)是重要的路側(cè)設(shè)施和目標,其位置姿態(tài)、種類和語義信息是高精地圖中描述靜動態(tài)交通信息的核心要素[1],對于智能交通,導(dǎo)航與位置服務(wù),自動駕駛和高精地圖等行業(yè)具有重要作用。車載激光掃描系統(tǒng)作為快速發(fā)展的新型測繪技術(shù),能夠快速、準確地獲取道路及其兩側(cè)地物高精度的三維空間信息,被廣泛應(yīng)用于城市交通信息的采集和更新[2-3]。由于車載激光掃描系統(tǒng)采集城市場景具有目標豐富、點密度分布不均、數(shù)據(jù)缺失以及路側(cè)地物復(fù)雜多樣等特點,從車載激光點云中自動且高精度分類路側(cè)目標仍具有較大挑戰(zhàn)[4]。
近年來,國內(nèi)外研究學(xué)者分析行道樹、車輛及桿狀交通設(shè)施的局部或全局基礎(chǔ)特征[5-6],將人工構(gòu)建的高程、強度、法向量等特征利用決策樹、隨機森林、BP神經(jīng)網(wǎng)絡(luò)等機器學(xué)習(xí)模型進行行道樹、車輛、建筑物等的提取與識別[7-8]。對于具有較大差異的路側(cè)目標,這些基礎(chǔ)特征能取得較好的識別精度;對于相似或部分缺失的路側(cè)目標,這些基礎(chǔ)特征經(jīng)常表現(xiàn)不足[9]。隨著人工智能技術(shù)快速發(fā)展[10],一些學(xué)者將分割后的目標進行體素化或轉(zhuǎn)化為圖像,利用深度置信網(wǎng)絡(luò)(deep belief network,DBN)、深度玻爾茲曼機(deep Boltzmann machines,DBM)等深度模型提取行道樹、車輛及桿狀目標的高階特征進行分類[11-12]。文獻[13]則率先基于多視角圖像進行物體分類研究,通過將3D目標投影成多視角圖像,利用卷積運算模塊(convolutional neural networks,CNN)構(gòu)建多視角圖像卷積神經(jīng)網(wǎng)絡(luò)(multi-view CNN,MVCNN)實現(xiàn)3D目標的準確識別。文獻[14]為ModelNet數(shù)據(jù)集[15]中每個3D目標生成20個視角圖像,采用預(yù)訓(xùn)練AlexNet[16]作為MVCNN-MultiRes模型的初始化網(wǎng)絡(luò),然后利用多視角數(shù)據(jù)進行模型參數(shù)微調(diào),實現(xiàn)3D目標的識別分類。此外,文獻[17]認為從內(nèi)容相似的視圖提取的特征具有相似性和冗余性,基于視圖分組的思想提出了組視圖卷積神經(jīng)網(wǎng)絡(luò)(group-view convolutional neural networks,GVCNN),對3D目標的多視圖進行分組賦權(quán)以區(qū)分不同視圖的重要性,實現(xiàn)對三維目標的準確識別。文獻[18]則從多視圖之間相似性度量的角度,利用雙線性池化操作聚合視圖的局部卷積特征以獲取更具判別性的全局特征。這些方法將非結(jié)構(gòu)化點云轉(zhuǎn)換成規(guī)則表示,可以利用較為成熟的深度模型提升相似或部分缺失的路側(cè)目標的識別精度,但需要利用視圖間的關(guān)系,克服相似視圖特征的冗余性對特征描述子可區(qū)分性的影響。
此外,部分學(xué)者基于物體原始點云展開分類研究,文獻[19]提出PointNet,實現(xiàn)以原始點云作為模型輸入,開啟了點云端到端(end-to-end)深度學(xué)習(xí)模型的新紀元。受PointNet的啟發(fā),一些學(xué)者聚焦于如何逐點學(xué)習(xí)并聚合不同特征形成點云對象幾何描述[20],相繼提出PointNet++[21]、Mo-Net[22]、PointCNN[23]等模型。為解決點云鄰域特征聚合難題,文獻[24]在PointNet++網(wǎng)絡(luò)的基礎(chǔ)上,提出自適應(yīng)特征調(diào)整(adaptive feature adjustment,AFA)模塊,通過引入局部鄰域的上下文特征自適應(yīng)學(xué)習(xí)不同方向特征來聚合點云局部幾何信息。文獻[25]提出點云的空間卷積層(kernel point convolution,KPConv),利用一系列帶有權(quán)重的核點(kernel points)構(gòu)建3D卷積核,實現(xiàn)對點云數(shù)據(jù)的卷積操作進行空間域點云特征聚合。文獻[26]提出動態(tài)圖卷積神經(jīng)網(wǎng)絡(luò)(dynamic graph CNN,DGCNN),通過K近鄰圖建立點云局部鄰域結(jié)構(gòu),引入圖結(jié)構(gòu)卷積層EdgeConv動態(tài)學(xué)習(xí)不同圖結(jié)構(gòu)中節(jié)點特征,增強網(wǎng)絡(luò)的局部特征提取能力,取得較好的點云分割和分類結(jié)果。相對于視圖而言,基于離散點的深度學(xué)習(xí)模型受點云卷積核大小和感受野的限制,能夠較好地描述點云局部幾何信息,但需要利用較深的網(wǎng)絡(luò)結(jié)構(gòu)提取目標全局特征,同時模型需要大量的逐點標記樣本。近年來,一些學(xué)者研究將點云和圖像(視圖)數(shù)據(jù)進行融合,同步或分層次提取圖像(視圖)中目標全局特征和點云局部特征,聚合視圖和點云特征進行目標分類[27-29]。這些研究利用不同模態(tài)的數(shù)據(jù)特點,促使深度模型能夠?qū)W習(xí)更完備的多層次、多尺度目標特征,在公開數(shù)據(jù)集KITTI[30]、ModelNet40[15]和ScanNet[31]上取得了很好的分類效果。但這些方法未區(qū)分不同模態(tài)數(shù)據(jù)特征對目標識別的重要性,存在信息冗余現(xiàn)象,且大部分研究都圍繞公開數(shù)據(jù)集展開,較少應(yīng)用于車載激光掃描系統(tǒng)獲取的實際大范圍復(fù)雜城市場景點云。
針對城市場景中行道樹、車輛及桿狀交通設(shè)施等路側(cè)地物形態(tài)各異、復(fù)雜多樣,基于單一數(shù)據(jù)形態(tài)的深度模型對于相似或部分缺失的路側(cè)地物較難取得很好的分類效果,而點云和視圖融合的深度模型存在信息冗余等問題,本文提出一種融合點云和多視圖的車載激光點云路側(cè)目標識別模型PGVNet:①基于多視角圖像分組融合思想,建立視圖-組-形狀(view-group-shape)的視圖特征分組模塊,學(xué)習(xí)不同道路場景中路側(cè)目標點云與視圖之間的關(guān)系,自適應(yīng)學(xué)習(xí)視圖的重要性,提取不同場景路側(cè)目標最優(yōu)視圖特征。②引入注意力機制,構(gòu)建視圖-點云特征聚合機制,利用點云和視圖之間的相關(guān)性,以最優(yōu)視圖特征動態(tài)指導(dǎo)PGVNet模型對不同點云局部結(jié)構(gòu)的關(guān)注力度,融合視圖和點云特征以學(xué)習(xí)路側(cè)目標多層次、多尺度全局形狀特征。
PGVNet模型以獨立路側(cè)目標點云及其8個視角的圖像作為輸入,輸出為各類別的預(yù)測概率值,其主要包括3個模塊:①路側(cè)目標點云特征提取,提取點云局部特征作為初始嵌入點云特征;②基于分組賦權(quán)的路側(cè)目標最優(yōu)視圖特征提取,動態(tài)獲取不同目標的最優(yōu)視圖特征;③基于注意力機制的點云-多視圖特征融合,利用最優(yōu)視圖特征指導(dǎo)點云提取全局特征。最后PGVNet模型將嵌入式視圖特征與點云全局特征輸入全連接層(full connected layers,FC)構(gòu)成的分類器進行行道樹、車輛及桿狀交通設(shè)施的識別,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。為了將路側(cè)目標從離散點云中分割出來,本文先采用布料模擬算法(cloth simulation filter,CSF)[32]濾除地面點云,然后利用基于連通分支(connected component)[33]的聚類算法和基于體素的歸一化割(normalized cut,Ncut)[34]算法將面上點云分割成獨立目標。
圖1 融合點云和多視圖的路側(cè)多目標識別深度學(xué)習(xí)模型:PGVNetFig.1 Architecture of the proposed PGVNet
由于路側(cè)地物復(fù)雜多樣、形態(tài)各異,同時因遮擋、點云分割質(zhì)量等因素的影響,會導(dǎo)致路側(cè)地物存在不同程度的殘缺,相同類別的地物在形狀、姿態(tài)及完整度上都存在較大的差異。為了提取路側(cè)目標可區(qū)分的局部幾何信息,本文采用DGCNN中空間變換輔助網(wǎng)絡(luò)(spatial transform network,ST)和EdgeConv模塊作為骨架網(wǎng)絡(luò)構(gòu)建點云特征提取模塊,如圖2所示。ST網(wǎng)絡(luò)位于網(wǎng)絡(luò)前端,主要學(xué)習(xí)點云的空間置換不變性。該網(wǎng)絡(luò)以路側(cè)地物原始點云為輸入,通過逐點構(gòu)建K近鄰圖結(jié)構(gòu)獲取點云幾何特征,并利用多層感知機進行姿態(tài)特征學(xué)習(xí),輸出變換矩陣(3×3)并與原始點云數(shù)據(jù)進行乘積獲得經(jīng)過對齊后的點云數(shù)據(jù)表示,確保深度網(wǎng)絡(luò)能夠識別旋轉(zhuǎn)變換后的同一路側(cè)目標點云。
圖2 基于EdgeConv的點云特征提取Fig.2 Point cloud features extraction based on EdgeConv module
(1)
(2)
P=maxpool([X(1)‖X(2)])
(3)
式中,hΘ:RF×RF→RF′是由一組可學(xué)習(xí)的參數(shù)Θ構(gòu)成的非線性函數(shù);F及F′是特征維度;X(l)表示第l層EdgeConv模塊提取的局部幾何特征;‖表示矩陣拼接操作(concatenation operation)。
受限于車載激光點云點密度、感受野和模型效率等因素影響,EdgeConv模塊可以較好地提取點云局部幾何信息,但較難獲取路側(cè)目標全局信息。因此本文將路側(cè)目標投影成多視角圖像,利用卷積網(wǎng)絡(luò)獲取路側(cè)目標最優(yōu)視圖特征作為全局特征,以此指導(dǎo)構(gòu)建不同點云局部特征之間的關(guān)系,實現(xiàn)更精確的路側(cè)目標識別。
對于給定的獨立路側(cè)目標,以其原始點云坐標系X軸正方向為初始視角方向,在垂直該方向的平面上對目標點云進行規(guī)則格網(wǎng)剖分,若格網(wǎng)中存在點則標記格網(wǎng)值為“1”,否則標記為“0”?;诖?,以面向?qū)ο笾行陌茨鏁r針旋轉(zhuǎn),等間隔生成個尺寸為224×224的多視角圖像,如圖3所示。
為了降低模型訓(xùn)練的樣本、資源要求,本文采用基于微調(diào)的深度遷移方法,首先利用在ImageNet[35]數(shù)據(jù)集上預(yù)訓(xùn)練好的VGG16模型初始化多視角圖像特征提取模塊,然后利用多視角圖像進行微調(diào)。在PGVNet中以VGG16的Conv4-3及之前的網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)建共享權(quán)重的視圖卷積層(fully convolutional network,FCN),提取初始視圖特征fi,其中i∈[1,],以VGG16中Conv5構(gòu)建共享權(quán)重的多層感知機(multi-layer perceptron,MLP)提取路側(cè)目標的視圖特征Fi。
圖3 基于視圖分組的最優(yōu)視圖特征提取Fig.3 Optimal views feature extraction based on view grouping
1.2.1 視圖分組與組權(quán)重w(Gj)
(4)
(5)
式中,ξ(·)∈(0,1);sigmoid(·)為全連接網(wǎng)絡(luò)(FC)采用的激活函數(shù);|Gj|表示視圖組Gj中的視圖數(shù)量;j∈[1,L]。
1.2.2 組視圖特征VGj
為了聚合同一視圖組內(nèi)的視圖特征信息,減少冗余信息,本文利用池化層將同一組內(nèi)的視圖特征融合成組視圖特征VGj
(6)
式中,λi為判定系數(shù),表示視圖i是否屬于視圖組Gj,若視圖i屬于視圖組Gj,則λi=1,反之,λi=0。
1.2.3 最優(yōu)視圖特征Vb
為了挖掘不同視圖間的潛在關(guān)系,獲取具有顯著性的視圖特征,本文將L個組視圖特征VGj進一步融合,利用視圖組權(quán)重w(Gj)及組視圖特征VGj計算路側(cè)目標的最優(yōu)視圖特征Vb
(7)
利用全連接層(FC)將路側(cè)目標的最優(yōu)視圖特征Vb映射到點云特征空間生成嵌入式視圖特征Ve,用于后續(xù)點云特征與視圖特征的融合。
為了融合點云的空間幾何特征和視圖中高級全局特征,PGVNet融合注意力機制,以嵌入式視圖特征Ve自適應(yīng)指導(dǎo)點云局部特征P學(xué)習(xí)其關(guān)注的路側(cè)目標不同局部結(jié)構(gòu)的注意力度。隨著網(wǎng)絡(luò)的加深,注意力機制能指導(dǎo)網(wǎng)絡(luò)更多地關(guān)注具有區(qū)分性的特征和區(qū)域[28],因此本文構(gòu)建了兩個注意力融合模塊,如圖4所示,注意力融合模塊Ⅰ主要學(xué)習(xí)路側(cè)目標中級幾何特征,注意力融合模塊Ⅱ則學(xué)習(xí)路側(cè)目標高級幾何特征。
(1) 注意力融合模塊Ⅰ。如圖4所示,假定輸入是由n個點生成的點云局部特征P和嵌入式視圖特征Ve,為了將不同維度的點云局部特征P和嵌入式視圖特征Ve進行融合,本文將Ve重復(fù)n次后與點云局部特征P相連接,作為二者的關(guān)系特征φ1(P,Ve),并使用多層感知機對關(guān)系特征φ1(P,Ve)進行自適應(yīng)學(xué)習(xí);然后通過歸一化函數(shù)ζ(·)將其轉(zhuǎn)化到(0,1),從而生成軟注意力掩膜Sa1(P,Ve),表征不同點云局部結(jié)構(gòu)特征的重要性
φ1(P,Ve)=[n*Ve‖P]
(8)
ζ(·)=sigmoid(log(clip(abs(·))))
(9)
Sa1(P,Ve)=ζ(MLP(φ1(P,Ve)))
(10)
式中,clip(·)函數(shù)為約束函數(shù),用于將輸入中為零的值替換成極小值10-8,避免log(·)函數(shù)無意義。
圖4 基于注意力機制的點云-視圖特征融合模塊Fig.4 Point-view feature fusion block based on attention mechanism
此外本文在注意力融合模塊Ⅰ中采用一層EdgeConv模塊學(xué)習(xí)更深層的點云局部特征E1(P),將軟注意力掩膜Sa1(P,Ve)以點乘的方式應(yīng)用于E1(P)生成增強后點云特征O1(P,Ve),增強更具區(qū)分性的點云局部特征并抑制無用特征
O1(P,Ve)=E1(P)*Sa1(P,Ve)
(11)
(2) 注意力融合模塊Ⅱ。為進一步學(xué)習(xí)路側(cè)目標的高級幾何特征,本文將優(yōu)化后的點云局部特征O1(P,Ve)輸入第2個注意力融合模塊中,以相同的方式學(xué)習(xí)深層點云局部特征O2(P,Ve),然后將優(yōu)化后不同層次的點云局部特征O1(P,Ve)與O2(P,Ve)合并,并利用多層感知機獲取點云全局特征Pg
Pg=maxpool(MLP([O1(P,Ve)‖O2(P,Ve)]))
(12)
合并嵌入式視圖特征Ve和點云全局特征Pg,作為當(dāng)前路側(cè)目標的點云-視圖融合特征FVePg
FVePg=[Ve‖Pg]
(13)
(14)
(15)
為驗證本文方法的有效性,本文選取了由不同激光掃描系統(tǒng)在不同區(qū)域獲取的3份訓(xùn)練數(shù)據(jù)和5份測試數(shù)據(jù)對PGVNet模型進行訓(xùn)練和驗證,具體信息見表1。本文預(yù)先利用文獻[12]中的面上地物提取方法從選定數(shù)據(jù)集中分割出行道樹、桿狀交通設(shè)施和車輛等路側(cè)獨立目標,如圖5所示。
圖5 不同道路場景的訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集Fig.5 The training datasets and testing datasets of different road scenes
3份訓(xùn)練數(shù)據(jù)全部為車載激光掃描系統(tǒng)獲取的城區(qū)場景,訓(xùn)練數(shù)據(jù)Ⅰ中車輛較多,且類型多樣、方向姿態(tài)差異較大,同時存在不同程度殘缺;訓(xùn)練數(shù)據(jù)Ⅱ來自公開數(shù)據(jù)集Paris-Lille-3D[36]的城市街區(qū)數(shù)據(jù),數(shù)據(jù)量小但地物類別齊全、完整度高;訓(xùn)練數(shù)據(jù)Ⅲ中包含的各類地物數(shù)量較為均衡,同時行道樹及車輛存在不同程度的殘缺。3份訓(xùn)練數(shù)據(jù)中各類地物具有很好的代表性及完備性,能夠滿足本文模型訓(xùn)練要求。本文從分割后的訓(xùn)練數(shù)據(jù)中提取不同形狀、 姿態(tài)的行道樹、車輛、桿狀交通設(shè)施作為正訓(xùn)練樣本,其數(shù)量分別為113、190和146,提取行人、垃圾桶和自行車等105個地物作為負訓(xùn)練樣本。同時通過平移、旋轉(zhuǎn)、添加抖動噪聲等數(shù)據(jù)增強操作,將基礎(chǔ)樣本擴增成每類地物500個樣本作為訓(xùn)練數(shù)據(jù),50個樣本作為驗證數(shù)據(jù)。
測試數(shù)據(jù)集在場景和數(shù)據(jù)質(zhì)量上與訓(xùn)練數(shù)據(jù)具有一定差異,但都包含行道樹、車輛以及桿狀交通設(shè)施等路側(cè)目標,如圖5(b)所示。測試數(shù)據(jù)Ⅰ是所有測試數(shù)據(jù)中數(shù)據(jù)量最大的城區(qū)場景,道路兩側(cè)包含大量不同類別的行道樹、車輛以及桿狀交通設(shè)施;測試數(shù)據(jù)Ⅱ為郊區(qū)數(shù)據(jù),道路一側(cè)是高大修長的行道樹,另一側(cè)則是小型行道樹及路燈;測試數(shù)據(jù)Ⅲ道路中間包含綠化帶,存在較多地物遮擋導(dǎo)致點云殘缺的情況;測試數(shù)據(jù)Ⅳ是圍繞大型體育場周邊場景的數(shù)據(jù),車輛停放姿態(tài)各異,點云殘缺的車輛較多;測試數(shù)據(jù)Ⅴ包含較多小型行道樹,受遮擋影響存在較多僅含冠層的行道樹。
表1 試驗數(shù)據(jù)集基本信息
本文PGVNet模型基于Python 3.5構(gòu)建,主要使用的庫有Tensorflow_GPU 1.8.0,CUDA 9.0,cuDNN 7.0等,所有試驗均在配置為NVIDIA GeForce GTX 1080ti 11 GB的環(huán)境上運行。由于PGVNet模型中視圖特征提取模塊由預(yù)訓(xùn)練的模型參數(shù)進行初始化,在模型訓(xùn)練初期具有較好的特征提取能力,因此本文采用交替訓(xùn)練的策略進行模型的訓(xùn)練:在前10輪次(epoch)訓(xùn)練中凍結(jié)最優(yōu)視圖特征提取模塊的網(wǎng)絡(luò)參數(shù),僅更新其余網(wǎng)絡(luò)層的參數(shù);10輪次以后,開始更新模型的所有參數(shù),讓特征提取模塊學(xué)習(xí)當(dāng)前訓(xùn)練數(shù)據(jù)中特有的信息。受GPU限制,綜合考慮訓(xùn)練精度與時間效率,本文將批處理大小(batch size)設(shè)置為32,初始學(xué)習(xí)率為0.001,訓(xùn)練輪次設(shè)置為30,采用帶動量(momentum)的隨機梯度下降(stochastic gradient descent,SGD)優(yōu)化策略,對PGVNet網(wǎng)絡(luò)進行訓(xùn)練和參數(shù)更新。
PGVNet模型訓(xùn)練過程中EdgeConv模塊中K鄰域值及多視圖分組模塊中分組閾值ε,對模型訓(xùn)練結(jié)果具有重要作用。對于路側(cè)地物目標,k值過小或太大都難以提取有效的局部幾何特征。對于分組閾值ε,取值過大會導(dǎo)致視圖區(qū)間太大難以區(qū)分視圖間的差異性,過小則無法有效削弱冗余信息。本文在分組閾值ε為0.1的前提下,采用對比試驗,并以3份訓(xùn)練數(shù)據(jù)的總體精度作為評價指標,對不同k鄰域大小進行測試。如圖6(a)所示,當(dāng)k鄰域值為10時,本文方法分類效果最好,因此本文采用k=10進行路側(cè)目標點云局部幾何特征提取。在k=10的基礎(chǔ)上,以不同分組閾值ε進行試驗,結(jié)果如圖6(b)所示,當(dāng)分組閾值ε為0.1時,試驗結(jié)果總體精度最優(yōu)。因此本文將PGVNet模型超參數(shù)k和ε分別設(shè)置為10和0.1進行模型驗證并統(tǒng)計試驗結(jié)果。
基于訓(xùn)練好的PGVNet模型,5份測試數(shù)據(jù)的路側(cè)目標分類結(jié)果如圖7所示。由圖7可以看出,本文構(gòu)建的融合點云和多視角圖像的深度模型能夠準確識別絕大多數(shù)路側(cè)目標,不僅能夠準確區(qū)分形狀差異較大的行道樹、車輛和桿狀交通設(shè)施(場景D和F),對于具有不同形狀、大小、姿態(tài)的同一類地物也能很好地識別,具有較強的穩(wěn)健性(場景A和B)。對于因遮擋或分割處理導(dǎo)致的殘缺車輛(場景E、F和G)以及一些缺失樹干但冠層較為完整的行道樹(場景H),本文方法均能準確的對其進行識別,在一定程度上克服了原始數(shù)據(jù)質(zhì)量及分割結(jié)果對路側(cè)多目標識別的影響。
圖6 PGVNet模型中超參數(shù)k和ε設(shè)置Fig.6 The configuration of parameters k and ε
由于測試數(shù)據(jù)缺少真實的地物類型參考數(shù)據(jù),本文通過CloudCompare軟件,從測試數(shù)據(jù)中人工標定出不同的地物類別標簽。試驗結(jié)果精度評價中將獨立地物目標視為參考對象,采用如下4個公式作為評價指標
綜合評價指標
式中,n為點云對象的類別數(shù);TPi為網(wǎng)絡(luò)對第i類地物預(yù)測正確的數(shù)量;FPi為網(wǎng)絡(luò)對第i類地物預(yù)測錯誤的數(shù)量;FNi為網(wǎng)絡(luò)未能識別的第i類地物的數(shù)量。分別統(tǒng)計5份數(shù)據(jù)中3類路側(cè)目標的分類精度,結(jié)果見表2。
由表2可以看出,5份測試數(shù)據(jù)中行道樹、車輛和桿狀交通設(shè)施3類典型地物的平均準確率、平均召回率、平均精度和平均綜合評價指標分別達到了(99.19%、94.27%、93.58%、96.63%),(94.20%、97.56%、92.02%、95.68%)和(91.48%、98.61%、90.39%、94.87%),表明本文方法能夠精確識別城市場景中的大部分地物目標。
總體而言,本文方法對于行道樹和車輛分類效果要好于桿狀交通設(shè)施,主要原因在于大部分行道樹和車輛的深層特征具有較高的區(qū)分度。測試數(shù)據(jù)Ⅴ中一些小型行道樹或無冠樹干與桿狀交通設(shè)施形狀較難區(qū)分,存在部分混淆的情況,導(dǎo)致行道樹召回率相對較低。測試數(shù)據(jù)Ⅰ場景龐大,因遮擋等原因存在一些與訓(xùn)練數(shù)據(jù)集中樣本相似性較低的地物;同時也存在路障等一些在訓(xùn)練樣本集中沒有的地物,導(dǎo)致這些地物被錯分成車輛或者桿狀交通設(shè)施(如圖8場景A),從而降低了測試數(shù)據(jù)Ⅰ中車輛和桿狀交通設(shè)施的準確率和召回率。相較而言,PGVNet模型在測試數(shù)據(jù)Ⅱ和Ⅲ中取得了較好的分類結(jié)果,4個分類指標均在94.91%以上,雖然兩份數(shù)據(jù)中的行道樹、桿狀交通設(shè)施等地物差異較大,但本文方法在一定程度上能克服路側(cè)地物形狀差異帶來的影響,具有較好的穩(wěn)健性和泛化能力。在測試數(shù)據(jù)Ⅳ中,由于存在大量背向道路的車輛,部分車輛僅有少量頭部或尾部區(qū)域的信息(如圖8場景B),其形狀、大小與負樣本中的垃圾箱或電動車存在較大相似性,從而降低了場景中車輛的識別精度。在測試數(shù)據(jù)Ⅴ中存在一些因遮擋和過分割導(dǎo)致的缺失冠層的行道樹或缺失樹干的低矮灌木(如圖8場景C和D)。缺失冠層的行道樹易與桿狀交通設(shè)施混淆,而缺失樹干的低矮灌木和樹冠與殘缺的車輛或負樣本中的垃圾桶等地物相似,因此容易被錯誤分類成車輛或負樣本,從而導(dǎo)致本文方法對測試數(shù)據(jù)Ⅴ的分類中行道樹的召回率及精度都相對較低。同時,由于訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)來自不同國家的城市道路場景,同一類地物存在多種形狀以及空間分布,而人工標注的訓(xùn)練數(shù)據(jù)難以涵蓋所有地物的樣本空間,這也導(dǎo)致部分地物出現(xiàn)錯誤識別的情況。
圖7 路側(cè)目標分類結(jié)果Fig.7 Classification results of roadside objects
表2 測試數(shù)據(jù)分類結(jié)果精度
圖8 部分錯誤分類場景Fig.8 Some misclassification cases
為了進一步驗證本文方法的有效性,選取在點云目標識別方向取得較好效果的6類方法:DBN[12]、MVCNN[13]、GVCNN[17]、PointNet[19]、DGCNN[26]及PVNet[28]與本文方法進行對比分析。其中DBN、MVCNN和GVCNN方法都是先將獨立對象轉(zhuǎn)換成多視角特征或者多視角圖像,再利用深度模型實現(xiàn)不同目標的識別。PointNet和DGCNN模型是以原始三維點云為輸入的深度學(xué)習(xí)模型。PVNet則是第1個融合點云和多視角圖像的深度模型。同時,為驗證本文注意力融合模塊的有效性,本文在PGVNet模型的基礎(chǔ)上通過削減該模塊構(gòu)建無注意力融合模塊模型(PGVNetno-A)、一層注意力融合模塊模型(PGVNet1-A)。在對比和消融試驗中,本文根據(jù)開源代碼或者論文參數(shù)設(shè)置說明,采用相同的訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)進行試驗,采用5份測試數(shù)據(jù)的平均準確率(average precision,AP)、平均召回率(average recall,AR)、平均精度(average quality,AQ)以及平均綜合評價指標(averageFscore,AFscore)為評價指標進行精度對比,各方法試驗結(jié)果列于表3和圖9。
由圖9和表3中可以看出,本文方法(PGVNet模型)在融合點云與視圖特征的同時,兼顧了視圖間的差異性和相似性,通過分組賦權(quán)的方式提取更具有區(qū)分性的最優(yōu)視圖特征,并利用最優(yōu)視圖特征自適應(yīng)指導(dǎo)點云局部特征的學(xué)習(xí),在測試數(shù)據(jù)上取得了最優(yōu)的路側(cè)目標分類結(jié)果。DBN模型輸入為3張50×50二值圖像組成的二值向量,存在較大的精度損失,因此該方法對擁有較大側(cè)剖面的行道樹和車輛的識別精度較高,但對于路燈、交通標志牌等側(cè)剖面較小的桿狀交通設(shè)施(場景D和場景E)則存在嚴重的錯分情況,導(dǎo)致該方法對桿狀交通設(shè)施的分類效果相較于其他方法偏低。MVCNN和GVCNN是基于多視角圖像的模型,利用卷積神經(jīng)網(wǎng)絡(luò)提取視圖全局特征進行目標分類。由于缺乏局部幾何特征,這兩類方法易于將一些樹冠形狀與車輛較為相似的行道樹錯分成車輛(場景A)。GVCNN采用視圖分組融合的特征提取模式,獲取更具代表性的全局特征,因而該方法對小型行道樹(場景B)的識別要優(yōu)于MVCNN。但是在視圖分組過程中會丟失部分信息,因此GVCNN模型對存在較大形變的點云目標(場景C)識別能力較差。PointNet模型通過多層感知機逐點學(xué)習(xí)特征,并通過最大池化層聚合全局特征。最大池化層會導(dǎo)致點云局部特征缺乏,影響PointNet模型對殘缺的小型行道樹(場景A和場景B)、小型車輛點云(場景C)以及桿狀交通設(shè)施(場景E)的分類效果。DGCNN則在PointNet模型基礎(chǔ)上,構(gòu)建局部鄰域內(nèi)的KNN圖結(jié)構(gòu),能提取局部點云幾何特征,因此其對小型路側(cè)目標的識別效果要優(yōu)于PointNet方法。但由于DGCNN并未建立不同局部特征之間的關(guān)系描述,導(dǎo)致其很難區(qū)分具有相似局部幾何特征的地物,存在部分殘缺較嚴重的車輛、行道樹和桿狀交通設(shè)施互相混淆情況(場景C和E)。相較于以上單模態(tài)方法,PVNet模型通過融合點云與多視圖特征,在5份測試數(shù)據(jù)上也取得了較好的分類效果。但由于其未區(qū)分不同視圖對識別當(dāng)前目標的差異性與視圖間的相似性,因此在一些場景下表現(xiàn)不如本文PGVNet模型,其對小型行道樹的識別效果較差(場景B),同時容易將部分因遮擋或分割導(dǎo)致殘缺的行道樹錯誤分類成負樣本(場景A)。
表3 本文方法與其他方法(含消融模型)的路側(cè)目標分類精度對比分析
同時,相比于無注意力融合模塊的PGVNetno-A模型和只含一層注意力融合模塊的PGVNet1-A模型,本文PGVNet模型總體上識別效果更好,特別是對車輛的識別精度提升較大。通過可視化點云局部特征P和注意力融合模塊中的注意力系數(shù)(如圖10所示,特征P和模塊中藍色到紅色分別表示每個點的特征從0到1的取值和權(quán)重)表明,提取的點云局部特征P中路側(cè)目標的邊緣幾何特征更具區(qū)分性,但不夠穩(wěn)健,模塊Ⅰ能增強這些小范圍的邊緣特征,但易受誤差影響,而模塊Ⅱ則能更加快速穩(wěn)定的增強路側(cè)目標大范圍幾何特征。因此堆疊兩層注意力融合模塊能夠?qū)崿F(xiàn)更加穩(wěn)健的特征融合,提高模型對關(guān)鍵特征的提取能力,使PGVNet模型對車輛點云的識別效果(場景C)優(yōu)于另外兩種對比模型。綜合考慮模型的分類效果和時間效率,本文在PGVNet模型中采用了兩層注意力融合模塊。
圖9 本文方法與其他方法(含消融模型)在典型場景中路側(cè)目標分類結(jié)果對比Fig.9 The comparison results of ours methods with some existing methods and ablation modelues on typical scenes
此外,為驗證本文算法與對比方法在時間效率上的差異,筆者在相同條件下,統(tǒng)計不同模型訓(xùn)練達到擬合所需時間,結(jié)果見表3。對比方法中,DBN[12]和MVCNN[13]在時間效率上具有較大優(yōu)勢,但本文方法在路側(cè)目標的分類精度上比這兩種方法更具優(yōu)勢。同時與現(xiàn)有點云深度模型如PointNet和DGCNN相比,本文方法由于構(gòu)建了注意力融合模塊,能夠通過視圖特征加速模型對點云特征的學(xué)習(xí),訓(xùn)練耗時相對較少??傮w而言,本文方法在分類精度及算法效率上具有一定優(yōu)勢。
圖10 PGVNet中點云局部特征P及注意力融合模塊的注意力系數(shù)可視化結(jié)果Fig.10 The visualization of point cloud local features P and attention coefficients for attention fusion block in PGVNet
本文通過分析點云與多視角圖像間的空間位置關(guān)系,提出一個融合點云和多視角圖像的車載激光點云路側(cè)多目標識別模型——PGVNet。該模型對每一個點云目標等角距獲取多視角圖像,首先通過構(gòu)建視圖特征分組賦權(quán)融合機制,描述不同視圖對點云目標識別的重要性,然后基于注意力機制自適應(yīng)地將最優(yōu)視圖特征嵌入點云特征,實現(xiàn)路側(cè)多目標的精確識別與分類。本文采用5份測試數(shù)據(jù)對PGVNet模型進行測試,5份測試數(shù)據(jù)中3類路側(cè)交通地物的平均準確率、平均召回率、平均精度和平均綜合評價指標達到了91.48%、94.27%、90.39%和94.87%。與現(xiàn)有方法相比,本文直接面向車載激光點云對象構(gòu)建了一個適用于點云及其多視角圖像融合的路側(cè)目標分類深度學(xué)習(xí)框架,在多視圖特征提取的過程中,引入視圖特征分組的思想,可區(qū)分不同視角圖像對點云目標識別的重要性,減少相似視圖間的冗余信息并提升有效的視圖特征;同時通過最優(yōu)視圖特征指導(dǎo)PGVNet模型動態(tài)調(diào)整對目標點云不同局部結(jié)構(gòu)的注意力度,形成融合視圖和點云的多層次、多角度信息,實現(xiàn)路側(cè)目標的精確識別,為車載激光點云路側(cè)目標精細分類提取提供了一種新的研究方法。目前本文方法仍然存在一定的缺陷,分類精度一定程度上受到獨立地物分割效果的影響,并且使用CNN提取特征,計算量較大。此外本文PGVNet模型容易混淆部分形狀相似的樹干和桿狀交通設(shè)施,后續(xù)會加強該方面的研究。