孫一珺,胡 輝,李子鑰,陳 陽,吳少奕
華東交通大學(xué) 信息工程學(xué)院,南昌 330013
近年來,深度學(xué)習(xí)在圖像處理領(lǐng)域取得了顯著的成果,其中卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)對于規(guī)整的圖像數(shù)據(jù)[1]具有優(yōu)異的效果。隨著無人駕駛需求的日益增加,激光雷達(dá)點云數(shù)據(jù)和圖像數(shù)據(jù)一樣,逐漸變成了一種深度學(xué)習(xí)的基本數(shù)據(jù)。然而,由于點云數(shù)據(jù)固有的非結(jié)構(gòu)性與無序性特點[2],使得一些傳統(tǒng)的圖像領(lǐng)域的深度學(xué)習(xí)方法無法直接應(yīng)用于點云領(lǐng)域。
為了將卷積的優(yōu)勢發(fā)揮在點云處理領(lǐng)域,先前的研究者使用多視圖思想對三維數(shù)據(jù)的每一個角度單獨使用CNN并融合這些多角度信息實現(xiàn)數(shù)據(jù)處理[3],或是將三維CNN直接使用在點云領(lǐng)域[4]。但是這些方法均要求大量的計算資源且處理速度較慢,并不是點云處理領(lǐng)域的最優(yōu)方法,如何直接使用三維點云數(shù)據(jù)作為網(wǎng)絡(luò)輸入因而成為了研究的熱點。PointNet[5]網(wǎng)絡(luò)作為直接使用點云數(shù)據(jù)的先驅(qū)者,有效地解決了點云特征獲取和無序性的問題。這為之后的研究者提供了方向指引,如PAT[6]、LightPointNet[7]、PointWeb[8]。然而不同于CNN,多層感知器(multilayer perceptron,MLP)具有不能包含鄰域信息,不能使用空洞卷積[9]等技巧的缺點,導(dǎo)致網(wǎng)絡(luò)特征提取能力仍具有較大的優(yōu)化空間。PointNet++[10]和DGCNN[11](dynamic graph CNN)分別通過模仿多層CNN的層次特點和K近鄰算法構(gòu)建鄰域使網(wǎng)絡(luò)具有了鄰域信息,RS-CNN[12](relation shape CNN)和Moment[13]則通過豐富網(wǎng)絡(luò)輸入從而使網(wǎng)絡(luò)性能提升。除了以上的方法,注意力機(jī)制的重要性在以往的文獻(xiàn)中已經(jīng)被廣泛地研究,能夠幫助網(wǎng)絡(luò)明白應(yīng)該關(guān)注哪些位置,提升網(wǎng)絡(luò)表達(dá)能力。不同于WDGCNN[14](weighted dynamic graph CNN)需要手動設(shè)計一種權(quán)重,注意力機(jī)制可以幫助網(wǎng)絡(luò)自適應(yīng)地學(xué)習(xí)權(quán)重,使網(wǎng)絡(luò)自動關(guān)注重要的特征,抑制非必要的特征。然而由于點云數(shù)據(jù)的特點,以往的注意力機(jī)制同樣不能直接應(yīng)用于點云領(lǐng)域。
針對這些問題,本文首先提出了一個簡單有效的直接應(yīng)用于點云數(shù)據(jù)的注意力機(jī)制,通過對點云數(shù)據(jù)進(jìn)行并行的最大池化與平均池化,采用共享權(quán)重的多層感知器訓(xùn)練自適應(yīng)注意力權(quán)重,并與輸入特征相乘以增強(qiáng)網(wǎng)絡(luò)特征表示能力,從而提升網(wǎng)絡(luò)性能,可以廣泛地應(yīng)用于PointNet類網(wǎng)絡(luò)的特征提取階段,以提高網(wǎng)絡(luò)的表征能力;其次對本文所提出注意機(jī)制的最優(yōu)設(shè)計和使用方案進(jìn)行研究分析;最后嵌入設(shè)計的注意力機(jī)制,驗證了在不明顯提高網(wǎng)絡(luò)運算成本的前提下,多種三維點云處理任務(wù)(分類、分割、檢測)的性能相比于原始網(wǎng)絡(luò)有了很大提高。
由于CNN無法直接應(yīng)用于點云領(lǐng)域,先前的研究者大多考慮使用間接法進(jìn)行三維特征學(xué)習(xí)。MVCNN[3]的研究思路是通過多視圖法處理三維數(shù)據(jù),使用CNN獲取某一角度的多視圖特征,最后使用最大池化對多角度特征進(jìn)行特征融合。VoxNet[4]通過三維網(wǎng)格將點云進(jìn)行體素轉(zhuǎn)換,并用三維CNN進(jìn)行特征的學(xué)習(xí)。然而,受限于點云數(shù)據(jù)的稀疏性、計算成本以及間接轉(zhuǎn)化導(dǎo)致的信息損失,通過間接法研究三維數(shù)據(jù)受到了較大的阻礙。Qi等人是直接使用原始點云作為網(wǎng)絡(luò)輸入的先驅(qū)者,提出了PoinNet網(wǎng)絡(luò),其網(wǎng)絡(luò)直接使用點云作為輸入而不需要任何間接變換,借助MLP獲取非結(jié)構(gòu)的點云特征,采用對稱函數(shù)處理點云的無序性問題,使用變換網(wǎng)絡(luò)(transformer network,T-Net)來實現(xiàn)點的對齊,從而處理點云圖像的旋轉(zhuǎn)不變性問題,然而這種網(wǎng)絡(luò)缺少局部特征的構(gòu)建能力。Qi等人之后提出的PointNet++網(wǎng)絡(luò)通過不斷使用基于最遠(yuǎn)點采樣(farthest point sampling,F(xiàn)PS)的方法并逐層次地使用PointNet網(wǎng)絡(luò),從而獲取了一定的點云局部特征。DGCNN通過K近鄰算法為每個點構(gòu)建了一個鄰域圖,提出了邊緣卷積(edge convolution,EdgeConv)的概念,成功地為每個點構(gòu)建了鄰域特征,但采用的仍是MLP進(jìn)行每一條邊的特征學(xué)習(xí)。Point-GNN[15]明確地將圖卷積的概念引入點云特征學(xué)習(xí)領(lǐng)域,在網(wǎng)絡(luò)輸入前對點云進(jìn)行建圖,之后采用圖卷積神經(jīng)網(wǎng)絡(luò)(graph neural network,GCN)進(jìn)行特征學(xué)習(xí)以進(jìn)行物體檢測,網(wǎng)絡(luò)可以對一張點云同時進(jìn)行多物體檢測。RandLA-Net[16]設(shè)計了一種輕量高效的可處理大規(guī)模場景點云的網(wǎng)絡(luò),通過簡單高效的隨機(jī)采樣替換常用的FPS以極大地降低計算成本并通過設(shè)計有效的局部特征模塊增加網(wǎng)絡(luò)的感受野,在大場景點云語義分割問題上獲得了優(yōu)異的成績。
Google團(tuán)隊使用多頭注意力和縮放點積注意力的自注意力(self attention)機(jī)制進(jìn)行學(xué)習(xí)[17],代替了傳統(tǒng)的編解碼模型必須結(jié)合CNN或者RNN(recurrent neural network)的固有模式,在不降低可靠性的前提下減少了計算成本,提高了有效性。Sun等人[18]提出了堆疊注意力網(wǎng)絡(luò)(stacked attention networks,SANs)來進(jìn)行視覺問答任務(wù)(visual question answering,VQA),并通過實驗說明三個或更多注意力層并不一定提高性能。Luong等人[19]提出了兩種叫作局部和全局的注意力機(jī)制(local and global attention),全局注意力類似于傳統(tǒng)的軟注意力(soft attention)[20],局部注意力提供了網(wǎng)絡(luò)在計算效率和可微性之間的參數(shù)權(quán)衡。CBAM[21]采用多角度池化的方法生成自適應(yīng)的注意力權(quán)重以產(chǎn)生通道與空間注意力,并通過串行的方式融合通道與空間注意力,從而提高網(wǎng)絡(luò)性能。與此不同,BAM[22]使用了空洞卷積的思想產(chǎn)生空間注意力權(quán)重,并與并行計算后的通道注意力相加激活后作為最終的注意力權(quán)重,最后與原始輸入相加得到細(xì)化后的特征圖。Chaudhari等人[23]總結(jié)出注意力的核心思想是對輸入特征引入注意力權(quán)重,這些工作為本文設(shè)計適用于點云的注意力機(jī)制研究提供了指導(dǎo)思路。
現(xiàn)有的增強(qiáng)點云網(wǎng)絡(luò)性能的方法一是設(shè)計新的網(wǎng)絡(luò)結(jié)構(gòu),二是在現(xiàn)有結(jié)構(gòu)上豐富網(wǎng)絡(luò)輸入。不需要像WDGCNN一樣人為設(shè)計一種權(quán)重,注意力機(jī)制可以通過網(wǎng)絡(luò)自適應(yīng)地生成優(yōu)化網(wǎng)絡(luò)特征的權(quán)重,幫助網(wǎng)絡(luò)學(xué)習(xí)需要對哪些信息進(jìn)行強(qiáng)調(diào)或抑制,從而幫助特征在網(wǎng)絡(luò)中的生成。本文設(shè)計了一種即插即用的適用于點云的輕量級注意力機(jī)制,可以隨意嵌入到PointNet類網(wǎng)絡(luò)的特征提取階段,在不明顯增加計算成本的情況下提升網(wǎng)絡(luò)性能。嵌入有點云注意力機(jī)制的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 注意力機(jī)制嵌入圖Fig.1 Attention mechanism embedding map
在圖像處理領(lǐng)域,通道與空間注意力可以幫助網(wǎng)絡(luò)在通道和空間兩個分支上學(xué)習(xí)要注意“什么”和“哪里”,共用這兩種注意力機(jī)制可以有效地提升網(wǎng)絡(luò)性能。
對于圖像數(shù)據(jù),其特征在神經(jīng)網(wǎng)絡(luò)中可以表示為F∈?B×H×W×C,其中B、H、W、C分別表示Batch Size、圖像的長、寬、特征通道數(shù)。融合的通道與空間注意力可以表示為:
其中,Mc∈?B×1×1×C表示一維的通道注意力,Ms∈?B×H×W×1表示二維的空間注意力,?代表矩陣叉乘,F(xiàn)""表示最終的輸出特征。
對于通道注意力圖Mc的計算過程為:
其中,σ表示激活函數(shù),W0和W1表示MLP的權(quán)重,表示沿著特征通道數(shù)C維度對特征F進(jìn)行平均池化和最大池化。
對于空間注意力圖Ms的計算過程為:
其中,σ表示激活函數(shù),f7×7表示核為7×7的卷積運算,表示沿著圖像的長、寬維度對特征F進(jìn)行平均池化和最大池化。
不同于圖像數(shù)據(jù),點云數(shù)據(jù)具有非結(jié)構(gòu)性與無序性的特點,其特征在神經(jīng)網(wǎng)絡(luò)中可以表示為F∈?B×N×1×C,其中B、N、C分別表示Batch Size、點云數(shù)目、特征通道數(shù)。
受到圖像領(lǐng)域通道與空間注意力機(jī)制的啟發(fā),本文同樣設(shè)計了兩種注意力機(jī)制,分別沿著特征通道數(shù)C維度和點云數(shù)目N維度進(jìn)行池化,可以表示為:
其中,Mc∈?B×N×1×C表示點云特征注意力機(jī)制,F(xiàn)c表示點云特征注意力的輸出特征,Mn∈?B×1×1×C表示點云通道注意力機(jī)制,F(xiàn)n表示點云通道注意力的輸出特征,?代表矩陣叉乘。
為了生成點云特征注意力機(jī)制Mc,借助CBAM的經(jīng)驗,采用不同的池化方法意味著通過不同的角度收集特征的信息,能夠有效地提高網(wǎng)絡(luò)表達(dá)性能。首先沿著特征通道數(shù)C維度,使用并行的平均池化和最大池化對點云輸入特征F進(jìn)行特征聚合,從而生成不同角度的特征表述符不同于圖像數(shù)據(jù)的空間注意力,受限于點云數(shù)據(jù)的非結(jié)構(gòu)性,本文未使用卷積操作進(jìn)行權(quán)重訓(xùn)練,仍使用共享參數(shù)的單隱藏層MLP對聚合特征的特征通道數(shù)維度進(jìn)行訓(xùn)練,用來生成注意力權(quán)重,最后使用激活函數(shù)σ激活權(quán)重。點云特征注意力機(jī)制Mc可以表示為:
其中,σ表示sigmoid激活函數(shù),W表示MLP的權(quán)重,表示沿著特征通道數(shù)C維度對特征F進(jìn)行平均池化和最大池化。計算過程如圖2(a)所示。
圖2 注意力機(jī)制計算過程圖Fig.2 Attention mechanism computation process map
為了生成點云通道注意力機(jī)制Mn,沿著特征通道數(shù)N維度,同樣使用平均池化和最大池化對點云輸入特征F進(jìn)行特征聚合,生成不同角度的特征表述符Fnavg和Fnmax。由于在點云領(lǐng)域無法直接使用CNN,本文仍采用MLP對點云特征進(jìn)行精煉,使用共享參數(shù)的雙隱藏層MLP對聚合特征進(jìn)行訓(xùn)練,對點云特征通道C先縮減再恢復(fù),縮減系數(shù)為r,用來生成注意力權(quán)重,最后使用激活函數(shù)σ激活權(quán)重。點云通道注意力機(jī)制Mn可以表示為:
其中,σ表示sigmoid激活函數(shù),W0和W1表示MLP的權(quán)重,表示沿著點云數(shù)目N維度對特征F進(jìn)行平均池化和最大池化。計算過程如圖2(b)所示。
實驗的硬件環(huán)境為Intel Core i7-6700 CPU、32 GB內(nèi)存,GeForce GTX 1080ti顯卡、11 GB顯存。軟件環(huán)境為Ubuntu 16.04 x64操作系統(tǒng)、Anaconda 1.7.2、Cuda10.1、Cudnn 7.6.5、TensorFlow 1.14、Python 3.6.1。
本節(jié)通過對嵌入有適用于點云注意力機(jī)制的Point-Net網(wǎng)絡(luò)在ModelNet40[24]分類數(shù)據(jù)集上的分類效果研究,對不同的注意力機(jī)制設(shè)計進(jìn)行了分析。ModelNet40點云分類數(shù)據(jù)集共有40種物體種類,12 311個點云模型,其中訓(xùn)練集9 842個,測試集2 468個。
為研究多角度的池化特征融合順序?qū)W(wǎng)絡(luò)性能的影響,本文設(shè)計了先融合后訓(xùn)練的注意力機(jī)制Mc"、Mn",設(shè)計方案如圖3(a)、(b)所示。此外,受到CBAM的啟發(fā),本文同樣對兩種注意力機(jī)制的融合效果進(jìn)行了研究,根據(jù)特征和通道注意力機(jī)制的使用順序,分別設(shè)計了Mcn、Mnc兩種融合方案,設(shè)計方案如圖3(c)、(d)所示。
圖3 其他注意力機(jī)制設(shè)計方案圖Fig.3 Other attention mechanism design plans
在表1中給出了不同注意力設(shè)計方案在ModelNet40上的分類準(zhǔn)確率(overall accuracy,OA)結(jié)果。PointNet(vanllia)相比于PointNet網(wǎng)絡(luò)減少了T-Net,—表示不使用注意力機(jī)制的原始網(wǎng)絡(luò)框架,PointNet(vanllia)和PointNet的Batch Size分別設(shè)置為64、32,其余設(shè)置遵循原網(wǎng)絡(luò)設(shè)置。
表1 注意力機(jī)制設(shè)計方案Table 1 Design of attention mechanism
點云特征注意力機(jī)制Mc和點云通道注意力機(jī)制Mn將OA提升至87.80%和87.48%,相比于原始的PointNet(vanllia)網(wǎng)絡(luò)分別提升了0.89和0.57個百分點,實驗結(jié)果表明本文設(shè)計的兩種注意力機(jī)制對點云數(shù)據(jù)的特征提取均發(fā)揮了積極的作用,驗證了機(jī)制設(shè)計的合理性。同時,相比于點云通道注意力機(jī)制Mn,點云特征注意力機(jī)制Mc具有更優(yōu)的效果。當(dāng)注意力機(jī)制Mc對點云特征沿著特征通道數(shù)維度進(jìn)行池化,并通過MLP學(xué)習(xí)特征與注意力加權(quán),可以在基礎(chǔ)網(wǎng)絡(luò)上進(jìn)一步豐富點云特征信息,網(wǎng)絡(luò)性能提升更明顯。這表明僅具有(x,y,z)坐標(biāo)信息的非結(jié)構(gòu)點云數(shù)據(jù),其特征信息單一仍是點云特征學(xué)習(xí)必須著重考慮的問題。
先融合后訓(xùn)練的注意力機(jī)制Mc"和Mn"的OA分別為87.24%和87.16%,實驗結(jié)果雖然相比于原始網(wǎng)絡(luò)仍有提升,但提升效果均不如先訓(xùn)練后融合的注意力機(jī)制Mc和Mn。平均池化和最大池化代表著不同角度的特征,實驗結(jié)果表明“先融合,后訓(xùn)練”的策略導(dǎo)致多角度特征在融合過程中會產(chǎn)生一定的信息損失,因而對經(jīng)過網(wǎng)絡(luò)訓(xùn)練后的池化特征進(jìn)行融合效果更優(yōu)。對于兩種注意力機(jī)制的融合方案Mcn和Mnc,OA分別為86.71%和87.36%,不同于圖像注意力領(lǐng)域CBAM的經(jīng)驗,串行融合使用本文設(shè)計的注意力機(jī)制并未對網(wǎng)絡(luò)特征提取性能做進(jìn)一步提升。
最后,將Mc注意力機(jī)制應(yīng)用于PointNet網(wǎng)絡(luò),OA相比于原始網(wǎng)絡(luò)的88.90%提升至89.30%,同樣提升了網(wǎng)絡(luò)分類效果。同時,可以觀察到相比于原始網(wǎng)絡(luò),注意力機(jī)制Mc分別僅使PointNet(vanllia)和PointNet的運行時間增加了27 min和15 min,并未明顯提高網(wǎng)絡(luò)計算成本,表明了本文設(shè)計注意力機(jī)制Mc的輕量級特點。下文中的實驗如無特殊說明,均用注意力機(jī)制Mc。
本實驗旨在研究所設(shè)計的注意力機(jī)制Mc在MLP網(wǎng)絡(luò)中的使用位置方案,實驗結(jié)果如表2所示,I、Ⅱ、Ⅲ、Ⅳ、V、Ⅵ分別表示在網(wǎng)絡(luò)特征維度為3、64、64、64、128、1 024時,在之后嵌入使用注意力機(jī)制,—表示不使用注意力機(jī)制的原始網(wǎng)絡(luò)框架。
表2 注意力機(jī)制使用方案Table 2 Usage of attention mechanism
本文設(shè)計了兩種注意力機(jī)制使用方案:僅使用單個注意力機(jī)制和使用多個注意力機(jī)制。當(dāng)在原始點云后I直接使用注意力機(jī)制時,OA為87.12%,相比于原始網(wǎng)絡(luò)有一定提升;當(dāng)在第一層Ⅱ和第二層Ⅲ的MLP后使用注意力機(jī)制時,OA分別為87.80%和87.72%,相比于原始網(wǎng)絡(luò)有了較大提升;當(dāng)繼續(xù)在更深層網(wǎng)絡(luò)Ⅳ、V、Ⅵ后使用注意力機(jī)制時,OA均提升較少甚至有所下降。當(dāng)在兩層Ⅱ、V的MLP網(wǎng)絡(luò)后使用注意力機(jī)制時,OA為87.24%,結(jié)果并未優(yōu)于僅使用單個注意力機(jī)制的情況;更進(jìn)一步,當(dāng)在三層I、Ⅱ、V或者四層Ⅱ、Ⅲ、Ⅳ、V的MLP網(wǎng)絡(luò)后使用注意力機(jī)制,OA甚至相較于不適用注意力機(jī)制的原始網(wǎng)絡(luò)有所下降。
實驗結(jié)果表明,和PointNet網(wǎng)絡(luò)只使用了少量TNet網(wǎng)絡(luò)且只在淺層使用T-Net網(wǎng)絡(luò)的情況類似,本文設(shè)計的適用于點云的注意力機(jī)制更適合嵌入在網(wǎng)絡(luò)的淺層而非深層,且使用單次注意力機(jī)制的效果優(yōu)于使用多次注意力機(jī)制,具有輕量級的優(yōu)點。
本文中的實驗如無特殊說明,均僅使用單次注意力機(jī)制,并將注意力機(jī)制嵌入到第一層網(wǎng)絡(luò)提取的特征之后。
為驗證本文設(shè)計注意力機(jī)制的普適性,本節(jié)進(jìn)行了對嵌入有點云注意力機(jī)制的PointNet零件分割網(wǎng)絡(luò)在ShapeNet[25]零件分割數(shù)據(jù)集上的效果研究。ShapeNet零件分割數(shù)據(jù)集共有16種物體類別,每個類別有2至5個零件,總計50種零件類別、2 874個物體、16 881個零件。
在圖4中給出了零件分割的可視化結(jié)果,左、中、右三列分別表示算法預(yù)測結(jié)果、真實標(biāo)準(zhǔn)、區(qū)別點。零件分割實驗結(jié)果如表3所示,—表示不使用注意力機(jī)制的原始網(wǎng)絡(luò)框架,網(wǎng)絡(luò)的Batch Size設(shè)置為16,其余設(shè)置遵循原網(wǎng)絡(luò)設(shè)置??梢钥吹剑ㄟ^對PointNet零件分割網(wǎng)絡(luò)嵌入本文設(shè)計的注意力機(jī)制Mc,網(wǎng)絡(luò)的平均交并比(mean intersection over union,mIoU)由81.76%提升至83.14%,提升了1.38個百分點。此外,注意力機(jī)制Mc幫助16種物體類別中大多數(shù)類別交并比(intersection over union,IoU)的得分超過原始網(wǎng)絡(luò)。對于car、ear phone、rocket類別的IoU提升超過5個百分點,對于cap、motor、skate board類別的IoU提升超過10個百分點??梢钥闯?,本文設(shè)計的注意力機(jī)制在零件分割領(lǐng)域有優(yōu)秀的實驗結(jié)果,驗證了設(shè)計注意力機(jī)制的普適性。
圖4 零件分割可視化結(jié)果Fig.4 Visualization results for part segmentation
表3 基于注意力機(jī)制的零件分割結(jié)果Table 3 Results of part segmentation based on attention mechanism 單位:%
本文同樣對PointNet延伸網(wǎng)絡(luò)進(jìn)行了注意力機(jī)制嵌入實驗,以進(jìn)一步驗證設(shè)計注意力機(jī)制的普適性。Frustum-Pointnet[26]是PointNet網(wǎng)絡(luò)在點云三維檢測任務(wù)的延伸,是一種融合了圖片與點云數(shù)據(jù)的多源融合目標(biāo)檢測網(wǎng)絡(luò),其網(wǎng)絡(luò)可分為三個部分:使用圖片檢測結(jié)果生成視椎體點云候選區(qū)域,在候選區(qū)域使用PointNet分割網(wǎng)絡(luò)濾除非目標(biāo)噪點,對去噪后的點云使用PointNet預(yù)測網(wǎng)絡(luò)生成三維目標(biāo)邊框。
數(shù)據(jù)使用KITTI[27]數(shù)據(jù)集,分別將點云注意機(jī)制Mc應(yīng)用于Seg分割網(wǎng)絡(luò)、Est預(yù)測網(wǎng)絡(luò)、Seg&Est分割和預(yù)測網(wǎng)絡(luò)。KITTI目標(biāo)檢測結(jié)果如圖5所示,其中圖5(a)為2D目標(biāo)檢測結(jié)果,圖5(b)為與其對應(yīng)的3D目標(biāo)檢測結(jié)果,該圖僅包含預(yù)測邊框與方向,不包含類別與真值。平均精度(average precision,AP)結(jié)果如表4所示,—表示不使用注意力機(jī)制的原始網(wǎng)絡(luò)框架,Easy為目標(biāo)全部可見,Mod.為目標(biāo)被部分遮擋,Hard為目標(biāo)被嚴(yán)重遮擋,網(wǎng)絡(luò)的Batch Size設(shè)置為32,其余設(shè)置遵循原網(wǎng)絡(luò)設(shè)置。
表4 基于注意力機(jī)制的多源融合檢測結(jié)果Table 4 Results of multisource fusion detection based on attention mechanism
圖5 KITTI目標(biāo)檢測結(jié)果Fig.5 Results for kitti target detection
可以看到,無論是將注意力機(jī)制單獨使用在分割網(wǎng)絡(luò)還是預(yù)測網(wǎng)絡(luò),AP值在大多情況下相比于原始網(wǎng)絡(luò)有一定提升;在預(yù)測網(wǎng)絡(luò)使用注意力機(jī)制時,汽車這一類別的AP值取得了最優(yōu)的結(jié)果;在分割和預(yù)測網(wǎng)絡(luò)均使用注意力機(jī)制時,汽車這一類大物體的AP值無明顯改變,但是對于行人和騎行者這種小物體,AP值有了明顯提升。實驗結(jié)果進(jìn)一步證明了設(shè)計注意力機(jī)制的普適性,同時網(wǎng)絡(luò)運行時間僅增加了51 min,增加幅度不足5%,說明了所設(shè)計注意力機(jī)制的輕量級特性。
針對現(xiàn)有的點云特征提取網(wǎng)絡(luò)性能有待提高,傳統(tǒng)的注意力機(jī)制無法直接應(yīng)用于點云數(shù)據(jù)的現(xiàn)狀,本文提出了適用于點云的注意力機(jī)制,通過注意力機(jī)制對網(wǎng)絡(luò)訓(xùn)練特征生成自適應(yīng)權(quán)重。以PointNet類網(wǎng)絡(luò)作為基礎(chǔ)網(wǎng)絡(luò),對所設(shè)計的注意力機(jī)制學(xué)習(xí)過程進(jìn)行了詳盡說明,并進(jìn)行了廣泛的測試與實驗。實驗結(jié)果表明,所設(shè)計的注意力機(jī)制具有普適性和輕量級的特點,能夠提升多種三維點云處理任務(wù)的性能。但是,本文對于如何在網(wǎng)絡(luò)的多個層次中發(fā)揮注意力機(jī)制的優(yōu)勢以及如何根據(jù)傳統(tǒng)注意力機(jī)制進(jìn)一步優(yōu)化點云注意力機(jī)制仍有不足,這是進(jìn)一步研究的方向。