劉玉珍,李 楠,陶志勇
基于環(huán)查詢和通道注意力的點(diǎn)云分類與分割
劉玉珍,李 楠,陶志勇
(遼寧工程技術(shù)大學(xué)電子與信息工程學(xué)院,遼寧 葫蘆島 125105)
點(diǎn)云數(shù)據(jù)的特征處理是機(jī)器人、自動(dòng)駕駛等領(lǐng)域中三維物體識(shí)別技術(shù)的關(guān)鍵組成部分,針對(duì)點(diǎn)云局部特征信息重復(fù)提取、點(diǎn)云物體整體幾何結(jié)構(gòu)缺乏識(shí)別等問(wèn)題,提出一種基于環(huán)查詢和通道注意力的點(diǎn)云分類與分割網(wǎng)絡(luò)。首先將單層環(huán)查詢和特征通道注意力機(jī)制進(jìn)行結(jié)合,減少局部信息冗余并加強(qiáng)局部特征;然后計(jì)算法線變化識(shí)別出物體邊緣、拐角區(qū)域的高響應(yīng)點(diǎn),并將其法線特征加入全局特征表示中,加強(qiáng)物體整體幾何結(jié)構(gòu)的識(shí)別。在ModelNet40和ShapeNet Part數(shù)據(jù)集上與多種點(diǎn)云網(wǎng)絡(luò)進(jìn)行比較,實(shí)驗(yàn)結(jié)果表明,該網(wǎng)絡(luò)不僅有較高的點(diǎn)云分類與分割精度,同時(shí)在訓(xùn)練時(shí)間和內(nèi)存占用等方面也優(yōu)于其他方法,此外對(duì)于不同輸入點(diǎn)云數(shù)量具有較強(qiáng)魯棒性。因此該網(wǎng)絡(luò)是一種有效、可行的點(diǎn)云分類與分割網(wǎng)絡(luò)。
點(diǎn)云數(shù)據(jù);分類與分割;環(huán)查詢;通道注意力;高響應(yīng)點(diǎn)識(shí)別
3D傳感器技術(shù)的快速發(fā)展,使得傳感器采集的點(diǎn)云數(shù)據(jù)信息越來(lái)越豐富,并廣泛應(yīng)用于機(jī)器人[1]、自動(dòng)駕駛[2]等領(lǐng)域。而點(diǎn)云分類與分割處理又是機(jī)器人、自動(dòng)駕駛等領(lǐng)域中三維場(chǎng)景理解的關(guān)鍵步驟,因此對(duì)點(diǎn)云分類與分割進(jìn)行研究具有非常重要的意義。
由于點(diǎn)云數(shù)據(jù)的無(wú)序性和不規(guī)則性,早期對(duì)于點(diǎn)云數(shù)據(jù)的處理是將其體素化到3D網(wǎng)格中,然后使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)提取特征。體素化方法會(huì)耗費(fèi)大量計(jì)算,占用大量?jī)?nèi)存,為了減少代價(jià),體積網(wǎng)格會(huì)采用較低分辨率,但低分辨率往往會(huì)丟失一些幾何信息。為了解決這一問(wèn)題,WANG等[3]提出了基于Octree的方法,動(dòng)態(tài)調(diào)整分辨率的大小,從而減少內(nèi)存占用。PointGrid[4]則是在每個(gè)網(wǎng)格單元采樣恒定數(shù)量的點(diǎn)來(lái)提高低分辨率的識(shí)別效果。為了提高效率,PointNet[5]將深度學(xué)習(xí)直接應(yīng)用于點(diǎn)云原始數(shù)據(jù),但其只考慮單點(diǎn)特征,忽略了局部特征。PointNet++[6]對(duì)PointNet進(jìn)行優(yōu)化,通過(guò)多尺度特征提取來(lái)處理局部區(qū)域信息,但使用球查詢鄰近點(diǎn)時(shí)會(huì)造成信息冗余,浪費(fèi)不必要資源,且無(wú)法獲取點(diǎn)與點(diǎn)之間信息。為了提高精度,KLOKOV和LEMPITSKY[7]提出了一種新的深度學(xué)習(xí)網(wǎng)絡(luò)kd-networks,該網(wǎng)絡(luò)使用kd-tree結(jié)構(gòu)在點(diǎn)云上構(gòu)建計(jì)算圖,但輸入點(diǎn)云數(shù)量過(guò)于龐大,浪費(fèi)大量資源。SO-Net[8]是一個(gè)置換不變網(wǎng)絡(luò),通過(guò)構(gòu)建自組織映射來(lái)利用點(diǎn)云的空間分布,但其輸入點(diǎn)數(shù)仍達(dá)5 000之多。SK-Net[9]將空間關(guān)鍵點(diǎn)推理和點(diǎn)云特征表示結(jié)合以提升精度,但網(wǎng)絡(luò)模型對(duì)于不同點(diǎn)云數(shù)量的魯棒性較差。增加點(diǎn)云數(shù)量可提升一定精度,但會(huì)多次重復(fù)提取相同信息,且對(duì)于網(wǎng)絡(luò)的魯棒性有較高要求。A-CNN[10]和GGM-Net[11]則通過(guò)定義新的卷積算子來(lái)提升精度,但A-CNN采用多層環(huán)結(jié)構(gòu)也會(huì)造成特征信息重復(fù)提取,GGM-Net則對(duì)于部分分割的應(yīng)用稍差。MHSANet[12]通過(guò)對(duì)點(diǎn)云數(shù)據(jù)進(jìn)行預(yù)處理并結(jié)合多頭自注意機(jī)制提取點(diǎn)云特征,雖然提升了一定的分類精度,但多頭特征提取模塊只針對(duì)分類任務(wù),應(yīng)用范圍稍差。
為了減少資源的不必要浪費(fèi)及局部相同特征信息的重復(fù)提取,加強(qiáng)對(duì)物體整體幾何結(jié)構(gòu)的識(shí)別,提高點(diǎn)云分類與分割精度,提出了基于環(huán)查詢和通道注意力的點(diǎn)云分類與分割網(wǎng)絡(luò)。
基于環(huán)查詢和通道注意力的點(diǎn)云網(wǎng)絡(luò)對(duì)點(diǎn)云數(shù)據(jù)的處理過(guò)程如圖1所示,左側(cè)為提取局部特征并進(jìn)一步加強(qiáng)局部特征,右側(cè)為加強(qiáng)物體整體幾何結(jié)構(gòu)的識(shí)別,然后將加強(qiáng)后的局部特征和整體幾何結(jié)構(gòu)特征聯(lián)合,通過(guò)最大池化、共享的全連接層后實(shí)現(xiàn)輸出。其中最遠(yuǎn)點(diǎn)采樣目的:一是減少點(diǎn)云數(shù)量;二是作為單層環(huán)查詢(single-layer ring query,SRQ)的查詢點(diǎn)。最遠(yuǎn)點(diǎn)采樣和環(huán)查詢用于減少信息冗余,減少內(nèi)存等資源的耗費(fèi),注意力機(jī)制和高響應(yīng)點(diǎn)識(shí)別(high response point recognition,HRPR)用于加強(qiáng)特征識(shí)別,提高輸出精度。左側(cè)局部特征提取并加強(qiáng)中圈處的位置是飛機(jī)發(fā)動(dòng)機(jī)。
圖1 點(diǎn)云數(shù)據(jù)處理
圖2為基于環(huán)查詢和通道注意力的點(diǎn)云分類與分割網(wǎng)絡(luò),主要包括3個(gè)核心模塊:SRQ,通道注意力機(jī)制(channel attention mechanism,CAM)和HRPR。模型上半部分為分類網(wǎng)絡(luò),下半部分為分割網(wǎng)絡(luò),分類和分割網(wǎng)絡(luò)共享相同的特征提取模塊。為輸入點(diǎn)云數(shù)量,1為經(jīng)過(guò)最遠(yuǎn)點(diǎn)采樣(farthest point sampling,F(xiàn)PS)后的點(diǎn)云數(shù)量。多層感知器(multilayer perceptron,MLP)中{ }內(nèi)的數(shù)字代表神經(jīng)元的數(shù)量,Max pooling為最大池化操作,Conv為卷積操作,F(xiàn)C表示共享的全連接層(fully connected layers),為分類類別數(shù)量,為分割類別數(shù)量。在分割網(wǎng)絡(luò)中,每個(gè)模塊除了獲取局部特征外,還生成相應(yīng)的語(yǔ)義標(biāo)簽,用于相應(yīng)地分割任務(wù)。
圖2 網(wǎng)絡(luò)模型
為了提取3D形狀的局部空間上下文特征信息,PointNet++[6]提出了多尺度體系結(jié)構(gòu),但使用球查詢鄰近點(diǎn)時(shí)會(huì)有重疊,如圖3左側(cè)所示,即所查找的鄰近點(diǎn)可能包含在不同大小的局部區(qū)域內(nèi),導(dǎo)致信息冗余,降低體系結(jié)構(gòu)性能。為此A-CNN[10]提出了多層環(huán)形卷積減少信息冗余,然而多層環(huán)結(jié)構(gòu)卻增加了訓(xùn)練時(shí)間、內(nèi)存占用等資源的耗費(fèi),為了進(jìn)一步減少資源耗費(fèi),本文使用K鄰近算法(K-nearest neighbor,KNN)的SRQ查找鄰近點(diǎn),如圖3右側(cè)所示。圖中q為FPS采樣的查詢點(diǎn),1和2表示局部區(qū)域的不同感受視野,1和2表示不同感受野的半徑大小,通過(guò)擴(kuò)大半徑增加感受視野的范圍。
圖3 局部鄰近點(diǎn)查詢比較
圖4為具體的SRQ示意圖,主要步驟包括投影和排序。首先,將KNN查詢到的鄰近點(diǎn)投影到查詢點(diǎn)q所在的切平面上,投影的目的是為了更方便、有效地對(duì)鄰近點(diǎn)進(jìn)行排序。投影和排序操作需借助法線完成,通過(guò)計(jì)算q點(diǎn)處局部切平面的法線來(lái)逼近q點(diǎn)處的法線。然后計(jì)算這些鄰近點(diǎn)在q點(diǎn)處切平面上的投影(以內(nèi)環(huán)為例,外環(huán)中的點(diǎn)x的投影是對(duì)內(nèi)環(huán)局部區(qū)域的擴(kuò)大搜索)
其中,為q的鄰近點(diǎn)個(gè)數(shù);為q點(diǎn)的法向量。
圖4 單層環(huán)查詢
其次,對(duì)同一切平面上的鄰近點(diǎn)按順時(shí)針排序。因?yàn)槭黔h(huán)形結(jié)構(gòu),所以排序方向?qū)τ诰矸e結(jié)果無(wú)影響。向量與向量-之間的夾角為
其中,向量為從點(diǎn)q開始,連接一個(gè)隨機(jī)的起點(diǎn)1;|| ||為2范數(shù),即求向量模的大小。未排序前,向量之間的夾角默認(rèn)?[0,p]。
由于排序后夾角的范圍變成了[0,2p],為了區(qū)分[0,p]和(p,2p)范圍內(nèi)的點(diǎn),即
其中,為q點(diǎn)的法向量。若sign≤0,則?[0,p],若sign>0,則?(p,2p)。
然后利用式(4)將的余弦值擴(kuò)大到[-3,1],形成?(0,2p)上余弦值的單調(diào)遞減,即
最后,通過(guò)對(duì)的值降序排序從而對(duì)鄰近點(diǎn)y順時(shí)針排序。
通過(guò)以上計(jì)算,內(nèi)環(huán)鄰近點(diǎn)已經(jīng)被表示為有序數(shù)組[1,2,3,···,y],為了提取更深層特征,將起始點(diǎn)1和2連接到有序數(shù)組末尾形成循環(huán)數(shù)組[1,2,3,···,y,1,2],連接的起始點(diǎn)個(gè)數(shù)由內(nèi)核大小和鄰近點(diǎn)個(gè)數(shù)值共同決定。
SRQ減少了資源的耗費(fèi),但卻在一定程度上降低了輸出精度,為了進(jìn)一步加強(qiáng)局部特征的識(shí)別力,提高分類與分割精度,將SRQ與CAM結(jié)合,將查詢到的局部信息構(gòu)造成鄰近點(diǎn)局部結(jié)構(gòu)圖,如圖5所示,通過(guò)自注意機(jī)制和鄰域注意機(jī)制分別生成不同注意系數(shù)。相比通道注意力的多頭機(jī)制[13],改進(jìn)的單頭通道注意力機(jī)制不僅提高了輸出精度,同時(shí)還減少了資源的耗費(fèi)。圖中,q為FPS查詢點(diǎn),y為SRQ查找的鄰近點(diǎn),=q-y表示邊特征。自注意機(jī)制通過(guò)考慮每個(gè)點(diǎn)的自身特征來(lái)學(xué)習(xí)自系數(shù),而鄰域注意機(jī)制則通過(guò)考慮鄰域關(guān)系來(lái)關(guān)注局部系數(shù)。自系數(shù)和局部系數(shù)通過(guò)LeakyReLU激活函數(shù)進(jìn)行聯(lián)合,并通過(guò)指數(shù)函數(shù)Sotfmax歸一化。
首先,對(duì)查詢點(diǎn)q和邊特征進(jìn)行處理,即
其中,(·)為參數(shù)非線性函數(shù);為參數(shù),實(shí)驗(yàn)中選用神經(jīng)網(wǎng)絡(luò)。
圖5 注意力系數(shù)生成
注意力系數(shù)為
然后,使用歸一化指數(shù)函數(shù)對(duì)其進(jìn)行歸一化
其中,為最遠(yuǎn)點(diǎn)采樣個(gè)數(shù);為鄰近點(diǎn)個(gè)數(shù)。
最后,將歸一化后的注意力系數(shù)分配給不同的特征通道用于對(duì)局部特征的加強(qiáng)。
為了解決網(wǎng)絡(luò)缺乏對(duì)點(diǎn)云物體整體幾何結(jié)構(gòu)識(shí)別的問(wèn)題,本文加入了HRPR,將識(shí)別出的高響應(yīng)點(diǎn)的法線特征與CAM加強(qiáng)后的局部特征相結(jié)合,加入全局特征表示中,進(jìn)一步提高分類與分割精度。通過(guò)計(jì)算法線變化識(shí)別出物體邊緣和拐角處的點(diǎn),邊緣和拐角處的點(diǎn)包含更豐富的幾何信息,更能反映物體的整體幾何形狀。法線變化為每個(gè)點(diǎn)指定響應(yīng),即
其中,為q處的法線;為鄰近點(diǎn)的法線;為響應(yīng)點(diǎn);()為鄰近點(diǎn)。
因?yàn)楦唔憫?yīng)點(diǎn)位于物體邊緣或拐角區(qū)域,其法向量變化比一般點(diǎn)變化要明顯,因此可以通過(guò)HRPR來(lái)進(jìn)一步加強(qiáng)對(duì)物體整體幾何結(jié)構(gòu)信息的處理。圖6為不同物體的HRPR。
點(diǎn)云分類實(shí)驗(yàn)采用的是普林斯頓大學(xué)提供的ModelNet40數(shù)據(jù)集,是一個(gè)大規(guī)模的三維CAD模型數(shù)據(jù)集,共40個(gè)類別,12 311個(gè)模型。其中將9 843個(gè)模型用于訓(xùn)練,2 468個(gè)用于測(cè)試。每個(gè)模型采樣1 024個(gè)點(diǎn)作為實(shí)驗(yàn)初始數(shù)據(jù)點(diǎn)。
點(diǎn)云部分分割實(shí)驗(yàn)采用由16類16 881個(gè)點(diǎn)云模型組成的ShapeNet Part數(shù)據(jù)集,其對(duì)象被分割成未重疊的50個(gè)部分,且模型中的每個(gè)點(diǎn)均有一個(gè)特定的語(yǔ)義標(biāo)簽。將14 007個(gè)模型用于訓(xùn)練,2 874個(gè)用于測(cè)試。每個(gè)模型采樣2 048個(gè)點(diǎn)作為實(shí)驗(yàn)初始數(shù)據(jù)點(diǎn)。
所有的實(shí)驗(yàn)均在基于Ubuntu操作系統(tǒng)和CUDA10.2的Tensorflow(TF)深度學(xué)習(xí)環(huán)境中進(jìn)行,表1為訓(xùn)練期間的環(huán)境配置和模型參數(shù)。
表1 實(shí)驗(yàn)配置
注:“值”分別為分類和分割參數(shù)值
為了驗(yàn)證網(wǎng)絡(luò)模型的分類性能,與其他先進(jìn)的網(wǎng)絡(luò)進(jìn)行了對(duì)比實(shí)驗(yàn)(表2),其中平均分類準(zhǔn)確率(mean class accuracy,mAcc)和總體準(zhǔn)確率(overall accuracy,OA)為主要評(píng)估指標(biāo)。選擇輸入同樣為坐標(biāo)和法線的幾種網(wǎng)絡(luò)PointNet++[6],A-CNN[10],PointConv[14],SpiderCNN[15],RGCNN[16],DeepRBFNet[17],同時(shí)還選擇輸入點(diǎn)云數(shù)量更多的KD-Net[7]和SO-Net[8],最后又對(duì)比了使用多頭注意力機(jī)制的MHSANet[12],GAPNet[13]和使用關(guān)鍵點(diǎn)檢測(cè)的SRINet[18]。由表2可以看出,本文網(wǎng)絡(luò)比輸入點(diǎn)數(shù)最多的KD-Net總體準(zhǔn)確率高了1.1%,比效果較好的PointConv總體準(zhǔn)確率高了0.4%,比效果較差的SRINet總體準(zhǔn)確率高了5.9%,這得益于CAM對(duì)提取的局部特征進(jìn)行了加強(qiáng),同時(shí)高響應(yīng)點(diǎn)的法線特征又加強(qiáng)了物體整體幾何結(jié)構(gòu)的識(shí)別。
表2 分類測(cè)試結(jié)果
注:加粗?jǐn)?shù)據(jù)為評(píng)估指標(biāo)最優(yōu)值
為了進(jìn)一步直觀顯示網(wǎng)絡(luò)的分類性能,從表2中選出代表性的幾種網(wǎng)絡(luò):采用球查詢和多尺度體系結(jié)構(gòu)的PointNet++[6]、多層環(huán)形結(jié)構(gòu)的A-CNN[10]、多頭注意力機(jī)制的GAPNet[13]以及采用關(guān)鍵點(diǎn)響應(yīng)的SRINet[18]與本文網(wǎng)絡(luò)在ModelNet40數(shù)據(jù)集進(jìn)行每個(gè)類別上的準(zhǔn)確率比較,如圖7所示,其中水平軸為40個(gè)不同類別,垂直軸為分類準(zhǔn)確率。除了bench,bowl,flower_pot,plant和lamp等類別稍遜于其他網(wǎng)絡(luò),其他類別均有較好的分類準(zhǔn)確率,并且模型有9類的識(shí)別率達(dá)到0.99 (99%)以上,領(lǐng)先于其他網(wǎng)絡(luò)。
此外,在訓(xùn)練時(shí)間、內(nèi)存占用和模型大小等方面也進(jìn)行了對(duì)比實(shí)驗(yàn),為了使實(shí)驗(yàn)更具說(shuō)服力,統(tǒng)一設(shè)置batch_size大小為16,訓(xùn)練周期為251 epoch,學(xué)習(xí)率為0.001,momentum初始值為0.9,優(yōu)化器為adam,衰減率為0.7,每組實(shí)驗(yàn)測(cè)試3次,取平均值,實(shí)驗(yàn)結(jié)果見表3。雖然SRINet模型只有10.2 MB是最小的,但準(zhǔn)確率也是最低的,而本文網(wǎng)絡(luò)在訓(xùn)練時(shí)間和內(nèi)存占用均達(dá)到了最優(yōu),尤其是內(nèi)存占用比PointNet++減少了78%左右,同時(shí)又保持了較高的準(zhǔn)確率。這是因?yàn)樽钸h(yuǎn)點(diǎn)采樣結(jié)合單層環(huán)查詢減少了信息冗余,進(jìn)而減少了內(nèi)存占用,而CAM和高響應(yīng)點(diǎn)識(shí)別又加強(qiáng)了特征識(shí)別,提高了準(zhǔn)確率。
圖7 ModelNet40各類別的準(zhǔn)確率
表3 網(wǎng)絡(luò)性能對(duì)比
注:加粗?jǐn)?shù)據(jù)為最優(yōu)值
為了驗(yàn)證網(wǎng)絡(luò)性能,在ShapeNet Part數(shù)據(jù)集上對(duì)網(wǎng)絡(luò)進(jìn)行分割測(cè)試,并與PointNet[5],PointNet++[6],KD-Net[7],SK-Net[9],SpiderCNN[15],SRINet[18],DGCNN[19],DCG-Net[20],F(xiàn)DGCNN[21]和LRC-Net[22]先進(jìn)模型進(jìn)行了對(duì)比實(shí)驗(yàn),結(jié)果見表4,其中,聯(lián)合平均交并比(mean intersection over union,mIoU)為主要評(píng)估指標(biāo),其值越大表明分割精度越高。由表4可知,本文分割精度比效果較差的SRINet高了12.5%,比效果較好的FDGCNN高了0.3%,比采用多尺度體系結(jié)構(gòu)的PointNet++高了0.9%,且本文在8種類別的分割精度達(dá)到了最好。像ear phone,motor bike,rocket等分割精度值很低的類別,也達(dá)到了較優(yōu)的分割精度,高于其他網(wǎng)絡(luò)。此外,還對(duì)16個(gè)類別進(jìn)行了可視化,如圖8所示,其中Ground Truth為原始點(diǎn)云數(shù)據(jù),本文進(jìn)行可視化時(shí),每個(gè)類別只采樣2 048個(gè)點(diǎn),遠(yuǎn)小于Ground Truth和PointNet可視化時(shí)采樣全部點(diǎn)數(shù),但依然可以準(zhǔn)確地分割出物體各個(gè)部分的形狀。如飛機(jī)類別,盡管只采樣2 048個(gè)點(diǎn),還是準(zhǔn)確地分割出飛機(jī)的機(jī)身、機(jī)翼、尾翼、發(fā)動(dòng)機(jī)等部位,而PointNet則未準(zhǔn)確分割出發(fā)動(dòng)機(jī),并在尾翼上出現(xiàn)過(guò)度分割現(xiàn)象。再如表4中分割精度值較低的motor bike,rocket等類別,圖8中依然可以準(zhǔn)確地分割出物體的各個(gè)部分。
表4 部分分割測(cè)試結(jié)果(%)
注:加粗?jǐn)?shù)據(jù)為最優(yōu)值
圖8 部分分割可視化
由于實(shí)際場(chǎng)景中不同物體的規(guī)模大小、結(jié)構(gòu)復(fù)雜度均有所不同,準(zhǔn)確表示出物體所需要的點(diǎn)云數(shù)量也不相同,因此對(duì)于同樣物體,要求網(wǎng)絡(luò)模型對(duì)于不同的輸入點(diǎn)數(shù)具有一定魯棒性,防止因點(diǎn)云數(shù)量的變化導(dǎo)致輸出精度大幅下降。為測(cè)試網(wǎng)絡(luò)模型對(duì)于不同點(diǎn)云數(shù)量具有一定魯棒性,改變輸入點(diǎn)云數(shù)量,分類與分割分別選取輸出精度峰值對(duì)應(yīng)的點(diǎn)數(shù)及兩端的點(diǎn)數(shù),實(shí)驗(yàn)結(jié)果見表5,當(dāng)增加或減少輸入點(diǎn)數(shù)時(shí),分類和分割精度均有小幅度下降,這表明網(wǎng)絡(luò)對(duì)于不同輸入點(diǎn)數(shù)具有一定魯棒性。圖9為分類網(wǎng)絡(luò)的平均損失曲線,圖10為相應(yīng)的準(zhǔn)確率曲線。平均損失越小,相應(yīng)的準(zhǔn)確率就越高,大約80個(gè)周期后,不同曲線趨于收斂,且與峰值點(diǎn)數(shù)對(duì)應(yīng)的曲線擬合度較好,這也表明網(wǎng)絡(luò)模型對(duì)于不同輸入點(diǎn)數(shù)具有較好的魯棒性。圖11為不同輸入點(diǎn)數(shù)的椅子分割可視化圖,可以看出即使較少的256點(diǎn)也可以分割出椅背、坐墊、椅腿等部位。以上實(shí)驗(yàn)均表明本文網(wǎng)絡(luò)模型可以有效提取點(diǎn)云特征信息,對(duì)點(diǎn)云數(shù)量具有一定魯棒性。
表5 不同輸入點(diǎn)數(shù)結(jié)果
注:加粗?jǐn)?shù)據(jù)為分類和分割最優(yōu)輸入點(diǎn)數(shù)的測(cè)試結(jié)果
圖9 平均損失曲線
圖10 準(zhǔn)確率曲線
圖11 不同點(diǎn)數(shù)的椅子可視化
為了驗(yàn)證網(wǎng)絡(luò)結(jié)構(gòu)的有效性,將網(wǎng)絡(luò)模型的3個(gè)核心模塊采用不同組合方式進(jìn)行分類與分割的消融實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果見表6,采用CAM和HRPR的組合方式效果最差,因?yàn)閱渭儾捎米⒁饬C(jī)制并不能在大量信息冗余時(shí)很好地提高局部特征識(shí)別力。采用SRQ,CAM和HRPR的組合方式效果最好,分類和分割精度均比其他組合高,主要原因在于FPS和SRQ減少了信息冗余、減少了特征重復(fù)提取,而CAM又在此基礎(chǔ)上對(duì)局部特征進(jìn)一步加強(qiáng),然后又結(jié)合邊緣、拐角區(qū)域高響應(yīng)點(diǎn)的法線特征來(lái)加強(qiáng)物體整體幾何結(jié)構(gòu)的識(shí)別。實(shí)驗(yàn)結(jié)果驗(yàn)證了本文模型的有效性和可行性。
表6 不同模塊組合的測(cè)試精度(%)
注:加粗?jǐn)?shù)據(jù)為本文網(wǎng)絡(luò)模型的實(shí)驗(yàn)結(jié)果精度
本文提出一種基于環(huán)查詢和通道注意力的點(diǎn)云分類與分割網(wǎng)絡(luò),首先將最遠(yuǎn)點(diǎn)采樣和環(huán)查詢結(jié)合,減少特征信息的重復(fù)提取,在此基礎(chǔ)上通過(guò)通道注意力機(jī)制對(duì)提取的局部特征進(jìn)行加強(qiáng),而后又與高響應(yīng)點(diǎn)的法線特征結(jié)合,進(jìn)一步加強(qiáng)對(duì)物體整體幾何結(jié)構(gòu)的描述。在ModelNet40和ShapeNet Part數(shù)據(jù)集上的分類與分割精度實(shí)驗(yàn)、訓(xùn)練時(shí)間和內(nèi)存占用等實(shí)驗(yàn)均要優(yōu)于一些先進(jìn)的網(wǎng)絡(luò),提高精度的同時(shí)又減少了時(shí)間和內(nèi)存等資源的耗費(fèi)。此外,本文網(wǎng)絡(luò)對(duì)不同輸入點(diǎn)云數(shù)量還具有一定魯棒性。
由于實(shí)際應(yīng)用中的環(huán)境復(fù)雜多樣,下一步將繼續(xù)加強(qiáng)對(duì)局部特征和整體幾何結(jié)構(gòu)的描述,并對(duì)數(shù)據(jù)進(jìn)行增強(qiáng)以滿足網(wǎng)絡(luò)對(duì)于更加復(fù)雜環(huán)境的挑戰(zhàn)。同時(shí)進(jìn)一步提高網(wǎng)絡(luò)對(duì)于更少或更多點(diǎn)云數(shù)量的魯棒性,讓網(wǎng)絡(luò)適應(yīng)不同規(guī)模的場(chǎng)景。
[1] WANG Z T, XU Y T, HE Q, et al. Grasping pose estimation for SCARA robot based on deep learning of point cloud[J]. The International Journal of Advanced Manufacturing Technology, 2020, 108(4): 1217-1231.
[2] CHEN S H, LIU B A, FENG C, et al. 3D point cloud processing and learning for autonomous driving: impacting map creation, localization, and perception[J]. IEEE Signal Processing Magazine, 2021, 38(1): 68-86.
[3] WANG P S, LIU Y, GUO Y X, et al. O-CNN: octree-based convolutional neural networks for 3D shape analysis[J]. ACM Transactions on Graphics, 2017, 36(4): 72:1-72:11.
[4] LE T, DUAN Y. PointGrid: a deep network for 3D shape understanding[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 9204-9214.
[5] CHARLES R Q, HAO S, MO K C, et al. PointNet: deep learning on point sets for 3D classification and segmentation[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 77-85.
[6] QI C R, YI L, SU H, et al. PointNet++: deep hierarchical feature learning on point sets in a metric space[EB/OL]. [2021-08-20]. https://arxiv.org/abs/1706.02413.
[7] KLOKOV R, LEMPITSKY V. Escape from cells: deep kd-networks for the recognition of 3D point cloud models[C]// 2017 IEEE International Conference on Computer Vision. New York: IEEE Press, 2017: 863-872.
[8] LI J X, CHEN B M, LEE G H. SO-net: self-organizing network for point cloud analysis[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 9397-9406.
[9] WU W K, ZHANG Y, WANG D, et al. SK-net: deep learning on point cloud via end-to-end discovery of spatial keypoints[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(4): 6422-6429.
[10] KOMARICHEV A, ZHONG Z C, HUA J. A-CNN: annularly convolutional neural networks on point clouds[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 7413-7422.
[11] LI D L, SHEN X, YU Y T, et al. GGM-net: graph geometric moments convolution neural network for point cloud shape classification[J]. IEEE Access, 2020, 8: 124989-124998.
[12] GAO X Y, WANG Y Z, ZHANG C X, et al. Multi-head self-attention for 3D point cloud classification[J]. IEEE Access, 2021, 9: 18137-18147.
[13] CHEN C, FRAGONARA L Z, TSOURDOS A. GAPNet: graph attention based point neural network for exploiting local feature of point cloud[EB/OL]. [2021-09-10]. https://arxiv.org/ abs/1905.08705.
[14] WU W X, QI Z A, LI F X. PointConv: deep convolutional networks on 3D point clouds[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 9613-9622.
[15] XU Y F, FAN T Q, XU M Y, et al. SpiderCNN: deep learning on point sets with parameterized convolutional filters[EB/OL]. [2021-12-03]. https://arxiv.org/abs/1803.11527.
[16] TE G S, HU W, ZHENG A M, et al. RGCNN: regularized graph CNN for point cloud segmentation[C]//MM’18: The 26th ACM International Conference on Multimedia. New York: ACM Press, 2018: 746-754.
[17] CHEN W K, HAN X G, LI G B, et al. Deep RBFNet: point cloud feature learning using radial basis functions[EB/OL]. [2021-09-17]. https://arxiv.org/abs/1812.04302.
[18] SUN X, LIAN Z H, XIAO J G. SRINet: learning strictly rotation-invariant representations for point cloud classification and segmentation[C]//The 27th ACM International Conference on Multimedia. New York: ACM Press,2019: 980-988.
[19] WANG Y, SUN Y B, LIU Z W, et al. Dynamic graph CNN for learning on point clouds[J]. ACM Transactions on Graphics, 2019, 38(5): 146:1-146:12.
[20] BAZAZIAN D, NAHATA D. DCG-net: dynamic capsule graph convolutional network for point clouds[J]. IEEE Access, 2020, 8: 188056-188067.
[21] HONG J, KIM K, LEE H. Faster dynamic graph CNN: faster deep learning on 3D point cloud data[J]. IEEE Access, 2020, 8: 190529-190538.
[22] LIU X H, HAN Z Z, HONG F Z, et al. LRC-Net: learning discriminative features on point clouds by encoding local region contexts[J]. Computer Aided Geometric Design, 2020, 79: 101859.
Point cloud classification and segmentation based on ring query and channel attention
LIU Yu-zhen, LI Nan, TAO Zhi-yong
(School of Electronic and Information Engineering, Liaoning Technical University, Huludao Liaoning 125105, China)
Feature processing of point cloud data is a key component of 3D object recognition technology in robotics, autopilot, and other fields. In order to address the problems of repeated extractions of local feature information of point cloud and lack of recognition of the whole geometric structure of point cloud object, a point cloud classification and segmentation network based on ring query and channel attention was proposed. First the single-layer ring query was combined with the feature channel attention mechanism to reduce local information redundancy and strengthen local features. Then the high response points of the edges and corners of the object were identified by calculating the normal changes, and the normal features were added to the global feature representation, thereby strengthening the recognition of the whole geometric structure of the object. Compared with many point-cloud networks on ModelNet40 and ShapeNet Part datasets, the experimental results show that the network not only has higher accuracy for point cloud classification and segmentation, but also outperforms other methods in training time and memory consumption. In addition, the network is strongly robust for the number of different input point clouds. Therefore, the proposed network is an effective and feasible network for point cloud classification and segmentation.
point cloud data; classification and segmentation; ring query; channel attention; high response point recognition
6 December,2021;
National Key R&D Program of China (2018YFB1403303)
TP 391
10.11996/JG.j.2095-302X.2022040616
A
2095-302X(2022)04-0616-08
2021-12-06;
2022-03-06
6 March,2022
國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2018YFB1403303)
劉玉珍(1964-),女,教授,碩士。主要研究方向?yàn)閳D像處理、現(xiàn)代通信理論與仿真、信號(hào)與信息處理等。E-mail:825807294@qq.com
LIU Yu-zhen (1964-), professor, master. Her main research interests cover image processing, modern communication theory and simulation, signal and information processing, etc. E-mail:825807294@qq.com