摘要:為解決PointNet最大池化損失次要特征導(dǎo)致部件分割精度降低的問題,提出一種面向部件分割的PointNet注意力加權(quán)特征聚合網(wǎng)絡(luò),能夠充分利用點云的不同特征進(jìn)行部件分割。首先利用多層感知機(jī)提取點云的空間幾何特征,將特征乘以共享權(quán)重矩陣,以獲取每個點的每一個特征的注意力分?jǐn)?shù);接著把歸一化的分?jǐn)?shù)作為權(quán)重乘以對應(yīng)的全局特征并求和,得到聚合的全局特征;最后使用多層感知機(jī)將聚合的特征映射到部件分割結(jié)果。實驗結(jié)果表明,相比于傳統(tǒng)PointNet方法,該方法提升了部件分割的總平均交并比,同時在網(wǎng)絡(luò)魯棒性和計算復(fù)雜度方面具有顯著優(yōu)勢,有效優(yōu)化了PointNet。
關(guān)鍵詞:機(jī)器視覺;點云;部件分割;注意力機(jī)制;特征聚合;魯棒性
中圖分類號:TP391文獻(xiàn)標(biāo)志碼:A
文章編號:1001-3695(2023)05-045-1571-06
doi:10.19734/j.issn.1001-3695.2022.08.0423
0引言
隨著三維激光掃描儀[1]、三維場景捕捉相機(jī)等三維傳感器的普及與深度學(xué)習(xí)在點云領(lǐng)域[2]的迅速發(fā)展,點云數(shù)據(jù)的應(yīng)用場景越來越廣泛,例如自動駕駛[3]、物體分類[4]、語義分割[5]、部件分割[6]、點云配準(zhǔn)[7]等。點云數(shù)據(jù)主要指使用三維激光掃描儀等設(shè)備獲取的大量點數(shù)據(jù)的集合,通常包括點的三維坐標(biāo)、顏色等。在點云分類與分割領(lǐng)域,深度學(xué)習(xí)提取特征的速度比手工提取特征的速度更快[8]。利用深度學(xué)習(xí)提取點云特征的方法主要分為基于多視圖的方法、基于體素化網(wǎng)格的方法和基于原始點云數(shù)據(jù)的方法。
a)基于多視圖的方法。文獻(xiàn)[9,10]將物體點云從三維空間以多視圖的方式投影至二維空間,再提取其視圖特征。因為是在二維空間中使用這種特征提取方法,所以提取的特征將損失一個維度的信息,導(dǎo)致空間幾何結(jié)構(gòu)信息的破壞。
b)基于體素化網(wǎng)格的方法。物體點云通過體素化網(wǎng)格進(jìn)行表示,再通過三維卷積神經(jīng)網(wǎng)絡(luò)在體素化網(wǎng)格提取空間幾何特征,如文獻(xiàn)[11,12]。該方法提取特征的缺陷在于體素化處理導(dǎo)致數(shù)據(jù)出現(xiàn)稀疏性以及計算量龐大、復(fù)雜度過高。
c)基于原始點云數(shù)據(jù)的方法。Qi等人[13]提出了一個基于原始點云數(shù)據(jù)的開創(chuàng)性方法PointNet,利用多層感知機(jī)(multi-layerperceptron,MLP)直接對點云數(shù)據(jù)進(jìn)行特征提取,避免上述信息破壞、數(shù)據(jù)稀疏、復(fù)雜度高等缺陷。PointNet[13]采用以MLP為核心的網(wǎng)絡(luò)結(jié)構(gòu),直接提取點云的幾何空間特征,然后使用一種對稱聚合函數(shù),即最大池化,以聚合全局特征。在點云分類與分割領(lǐng)域中,PointNet采用全局特征進(jìn)行分類與分割,忽略了局部特征及其關(guān)系。為此,Qi等人[14]提出PointNet改進(jìn)版本,即PointNet++,利用最遠(yuǎn)點采樣和逐層嵌套PointNet模塊捕獲點云的局部特征。文獻(xiàn)[15]采用Spider卷積與殘差網(wǎng)絡(luò)結(jié)構(gòu)獲得更具鑒別性和魯棒性的點云特征,提升了點云分類與分割的精度。DGCNN[16]通過K鄰近點算法為每個點構(gòu)建鄰域圖,恢復(fù)點云的拓?fù)湫畔?,再利用邊緣卷積模塊對鄰域圖提取特征,提升了點云分類和點云部件分割的性能。以上方法在特征提取方面作出了有益探索。
在特征聚合方面,一種主流的特征聚合方法是注意力機(jī)制。LSANet[17]引入注意力機(jī)制并設(shè)計了一個局部空間感知層,它可以學(xué)習(xí)局部區(qū)域中的空間關(guān)系,分層生成空間分布權(quán)重,在更少點訓(xùn)練的情況下提升了點云分類準(zhǔn)確率。文獻(xiàn)[18]提出了一個基于注意力的分?jǐn)?shù)細(xì)化模塊,初始分割結(jié)果通過相鄰點的分?jǐn)?shù)與學(xué)習(xí)的注意力權(quán)重合并,提高了部件分割的總平均交并比。文獻(xiàn)[19]提出一種適用于大規(guī)模點云語義分割的RandLA-Net,該網(wǎng)絡(luò)通過隨機(jī)采樣的方法大幅降低了訓(xùn)練點數(shù)以減少內(nèi)存成本,并設(shè)計了一種局部特征編碼器和注意力池化結(jié)合的特征聚合模塊用于提取點云局部空間特征,在大規(guī)模點云語義分割中取得了杰出的成果。
近年來,優(yōu)化點云特征提取的方法有精細(xì)化、復(fù)雜化的趨勢。文獻(xiàn)[20]指出之前的工作多數(shù)依賴優(yōu)化的卷積、圖或注意力機(jī)制以設(shè)計復(fù)雜的局部幾何特征提取器,點數(shù)據(jù)預(yù)處理步驟多,導(dǎo)致更大的訓(xùn)練時間開銷、空間開銷。文獻(xiàn)[21]將注意力機(jī)制應(yīng)用到點云數(shù)據(jù)的方向上進(jìn)行了探索,利用注意力機(jī)制與平均、最大雙通道池化相結(jié)合進(jìn)行特征聚合,但使用雙通道池化會增加內(nèi)存和計算成本。文獻(xiàn)[22]把注意力機(jī)制嵌入到采樣點中心和采樣點鄰域以提取不同的細(xì)化特征,提升了分割精度的同時也增加了網(wǎng)絡(luò)復(fù)雜度和硬件開銷。這些方法利用注意力機(jī)制優(yōu)化特征提取網(wǎng)絡(luò),雖然提升了性能,但未考慮網(wǎng)絡(luò)復(fù)雜度的增加。文獻(xiàn)[8]分析認(rèn)為網(wǎng)絡(luò)模型輕量化、提高運行速度是點云分割未來的研究方向之一。目前有不少研究著重于注意力機(jī)制和復(fù)雜的編碼器、設(shè)計卷積等結(jié)合的方法,以優(yōu)化特征提取網(wǎng)絡(luò),而忽略了網(wǎng)絡(luò)復(fù)雜度和訓(xùn)練時間成本大幅提高的缺陷。在經(jīng)典的PointNet中,其變換網(wǎng)絡(luò)占用大量的參數(shù),但提升的性能有限?;诖耍疚淖裱p量優(yōu)化的思路,舍棄復(fù)雜精細(xì)的特征提取器,針對最大池化聚合全局特征損失次要特征的缺陷,并且在減少PointNet空間復(fù)雜度的基礎(chǔ)上提出了一種基于PointNet的注意力加權(quán)特征聚合優(yōu)化網(wǎng)絡(luò)。本文提出一種注意力加權(quán)模塊,并結(jié)合去除變換網(wǎng)絡(luò)的PointNet。本文提出的基于注意力加權(quán)方法能夠充分利用不同重要性的全局特征得到更有利于部件分割的結(jié)果,同時在魯棒性和計算復(fù)雜度方面具有顯著優(yōu)勢。
1網(wǎng)絡(luò)設(shè)計
1.1概述
如圖1所示,本文提出的網(wǎng)絡(luò)結(jié)構(gòu)包括點云形狀分類網(wǎng)絡(luò)和點云部件分割網(wǎng)絡(luò)。值得注意的是,本文網(wǎng)絡(luò)結(jié)構(gòu)移除PointNet的變換網(wǎng)絡(luò)(transformernetwork,T-Net),能夠有效減少模型參數(shù)數(shù)量、降低空間復(fù)雜度。實驗結(jié)果表明去除T-Net后,針對點云數(shù)據(jù)分類和分割的性能幾乎不受影響。在點云形狀分類網(wǎng)絡(luò)中,輸入物體的點云數(shù)據(jù)到MLP提取空間幾何特征,再經(jīng)過本文設(shè)計的注意力加權(quán)池化模塊聚合全局特征,最后通過MLP將網(wǎng)絡(luò)學(xué)習(xí)到的全局特征映射到整個形狀的標(biāo)簽;而在點云部件分割網(wǎng)絡(luò)中,除了提取空間幾何特征和使用注意力加權(quán)池化模塊聚合全局特征的步驟外,還需要把聚合的全局特征復(fù)制后再與MLP提取的64維特征進(jìn)行特征連接,得到混合特征,最后通過MLP將網(wǎng)絡(luò)學(xué)習(xí)到的混合特征映射到每個點上,得到分割結(jié)果。
分割是分類的延伸,點云形狀分類把一個物體的所有點映射為一個類別標(biāo)簽,而點云部件分割把一個物體的每個點映射為部件標(biāo)簽,需要更多細(xì)化的信息。因此,為取得更好的分割效果,全局特征需要連接初步提取的64維幾何特征作為補(bǔ)充信息。
1.2多層感知機(jī)
多層感知機(jī)的主要功能是通過卷積提取點云的空間幾何特征,并完成特征維度變換。PointNet的核心思想是通過對集合中的變換元素應(yīng)用對稱函數(shù)來近似定義在點集上的一般函數(shù),其方法是采用MLP網(wǎng)絡(luò)和最大池化函數(shù)來逼近點集的一般函數(shù)。設(shè)一個物體的點云數(shù)據(jù)為集合P={pi∈EuclidMathTwoRAp3,i=1,2,…,N},其中pi=(xi,yi,zi)是點云內(nèi)一個點的三維坐標(biāo),N是一個物體點云的點數(shù)量(在不同的數(shù)據(jù)集中N的值不一定相同,例如2048和4096,后文出現(xiàn)的N都是指一個物體點云的點數(shù)量)。以輸入一個物體的點云數(shù)據(jù)為例,將數(shù)據(jù)尺寸為N×3的點云數(shù)據(jù)輸入到4層深度的MLP中,經(jīng)過多次特征提取,每個點得到1024維全局特征,即其數(shù)據(jù)尺寸變?yōu)镹×1024。在注意力加權(quán)池化后,對于部件分割,MLP具有特征映射的作用,將池化后并連接了初始特征的1088維全局特征通過深度為5層的MLP映射到每個點上,得到部件分割結(jié)果;對于形狀分類,深度為4層的MLP把注意力加權(quán)池化后的1024維全局特征映射為類別概率,從而得到形狀分類結(jié)果。
相比于形狀分類(一個物體的全部點是一類),部件分割需要把聚合的特征映射到每一個點上,即一個小部件的所有點是一類。本文假設(shè)部件分割需要不同重要性的聚合特征。而注意力機(jī)制的優(yōu)勢在于讓網(wǎng)絡(luò)具有關(guān)注更多相關(guān)信息的能力,本質(zhì)是一種高效提取特征信息的機(jī)制。使用注意力機(jī)制學(xué)習(xí)加權(quán)分?jǐn)?shù),不同通道的特征信息重要性得以量化。相比于最大池化,注意力加權(quán)池化在特征聚合中更加靈活。最大池化僅保留MLP學(xué)習(xí)到的值最大的特征,放棄了次要的特征信息。注意力加權(quán)池化模塊能夠?qū)W習(xí)到不同特征的注意力分?jǐn)?shù),之后對每個特征乘以對應(yīng)的注意力分?jǐn)?shù)后求和聚合成全局特征,幫助點云部件分割網(wǎng)絡(luò)獲取更多次要全局特征信息,在實驗中發(fā)現(xiàn)本文提出的注意力加權(quán)池化模塊加快了PointNet的收斂速度,同時提升了網(wǎng)絡(luò)的魯棒性。
1.3.2設(shè)計注意力加權(quán)池化模塊
文獻(xiàn)[19]使用一種注意力池化模塊聚合由局部空間編碼器得到的局部特征。受其啟發(fā),為了得到與全局特征一樣數(shù)據(jù)尺寸的注意力分?jǐn)?shù),本文設(shè)計了一個輕量級的注意力分?jǐn)?shù)產(chǎn)生器,利用共享權(quán)重矩陣W和softmax函數(shù)[23]計算每個特征的注意力分?jǐn)?shù),計算公式如下:
全連接層法設(shè)計注意力加權(quán)池化模塊參數(shù)量巨大,權(quán)重矩陣有N×1048576個參數(shù),而共享權(quán)重法僅有1048576個參數(shù)。N是一個物體點云的點數(shù),通常為2048,因此使用共享權(quán)重相比于全連接層權(quán)重能夠有效減少參數(shù)量。每個物體的全局特征都通過同一個權(quán)重矩陣獲取注意力分?jǐn)?shù),從而實現(xiàn)共享權(quán)重。實驗發(fā)現(xiàn),使用全連接層法設(shè)計的注意力加權(quán)池化模塊訓(xùn)練網(wǎng)絡(luò)所需的內(nèi)存和時間都大幅提升,違背了保持PointNet輕量級再進(jìn)行優(yōu)化的初衷,因此選擇共享權(quán)重設(shè)計注意力加權(quán)池化模塊更好。
2實驗與結(jié)果分析
2.1數(shù)據(jù)集
本文選擇的數(shù)據(jù)集是斯坦福大學(xué)公開的基于CAD模型生成的點云數(shù)據(jù)集ModelNet40[24]、ShapeNet[25]和使用三維掃描相機(jī)得到的大場景室內(nèi)點云標(biāo)注數(shù)據(jù)集S3DIS[26]。其中ModelNet40用于點云分類,ShapeNet用于點云部件分割,S3DIS用于點云場景分割。
ModelNet40原始數(shù)據(jù)集包含12311個物體的CAD模型,本文采用每個物體均勻采樣2048個點的ModelNet40點云數(shù)據(jù)集。其中一共包含40個不同的物品形狀類別,訓(xùn)練集有9843個物體的點云數(shù)據(jù),測試集有1234個物體的點云數(shù)據(jù)。
ShapeNet數(shù)據(jù)集包括16881個物體的點云數(shù)據(jù),其中一共有16類物體,50個部件標(biāo)簽(一類物體被分割為2~6個部件,例如飛機(jī)被分割為機(jī)身、前翼、引擎、尾翼四個部件,每類具體部件分割數(shù)如表1所示),12137個物體的點云數(shù)據(jù)作為訓(xùn)練集,1870個物體的點云數(shù)據(jù)作為驗證集,2874個物體的點云數(shù)據(jù)作為測試集。
S3DIS數(shù)據(jù)集包括6個區(qū)域、13個語義標(biāo)簽(窗、門、桌子、椅子等)、11個場景(辦公室、會議室等),其中所有數(shù)據(jù)已按房間劃分,每個房間的點云被劃分為1m×1m×1m大小的立方塊,并在立方塊均勻取樣4096個點。使用區(qū)域5作為測試集,其他區(qū)域作為訓(xùn)練集。
ModelNet和ShapeNet數(shù)據(jù)集僅包含點的三維坐標(biāo)(x,y,z)信息,而S3DIS數(shù)據(jù)集包括點的三維坐標(biāo)和RGB顏色信息,在本文實驗中統(tǒng)一選用坐標(biāo)信息。在數(shù)據(jù)預(yù)處理方面,使用與PointNet一致的處理方法:物體點云的三維坐標(biāo)加入均值為0、標(biāo)準(zhǔn)差為0.01的高斯噪聲進(jìn)行隨機(jī)平移,并繞y軸隨機(jī)旋轉(zhuǎn)0~2π。
2.2實驗方案
在實施對比實驗方案方面,考慮PointNet1、PointNet2和PointNet++方案。
a)PointNet1[13]方案。采用PointNet完整網(wǎng)絡(luò)結(jié)構(gòu),包含MLP、T-Net的點云形狀分類和部件分割網(wǎng)絡(luò)。
b)PointNet2[13]方案。采用去除T-Net的PointNet,僅保留MLP的點云形狀分類和部件分割網(wǎng)絡(luò)。
c)PointNet++方案。采用多尺度分組(multi-scalegrou-ping)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行實驗。
d)本文方案。采用如圖1所示的網(wǎng)絡(luò)結(jié)構(gòu),包含MLP、注意力加權(quán)池化模塊的點云形狀分類和部件分割網(wǎng)絡(luò)。
2.3實驗配置與實現(xiàn)細(xì)節(jié)
本文所有實驗的硬件環(huán)境為運行內(nèi)存32GB的IntelCoreTMi9-12900KF3.19GHz的CPU,顯存為10GB的RTX3080GPU;軟件環(huán)境為Windows11系統(tǒng),PyCharm,Python3.7,PyTorch1.10,CUDA11.3。
為了將模型部署到實驗環(huán)境,先安裝開發(fā)環(huán)境PyCharm,再配置上述軟件環(huán)境,最后按照圖1網(wǎng)絡(luò)結(jié)構(gòu)和圖2模塊結(jié)構(gòu)進(jìn)行編程,實現(xiàn)本文提出的網(wǎng)絡(luò)功能。其中對于如圖2所示的注意力加權(quán)池化模塊,可調(diào)用torch.nn.linear函數(shù)與torch.nn.softmax函數(shù)實現(xiàn)。點云形狀分類實驗、點云部件分割實驗和點云場景分割實驗一致選用交叉熵作為損失函數(shù),交叉熵在計算機(jī)視覺分類和分割中廣泛應(yīng)用,其計算公式為
其中:m對于形狀分類是物體總數(shù),對于部件分割是點的總數(shù)量;k為分類或分割的標(biāo)簽數(shù);qij指物體i(分類中)或點i(分割中)是標(biāo)簽j的真實概率,其值為0或者1;pij指物體i(分類中)或點i(分割中)是標(biāo)簽j的預(yù)測概率,其值為[0,1]。
選擇不同的訓(xùn)練參數(shù)訓(xùn)練網(wǎng)絡(luò),對網(wǎng)絡(luò)的性能有一定的影響。為了準(zhǔn)確反映點云形狀分類和部件分割的性能,分類與分割實驗使用如表2所示的訓(xùn)練參數(shù),其中對學(xué)習(xí)率衰減因子和批處理大小的選取將在2.4節(jié)中詳細(xì)闡述。訓(xùn)練分類和分割網(wǎng)絡(luò)統(tǒng)一使用Adam優(yōu)化器,初始學(xué)習(xí)率設(shè)定為0.001,每隔20個訓(xùn)練周期學(xué)習(xí)率乘以學(xué)習(xí)率衰減因子0.5。所有實驗的批處理大小參數(shù)都選擇32,即每次輸入32個物體點云數(shù)據(jù)到網(wǎng)絡(luò)中;訓(xùn)練輪數(shù)都為250輪,訓(xùn)練一輪網(wǎng)絡(luò)表示訓(xùn)練集的所有樣本都已輸入網(wǎng)絡(luò)中;形狀分類的采樣點數(shù)為1024,即一個物體的點云均勻采樣1024個點輸入到網(wǎng)絡(luò)中,而部件分割的采樣點數(shù)為2048。點云場景分割選用的訓(xùn)練參數(shù)與部件分割一致。
其中:k表示一共有k類物體,在ModelNet40數(shù)據(jù)集中k為40;pii是預(yù)測標(biāo)簽等于真實標(biāo)簽的個數(shù);pij是預(yù)測標(biāo)簽為i,真實標(biāo)簽為j的個數(shù)。
點云形狀分類實驗結(jié)果如表3所示,本文方案對點云形狀分類的總體精度幾乎沒有影響,注意力加權(quán)池化帶來的次要全局特征信息對于形狀分類沒有幫助。訓(xùn)練時間指訓(xùn)練250輪網(wǎng)絡(luò)所耗費的時間,結(jié)果顯示本文方案相比于PointNet1節(jié)省了8min,這為訓(xùn)練網(wǎng)絡(luò)節(jié)省了一些時間成本。相比于去除T-Net的PointNet2,訓(xùn)練時間增加了32min,原因在于注意力加權(quán)池化模塊額外增加了權(quán)重矩陣,導(dǎo)致參數(shù)變多。對網(wǎng)絡(luò)復(fù)雜度的分析,將在2.8節(jié)中詳細(xì)闡述。雖然KPConv[27]和PointNet++的總體分類精度比本文方案高,但訓(xùn)練時間提升了一個數(shù)量級,以訓(xùn)練時間資源換取了精度。從本文方案與PointNet方案結(jié)果的對比中可以發(fā)現(xiàn),本文對PointNet的結(jié)構(gòu)進(jìn)行輕量級優(yōu)化后能夠在形狀分類任務(wù)中維持其性能。
為了探究不同批處理大小和學(xué)習(xí)率衰減因子對模型性能的影響,本文以ModelNet40點云形狀分類實驗為基準(zhǔn),其他訓(xùn)練參數(shù)都使用表2的訓(xùn)練參數(shù),得到在不同批處理大小、學(xué)習(xí)率衰減因子下,點云形狀分類總體準(zhǔn)確率的變化,如圖3和4所示。
圖3結(jié)果顯示,學(xué)習(xí)率衰減因子在0~0.3、0.6~1時,不同模型的分類總體準(zhǔn)確率有明顯的區(qū)別,因此需要降低學(xué)習(xí)率衰減因子對模型性能對比的影響。本文所有實驗的學(xué)習(xí)率衰減因子統(tǒng)一使用0.5,將其作為共同的訓(xùn)練參數(shù)。
在不同批處理大小對模型性能的影響實驗中,為了使圖4結(jié)果能夠均勻分布在橫軸上,批處理大小取以自然常數(shù)e為底的對數(shù)。結(jié)果顯示,批處理大小為4和64時,不同模型的分類總體準(zhǔn)確率有相對顯著的區(qū)別。批處理大小為8時,訓(xùn)練250輪網(wǎng)絡(luò)的時間約為批處理大小為32時的三倍。為了減少批處理大小對模型性能對比的影響,同時兼顧網(wǎng)絡(luò)訓(xùn)練時間成本,本文所有實驗的批處理大小統(tǒng)一使用32。
表4結(jié)果顯示,本文方案的分割MIoU在背包、汽車、耳機(jī)、吉他、小刀、燈、摩托、滑板、桌子類物體中取得一定的提升。在ShapeNet數(shù)據(jù)集的總體表現(xiàn)方面,本文對數(shù)據(jù)集中所有16類物體的分割MIoU求其總平均值,以衡量實驗方案的總體性能。相比于PointNet1,本文方案的總平均MIoU提升了2.8%;而相比于去除T-Net的PointNet2,本文方案的總平均MIoU提升了2.1%。
本實驗同時引入一些其他方法部件分割性能對比的結(jié)果。PointNet++的測試結(jié)果是在與本文方案幾乎相同的訓(xùn)練時間下得到的結(jié)果。由此可見,在訓(xùn)練時間成本相同的維度上比較,本文方案比PointNet++分割總平均MIoU具有一定優(yōu)勢,能夠在相同訓(xùn)練時間下取得更好的性能。
本文對點云部件分割實驗的部分結(jié)果進(jìn)行了可視化處理,如圖5所示。圖5列出了五種可視化結(jié)果。其中圖5(a)~(c)三種結(jié)果使用不同的顏色區(qū)分不同的部件標(biāo)簽,而(d)和(e)兩種結(jié)果都使用綠色點代表分割正確,紅色點代表分割錯誤(見電子版)。對比結(jié)果(d)和(e),(e)的紅色錯誤點更少,所以分割的準(zhǔn)確率更高。
由此可見,本文設(shè)計的注意力加權(quán)池化模塊能夠有效學(xué)習(xí)到不同特征的重要性,在池化時依據(jù)模塊學(xué)習(xí)到的注意力分?jǐn)?shù)加權(quán)聚合成全局特征,提升了點云部件分割的總體性能。另一方面,本文注意到點云部件分割實驗不同物體類別的MIoU有較大的差異。數(shù)據(jù)集中各個物體類別的訓(xùn)練樣本數(shù)量差別大,桌子類訓(xùn)練樣本最多,有3835個訓(xùn)練樣本,而帽子類訓(xùn)練樣本最少,僅有39個訓(xùn)練樣本。這對于網(wǎng)絡(luò)的特征學(xué)習(xí)不夠均勻,在相同的分割部件數(shù)下,訓(xùn)練樣本越多,MIoU具有提高的趨勢。在訓(xùn)練樣本數(shù)較為接近時,如摩托類和杯子類,分割部件數(shù)越多,所需的細(xì)化特征越多,全局特征的貢獻(xiàn)減少,其分割的MIoU也有下降的趨勢。
2.6網(wǎng)絡(luò)收斂速度分析
網(wǎng)絡(luò)收斂速度是衡量神經(jīng)網(wǎng)絡(luò)性能的一個重要指標(biāo),同時也可以比較訓(xùn)練的時間成本。本實驗采用ModelNet40數(shù)據(jù)集形狀分類實驗的訓(xùn)練過程作為對比網(wǎng)絡(luò)收斂速度的基準(zhǔn)實驗,測試集上總體準(zhǔn)確率隨訓(xùn)練時間的變化如圖6所示。
圖6展現(xiàn)了訓(xùn)練時間40min內(nèi)的不同方案在測試集上的總體準(zhǔn)確率變化。網(wǎng)絡(luò)收斂速度對比實驗的訓(xùn)練參數(shù)同樣以表2的參數(shù)進(jìn)行設(shè)置,本文方案和PointNet1、PointNet2方案每訓(xùn)練10輪網(wǎng)絡(luò)后測試一次模型的分類準(zhǔn)確率,PointNet++每訓(xùn)練2輪測試一次分類準(zhǔn)確率。由圖6可知在訓(xùn)練網(wǎng)絡(luò)15min之前,本文方案的總體準(zhǔn)確率相比于PointNet1和PointNet2有一定的優(yōu)勢,在訓(xùn)練網(wǎng)絡(luò)6min后,本文網(wǎng)絡(luò)的準(zhǔn)確率約達(dá)到0.81,而PointNet1僅有約0.72,去掉T-Net的PointNet2達(dá)到0.79左右。在訓(xùn)練網(wǎng)絡(luò)40min之后,本文方案和PointNet2準(zhǔn)確率變化曲線都逐漸收斂于0.86附近;而PointNet1和PointNet++在訓(xùn)練40min后仍未收斂,且分類精度略低于本文方案。這表明在考慮訓(xùn)練時間成本的情況下,本文提出的網(wǎng)絡(luò)能更快收斂到穩(wěn)定值。注意力加權(quán)池化模塊類似一個自適應(yīng)過濾器,在訓(xùn)練網(wǎng)絡(luò)的前期,幫助網(wǎng)絡(luò)更快找到有助于分類和分割的全局特征。
2.7網(wǎng)絡(luò)魯棒性分析
魯棒性常用于衡量系統(tǒng)的穩(wěn)健程度。在訓(xùn)練參數(shù)、輸入數(shù)據(jù)變化的情況下,魯棒性強(qiáng)的網(wǎng)絡(luò)依然能夠表現(xiàn)出相對理想的性能。魯棒性分析實驗選擇ModelNet40數(shù)據(jù)集訓(xùn)練本文方案、PointNet1和PointNet2250輪,PointNet++的訓(xùn)練時間取本文方案的250輪訓(xùn)練時長(約34min),以測試訓(xùn)練時間成本一致的情況下網(wǎng)絡(luò)魯棒性情況。使用不同的采樣點數(shù)和標(biāo)準(zhǔn)差不同的高斯噪聲進(jìn)行網(wǎng)絡(luò)魯棒性檢驗,其他訓(xùn)練參數(shù)與表1一致。減少輸入物體點云的采樣點數(shù)由隨機(jī)均勻再采樣實現(xiàn),這可以基本保持三維點云物體的全局形狀特征。魯棒性測試實驗結(jié)果分別如圖7和8所示。
ModelNet40數(shù)據(jù)集中一個物體的點云有2048個點,本實驗的采樣點數(shù)分別取1024、512、256、128、64、32。為了結(jié)果能在橫軸均勻分布,采樣點數(shù)取以自然常數(shù)e為底的對數(shù)作為橫坐標(biāo)。由圖7可見,在采樣點數(shù)為128并逐漸減小的情況下,本文方案的形狀分類總體準(zhǔn)確率要大于PointNet1和去除T-Net的PointNet2,且差距隨點數(shù)減少而增大。在采樣點數(shù)為32的極端情況下,本文方案的總體準(zhǔn)確率接近0.7,比PointNet2總體準(zhǔn)確率高了約0.1。
這充分說明了本文網(wǎng)絡(luò)比PointNet1和PointNet2具有更強(qiáng)的魯棒性。在輸入訓(xùn)練點數(shù)減少的情況下,注意力加權(quán)池化模塊相比于最大池化更能幫助網(wǎng)絡(luò)學(xué)習(xí)到有利于分類的全局特征,從而得到分類精度更高的結(jié)果。在訓(xùn)練時間成本相同的情況下,本文方案比PointNet++的總體準(zhǔn)確率更高,所以本文方案能夠在短時間內(nèi)獲得良好的魯棒性。
在不同標(biāo)準(zhǔn)差的高斯噪聲檢驗網(wǎng)絡(luò)魯棒性實驗中,同樣使用ModelNet40數(shù)據(jù)集和表2的訓(xùn)練參數(shù),并調(diào)整用于數(shù)據(jù)預(yù)處理的高斯噪聲的標(biāo)準(zhǔn)差,使每個點受到噪聲而大幅度位移的概率增加。在宏觀層面觀察,物體點云的形狀受噪聲的擾動而發(fā)生一些變化,這些變化對點云形狀分類和部件分割造成負(fù)面影響,進(jìn)而影響網(wǎng)絡(luò)的學(xué)習(xí)。
圖8結(jié)果顯示,改變標(biāo)準(zhǔn)差的高斯噪聲對網(wǎng)絡(luò)的全局特征學(xué)習(xí)有較大的影響。標(biāo)準(zhǔn)差增大到0.05及以上時,本文方案與PointNet1、PointNet2相比,形狀分類的總體準(zhǔn)確率更高,對噪聲的魯棒性有顯著提升。在相同訓(xùn)練時間成本下,本文方案的總體準(zhǔn)確率比PointNet++有一定的優(yōu)勢,說明本文優(yōu)化的網(wǎng)絡(luò)能夠更快地提取到物體點云的全局特征,且更快地獲得一定的抗噪能力。而在全局特征遭到一定程度的破壞時,注意力加權(quán)池化模塊聚合的全局特征比PointNet最大池化聚合的全局特征具有更優(yōu)的魯棒性。
2.8網(wǎng)絡(luò)復(fù)雜度分析
網(wǎng)絡(luò)復(fù)雜度通常包括空間復(fù)雜度和時間復(fù)雜度,本實驗使用一個名為“thop”的Python工具包計算網(wǎng)絡(luò)的參數(shù)量,即空間復(fù)雜度,而時間復(fù)雜度則采用訓(xùn)練1輪網(wǎng)絡(luò)的時間來表征。在批處理大小選擇1(僅限計算參數(shù)量時,測量訓(xùn)練1輪時間批處理大小選擇32)、采樣點數(shù)都選擇1024,并使用表2的其他訓(xùn)練參數(shù)情況下,得到如表5所示的結(jié)果。
由表5可知,本文網(wǎng)絡(luò)相比于原始的PointNet1具有空間復(fù)雜度更低的優(yōu)勢,減少了約161萬個參數(shù),這節(jié)省了儲存模型的空間;本文網(wǎng)絡(luò)與PointNet++具有相近的空間復(fù)雜度,但PointNet++的時間復(fù)雜度很高,要消耗大量的訓(xùn)練時間資源。同時本文網(wǎng)絡(luò)在訓(xùn)練時間上相比于原始的PointNet1取得微弱優(yōu)勢,節(jié)約了一些訓(xùn)練網(wǎng)絡(luò)的時間成本,同時在部件分割中能夠取得一定的平均性能提升。
2.9S3DIS點云場景分割
為了檢驗本文提出的優(yōu)化網(wǎng)絡(luò)在現(xiàn)實場景點云分割中的效果,本實驗使用大場景室內(nèi)S3DIS點云數(shù)據(jù)集。在點云場景分割實驗中,與部件分割實驗一樣使用式(8)計算點云場景分割的MIoU,實驗結(jié)果如表6所示。其中本文方案和PointNet1、PointNet2方案訓(xùn)練時間指訓(xùn)練250輪網(wǎng)絡(luò)的時間,PointNet++方案訓(xùn)練的時間取接近本文方案的時間,以測試訓(xùn)練時間成本相同的情況。
點云場景分割實驗使用部件分割網(wǎng)絡(luò),并使用與表2部件分割實驗一致的參數(shù)。本文方案相比PointNet1和PointNet2在總MIoU上分別提升了1.68%和2.03%,這證明本文提出的注意力加權(quán)池化模塊的有效性。在考慮訓(xùn)練的時間成本情況下,PointNet++結(jié)果是在訓(xùn)練時間與本文方案相接近的時候取得的,其分割總MIoU比本文方案略低,這說明注意力池化模塊能更快取得有利于分割的全局特征。
3結(jié)束語
為解決PointNet最大池化會損失次要全局特征而導(dǎo)致點云部件分割精度降低的問題,本文在去除T-Net的PointNet基礎(chǔ)上,提出了一種面向部件分割的注意力加權(quán)特征聚合優(yōu)化網(wǎng)絡(luò)。通過使用共享權(quán)重對重要性不同的全局特征進(jìn)行學(xué)習(xí)和評估,得到每個點每個特征的歸一化注意力分?jǐn)?shù),將其作為特征的權(quán)重,再把權(quán)重與對應(yīng)特征相乘,之后求和得到更有利于點云部件分割的全局特征。相比于PointNet,本文網(wǎng)絡(luò)在ShapeNet點云部件分割數(shù)據(jù)集、S3DIS室內(nèi)場景分割數(shù)據(jù)集中分別提升了2.1%和1.68%的總平均MIoU,總體上得到了更佳的分割效果,同時加快了網(wǎng)絡(luò)收斂速度,減少了空間復(fù)雜度并增強(qiáng)了網(wǎng)絡(luò)的魯棒性。
PointNet是一個直接處理點云數(shù)據(jù)的經(jīng)典神經(jīng)網(wǎng)絡(luò)。為適應(yīng)工業(yè)部件現(xiàn)場檢測等應(yīng)用場景的低時延特征,未來研究工作將基于PointNet結(jié)構(gòu),改進(jìn)局部特征和全局特征提取算法,設(shè)計低時間復(fù)雜度的快速點云數(shù)據(jù)處理網(wǎng)絡(luò),并提升對噪聲干擾的魯棒性。
參考文獻(xiàn):
[1]MoonD,ChungS,KwonS,etal.Comparisonandutilizationofpointcloudgeneratedfromphotogrammetryandlaserscanning:3Dworldmodelforsmartheavyequipmentplanning[J].AutomationinConstruction,2019,98(2):322-331.
[2]GuoYulan,WangHanyun,HuQingyong,etal.Deeplearningfor3Dpointclouds:asurvey[J].IEEETransonPatternAnalysisandMachineIntelligence,2020,43(12):4338-4364.
[3]劉輝席,陳文浩,劉守印.基于IMU和動態(tài)目標(biāo)檢測的多幀點云融合算法[J].計算機(jī)應(yīng)用研究,2021,38(7):2179-2182.(LiuHuixi,ChenWenhao,LiuShouyin.Multi-framepointcloudfusionalgorithmbasedonIMUanddynamictargetdetection[J].ApplicationResearchofComputers,2021,38(7):2179-2182.)
[4]QiCR,SuHao,NiebnerM,etal.Volumetricandmulti-viewCNNsforobjectclassificationon3Ddata[C]//ProcofIEEEConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2016:5648-5656.
[5]LawinFJ,DanelljanM,TostebergP,etal.Deepprojective3Dsemanticsegmentation[C]//ProcofInternationalConferenceonComputerAnalysisofImagesandPatterns.Cham:Springer,2017:95-107.
[6]YuFenggen,LiuKun,ZhangYan,etal.PartNet:arecursivepartdecompositionnetworkforfine-grainedandhierarchicalshapesegmentation[C]//ProcofIEEE/CVFConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2020:9491-9500.
[7]胡江豪,王豐.基于重疊域采樣混合特征的點云配準(zhǔn)算法[J].計算機(jī)應(yīng)用研究,2022,39(11):3503-3508.(HuJianghao,WangFeng.Pointcloudregistrationalgorithmbasedonmixed-featuressamplingforoverlappingdomain[J].ApplicationResearchofCompu-ters,2022,39(11):3503-3508.)
[8]趙佳琦,周勇,何欣,等.基于深度學(xué)習(xí)的點云分割研究進(jìn)展分析[J].電子與信息學(xué)報,2022,44(12):4426-4440.(ZhaoJiaqi,ZhouYong,HeXin,etal.Researchprogressanalysisofpointcloudsegmentationbasedondeeplearningbasedondeeplearning[J].JournalofElectronicsamp;InformationTechnology,2022,44(12):4426-4440.)
[9]SuHang,MajiS,KalogerakisE,etal.Multi-viewconvolutionalneuralnetworksfor3Dshaperecognition[C]//ProcofIEEEInternationalConfe-renceonComputerVision.Piscataway,NJ:IEEEPress,2015:945-953.
[10]WeiXin,YuRuixuan,SunJian.View-GCN:view-basedgraphconvolutionalnetworkfor3Dshapeanalysis[C]//ProcofIEEE/CVFConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2020:1847-1856.
[11]MaturanaD,SchererS.VoxNet:a3Dconvolutionalneuralnetworkforreal-timeobjectrecognition[C]//ProcofIEEE/RSJInternationalConferenceonIntelligentRobotsandSystems.Piscataway,NJ:IEEEPress,2015:922-928.
[12]LeT,DuanYe.PointGrid:adeepnetworkfor3Dshapeunderstanding[C]//ProcofIEEE/CVFConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2018:9204-9214.
[13]QiCR,SuHao,MoKaichun,etal.PointNet:deeplearningonpointsetsfor3Dclassificationandsegmentation[C]//ProcofIEEEConfe-renceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2017:652-660.
[14]QiCR,YiLi,SuHao,etal.PointNet++:deephierarchicalfeaturelearningonpointsetsinametricspace[C]//Procofthe24thAnnualConferenceonNeuralInformationProcessingSystems.Cambridge,MA:MITPress,2017:5099-5108.
[15]王本杰,農(nóng)麗萍,張文輝,等.基于Spider卷積的三維點云分類與分割網(wǎng)絡(luò)[J].計算機(jī)應(yīng)用,2020,40(6):1607-1612.(WangBenjie,NongLiping,ZhangWenhui,etal.3DpointcloudclassificationandsegmentationnetworkbasedonSpiderconvolution[J].JournalofComputerApplications,2020,40(6):1607-1612.)
[16]WangYue,SunYongbin,LiuZiwei,etal.DynamicgraphCNNforlear-ningonpointclouds[J].ACMTransonGraphics,2018,38(5):1-12.
[17]ChenLinzhuo,LiXuanyi,F(xiàn)anDengping,etal.LSANet:featurelear-ningonpointsetsbylocalspatialawarelayer[EB/OL].(2019-06-20)[2022-08-08].https://arxiv.org/abs/1905.05442.
[18]ZhaoChenxi,ZhouWeihao,LuLi,etal.Poolingscoresofneighboringpointsforimproved3Dpointcloudsegmentation[C]//ProcofIEEEInternationalConferenceonImageProcessing.Piscataway,NJ:IEEEPress,2019:1475-1479.
[19]HuQingyong,YangBo,XieLinhai,etal.RandLA-Net:efficientsemanticsegmentationoflarge-scalepointclouds[C]//ProcofIEEE/CVFConferenceonComputerVisionandPatternRecognition.Pisca-taway,NJ:IEEEPress,2020:11108-11117.
[20]MaXu,QinCan,YouHaoxuan,etal.Rethinkingnetworkdesignandlocalgeometryinpointcloud:asimpleresidualMLPframework[EB/OL].(2022-02-15)[2022-08-08].https://arxiv.org/abs/2202.07123.
[21]孫一珺,胡輝,李子鑰,等.適用于點云數(shù)據(jù)的注意力機(jī)制研究[J].計算機(jī)工程與應(yīng)用,2022,58(23):254-260.(SunYijun,HuHui,LiZiyue,etal.Researchonattentionmechanismforpointclouddata[J].ComputerEngineeringandApplications,2022,58(23):254-260.)
[22]吳軍,崔玥,趙雪梅,等.SSA-PointNet++:空間自注意力機(jī)制下的3D點云語義分割網(wǎng)絡(luò)[J].計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報,2022,34(3):437-448.(WuJun,CuiYue,ZhaoXuemei,etal.SSA-PointNet++:aspaceself-attentionCNNforthesemanticsegmentationof3Dpointcloud[J].JournalofComputer-AidedDesignamp;ComputerGraphics,2022,34(3):437-448.)
[23]GoodfellowI,BengioY,CourvilleA.Deeplearning[M].Cambridge,MA:MITPress,2016:180-184.
[24]WuZhirong,SongShuran,KhoslaA,etal.3DShapeNets:adeepre-presentationforvolumetricshapes[C]//ProcofIEEEConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2015:1912-1920.
[25]ChangAX,F(xiàn)unkhouserT,GuibasL,etal.ShapeNet:aninformation-rich3Dmodelrepository[EB/OL].(2015-12-09)[2022-08-08].https://arxiv.org/abs/1512.03012.
[26]ArmeniI,SenerO,ZamirAR,etal.3Dsemanticparsingoflarge-scaleindoorspaces[C]//ProcofIEEEConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2016:1534-1543.
[27]ThomasH,QiCR,DeschaudJE,etal.KPConv:flexibleanddefor-mableconvolutionforpointclouds[C]//ProcofIEEE/CVFInternationalConferenceonComputerVision.Piscataway,NJ:IEEEPress,2019:6410-6419.
[28]WuZizhao,ShouRuyang,WangYunhai,etal.Interactiveshapeco-segmentationvialabelpropagation[J].Computersamp;Graphics,2014,38(2):248-254.