楊 軍,李博贊
(1.蘭州交通大學(xué) 測繪與地理信息學(xué)院,甘肅 蘭州730070;2.蘭州交通大學(xué) 自動化與電氣工程學(xué)院,甘肅 蘭州730070)
近年來,3D掃描技術(shù)的發(fā)展促進(jìn)了智能駕駛[1-2]和增強(qiáng)現(xiàn)實(shí)[3]等新技術(shù)的應(yīng)用,對場景的準(zhǔn)確理解已成為人工智能領(lǐng)域的主要研究方向。為結(jié)合三維模型表面細(xì)節(jié)信息從而提高分割精度,研究人員利用二維圖像分割算法處理規(guī)則數(shù)據(jù)的優(yōu)勢,將一組點(diǎn)云投影為二維圖像便于學(xué)習(xí)點(diǎn)云特征,并將像素級語義標(biāo)簽反投影到點(diǎn)云獲得分割結(jié)果[4]。但是,多視圖方法會不可避免地丟失某些具有鑒別力的幾何信息,并且投影視角的選擇也需要豐富的先驗(yàn)知識。直接處理點(diǎn)云數(shù)據(jù)的方法能夠利用點(diǎn)云固有信息且不增加額外操作,可以充分獲取點(diǎn)云所有信息。然而,原始點(diǎn)云具有不規(guī)則、稀疏和無序結(jié)構(gòu)等特點(diǎn),需要構(gòu)建局部鄰域圖或轉(zhuǎn)化為規(guī)則結(jié)構(gòu)才能直接利用。基于體素[5]的方法將點(diǎn)云規(guī)則化為網(wǎng)格結(jié)構(gòu),很大程度上保留了物體的幾何信息,但該結(jié)構(gòu)仍然無法細(xì)分物體邊界的幾何信息。此外,該結(jié)構(gòu)通常受到存儲器的嚴(yán)格限制,高分辨率會消耗巨大的計(jì)算和存儲成本,低分辨率則容易出現(xiàn)嚴(yán)重的信息丟失問題。稀疏卷積[6]雖然能夠減少內(nèi)存占用,但為了獲得更大的感受野,在低分辨率操作下多個類別會合并到一個網(wǎng)格從而影響分割結(jié)果?;谥瘘c(diǎn)的方法[7-9]雖然便于獲取局部幾何信息,但只有部分幾何信息對物體整體結(jié)構(gòu)具有判別性,點(diǎn)的絕對位置信息和點(diǎn)對間的相對位置信息缺乏描述物體高級全局幾何結(jié)構(gòu)的能力,而且網(wǎng)絡(luò)運(yùn)行消耗大量時間用于構(gòu)建局部點(diǎn)云數(shù)據(jù),導(dǎo)致時間成本上升。
針對上述問題,本文提出了基于自注意力特征融合組卷積神經(jīng)網(wǎng)絡(luò)(Self-attention Feature Fusion Group Convolutional Neural Network,SAFFGCNN)的點(diǎn)云細(xì)粒度分析方法。引入Transformer模塊將全局單點(diǎn)特征和局部幾何特征進(jìn)行融合,提高特征的豐富性。提出了一種輕量級的圖卷積運(yùn)算——代理點(diǎn)圖卷積,獲得深層細(xì)粒度的幾何特征,能夠簡化邊緣卷積操作降低內(nèi)存消耗,對語義特征和局部幾何特征進(jìn)行編碼,增強(qiáng)特征局部的上下文信息。通過多尺度策略不斷擴(kuò)大局部鄰域感受野以學(xué)習(xí)局部幾何特征,增強(qiáng)網(wǎng)絡(luò)泛化能力,有利于捕獲高級語義的上下文細(xì)粒度特征。此外,多尺度點(diǎn)云特征拼接后輸入到分割模塊,可以提高網(wǎng)絡(luò)分割精度。
目前,三維模型語義分割主要有基于投影、基于體素和基于點(diǎn)云三類方法。投影方法利用多視圖表示場景物體表面信息,為提高分割效率,基于距離圖像的球面投影方法被提出。體素方法將點(diǎn)云轉(zhuǎn)化為密集體素網(wǎng)格表示,為了適應(yīng)點(diǎn)云稀疏性和密度變化,用稀疏體素網(wǎng)格表示點(diǎn)云場景。點(diǎn)云方法直接對點(diǎn)云進(jìn)行卷積操作,可以有效獲取點(diǎn)云數(shù)據(jù)的本征屬性,主要有基于遞歸神經(jīng)網(wǎng)絡(luò)、構(gòu)建點(diǎn)云卷積核和基于圖網(wǎng)絡(luò)三類方法。
由于點(diǎn)云的不規(guī)則性,許多研究首先將點(diǎn)云投影為鳥瞰圖像或距離圖像,再用二維卷積操作進(jìn)行學(xué)習(xí)。Lawin等[4]首先從多個虛擬視角將點(diǎn)云投影到2D平面上,然后使用全連接層進(jìn)行像素級語義分割,并將每張圖像的分割結(jié)果反投影到點(diǎn)云進(jìn)行融合得到點(diǎn)的語義標(biāo)簽。Milioto等[12]利用球面投影方法將點(diǎn)云轉(zhuǎn)換為距離圖像,并在圖像上進(jìn)行二維全卷積操作;為修正反投影后物體邊緣部位的分割結(jié)果,在點(diǎn)云上利用高效的k近鄰搜索解決遮擋問題。徐等[13]在Squeeze-Seg模型[14]結(jié)構(gòu)基礎(chǔ)上設(shè)計(jì)空間自適應(yīng)卷積,它具有空間適應(yīng)性和內(nèi)容感知的能力,解決了標(biāo)準(zhǔn)卷積應(yīng)用于LiDAR圖像導(dǎo)致的網(wǎng)絡(luò)性能下降的問題。
基于投影的方法的核心是將點(diǎn)云數(shù)據(jù)轉(zhuǎn)化為規(guī)則的二維圖像,利用現(xiàn)有成熟的二維卷積算法提取三維模型的表面細(xì)節(jié)信息。但該類方法主要存在兩點(diǎn)缺陷:一是模型的部分表面細(xì)節(jié)信息會由于物體遮擋而消失;二是經(jīng)投影后產(chǎn)生的圖像中物體可能會出現(xiàn)扭曲現(xiàn)象,從而影響模型表面細(xì)節(jié)信息的獲取。
體素化的方法通常將點(diǎn)云轉(zhuǎn)變?yōu)槊芗W(wǎng)格,然后利用標(biāo)準(zhǔn)的3D卷積處理。黃等[5]在網(wǎng)絡(luò)訓(xùn)練時將點(diǎn)云生成為一組占位體素網(wǎng)格,其標(biāo)簽由周圍單元類別決定,然后將它輸入到3D CNN進(jìn)行體素分割,將推斷的體素結(jié)果映射回原始點(diǎn)云產(chǎn)生逐點(diǎn)標(biāo)簽。Graham等[6]提出了子流形稀疏卷積網(wǎng)絡(luò),通過哈希表構(gòu)建稀疏矩陣的索引關(guān)系,卷積的輸出只與被占用的體素相關(guān),內(nèi)存占用和計(jì)算成本大大減少,并且能夠確保卷積網(wǎng)絡(luò)的空間稀疏性不會消失,避免出現(xiàn)子流行膨脹問題。Choy等[15]提出一種用于時空三維點(diǎn)云數(shù)據(jù)的4D稀疏卷積網(wǎng)絡(luò),并創(chuàng)建了稀疏張量自動微分的開源庫。所提出的廣義稀疏卷積能夠有效處理高維數(shù)據(jù),顯著降低傳統(tǒng)3D卷積核計(jì)算成本,且該卷積核對于立方體結(jié)構(gòu)的物體識別能力更強(qiáng)。
體素表示一定程度上保留了點(diǎn)云的鄰域結(jié)構(gòu),其數(shù)據(jù)格式能夠直接運(yùn)用標(biāo)準(zhǔn)3D卷積進(jìn)行學(xué)習(xí)。然而,體素化不可避免地丟失了細(xì)粒度幾何信息。為了解決信息丟失等問題,需要提高體素分辨率,而此操作易導(dǎo)致計(jì)算成本高和內(nèi)存占用大等問題。雖然稀疏卷積能夠處理更小的網(wǎng)格結(jié)構(gòu)且具有良好的性能,但是依然需要進(jìn)行計(jì)算效率和體素比例的權(quán)衡。
PointNet[16]和PointNet++[17]開 創(chuàng) 了 基 于 多層感知機(jī)對點(diǎn)云直接進(jìn)行操作的先例。蔣等[18]將編碼-解碼結(jié)構(gòu)引入3D點(diǎn)云分割網(wǎng)絡(luò)中,在解碼器部分建立邊分支以提供上下文信息,通過分層圖設(shè)計(jì)使特征信息由粗糙到細(xì)致。黨等[19]提出分層并行組卷積,可以同時捕捉點(diǎn)云的區(qū)分性獨(dú)立單點(diǎn)特征和局部幾何特征,以較少的冗余信息增強(qiáng)特征的豐富性,提高網(wǎng)絡(luò)識別復(fù)雜類別的能力。胡等[20]提出了一種高效、輕量級的Rand-LA-Net網(wǎng)絡(luò),通過局部特征聚集模塊擴(kuò)大k近鄰點(diǎn)搜索范圍來減少信息損失,并利用隨機(jī)采樣降低了存儲成本,提高了計(jì)算效率。Landrieu等[21]將點(diǎn)云通過一系列相互聯(lián)系的簡單形狀構(gòu)成超點(diǎn),其屬性有向圖能夠捕獲豐富的上下文信息和幾何信息,同時超點(diǎn)能夠大大減少點(diǎn)云中點(diǎn)的數(shù)目,使網(wǎng)絡(luò)應(yīng)用于大規(guī)模點(diǎn)云數(shù)據(jù)集。
直接處理和分析點(diǎn)云的方法需要獲取更精細(xì)的點(diǎn)云特征,才能達(dá)到細(xì)粒度點(diǎn)云分割任務(wù)的要求,但現(xiàn)有方法缺乏分辨相似物體幾何特征和局部細(xì)節(jié)結(jié)構(gòu)的能力,對于具有抽象語義識別能力的高級全局結(jié)構(gòu)信息缺乏考慮。此外,沒有考慮全局單點(diǎn)特征和低級局部幾何特征的聯(lián)系。
在自注意力特征融合組卷積神經(jīng)網(wǎng)絡(luò)中,通過學(xué)習(xí)全局特征和局部幾何特征的深層隱含關(guān)系,獲得具有抽象語義識別能力的高級全局單點(diǎn)特征,提高了網(wǎng)絡(luò)在復(fù)雜環(huán)境下的物體分割能力。首先,通過MLP和代理點(diǎn)圖卷積獲得全局特征和局部幾何特征,加入組卷積操作減少冗余特征信息,獲得具有鑒別性的特征。其次,利用Transformer特征融合模塊增強(qiáng)不同特征間的聯(lián)系,獲得細(xì)粒度上下文信息。最后,通過多尺度特征融合擴(kuò)大感受野獲得全局高級單點(diǎn)特征。
本文的全局-局部組卷積由兩部分組成:MLP組卷積和代理點(diǎn)圖組卷積。
MLP組卷積在減少計(jì)算復(fù)雜度和網(wǎng)絡(luò)參數(shù)量的同時,特征豐富性會因?yàn)榻M卷積產(chǎn)生的分組操作而降低。為了加強(qiáng)組間信息交流,將不同分組特征進(jìn)行融合,以保證MLP組卷積層輸出特征的有效性。
組卷積操作先將每層的MLP分為N組,表示為其中l(wèi)為第l個卷積層。再對輸入特征進(jìn)行MLP組卷積提取各個分組特征。第一組特征是第一組原始特征經(jīng)過組卷積后的新特征,其余組特征為前一組新特征和自身經(jīng)過組卷積后的新特征融合得到的結(jié)果。將所有分組的全局特征進(jìn)行拼接操作得到MLP組卷積模塊在該層的輸出。MLP組卷積第l層的輸出結(jié)果如下:式中為第l層各組的全局單點(diǎn)特征為MLP組卷積在第l層輸出的全局單點(diǎn)特征。
MLP組卷積雖然能夠捕獲獨(dú)立的單點(diǎn)特征,但對幾何信息的獲取存在局限性。局部幾何信息包含點(diǎn)的位置信息以及點(diǎn)的相對位置,對于物體細(xì)粒度分割起到至關(guān)重要的作用。
本文以邊緣卷積為出發(fā)點(diǎn)設(shè)計(jì)代理點(diǎn)圖組卷積,將特征空間上的k近鄰搜索轉(zhuǎn)變?yōu)樵谠键c(diǎn)云空間中的k近鄰搜索。原始點(diǎn)云空間中點(diǎn)的位置是固定不變的,k近鄰圖能更好地表征物體的空間結(jié)構(gòu)信息,獲得更具鑒別性的局部幾何特征信息。同時,由于原始點(diǎn)云位置是固定的,在特征空間上構(gòu)造k近鄰圖無需重新計(jì)算,解決了計(jì)算代價大的問題。k近鄰圖的鄰域點(diǎn)在空間內(nèi)接近,特征的豐富性差異小,為了保留關(guān)鍵幾何特征信息,將k近鄰點(diǎn)特征進(jìn)行平均操作賦值到代理點(diǎn),使用代理點(diǎn)和中心點(diǎn)進(jìn)行幾何信息學(xué)習(xí)。通過對全部卷積層共享空間鄰接矩陣以減少內(nèi)存消耗和計(jì)算開銷,能夠使特征映射的內(nèi)存消耗從O(n×h×d)減少到O(n×d),大大提高了圖卷積提取幾何特征的效率。邊緣卷積與代理點(diǎn)圖組卷積的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 邊緣卷積與代理點(diǎn)圖組卷積網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structures of edge convolution and proxy point graph group convolution
為了在原始點(diǎn)云空間進(jìn)行k近鄰搜索,首先要計(jì)算圖的空間鄰接矩陣G∈RN×N,其元素表示一組點(diǎn)在圖中是否相鄰。為計(jì)算鄰接矩陣G,需要計(jì)算點(diǎn)i和點(diǎn)j之間的歐氏距離D i,j:
式中p i∈R3和p j∈R3是兩個坐標(biāo)向量。將G中每一行的元素進(jìn)行二值化,k個最小的元素設(shè)為1,其余元素設(shè)為0,以此得到空間鄰接矩陣G∈RN×N。
其次,通過矩陣乘法求得局部鄰域的特征平均值,并將該特征值視為代理點(diǎn)特征,公式如下:
式中:y∈RN×d是由MLP組卷積獲得的點(diǎn)云全局特征,k為中心點(diǎn)i的鄰域點(diǎn)數(shù)目,Z為生成的代理點(diǎn)特征,其中Z i為第i個代理點(diǎn)的特征。
然后,使用中心點(diǎn)和代理點(diǎn)來計(jì)算局部幾何信息得到新的聚合特征,定義如下:
式中:f i為生成的第i個點(diǎn)幾何特征,y i為第i個點(diǎn)的全局單點(diǎn)特征,ReLU為激活函數(shù),gΘ:Rd→Rd是具有可學(xué)習(xí)參數(shù)Θ的非線性函數(shù)。最后,通過在生成的幾何特征上融合輸入點(diǎn)的全局特征來定義局部幾何特征,即:
式中Y i為第i個點(diǎn)最終的局部幾何特征。
經(jīng)過全局-局部組卷積模塊后,全局上下文特征和局部幾何特征的豐富性得到了增強(qiáng),但是組卷積內(nèi)部同層不同組之間缺乏信息交流,而且不同組卷積模塊之間沒有信息傳播,缺乏具有高級語義的局部上下文信息。因此,本文通過Transformer的自注意力機(jī)制獲得具有高級語義識別能力的特征。由于自注意力機(jī)制輸入為離散標(biāo)記組成的序列,各分支特征被視為集合,其中每個1×1×C維特征等同于集合中的元素,并視為一個標(biāo)記。分支以不同的關(guān)注方向?qū)鼍斑M(jìn)行編碼,根據(jù)特征間的自注意力系數(shù)融合其他組的特征,使更新后的每組特征包含來自其他組的特征,利用不同特征的互補(bǔ)性促進(jìn)模塊之間的信息交流,加強(qiáng)特征間的語義聯(lián)系。全局-局部特征的Transformer自注意力融合操作如圖2所示。
圖2 全局-局部特征的Transformer自注意力融合Fig.2 Transformer self-attention fusion of global-local features
為了減輕Transformer網(wǎng)絡(luò)計(jì)算代價,將較高分辨率的分支特征做平均池化下采樣處理為H×W×C的三維張量,再將兩者疊加形成維度為(2×H×W)×C的輸入張量,并嵌入一個維度一致的可訓(xùn)練位置參數(shù),使網(wǎng)絡(luò)在訓(xùn)練時能夠理解不同標(biāo)記之間的空間位置關(guān)系。自注意力輸出特征根據(jù)輸入張量的位置關(guān)系重新劃分為兩個H×W×C的特征圖,并通過雙線性插值上采樣到原始分辨率,再與原始分支特征逐元素求和。多次實(shí)驗(yàn)結(jié)果表明,特征圖分辨率為H=W=8時效果最佳。
特征圖上的自注意力操作類似于將Transformer應(yīng)用于圖像的工作[10-11]。設(shè)輸入序列表示為Fin∈RN×Df,其中N是序列中的標(biāo)記數(shù),每個標(biāo)記由維數(shù)為D f的特征向量表示。首先,Transformer模塊使用線性投影來計(jì)算出每個標(biāo)記的一組查詢向量Q、關(guān)鍵向量K和值向量V,計(jì)算公式為:
式中:B Q∈RDf×d k,B K∈RDf×d k和B V∈RDf×d v都是權(quán)重矩陣,目的在于將輸入特征映射到不同高維空間,增強(qiáng)模型表達(dá)能力,更好地捕獲Q,K和V之間的語義級別聯(lián)系。
其次,通過當(dāng)前查詢向量Q和所有關(guān)鍵向量K之間的點(diǎn)積計(jì)算自注意力權(quán)重,將所有值向量和相應(yīng)權(quán)重相乘并求和,得到該特征向量標(biāo)記最終的自注意力輸出結(jié)果,計(jì)算公式如下:式中:D K用于在訓(xùn)練過程中保持梯度值穩(wěn)定,防止Softmax(QKT)結(jié)果過大,導(dǎo)致梯度變小不利于反向傳播;Softmax函數(shù)用于確保所有自注意力權(quán)重的和為1。
最后,Transformer模塊使用MLP將自注意結(jié)果映射到與Fin同一維度,并計(jì)算輸出特征,即:
輸出特征Fout與輸入特征Fin具有相同的維度。
本文構(gòu)建的自注意力特征融合組卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)如圖3所示,主要由3個模塊組成:MLP組卷積、代理點(diǎn)圖組卷積和Transformer特征融合模塊。點(diǎn)云輸入到網(wǎng)絡(luò)前進(jìn)行下采樣操作處理保證網(wǎng)絡(luò)訓(xùn)練過程中能夠收斂,選擇最遠(yuǎn)點(diǎn)采樣(Farthest Point Sampling,F(xiàn)PS)對場景進(jìn)行均勻采樣,保留點(diǎn)云的原始空間結(jié)構(gòu)。在網(wǎng)絡(luò)學(xué)習(xí)過程中,為了獲取全局單點(diǎn)特征和細(xì)粒度的幾何特征,通過MLP組卷積和代理點(diǎn)圖組卷積分別提取全局特征和局部幾何特征。然后,通過Transformer特征融合模塊將全局單點(diǎn)特征和局部幾何特征進(jìn)行融合并增強(qiáng),提高網(wǎng)絡(luò)識別復(fù)雜形狀物體的能力。為了提高分割準(zhǔn)確率,將上一次下采樣后的特征映射結(jié)果輸入本次下采樣后的點(diǎn)云中來增加不同尺度局部區(qū)域的感受野,從而獲得具有高級語義的上下文細(xì)粒度特征。最后,將不同下采樣的特征映射進(jìn)行拼接,對它進(jìn)行全局平均池化操作加強(qiáng)特征映射和類別之間的關(guān)聯(lián),使獲得的形狀級別的全局特征映射更加接近語義類別信息。
圖3 自注意力特征融合組卷積神經(jīng)網(wǎng)絡(luò)Fig.3 Self-attention feature fusion group convolutional neural network
為了獲取每個點(diǎn)的點(diǎn)級別標(biāo)簽,分割模塊需將全局特征映射從形狀級別傳播到點(diǎn)級別。通過第一次插值后的特征與對應(yīng)點(diǎn)的原始特征相結(jié)合獲得M個點(diǎn)的點(diǎn)級特征,將點(diǎn)級特征輸入到多個MLP層和SeLU層獲得降維后點(diǎn)級特征,再通過第二次插值將M個點(diǎn)的點(diǎn)級特征傳播到原始點(diǎn)云,得到原始點(diǎn)云空間中所有點(diǎn)的新特征。使用兩個疊加的全連接層對點(diǎn)云特征進(jìn)行分類,輸出N×B特征矩陣,其中N為原始空間內(nèi)所有的點(diǎn),B為每個點(diǎn)對應(yīng)于每個類別的分?jǐn)?shù)。每個點(diǎn)選取得分最高的類別作為其語義標(biāo)簽,由此獲得點(diǎn)云場景的語義分割結(jié)果。
為了測試SAFFGCNN對點(diǎn)云的細(xì)粒度形狀分析的有效性,在兩個大規(guī)模語義分割數(shù)據(jù)集S3DIS[22]和SemantiKITTI[23]上 評 估 了 網(wǎng) 絡(luò) 模 型性能。實(shí)驗(yàn)中,在32 GB內(nèi)存、Intel i7 8700k CPU和GeForce RTX 2080Ti圖形處理器的工作站上通過TensorFlow-GPU訓(xùn)練模型,操作系統(tǒng)為Linux Ubuntu 16.04。SAFFGCNN的訓(xùn)練過程采用基于動量的隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)優(yōu)化算法,采用Adam優(yōu)化算法更新SGD步長。
S3DIS[22]數(shù)據(jù)集由來自3個不同建筑的6個大型室內(nèi)區(qū)域共計(jì)271個房間組成,每個房間都由一個中等大小的密集點(diǎn)云組成(約20 m×15 m×5 m),共標(biāo)注了13個類別。實(shí)驗(yàn)中使用標(biāo)準(zhǔn)的6重交叉驗(yàn)證。
SemanticKITTI[23]數(shù)據(jù)集是目前最大的具有點(diǎn)級注釋的激光雷達(dá)序列數(shù)據(jù)集,包含了復(fù)雜的室外交通場景,由43 552個密集注釋激光雷達(dá)掃描組成22個序列,共包含19個有效類別。實(shí)驗(yàn)中,數(shù)據(jù)集中序列00~10作為訓(xùn)練集(其中序列08用作驗(yàn)證集),序列11~21作為測試集。
平均交并比(mean Intersection over Union,mIoU)作為實(shí)驗(yàn)結(jié)果的主要評估指標(biāo),其公式如下:
總體準(zhǔn)確率(Overall Accuracy,OA)作為實(shí)驗(yàn)結(jié)果的參考評估指標(biāo),用正確預(yù)測分類的點(diǎn)數(shù)和總體點(diǎn)數(shù)的比值表示:
4.2.1 S3DIS數(shù)據(jù)集上的評估分析
為了驗(yàn)證本文算法的有效性,在S3DIS數(shù)據(jù)集上進(jìn)行了分割對比實(shí)驗(yàn),結(jié)果如表1所示。
表1 S3DIS數(shù)據(jù)集上不同方法的分割精度對比(六重交叉驗(yàn)證)T ab.1 Comparison of segmentation accuracy of different approaches on S3DIS dataset(6-fold cross-validation)
本文算法在13個類別中的11個類別上獲得了最佳分割精度結(jié)果,尤其在光束、桌子、椅子和雜亂物體等類別上具有更好的分割精度。Point Transformer[24]設(shè)計(jì)自注意力層提取點(diǎn)云鄰域特征,能夠獲得充分的全局單點(diǎn)特征,但通過MLP獲得的位置信息主要用于生成查詢向量,僅簡單描述點(diǎn)對之間的相對位置關(guān)系,缺乏對幾何特征的進(jìn)一步提取,網(wǎng)絡(luò)捕獲高級局部幾何特征信息的能力弱。本文通過代理點(diǎn)圖組卷積能夠獲得細(xì)粒度的幾何特征信息,引入自注意力機(jī)制探究全局特征和局部幾何特征之間的聯(lián)系,使網(wǎng)絡(luò)具備識別物體全局結(jié)構(gòu)的能力,mIoU和OA分別提高了5.8%和2.9%。KPConv[25]手工設(shè)計(jì)固定數(shù)目的核心點(diǎn)學(xué)習(xí)局部鄰域點(diǎn)特征,但手工制作的核心點(diǎn)組合并不是最佳的,需要根據(jù)數(shù)據(jù)集或網(wǎng)絡(luò)架構(gòu)進(jìn)行優(yōu)化。此外,在網(wǎng)絡(luò)中加入核心點(diǎn)位置偏移訓(xùn)練使球體擬合三維點(diǎn)云局部幾何結(jié)構(gòu),無法從根本上解決卷積缺乏靈活性的問題,不能夠模擬復(fù)雜三維場景中物體的位置變化。本文利用原始點(diǎn)云構(gòu)造圖結(jié)構(gòu),能夠靈活且高效模擬點(diǎn)云的復(fù)雜空間變化和幾何結(jié)構(gòu),而且Transformer模塊能夠通過特征間關(guān)聯(lián)獲得局部上下文細(xì)粒度的幾何結(jié)構(gòu)信息,mIoU和OA分別提高了8.7%和0.2%。
從圖4分割可視化結(jié)果中可以看出,網(wǎng)絡(luò)增強(qiáng)了識別細(xì)節(jié)采樣點(diǎn)幾何信息的能力,能夠更加準(zhǔn)確地確定物體的邊界范圍,使本文算法的分割結(jié)果接近于真實(shí)標(biāo)簽。圖4中虛線圓圈標(biāo)記為分割結(jié)果不理想的部分,對于錯分割問題,網(wǎng)絡(luò)依舊對物體幾何結(jié)構(gòu)信息做出比較準(zhǔn)確的判斷;對于欠分割問題,網(wǎng)絡(luò)能夠識別物體位置范圍,減輕錯誤分類對正確結(jié)果的干擾。
圖4 S3DIS數(shù)據(jù)集分割結(jié)果的可視化Fig.4 Visualization of segmentation results on S3DIS dataset
4.2.2 SemanticKITTI數(shù)據(jù)集上的評估分析
大規(guī)模場景分割是一項(xiàng)具有挑戰(zhàn)性的任務(wù),為了進(jìn)一步驗(yàn)證本文算法對于細(xì)粒度幾何特征分析的有效性,在大規(guī)模激光雷達(dá)點(diǎn)云數(shù)據(jù)集SemanticKITTI上進(jìn)行了對比實(shí)驗(yàn),結(jié)果如表2所示。
表2 SemanticKITTI數(shù)據(jù)集上不同方法的分割精度對比Tab.2 Comparison of segmentation accuracy of different approaches on SemanticKITTI dataset
Rand LA-Net[20]采 用 隨 機(jī) 采 樣 高 效 處 理 大 規(guī)模點(diǎn)云,設(shè)計(jì)局部特征聚合模塊逐步增加點(diǎn)的感受野,防止采樣過程丟失關(guān)鍵信息,但在稀疏性較大的激光雷達(dá)數(shù)據(jù)集不可避免地會丟失場景邊緣信息。網(wǎng)絡(luò)會由于邊緣物體信息丟失缺乏對物體完整結(jié)構(gòu)的學(xué)習(xí),出現(xiàn)錯分割或欠分割。本文算法采用最遠(yuǎn)點(diǎn)采樣更能表征場景的整體結(jié)構(gòu)信息,保證網(wǎng)絡(luò)輸入能夠獲得邊緣物體的完整結(jié)構(gòu)信息。而且,本文在原始點(diǎn)云構(gòu)造的k近鄰圖經(jīng)過最遠(yuǎn)點(diǎn)采樣后,依舊能夠保留場景邊緣物體的整體幾何信息,保證特征的豐富性,在柵欄和其他地面等較稀疏的類別上mIoU比Rand-LA-Net分別 提高了9.8%和14.7%。PolarNet[28]設(shè)計(jì)極化鳥瞰圖平衡網(wǎng)格內(nèi)點(diǎn)數(shù),利用簡易PointNet將點(diǎn)轉(zhuǎn)換為固定長度表示,將該表示分配到環(huán)矩陣中相應(yīng)的位置,通過環(huán)形卷積學(xué)習(xí)二維特征。雖然極化鳥瞰圖解決了點(diǎn)云稀疏性問題,但自上而下的處理方式破壞了物體的幾何結(jié)構(gòu)信息,缺乏具有抽象語義識別能力的高級單點(diǎn)特征。而本文通過MLP組卷積獲取全局單點(diǎn)特征,再利用代理點(diǎn)圖卷積獲得具有鑒別性的高級單點(diǎn)特征,引入Transformer模塊學(xué)習(xí)點(diǎn)對之間的語義關(guān)系,獲得局部上下文細(xì)粒度的幾何信息,增強(qiáng)了網(wǎng)絡(luò)的識別分割能力,在貨車、摩托車和騎自行車的人等復(fù)雜結(jié)構(gòu)類別的mIoU比PolarNet分別提高了15.4%,5%和3.3%。
(續(xù)表2)
從圖5可視化分割結(jié)果可以看出,本文算法具有提取局部上下文幾何信息的能力,在稀疏性較大的大規(guī)模激光雷達(dá)點(diǎn)云數(shù)據(jù)中依然有著良好的分割結(jié)果。復(fù)雜結(jié)構(gòu)類別由于點(diǎn)云的稀疏性導(dǎo)致物體信息不充分,加大了網(wǎng)絡(luò)提取特征的難度,但本文對復(fù)雜類別精度相比其他方法有明顯的提升,原因在于特征融合過程中加強(qiáng)了全局信息和局部信息交流,獲得的上下文細(xì)粒度信息有助于提高網(wǎng)絡(luò)識別復(fù)雜形狀物體的能力,增強(qiáng)了語義分割的魯棒性。
圖5 SemanticKITTI數(shù)據(jù)集分割結(jié)果的可視化Fig.5 Visualization of segmentation results on SemanticKITTI dataset
S3DIS數(shù)據(jù)集中點(diǎn)云密度一致,物體信息豐富,點(diǎn)云下采樣操作對輸入信息損失較少,不同配置下的模塊性能都能夠充分發(fā)揮,對比實(shí)驗(yàn)更具說服性。因此,在S3DIS數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)??紤]網(wǎng)絡(luò)模型的各種設(shè)置,比較了模型在k近鄰點(diǎn)數(shù)不同下的性能,以驗(yàn)證本文算法代理點(diǎn)圖組卷積和Transformer特征融合模塊的有效性。
4.3.1k近鄰點(diǎn)
鄰域點(diǎn)的數(shù)目影響網(wǎng)絡(luò)提取到的幾何特征的優(yōu)劣,較小的鄰域點(diǎn)數(shù)目k使網(wǎng)絡(luò)無法學(xué)習(xí)到有效的幾何特征,導(dǎo)致分割精度較差;而k的數(shù)量過大又會引入更多的噪聲,影響網(wǎng)絡(luò)對幾何特征的學(xué)習(xí)。從表3中可以看出,當(dāng)k為8時,網(wǎng)絡(luò)總參數(shù)量Params和OA都較小,原因在于鄰域圖對物體幾何信息的描述不完整,網(wǎng)絡(luò)性能無法充分利用而造成欠分割問題。隨著k的增加,鄰域圖能夠更好地表征物體的幾何結(jié)構(gòu),網(wǎng)絡(luò)能夠充分挖掘局部上下文的幾何信息。但當(dāng)k過大時,對物體的幾何結(jié)構(gòu)描述無法帶來更大的優(yōu)勢,相反會造成更多冗余的局部幾何結(jié)構(gòu)特征,影響具有區(qū)分性的局部幾何特征的貢獻(xiàn)程度,而且增加網(wǎng)絡(luò)計(jì)算量。
表3 鄰域點(diǎn)數(shù)量對分割結(jié)果影響的對比Tab.3 Comparison of influence of number of neighborhood points on segmentation results
4.3.2 P2GConv
為了驗(yàn)證代理點(diǎn)圖組卷積(P2GConv)在保持較少的參數(shù)量的同時可以獲得與邊緣卷積(EdgeConv)相當(dāng)?shù)慕Y(jié)果,對網(wǎng)絡(luò)分別使用P2GConv和EdgeConv,定量實(shí)驗(yàn)結(jié)果如表4所示。使用P2GConv的網(wǎng)絡(luò)參數(shù)量更少,原因在于構(gòu)建局部鄰域圖不需要重復(fù)計(jì)算中心點(diǎn)的鄰域點(diǎn),取消了在特征圖上的k近鄰圖構(gòu)建。此外,代理點(diǎn)是手工設(shè)計(jì),計(jì)算邊緣特征時不會出現(xiàn)EdgeConv中添加中心點(diǎn)特征的操作。而在分割精度方面,P2GConv接近EdgeConv,原因:一方面在于代理點(diǎn)特征是鄰域點(diǎn)特征的平均值,場景中平面結(jié)構(gòu)多且特征差異性小,代理點(diǎn)特征能夠表征局部鄰域點(diǎn)的特征信息,僅會損失特征的一小部分豐富性;另一方面,由于在原始空間構(gòu)建的鄰域圖對物體幾何信息的描述更加準(zhǔn)確,P2GConv網(wǎng)絡(luò)能夠獲得物體細(xì)粒度的幾何結(jié)構(gòu)信息。
表4 邊緣卷積和代理點(diǎn)圖組卷積對比Tab.4 Comparison of EdgeConv and P2GConv
4.3.3 MLPGConv
MLP組卷積將全局單點(diǎn)特征輸入代理點(diǎn)圖組卷積,獲得有助于識別物體的高級全局單點(diǎn)特征,增強(qiáng)了特征的局部上下文信息。當(dāng)刪除MLP組卷積操作后,局部幾何特征只對自身進(jìn)行自注意力融合操作,融合后的特征依舊能夠充分表達(dá)局部區(qū)域的細(xì)節(jié)信息。但由于忽略每個點(diǎn)的絕對位置信息,缺乏從點(diǎn)云空間中學(xué)習(xí)到的全局單點(diǎn)結(jié)構(gòu)特征,從而降低了特征豐富性,無法獲得具備高級語義識別能力的上下文語義信息,導(dǎo)致網(wǎng)絡(luò)識別能力下降而影響分割精度。雖然參數(shù)量有一定下降,但精度的增長對網(wǎng)絡(luò)整體性能的提升更大。實(shí)驗(yàn)結(jié)果如表5所示,其中MLPG-NO表示不引入MLPGConv模塊。
表5 MLPGConv模塊有效性驗(yàn)證Tab.5 Effectiveness verification of MLPGConv module
4.3.4 Transformer
網(wǎng)絡(luò)加入Transformer模塊的自注意力機(jī)制,分割精度和網(wǎng)絡(luò)參數(shù)量都有明顯增長。實(shí)驗(yàn)結(jié)果如表6所示,其中Transformer-NO表示不引入Transformer模塊。網(wǎng)絡(luò)參數(shù)量增長在于:對特征的額外操作增加了網(wǎng)絡(luò)計(jì)算量。分割精度增長的原因在于點(diǎn)對之間的語義關(guān)系和局部細(xì)粒度的上下文信息。學(xué)習(xí)點(diǎn)對之間的語義關(guān)系能夠提高網(wǎng)絡(luò)識別復(fù)雜環(huán)境中物體的能力,減少錯分割現(xiàn)象。全局單點(diǎn)特征和局部幾何特征融合后獲得局部細(xì)粒度的上下文信息,獲得物體局部的幾何結(jié)構(gòu)信息,解決了欠分割或過分割問題,提高了網(wǎng)絡(luò)細(xì)粒度分割精度。
表6 Transformer模塊有效性驗(yàn)證Tab.6 Effectiveness verification of Transformer module
本文提出了一種自注意力特征融合組卷積神經(jīng)網(wǎng)絡(luò)的三維點(diǎn)云語義分割算法。首先,利用MLP組卷積獲得全局點(diǎn)云特征;其次,通過代理點(diǎn)圖組卷積獲得細(xì)粒度的幾何特征信息;然后,通過Transformer特征融合模塊的自注意機(jī)制加強(qiáng)全局和局部幾何特征之間的聯(lián)系,挖掘局部上下文幾何信息;最后,通過多尺度操作擴(kuò)大局部鄰域感受野,進(jìn)一步增強(qiáng)捕獲細(xì)粒度局部上下文幾何信息的能力。通過輕量化特征提取網(wǎng)絡(luò),以較少的冗余信息增強(qiáng)了特征的豐富性,實(shí)現(xiàn)了對點(diǎn)云的高性能處理,在S3DIS數(shù)據(jù)集和SemanticKITTI數(shù)據(jù)集上算法的分割精度分別達(dá)到79.3%和56.6%。
然而,本文算法仍存在一定的局限性,一方面在于網(wǎng)絡(luò)分析復(fù)雜環(huán)境下物體類別時存在不足,具有相似幾何結(jié)構(gòu)特征的物體在空間上接近時,網(wǎng)絡(luò)對物體邊界點(diǎn)類別的判斷不準(zhǔn)確,周圍類別影響網(wǎng)絡(luò)對物體整體結(jié)構(gòu)的判斷,出現(xiàn)欠分割或錯分現(xiàn)象,網(wǎng)絡(luò)抗干擾能力有待提高;另一方面在于網(wǎng)絡(luò)處理稀疏性較強(qiáng)點(diǎn)云數(shù)據(jù)集時效果不理想,物體遠(yuǎn)離傳感器導(dǎo)致描述同部件幾何信息的點(diǎn)云數(shù)目減少,影響網(wǎng)絡(luò)從采樣后點(diǎn)云學(xué)習(xí)物體的幾何信息。所以,在非常稀疏數(shù)據(jù)集下保留更豐富信息和有效處理場景邊緣物體是未來研究的重點(diǎn)。