張曉輝 何金海 蘭鵬燕 徐圣斯
摘 要:針對復(fù)雜結(jié)構(gòu)的三維形狀分析與識別問題,提出了新穎的圖卷積分類方法,建立了局部幾何與全局結(jié)構(gòu)聯(lián)合圖卷積學(xué)習(xí)機制,有效提高了三維形狀數(shù)據(jù)學(xué)習(xí)的魯棒性與穩(wěn)定性。首先,通過最遠(yuǎn)點采樣與最近鄰方法構(gòu)造局部圖,并建立動態(tài)卷積算子,有效提取局部幾何特征;同時,基于特征域采樣構(gòu)造全局的特征譜圖,通過卷積算子獲得全局結(jié)構(gòu)信息。進而,構(gòu)建加權(quán)的聯(lián)合圖卷積學(xué)習(xí)網(wǎng)絡(luò)模型,引入注意力機制,實現(xiàn)自適應(yīng)的特征融合。最終,在聯(lián)合優(yōu)化目標(biāo)函數(shù)約束下,有效提高特征學(xué)習(xí)的性能。實驗結(jié)果表明,融合局部幾何與全局結(jié)構(gòu)的聯(lián)合圖卷積網(wǎng)絡(luò)學(xué)習(xí)機制,有效提高了深度特征的表示能力及區(qū)分性,具有更優(yōu)秀的識別力和分類性能。該研究方法可應(yīng)用于大規(guī)模三維場景識別、三維重建以及數(shù)據(jù)壓縮,在機器人、產(chǎn)品數(shù)字化分析、智能導(dǎo)航、虛擬現(xiàn)實等領(lǐng)域具有著重要的工程意義與廣泛的應(yīng)用前景。
關(guān)鍵詞:深度學(xué)習(xí);形狀分類;三維形狀;圖卷積;局部幾何;全局結(jié)構(gòu)
中圖分類號:TP391.41?? 文獻標(biāo)志碼:A??? 文章編號:1001-3695(2023)12-049-3828-06
doi: 10.19734/j.issn.1001-3695.2023.04.0170
3D shape classification method based on joint graph convolution learning of local geometry and global structure
Abstract:Aiming at the issue of complex 3D shape analysis and recognition, this paper presented a novel 3D graph convolution classification method. It established a joint graph convolution learning mechanism of local geometry and global structure to provide both geometrical features and global context features, which effectively improved the robustness and stability of 3D data learning. Firstly, it constructed the local graph in spatial domain by farthest point sampling and Knearest neighbor method, and designed a dynamic spectral graph convolution operator to extract local geometric features effectively. Meanwhile, it constructed the global feature graph based on random sampling in the feature domain, and obtained the global structure context by spectral graph convolution. Furthermore, it established a weighted graph convolution network with an attention mechanism to achieve adaptive feature fusion. Finally, under the optimization of objective function, it improved the performance of feature learning effectively. Experimental results show that the proposed joint network learning mechanism, which combined local geometric features with global structure features, enhances the representation ability and discrimination of deep features, and obtains better recognition and classification performance compared with advanced methods. This method can be used for largescale point clouds recognition, 3D shape reconstruction and data compression. It has important research significance and broad application prospects in robot, product digital analysis, intelligent navigation, virtual reality and other fields.
Key words:deep learning; shape classification; threedimensional shape; graph convolution; local geometry; global structure
0 引言
深度學(xué)習(xí)在圖像、文本、語音等數(shù)據(jù)的識別及理解中取得了顯著的成果。三維數(shù)據(jù)由于具有非結(jié)構(gòu)性、無序性、多樣性,對現(xiàn)有的深度學(xué)習(xí)方法提出了巨大的挑戰(zhàn)。目前,三維數(shù)據(jù)的深度學(xué)習(xí)方法可大體分為三種:a)體素方法,通過將點云劃分到體素中,使用3D卷積提取形狀特征,如VoxNet[1]、3D ShapeNets[2]、NormalNet[3]等,但此類方法在體素化處理過程中需要大量的存儲和計算消耗;b)多視圖方法,該方法將點云投射到二維平面,通過不同視角的結(jié)合,利用基于圖像的CNN學(xué)習(xí)框架實現(xiàn)點云視圖特征的提取,如Multiview[4]、ViewGCN[5]、GVCNN[6]等,然而,2D視圖往往會導(dǎo)致結(jié)構(gòu)信息的丟失,在一定程度上影響了形狀識別的性能;c)基于原始數(shù)據(jù)方法,此類方法直接在原始數(shù)據(jù)上應(yīng)用深度學(xué)習(xí)模型,如PointNet[7]、PointNet++[8]等,然而,其仍然針對的是點集進行多尺度分析,而不是點云之間的幾何結(jié)構(gòu)學(xué)習(xí)。
近年來,基于圖表示的三維數(shù)據(jù)得到了廣泛應(yīng)用,如三維場景模型、CAD模型、社交網(wǎng)絡(luò)、引文網(wǎng)絡(luò)、生物和化學(xué)中的分子結(jié)構(gòu)數(shù)據(jù)等。這些數(shù)據(jù)不僅具有復(fù)雜的結(jié)構(gòu)關(guān)系,更具有多維特征表示。
最早的圖數(shù)據(jù)學(xué)習(xí)模型是由Bruna等人[9]提出的譜圖卷積神經(jīng)網(wǎng)絡(luò)Spectral CNN;Defferrard等人[10]則用切比雪夫多項式近似卷積濾波器,大大降低了計算復(fù)雜度;Kipf等人[11]使用一階近似簡化計算的方法,提出了一種簡單有效的層式傳播方法。GNN[12]根據(jù)隨機游走將一個圖結(jié)構(gòu)的數(shù)據(jù)變化為一個類似規(guī)則的數(shù)據(jù), 從而實現(xiàn)一維的卷積。GraphSAGE[13]學(xué)習(xí)的是聚合函數(shù),能夠利用頂點的屬性信息產(chǎn)生未知頂點嵌入,克服了之前GCN訓(xùn)練依賴于具體圖結(jié)構(gòu)的局限。GAT[14]則進一步引入注意力機制對鄰域節(jié)點有區(qū)別地聚合。最近,圖卷積神經(jīng)網(wǎng)絡(luò)被擴展應(yīng)用在點云數(shù)據(jù)上。DGCNN[15]既保持了點云的排列不變性,又有效提取點云局部形狀特征。PUGCN[16]提出了三種新穎的點上采樣模塊:multibranch GCN、Clone GCN和NodeShuffle,其模塊使用圖卷積網(wǎng)絡(luò)更好地編碼局部點信息。
圖卷積學(xué)習(xí)網(wǎng)絡(luò)能夠充分揭示三維數(shù)據(jù)的局部幾何結(jié)構(gòu),在特征提取中具有顯著的優(yōu)勢,但目前的方法大多遵循從局部到全局的層次結(jié)構(gòu)學(xué)習(xí)策略,往往忽視了全局結(jié)構(gòu)的相關(guān)性;而且,圖卷積算子通常需要鄰域搜索、特征求解、特征聚合及降采樣等操作,不可避免地帶來冗余的存儲和大量的計算消耗,甚至信息的丟失,從而降低了學(xué)習(xí)效率。因此,探索高效圖卷積算子,提取信息豐富的結(jié)構(gòu)特征已成為計算機視覺及計算機圖形學(xué)領(lǐng)域重點研究內(nèi)容之一。
本文提出了一種新穎的圖卷積網(wǎng)絡(luò)學(xué)習(xí)方法,通過建立局部幾何與全局結(jié)構(gòu)聯(lián)合學(xué)習(xí)機制,有效融合幾何特征與上下文結(jié)構(gòu)特征,顯著提高形狀描述符的穩(wěn)定性及區(qū)分性。而且,為了避免在傳播過程中特征信息的損失,引入注意力層,通過權(quán)值判定進行特征融合。本文的圖卷積算子能夠依據(jù)三維形狀自適應(yīng)動態(tài)更新,對于非剛性變換及復(fù)雜幾何形狀具有極強的魯棒性,在形狀分析與識別中具有顯著的性能。
如圖1所示,本文建立了局部幾何與全局聯(lián)合圖卷積學(xué)習(xí)機制。首先,采用FPS和ball query方法,基于空間鄰域構(gòu)造局部拓?fù)鋱D,通過動態(tài)譜圖卷積算子提取局部幾何特征;其次,根據(jù)特征域中的特征相似性構(gòu)造全局結(jié)構(gòu)圖,通過圖卷積算子提取全局上下文結(jié)構(gòu)特征;進而,基于注意力機制實現(xiàn)特征自適應(yīng)加權(quán)融合。最終,通過聯(lián)合優(yōu)化目標(biāo)函數(shù)實現(xiàn)三維形狀識別與分類。
1 動態(tài)圖譜卷積算子
三維形狀數(shù)據(jù)往往具有大規(guī)模的點云、復(fù)雜的拓?fù)浣Y(jié)構(gòu)、多樣化的表示,為了提高學(xué)習(xí)模型的結(jié)構(gòu)適應(yīng)性以及高效性,本文提出了動態(tài)采樣以及譜圖卷積算子的思想,能有效提取形狀特征。
1.1 局部拓?fù)鋱D構(gòu)建
首先,利用最遠(yuǎn)點采樣方法FPS對輸入點云進行降采樣操作,獲取有效的關(guān)鍵點。
其次,以采樣關(guān)鍵點為核心,使用ball query方法構(gòu)造球形鄰域,獲取K個最近鄰點,建立局部拓?fù)鋱D表示。
如圖2所示,左側(cè)模型為最遠(yuǎn)點采樣(m=512)的關(guān)鍵點,右側(cè)為經(jīng)過ball query查找的(K=32)最近鄰點的可視化。從圖中可見,采樣點及其鄰域有效地揭示了模型的形狀信息。
基于構(gòu)建的局部圖,進一步建立局部譜圖。
給定任一關(guān)鍵點xi及其局部k鄰域xi,1,xi,2,…,xi,k∈Neb(xi),本文采用空域中的歐氏距離來度量局部圖的邊權(quán)重 Wij=dist(xi,xj)。
計算局部圖的拉普拉斯矩陣Llocal:
Llocal=In-D-1/2WtD-1/2(1)
其中:In是單位矩陣;D∈Euclid ExtraaBpk×k為對角度矩陣;Wt∈Euclid ExtraaBpk×k為每個鄰域構(gòu)造的鄰接矩陣。
如圖3所示,輸入具有N個關(guān)鍵點的局部拓?fù)鋱D(N×K),其中N代表關(guān)鍵點的數(shù)目,K代表每一個關(guān)鍵點的鄰域點數(shù)。通過歐氏距離計算點之間的相似距離dist(xi,xj),構(gòu)建N×K×K的鄰接矩陣W,對W求和,得到度矩陣D。最終獲得N個歸一化的拉普拉斯矩陣Llocal。
1.2 全局特征圖構(gòu)建
局部譜圖能夠有效揭示三維形狀的局部幾何信息,但卻忽視了全局上下文結(jié)構(gòu)信息。
因此,本文進一步提出了全局結(jié)構(gòu)圖卷積學(xué)習(xí)方法,從特征空間有效度量結(jié)構(gòu)上下文信息,并通過局部幾何與全局結(jié)構(gòu)聯(lián)合學(xué)習(xí),提供更加豐富的形狀特征。
如圖4所示,運用MLP提取模型的底層特征f(xi),并對點云進行隨機采樣。與局部圖的歐氏度量不同,本文在特征域度量采樣點之間的特征相似性,Wf∈Euclid ExtraaBps×s:
其中:S為全局采樣點的個數(shù),最終構(gòu)建全局拉普拉斯矩陣Lglobal。
1.3 動態(tài)譜圖卷積
基于構(gòu)建的局部譜圖Llocal與全局結(jié)構(gòu)譜圖Lglobal,建立了動態(tài)的譜圖卷積算子,能有效提取三維形狀特征。
傳統(tǒng)的圖卷積在固定的圖結(jié)構(gòu)上操作,在一定程度上限制了復(fù)雜結(jié)構(gòu)的適應(yīng)能力。為此,提出了具有動態(tài)圖構(gòu)造的分層點集學(xué)習(xí)架構(gòu)。
本文的網(wǎng)絡(luò)框架中,每個網(wǎng)絡(luò)層均基于動態(tài)采樣創(chuàng)建局部拓?fù)鋱D及全局結(jié)構(gòu)圖,依次實現(xiàn)譜圖濾波、池化及ReLU函數(shù)的操作。與以往的方法相比,動態(tài)譜圖卷積可以在不同的網(wǎng)絡(luò)層調(diào)整卷積核的感知范圍,捕捉多個空間層次的特征。
傳統(tǒng)的譜圖濾波可以表示如下:
gθ(L)x=gθ(UΛUT)x=Ugθ(Λ)UTx(3)
其中:U、Λ分別是特征向量和特征值;而gθ是可學(xué)習(xí)的卷積核。對于卷積核gθ,引入K階多項式進行擬合來減小計算量:
其中:參數(shù)θ k ∈Euclid ExtraaBpK是多項式系數(shù),將式子代入傅里葉卷積后得到
因為當(dāng)K很大時,Lk并不稀疏,所以利用切比雪夫多項式展開來近似Lk[10], gθ的切比雪夫K階近似為
最終,分別為局部拓?fù)鋱D和全局結(jié)構(gòu)圖構(gòu)建譜圖卷積。
fl+1local=σ(gθ(Llocal,N)·Wl·fl)(8)
其中:Llocal是Ksize的局部譜圖; f1和fl+1分別為輸入輸出特征;Wl是可學(xué)習(xí)的權(quán)重矩陣;σ(·)為ReLU函數(shù);gθ(·)是局部譜圖卷積算子。
fl+1global=σ(gf(Lglobal,S)·Wl·fl)(9)
其中:gf(·)為基于特征空間度量矩陣的全局譜圖卷積算子;Lglobal為全局選取的S個樣點構(gòu)建的全局譜圖。
2 自適應(yīng)加權(quán)聯(lián)合學(xué)習(xí)網(wǎng)絡(luò)
本文的自適應(yīng)加權(quán)聯(lián)合學(xué)習(xí)網(wǎng)絡(luò)由局部幾何學(xué)習(xí)與全局結(jié)構(gòu)上下文學(xué)習(xí)兩大分支構(gòu)成(圖5)。
首先,采用三層MLP學(xué)習(xí),輸出128維度特征作為底層幾何特征。其次,建立局部圖卷積模塊TConv以及全局卷積模塊FConv。其中,TConv由三層卷積構(gòu)成,F(xiàn)Conv由兩層卷積構(gòu)成。每個卷積層包含了采樣、譜圖濾波、最大池和ReLU函數(shù)操作。局部譜圖卷積的各個卷積層輸出特征大小分別為128×256,32×512和1×1024。全局譜圖卷積則分別輸出128×256與32×512大小的結(jié)構(gòu)特征。
由于每一層均從上一層采樣點中進行降采樣,這種結(jié)構(gòu)往往會導(dǎo)致部分信息的丟失。為了克服以上不足,在網(wǎng)絡(luò)層中加入了注意力機制。
對各層輸出特征分別施加全連接操作使其維度一致,而后將其拼接,通過注意力層計算各自權(quán)重。最終,局部特征與全局結(jié)構(gòu)特征有效融合,生成具有顯著區(qū)分能力的深度特征。
本文借鑒AMGCN[17]中的方法,實現(xiàn)全局結(jié)構(gòu)特征與局部幾何特征的融合。
設(shè)底層特征、局部幾何特征、全局結(jié)構(gòu)特征分別為cm、c1、cg,使用共享權(quán)值函數(shù)att(cm,c1,cg)來學(xué)習(xí)特征權(quán)重,分別為αm、α1、αg,如下所示。
αm,α1,αg=att(cm,c1,cg)(10)
首先對每個特征施加非線性轉(zhuǎn)換,然后用tanh函數(shù)獲得各自的權(quán)重值:
wCm=qT·tanh(W·(cm)T+b)(11)
其中:W是權(quán)重矩陣;b是偏置向量。同理,可以得到其他各特征的權(quán)重值分別為wC1、wCg。最終,采用softmax函數(shù)對權(quán)重值進行歸一化:
從而,獲得局部幾何特征及全局結(jié)構(gòu)特征的權(quán)重:
αl=softmax(wCl)αg=softmax(wCg)(13)
最終,對每層特征加權(quán)并求和,得到輸出特征(圖6)。
fout=αm·cm+αl·cl+αg·cg(14)
3 實驗效果與分析
本文采用了標(biāo)準(zhǔn)的三維數(shù)據(jù)集SHREC和點云數(shù)據(jù)集ModelNet進行實驗驗證與分析,其中,SHREC數(shù)據(jù)集包含了SHREC 2010、2011和2015三個庫,分別來自10、30、50類的200個、600個、1 200個姿態(tài)各異的三維網(wǎng)格模型。ModelNet40包含40個類別的12 311個CAD模型,每個模型都是由2 048個三維點組成的點云。ModelNet10包含了10個類別的4 899個3D點云模型數(shù)據(jù)。
實驗中,本文設(shè)置80%的數(shù)據(jù)作為訓(xùn)練集,20%作為測試集,學(xué)習(xí)率為0.001,學(xué)習(xí)衰減率0.8,momentum為0.9,切比雪夫系數(shù)為10。
1)采樣點與局部鄰域
首先,驗證采樣點及鄰域數(shù)目對于特征學(xué)習(xí)與識別精度的影響。
圖7(a)為基于SHREC三個數(shù)據(jù)庫及ModelNet數(shù)據(jù)集,使用不同的采樣點所取得的分類精度結(jié)果??梢?,隨著采樣點數(shù)量的增加,精度逐漸提高;即使采樣點較少的情況下(100),精度仍可達到92%。當(dāng)采樣點達到500左右,精度曲線趨于平穩(wěn)(圖7(b))。而且,隨著K近鄰數(shù)目的增加,精度也隨之提高,不同K近鄰的分類性能如表1所示,但當(dāng)K為64時,精度開始降低,進一步證明了鄰域不能太大,否則不能保持良好的局部幾何結(jié)構(gòu)。因此,在實驗中,選擇了512個采樣點和32個鄰域點作為分類任務(wù)。
2)局部幾何與全局結(jié)構(gòu)聯(lián)合學(xué)習(xí)網(wǎng)絡(luò)
本文的網(wǎng)絡(luò)框架有效結(jié)合了局部幾何特征與全局結(jié)構(gòu)上下文特征,從而提高深度特征的區(qū)分性與魯棒性。因此,本文進一步驗證不同特征對于學(xué)習(xí)性能的影響,通過提取各個網(wǎng)絡(luò)學(xué)習(xí)分支中的深度特征進行實驗對比分析。
如圖8(a)所示,中間列是MLP提取的512個采樣點的底層特征,可見其具有冗余性,無法有效識別形狀及結(jié)構(gòu)。右列為經(jīng)過局部圖卷積Tconv后的128個采樣點的幾何特征,可見即使采樣點減少,但仍然能夠有效揭示同類模型的幾何細(xì)節(jié),如邊緣和內(nèi)部的一致性。
圖8(b)是airplane模型的深度特征可視化??梢钥吹?,從左側(cè)最初的底層特征到中間的局部幾何特征以及右側(cè)的全局結(jié)構(gòu)特征,無論是幾何細(xì)節(jié)還是整體結(jié)構(gòu)性逐步明晰,很好地揭示了語義結(jié)構(gòu)的一致性,如飛機的主干、機翼、尾翼等。
圖8(c)可視化了兩組不同bathtub模型的融合特征。第二行為底層的冗余特征,第三行為融合的深度特征。可見,本文的深度融合特征能夠有效揭示模型間的相似性,即使在形狀差異較大的同類模型上,也具有相同的特征分布。
本文分別測試了不同特征對于分類性能的影響。如圖9所示,local graph learning代表局部幾何學(xué)習(xí)的損失曲線,global graph learning代表了全局結(jié)構(gòu)學(xué)習(xí)的損失曲線,joint graph learning代表聯(lián)合學(xué)習(xí)的損失曲線。可見,接近2 500步后三者均趨于平穩(wěn)。相對于局部幾何學(xué)習(xí),全局結(jié)構(gòu)學(xué)習(xí)收斂速度較快,損失較??;而融合后的網(wǎng)絡(luò)結(jié)構(gòu)則獲得最優(yōu)的性能,其損失收斂更快更平穩(wěn)。
表2是對三種特征在ModelNet數(shù)據(jù)集上進行測試的分類性能??梢姡徽撌荕odelNet10還是ModelNet40,全局結(jié)構(gòu)學(xué)習(xí)網(wǎng)絡(luò)都比局部幾何學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練精度更勝一籌,提高了平均0.3%的精度,而兩者融合以后的精度顯然優(yōu)于融合之前的準(zhǔn)確率。
本文進一步驗證了學(xué)習(xí)網(wǎng)絡(luò)在非剛性數(shù)據(jù)集(SHREC)上的識別性能。如圖10所示,從左至右,網(wǎng)絡(luò)層逐漸加深,由圖可見每層網(wǎng)絡(luò)中自適應(yīng)采樣的關(guān)鍵點以及其對分類學(xué)習(xí)的貢獻程度。隨著網(wǎng)絡(luò)學(xué)習(xí)的深入,關(guān)鍵點的表示能力逐漸增強,而且對于非剛性變換具有極強的魯棒性,有效揭示了形變模型之間的結(jié)構(gòu)一致性。
3)自適應(yīng)加權(quán)網(wǎng)絡(luò)機制
首先在基礎(chǔ)結(jié)構(gòu)上對模型進行了訓(xùn)練及測試,進而,引入注意力加權(quán)機制,進行對比分析。
圖11(a)是基于加權(quán)網(wǎng)絡(luò)機制和未加權(quán)機制的學(xué)習(xí)損失曲線。其中,Conv曲線是基礎(chǔ)的三層網(wǎng)絡(luò)的訓(xùn)練結(jié)果,WConv曲線為自適應(yīng)加權(quán)后的訓(xùn)練結(jié)果??梢?, 相比于基礎(chǔ)網(wǎng)絡(luò),增加了權(quán)重學(xué)習(xí)后不僅損失更小,并且收斂速度更快。圖11(b)是加權(quán)前后的訓(xùn)練精度對比,從圖中可以看出,無論是ModelNet10還是ModelNet40數(shù)據(jù)集,自適應(yīng)加權(quán)學(xué)習(xí)后的精度比加權(quán)之前有了一定的提升。
4)與先進方法的性能比較
本文進一步實驗,對比分析了目前先進方法的性能(表3)。
PointNet[7]提出了直接在點云數(shù)據(jù)上應(yīng)用深度學(xué)習(xí)模型的方法,通過MlP提取模型的全局特征,缺失了局部特征。針對此問題,PointNet++[8]在PointNet的基礎(chǔ)上作出了改進。然而,PointNet++單獨處理局部點集中的每個點,忽略了點與其鄰域點之間的關(guān)系。ACNN[18]定義了一種環(huán)形卷積,能更好地捕獲每個點的局部鄰域幾何。DensePoint[19]選用了球體區(qū)域,設(shè)計了一種可以描述區(qū)域內(nèi)點云形狀的編碼。PointCLIP[22]將圖像—文本預(yù)訓(xùn)練的CLIP模型推廣到3D識別中,提出了CLIP編碼的點云和3D類別文本之間的對齊策略,提高了點云的識別能力。CrossPoint[23]則引入圖像學(xué)習(xí)來增強點云特征提取的顯著性。
本文的網(wǎng)絡(luò)結(jié)構(gòu)通過對空間域以及特征域的譜圖構(gòu)造,捕獲局部幾何信息以及全局結(jié)構(gòu)信息。與ACNN方法相比,在ModelNet10數(shù)據(jù)上,本文方法高0.19%,在ModelNet40數(shù)據(jù)上高出0.71%,同時準(zhǔn)確率比PointNet、PointNet++、DensePoint方法分別高4.11%、1.41%、0.11%。
此外,進一步與PointASNL[20]、MGSAGC[21]進行了對比分析。本文方法對每層的采樣點動態(tài)更新,并通過輸出特征的權(quán)重學(xué)習(xí),有效避免傳遞過程中信息的流失。在ModelNet10數(shù)據(jù)上,比MGSAGC高出1.39%,在ModelNet40數(shù)據(jù)集上,比這兩種方法平均高出0.46%。而與兩種跨模態(tài)學(xué)習(xí)方法PointCLIP[22]、CrossPoint[23]相比,平均提升了約1.7%。
為了驗證本文方法的魯棒性,分別采樣1 024、512、256、12、 64個點,在局部幾何與全局結(jié)構(gòu)聯(lián)合學(xué)習(xí)的網(wǎng)絡(luò)框架上進行訓(xùn)練,測試采樣點的稀疏度對網(wǎng)絡(luò)性能的影響。SONet[24]運用無監(jiān)督的神經(jīng)網(wǎng)絡(luò)SOM來模擬點云的空間分布,它的精度隨著點數(shù)的減少而急劇下降。從圖12可以看出,RSCNN[25]與PointASNL的表現(xiàn)較為優(yōu)秀,其中,RSCNN方法通過一種新的從關(guān)系學(xué)習(xí)卷積算子,顯式地編碼點的幾何關(guān)系。與之相比,本文聯(lián)合學(xué)習(xí)框架獲得了更好的性能,而且在減少到512個采樣點后,下降的速度明顯放緩。實驗證明,與其他幾個方法相比,本文的網(wǎng)絡(luò)學(xué)習(xí)模型對于較少的輸入數(shù)據(jù)具有更強的魯棒性和穩(wěn)定性。
4 結(jié)束語
針對復(fù)雜結(jié)構(gòu)三維數(shù)據(jù)的深度學(xué)習(xí)問題,本文提出了新穎的局部幾何與全局結(jié)構(gòu)聯(lián)合圖卷積學(xué)習(xí)機制,實驗論證了其顯著的學(xué)習(xí)性能。
基于局部到全局的學(xué)習(xí)策略,有效構(gòu)造了局部圖結(jié)構(gòu),通過動態(tài)采樣及譜圖卷積提取局部幾何特征。同時,為了彌補全局上下文結(jié)構(gòu)的丟失,提出了全局結(jié)構(gòu)學(xué)習(xí)網(wǎng)絡(luò),通過空間域和特征域的有效結(jié)合,提升深度特征的區(qū)分性與穩(wěn)定性,在形狀識別和分類中具有顯著的優(yōu)勢。本文建立了自適應(yīng)加權(quán)網(wǎng)絡(luò)結(jié)構(gòu),引入注意力機制,避免了動態(tài)采樣所帶來的信息損失,顯著提高了三維形狀分析與識別性能。在研究工作中,其不僅在國際標(biāo)準(zhǔn)數(shù)據(jù)集中進行了驗證,而且在三維場景掃描數(shù)據(jù)中進行了測試,在形狀目標(biāo)識別中具有顯著性,但對于多目標(biāo)復(fù)雜場景還需進一步改進及優(yōu)化。
本文的研究工作為進一步實現(xiàn)智能化的大規(guī)模三維場景識別、數(shù)據(jù)壓縮、動態(tài)生成等技術(shù)奠定了堅實的理論基礎(chǔ)[26~28],可推廣應(yīng)用于機器人、智能導(dǎo)航、產(chǎn)品數(shù)字化分析、虛擬現(xiàn)實等領(lǐng)域,具有重要的研究意義與廣泛的應(yīng)用前景。
參考文獻:
[1]Maturana D,Scherer S. VoxNet: a 3D convolutional neural network for realtime object recognition [C]// Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems. Washington DC: IEEE Computer Society,2015: 922-928.
[2]Wu Zhirong,Song Shuran,Khosla A,et al. 3D ShapeNets: a deep representation for volumetric shapes [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society,2015: 1912-1920.
[3]Wang Cheng, Cheng Ming, Sohel F,et al. NormalNet: a voxelbased CNN for 3D object classification and retrieval [J]. Neurocomputing,2019,323: 139-147.
[4]Su Hang,Maji S,Kalogerakis E,et al. Multi-view convolutional neural networks for 3D shape recognition [C]// Proc of IEEE International Conference on Computer Vision. Washington DC: IEEE Computer Society,2015: 945-953.
[5]Wei Xin,Yu Ruixuan,Sun Jian. ViewGCN: viewbased graph convolutional network for 3D shape analysis [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society,2020: 1847-1856.
[6]Feng Yifan,Zhang Zizhao,Zhao Xibin,et al. GVCNN: groupview convolutional neural networks for 3D shape recognition [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society,2018: 264-272.
[7]Qi C R,Su Hao,Mo Kaichun,et al. PointNet: deep learning on point sets for 3D classification and segmentation [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society,2017: 77-85.
[8]Qi C R,Yi Li,Su Hao,et al. PointNet+: deep hierarchical feature learning on point sets in a metric space [C]// Proc of the 31st Conference on Neural Information Processing Systems. Cambridge,MA: MIT Press,2017: 5099-5108.
[9]Bruna J,Zaremba W,Szlam A,et al. Spectral networks and locally connected networks on graphs [EB/OL]. [2022-06-05]. https://arxiv. org/pdf/1312. 6203. pdf.
[10]Defferrard,Bresson X,Vandergheynst P,et al. Convolutional neural networks on graphs with fast localized spectral filtering [C]// Advances in Neural Information Processing Systems. Cambridge,MA: MIT Press,2016: 3844-3852.
[11]Kipf T N,Welling M. Semisupervised classification with graph convolutional networks [EB/OL]. [2022-06-05]. https://arxiv. org/pdf/1609. 02907. pdf.
[12]Hechtlinger Y,Chakravarti P,Qin Jining. A generalization of convolutional neural networks to graphstructured data [EB /OL]. [2022-06-05]. https://arxiv. org/pdf/1704. 08165. pdf.
[13]Hamilton W L,Ying R,Leskovec J. Inductive representation learning on large graphs [C]// Advances in Neural Information Processing Systems. Cambridge,MA: MIT Press,2017: 1027-1034.
[14]Velikovic' P,Cucurull G,Casanova A,et al. Graph attention networks [C/OL]. [2022-06-05]. https://arxiv. org/pdf/1710. 10903. pdf.
[15]Wang Yue,Sun Yongbin,Liu Ziwei,et al. Dynamic graph CNN for learning on point clouds [J]. ACM Trans on Graphics,2018,38(5): 1-12.
[16]Qian Guochen,Abualshour A,Li Guohao,et al. PUGCN: point cloud upsampling using graph convolutional networks [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society,2021: 11683-11692.
[17]Wang Xiao,Zhu Meiqi,Bo Deyu,et al. AMGCN: adaptive multichannel graph convolutional networks [C]// Proc of the 26th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. New York: ACM Press,2020: 1243-1253.
[18]Komarichev A,Zhong Zichun,Hua Jing. ACNN: annularly convolutional neural networks on point clouds [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society,2019: 7421-7430.
[19]Liu Yongcheng,F(xiàn)an Bin,Meng Gaofeng,et al. DensePoint: learning densely contextual representation for efficient point cloud processing [C]// Proc of IEEE/CVF International Conference on Computer Vision. Washington DC: IEEE Computer Society,2020: 5239-5248.
[20]Yan Xu,Zheng Chaoda,Li Zhen,et al. PointASNL: robust point clouds processing using nonlocal neural networks with adaptive sampling [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society,2020: 5588-5597.
[21]Wu Bo,Lang Bo. MGSAGC: a multiscale graph and its selfadaptive graph convolution network for 3D point clouds [EB/OL]. [2022-06-05]. https://arxiv. org/pdf/2012. 12445. pdf.
[22]Sun Qi,Liu Hongyan,He Jun,et al. DAGC: employing dual attention and graph convolution for point cloud based place recognition [C]// Proc of International Conference on Multimedia Retrieval. New York: ACM Press,2020: 224-232.
[23]Afham M,Dissanayake I,Dissanayake D,et al. CrossPoint: selfsupervised crossmodal contrastive learning for 3D point cloud understanding [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2022: 9892-9902.
[24]Li Jiaxin,Chen B M,Lee G H. SONet: selforganizing network for point cloud analysis [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society,2018: 9397-9406.
[25]Liu Yongcheng,F(xiàn)an Bin,Xiang Shiming,et al. Relationshape convolutional neural network for point cloud analysis [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society,2019: 8895-8904.
[26]夏清,李帥,郝愛民,等. 基于深度學(xué)習(xí)的數(shù)字幾何處理與分析技術(shù)研究進展 [J]. 計算機研究與發(fā)展,2019,56(1): 155-182. (Xia Qing,Li Shuai,Hao Aimin,et al. Deep learning for digital geometry processing and analysis: a review [J]. Journal of Computer Research and Development,2019,56(1): 155-182.)
[27]李海生,武玉娟,李艷萍,等. 基于深度學(xué)習(xí)的三維數(shù)據(jù)分析理解方法綜述 [J]. 計算機學(xué)報,2019,42(79): 1-24. (Li Haisheng,Wu Yujuan,Li Yanping,et al. A survey of 3D data analysis and understanding based on deep learning [J]. Chinese Journal of Computers,2019,42(79): 1-24.)
[28]閆林. 三維點云數(shù)據(jù)的智能感知方法研究 [D]. 西安: 西安電子科技大學(xué),2021. (Yan Lin. Research on intelligent perception method for 3D point cloud data[D]. Xian: Xidian University,2021.