張 毅,林云漢,3,劉雙元
(1.武漢科技大學(xué)計算機科學(xué)與技術(shù)學(xué)院,武漢 430065;2.智能信息處理與實時工業(yè)系統(tǒng)湖北省重點實驗室,武漢 430065;3.武漢科技大學(xué) 機器人與智能系統(tǒng)研究院,武漢 430081)
三維數(shù)據(jù)是一種空間立體圖像,其不僅包含二維數(shù)據(jù)具有的顏色信息,而且還攜帶獨有的深度信息,在自主導(dǎo)航[1-2]、增強現(xiàn)實[3]、物體識別[4-5]、機器人[6-7]等眾多領(lǐng)域都有著廣泛的應(yīng)用。近年來,隨著基于深度學(xué)習的方法在二維數(shù)據(jù)處理方面取得重大突破,眾多研究者開始嘗試利用深度學(xué)習算法來替代傳統(tǒng)的算法實現(xiàn)高效的三維數(shù)據(jù)處理。不同于二維圖像數(shù)據(jù)的規(guī)則排列方式,三維的點云數(shù)據(jù)是無序的,因此直接進行卷積時存在以下三個問題:一是點云的無序性,點云數(shù)據(jù)對數(shù)據(jù)的順序不敏感,導(dǎo)致點云分布不規(guī)律;二是點云數(shù)據(jù)的排列不變性,不同的矩陣可以表示相同的點云數(shù)據(jù);三是點云數(shù)量的差異性,對于同一幅圖像,不同的傳感器獲取的點云數(shù)量可能存在很大差異。
現(xiàn)有基于深度學(xué)習處理點云數(shù)據(jù)的方法主要可以分為基于多視圖、基于體素和直接處理三類。其中,直接處理點云的方法很好地解決了對點云數(shù)據(jù)直接進行卷積時存在的問題,受到了廣泛的關(guān)注與研究。對點云進行直接處理的一系列網(wǎng)絡(luò)主要由采樣、分組和融合三個模塊組成。其中,采樣的算法包括最遠點采樣(Farthest Point Sampling,F(xiàn)PS)和隨機采樣(Random Sampling,RS)兩種。例如,PointNet++[8]和RSCNN[9]使用FPS 進行采樣,RandLA-Net[10]則是利用RS 進行采樣。經(jīng)過FPS 采樣的點會均勻覆蓋到物體表面,但是在點云密度分布不均勻的情況下,采樣點不具有代表性,而且由于采樣點對異常值敏感,在采樣時會選中原始點云中距離物體表面較遠的噪點作為采樣點。此外,F(xiàn)PS 的時間效率也較低,特別是在大規(guī)模場景下,采樣效率無法滿足網(wǎng)絡(luò)實時性的要求。在普通電腦配置下,對10 萬個點進行采樣,F(xiàn)PS 所需時間量級是秒級,而RS 的時間量級則是毫秒級,RS 比FPS 快至少1 000 倍以上。對于RS,其應(yīng)用前提是原始點云數(shù)據(jù)中點云被選擇的概率相同。相比于FPS,雖然RS 的速度很快,但是由于隨機采樣過程中所有點被選擇的概率是相同的,因此最終采樣的結(jié)果中會包含一些關(guān)鍵特征的點或者離群點,造成物體關(guān)鍵特征信息的缺失和算法對噪聲點敏感。
為解決FPS 算法時間效率和RS 算法關(guān)鍵特征丟失問題,本文參考人類觀察事物的注意力模式,提出一種基于注意力機制的采樣網(wǎng)絡(luò)。設(shè)計注意力采樣(AS)模塊用于收集語義和任務(wù)信息,有效提取原始點云數(shù)據(jù)中的關(guān)鍵點。在此基礎(chǔ)上,提出一種易于合并到不同backbone 中的注意力采樣架構(gòu),構(gòu)成面向低采樣率的點云數(shù)據(jù)處理網(wǎng)絡(luò)AS-Net。
AS-Net 網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,將n個點輸入到網(wǎng)絡(luò),然后通過兩個抽象階段和一個任務(wù)階段,再使用對稱函數(shù)融合點的特征后,最終輸出k個類的分類分數(shù)。其中,抽象階段由注意力采樣(AS)模塊、分組(GP)模塊和融合模塊組成。
圖1 AS-Net 網(wǎng)絡(luò)架構(gòu)Fig.1 Network architecture of AS-Net
2015 年起,很多研究將處理二維圖像過程中使用卷積神經(jīng)網(wǎng)絡(luò)的方式[11-12]應(yīng)用到點云的處理中,其核心思想是使用很多不同視角的二維圖像來代替三維點云數(shù)據(jù),之后再進行處理,例如MVCNN[13],該方法在ModelNet40 上的分類準確率達到90.1%。GVCNN[14]在MVCNN 的基礎(chǔ)上加入了對各視圖間關(guān)系的考慮,在ModelNet40 上的分類準確率達到93.1%。這類處理方法雖然具有大量的視角圖像,但依然會丟失信息,無法將三維模型完全表示出來。而使用這類方法應(yīng)考慮的另一個問題是如何聚合多個視圖的特征以實現(xiàn)提取特征的利用率最大化。
基于體素的點云處理方法將點云轉(zhuǎn)為體素網(wǎng)格來表示,以體素為單位進行卷積,使用三維濾波器來訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),例如VoxNet[15]。然而,當三維點云數(shù)據(jù)十分龐大時,三維卷積神經(jīng)網(wǎng)絡(luò)會處理得十分緩慢。因此,為保障網(wǎng)絡(luò)的正常訓(xùn)練,通常會選擇使用低分辨率的體素網(wǎng)格進行訓(xùn)練,但這樣會帶來大量的點云信息丟失,最終導(dǎo)致很大的誤差。對于這類方法,如果體素化的數(shù)據(jù)分辨率設(shè)置過低,會給后續(xù)任務(wù)帶來誤差,而如果分辨率設(shè)置過高,則會導(dǎo)致計算復(fù)雜度太大,因此,很難在這兩者之間取得平衡。
無論是基于多視圖的方法還是基于體素的方法,都需要對原始數(shù)據(jù)進行轉(zhuǎn)換,這種轉(zhuǎn)換不僅會導(dǎo)致模型復(fù)雜度過高,而且還會造成三維幾何信息的丟失。
2017 年,斯坦福大學(xué)的QI等[16]提出了一種直接處理點云數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)PointNet,實現(xiàn)了對點云的直接特征提取。PointNet 利用設(shè)計的T-Net 處理點云的置換不變性問題,通過對稱函數(shù)來獲取全局的特征信息,解決點云的無序性問題,針對物體分類、部件分割以及場景語義分割等任務(wù)提出了統(tǒng)一框架。然而,雖然這種設(shè)計十分簡單高效,但是卻忽略了點云中的局部信息。同年,QI 等[8]在PointNet 的基礎(chǔ)上提出 了PointNet++,通過學(xué)習不同尺度的上下文信息來融合局部特征。該算法的核心是多層次的特征提取結(jié)構(gòu)。首先在輸入點中選擇一些點作為中心點,然后圍繞每個中心點選擇一個區(qū)域,再將每個區(qū)域作為PointNet 的一個輸入樣本,得到一組區(qū)域特征。之后中心點不變,擴大區(qū)域,把上一步得到的區(qū)域特征輸入PointNet,依此類推,最終得到一組全局的特征,用于后續(xù)任務(wù)。此外,PointNet++還使用了多尺度的方法,解決了樣本不均勻的問題,在樣本稀疏時具有魯棒性。2019 年,LIU等[9]提出了RSCNN,其為一種基于點云之間幾何關(guān)系的卷積神經(jīng)網(wǎng)絡(luò),核心是建立點云間的拓撲約束關(guān)系,利用點云的形狀關(guān)系數(shù)據(jù)學(xué)習出卷積核里面的參數(shù)。學(xué)習后的卷積核參數(shù)包含了點云的形狀關(guān)系信息,可使整個網(wǎng)絡(luò)對點云剛體變換更具魯棒性。2020 年,ZHAO 等[17]提出了基于Transformer 的點云處理網(wǎng)絡(luò)PAT,利用Transformer 的置換不變性在不同的實驗任務(wù)中取得了較好的效果。同年,朱威等[18]提出了一種基于動態(tài)圖卷積的深度學(xué)習網(wǎng)絡(luò),將PointNet 中的特征學(xué)習模塊替換為動態(tài)圖卷積模塊,提高了整個網(wǎng)絡(luò)對局部信息的學(xué)習能力,在分類和分割的任務(wù)上具有很高的精度。2021 年,顧礫等[19]在PointCNN 的基礎(chǔ)上提出了一種基于多模態(tài)特征融合的網(wǎng)絡(luò)模型[20],在對點云直接特征提取前提下,融入了投影圖的特征信息,該網(wǎng)絡(luò)模型在ModelNet40 數(shù)據(jù)集上分類精度達到96.4%。2021 年,田鈺杰等[21]提出深度神經(jīng)網(wǎng)絡(luò)RMFP-DNN,利用自注意力模塊和多層感知機提取點云的局部特征和全局特征,并將提取的特征互相融合,提高了分類分割的魯棒性。
在三維視覺的實際應(yīng)用中,不僅要處理完整均勻且數(shù)據(jù)量較少的CAD 數(shù)據(jù)集模型,而且還要處理數(shù)據(jù)量多的實際點云數(shù)據(jù)。PointNet++[8]和RSCNN[9]可以很好地處理像ModelNet40 這樣的CAD 數(shù)據(jù)集,但是直接處理點云的三維神經(jīng)網(wǎng)絡(luò)大多包含了采樣這個核心步驟,例如PointNet++和RSCNN 中都包含最遠點采樣(FPS),對大規(guī)模實際點云的處理效率低下。除了高復(fù)雜度以外,F(xiàn)PS 與三維網(wǎng)絡(luò)訓(xùn)練是分開計算的,這意味著僅基于點云低級信息來選擇關(guān)鍵點而不考慮對象語義和任務(wù)消息。本文主要的設(shè)計思想便是設(shè)計一個可以代替獨立采樣過程的采樣層,并將該采樣過程集成到其他任務(wù)網(wǎng)絡(luò)中進行基于數(shù)據(jù)驅(qū)動的端到端訓(xùn)練。在此基礎(chǔ)上,提出一種基于長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)和注意力機制的采樣層AS Layer,然后將注意力采樣層連接起來,形成一個可以設(shè)置采樣率的注意力采樣模塊AS Module。將其他網(wǎng)絡(luò)模型中的采樣模塊替換為AS Module,形成最終的網(wǎng)絡(luò)AS-Net,即AS-Net由其他網(wǎng)絡(luò)的backbone和AS Module組成。
LSTM 網(wǎng)絡(luò)是一種特殊結(jié)構(gòu)的循環(huán)神經(jīng)網(wǎng)絡(luò),能夠很好地解決長期依賴的問題,在語音識別、文本建模、翻譯、行為預(yù)測、視頻理解等領(lǐng)域取得了成功應(yīng)用。然而,LSTM 存在一定局限性,當輸入序列較長時,難以得到最終合理的向量表示。為了解決這個問題,注意力機制被提出。在注意力機制中,LSTM 的中間結(jié)果被保留,然后通過新模型進行學(xué)習,最后與輸出相關(guān)聯(lián)以實現(xiàn)對信息的篩選[22]。近年來,基于注意力機制的網(wǎng)絡(luò)也被應(yīng)用于三維數(shù)據(jù)的處理,例如:3D2SeqViews[23]利用層次注意力的方法來處理視圖中的海量信息以及視圖之間的空間關(guān)系,有效融合了序列視圖;SeqViews2SeqLabels[24]引入了注意力機制以提高網(wǎng)絡(luò)的判別能力并為每種形狀類別添加相應(yīng)的權(quán)重;Point2Sequence[25]通過使用注意力機制將權(quán)重分配給不同的區(qū)域比例。在現(xiàn)有的3D 網(wǎng)絡(luò)中,注意力機制用于對網(wǎng)絡(luò)中的特征信息進行加權(quán),而基本方案還是基于二維多視圖的圖像處理。
本文提出的AS-Net 是一種直接處理點云的三維網(wǎng)絡(luò)。注意力機制用于構(gòu)建下采樣模塊,對點云進行加權(quán)以獲得原始點云數(shù)據(jù)的加權(quán)特征。經(jīng)過本文設(shè)計的下采樣模塊采樣的點,可以保留更多關(guān)鍵信息,特別是在處理大規(guī)模場景時可以保證網(wǎng)絡(luò)的準確性。
AS-Net 網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,其中包括由本文設(shè)計的AS Layer 構(gòu)成的AS Module 和其他網(wǎng)絡(luò)的backbone。
AS Layer 主 要由LSTM 組成,如圖2 所示。
圖2 AS Layer 結(jié)構(gòu)Fig.2 Structure of AS Layer
AS Layer 的目的是生成點云的注意力圖,這張注意力圖將會引導(dǎo)之后的分組層和融合層專注于更加重要的點。采樣方法如式(1)所示:
其中:Pt是采樣后的點集;Pt-1是輸入的原始點云數(shù)據(jù)或者是上一層采樣后的點云數(shù)據(jù);Ht-1和Ct-1是上一層的隱藏層特征和細胞狀態(tài)特征;N為LSTM 的循環(huán)次數(shù)。在訓(xùn)練過程中,Ht-1和Ct-1的初始值均為0,N表示的是經(jīng)過AS Module 采樣后的點云數(shù)目,可以手動設(shè)置為任意值。
本文使用LSTM 網(wǎng)絡(luò)中的“門”結(jié)構(gòu)來對原始點云數(shù)據(jù)進行特征提取,并生成原始點云數(shù)據(jù)的注意力特征圖。注意力特征圖的大小和輸入的原始點云的大小相同,通道數(shù)為1,經(jīng)過Sigmoid 激活函數(shù)之后,得到了每個點相對于后續(xù)任務(wù)的重要性,也就是注意力強度。本文設(shè)計的AS Layer 包含以下4 個主要的步驟:
步驟1確定需要丟棄的信息,如式(2)所示:
其中:Ft指的是遺忘門輸出;Ht-1和分別是上個隱藏層的特征信息和輸入點云的特征信息;Wf表示權(quán)重;bf表示偏差。
步驟2確定需要保留的信息以及狀態(tài)的更新方法,如式(3)和式(4)所示:
首先,通過輸入門保留數(shù)據(jù)并更新狀態(tài)值。然后,計算上一層的狀態(tài)Ct-1與遺忘門ft的乘積以放棄不必要的信息,例如離群點或者NaN 點。最后,計算輸入門與tanh 激活層所構(gòu)建的新候選向量的乘積,從而更新狀態(tài)Ct。
步驟3確定輸出值,如式(5)和式(6)所示:
利用上一個隱藏層的特征信息和輸入點云的特征信息,先計算出輸出門信息,然后根據(jù)輸出門Ot和經(jīng)過tanh 激活層的狀態(tài)Ct的乘積得到最終的輸出值Ht。
步驟4將輸出值激活并映射到0 到1 之間,如式(7)所示:
其中:A值越大,表示該點對于后續(xù)任務(wù)的相關(guān)性越高,最終得到一份全局點云信息的注意力圖。
AS Module 由多個AS Layer 連接而成,每層Layer可以根據(jù)其輸出的注意力圖選擇若干關(guān)鍵點,并將選擇的關(guān)鍵點作為采樣結(jié)果提供給下一層。AS Layer的層數(shù)和每層后的選擇點數(shù)可根據(jù)實際需要設(shè)置。在本文中,綜合考慮網(wǎng)絡(luò)的時間性能和采樣性能,經(jīng)實驗驗證,采用兩個AS Layer 組成的AS Module 性能最佳。AS Module 結(jié)構(gòu)如圖3 所示。本文設(shè)計的AS Module的采樣率是一個變量,這意味著可以根據(jù)實際采樣需求手動設(shè)置不同的采樣率。
圖3 AS Module 結(jié)構(gòu)Fig.3 Structure of AS Module
本文通過分類實驗和抗噪實驗驗證AS Module的有效性,設(shè)計消融實驗驗證AS Module 中Layer 參數(shù)選擇的合理性,并在物體分類任務(wù)和大場景分割任務(wù)上驗證AS-Net 模型的準確性。對于AS Module的驗證,在同一基準網(wǎng)絡(luò)PointNet 上執(zhí)行不同的采樣方法,以驗證AS Module 對物體分類的精度和對高斯噪聲的魯棒性。對于AS-Net 的驗證,包括三維物體分類和大場景分割兩個方面的實驗測試。本文實驗使用Tensorflow 框架,在11 GB 內(nèi)存的NVIDIA GeForce GTX 1080 Ti GPU 上進行,操作系統(tǒng)為Ubuntu 16.04。
在本節(jié)中,以PointNet為基準網(wǎng)絡(luò)架構(gòu),分別使用FPS 方法、RS 方法以及AS Module 對原始點云進行采樣處理,測試不同的采樣方法對原始數(shù)據(jù)的采樣效果,以物體分類的精度作為評價指標。測試數(shù)據(jù)集為ModelNet40 數(shù)據(jù)集,數(shù)據(jù)集包含40 類物體的12 311 個CAD 模型,其中9 843 個用于訓(xùn)練,2 468 個用于測試。
本文使用FPS 方法、RS 方法和AS Module 對原始數(shù)據(jù)進行下采樣,將原始數(shù)據(jù)下采樣到原始數(shù)據(jù)的1/2、1/4、1/8、1/16 和1/32。然后,將采樣點作為PointNet 的輸入來測試分類精度。測試結(jié)果如表1和圖4 所示,表中最優(yōu)數(shù)據(jù)以加粗標注。
表1 不同采樣率下各采樣方法的分類精度對比Table 1 Classification accuracy comparison of each sampling method under different sampling rates
圖4 本文方法與FPS、RS 方法的分類精度對比Fig.4 Classification accuracy comparison among FPS,RS methods and the proposed method
表1 和圖4 表明,當采樣數(shù)據(jù)為原始數(shù)據(jù)的1/4時,基于FPS 和RS 的網(wǎng)絡(luò)分類準確率分別為82.0%和75.0%,而基于AS Module 的分類準確率仍達到87.1%。此外,當采樣數(shù)據(jù)為原始數(shù)據(jù)的1/32 時,基于FPS 和RS 的網(wǎng)絡(luò)已經(jīng)不能對物體準確分類,而AS Module 的分類精度仍然在80%以上(81.6%),證明了基于AS Module 的網(wǎng)絡(luò)具有很強的魯棒性。整體的實驗結(jié)果表明,AS Module 可以在無序點云中準確地找到與后續(xù)任務(wù)相關(guān)性高的采樣點。
圖5~圖7 展示了ModelNet40 數(shù)據(jù)集中人型模型利用不同采樣方法的可視化結(jié)果??梢钥闯?,本文方法可以更好地保留原始模型中比較突出特征的關(guān)鍵點,準確分辨出球、頭部以及四肢的形狀。
圖5 人模型采用RS 方法的可視化結(jié)果Fig.5 Visualization results of humanoid model using RS method
圖6 人模型采用FPS 方法的可視化結(jié)果Fig.6 Visualization results of humanoid model using FPS method
圖7 人模型采用AS Module 方法的可視化結(jié)果Fig.7 Visualization results of humanoid model using AS Module method
在每個點上添加均值為0、標準差為0.05 dB 或0.1 dB 高斯噪聲,然后對比不同的采樣方法對于PointNet 分類準確率的影響,結(jié)果如表2 所示,表中最優(yōu)數(shù)據(jù)以加粗標注。可以看出,在不同的采樣率下,在標準差為0.05 dB 或0.1 dB 的高斯噪聲下,AS Module 都獲得了更高的物體分類準確率。
表2 不同采樣方法對擾動噪聲的魯棒性測試結(jié)果Table 2 Robustness test result of different sampling methods to disturbance noise
以上兩個實驗的結(jié)果證明,本文提出的AS Module 可以很好地從原始點云數(shù)據(jù)中挑選出含有更多信息的關(guān)鍵點,可在整個三維網(wǎng)絡(luò)中實現(xiàn)高精度的物體分類提供可靠保證。
將主流的直接處理點云的網(wǎng)絡(luò)中的采樣方法替換成AS Module,形成不同的AS-Net。本節(jié)實驗證AS-Net在三維物體分類上的性能,實驗設(shè)定與PointNet 一樣,在ModelNet40 數(shù)據(jù)集上進行評估并利用分類準確率作為評價指標。表3 對比了AS-Net與其他基于點的方法在物體分類任務(wù)上的準確率??梢钥闯?,利用AS Module改進的RSCNN-ssg得到的AS-Net(RSCNN-ssg)優(yōu)于其他所有網(wǎng)絡(luò),分類準確率從原始的RSCNN-ssg的92.2%提高到了92.54%,且投票后準確率可以達到92.77%。需要說明的是,RSCNN 的多尺度模型目前還不穩(wěn)定,作者沒有公布源碼,所以,本文僅對RSCNN 的單尺度分類模型進行對比和分析。同樣將PointNet++-ssg中的FPS換成ASModule得到AS-Net(PointNet++-ssg),將分類準確率從90.7%提高到了91.34%,證明了本文的采樣方法相比于其他同類方法具有更好的采樣性能。
表3 ModelNet40 數(shù)據(jù)集上的物體分類精度Table 3 Object classification accuracy on ModelNet40 dataset
在大場景分割中,由于點云數(shù)量過多導(dǎo)致計算效率低下,因此,采樣算法在大場景中具有重要的作用,可以在一定程度上縮短整個分割的時間。本節(jié)主要對AS Module 在大場景分割下的效率和性能進行分析,其中大場景分割是在ScanNet 上進行測試和評估,該數(shù)據(jù)是一個大規(guī)模的RGB-D 數(shù)據(jù)集,其中包括1 513 個掃描和重建的室內(nèi)場景。
在測試過程中,輸入點云數(shù)量為8 000,實驗過程中測試并記錄網(wǎng)絡(luò)所需要的推理時間和浮點數(shù)數(shù)據(jù)量,通過測試的分割準確率來評估性能,以及記錄的推理時間和浮點數(shù)數(shù)據(jù)量來評估網(wǎng)絡(luò)的效率。由于GPU 準備需要時間,因此忽略第一批測試時間,最終結(jié)果如表4 所示,其中最優(yōu)數(shù)據(jù)以加粗標注。
表4 ScanNet 數(shù)據(jù)集上的語義分割結(jié)果Table 4 Semantic segmentation results on ScanNet dataset
如表4 所示,通過將PointNet++中采樣算法進行替換(將原來的FPS 替換為本文提出的采樣方法),在ScanNet 數(shù)據(jù)集下的測試結(jié)果表明:替換前后的分割準確率雖然提高不明顯,其參數(shù)數(shù)量和浮點數(shù)數(shù)量與原始的PointNet++-ssg 基本相同。然而AS-Net將推理時間減少了50%,顯示了其在大規(guī)模場景分割方面的巨大潛力。
在消融實驗中,通過改變AS Module中AS Layer的層數(shù)進行分析和驗證。利用改變后的AS Module 對原始點云數(shù)據(jù)進行采樣,之后將采樣點作為分類網(wǎng)絡(luò)的PointNet 的輸入,測試物體的分類精度和時間效率。
不同層數(shù)下的分類準確率和測試時間如表5和表6所示,其中測試時間是通過計算ModelNet40 測試集運行一次的時間。可以看出,當AS Module 中Layer 的層數(shù)為1 時,低采樣率下的分類準確率明顯低于層數(shù)為2 或3 的AS Module,說明當Layer 層數(shù)過低時,提取的特征信息不足以在后續(xù)過程中選擇關(guān)鍵的采樣點。當AS Module 中的Layer層數(shù)的范圍在2~4 層且采樣的點云數(shù)目相同時,不同的層數(shù)對最終的分類準確率的影響不超過1%。反而隨著Layer層數(shù)增多,AS Module 更加復(fù)雜,測試時間變慢。當Layer 層數(shù)達到5 層時,由于層數(shù)過多,深層Layer 沒有很好地學(xué)習到點云特征,難以優(yōu)化。綜上所述,建議將AS Module 中的Layer 層數(shù)設(shè)置為2 層。
表5 不同層數(shù)下的分類精度對比Table 5 Comparison of classification accuracy under different layers
表6 不同層數(shù)下的測試時間對比Table 6 Comparison of test time under different layers
本文構(gòu)建一種面向低采樣率的點云數(shù)據(jù)處理網(wǎng)絡(luò),將注意力機制應(yīng)用于三維網(wǎng)絡(luò)對原始點云數(shù)據(jù)進行下采樣,并提出AS-Net,其核心是本文設(shè)計的AS Module,可以有效地從原始點云數(shù)據(jù)中提取出有利于后續(xù)任務(wù)的關(guān)鍵點。在分類實驗中,本文所提出的基于AS Module的AS-Net 的分類準確度均高于其他網(wǎng)絡(luò)。在分割任務(wù)中,也展現(xiàn)了對大場景點云任務(wù)進行高效處理的潛力。此外,AS Module 是一種靈活的采樣結(jié)構(gòu),可以很容易地集成到不同的backbone 中,實現(xiàn)端到端的網(wǎng)絡(luò)訓(xùn)練。下一步研究將把本文方法應(yīng)用于更多包含采樣的網(wǎng)絡(luò)模型中,針對實際的應(yīng)用領(lǐng)域或者實際的點云場景進行更全面的測試與驗證。