俞 斌,董 晨,3,劉延華,程 燁
1.福州大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福州350116
2.福州大學(xué) 福建省網(wǎng)絡(luò)計(jì)算與智能信息處理重點(diǎn)實(shí)驗(yàn)室,福州350116
3.福州大學(xué) 網(wǎng)絡(luò)系統(tǒng)信息安全福建省高校重點(diǎn)實(shí)驗(yàn)室,福州350116
點(diǎn)云分割,即對(duì)點(diǎn)云中的每個(gè)點(diǎn)賦予有意義的標(biāo)注,標(biāo)注代表可以是任何具有特定意義的信息。在實(shí)際應(yīng)用中,通常是一組代表幾種特定類別標(biāo)簽的一個(gè)。如果標(biāo)簽具有特定含義,如是一個(gè)場(chǎng)景的物體類別,那么這個(gè)過程就是一個(gè)場(chǎng)景的分割或稱語義理解。機(jī)器學(xué)習(xí)技術(shù)的進(jìn)步也使得三維數(shù)據(jù)理解受益匪淺,尤其是對(duì)密集點(diǎn)云這樣的大量數(shù)據(jù)。一些基于人工提取特征的經(jīng)典機(jī)器學(xué)習(xí)方法,如支持向量機(jī)(SVM)和隨機(jī)森林(RF),也在一系列三維模型檢測(cè)與分割任務(wù)中取得了較為成功的結(jié)果[1-2]。近年來,從機(jī)器人導(dǎo)航到國家級(jí)遙感技術(shù),對(duì)算法實(shí)時(shí)性和魯棒性的要求也越來越高。以自動(dòng)駕駛為例,若汽車采集的圖像以及點(diǎn)云數(shù)據(jù)需要等待漫長的手工提取特征,再進(jìn)行場(chǎng)景分析,顯然是不可行的。于是,越來越多的研究開始轉(zhuǎn)向深度學(xué)習(xí)[3]。深度學(xué)習(xí)相比其他機(jī)器學(xué)習(xí)算法有著獨(dú)特的優(yōu)勢(shì)。
(1)特征學(xué)習(xí)(Representation Learning):原本需要人工提取的特征可作為訓(xùn)練過程的一部分進(jìn)行學(xué)習(xí)。
(2)端到端(End-to-End):設(shè)備采集的原始輸入數(shù)據(jù)可以直接輸入到學(xué)習(xí)算法中,而后算法自動(dòng)導(dǎo)出檢測(cè)或分類所需的輸出形式。
深度學(xué)習(xí)在二維圖像分類分割上取得了許多成功,并且已經(jīng)有許多相當(dāng)成熟的算法?;谏疃葘W(xué)習(xí)的點(diǎn)云分割算法起源于二維圖像算法,但在發(fā)展過程中也表現(xiàn)出其獨(dú)有的特點(diǎn)和趨勢(shì)。本文首先對(duì)該領(lǐng)域傳統(tǒng)方法作簡要評(píng)述,然后為了方便對(duì)比和梳理,對(duì)該技術(shù)近四年來在點(diǎn)云分割問題上的最新工作,按基本思想分為基于二維圖像處理、基于體素和三維卷積的方法、無序點(diǎn)云的方法、空間卷積的方法、點(diǎn)云組織的方法以及無監(jiān)督學(xué)習(xí)的方法。分析了這些算法的優(yōu)劣及應(yīng)用并簡要評(píng)述,最后展望了未來研究趨勢(shì)。
在機(jī)器學(xué)習(xí)中,為了實(shí)現(xiàn)每個(gè)預(yù)測(cè)數(shù)據(jù)的自動(dòng)標(biāo)注,通常會(huì)選擇監(jiān)督學(xué)習(xí)方法進(jìn)行模型訓(xùn)練。傳統(tǒng)的基于機(jī)器學(xué)習(xí)的點(diǎn)云分割方法,通常采用典型的監(jiān)督學(xué)習(xí)算法包括支持向量機(jī)(SVM)、隨機(jī)森林(RF)和樸素貝葉斯。由于僅考慮點(diǎn)云中的單個(gè)點(diǎn)是不能獲得有意義的信息,因此這些方法還依賴于一系列稱為特征描述符(Signature)或描述子的人工特征。常見的點(diǎn)云的描述子可以大致分為統(tǒng)計(jì)特征和幾何特征。
(1)統(tǒng)計(jì)特征通常會(huì)選取固定鄰域內(nèi)點(diǎn)云的數(shù)量、密度、體積、標(biāo)準(zhǔn)差等,其中比較具有代表性的有:快速點(diǎn)特征直方圖(Fast Point Feature Histograms,F(xiàn)PFH)[4]、方向直方圖(Signature of Histograms of OrienTations,SHOT)[5]等。
(2)幾何特征通常將局部領(lǐng)域內(nèi)的點(diǎn)云描述為線、面或者幾何形狀,其中比較典型的有自旋圖像(Spin Image)[6]、局部表面切片(Local Surface Patches)[7]、固有形態(tài)(Intrinsic Shape)[8]等。
為了從大量點(diǎn)云中找到這些領(lǐng)域特征,通常需要一定的加速算法。此外,這些特征對(duì)點(diǎn)云密度具有一定的耦合性。雖然最近的一些研究工作[9-12],在一定程度上解決了這些問題,并可以實(shí)現(xiàn)90%左右的分類精度。但是,這些方法都是在一定小范圍內(nèi)進(jìn)行測(cè)試和驗(yàn)證,缺乏泛化和擴(kuò)展能力,并且,這些方法對(duì)大范圍場(chǎng)景下出現(xiàn)物體被遮擋或者重疊通常表現(xiàn)不佳。最重要的,手工提取特征耗費(fèi)的時(shí)間是實(shí)時(shí)性應(yīng)用所不能接受的。
深度學(xué)習(xí)自誕生以來,在許多領(lǐng)域產(chǎn)生了突破性的進(jìn)展,在點(diǎn)云分割上也不例外,其發(fā)展的總體趨勢(shì)是從二維到三維,從轉(zhuǎn)換數(shù)據(jù)到直接處理。由于思路來源的不同,出現(xiàn)了幾種發(fā)展方向,本文按照基本思想的分為了五類。
為了能利用基于CNN 的網(wǎng)絡(luò)架構(gòu),通過變換將點(diǎn)云光柵化為2.5D結(jié)構(gòu)化圖像陣列,或者按照球面、柱面將三維坐標(biāo)投影到二維平面上。這樣不僅可以避免復(fù)雜的3D 處理,還能利用成熟的圖像處理技術(shù)和海量的二維圖像數(shù)據(jù)集進(jìn)行模型預(yù)訓(xùn)練。
早期在地理信息科學(xué)中,就有將ALS 點(diǎn)云數(shù)據(jù)光柵化為二維圖像的做法[13-14]。而Su 等人提出了多視圖CNN[15]后,視圖投影方法就開始廣泛應(yīng)用。最近,Qin等人提出了一種多視圖的對(duì)ALS 點(diǎn)云進(jìn)行地形分類的方法[16]。所提出的網(wǎng)絡(luò)架構(gòu)TLFnet,是第一個(gè)將多視圖CNN應(yīng)用于大規(guī)模ALS點(diǎn)云分割的一種通用架構(gòu)。
近年來,隨著諸如Microsoft Kinect R 這樣的低成本RGB-D 傳感器的廣泛應(yīng)用,越來越多研究傾向于針對(duì)RGB-D圖像的設(shè)計(jì)網(wǎng)絡(luò)架構(gòu)[17]。雖然RGB-D圖像與點(diǎn)云是不同類型的三維數(shù)據(jù),但Boulch 等人提出的SnapNet網(wǎng)絡(luò)架構(gòu)[18]打破了兩者之間的鴻溝。該方法生成的快照除了常規(guī)的RGB 圖像外,還有包含點(diǎn)云提供的幾何特征的融合圖像。實(shí)驗(yàn)測(cè)試了不同的組合,包括SegNet[19]/random、U-Net[20]/multiscale,以尋找有利的融合。該方法經(jīng)多場(chǎng)景的實(shí)驗(yàn)證明有著十分廣泛的應(yīng)用范圍。
基于CNN 的網(wǎng)絡(luò)架構(gòu)的能力不僅限于處理圖像,任何具備局部特征性的二維張量矩陣都可以。最近,Wu 等人提出了SqueezeSeg[21]以及SqueezeSegV2[22]用于自動(dòng)駕駛MLS點(diǎn)云數(shù)據(jù)的道路對(duì)象分割。該方法通過二維球面投影,將點(diǎn)云坐標(biāo)、強(qiáng)度和范圍轉(zhuǎn)換為一個(gè)64×512×5 的張量,并用條件隨機(jī)場(chǎng)(CRF)產(chǎn)生每點(diǎn)的分類標(biāo)簽。針對(duì)合成數(shù)據(jù)缺少噪聲和強(qiáng)度信息的問題,加入域適應(yīng)訓(xùn)練管線(Domain Adaptation Training Pipeline)來自主學(xué)習(xí)強(qiáng)度信息并進(jìn)行相關(guān)的校準(zhǔn),將合成數(shù)據(jù)訓(xùn)練的模型的測(cè)試精度提高了28.4%。改進(jìn)后的網(wǎng)絡(luò)架構(gòu)還采用了新的損失函數(shù)Focal Loss[23]和批歸一化(Batch Normalization)[24]。
基于投影和視圖的方法雖然會(huì)損失維度信息,在準(zhǔn)確度上也并非先驅(qū)者,但有賴于二維深度學(xué)習(xí)算法的成熟,可用于許多小型和特定的場(chǎng)景,具有實(shí)用性強(qiáng)的優(yōu)勢(shì)。為直觀展現(xiàn)近年來該類方法的發(fā)展態(tài)勢(shì)和應(yīng)用情況,表1列舉了近年來的一些方法以供研究者參考[25-34]。
表1 幾種基于投影和視圖的方法
最早的深度體素網(wǎng)絡(luò)是Maturana和Scherer提出了VoxNet 網(wǎng)絡(luò)架構(gòu)[35]。通過將點(diǎn)云按0.1 m2的分辨率采樣后,形成大小為32×32×32的體積網(wǎng)格,再將輸入數(shù)據(jù)在[-1,1]之間歸一化。數(shù)據(jù)輸入一個(gè)簡單的包含兩個(gè)卷積層,一個(gè)池化層和兩個(gè)完全連接的層的Volumetric CNN網(wǎng)絡(luò),最后輸出簡單的分類標(biāo)簽,實(shí)驗(yàn)僅在簡單分類任務(wù)進(jìn)行了測(cè)試,但提出三維卷積是開創(chuàng)性的突破,將此概念由二維空間推向三維空間。
基于二維全卷積網(wǎng)絡(luò)(FCN)思路,Tchapmi 等人提出了一種三維的全卷積網(wǎng)絡(luò)架構(gòu)SEGCloud[36]。該方法首先對(duì)3D 點(diǎn)云進(jìn)行體素化并通過3D 全卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行饋送,以生成粗略的降采樣標(biāo)簽。然后通過三線性插值層將這種粗略輸出從體素解析為原始3D 點(diǎn)表示。過程中得到的3D 點(diǎn)分?jǐn)?shù)可用于3D 全連接CRF 中的推斷,以產(chǎn)生最終結(jié)果。該方法提出了一種3D-FCN 架構(gòu),并在公開的兩個(gè)室內(nèi)數(shù)據(jù)集和兩個(gè)室外數(shù)據(jù)集上取得了不錯(cuò)的結(jié)果,證明了三維空間也是可以構(gòu)造全卷積網(wǎng)絡(luò)的。
環(huán)顧最近的計(jì)算機(jī)視覺的國際會(huì)議,該類方法已逐漸減少,綜合分析有以下原因:
(1)三維卷積的運(yùn)算過程較復(fù)雜,需較大算力,因此對(duì)研究者的設(shè)備要求較高。
(2)算法的空間復(fù)雜度高,運(yùn)算和存儲(chǔ)中間過程均需較大開銷,因此實(shí)用性相對(duì)較低。
(3)體素大小不易確定,需要根據(jù)實(shí)際實(shí)驗(yàn)情況調(diào)整,不合適的體素大小會(huì)產(chǎn)生許多冗余體素網(wǎng)格,優(yōu)化問題較難解決。
但實(shí)際上,體素方法在點(diǎn)云處理的歷史上具有相當(dāng)久的歷史,所以該類方法還是具有一定潛在發(fā)展空間的。三維卷積處理三維空間信息,對(duì)每個(gè)維度信息特征都能很好的保留,流程上也更加自然。為直觀展示深度體素方法的發(fā)展歷史,表2中列舉了近幾年國內(nèi)外研究者提出幾種典型方法[37-41]。其中,由國內(nèi)學(xué)者提出的MSNet,在遙感領(lǐng)域取得不錯(cuò)的成績,所以,該類方法的研究和改進(jìn)還是有可能隨著計(jì)算性能和存儲(chǔ)方法的變革,以某種新的形式再度流行起來的。
無序點(diǎn)云的方法,在很多文獻(xiàn)中也稱為點(diǎn)方法。其特點(diǎn)是直接輸入原始數(shù)據(jù),輸入網(wǎng)絡(luò)之前不對(duì)點(diǎn)云數(shù)據(jù)做任何變換。這也符合基于深度學(xué)習(xí)的端到端架構(gòu)的思想,同時(shí)基于點(diǎn)的方法也是現(xiàn)在點(diǎn)云分割的主流發(fā)展方向。
最早直接輸入點(diǎn)云數(shù)據(jù)進(jìn)行特征學(xué)習(xí)的網(wǎng)絡(luò)是在CVPR2017 上提出的PointNet[42]。與其他架構(gòu)不同,PointNet 不使用卷積提取特征僅由全連接層組成。網(wǎng)絡(luò)解決了點(diǎn)云無序性、幾何旋轉(zhuǎn)的問題,實(shí)驗(yàn)結(jié)果也表明其性能相當(dāng)可觀。雖然是是突破性的進(jìn)展,但尚有許多問題,比如對(duì)局部空間特征的感知較差。由2D-CNN獲取靈感,Qi等人又提出了PointNet++[43],網(wǎng)絡(luò)由PointNet 構(gòu)成的特征提取塊組成,并采用了MSG、MRG 以及特征傳播改進(jìn)網(wǎng)絡(luò)架構(gòu),輸入沿著多分辨率層次以逐漸變大的比例捕獲特征。雖然在一些數(shù)據(jù)集上的結(jié)果提高不是很多,但是也提高了架構(gòu)對(duì)于稀疏點(diǎn)的魯棒性。
自PointNet++提出之后,針對(duì)直接輸入點(diǎn)的研究大量涌現(xiàn)。由于PointNet對(duì)點(diǎn)云的順序不予考慮,所以需要適配點(diǎn)云的變換一致性,空間復(fù)雜度較高。針對(duì)此問題,許多研究采用基于聚類和傳統(tǒng)特征提取相關(guān)的算法改進(jìn)PointNet 的層次結(jié)構(gòu)或者其T-Net 結(jié)構(gòu),來降低近鄰點(diǎn)搜索和組織的空間復(fù)雜度。直接輸入無序點(diǎn)云的方法雖然省去了組織和排序所帶來的時(shí)間成本,但仍需要消除順序的影響后,并且不考慮順序可能造成潛在特征信息的丟失,因此也產(chǎn)生了對(duì)點(diǎn)云組織的點(diǎn)方法的研究。
表2 幾種典型的基于體素的方法
最早對(duì)點(diǎn)云進(jìn)行有序化處理的一個(gè)最突出的例子是OctNet[44]。該方法將點(diǎn)云數(shù)據(jù)存儲(chǔ)在淺八叉樹中并加以索引,卷積運(yùn)算符是直接在樹的結(jié)構(gòu)上定義的,能夠處理非定長數(shù)據(jù)。類似的,通過使用KD樹結(jié)構(gòu)索引點(diǎn)云,Klokov等人提出了一種直接在KD樹上構(gòu)造的稱為KD-Network 的深度網(wǎng)絡(luò)[45]。與CNN 一樣,網(wǎng)絡(luò)是前饋但可學(xué)習(xí)與KD 樹中節(jié)點(diǎn)的權(quán)重相關(guān)聯(lián)的參數(shù)。網(wǎng)絡(luò)還展示了訓(xùn)練和推理的效率以及可擴(kuò)展性。
雖然高效組織點(diǎn)云被證明有效,但需要額外的數(shù)據(jù)處理步驟,所以在端到端處理上是存在劣勢(shì)的。Su 等人提出的一種網(wǎng)絡(luò)架構(gòu)SplatNet[46]很好地解決了這個(gè)問題。其靈感來自permutohedral 網(wǎng)格[47],通過Bilateral Convolution Layer(BCL)卷積層結(jié)構(gòu)堆疊構(gòu)造起整個(gè)網(wǎng)絡(luò),把對(duì)點(diǎn)云的組織放到了每一次卷積操作中,實(shí)現(xiàn)了端到端的處理。
而針對(duì)分割任務(wù)并不受點(diǎn)云順序影響的觀點(diǎn),Landrieu和Simonovsky提出了一種基于圖的方法很好地反駁了這點(diǎn),網(wǎng)絡(luò)采用了一種稱為超點(diǎn)圖(Superpoint Graphs,SPG)[48]的新型數(shù)據(jù)結(jié)構(gòu)中。該結(jié)構(gòu)包含一組稱為超級(jí)點(diǎn)(Superpoint)的形狀單元,其靈感來源于超像素點(diǎn)(Super Pixel)[49]。文章認(rèn)為,通過將數(shù)據(jù)組織為SPG,并使用邊緣條件卷積[50]有助于分類和分割。網(wǎng)絡(luò)不僅在小型模型分割上表現(xiàn)良好,在大規(guī)模場(chǎng)景分割上也毫不遜色。最近,CVPR2019 的一篇匿名論文[51]提出了一種采用圖注意力卷積(Graph Attention Convolution,GAC)的方法。其引入注意力機(jī)制組織搜索點(diǎn)云,使網(wǎng)絡(luò)具有強(qiáng)大的結(jié)構(gòu)化特征學(xué)習(xí)能力,對(duì)室外場(chǎng)景中易遮擋和殘缺的對(duì)象(例如汽車、硬景觀、低/高植被)的特征的區(qū)分度有較大提升。但是對(duì)于點(diǎn)數(shù)量較多、較密集并容易混淆的人工和自然地形,權(quán)重分配不能很好發(fā)揮作用,因此場(chǎng)景總體識(shí)別能力提升不大。
點(diǎn)方法在近兩年來發(fā)展迅速,并不斷將原有深度學(xué)習(xí)算法擴(kuò)展泛化以適應(yīng)點(diǎn)云運(yùn)算。為直觀展現(xiàn)點(diǎn)方法的發(fā)展情況,表3列舉了近年來一些其他的點(diǎn)方法的優(yōu)缺點(diǎn)以供研究者參考[52-63]。
無監(jiān)督學(xué)習(xí)是目前深度學(xué)習(xí)發(fā)展的一個(gè)新趨勢(shì)。一方面,無監(jiān)督學(xué)習(xí)利用了自編碼器的特性,能實(shí)現(xiàn)一種類型到另一種類型的跨越式生成;另一方面,無監(jiān)督學(xué)習(xí)不需要利用數(shù)據(jù)的標(biāo)注,可以利用大量無標(biāo)注數(shù)據(jù)。
目前無監(jiān)督方法還較少,適應(yīng)范圍也較小,但也初具雛形,如Achlioptas 等人提出的一種可以用于模型重建的方法[64]。該方法直接將PointNet重構(gòu)為一個(gè)帶有解碼器網(wǎng)絡(luò)的自編碼器。其實(shí)驗(yàn)表明,對(duì)于模型重建有著非常好的結(jié)果。Li等人提出了SO-Net網(wǎng)絡(luò)[65],使用自組織映射輸入并組織點(diǎn)云,并在各個(gè)自組織圖節(jié)點(diǎn)上執(zhí)行分層特征提取。網(wǎng)絡(luò)采用可調(diào)節(jié)的視野域,可根據(jù)局部幾何形狀進(jìn)行調(diào)整,以實(shí)現(xiàn)更有效的局部特征聚合。Zamorski等人將變分自編碼器(Variational Auto-Encoder,VAE)泛化為對(duì)抗自編碼器(Adversarial Auto-Encoder,AAE),提出了一種3DAAE網(wǎng)絡(luò)架構(gòu)[66]。這是一個(gè)完全端到端的結(jié)構(gòu),學(xué)習(xí)點(diǎn)云空間表示的同時(shí)并依據(jù)學(xué)習(xí)到的特征生成3D模型。該方法也展現(xiàn)了無監(jiān)督自動(dòng)生成CAD等三維模型的可行性和廣闊的前景。
基準(zhǔn)數(shù)據(jù)集對(duì)于深度學(xué)習(xí)領(lǐng)域的作用不言而喻,經(jīng)過多年研究,也產(chǎn)生了許多優(yōu)秀的室內(nèi)和室外場(chǎng)景數(shù)據(jù)集。表4 選取了幾個(gè)在最近研究中較為常用數(shù)據(jù)集以展示算法在室內(nèi)場(chǎng)景分割,模型分割以及室外場(chǎng)景分割的性能,選取的數(shù)據(jù)集有:斯坦福大學(xué)的S3DIS[67]、普林斯頓大學(xué)的ShapeNet[37]以及蘇黎世聯(lián)邦理工學(xué)院的Semantic 3D[38]。因?yàn)橛行┧惴ǖ膶?shí)驗(yàn)和評(píng)估過程有其側(cè)重性,并非所有算法這些數(shù)據(jù)集的指標(biāo)上給出數(shù)據(jù),或只給出部分?jǐn)?shù)據(jù)。選取的評(píng)估指標(biāo)為在大多數(shù)文獻(xiàn)中都采取的幾個(gè)指標(biāo):S3DIS和Semantic3D的語義分割的總體準(zhǔn)確度(OA)和平均交并比(mIOU),以及在ShapeNet 模型分類(Class.)和語義分割(Seg.)上的平均準(zhǔn)確度(mAcc,相當(dāng)于mIoU)。部分文獻(xiàn)僅給出mIoU或者僅給出OA的情況下,本文盡可能通過給出的數(shù)據(jù)計(jì)算補(bǔ)全數(shù)據(jù),但如未給出每類準(zhǔn)確度的情況下,mIoU是無法計(jì)算的。表中分類1~5分別對(duì)應(yīng)文章第3章中的5個(gè)小節(jié)的方法類別,數(shù)據(jù)旨在展示算法的性能,供相關(guān)研究者參考分析。
表3 幾種點(diǎn)方法的優(yōu)缺點(diǎn)比較
表4 一些算法在選取的數(shù)據(jù)集的表現(xiàn)
本文對(duì)基于深度學(xué)習(xí)點(diǎn)云分割方法進(jìn)行了整理、分類和簡要分析。3D深度學(xué)習(xí)雖然是一個(gè)相對(duì)較新的領(lǐng)域,也不像2D深度學(xué)習(xí)那么成熟,但就目前研究現(xiàn)狀來說,差距正在逐漸縮小。通過對(duì)相關(guān)技術(shù)和算法的總結(jié)分析,提出以下幾個(gè)觀點(diǎn):
(1)深度學(xué)習(xí)端到端的架構(gòu)能將原始數(shù)據(jù)直接輸入到學(xué)習(xí)算法中,并將特征作為訓(xùn)練過程的一部分進(jìn)行學(xué)習(xí)后自動(dòng)導(dǎo)出檢測(cè)或分類所需的輸出,能很好地滿足實(shí)時(shí)性和魯棒性的要求?;谏疃葘W(xué)習(xí)的點(diǎn)云分割算法,免去了繁瑣的手工提取特征的過程,強(qiáng)化了傳統(tǒng)算法泛化和擴(kuò)展能力,為自動(dòng)駕駛、機(jī)器人和無人機(jī)導(dǎo)航等一系列新興應(yīng)用的自動(dòng)化提供了可能。
(2)無論是投影和視圖的方法還是最新的無監(jiān)督方法,都有著最先進(jìn)的結(jié)果,表5 簡要分析并總結(jié)了目前各類方法的優(yōu)劣。雖然三維卷積在計(jì)算和存儲(chǔ)開銷上較大,但是最新進(jìn)展仍顯示有能力超越同時(shí)期的點(diǎn)方法;投影和視圖的方法在一些簡單場(chǎng)景具有極其強(qiáng)的實(shí)用性,丟失空間信息的影響也就顯得不那么重要??偟膩碚f,各類方法都有自身的優(yōu)劣,孰優(yōu)孰劣不能簡單一刀切。
(3)雖然無序點(diǎn)方法是近年來的主流,但最近的一些工作顯示,該類方法正在融合有序點(diǎn)方法和一些數(shù)學(xué)方法。點(diǎn)云雖然是無序的,但是點(diǎn)云表示的場(chǎng)景或者物體卻是有幾何上下文關(guān)系的,所以不能忽視拓?fù)鋵W(xué)的重要性。并且在最近的工作中,有序點(diǎn)法也顯示了極其強(qiáng)大的分割能力和最先進(jìn)的成績。而對(duì)于深度學(xué)習(xí)技術(shù)的發(fā)展,幾何學(xué)、拓?fù)鋵W(xué)以及數(shù)學(xué)方法也是相當(dāng)重要的,最近有研究開始對(duì)深度網(wǎng)絡(luò)和微分方程的聯(lián)系進(jìn)行探究,并得出了一些有意義的結(jié)論。這也表明通過數(shù)學(xué)的規(guī)范公理化語言描述,能增強(qiáng)深度學(xué)習(xí)的方法的理論性、確定性和可復(fù)現(xiàn)性。
表5 各類算法優(yōu)缺點(diǎn)分析
(4)無監(jiān)督學(xué)習(xí)是深度學(xué)習(xí)技術(shù)甚至是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)發(fā)展趨勢(shì),雖然現(xiàn)有的技術(shù)不那么成熟,但在當(dāng)前大數(shù)據(jù)的背景下,利用無標(biāo)注數(shù)據(jù)所帶來的效益是極大的。因?yàn)槿S數(shù)據(jù)的標(biāo)注相比二維數(shù)據(jù),其不僅是時(shí)間成本上的升維,還對(duì)操作人員的技能素質(zhì)有極大的要求。此外,即便是專業(yè)人員,為正確標(biāo)注數(shù)據(jù),所要付出的耐心和細(xì)心也更大。
(5)雖然目前已經(jīng)有S3DIS、KITTI甚至Semantic3D這樣的規(guī)模較大的數(shù)據(jù)集,但與ImageNet 的規(guī)模相比仍是滄海一粟。無論是在監(jiān)督學(xué)習(xí)還是主流的今天,還是無監(jiān)督學(xué)習(xí)可能主導(dǎo)的未來,標(biāo)注數(shù)據(jù)仍然是非常重要的。最近的SqueezeSeg、SythCity[68]提供了人工合成數(shù)據(jù)以及在虛擬環(huán)境采集數(shù)據(jù)的思路。這或許不失為補(bǔ)充預(yù)訓(xùn)練數(shù)據(jù)集的方法,但仍需考慮解決域遷移的問題,更進(jìn)一步,研究如何合成逼真的仿真數(shù)據(jù)。