亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的點(diǎn)云語(yǔ)義分割研究綜述

        2021-01-15 07:27:12景莊偉管海燕臧玉府李迪龍于永濤
        計(jì)算機(jī)與生活 2021年1期
        關(guān)鍵詞:體素語(yǔ)義卷積

        景莊偉,管海燕,臧玉府,倪 歡,李迪龍,于永濤

        1.南京信息工程大學(xué)地理科學(xué)學(xué)院,南京210044

        2.南京信息工程大學(xué)遙感與測(cè)繪工程學(xué)院,南京210044

        3.武漢大學(xué)測(cè)繪遙感信息工程國(guó)家重點(diǎn)實(shí)驗(yàn)室,武漢430079

        4.淮陰工學(xué)院計(jì)算機(jī)與軟件學(xué)院,江蘇淮安223003

        近年來(lái),隨著計(jì)算機(jī)視覺(jué)、人工智能以及遙感測(cè)繪的發(fā)展,SLAM(simultaneous localization and mapping)技術(shù)、Kinect 技術(shù)以及激光掃描等技術(shù)日漸成熟,點(diǎn)云的數(shù)據(jù)量迅速增長(zhǎng),針對(duì)描述點(diǎn)云數(shù)據(jù)空間信息的高層語(yǔ)義理解也越來(lái)越受到關(guān)注。語(yǔ)義分割作為點(diǎn)云數(shù)據(jù)處理與分析的基礎(chǔ)技術(shù),成為自動(dòng)駕駛、導(dǎo)航定位、智慧城市、醫(yī)學(xué)影像分割等領(lǐng)域的研究熱點(diǎn),具有廣泛的應(yīng)用前景。語(yǔ)義分割是一種典型的計(jì)算機(jī)視覺(jué)問(wèn)題,也稱(chēng)為場(chǎng)景標(biāo)簽,是指將一些原始數(shù)據(jù)(例如:二維(two-dimensional,2D)圖像、三維(threedimensional,3D)點(diǎn)云)作為輸入并通過(guò)一系列技術(shù)操作轉(zhuǎn)換為具有突出顯示的感興趣區(qū)域的掩模。

        點(diǎn)云語(yǔ)義分割是把點(diǎn)云分為若干個(gè)特定的、具有獨(dú)特性質(zhì)的區(qū)域并識(shí)別出點(diǎn)云內(nèi)容的技術(shù)。由于初期三維數(shù)據(jù)模型庫(kù)可用數(shù)據(jù)量較少以及深度網(wǎng)絡(luò)由二維轉(zhuǎn)到三維的復(fù)雜性,傳統(tǒng)的點(diǎn)云語(yǔ)義分割方法大多是通過(guò)提取三維形狀幾何屬性的空間分布或者直方圖統(tǒng)計(jì)等方法得到手工提取特征,構(gòu)建相應(yīng)的判別模型(例如:支持向量機(jī)(support vector machine,SVM)[1]、隨機(jī)森林(random forest,RF)[2]、條件隨機(jī)場(chǎng)(conditional random field,CRF)[3]、馬爾可夫隨機(jī)場(chǎng)(Markov random field,MRF)[4]等)實(shí)現(xiàn)分割。由于手工提取的特征主要依靠設(shè)計(jì)者的先驗(yàn)知識(shí)以及手工調(diào)動(dòng)參數(shù),限制了大數(shù)據(jù)的使用。伴隨著大型三維模型數(shù)據(jù)的出現(xiàn)和GPU 計(jì)算能力的不斷迭代更新,深度學(xué)習(xí)在點(diǎn)云語(yǔ)義分割領(lǐng)域逐漸占據(jù)了絕對(duì)主導(dǎo)地位。深度學(xué)習(xí)模型的核心思想是采用數(shù)據(jù)驅(qū)動(dòng)的方式,通過(guò)多層非線(xiàn)性運(yùn)算單元,將低層運(yùn)算單元的輸出作為高層運(yùn)算單元的輸入,從原始數(shù)據(jù)中提取由一般到抽象的特征。初期,研究者們借鑒二維圖像語(yǔ)義分割模型的經(jīng)驗(yàn),對(duì)輸入點(diǎn)云形狀進(jìn)行規(guī)范化,將不規(guī)則的點(diǎn)云或者網(wǎng)格數(shù)據(jù)轉(zhuǎn)換為常規(guī)的3D體素網(wǎng)格或者多視圖,將它們提供給深層的網(wǎng)絡(luò)體系結(jié)構(gòu)。然而,丟失幾何結(jié)構(gòu)信息和數(shù)據(jù)稀疏性等問(wèn)題限制了多視圖方法和體素化方法的發(fā)展。于是,研究者開(kāi)始從三維數(shù)據(jù)源頭著手,斯坦福大學(xué)Qi等人[5]提出的PointNet 網(wǎng)絡(luò)模型,直接從點(diǎn)云數(shù)據(jù)中提取特征信息,在沒(méi)有向體素轉(zhuǎn)換的情況下,體系結(jié)構(gòu)保留原始點(diǎn)內(nèi)的固有信息以預(yù)測(cè)點(diǎn)級(jí)語(yǔ)義。隨后,直接處理點(diǎn)云的網(wǎng)絡(luò)模型方法逐漸發(fā)展起來(lái)。

        目前已有一些綜述性論文[6-9]對(duì)基于深度學(xué)習(xí)的點(diǎn)云語(yǔ)義分割研究進(jìn)行了總結(jié)和分析。文獻(xiàn)[6]是基于深度學(xué)習(xí)和遙感數(shù)據(jù)背景下進(jìn)行的分類(lèi)研究進(jìn)展綜述;文獻(xiàn)[7]從遙感和計(jì)算機(jī)視覺(jué)的角度概述了三維點(diǎn)云數(shù)據(jù)的獲取和演化,對(duì)傳統(tǒng)的和先進(jìn)的點(diǎn)云語(yǔ)義分割技術(shù)進(jìn)行了比較和總結(jié);文獻(xiàn)[8]詳細(xì)介紹了一些較為突出的點(diǎn)云分割算法及常見(jiàn)數(shù)據(jù)集;文獻(xiàn)[9]所做的綜述工作涵蓋了不同的應(yīng)用,包括點(diǎn)云數(shù)據(jù)的形狀分類(lèi)、目標(biāo)檢測(cè)和跟蹤以及語(yǔ)義和實(shí)例分割,涉及的方面較為廣泛。本文對(duì)前人工作進(jìn)行了完善,在算法內(nèi)容上,本文添加了最近提出的新方法,總結(jié)了50 多種三維語(yǔ)義分割算法,根據(jù)三維點(diǎn)云數(shù)據(jù)處理方式,將它們分為兩類(lèi):間接語(yǔ)義分割方法和直接語(yǔ)義分割方法。數(shù)據(jù)集內(nèi)容上,本文在新增最新公共數(shù)據(jù)集的同時(shí),增加了常用的三維遙感數(shù)據(jù)集。未來(lái)研究方向上,本文在基于深度學(xué)習(xí)的語(yǔ)義分割技術(shù)評(píng)述基礎(chǔ)上,對(duì)語(yǔ)義分割領(lǐng)域未來(lái)研究方向進(jìn)行了展望并給出各類(lèi)技術(shù)的參考性?xún)r(jià)值。

        1 點(diǎn)云介紹

        點(diǎn)云(point cloud)是在同一空間參考系下表達(dá)目標(biāo)空間分布和目標(biāo)表面特性的海量點(diǎn)集合,其獨(dú)立描述每個(gè)點(diǎn)的相關(guān)屬性信息,點(diǎn)與點(diǎn)之間沒(méi)有顯著的聯(lián)系。點(diǎn)云數(shù)據(jù)主要使用非接觸式的技術(shù)進(jìn)行獲取,如:圖像衍生方法從光譜圖像間接生成點(diǎn)云,機(jī)載激光雷達(dá)掃描儀進(jìn)行掃描采集,對(duì)CAD(computer aided design)模型進(jìn)行虛擬掃描等。相對(duì)于二維圖像,點(diǎn)云有其不可替代的優(yōu)勢(shì)——深度信息,點(diǎn)云數(shù)據(jù)不僅規(guī)避了圖像采集過(guò)程中遇到的姿態(tài)、光照等問(wèn)題,而且其本身具有豐富的空間信息,能夠有效地表達(dá)空間中物體的大小、形狀、位置和方向。相比于體素?cái)?shù)據(jù),點(diǎn)云數(shù)據(jù)空間利用率更高,更加關(guān)注于描述對(duì)象本身的外表面形狀,不會(huì)為描述空間的占用情況而保存無(wú)用的冗余信息。因此,點(diǎn)云已成為三維數(shù)據(jù)模型的研究重點(diǎn),并應(yīng)用于多種領(lǐng)域,如:大規(guī)模場(chǎng)景重建、車(chē)載激光雷達(dá)、虛擬現(xiàn)實(shí)、數(shù)字高程模型制作等。然而點(diǎn)云數(shù)據(jù)自身存在的無(wú)序性、密度不一致性、非結(jié)構(gòu)性、信息不完整性等特性使得點(diǎn)云的語(yǔ)義分割充滿(mǎn)挑戰(zhàn)。因此,有效處理并運(yùn)用點(diǎn)云的特性是現(xiàn)今研究者應(yīng)當(dāng)關(guān)注的重點(diǎn)。本章將點(diǎn)云特性進(jìn)行簡(jiǎn)單整理闡述,希望能夠?yàn)檠芯空邆兊难芯刻峁┓奖恪?/p>

        (1)點(diǎn)云無(wú)序性

        從數(shù)據(jù)結(jié)構(gòu)的角度來(lái)講,點(diǎn)云數(shù)據(jù)只是一組無(wú)序的向量集合,若不考慮其他諸如顏色等因素,只考慮點(diǎn)的坐標(biāo),則點(diǎn)云數(shù)據(jù)只是一組n×3 的點(diǎn)集合。那么當(dāng)對(duì)這n個(gè)點(diǎn)進(jìn)行不同順序的讀入時(shí),點(diǎn)的輸入組合中共有n!種,如圖1 所示,圖左fa、fb、fc為輸入的3 個(gè)點(diǎn)組成的點(diǎn)云,圖右為點(diǎn)云直接輸入網(wǎng)絡(luò)存在的6 種順序情況。因此,解決點(diǎn)云的無(wú)序性是必不可少的。為了使模型對(duì)于輸入排列不變,PiontNet[5]使用簡(jiǎn)單的對(duì)稱(chēng)函數(shù)匯總來(lái)自每個(gè)點(diǎn)的信息和特征,進(jìn)行語(yǔ)義分割。PointSIFT[10]使用編碼8 個(gè)方位信息的逐點(diǎn)局部特征描述符保留了無(wú)序點(diǎn)云更多的信息,同時(shí)仍然保持輸入點(diǎn)順序的不變性。SO-Net[11]網(wǎng)絡(luò)使用SOM(self-organizing map)模塊對(duì)歸一化后的點(diǎn)云進(jìn)行批處理,解決了點(diǎn)云的無(wú)序性。HDGCN[12](hierarchical depthwise graph convolutional neural network)提出了圖卷積來(lái)處理無(wú)序點(diǎn)云數(shù)據(jù),并且具有強(qiáng)大的提取局部形狀信息的能力。RSNet(recurrent slice networks)[13]通過(guò)切片池層將無(wú)序和無(wú)結(jié)構(gòu)的輸入點(diǎn)的特征投影到特征向量的有序和結(jié)構(gòu)化的序列上。PointCNN[14]學(xué)習(xí)χ-變換卷積算子,將無(wú)序的點(diǎn)云轉(zhuǎn)換為相應(yīng)的規(guī)范順序。ShellNet[15]將ShellConv 定義在可由同心球殼劃分的區(qū)域上,并通過(guò)從內(nèi)殼到外殼的卷積順序解決了點(diǎn)云的無(wú)序性。

        Fig.1 Example of point cloud unordered input圖1 點(diǎn)云的無(wú)序輸入示例

        (2)點(diǎn)云密度不一致性

        實(shí)際場(chǎng)景所包含的物體多種多樣,相應(yīng)點(diǎn)云數(shù)據(jù)也具有不同空間屬性。不同點(diǎn)云數(shù)據(jù)獲取方式下,物體的點(diǎn)云的空間距離、密集程度以及點(diǎn)數(shù)量差距都很大,如圖2。在密集數(shù)據(jù)中學(xué)習(xí)的特征可能不能推廣到稀疏采樣區(qū)域,用稀疏點(diǎn)云訓(xùn)練的模型可能無(wú)法識(shí)別細(xì)粒度的局部結(jié)構(gòu)。因此,能否處理不同密度的點(diǎn)云對(duì)分割模型來(lái)說(shuō)具有非常大的挑戰(zhàn)性[16]。PointNet++[17]模型中提出的密度自適應(yīng)點(diǎn)網(wǎng)層,該層可在輸入采樣密度發(fā)生變化時(shí)學(xué)會(huì)組合來(lái)自不同尺度區(qū)域的特征。RandLA-Net[18]采用隨機(jī)點(diǎn)采樣的方法進(jìn)行點(diǎn)的選擇,以解決高密度大規(guī)模的點(diǎn)云場(chǎng)景。GACNet[19]構(gòu)造了有向圖G(V,E),其中KG鄰域是通過(guò)在半徑ρ內(nèi)隨機(jī)采樣的,相比于KG的最近鄰域查詢(xún)方法,該方法不受點(diǎn)云稀疏性的影響。3P-RNN[20]通過(guò)考慮多尺度鄰域,逐點(diǎn)金字塔池化模塊以捕獲各種密度條件下的局部特征。KPConv(kernel point convolution)[21]通過(guò)結(jié)合半徑鄰域和常規(guī)下采樣,確保了KPConv 對(duì)不同密度數(shù)據(jù)的魯棒性。InterpConv(interpolated convolution)[22]在每個(gè)核權(quán)值向量的鄰域內(nèi)對(duì)點(diǎn)進(jìn)行歸一化,保證其網(wǎng)絡(luò)具備稀疏不變性。PointConv[23]通過(guò)學(xué)習(xí)MLP(multilayer perceptron)以近似權(quán)重函數(shù),并對(duì)學(xué)習(xí)的權(quán)重應(yīng)用反密度標(biāo)度補(bǔ)償非均勻采樣。

        Fig.2 Point cloud scenes with different densities圖2 不同密度的點(diǎn)云場(chǎng)景

        (3)點(diǎn)云非結(jié)構(gòu)性

        二維圖像是結(jié)構(gòu)化的數(shù)據(jù),可以使用一個(gè)二維矩陣進(jìn)行表示。而點(diǎn)云數(shù)據(jù)是非結(jié)構(gòu)化的,想要直接輸入到神經(jīng)網(wǎng)絡(luò)模型中是非常困難的。如果將點(diǎn)云數(shù)據(jù)體素化,利用深度學(xué)習(xí)模型進(jìn)行特征提取可以取得較好的分割結(jié)果,但是這種方法由于內(nèi)存限制,只能使用比較小分辨率的體素網(wǎng)格,從而造成信息的丟失,因此其整體性能與精度仍然無(wú)法得到顯著提高。點(diǎn)云本質(zhì)上缺乏拓?fù)湫畔?,因此設(shè)計(jì)恢復(fù)拓?fù)涞哪P停ㄈ鏒GCNN(dynamic graph convolutional neural network)[24]、RGCNN(regularized graph convolutional neural network)[25]、DPAM(dynamic points agglomeration module)[26]等基于圖卷積的方法)可以豐富點(diǎn)云的表示能力。另外,ConvPoint[27]中設(shè)計(jì)了一種針對(duì)非結(jié)構(gòu)化數(shù)據(jù)的連續(xù)卷積公式。

        (4)點(diǎn)云信息不完整性

        點(diǎn)云是一群三維空間點(diǎn)坐標(biāo)構(gòu)成的點(diǎn)集。由于本質(zhì)上是對(duì)三維世界中物體幾何形狀進(jìn)行低分辨率重采樣,因此點(diǎn)云數(shù)據(jù)提供的幾何信息是不完整的;另外,點(diǎn)云數(shù)據(jù)采集時(shí)由于遮擋等原因,無(wú)法獲取目標(biāo)物體完整的三維描述。而且在模型訓(xùn)練過(guò)程中也存在這樣的問(wèn)題,如PointNet[5]的全局特征僅匯總了單個(gè)塊的上下文,匯總信息僅在同一個(gè)塊中的各個(gè)點(diǎn)之間傳遞,但是每個(gè)塊之外的上下文信息也同樣重要。因此,CU&RCU[28]引入了兩種添加上下文的機(jī)制:輸入級(jí)上下文(直接在輸入點(diǎn)云上運(yùn)行)和輸出級(jí)上下文(用于合并輸入級(jí)上下文的輸出)。圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)也被廣泛用于處理不規(guī)則點(diǎn)云數(shù)據(jù),這些方法[14,23-24,29-30]在歐幾里德或特征空間的鄰域中構(gòu)建局部圖,通過(guò)加權(quán)和或從鄰域到中心的池化來(lái)聚合局部特征,處理不規(guī)則點(diǎn)云數(shù)據(jù)。

        2 基于深度學(xué)習(xí)的三維點(diǎn)云語(yǔ)義分割方法

        隨著深度學(xué)習(xí)技術(shù)的出現(xiàn),點(diǎn)云語(yǔ)義分割領(lǐng)域?qū)崿F(xiàn)了巨大的改進(jìn)。近年來(lái),研究者們提出了大量的基于深度學(xué)習(xí)的分割模型以處理點(diǎn)云。與傳統(tǒng)算法相比,此類(lèi)模型性能更優(yōu),達(dá)到了更高的基準(zhǔn)。本章根據(jù)三維點(diǎn)云數(shù)據(jù)處理方式,將基于深度學(xué)習(xí)的三維點(diǎn)云語(yǔ)義分割方法分為兩大類(lèi),即間接語(yǔ)義分割方法和直接語(yǔ)義分割方法。間接語(yǔ)義分割方法是將原始點(diǎn)云數(shù)據(jù)轉(zhuǎn)換為常規(guī)的3D 體素網(wǎng)格或者多視圖,通過(guò)數(shù)據(jù)轉(zhuǎn)變的方式間接地從三維點(diǎn)云數(shù)據(jù)中提取特征,從而達(dá)到語(yǔ)義分割的目的。直接語(yǔ)義分割方法是直接從點(diǎn)云數(shù)據(jù)中提取特征信息,在沒(méi)有向體素和多視圖轉(zhuǎn)換的情況下,體系結(jié)構(gòu)保留原始點(diǎn)內(nèi)的固有信息以預(yù)測(cè)點(diǎn)級(jí)語(yǔ)義。表1 對(duì)本文介紹的點(diǎn)云語(yǔ)義分割方法進(jìn)行了分析與總結(jié)。

        2.1 間接語(yǔ)義分割方法

        借鑒二維圖像語(yǔ)義分割模型的經(jīng)驗(yàn),研究者們首先將不規(guī)則的點(diǎn)云數(shù)據(jù)轉(zhuǎn)換為常規(guī)的3D 體素網(wǎng)格或者多視圖,輸入到深層網(wǎng)絡(luò)體系結(jié)構(gòu)以實(shí)現(xiàn)點(diǎn)云的語(yǔ)義分割。本節(jié)整理總結(jié)了20 篇具有代表性的文獻(xiàn),將間接語(yǔ)義分割方法再分為基于二維多視圖方法和基于三維體素化方法兩個(gè)子類(lèi),并分別進(jìn)行了總結(jié)與分析。圖3 為2015 年起間接語(yǔ)義分割方法的發(fā)展,不同顏色代表不同間接語(yǔ)義分割方法類(lèi)別。

        2.1.1 基于二維多視圖方法

        Fig.3 Timeline of indirect semantic segmentation圖3 間接語(yǔ)義分割方法發(fā)展時(shí)間軸

        Table 1 Analysis and summary of point cloud semantic segmentation methods表1 點(diǎn)云語(yǔ)義分割方法的分析與總結(jié)

        早期研究者們?cè)邳c(diǎn)云數(shù)據(jù)上應(yīng)用深度學(xué)習(xí)是將點(diǎn)云投影到多個(gè)視圖的二維圖像中,在投影的二維圖像上使用卷積等常規(guī)處理技術(shù),從而實(shí)現(xiàn)點(diǎn)云數(shù)據(jù)語(yǔ)義分割。多視圖CNN(multi-view convolutional neural network,MVCNN)處理三維點(diǎn)云數(shù)據(jù)的方法由Su 等人[31]首次提出,該類(lèi)方法的具體步驟如圖4 所示,首先獲取三維目標(biāo)形狀在不同視角下的二維圖像,對(duì)每個(gè)視圖進(jìn)行圖像特征提取,最后通過(guò)池化層和完全連接層將不同視角的圖像進(jìn)行聚合得到最終的語(yǔ)義分割結(jié)果。

        雖然MVCNN 能很好地整合不同視角下影像特征從而獲得較好的三維物體的描述,但是該方法并不能有效地利用每張視圖的局部特征信息,也不能動(dòng)態(tài)地選擇視圖;同時(shí),將三維物體投影到二維圖像會(huì)丟失大量關(guān)鍵的幾何空間信息,導(dǎo)致其最終語(yǔ)義分割精度不高。因此,Qi等人[32]通過(guò)引入多分辨率三維濾波來(lái)捕獲目標(biāo)多尺度信息以提高其語(yǔ)義分割性能。Feng 等人[33]在MVCNN 的基礎(chǔ)上提出GVCNN(group-view convolutional neural network)框架,將不同視圖下CNN(convolutional neural network)提取的視覺(jué)描述子進(jìn)行分組,可有效利用多視圖狀態(tài)下特征之間的關(guān)系。

        隨著RGB-D 傳感器(微軟Kinect 等)的發(fā)展,RGB-D 數(shù)據(jù)也逐漸被廣泛應(yīng)用。RGB-D 數(shù)據(jù)除了提供顏色信息外,還提供額外的深度信息,有利于語(yǔ)義分割任務(wù)。Zeng 等人[34]使用機(jī)械臂獲取多視角RGB-D 圖像并輸入FCN(fully convolutional network)網(wǎng)絡(luò)中,通過(guò)訓(xùn)練多個(gè)網(wǎng)絡(luò)(AlexNet[35]和VGG-16[36])提取特征,同時(shí)評(píng)估了使用RGB-D 圖像深度信息的優(yōu)勢(shì)。隨后,Ma 等人[37]使用SLAM(simultaneous localization and mapping)技術(shù)獲取相機(jī)軌跡,并將RGB-D 圖像轉(zhuǎn)換到真實(shí)標(biāo)注數(shù)據(jù)相同尺度,保證模型訓(xùn)練中多個(gè)視角的一致性。SnapNet[38]圍繞三維場(chǎng)景生成一系列二維快照,對(duì)每對(duì)二維快照進(jìn)行完全卷積網(wǎng)絡(luò)的像素標(biāo)記后,再將像素標(biāo)記反投影到原始點(diǎn)云上。SnapNet-R[39]改進(jìn)了SnapNet網(wǎng)絡(luò),對(duì)多個(gè)視圖直接處理以實(shí)現(xiàn)密集的三維點(diǎn)標(biāo)記,從而改善分割效果。然而,二維快照破壞了三維數(shù)據(jù)的內(nèi)在幾何關(guān)系,無(wú)法充分利用三維空間上下文的全部信息。

        SqueezeNet作為輕量級(jí)網(wǎng)絡(luò)結(jié)構(gòu),能夠減少模型參數(shù)量并且保持精度,因而在計(jì)算機(jī)視覺(jué)領(lǐng)域得到了越來(lái)越廣泛的應(yīng)用。Wu 等人[40]借鑒SqueezeNet的思想,提出了SqueezeSeg 網(wǎng)絡(luò)。SqueezeSeg 利用球面投影將稀疏的三維點(diǎn)云轉(zhuǎn)換為二維圖像輸入到基于SqueezeNet 的CNN 模型中進(jìn)行語(yǔ)義分割,利用條件隨機(jī)場(chǎng)(CRF)作為遞歸層對(duì)語(yǔ)義分割結(jié)果進(jìn)一步優(yōu)化,并通過(guò)傳統(tǒng)的聚類(lèi)算法獲得最終標(biāo)簽。但是該方法語(yǔ)義分割準(zhǔn)確率受到點(diǎn)云采集過(guò)程中產(chǎn)生的失調(diào)噪聲(dropout noise)影響。隨后該團(tuán)隊(duì)[41]提出SqueezeSegV2,添加了上下文聚合模塊(context aggregation module,CAM),該模塊可以從更大的接收域中聚合上下文信息,從而增強(qiáng)網(wǎng)絡(luò)對(duì)失調(diào)噪聲的魯棒性,提高了語(yǔ)義分割的準(zhǔn)確率。

        盡管基于多視圖的語(yǔ)義分割方法存在三維空間信息不完整性和投影角度的問(wèn)題,但其解決了點(diǎn)云數(shù)據(jù)的結(jié)構(gòu)化問(wèn)題,又可依賴(lài)于較多成熟的二維算法和豐富的數(shù)據(jù)資源,可用于許多特定和小型的場(chǎng)景,具有較強(qiáng)的實(shí)用性。

        2.1.2 基于三維體素化方法

        Fig.4 Workflow for MVCNN圖4 MVCNN 網(wǎng)絡(luò)的處理流程

        鑒于CNN 在圖像語(yǔ)義分割中取得的有效成果以及體素與圖像在數(shù)據(jù)組織形式上的相似性,研究者們將原始點(diǎn)云數(shù)據(jù)轉(zhuǎn)換為體積離散(即體素)數(shù)據(jù),提出了基于三維的神經(jīng)網(wǎng)絡(luò)模型,以實(shí)現(xiàn)點(diǎn)云的語(yǔ)義分割。體素化操作是利用占用網(wǎng)格將環(huán)境狀態(tài)表示為隨機(jī)變量的3D 網(wǎng)格(每個(gè)網(wǎng)格對(duì)應(yīng)于一個(gè)體素),并根據(jù)傳入的傳感器數(shù)據(jù)和先驗(yàn)知識(shí)維持其占用率的概率估計(jì)[42]。目前,基于體素?cái)?shù)據(jù)的各種深度網(wǎng)絡(luò)已被應(yīng)用于形狀分類(lèi)[43]、室內(nèi)場(chǎng)景的語(yǔ)義分割[44]和生物醫(yī)學(xué)記錄[45]。VoxNet 模型[42]是最早基于體素?cái)?shù)據(jù)的三維CNN 模型,該模型展示了三維卷積算子從體素占用網(wǎng)格學(xué)習(xí)特征的潛力。雖然體素模型的提出解決了點(diǎn)云無(wú)序性和非結(jié)構(gòu)化的問(wèn)題,但三維數(shù)據(jù)的稀疏性與空間信息不完整性導(dǎo)致語(yǔ)義分割效率低。此外,相較于二維圖像數(shù)據(jù),點(diǎn)云數(shù)據(jù)體素化由于增加了一個(gè)維度,其計(jì)算開(kāi)銷(xiāo)更大,并且限制了體素模型的分辨率。

        針對(duì)三維數(shù)據(jù)的稀疏性,Li等人[46]采用場(chǎng)探測(cè)濾波器(field probing filter)代替卷積神經(jīng)網(wǎng)絡(luò)中的卷積層從點(diǎn)云體素中提取特征。但是,該方法會(huì)降低語(yǔ)義分割輸出結(jié)果的分辨率。針對(duì)體素網(wǎng)格低分辨率的限制,SegCloud[47]網(wǎng)絡(luò)放棄了基于體素的CRF 方法,轉(zhuǎn)而使用原始3D 點(diǎn)作為節(jié)點(diǎn)來(lái)運(yùn)行CRF 推理。該網(wǎng)絡(luò)將3D-FCNN 生成的粗體素預(yù)測(cè)通過(guò)三線(xiàn)性插值返回到原始點(diǎn)云,然后使用全連接條件隨機(jī)場(chǎng)(fully connected CRFs,F(xiàn)CCRF)增強(qiáng)預(yù)測(cè)結(jié)果的全局一致性并在這些點(diǎn)上提供細(xì)粒度語(yǔ)義。

        為了減少不必要的計(jì)算和內(nèi)存消耗,有些學(xué)者提出了基于八叉樹(shù)結(jié)構(gòu)的分割模型,如OctNet[48]和VGS&SVGS[49]模型。OctNet[48]模型中,每個(gè)八叉樹(shù)根據(jù)數(shù)據(jù)的密度分割三維空間,將存儲(chǔ)器分配和計(jì)算集中到相關(guān)的密集區(qū)域,在不影響分辨率的情況下實(shí)現(xiàn)更深層的網(wǎng)絡(luò)。VGS(voxel-and graph-based segmentation)&SVGS(supervoxel-and graph-based segmentation)[49]模型采用基于八叉樹(shù)的體素化方法組織點(diǎn)云以方便鄰域遍歷,利用圖論(graph theory)在局部上下文信息的基礎(chǔ)上進(jìn)行體素和超體素的聚類(lèi),并使用感知定律(perceptual laws)以純幾何的方式進(jìn)行分割。Kd-tree 結(jié)構(gòu)也被應(yīng)用到基于深度學(xué)習(xí)的語(yǔ)義分割模型中,如Kd-Net[50]和3DContextNet[51]模型。Kd-Net[50]提出使用Kd-tree 組織點(diǎn)云數(shù)據(jù),規(guī)則化深度網(wǎng)絡(luò)輸入結(jié)構(gòu),提高了點(diǎn)云計(jì)算和存儲(chǔ)效率。3DcontextNet[51]利用Kd-tree 結(jié)構(gòu)提供的點(diǎn)云局部和全局上下文線(xiàn)索進(jìn)行特征學(xué)習(xí)并聚合點(diǎn)特征。與Kd-Net 不同,3DContextNet 不改變空間關(guān)系,可用于三維語(yǔ)義分割。以上基于樹(shù)結(jié)構(gòu)的方法雖然減少了計(jì)算和內(nèi)存消耗,但此類(lèi)方法依賴(lài)體素邊界,沒(méi)有充分利用其局部幾何結(jié)構(gòu)。因此,Meng 等人[52]利用基于徑向基函數(shù)(radial basis functions,RBF)的變分自動(dòng)編碼器(variational autoencoder,VAE)網(wǎng)絡(luò)對(duì)體素結(jié)構(gòu)進(jìn)行擴(kuò)展,編碼每個(gè)體素內(nèi)的局部幾何結(jié)構(gòu)從而提高分割精度。MSNet[53]網(wǎng)絡(luò)圍繞每個(gè)點(diǎn),將不同尺度的空間上下文劃分為不同尺度的體素,以自適應(yīng)地學(xué)習(xí)局部幾何特征,該方法在遙感、測(cè)繪數(shù)據(jù)獲得不錯(cuò)的語(yǔ)義分割結(jié)果。

        以上研究從不同角度解決了點(diǎn)云體素化帶來(lái)的不足,減少了三維體素輸入的信息丟失和計(jì)算需求,但由于體素化算法的空間復(fù)雜度高,存儲(chǔ)和運(yùn)算過(guò)程中均需較大的開(kāi)銷(xiāo),因此實(shí)用性相對(duì)較低。不過(guò)隨著計(jì)算性能和存儲(chǔ)方法的不斷升級(jí),該類(lèi)方法還是具有一定潛在的發(fā)展空間。

        2.2 直接語(yǔ)義分割方法

        為了降低預(yù)處理過(guò)程中的計(jì)算復(fù)雜度與噪音誤差影響,研究者開(kāi)始從三維數(shù)據(jù)源頭著手,直接從點(diǎn)云數(shù)據(jù)中提取特征信息,因而逐漸發(fā)展出一些直接處理點(diǎn)云的網(wǎng)絡(luò)模型方法。PointNet 網(wǎng)絡(luò)[5]架構(gòu)是該類(lèi)方法的開(kāi)拓者,該網(wǎng)絡(luò)直接處理點(diǎn)云數(shù)據(jù)的分類(lèi)與分割任務(wù),如圖5 所示。PointNet在語(yǔ)義分割時(shí),以點(diǎn)云中每一個(gè)點(diǎn)作為輸入,輸出每個(gè)點(diǎn)的語(yǔ)義類(lèi)標(biāo)簽。PointNet 網(wǎng)絡(luò)主要解決三個(gè)核心問(wèn)題:點(diǎn)云無(wú)序性、置換不變性和旋轉(zhuǎn)不變性。針對(duì)點(diǎn)云的無(wú)序性,PointNet 使用簡(jiǎn)單的對(duì)稱(chēng)函數(shù)聚合每一個(gè)點(diǎn)的信息。針對(duì)點(diǎn)云的置換不變性,PointNet 采用多層感知機(jī)(MLP)對(duì)每個(gè)點(diǎn)進(jìn)行獨(dú)立的特征提取,并將所有點(diǎn)信息聚合得到全局特征。此外,PointNet 網(wǎng)絡(luò)參考了二維深度學(xué)習(xí)中的STN(spatial transformer network)網(wǎng)絡(luò),在網(wǎng)絡(luò)架構(gòu)中加入T-Net 網(wǎng)絡(luò)架構(gòu),對(duì)輸入的點(diǎn)云進(jìn)行空間變換,使其盡可能滿(mǎn)足旋轉(zhuǎn)不變性。

        Fig.5 Network framework for PointNet圖5 PointNet網(wǎng)絡(luò)架構(gòu)

        PointNet 網(wǎng)絡(luò)依舊存在著很多的缺陷:無(wú)法很好地捕捉由度量空間引起的局部結(jié)構(gòu)問(wèn)題,欠缺對(duì)局部特征的提取及處理;每個(gè)點(diǎn)操作過(guò)于獨(dú)立,其沒(méi)有考慮到鄰近點(diǎn)的交互關(guān)系,而無(wú)法高效刻畫(huà)相關(guān)區(qū)域的語(yǔ)義結(jié)構(gòu);統(tǒng)一的模板無(wú)法有效地解決密度不均一的數(shù)據(jù)。為了解決這些問(wèn)題,研究者們基于PointNet 算法提出了一系列解決方案,本節(jié)整理總結(jié)了30 篇具有代表性的文獻(xiàn),從算法特點(diǎn)的角度分為六大類(lèi):基于鄰域特征學(xué)習(xí)的方法、基于圖卷積的方法、基于RNN 的方法、基于優(yōu)化CNN 的方法、基于注意力機(jī)制的方法和結(jié)合實(shí)例分割的方法。并分別進(jìn)行總結(jié)和分析。圖6 為2017 年起直接語(yǔ)義分割方法發(fā)展的時(shí)間軸,圖中不同顏色代表不同的直接語(yǔ)義分割方法類(lèi)別。

        2.2.1 基于鄰域特征學(xué)習(xí)的方法

        PointNet 沒(méi)有捕獲由度量空間點(diǎn)引起的局部結(jié)構(gòu)特征,限制了細(xì)粒度圖案識(shí)別和復(fù)雜場(chǎng)景泛化能力。目前,為了捕獲局部特征,已有大量基于鄰域特征學(xué)習(xí)的網(wǎng)絡(luò)模型通過(guò)聚集來(lái)自局部相鄰點(diǎn)的信息或融合不同層次區(qū)域特征來(lái)捕獲點(diǎn)云中的上下文信息,將獲取的全局特征與局部特征有效結(jié)合以提高語(yǔ)義分割的性能。

        PointNet++[17]是PointNet 的分層版本,它的每個(gè)圖層都有三個(gè)子階段:采樣、分組和特征提取。圖7為PointNet++的整體網(wǎng)絡(luò)架構(gòu)。采樣層中,在輸入點(diǎn)云中使用迭代最遠(yuǎn)點(diǎn)采樣(farthest point sampling,F(xiàn)PS)方法選擇一系列局部區(qū)域的中心點(diǎn)。分組層中,通過(guò)查找中心點(diǎn)周?chē)摹班徑秉c(diǎn),創(chuàng)建多個(gè)點(diǎn)云子集。最后采用PointNet 網(wǎng)絡(luò)進(jìn)行卷積和池化來(lái)獲得這些點(diǎn)云子集的高階特征表示。此外,作者還提出了密度自適應(yīng)切入點(diǎn)網(wǎng)層,當(dāng)輸入采樣密度發(fā)生變化時(shí),則學(xué)習(xí)不同尺度區(qū)域的特征。

        Fig.6 Timeline of direct semantic segmentation圖6 直接語(yǔ)義分割方法發(fā)展時(shí)間軸

        Fig.7 Network framework for PointNet++圖7 PointNet++網(wǎng)絡(luò)架構(gòu)

        PointNet++網(wǎng)絡(luò)不僅解決了點(diǎn)云數(shù)據(jù)采樣不均勻的問(wèn)題,而且考慮了點(diǎn)與點(diǎn)之間的距離度量。它通過(guò)層級(jí)結(jié)構(gòu)學(xué)習(xí)局部區(qū)域特征,使得網(wǎng)絡(luò)結(jié)構(gòu)更有效、更穩(wěn)健。雖然該模型有效改善了局部特征提取問(wèn)題,但PointNet++和PointNet 模型一樣,單獨(dú)提取點(diǎn)的特征,依然沒(méi)有建立點(diǎn)與點(diǎn)之間的關(guān)系(如方向性等),對(duì)于局部特征的學(xué)習(xí)仍然不夠充分。為了模擬點(diǎn)之間的交互關(guān)系,Zhao 等人[54]提出了PointWeb,通過(guò)自適應(yīng)特征調(diào)整(adaptive feature adjustment,AFA)模塊實(shí)現(xiàn)信息交換和點(diǎn)的局部特征學(xué)習(xí),構(gòu)建局部完全鏈接網(wǎng)絡(luò)來(lái)探索局部區(qū)域中所有點(diǎn)對(duì)之間的關(guān)系。該方法充分利用點(diǎn)的局部特征,并形成聚合特征進(jìn)行三維點(diǎn)云語(yǔ)義分割。另外,為了解決Point-Net++中K-鄰域搜索可能處于一個(gè)方向的問(wèn)題,Point-SIFT 模塊[10]的方向編碼單元在8 個(gè)方向上對(duì)最近點(diǎn)(nearest point)的特征進(jìn)行卷積,從而能夠提取更可靠和穩(wěn)定的表征點(diǎn)。

        為了更加有效地利用點(diǎn)云的局部特征信息,研究者們基于PointNet++網(wǎng)絡(luò)架構(gòu)提出了許多點(diǎn)云語(yǔ)義分割的網(wǎng)絡(luò)模型,如:SO-Net[11]、SCN(shape context net)[55]、RandLA-Net[18]等。

        SO-Net[11]網(wǎng)絡(luò)通過(guò)建立自組織映射(self-organizing map,SOM)模擬點(diǎn)云的空間分布,對(duì)單個(gè)點(diǎn)和SOM節(jié)點(diǎn)進(jìn)行分層特征提取,最終用單個(gè)特征向量來(lái)表示輸入點(diǎn)云,從而固定點(diǎn)的位置以實(shí)現(xiàn)點(diǎn)云高效分割。雖然SO-Net 網(wǎng)絡(luò)架構(gòu)對(duì)于大規(guī)模點(diǎn)云數(shù)據(jù)處理還具有一定的局限性,但其為后續(xù)的大規(guī)模點(diǎn)云語(yǔ)義分割提供了重要基礎(chǔ)。與SO-Net 不同,SCN[55]采用形狀上下文作為基本構(gòu)建塊開(kāi)發(fā)了一種分層結(jié)構(gòu),通過(guò)捕獲并傳播局部和全局形狀信息來(lái)表示對(duì)象點(diǎn)的內(nèi)在屬性。RandLA-Net[18]是一種用于大規(guī)模點(diǎn)云處理的輕量級(jí)網(wǎng)絡(luò),該網(wǎng)絡(luò)使用隨機(jī)點(diǎn)采樣法替代PointNet++的最遠(yuǎn)點(diǎn)采樣法,通過(guò)局部特征聚集模塊以捕獲和保留局部幾何特征,在存儲(chǔ)和計(jì)算方面實(shí)現(xiàn)了顯著的提高。

        2.2.2 基于圖卷積的方法

        圖卷積方法將卷積運(yùn)算與圖結(jié)構(gòu)表示相結(jié)合。圖卷積神經(jīng)網(wǎng)絡(luò)是一種直接在圖結(jié)構(gòu)上運(yùn)行且能夠依靠圖中節(jié)點(diǎn)之間的信息傳遞來(lái)捕獲圖中依賴(lài)關(guān)系的卷積神經(jīng)網(wǎng)絡(luò),在計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用越來(lái)越廣泛。

        針對(duì)PointNet++框架[17]中以孤立方式進(jìn)行特征學(xué)習(xí)的局限性,Wang 等人[56]提出一種局部譜圖卷積(local spectral graph convolution),它從點(diǎn)的鄰域構(gòu)造局部圖,利用譜圖卷積結(jié)合新的圖池策略學(xué)習(xí)相鄰點(diǎn)的相對(duì)布局及特征。與上述方法不同,Simonovsky等人[57]在空間域中對(duì)圖形信號(hào)進(jìn)行了類(lèi)似于卷積的運(yùn)算,并使用非對(duì)稱(chēng)邊緣函數(shù)來(lái)描述局部點(diǎn)之間的關(guān)系。但是,邊緣標(biāo)簽是動(dòng)態(tài)生成的,沒(méi)有考慮局部點(diǎn)的分布不規(guī)則性。于是,RGCNN[25]基于譜圖理論,將點(diǎn)的特征作為圖上的一個(gè)節(jié)點(diǎn)以克服點(diǎn)云的不規(guī)則性。Wang 等人[24]改進(jìn)文獻(xiàn)[57]的方法,提出了動(dòng)態(tài)圖卷積神經(jīng)網(wǎng)絡(luò)DGCNN。DGCNN 通過(guò)構(gòu)造局部鄰域圖并利用邊緣卷積(EdgeConv)操作提取中心點(diǎn)的特征和中心點(diǎn)與K近鄰域(KNN)點(diǎn)的邊緣向量以獲得點(diǎn)云的局部特征。EdgeConv 考慮了點(diǎn)的坐標(biāo)與鄰域點(diǎn)的距離,卻忽視了相鄰點(diǎn)之間的向量方向,最終還是損失了一部分局部幾何信息。

        隨后,在DGCNN 的研究基礎(chǔ)上發(fā)展了一系列基于圖卷積的算法,如GACNet[19]、HDGCN[12]、DPAM[26]和PointNGCNN[58]等。其中,GACNet[44]提出了一種具有可學(xué)習(xí)內(nèi)核形狀的圖注意力卷積(graph attention convolution,GAC),用于3D 點(diǎn)云的結(jié)構(gòu)化特征學(xué)習(xí)。受深度卷積和圖卷積的啟發(fā),Liang 等人[12]提出由深度圖卷積(depthwise graph convolutional,DGConv)塊組成的層次結(jié)構(gòu)網(wǎng)絡(luò)——HDGCN,以提取點(diǎn)云局部特征和全局特征。Liu 等人[26]認(rèn)為以往的點(diǎn)聚集方法僅在歐幾里德空間中進(jìn)行點(diǎn)采樣和分組,嚴(yán)重限制了它們適應(yīng)更多場(chǎng)景的能力。于是提出了一種基于圖卷積的動(dòng)態(tài)點(diǎn)聚集模塊(DPAM),將點(diǎn)聚集(采樣、分組和合并)的過(guò)程簡(jiǎn)化為聚集矩陣和點(diǎn)特征矩陣相乘。PointNGCNN[58]構(gòu)造鄰域圖來(lái)描述鄰域點(diǎn)之間的關(guān)系,并使用切比雪夫多項(xiàng)式作為鄰域圖濾波器提取鄰域幾何特征。在此基礎(chǔ)上,將每個(gè)鄰域的特征矩陣和拉普拉斯矩陣(Laplacian matrix)放入網(wǎng)絡(luò)中,利用最大池化操作獲得每個(gè)中心的特征。

        此外,為了處理大規(guī)模點(diǎn)云的語(yǔ)義分割,Landrieu等人[59]在2018年提出了超點(diǎn)圖(superpoints graph,SPG)。SPG 將幾何分割后的每一個(gè)幾何形狀看作一個(gè)超點(diǎn)(superpoint)構(gòu)建超點(diǎn)圖,利用PointNet 對(duì)超點(diǎn)圖進(jìn)行超點(diǎn)嵌入以及圖卷積處理,分類(lèi)得到語(yǔ)義標(biāo)簽。SPG 能夠詳細(xì)描述相鄰目標(biāo)之間的關(guān)系,可有效解決每個(gè)點(diǎn)操作過(guò)于獨(dú)立,點(diǎn)與點(diǎn)之間缺乏聯(lián)系等問(wèn)題。

        2.2.3 基于優(yōu)化CNN 的方法

        卷積神經(jīng)網(wǎng)絡(luò)(CNN/ConvNets)是一種前饋神經(jīng)網(wǎng)絡(luò),它的人工神經(jīng)元可以響應(yīng)一部分覆蓋范圍內(nèi)的周?chē)鷨卧壳皩?duì)于大型圖像處理有著出色的表現(xiàn)。卷積神經(jīng)網(wǎng)絡(luò)由一個(gè)或多個(gè)卷積層和頂端的全連接層組成,同時(shí)也包括關(guān)聯(lián)權(quán)重和池化層。這一結(jié)構(gòu)使得卷積神經(jīng)網(wǎng)絡(luò)能夠利用輸入數(shù)據(jù)的三維結(jié)構(gòu),將特征從低級(jí)特征提取到高級(jí)特征。近年來(lái),一些研究者對(duì)CNN 進(jìn)行了優(yōu)化,并將它們應(yīng)用在點(diǎn)云語(yǔ)義分割的模型中。上文提到的圖卷積也算優(yōu)化CNN 方法中的一類(lèi)。

        由于點(diǎn)云數(shù)據(jù)的無(wú)序性,導(dǎo)致輸入點(diǎn)云數(shù)據(jù)時(shí)的排列順序千差萬(wàn)別,使得卷積操作很難直接應(yīng)用到點(diǎn)云數(shù)據(jù)上。為了進(jìn)一步解決這個(gè)問(wèn)題并利用標(biāo)準(zhǔn)CNN 操作的優(yōu)勢(shì),PointCNN[14]嘗試學(xué)習(xí)χ-變換卷積算子,將無(wú)序的點(diǎn)云轉(zhuǎn)換為相應(yīng)的規(guī)范順序,之后再使用典型的CNN 架構(gòu)來(lái)提取局部特征。χ-變換可以實(shí)現(xiàn)“隨機(jī)應(yīng)變”,即當(dāng)輸入點(diǎn)的順序變化時(shí),χ能夠相應(yīng)地變化,使加權(quán)和排列之后的特征近似不變,輸入特征在經(jīng)過(guò)χ-變換的處理之后能夠變成與輸入點(diǎn)順序無(wú)關(guān)同時(shí)也編碼了輸入點(diǎn)形狀信息的歸一化的特征。不同于PointCNN,PCCN[29](parametric continuous convolution network)提出一種參數(shù)連續(xù)卷積,使用點(diǎn)來(lái)承載內(nèi)核權(quán)重并利用參數(shù)化的核函數(shù)跨越整個(gè)連續(xù)向量空間,由于其不使用任何形式的鄰域,導(dǎo)致該網(wǎng)絡(luò)不可再擴(kuò)展。同樣,在解決缺乏空間卷積的過(guò)程中,Thomas 等人[21]提出了提供可變形卷積算子的核點(diǎn)卷積(KPConv),通過(guò)應(yīng)用鄰域中最近距離內(nèi)核點(diǎn)的權(quán)重,對(duì)每個(gè)局部鄰域進(jìn)行卷積。KPConv的卷積權(quán)重由到核點(diǎn)的歐幾里德距離確定,并且核點(diǎn)的數(shù)量不是固定的,因此KPConv比固定網(wǎng)格卷積靈活性更強(qiáng)。隨后,ConvPoint[27]使用多層感知器(MLP)學(xué)習(xí)關(guān)聯(lián)函數(shù)替代KPConv 使用的RBF 高斯函數(shù)關(guān)聯(lián)輸入和內(nèi)核。ConvPoint[27]提出離散卷積神經(jīng)網(wǎng)絡(luò)的泛化,通過(guò)使用連續(xù)核替換離散核以處理點(diǎn)云。Pointwise[60]利用逐點(diǎn)卷積(pointwise convolution)獲取點(diǎn)的局部特征信息實(shí)現(xiàn)語(yǔ)義分割。但是,逐點(diǎn)卷積使用體素容器定位內(nèi)核權(quán)重,因此缺乏像KPConv 一樣的靈活性。SpiderCNN[30]通過(guò)對(duì)一系列的卷積濾波器進(jìn)行參數(shù)化,將卷積運(yùn)算從常規(guī)網(wǎng)格擴(kuò)展到可嵌入?n的不規(guī)則點(diǎn)集,并捕獲復(fù)雜的局部幾何變化。SpiderCNN 繼承了經(jīng)典CNN 的多尺度層次結(jié)構(gòu),進(jìn)而能夠提取語(yǔ)義深層特征。InterpConv[22]利用一組離散的內(nèi)核權(quán)重,并通過(guò)插值函數(shù)將點(diǎn)特征插值到相鄰的內(nèi)核權(quán)重坐標(biāo)上進(jìn)行卷積。在Interp-Conv 基礎(chǔ)上提出內(nèi)插卷積神經(jīng)網(wǎng)絡(luò)(InterpCNN),以處理點(diǎn)云的室內(nèi)場(chǎng)景語(yǔ)義解析任務(wù)。ShellConv[15]使用同心球殼的統(tǒng)計(jì)信息來(lái)定義有代表性的特征并解決了點(diǎn)的無(wú)序性輸入,使得傳統(tǒng)的卷積運(yùn)算可以直接處理這些特征。Wu 等人[23]將動(dòng)態(tài)濾波器擴(kuò)展到一個(gè)新的卷積運(yùn)算,命名為PointConv。PointConv 在局部點(diǎn)坐標(biāo)上訓(xùn)練多層感知器來(lái)逼近卷積濾波器中的連續(xù)權(quán)函數(shù)和密度函數(shù),使其具有置換不變性和平移不變性。此外,將PointConv 擴(kuò)展為反卷積運(yùn)算符(PointDeconv),將特征從子采樣點(diǎn)云傳播回原始分辨率。A-CNN[61]在分層神經(jīng)網(wǎng)絡(luò)中應(yīng)用環(huán)形卷積(annular convolution)以實(shí)現(xiàn)大場(chǎng)景的語(yǔ)義分割。環(huán)形卷積可提取每個(gè)點(diǎn)周?chē)植苦徲虻膸缀翁卣?,并在后續(xù)的點(diǎn)云處理中,使用特征融合方法將全局特征與局部特征結(jié)合以改善分割效果。

        2.2.4 基于RNN 的方法

        循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[62]是目前深度學(xué)習(xí)中另一種主流模型,RNN 不僅可以學(xué)習(xí)當(dāng)前時(shí)刻的信息,還可以依賴(lài)之前的序列信息,有利于建模全局內(nèi)容和保存歷史信息,促進(jìn)上下文信息的利用。Engelmann 等人[28]在PointNet 網(wǎng)絡(luò)的基礎(chǔ)上提出了輸入級(jí)上下文和輸出級(jí)上下文兩個(gè)擴(kuò)展。輸入級(jí)上下文是將點(diǎn)塊轉(zhuǎn)換為多尺度塊和網(wǎng)絡(luò)塊;輸出級(jí)上下文是將PointNet 提取的分塊特征依次送入合并單元(consolidation units,CU)或循環(huán)合并單元(recurrent consolidation units,RCU)。實(shí)驗(yàn)結(jié)果表明,將網(wǎng)絡(luò)架構(gòu)擴(kuò)展到更大尺度的空間上下文中有助于提高語(yǔ)義分割性能。Liu 等人[63]融合三維卷積神經(jīng)網(wǎng)絡(luò)(CNN)、深層Q 網(wǎng)絡(luò)(deep Q-network,DQN)和殘差遞歸神經(jīng)網(wǎng)絡(luò)(RNN),提出了3DCNN-DQNRNN 用于大規(guī)模點(diǎn)云的語(yǔ)義解析。3DCNN 網(wǎng)絡(luò)學(xué)習(xí)點(diǎn)的空間分布和形狀顏色特征;DQN 網(wǎng)絡(luò)定位類(lèi)對(duì)象;殘差RNN 處理輸入的級(jí)聯(lián)特征向量獲得最終的分割結(jié)果。該方法利用殘差RNN 進(jìn)一步提取了點(diǎn)的識(shí)別性特征,從而提高了大規(guī)模點(diǎn)云的解析精度。

        為了進(jìn)一步優(yōu)化PointNet++網(wǎng)絡(luò),并且考慮點(diǎn)與點(diǎn)之間方向性關(guān)系,RSNet[13]模型通過(guò)x、y、z三個(gè)方向的切片池化層將無(wú)序點(diǎn)云轉(zhuǎn)換為有序序列并提取全局特征,采用雙向RNN(bidirectional RNN)處理點(diǎn)云有序序列,提取局部相關(guān)性特征,利用切片解析層將序列中的特征分配回各個(gè)點(diǎn),最終輸出每個(gè)點(diǎn)的語(yǔ)義預(yù)測(cè)標(biāo)簽。相比其他為了得到局部信息需要復(fù)雜計(jì)算的模型,RSNet 簡(jiǎn)化了獲取局部信息的計(jì)算。同樣,Ye 等人[20]從x、y方向連續(xù)地掃描三維空間提取信息,并構(gòu)建一個(gè)逐點(diǎn)金字塔池化模塊(pyramid pooling module)提取三維點(diǎn)云不同密度的局部特征,同時(shí)使用分層的雙向RNN 學(xué)習(xí)空間上下文信息,從而實(shí)現(xiàn)多層次的語(yǔ)義特征融合。

        2.2.5 基于注意力機(jī)制的方法

        注意力機(jī)制基本思想是讓系統(tǒng)能夠忽略無(wú)關(guān)信息而關(guān)注重點(diǎn)信息。注意力機(jī)制通過(guò)神經(jīng)網(wǎng)絡(luò)算出梯度并且前向傳播和后向反饋來(lái)學(xué)習(xí)得到注意力的權(quán)重。為進(jìn)一步提升分割精度,一些研究者將注意力機(jī)制引入至語(yǔ)義分割算法中。Yang 等人[64]開(kāi)發(fā)了一個(gè)基于點(diǎn)云推理的點(diǎn)注意力變壓器(point attention transformer,PAT),并提出了群洗牌注意力(group shuffle attention,GSA)用于建模點(diǎn)之間的關(guān)系。同時(shí),Yang 等人[64]還提出了一種端到端、置換不變性、可微的Gumbel 子集采樣(Gumbel subset sampling,GSS)替代廣泛使用的最遠(yuǎn)點(diǎn)采樣(FPS),以選擇具有代表性的點(diǎn)子集。Zhao 等人[65]考慮通過(guò)利用相鄰點(diǎn)的初始分割分?jǐn)?shù)來(lái)改善三維點(diǎn)云分割結(jié)果,提出了一種基于注意力的分?jǐn)?shù)細(xì)化(attention-based score refinement,ASR)模塊,該模塊根據(jù)各個(gè)點(diǎn)的初始分割分?jǐn)?shù)計(jì)算權(quán)重,再根據(jù)計(jì)算出的權(quán)重合并每個(gè)點(diǎn)及其鄰近點(diǎn)的分?jǐn)?shù),從而對(duì)分?jǐn)?shù)進(jìn)行優(yōu)化。該模塊可以輕松集成到現(xiàn)有的深度網(wǎng)絡(luò)中,以提高最終的分割效果。GACNet[19]通過(guò)建立每個(gè)點(diǎn)與周?chē)c(diǎn)的圖結(jié)構(gòu),并引入注意力機(jī)制計(jì)算中心點(diǎn)與每一個(gè)鄰接點(diǎn)的邊緣權(quán)重,最后通過(guò)對(duì)權(quán)重加權(quán)計(jì)算出每個(gè)點(diǎn)的特征后再進(jìn)行圖池化(graph pooling)和下采樣,從而使得網(wǎng)絡(luò)能在分割的目標(biāo)的邊緣部分取得更好的效果。

        借鑒Mnih 等人提出的自注意力機(jī)制(self-attention),GAPNet[66]將其與GCNN 結(jié)合,通過(guò)在堆疊的多層感知器(MLP)層中嵌入圖形注意機(jī)制以學(xué)習(xí)局部幾何表示,GAPNet 可將GAPLayer 和注意力池層集成到堆疊的多層感知器層或現(xiàn)有管道(例如Point-Net)中,以更好地從無(wú)序點(diǎn)云中提取局部上下文特征。SCN(shape context net)[55]受基于自注意力模型的啟發(fā),在其基礎(chǔ)上提出A-SCN(attentional shape context net)模型,以自動(dòng)完成上下文區(qū)域選擇、特征聚合和特征轉(zhuǎn)換等過(guò)程。

        2.2.6 結(jié)合實(shí)例分割的方法

        語(yǔ)義分割和實(shí)例分割相結(jié)合方法能取長(zhǎng)補(bǔ)短,既不重復(fù)操作,減小計(jì)算的復(fù)雜度,又可以增加分割精度,實(shí)現(xiàn)雙贏。

        Wang 等人[67]提出了一個(gè)實(shí)例和語(yǔ)義的關(guān)聯(lián)分割(associatively segmenting instances and semantics,ASIS)框架,通過(guò)學(xué)習(xí)語(yǔ)義感知的點(diǎn)級(jí)實(shí)例嵌入,使實(shí)例分割從語(yǔ)義分割中受益。同時(shí),融合屬于同一實(shí)例的點(diǎn)的語(yǔ)義特征,可自動(dòng)分離屬于不同語(yǔ)義類(lèi)的點(diǎn)嵌入,以進(jìn)行更準(zhǔn)確的基于點(diǎn)的語(yǔ)義預(yù)測(cè)。

        與此同時(shí),Pham 等人[68]基于PointNet 網(wǎng)絡(luò)開(kāi)發(fā)了一個(gè)多任務(wù)逐點(diǎn)網(wǎng)絡(luò),它同時(shí)執(zhí)行兩項(xiàng)任務(wù):預(yù)測(cè)三維點(diǎn)的語(yǔ)義信息,并將這些點(diǎn)嵌入高維向量中,使相同對(duì)象實(shí)例的點(diǎn)相似嵌入表示。然后,利用一個(gè)多值條件隨機(jī)場(chǎng)模型,將語(yǔ)義和實(shí)例標(biāo)簽結(jié)合起來(lái),將語(yǔ)義和實(shí)例分割問(wèn)題表述為場(chǎng)模型中標(biāo)簽的聯(lián)合優(yōu)化問(wèn)題。作者所提出的聯(lián)合語(yǔ)義實(shí)例分割方案對(duì)單個(gè)構(gòu)件具有較強(qiáng)的魯棒性,實(shí)驗(yàn)結(jié)果相對(duì)于ASIS來(lái)說(shuō)更好一些。

        3 語(yǔ)義分割實(shí)驗(yàn)分析與對(duì)比

        本章首先梳理了測(cè)試階段價(jià)值較高的RGB-D 和三維公開(kāi)數(shù)據(jù)集,然后在此基礎(chǔ)上對(duì)現(xiàn)有語(yǔ)義分割算法的性能進(jìn)行了綜合性對(duì)比和討論。

        3.1 公共數(shù)據(jù)集

        為了驗(yàn)證研究者們提出算法對(duì)語(yǔ)義分割的效果,有效的數(shù)據(jù)集是不可或缺的一環(huán)。隨著深度學(xué)習(xí)在三維語(yǔ)義分割中的發(fā)展,三維數(shù)據(jù)集的地位愈加重要。目前,為了促進(jìn)三維點(diǎn)云語(yǔ)義分割的研究,許多研究機(jī)構(gòu)提供了一些可靠且開(kāi)放的三維數(shù)據(jù)集,見(jiàn)表2,下面對(duì)點(diǎn)云語(yǔ)義常用的數(shù)據(jù)集按類(lèi)別以及時(shí)間順序進(jìn)行簡(jiǎn)要的描述。

        3.1.1 RGB-D 數(shù)據(jù)集

        (1)RGB-D Object[69](https://rgbd-dataset.cs.washington.edu/):該數(shù)據(jù)集2011 年由美國(guó)華盛頓大學(xué)的研究小組開(kāi)發(fā),由11 427 幅人工手動(dòng)分割的RGB-D圖像組成,整個(gè)數(shù)據(jù)集包含300 個(gè)常見(jiàn)的室內(nèi)物體,并將這些物體分為了51 個(gè)類(lèi)。該數(shù)據(jù)集使Kinect 型三維攝像機(jī)獲取圖像,對(duì)于每一幀,數(shù)據(jù)集提供了RGB 及深度信息,這其中包含了物體、位置及像素級(jí)別的標(biāo)注。另外,還提供了22 個(gè)帶注釋的自然場(chǎng)景視頻序列,用于驗(yàn)證過(guò)程以評(píng)估性能。

        (2)NYUDv2[70](https://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html):該數(shù)據(jù)集2012 年由美國(guó)紐約大學(xué)的研究小組開(kāi)發(fā),包含1 449 張由微軟Kinect設(shè)備捕獲的室內(nèi)場(chǎng)景的RGB-D 圖像,其中訓(xùn)練集795張,測(cè)試集654 張,對(duì)象被分為40 個(gè)類(lèi),每個(gè)對(duì)象都標(biāo)有類(lèi)和實(shí)例號(hào)。但是由于其相對(duì)于其他數(shù)據(jù)集規(guī)模較小,因此該數(shù)據(jù)集主要用于輔助機(jī)器人導(dǎo)航的訓(xùn)練任務(wù)。

        (3)SUN3D[71](http://sun3d.cs.princeton.edu/):該數(shù)據(jù)集2013 年由美國(guó)普林斯頓大學(xué)的研究小組開(kāi)發(fā),其中包含使用Asus Xtion 傳感器捕獲的415 個(gè)RGB-D 序列,是一個(gè)具有攝像機(jī)姿態(tài)和物體標(biāo)簽的大型RGB-D 視頻數(shù)據(jù)庫(kù)。每一幀均包含場(chǎng)景中物體的語(yǔ)義分割信息以及攝像機(jī)位態(tài)信息。

        (4)Bigbird[72](http://rll.berkeley.edu/bigbird/):該數(shù)據(jù)集2014 年由美國(guó)加州大學(xué)伯克利分校的研究小組開(kāi)發(fā),使用計(jì)算機(jī)控制的光平臺(tái)和靜態(tài)校準(zhǔn)的成像設(shè)備對(duì)125 個(gè)對(duì)象進(jìn)行3D 掃描,每個(gè)對(duì)象由600 個(gè)3D 點(diǎn)云和600 個(gè)跨越所有視圖的高分辨率(1 200 萬(wàn)像素)圖像組成。

        (5)ViDRILO[73](http://www.rovit.ua.es/dataset/vidrilo):該數(shù)據(jù)集2015 年由西班牙卡斯蒂利亞大學(xué)和阿利坎特大學(xué)的研究小組共同開(kāi)發(fā),包含其使用Microsoft Kinect v1 傳感器在5 個(gè)室內(nèi)場(chǎng)景中捕獲的22 454 個(gè)RGB-D 圖像。每個(gè)RGB-D 圖像都標(biāo)有場(chǎng)景的語(yǔ)義類(lèi)別(走廊、教授辦公室等)。該數(shù)據(jù)集被發(fā)布用于基準(zhǔn)測(cè)試多個(gè)問(wèn)題,如多模式地點(diǎn)分類(lèi)、目標(biāo)識(shí)別、三維重建或點(diǎn)云數(shù)據(jù)壓縮。

        Table 2 Common 3D datasets of point cloud semantic segmentation表2 點(diǎn)云語(yǔ)義分割常用的3D 數(shù)據(jù)集

        (6)SUN RGB-D[74](http://rgbd.cs.princeton.edu/):該數(shù)據(jù)集與SUN3D 數(shù)據(jù)集由美國(guó)普林斯頓大學(xué)的同一研究小組開(kāi)發(fā),數(shù)據(jù)由4 個(gè)不同的傳感器捕獲,包含10 000 張RGB-D 圖像,其尺寸與Pascal VOC 相當(dāng)。整個(gè)數(shù)據(jù)集是密集注釋的,包括146 617 個(gè)2D 多邊形和58 657 個(gè)具有精確對(duì)象定位的3D 包圍框,以及一個(gè)三維房間布局和場(chǎng)景類(lèi)別,適用于場(chǎng)景理解任務(wù)。

        (7)ScanNet[44](http://www.scan-net.org/):該數(shù)據(jù)集2017 年由美國(guó)普林斯頓大學(xué)、斯坦福大學(xué)以及德國(guó)慕尼黑工業(yè)大學(xué)的研究者共同開(kāi)發(fā),是一個(gè)RGBD 視頻的室內(nèi)場(chǎng)景數(shù)據(jù)集。在1 513 次掃描中獲得250 萬(wàn)次視圖,附加了3D 相機(jī)姿態(tài)、表面重建和實(shí)例級(jí)語(yǔ)義分割的注釋。該數(shù)據(jù)集的對(duì)象被分為20 個(gè)類(lèi),包含各種各樣的空間,范圍從?。ɡ?,浴室、壁櫥、雜物間)到大(例如,公寓、教室和圖書(shū)館)。該數(shù)據(jù)被廣泛應(yīng)用于三維對(duì)象分類(lèi)、語(yǔ)義體素標(biāo)記和CAD 模型檢索等三維場(chǎng)景理解任務(wù)上。

        (8)Matterport3D[75](https://niessner.github.io/Matterport/):如圖8,該數(shù)據(jù)集2017 年由美國(guó)普林斯頓大學(xué)、斯坦福大學(xué)以及德國(guó)慕尼黑工業(yè)大學(xué)的研究者共同開(kāi)發(fā),包含來(lái)自90 多個(gè)建筑規(guī)模場(chǎng)景的194 400個(gè)RGB-D 圖像和10 800 個(gè)全景。注釋提供了表面重建、相機(jī)姿態(tài)以及2D 和3D 語(yǔ)義分割內(nèi)容。精確的全局校準(zhǔn)和全面的、多樣的全景視圖覆蓋了整個(gè)建筑,從而支持各種監(jiān)督的計(jì)算機(jī)視覺(jué)任務(wù),如:關(guān)鍵點(diǎn)匹配、視圖重疊預(yù)測(cè)、根據(jù)顏色進(jìn)行的正常預(yù)測(cè)、語(yǔ)義分割和區(qū)域分類(lèi)。

        3.1.2 室內(nèi)三維數(shù)據(jù)集

        (1)A Benchmark for 3D Mesh Segmentation[76](http://segeval.cs.princeton.edu/):該數(shù)據(jù)集2009 年由美國(guó)普林斯頓大學(xué)的研究小組開(kāi)發(fā),包含380 個(gè)網(wǎng)格,被分為19 個(gè)常見(jiàn)對(duì)象類(lèi)別(如桌子、椅子等),每個(gè)網(wǎng)格手動(dòng)地被分割為不同的功能區(qū)域,旨在幫助研究三維零件的語(yǔ)義分割和人類(lèi)如何將對(duì)象分解為各個(gè)有意義的部分。

        (2)PrincentonModelNet[43](http://modelnet.cs.princeton.edu/):該數(shù)據(jù)2015 年由美國(guó)普林斯頓大學(xué)、麻省理工學(xué)院以及中國(guó)香港中文大學(xué)的研究人員共同開(kāi)發(fā),該數(shù)據(jù)集是一個(gè)為計(jì)算機(jī)視覺(jué)、計(jì)算機(jī)圖形學(xué)、機(jī)器人和認(rèn)知科學(xué)的研究者提供的清晰物體3D CAD 模型,ModelNet總共有662 種目標(biāo)分類(lèi),127 915個(gè)CAD,以及10 類(lèi)標(biāo)記過(guò)方向朝向的數(shù)據(jù)。其中包括3 個(gè)子數(shù)據(jù)集:ModelNet10(10 個(gè)標(biāo)記朝向的子集數(shù)據(jù))、ModelNet40(40個(gè)類(lèi)別的三維模型)、Aligned40(40 類(lèi)標(biāo)記的三維模型)。

        (3)ShapeNet Part[77](https://cs.stanford.edu/~ericyi/project_page/part_annotation/):該數(shù)據(jù)集2016 年由美國(guó)斯坦福大學(xué)、普林斯頓大學(xué)和芝加哥豐田技術(shù)學(xué)院的研究人員共同開(kāi)發(fā),該數(shù)據(jù)集是ShapeNet 數(shù)據(jù)集的子集,一個(gè)由3D CAD 模型對(duì)象表示的豐富注釋的大型形狀存儲(chǔ)庫(kù),關(guān)注于細(xì)粒度的三維物體分割。包含16 個(gè)類(lèi)別的16 881 個(gè)形狀31 693 個(gè)網(wǎng)格,每個(gè)形狀類(lèi)被標(biāo)注為2~5 個(gè)部分,整個(gè)數(shù)據(jù)集共有50個(gè)物體部分。

        (4)S3DIS[78](http://buildingparser.stanford.edu/dataset.html):如圖9,該數(shù)據(jù)2016 年由美國(guó)斯坦福大學(xué)的研究小組開(kāi)發(fā),是一個(gè)多模態(tài)、大規(guī)模室內(nèi)空間數(shù)據(jù)集,具有實(shí)例級(jí)語(yǔ)義和幾何注釋。S3DIS 數(shù)據(jù)集覆蓋超過(guò)6 000 m2,包含超過(guò)70 000 個(gè)RGB 圖像,以及相應(yīng)的深度、表面法線(xiàn)、語(yǔ)義注釋、全局XYZ圖像以及相機(jī)信息。收集在6 個(gè)大型室內(nèi)區(qū)域272 個(gè)3D 房間場(chǎng)景內(nèi)。共有13 個(gè)類(lèi)別(墻、桌子、椅子、柜子等)。該數(shù)據(jù)集能夠利用大規(guī)模室內(nèi)空間中存在的規(guī)律來(lái)開(kāi)發(fā)聯(lián)合跨模式學(xué)習(xí)模型和潛在的無(wú)監(jiān)督方法。

        Fig.8 Example image of Matterport3D dataset圖8 Matterport3D 數(shù)據(jù)集示例圖

        Fig.9 Example image of S3DIS dataset圖9 S3DIS 數(shù)據(jù)集示例圖

        (5)Multisensorial Indoor Mapping and Positioning Dataset[79](http://mi3dmap.net/dataset.jsp):該數(shù)據(jù)集2018 年由廈門(mén)大學(xué)的研究小組開(kāi)發(fā),數(shù)據(jù)通過(guò)多傳感器獲取,例如激光掃描儀、照相機(jī)、WIFI 和藍(lán)牙等。該數(shù)據(jù)集提供了密集的激光掃描點(diǎn)云,用于室內(nèi)制圖和定位。同時(shí),他們還提供基于多傳感器校準(zhǔn)和SLAM 映射過(guò)程的彩色激光掃描。

        3.1.3 室外三維數(shù)據(jù)集

        自2009 年以來(lái),已有多個(gè)室外三維數(shù)據(jù)集可用于三維點(diǎn)云的語(yǔ)義分割研究,然而早期的數(shù)據(jù)集有很多缺點(diǎn)。例如the Oakland outdoor MLS dataset[80]、the Sydney Urban Objects MLS dataset[81]、the Paris-rue-Madame MLS dataset[82]、the IQmulus&TerraMobilita Contest MLS dataset[83]和ETHZ CVL RueMonge 2014 multiview stereo dataset[84]無(wú)法同時(shí)提供不同的對(duì)象表示和標(biāo)注點(diǎn)。為了克服早期數(shù)據(jù)集的缺點(diǎn),近年來(lái)已提供了新的基準(zhǔn)數(shù)據(jù)。下面對(duì)這些數(shù)據(jù)集進(jìn)行簡(jiǎn)單的描述。

        (1)TUMCity Campus[85](https://www.iosb.fraunhofer.de/servlet/is/71820/):該數(shù)據(jù)集2016 年由德國(guó)慕尼黑技術(shù)大學(xué)的Fraunhofer IOSB 開(kāi)發(fā),在“TUM 城市校園”試驗(yàn)場(chǎng)(48.149 3°N,11.568 5°E)獲得了移動(dòng)激光掃描(mobile laser scanning,MLS)數(shù)據(jù),所有點(diǎn)的x、y、z都被地理參照到一個(gè)局部歐氏坐標(biāo)系中。該數(shù)據(jù)集包含17 億多個(gè)點(diǎn),9 個(gè)類(lèi)別。隨后,2017 年新增了一個(gè)紅外圖像序列來(lái)擴(kuò)展數(shù)據(jù)集;2018 年對(duì)“MLS1-TUM 城市校園”三維測(cè)試數(shù)據(jù)集的一部分進(jìn)行了手動(dòng)標(biāo)記;2019 年對(duì)“TUM 城市校園”試驗(yàn)場(chǎng)進(jìn)行了重新掃描更新;2020 年新增了2009 年的機(jī)載激光掃描(airborne laser scanning,ALS)數(shù)據(jù)。

        (2)vKITTI(Virtual KITTI)[86](http://www.europe.naverlabs.com/Research/Computer-Vision/Proxy-Virtual-Worlds):該數(shù)據(jù)集2016 年由法國(guó)歐洲施樂(lè)研究中心計(jì)算機(jī)視覺(jué)小組和美國(guó)亞利桑那州立大學(xué)研究小組共同開(kāi)發(fā),vKITTI數(shù)據(jù)集是從真實(shí)世界場(chǎng)景的KITTI數(shù)據(jù)集模擬形成的大規(guī)模戶(hù)外場(chǎng)景數(shù)據(jù)集,包含13個(gè)語(yǔ)義類(lèi)別,35 個(gè)合成視頻,總共約17 000 個(gè)高分辨率幀,旨在學(xué)習(xí)和評(píng)估幾個(gè)視頻理解任務(wù)的計(jì)算機(jī)視覺(jué)模型:對(duì)象檢測(cè)和多對(duì)象跟蹤、場(chǎng)景級(jí)和實(shí)例級(jí)語(yǔ)義分割、光流和深度估計(jì)。2020 年研究人員對(duì)該數(shù)據(jù)集又進(jìn)行了更新。

        (3)Semantic3D[87](http://semantic3d.net/):如圖10,該數(shù)據(jù)集2017 年由瑞士蘇黎世聯(lián)邦理工學(xué)院的研究小組開(kāi)發(fā),Semantic3D 提供了一個(gè)大型標(biāo)記的三維點(diǎn)云數(shù)據(jù)集,其自然場(chǎng)景總數(shù)超過(guò)40 億個(gè)點(diǎn)。它還涵蓋了一系列不同的城市場(chǎng)景:教堂、街道、鐵軌、廣場(chǎng)、村莊、城堡、足球場(chǎng)等。訓(xùn)練集和測(cè)試集各包含15 個(gè)大規(guī)模的點(diǎn)云,8 個(gè)具體的語(yǔ)義類(lèi),掃描范圍還包括各種場(chǎng)景類(lèi)型,包括城市、次城市和農(nóng)村,是目前最大的可用激光雷達(dá)數(shù)據(jù)集。

        Fig.10 Point cloud scene and semantic segmentation diagram in Semantic3D dataset圖10 Semantic3D 數(shù)據(jù)集中點(diǎn)云場(chǎng)景語(yǔ)義分割圖

        (4)Paris-Lille-3D[88](http://npm3d.fr/paris-lille-3d):該數(shù)據(jù)集2018 年由巴黎高等礦業(yè)學(xué)院的研究小組開(kāi)發(fā),是一個(gè)城市MLS 數(shù)據(jù)集,包含1 431 萬(wàn)個(gè)標(biāo)記點(diǎn),涵蓋50 個(gè)不同的城市對(duì)象類(lèi)。整個(gè)數(shù)據(jù)集由3 個(gè)子集組成,分別為713 萬(wàn)、268 萬(wàn)和457 萬(wàn)個(gè)點(diǎn)。作為MLS 數(shù)據(jù)集,它也可以用于自動(dòng)駕駛研究。

        (5)Apollo[89](http://apolloscape.auto/car_instance.html):該數(shù)據(jù)集2019 年由百度的研究小組開(kāi)發(fā),是一個(gè)大規(guī)模的自動(dòng)駕駛數(shù)據(jù)集,提供了3 維汽車(chē)的實(shí)例理解,LiDAR 點(diǎn)云對(duì)象檢測(cè)和跟蹤以及基于LiDAR 的定位的標(biāo)記數(shù)據(jù)。該數(shù)據(jù)集包含5 277 個(gè)駕駛圖像和超過(guò)6 萬(wàn)個(gè)的汽車(chē)實(shí)例,其中每輛汽車(chē)都配備了具有絕對(duì)模型尺寸和語(yǔ)義標(biāo)記關(guān)鍵點(diǎn)的行業(yè)級(jí)3D CAD 模型。該數(shù)據(jù)集比PASCAL3D 和KITTI(現(xiàn)有技術(shù)水平)大20 倍以上。

        (6)SemanticKITTI[90](http://semantic-kitti.org/):如圖11,該數(shù)據(jù)集2019 年由德國(guó)波恩大學(xué)的研究小組開(kāi)發(fā),是一個(gè)基于汽車(chē)LiDAR 的大型戶(hù)外場(chǎng)景數(shù)據(jù)集,SemanticKITTI 由屬于21 個(gè)序列的43 552 個(gè)密集注釋的激光雷達(dá)掃描組成,其中包含19 個(gè)對(duì)象類(lèi)別,序列00~07 和09~10 用于訓(xùn)練,序列08 用于驗(yàn)證,序列11~21 用于在線(xiàn)測(cè)試。該數(shù)據(jù)的原始3D 點(diǎn)僅具有3D 坐標(biāo),而沒(méi)有顏色信息。

        Fig.11 Semantic segmentation diagram in SemanticKITTI dataset圖11 SemanticKITTI數(shù)據(jù)集中的語(yǔ)義分割圖

        3.1.4 遙感三維數(shù)據(jù)集

        (1)Vaihingen point cloud semantic labeling dataset[91](http://www2.isprs.org/commissions/comm3/wg4/3dsemantic-labeling.html):該數(shù)據(jù)集2014 年由德國(guó)漢諾威大學(xué)和達(dá)姆施塔特工業(yè)大學(xué)的研究者共同開(kāi)發(fā),它是遙感領(lǐng)域中第一個(gè)發(fā)布的基準(zhǔn)數(shù)據(jù)集。該數(shù)據(jù)集是ALS 點(diǎn)云的集合,由Leica ALS50 系統(tǒng)捕獲的10個(gè)條帶組成,該條帶的視場(chǎng)角為45°,在德國(guó)Vaihingen 的平均飛行高度為500 m。兩個(gè)相鄰條帶之間平均重疊率為30%左右,中點(diǎn)密度為每平方米6.7 點(diǎn)。目前,該數(shù)據(jù)標(biāo)記的點(diǎn)云被分為9 個(gè)類(lèi)別作為算法評(píng)估標(biāo)準(zhǔn)。

        (2)The US3D Dataset[92](http://www.grss-ieee.org/community/technical-committees/data-fusion/2019-ieeegrss-data-fusion-contest/):如圖12,該數(shù)據(jù)集2019 年由美國(guó)約翰·霍普金斯大學(xué)的研究小組開(kāi)發(fā),包括多視點(diǎn)、多波段衛(wèi)星圖像和兩個(gè)大城市的地面真相、幾何和語(yǔ)義標(biāo)簽的大規(guī)模公共數(shù)據(jù)集,超過(guò)320 GB 的數(shù)據(jù)用于訓(xùn)練和測(cè)試,覆蓋了佛羅里達(dá)州杰克遜維爾和內(nèi)布拉斯加州奧馬哈的城區(qū)約100 km2,該數(shù)據(jù)集被用于2019 年IEEE GRSS 數(shù)據(jù)融合競(jìng)賽——大規(guī)模語(yǔ)義三維重建,比賽中的語(yǔ)義類(lèi)包括建筑物、高架道路和橋梁、高植被、地面、水等。

        Fig.12 Point cloud scene and semantic segmentation diagram in The US3D dataset圖12 The US3D 數(shù)據(jù)集中點(diǎn)云場(chǎng)景和語(yǔ)義分割圖

        (3)WHU-TLS[93](http://3s.whu.edu.cn/ybs/en/benchmark.htm):該數(shù)據(jù)集2020 年由中國(guó)武漢大學(xué)、德國(guó)慕尼黑工業(yè)大學(xué)、芬蘭大地所、挪威科技大學(xué)以及荷蘭代爾夫特理工大學(xué)的研究小組共同開(kāi)發(fā)。WHUTLS 是全球最大規(guī)模和最多樣化場(chǎng)景類(lèi)型的TLS 點(diǎn)云配準(zhǔn)基準(zhǔn)數(shù)據(jù)集,涵蓋了地鐵站、高鐵站、山地、森林、公園、校園、住宅、河岸、文化遺產(chǎn)建筑、地下礦道、隧道等11 種不同的環(huán)境,其中包含115 個(gè)測(cè)站、17.4 億個(gè)三維點(diǎn)以及點(diǎn)云之間的真實(shí)轉(zhuǎn)換矩陣。該基準(zhǔn)數(shù)據(jù)集也為鐵路安全運(yùn)營(yíng)、河流勘測(cè)和治理、森林結(jié)構(gòu)評(píng)估、文化遺產(chǎn)保護(hù)、滑坡監(jiān)測(cè)和地下資產(chǎn)管理等應(yīng)用提供了典型有效數(shù)據(jù)。

        3.2 實(shí)驗(yàn)結(jié)果分析與對(duì)比

        為了評(píng)估三維語(yǔ)義分割算法的性能,需要借助通用的客觀評(píng)價(jià)指標(biāo)來(lái)保證算法評(píng)價(jià)的公正性。語(yǔ)義分割算法的實(shí)驗(yàn)性能評(píng)價(jià)標(biāo)準(zhǔn)主要分為以下幾個(gè)方面:精確度、時(shí)間復(fù)雜度和內(nèi)存損耗(空間復(fù)雜度)。

        3.2.1 精確度

        精確度是其中最為關(guān)鍵的指標(biāo),雖然現(xiàn)有的文獻(xiàn)對(duì)語(yǔ)義分割成果采用了許多不同精度衡量的方法,如平均準(zhǔn)確率(mean accuracy,MA)、總體準(zhǔn)確率(overall accuracy,OA)、平均交并比(mean intersection over union,mIoU)和帶權(quán)交并比(frequency weighted intersection over union,F(xiàn)WIoU),但本質(zhì)上它們都是準(zhǔn)確率及交并比(IoU)的變體。在精確度結(jié)果評(píng)價(jià)時(shí),一般選取總體準(zhǔn)確率(OA)和均交并比(mIoU)兩種評(píng)價(jià)指標(biāo)綜合分析,其中,mIoU 表示數(shù)據(jù)分割的預(yù)測(cè)值與其真實(shí)值這兩個(gè)集合的交集和并集之比,是目前語(yǔ)義分割領(lǐng)域使用頻率最高和最常見(jiàn)的標(biāo)準(zhǔn)評(píng)價(jià)指標(biāo),其具體計(jì)算方法如式(1)所示。假設(shè)共有k+1 個(gè)類(lèi)別(包括一個(gè)背景類(lèi)),記Pij是將i類(lèi)預(yù)測(cè)為j類(lèi)的點(diǎn)數(shù),則Pii表示真實(shí)值為i,預(yù)測(cè)值為i的點(diǎn)數(shù);Pji表示真實(shí)值為j,預(yù)測(cè)值為i的點(diǎn)數(shù)。

        為便于對(duì)比實(shí)驗(yàn)結(jié)果和說(shuō)明算法效果,本小節(jié)將按照?qǐng)D3 和圖6 中的分類(lèi)基于深度學(xué)習(xí)的三維點(diǎn)云語(yǔ)義分割方法的實(shí)驗(yàn)結(jié)果進(jìn)行分析與對(duì)比。表3列舉了在具代表性的三維點(diǎn)云數(shù)據(jù)集上進(jìn)行語(yǔ)義分割的方法的mIoU 實(shí)驗(yàn)結(jié)果對(duì)比。主要比較各算法在五大類(lèi)三維公共數(shù)據(jù)集的評(píng)價(jià)指標(biāo)結(jié)果?!啊北硎驹摲椒ㄎ刺峁┫鄳?yīng)的結(jié)果。

        Table 3 Experimental comparison of mIoU for methods of point cloud semantic segmentation表3 點(diǎn)云語(yǔ)義分割方法的mIoU 實(shí)驗(yàn)結(jié)果對(duì)比

        從表3 中可以發(fā)現(xiàn),三維公共數(shù)據(jù)集中ShapeNet Part 和S3DIS 這兩個(gè)數(shù)據(jù)集運(yùn)用得最多,ShapeNet Part 是一個(gè)由3D CAD 模型對(duì)象表示的豐富注釋的大型形狀存儲(chǔ)庫(kù),關(guān)注于細(xì)粒度的三維物體分割。S3DIS 是一個(gè)多模態(tài)、大規(guī)模的室內(nèi)空間數(shù)據(jù)集,具有實(shí)例級(jí)語(yǔ)義和幾何注釋。

        選用ShapeNet Part 數(shù)據(jù)集的算法中,分割效果都很好,mIoU 基本均在80%以上,說(shuō)明目前已有的算法對(duì)細(xì)粒度的三維物體有較好的識(shí)別效果,物體分割結(jié)果能夠接近真實(shí)的分割。由于S3DIS 數(shù)據(jù)集的數(shù)據(jù)量龐大,因此大部分算法的分割效果不明顯,mIoU 都普遍較低,其中將點(diǎn)云體素化的VV-NET 網(wǎng)絡(luò)表現(xiàn)突出,該網(wǎng)絡(luò)使用基于內(nèi)核的內(nèi)插變分自動(dòng)編碼器(VAE)結(jié)構(gòu)對(duì)每個(gè)提速中的局部幾何進(jìn)行編碼,同時(shí)利用徑向基函數(shù)(RBF)計(jì)算每個(gè)體素內(nèi)的局部連續(xù)表示以處理點(diǎn)的稀疏分布。此外,將RBF-VAE與group-conv 相結(jié)合發(fā)現(xiàn)該方法比僅使用groupconv 或僅使用RBF-VAE 取得了更好的性能。

        表3 中,SnapNet、SegCloud、PointNet++、GACNet、KPConv、ConvPoint、RandLA-Net 和SPG 等算法均選用了Semantic3D 城市場(chǎng)景數(shù)據(jù)集,這些算法可運(yùn)用在大場(chǎng)景中進(jìn)行語(yǔ)義分割,其中2017 年提出的SPG 網(wǎng)絡(luò)表現(xiàn)突出,在幾億點(diǎn)的場(chǎng)景下,評(píng)價(jià)指標(biāo)可達(dá)到73.2%,是目前運(yùn)用于大場(chǎng)景分割中最有效的分割網(wǎng)絡(luò)之一。不難發(fā)現(xiàn),近些年提出的基于優(yōu)化CNN 的算法在各類(lèi)公共數(shù)據(jù)集上的表現(xiàn)均較為優(yōu)異,進(jìn)一步優(yōu)化卷積,并將其集成到各種優(yōu)秀的網(wǎng)絡(luò)架構(gòu)中,將會(huì)是未來(lái)研究的一個(gè)熱點(diǎn)方向。

        SemanticKITTI 作為一個(gè)基于汽車(chē)LiDAR 的大型戶(hù)外場(chǎng)景數(shù)據(jù)集,可運(yùn)用于汽車(chē)的無(wú)人駕駛中,目前實(shí)現(xiàn)SemanticKITTI 數(shù)據(jù)集語(yǔ)義分割的算法中,RandLA-Net 的表現(xiàn)最為突出。RandLA-Net 網(wǎng)絡(luò)不需要任何前/后處理步驟(如體素化、塊分割或圖形構(gòu)建),能夠直接處理大規(guī)模三維點(diǎn)云,相比于現(xiàn)有的大規(guī)模點(diǎn)云語(yǔ)義分割方法,其分割速率提升近200倍。

        3.2.2 復(fù)雜度

        復(fù)雜度是對(duì)模型性能檢測(cè)的另一個(gè)有價(jià)值且重要的度量指標(biāo),包括時(shí)間復(fù)雜度和空間復(fù)雜度。隨著語(yǔ)義分割技術(shù)的發(fā)展和數(shù)據(jù)處理能力的提高,該技術(shù)應(yīng)用面更加廣泛,除了運(yùn)用復(fù)雜的網(wǎng)絡(luò)提高算法的分割準(zhǔn)確率外,現(xiàn)實(shí)中的應(yīng)用程序(如行人檢測(cè)、自動(dòng)駕駛等)更需要實(shí)時(shí)高效的分割網(wǎng)絡(luò)。因此,本小節(jié)從時(shí)間復(fù)雜度(運(yùn)行速率)和空間復(fù)雜度(參數(shù)數(shù)量)兩方面考察了部分網(wǎng)絡(luò)的實(shí)時(shí)性。

        表4 中根據(jù)參數(shù)數(shù)量和轉(zhuǎn)發(fā)時(shí)間評(píng)估了模型的復(fù)雜度。該實(shí)驗(yàn)對(duì)比在1080X GPU 的硬件環(huán)境下進(jìn)行,針對(duì)ModelNet40 數(shù)據(jù)集,批次大小設(shè)置為8。對(duì)于參數(shù)數(shù)量指標(biāo),ShellNet 優(yōu)于現(xiàn)有的方法,雖然在空間上沒(méi)有那么復(fù)雜,但是ShellNet 仍然可以非常有效地收斂到最先進(jìn)的精度。另外,從表4 中不難發(fā)現(xiàn),RGCNN 具有最快的推算時(shí)間和可接受的模型大小,適用于實(shí)時(shí)任務(wù)。為了進(jìn)一步減少模型大小和推斷時(shí)間,在PointNet和DPAM 模型中均嘗試刪除了模型使用的T-net(表4 中以Vanilla 表示),其中DPAM僅在模型精度降低0.5%的情況下,即可實(shí)現(xiàn)更小的模型尺寸和更快的推算時(shí)間。

        Table 4 Time and space complexity analysis of algorithms on ModelNet40 dataset表4 各類(lèi)算法在ModelNet40 數(shù)據(jù)集上的時(shí)空復(fù)雜度分析

        表5 定量地顯示了不同方法的總時(shí)間和內(nèi)存消耗。該實(shí)驗(yàn)對(duì)比在RTX2080Ti GPU 的硬件環(huán)境下進(jìn)行,針對(duì)SemanticKITTI 數(shù)據(jù)集。從表5 中可以看出,SPG 網(wǎng)絡(luò)參數(shù)最少,但處理點(diǎn)云的時(shí)間最長(zhǎng),原因是幾何劃分和超圖構(gòu)造步驟繁瑣;PointNet++和Point-CNN 的計(jì)算開(kāi)銷(xiāo)也很大,主要是由于FPS 的采樣操作;PointNet和KPConv 由于內(nèi)存操作效率低,無(wú)法一次通過(guò)獲取超大規(guī)模的點(diǎn)云;而RandLA-Net 基于簡(jiǎn)單的隨機(jī)抽樣和高效的局部特征聚合器,實(shí)現(xiàn)了用較短的時(shí)間來(lái)推斷每個(gè)大規(guī)模點(diǎn)云的語(yǔ)義標(biāo)簽。

        Table 5 Time and space complexity analysis of algorithms on SemanticKITTI dataset表5 各類(lèi)算法在SemanticKITTI數(shù)據(jù)集上的時(shí)空復(fù)雜度分析

        4 展望

        現(xiàn)有的方法在很大程度上提高了語(yǔ)義分割的精度,但仍存在一定局限性,因此如何解決這些局限性是未來(lái)研究的熱點(diǎn),本章基于前面章節(jié)對(duì)應(yīng)用深度學(xué)習(xí)技術(shù)解決語(yǔ)義分割問(wèn)題的研究評(píng)述,對(duì)語(yǔ)義分割領(lǐng)域未來(lái)研究方向進(jìn)行了展望。

        (1)訓(xùn)練數(shù)據(jù)庫(kù)和應(yīng)用場(chǎng)景

        基于深度學(xué)習(xí)的語(yǔ)義分割方法需要海量的數(shù)據(jù)庫(kù)作為支撐,目前已有的數(shù)據(jù)集并不能滿(mǎn)足語(yǔ)義分割發(fā)展的需求,因此構(gòu)建數(shù)據(jù)量豐富、有效且全面的數(shù)據(jù)集是目前語(yǔ)義分割的首要條件。而且,現(xiàn)有的三維數(shù)據(jù)集大部分局限在室內(nèi)場(chǎng)景以及城市街道場(chǎng)景,對(duì)于有標(biāo)注且內(nèi)容豐富的戶(hù)外點(diǎn)云場(chǎng)景數(shù)據(jù)集及遙感三維數(shù)據(jù)集相對(duì)較少,建立一整套作為基準(zhǔn)點(diǎn)的數(shù)據(jù)集十分重要。另外,SqueezeSeg V2[41]算法為了避免收集和注釋的成本,使用諸如GTA-V 之類(lèi)的模擬器來(lái)創(chuàng)建無(wú)限數(shù)量的標(biāo)記的合成數(shù)據(jù),為補(bǔ)充預(yù)訓(xùn)練數(shù)據(jù)集的方法提供了思路,但是這類(lèi)合成的仿真數(shù)據(jù)仍需解決域遷移的問(wèn)題。

        (2)序列數(shù)據(jù)集

        三維大規(guī)模數(shù)據(jù)集缺乏的問(wèn)題同樣影響到了視頻序列分割,目前基于序列的可用數(shù)據(jù)集較少,導(dǎo)致針對(duì)視頻數(shù)據(jù)的語(yǔ)義分割方法研究進(jìn)展緩慢。帶有時(shí)間序列的視頻數(shù)據(jù)在語(yǔ)義分割過(guò)程中可以利用其時(shí)空序列信息提供高階特征,進(jìn)而提高準(zhǔn)確率和效率。

        (3)全景分割

        全景分割由Kirillov 等人[95]提出,全景分割是將前景和背景分開(kāi)來(lái)分割的,對(duì)目標(biāo)區(qū)域(前景對(duì)象)做實(shí)例分割,對(duì)背景區(qū)域做語(yǔ)義分割。2019 年,Kirillov 等人[96]將分別用于語(yǔ)義分割和實(shí)例分割的FCN 和Mask R-CNN 結(jié)合起來(lái),設(shè)計(jì)了Panoptic FPN,實(shí)驗(yàn)證明Panoptic FPN 對(duì)語(yǔ)義分割和實(shí)例分割兩個(gè)任務(wù)都有效,同時(shí)兼具穩(wěn)健性和準(zhǔn)確性。但是在合并過(guò)程中,如果沒(méi)有足夠的上下文信息,很難確定對(duì)象實(shí)例之間的重疊關(guān)系。針對(duì)這一問(wèn)題,Liu 等人[97]提出了一種端到端的遮擋感知網(wǎng)絡(luò)(occlusion aware network,OANet)用于全景分割,該網(wǎng)絡(luò)可有效地預(yù)測(cè)單個(gè)網(wǎng)絡(luò)的實(shí)例分割和實(shí)體分割。DeeperLab[98]是一種單鏡頭、自下而上的圖像解析器,該網(wǎng)絡(luò)使用全卷積網(wǎng)絡(luò)生成每像素的語(yǔ)義和實(shí)例預(yù)測(cè),然后通過(guò)合并啟發(fā)式算法將這些預(yù)測(cè)融合到最終的圖像解析結(jié)果中。雖然上述幾種方法在Cityscapes[99]、COCO Stuff[100]等數(shù)據(jù)集上獲得了較為可觀的精度,但分割過(guò)程中仍然需要進(jìn)行復(fù)雜的實(shí)例掩碼預(yù)測(cè)(instance mask predictions)或合并啟發(fā)式算法(merging heuristics),很難實(shí)現(xiàn)模型的實(shí)時(shí)性需求。FPSNet[101]的提出有效地解決了這個(gè)問(wèn)題,該網(wǎng)絡(luò)使用自定義的密集像素分類(lèi)任務(wù)(為每個(gè)像素分配一個(gè)類(lèi)標(biāo)簽或一個(gè)實(shí)例id)代替復(fù)雜的全景任務(wù),實(shí)現(xiàn)了分割速度的提升。上述的全景分割操作主要是針對(duì)圖像進(jìn)行的,目前對(duì)點(diǎn)云數(shù)據(jù)進(jìn)行全景分割的研究很少,如ASIS[67]、JSISNet[68]使用兩個(gè)并行的分支分別進(jìn)行實(shí)例分割和語(yǔ)義分割,然后融合兩個(gè)結(jié)果作為輸出。另外,3D 全景分割數(shù)據(jù)集SemanticKITTI[90]的提出,將高質(zhì)量的全景分割引入機(jī)器人和智能車(chē)輛的實(shí)時(shí)應(yīng)用方面邁出了重要一步。全景分割作為計(jì)算視覺(jué)一個(gè)新的任務(wù)場(chǎng)景,其在三維數(shù)據(jù)的應(yīng)用前景仍有待挖掘與探索。

        (4)實(shí)時(shí)分割

        目前提出的語(yǔ)義分割網(wǎng)絡(luò)模型在分割精度上已經(jīng)取得了很大的進(jìn)展,卻增加了模型的復(fù)雜度和運(yùn)行速率。隨著自動(dòng)駕駛、行人檢測(cè)和環(huán)境感知等應(yīng)用領(lǐng)域的發(fā)展,對(duì)語(yǔ)義分割實(shí)時(shí)性的要求也越來(lái)越高。因此,在維持高準(zhǔn)確率的同時(shí),降低模型復(fù)雜度,縮短響應(yīng)時(shí)間,實(shí)現(xiàn)實(shí)時(shí)分割,是未來(lái)重要的工作方向。

        (5)遙感領(lǐng)域

        在過(guò)去的十年里,深度學(xué)習(xí)推動(dòng)了遙感影像語(yǔ)義分割的進(jìn)步,但遙感點(diǎn)云語(yǔ)義分割的發(fā)展還相對(duì)不太成熟。目前已發(fā)表的計(jì)算機(jī)視覺(jué)算法通常在對(duì)象類(lèi)別有限的小區(qū)域數(shù)據(jù)集上進(jìn)行測(cè)試,但是對(duì)于遙感應(yīng)用,需要具有更復(fù)雜和特定地面對(duì)象類(lèi)別的大面積數(shù)據(jù)。而且,計(jì)算機(jī)視覺(jué)算法的精度評(píng)價(jià)體系并不完全適用于遙感應(yīng)用,遙感應(yīng)用更關(guān)心特定目標(biāo)的精度。例如:在城市管理監(jiān)測(cè)中,對(duì)于建筑物語(yǔ)義分割的準(zhǔn)確性至關(guān)重要。隨著三維遙感語(yǔ)義分割應(yīng)用需求的不斷提升,能夠?qū)W習(xí)對(duì)象語(yǔ)義特征和分類(lèi)三維遙感數(shù)據(jù)的算法成為研究者們未來(lái)的一個(gè)研究熱點(diǎn)。

        (6)弱監(jiān)督或無(wú)監(jiān)督語(yǔ)義分割技術(shù)

        弱監(jiān)督方法使用輕量級(jí)的弱監(jiān)督標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,減少了標(biāo)注成本和標(biāo)注時(shí)間,在圖像語(yǔ)義分割中已經(jīng)有了很大的進(jìn)展。目前,三維數(shù)據(jù)庫(kù)需求量大,標(biāo)注困難,若弱監(jiān)督或無(wú)監(jiān)督的語(yǔ)義分割技術(shù)能夠應(yīng)用到三維點(diǎn)云語(yǔ)義分割中,不僅能解決數(shù)據(jù)問(wèn)題,而且在提高網(wǎng)絡(luò)模型的精度的同時(shí)實(shí)現(xiàn)速率的提升,將會(huì)是未來(lái)發(fā)展的趨勢(shì)。

        (7)遷移學(xué)習(xí)

        一個(gè)完整的語(yǔ)義分割深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練需要足夠數(shù)量的數(shù)據(jù)集,初始化權(quán)重的調(diào)試以及長(zhǎng)時(shí)間的收斂過(guò)程。通過(guò)繼續(xù)訓(xùn)練過(guò)程來(lái)微調(diào)預(yù)訓(xùn)練網(wǎng)絡(luò)的權(quán)重是主要的遷移學(xué)習(xí)方法之一,因此為了提高效率,部分學(xué)者會(huì)選擇預(yù)先訓(xùn)練的權(quán)重而不是隨機(jī)初始化的權(quán)重。另外,PointNet[5]、PointNet++[17]網(wǎng)絡(luò)的提出為點(diǎn)云語(yǔ)義分割提供了完整的體系結(jié)構(gòu),為實(shí)現(xiàn)遷移學(xué)習(xí)提供了前提條件,PointSIFT[10]是一個(gè)通用模塊,可以集成到各種基于PointNet 的體系結(jié)構(gòu)中以改善3D 形狀表示;DPAM[26]可以插入大多數(shù)現(xiàn)有體系結(jié)構(gòu)中構(gòu)建分層的學(xué)習(xí)體系結(jié)構(gòu);ASR[65]模塊可以輕松集成到現(xiàn)有的深度網(wǎng)絡(luò)中,通過(guò)將相鄰點(diǎn)的分?jǐn)?shù)與學(xué)習(xí)的注意力權(quán)重合并在一起,對(duì)網(wǎng)絡(luò)產(chǎn)生的分割結(jié)果進(jìn)行后處理,與CRF 的功能類(lèi)似;Engelmann 等人[102]提出的擴(kuò)張點(diǎn)卷積(dilated point convolutions,DPC)運(yùn)算代替K-最近鄰域方法,以匯總擴(kuò)張的鄰近要素,此操作不僅增加了接收范圍,并且可以輕松地集成到現(xiàn)有的基于聚合的網(wǎng)絡(luò)中。遷移學(xué)習(xí)已在點(diǎn)云語(yǔ)義分割領(lǐng)域得到了廣泛的應(yīng)用,未來(lái)對(duì)遷移學(xué)習(xí)的研究可以關(guān)注以下幾點(diǎn):①通過(guò)半監(jiān)督學(xué)習(xí)減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài),應(yīng)對(duì)標(biāo)注數(shù)據(jù)的不對(duì)稱(chēng)性;②使用遷移學(xué)習(xí)做到持續(xù)學(xué)習(xí),讓神經(jīng)網(wǎng)絡(luò)得以保留在舊任務(wù)中所學(xué)到的能力;③使用遷移學(xué)習(xí)來(lái)提高模型的穩(wěn)定性和可泛化性等。

        (8)各類(lèi)技術(shù)的參考性?xún)r(jià)值

        從邊緣特征的角度:利用有意義的邊緣特征,并將邊緣特征饋送到點(diǎn)特征中以提供上下文信息,有助于點(diǎn)云語(yǔ)義理解。如:PCCN[29]自適應(yīng)地從邊緣學(xué)習(xí)權(quán)重以融合點(diǎn)特征;KCNet[103]定義點(diǎn)集內(nèi)核和內(nèi)核相關(guān)性以沿邊緣聚合局部特征;Jiang 等人[104]設(shè)計(jì)了一種分層點(diǎn)-邊緣的交互網(wǎng)絡(luò),將每個(gè)點(diǎn)特征與最大池化相對(duì)應(yīng)的邊緣特征連接在一起。

        從自動(dòng)編碼器的角度:自動(dòng)編碼器(autoencoders,AE)是一種無(wú)監(jiān)督的神經(jīng)網(wǎng)絡(luò)模型,目前自動(dòng)編碼器已被廣泛地應(yīng)用于生成圖像語(yǔ)義分割模型來(lái)表示數(shù)據(jù),一些研究者發(fā)現(xiàn),自動(dòng)編碼器對(duì)于不規(guī)則的三維點(diǎn)云同樣適用,并且可在上采樣階段解決點(diǎn)云的稀疏性問(wèn)題。Zhao 等人[105]基于2D 膠囊網(wǎng)絡(luò)(capsule network,CN)提出了一種無(wú)監(jiān)督的自動(dòng)編碼器3DPointCapsNet,用于處理稀疏3D 點(diǎn)云,同時(shí)保留輸入數(shù)據(jù)的空間排列,并在零件分割中取得了不錯(cuò)的進(jìn)展。

        從零樣本學(xué)習(xí)(zero-shot learning)的角度:零樣本學(xué)習(xí)[106]具有識(shí)別訓(xùn)練數(shù)據(jù)集中未觀察到的類(lèi)別的能力。獲取特征圖后,零樣本學(xué)習(xí)可以將語(yǔ)義嵌入用于諸如對(duì)象檢測(cè)之類(lèi)的應(yīng)用程序。在特征融合的方法中,模型提取了點(diǎn)云的局部特征和全局特征,而這些模型可用作零鏡頭學(xué)習(xí)中的特征提取器,這將有助于使用稀缺的數(shù)據(jù)集學(xué)習(xí)權(quán)重。

        從過(guò)分割(oversegmentation)的角度:過(guò)分割可作為點(diǎn)云語(yǔ)義分割中的一種預(yù)分割算法,其具有降低數(shù)據(jù)量和光精度損失的作用。Landrieu 等人[107]提出了第一個(gè)將三維點(diǎn)云過(guò)分割為超點(diǎn)的監(jiān)督學(xué)習(xí)框架,將點(diǎn)云過(guò)分割表述為一個(gè)由鄰接圖構(gòu)造的深度度量學(xué)習(xí)問(wèn)題。利用一種圖形結(jié)構(gòu)的對(duì)比損失,學(xué)習(xí)將三維點(diǎn)均勻地嵌入對(duì)象中,從而使對(duì)象的邊界呈現(xiàn)出高對(duì)比度。

        從多形態(tài)融合的角度:目前的語(yǔ)義分割可以將不規(guī)則的點(diǎn)云或者網(wǎng)格數(shù)據(jù)轉(zhuǎn)換為常規(guī)的三維體素網(wǎng)格或者多視圖。也可以直接在點(diǎn)云數(shù)據(jù)上進(jìn)行分割。為了進(jìn)一步利用可用信息,可通過(guò)多形態(tài)融合的方式從不同形態(tài)的數(shù)據(jù)中分別提取點(diǎn)云特征。Jaritz等人[108]提出多視圖點(diǎn)網(wǎng)(MVPNet),以聚合二維多視圖圖像的外觀特征和規(guī)范點(diǎn)云空間中的空間幾何特征。

        從RNN 中長(zhǎng)短時(shí)間記憶(LSTM)的角度:LSTM具有幾個(gè)語(yǔ)義分割模型所需的屬性,如:可以端到端進(jìn)行微調(diào),并且允許輸入和輸出中的可變長(zhǎng)度。二維圖像語(yǔ)義分割中,Li 等人[109]提出的LSTM-CF(long short-term memorized context fusion)網(wǎng)絡(luò),該網(wǎng)絡(luò)利用基于LSTM 的融合層整合豎直方向上的光度和深度通道的上下文信息,完成網(wǎng)絡(luò)端到端的訓(xùn)練和測(cè)試。

        從時(shí)空信息的角度:目前已有研究開(kāi)始從動(dòng)態(tài)點(diǎn)云中學(xué)習(xí)時(shí)空信息,未來(lái)可以嘗試通過(guò)時(shí)空信息提高點(diǎn)云語(yǔ)義分割模型的性能。Liu 等人[110]提出MeteorNet,直接對(duì)動(dòng)態(tài)點(diǎn)云進(jìn)行處理,學(xué)習(xí)從時(shí)空相鄰點(diǎn)聚合信息。

        5 結(jié)束語(yǔ)

        本文綜述了基于深度學(xué)習(xí)的點(diǎn)云語(yǔ)義分割的研究現(xiàn)狀,雖然三維深度學(xué)習(xí)是一個(gè)相對(duì)較新的領(lǐng)域,但綜述的內(nèi)容顯示了一個(gè)快速增長(zhǎng)和高效的群體。雖然三維深度學(xué)習(xí)沒(méi)有二維深度學(xué)習(xí)成熟,但不難發(fā)現(xiàn),這一差距正在縮小。本文從語(yǔ)義分割的應(yīng)用和深度學(xué)習(xí)的發(fā)展出發(fā),對(duì)三維點(diǎn)云進(jìn)行了詳細(xì)的介紹,將三維深度學(xué)習(xí)語(yǔ)義分割方法分為間接語(yǔ)義分割方法和直接語(yǔ)義分割方法兩大類(lèi),從算法特點(diǎn)以及模型結(jié)構(gòu)方面梳理了一些較為突出的方法,并進(jìn)行了較為細(xì)致的分類(lèi)、介紹和評(píng)估。此外,本文回顧了用于網(wǎng)絡(luò)評(píng)估的現(xiàn)代基準(zhǔn)數(shù)據(jù)集。最后,本文結(jié)合上述內(nèi)容,對(duì)未來(lái)工作方向以及該領(lǐng)域一些開(kāi)放問(wèn)題提出了一些展望。深度學(xué)習(xí)技術(shù)被證明可有效解決語(yǔ)義分割問(wèn)題,并且在語(yǔ)義分割領(lǐng)域許多優(yōu)秀的方法也不斷地推進(jìn)。因此,期待在未來(lái)幾年各種創(chuàng)新的研究思路不斷涌現(xiàn)。

        猜你喜歡
        體素語(yǔ)義卷積
        基于超體素聚合的流式細(xì)胞術(shù)自動(dòng)門(mén)控方法
        基于多級(jí)細(xì)分的彩色模型表面體素化算法
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        運(yùn)用邊界狀態(tài)約束的表面體素加密細(xì)分算法
        語(yǔ)言與語(yǔ)義
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于體素格尺度不變特征變換的快速點(diǎn)云配準(zhǔn)方法
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語(yǔ)義模糊
        在线日韩中文字幕乱码视频| 久久久久久无中无码| 国产精品美女黄色av| 久久精品国产亚洲片| 亚洲成av在线免费不卡| 亚洲av天堂在线免费观看| 午夜一区二区视频在线观看| 日本高清视频一区二区| 亚洲香蕉av一区二区三区| 久久亚洲精品情侣| 挺进朋友人妻雪白的身体韩国电影 | 狠狠躁夜夜躁人人爽超碰97香蕉| 超碰日韩AV在线| 欧美精品高清在线xxxx| 久久亚洲精精品中文字幕早川悠里 | 一本久久综合亚洲鲁鲁五月天 | 少妇人妻偷人精品一区二区| 亚洲色大成在线观看| 亚洲av熟女天堂系列| 熟女少妇av一区二区三区| 国产爆乳无码一区二区麻豆| 日日鲁鲁鲁夜夜爽爽狠狠视频97 | 久久久精品国产亚洲麻色欲| 91久久大香伊蕉在人线国产| 麻豆69视频在线观看| 久久不见久久见免费影院| 无码成人aaaaa毛片| 亚洲免费观看网站| 亚洲成a人片77777kkkkk| 亚洲一区亚洲二区视频在线| 国产精品亚洲色婷婷99久久精品| 久久精品国产亚洲精品| 国产高清在线精品一区αpp| 国产精品久久av高潮呻吟| 无码一区二区三区中文字幕| 8ⅹ8x擦拨擦拨成人免费视频| 亚洲一级无码片一区二区三区| 蜜桃伦理一区二区三区| 人妖在线一区二区三区| 凹凸国产熟女精品视频app| 亚洲五月天综合|