亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的點(diǎn)云語義分割研究綜述

        2021-01-15 07:27:12景莊偉管海燕臧玉府李迪龍于永濤
        計(jì)算機(jī)與生活 2021年1期
        關(guān)鍵詞:語義特征方法

        景莊偉,管海燕,臧玉府,倪 歡,李迪龍,于永濤

        1.南京信息工程大學(xué)地理科學(xué)學(xué)院,南京210044

        2.南京信息工程大學(xué)遙感與測繪工程學(xué)院,南京210044

        3.武漢大學(xué)測繪遙感信息工程國家重點(diǎn)實(shí)驗(yàn)室,武漢430079

        4.淮陰工學(xué)院計(jì)算機(jī)與軟件學(xué)院,江蘇淮安223003

        近年來,隨著計(jì)算機(jī)視覺、人工智能以及遙感測繪的發(fā)展,SLAM(simultaneous localization and mapping)技術(shù)、Kinect 技術(shù)以及激光掃描等技術(shù)日漸成熟,點(diǎn)云的數(shù)據(jù)量迅速增長,針對描述點(diǎn)云數(shù)據(jù)空間信息的高層語義理解也越來越受到關(guān)注。語義分割作為點(diǎn)云數(shù)據(jù)處理與分析的基礎(chǔ)技術(shù),成為自動駕駛、導(dǎo)航定位、智慧城市、醫(yī)學(xué)影像分割等領(lǐng)域的研究熱點(diǎn),具有廣泛的應(yīng)用前景。語義分割是一種典型的計(jì)算機(jī)視覺問題,也稱為場景標(biāo)簽,是指將一些原始數(shù)據(jù)(例如:二維(two-dimensional,2D)圖像、三維(threedimensional,3D)點(diǎn)云)作為輸入并通過一系列技術(shù)操作轉(zhuǎn)換為具有突出顯示的感興趣區(qū)域的掩模。

        點(diǎn)云語義分割是把點(diǎn)云分為若干個(gè)特定的、具有獨(dú)特性質(zhì)的區(qū)域并識別出點(diǎn)云內(nèi)容的技術(shù)。由于初期三維數(shù)據(jù)模型庫可用數(shù)據(jù)量較少以及深度網(wǎng)絡(luò)由二維轉(zhuǎn)到三維的復(fù)雜性,傳統(tǒng)的點(diǎn)云語義分割方法大多是通過提取三維形狀幾何屬性的空間分布或者直方圖統(tǒng)計(jì)等方法得到手工提取特征,構(gòu)建相應(yīng)的判別模型(例如:支持向量機(jī)(support vector machine,SVM)[1]、隨機(jī)森林(random forest,RF)[2]、條件隨機(jī)場(conditional random field,CRF)[3]、馬爾可夫隨機(jī)場(Markov random field,MRF)[4]等)實(shí)現(xiàn)分割。由于手工提取的特征主要依靠設(shè)計(jì)者的先驗(yàn)知識以及手工調(diào)動參數(shù),限制了大數(shù)據(jù)的使用。伴隨著大型三維模型數(shù)據(jù)的出現(xiàn)和GPU 計(jì)算能力的不斷迭代更新,深度學(xué)習(xí)在點(diǎn)云語義分割領(lǐng)域逐漸占據(jù)了絕對主導(dǎo)地位。深度學(xué)習(xí)模型的核心思想是采用數(shù)據(jù)驅(qū)動的方式,通過多層非線性運(yùn)算單元,將低層運(yùn)算單元的輸出作為高層運(yùn)算單元的輸入,從原始數(shù)據(jù)中提取由一般到抽象的特征。初期,研究者們借鑒二維圖像語義分割模型的經(jīng)驗(yàn),對輸入點(diǎn)云形狀進(jìn)行規(guī)范化,將不規(guī)則的點(diǎn)云或者網(wǎng)格數(shù)據(jù)轉(zhuǎn)換為常規(guī)的3D體素網(wǎng)格或者多視圖,將它們提供給深層的網(wǎng)絡(luò)體系結(jié)構(gòu)。然而,丟失幾何結(jié)構(gòu)信息和數(shù)據(jù)稀疏性等問題限制了多視圖方法和體素化方法的發(fā)展。于是,研究者開始從三維數(shù)據(jù)源頭著手,斯坦福大學(xué)Qi等人[5]提出的PointNet 網(wǎng)絡(luò)模型,直接從點(diǎn)云數(shù)據(jù)中提取特征信息,在沒有向體素轉(zhuǎn)換的情況下,體系結(jié)構(gòu)保留原始點(diǎn)內(nèi)的固有信息以預(yù)測點(diǎn)級語義。隨后,直接處理點(diǎn)云的網(wǎng)絡(luò)模型方法逐漸發(fā)展起來。

        目前已有一些綜述性論文[6-9]對基于深度學(xué)習(xí)的點(diǎn)云語義分割研究進(jìn)行了總結(jié)和分析。文獻(xiàn)[6]是基于深度學(xué)習(xí)和遙感數(shù)據(jù)背景下進(jìn)行的分類研究進(jìn)展綜述;文獻(xiàn)[7]從遙感和計(jì)算機(jī)視覺的角度概述了三維點(diǎn)云數(shù)據(jù)的獲取和演化,對傳統(tǒng)的和先進(jìn)的點(diǎn)云語義分割技術(shù)進(jìn)行了比較和總結(jié);文獻(xiàn)[8]詳細(xì)介紹了一些較為突出的點(diǎn)云分割算法及常見數(shù)據(jù)集;文獻(xiàn)[9]所做的綜述工作涵蓋了不同的應(yīng)用,包括點(diǎn)云數(shù)據(jù)的形狀分類、目標(biāo)檢測和跟蹤以及語義和實(shí)例分割,涉及的方面較為廣泛。本文對前人工作進(jìn)行了完善,在算法內(nèi)容上,本文添加了最近提出的新方法,總結(jié)了50 多種三維語義分割算法,根據(jù)三維點(diǎn)云數(shù)據(jù)處理方式,將它們分為兩類:間接語義分割方法和直接語義分割方法。數(shù)據(jù)集內(nèi)容上,本文在新增最新公共數(shù)據(jù)集的同時(shí),增加了常用的三維遙感數(shù)據(jù)集。未來研究方向上,本文在基于深度學(xué)習(xí)的語義分割技術(shù)評述基礎(chǔ)上,對語義分割領(lǐng)域未來研究方向進(jìn)行了展望并給出各類技術(shù)的參考性價(jià)值。

        1 點(diǎn)云介紹

        點(diǎn)云(point cloud)是在同一空間參考系下表達(dá)目標(biāo)空間分布和目標(biāo)表面特性的海量點(diǎn)集合,其獨(dú)立描述每個(gè)點(diǎn)的相關(guān)屬性信息,點(diǎn)與點(diǎn)之間沒有顯著的聯(lián)系。點(diǎn)云數(shù)據(jù)主要使用非接觸式的技術(shù)進(jìn)行獲取,如:圖像衍生方法從光譜圖像間接生成點(diǎn)云,機(jī)載激光雷達(dá)掃描儀進(jìn)行掃描采集,對CAD(computer aided design)模型進(jìn)行虛擬掃描等。相對于二維圖像,點(diǎn)云有其不可替代的優(yōu)勢——深度信息,點(diǎn)云數(shù)據(jù)不僅規(guī)避了圖像采集過程中遇到的姿態(tài)、光照等問題,而且其本身具有豐富的空間信息,能夠有效地表達(dá)空間中物體的大小、形狀、位置和方向。相比于體素?cái)?shù)據(jù),點(diǎn)云數(shù)據(jù)空間利用率更高,更加關(guān)注于描述對象本身的外表面形狀,不會為描述空間的占用情況而保存無用的冗余信息。因此,點(diǎn)云已成為三維數(shù)據(jù)模型的研究重點(diǎn),并應(yīng)用于多種領(lǐng)域,如:大規(guī)模場景重建、車載激光雷達(dá)、虛擬現(xiàn)實(shí)、數(shù)字高程模型制作等。然而點(diǎn)云數(shù)據(jù)自身存在的無序性、密度不一致性、非結(jié)構(gòu)性、信息不完整性等特性使得點(diǎn)云的語義分割充滿挑戰(zhàn)。因此,有效處理并運(yùn)用點(diǎn)云的特性是現(xiàn)今研究者應(yīng)當(dāng)關(guān)注的重點(diǎn)。本章將點(diǎn)云特性進(jìn)行簡單整理闡述,希望能夠?yàn)檠芯空邆兊难芯刻峁┓奖恪?/p>

        (1)點(diǎn)云無序性

        從數(shù)據(jù)結(jié)構(gòu)的角度來講,點(diǎn)云數(shù)據(jù)只是一組無序的向量集合,若不考慮其他諸如顏色等因素,只考慮點(diǎn)的坐標(biāo),則點(diǎn)云數(shù)據(jù)只是一組n×3 的點(diǎn)集合。那么當(dāng)對這n個(gè)點(diǎn)進(jìn)行不同順序的讀入時(shí),點(diǎn)的輸入組合中共有n!種,如圖1 所示,圖左fa、fb、fc為輸入的3 個(gè)點(diǎn)組成的點(diǎn)云,圖右為點(diǎn)云直接輸入網(wǎng)絡(luò)存在的6 種順序情況。因此,解決點(diǎn)云的無序性是必不可少的。為了使模型對于輸入排列不變,PiontNet[5]使用簡單的對稱函數(shù)匯總來自每個(gè)點(diǎn)的信息和特征,進(jìn)行語義分割。PointSIFT[10]使用編碼8 個(gè)方位信息的逐點(diǎn)局部特征描述符保留了無序點(diǎn)云更多的信息,同時(shí)仍然保持輸入點(diǎn)順序的不變性。SO-Net[11]網(wǎng)絡(luò)使用SOM(self-organizing map)模塊對歸一化后的點(diǎn)云進(jìn)行批處理,解決了點(diǎn)云的無序性。HDGCN[12](hierarchical depthwise graph convolutional neural network)提出了圖卷積來處理無序點(diǎn)云數(shù)據(jù),并且具有強(qiáng)大的提取局部形狀信息的能力。RSNet(recurrent slice networks)[13]通過切片池層將無序和無結(jié)構(gòu)的輸入點(diǎn)的特征投影到特征向量的有序和結(jié)構(gòu)化的序列上。PointCNN[14]學(xué)習(xí)χ-變換卷積算子,將無序的點(diǎn)云轉(zhuǎn)換為相應(yīng)的規(guī)范順序。ShellNet[15]將ShellConv 定義在可由同心球殼劃分的區(qū)域上,并通過從內(nèi)殼到外殼的卷積順序解決了點(diǎn)云的無序性。

        Fig.1 Example of point cloud unordered input圖1 點(diǎn)云的無序輸入示例

        (2)點(diǎn)云密度不一致性

        實(shí)際場景所包含的物體多種多樣,相應(yīng)點(diǎn)云數(shù)據(jù)也具有不同空間屬性。不同點(diǎn)云數(shù)據(jù)獲取方式下,物體的點(diǎn)云的空間距離、密集程度以及點(diǎn)數(shù)量差距都很大,如圖2。在密集數(shù)據(jù)中學(xué)習(xí)的特征可能不能推廣到稀疏采樣區(qū)域,用稀疏點(diǎn)云訓(xùn)練的模型可能無法識別細(xì)粒度的局部結(jié)構(gòu)。因此,能否處理不同密度的點(diǎn)云對分割模型來說具有非常大的挑戰(zhàn)性[16]。PointNet++[17]模型中提出的密度自適應(yīng)點(diǎn)網(wǎng)層,該層可在輸入采樣密度發(fā)生變化時(shí)學(xué)會組合來自不同尺度區(qū)域的特征。RandLA-Net[18]采用隨機(jī)點(diǎn)采樣的方法進(jìn)行點(diǎn)的選擇,以解決高密度大規(guī)模的點(diǎn)云場景。GACNet[19]構(gòu)造了有向圖G(V,E),其中KG鄰域是通過在半徑ρ內(nèi)隨機(jī)采樣的,相比于KG的最近鄰域查詢方法,該方法不受點(diǎn)云稀疏性的影響。3P-RNN[20]通過考慮多尺度鄰域,逐點(diǎn)金字塔池化模塊以捕獲各種密度條件下的局部特征。KPConv(kernel point convolution)[21]通過結(jié)合半徑鄰域和常規(guī)下采樣,確保了KPConv 對不同密度數(shù)據(jù)的魯棒性。InterpConv(interpolated convolution)[22]在每個(gè)核權(quán)值向量的鄰域內(nèi)對點(diǎn)進(jìn)行歸一化,保證其網(wǎng)絡(luò)具備稀疏不變性。PointConv[23]通過學(xué)習(xí)MLP(multilayer perceptron)以近似權(quán)重函數(shù),并對學(xué)習(xí)的權(quán)重應(yīng)用反密度標(biāo)度補(bǔ)償非均勻采樣。

        Fig.2 Point cloud scenes with different densities圖2 不同密度的點(diǎn)云場景

        (3)點(diǎn)云非結(jié)構(gòu)性

        二維圖像是結(jié)構(gòu)化的數(shù)據(jù),可以使用一個(gè)二維矩陣進(jìn)行表示。而點(diǎn)云數(shù)據(jù)是非結(jié)構(gòu)化的,想要直接輸入到神經(jīng)網(wǎng)絡(luò)模型中是非常困難的。如果將點(diǎn)云數(shù)據(jù)體素化,利用深度學(xué)習(xí)模型進(jìn)行特征提取可以取得較好的分割結(jié)果,但是這種方法由于內(nèi)存限制,只能使用比較小分辨率的體素網(wǎng)格,從而造成信息的丟失,因此其整體性能與精度仍然無法得到顯著提高。點(diǎn)云本質(zhì)上缺乏拓?fù)湫畔?,因此設(shè)計(jì)恢復(fù)拓?fù)涞哪P停ㄈ鏒GCNN(dynamic graph convolutional neural network)[24]、RGCNN(regularized graph convolutional neural network)[25]、DPAM(dynamic points agglomeration module)[26]等基于圖卷積的方法)可以豐富點(diǎn)云的表示能力。另外,ConvPoint[27]中設(shè)計(jì)了一種針對非結(jié)構(gòu)化數(shù)據(jù)的連續(xù)卷積公式。

        (4)點(diǎn)云信息不完整性

        點(diǎn)云是一群三維空間點(diǎn)坐標(biāo)構(gòu)成的點(diǎn)集。由于本質(zhì)上是對三維世界中物體幾何形狀進(jìn)行低分辨率重采樣,因此點(diǎn)云數(shù)據(jù)提供的幾何信息是不完整的;另外,點(diǎn)云數(shù)據(jù)采集時(shí)由于遮擋等原因,無法獲取目標(biāo)物體完整的三維描述。而且在模型訓(xùn)練過程中也存在這樣的問題,如PointNet[5]的全局特征僅匯總了單個(gè)塊的上下文,匯總信息僅在同一個(gè)塊中的各個(gè)點(diǎn)之間傳遞,但是每個(gè)塊之外的上下文信息也同樣重要。因此,CU&RCU[28]引入了兩種添加上下文的機(jī)制:輸入級上下文(直接在輸入點(diǎn)云上運(yùn)行)和輸出級上下文(用于合并輸入級上下文的輸出)。圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)也被廣泛用于處理不規(guī)則點(diǎn)云數(shù)據(jù),這些方法[14,23-24,29-30]在歐幾里德或特征空間的鄰域中構(gòu)建局部圖,通過加權(quán)和或從鄰域到中心的池化來聚合局部特征,處理不規(guī)則點(diǎn)云數(shù)據(jù)。

        2 基于深度學(xué)習(xí)的三維點(diǎn)云語義分割方法

        隨著深度學(xué)習(xí)技術(shù)的出現(xiàn),點(diǎn)云語義分割領(lǐng)域?qū)崿F(xiàn)了巨大的改進(jìn)。近年來,研究者們提出了大量的基于深度學(xué)習(xí)的分割模型以處理點(diǎn)云。與傳統(tǒng)算法相比,此類模型性能更優(yōu),達(dá)到了更高的基準(zhǔn)。本章根據(jù)三維點(diǎn)云數(shù)據(jù)處理方式,將基于深度學(xué)習(xí)的三維點(diǎn)云語義分割方法分為兩大類,即間接語義分割方法和直接語義分割方法。間接語義分割方法是將原始點(diǎn)云數(shù)據(jù)轉(zhuǎn)換為常規(guī)的3D 體素網(wǎng)格或者多視圖,通過數(shù)據(jù)轉(zhuǎn)變的方式間接地從三維點(diǎn)云數(shù)據(jù)中提取特征,從而達(dá)到語義分割的目的。直接語義分割方法是直接從點(diǎn)云數(shù)據(jù)中提取特征信息,在沒有向體素和多視圖轉(zhuǎn)換的情況下,體系結(jié)構(gòu)保留原始點(diǎn)內(nèi)的固有信息以預(yù)測點(diǎn)級語義。表1 對本文介紹的點(diǎn)云語義分割方法進(jìn)行了分析與總結(jié)。

        2.1 間接語義分割方法

        借鑒二維圖像語義分割模型的經(jīng)驗(yàn),研究者們首先將不規(guī)則的點(diǎn)云數(shù)據(jù)轉(zhuǎn)換為常規(guī)的3D 體素網(wǎng)格或者多視圖,輸入到深層網(wǎng)絡(luò)體系結(jié)構(gòu)以實(shí)現(xiàn)點(diǎn)云的語義分割。本節(jié)整理總結(jié)了20 篇具有代表性的文獻(xiàn),將間接語義分割方法再分為基于二維多視圖方法和基于三維體素化方法兩個(gè)子類,并分別進(jìn)行了總結(jié)與分析。圖3 為2015 年起間接語義分割方法的發(fā)展,不同顏色代表不同間接語義分割方法類別。

        2.1.1 基于二維多視圖方法

        Fig.3 Timeline of indirect semantic segmentation圖3 間接語義分割方法發(fā)展時(shí)間軸

        Table 1 Analysis and summary of point cloud semantic segmentation methods表1 點(diǎn)云語義分割方法的分析與總結(jié)

        早期研究者們在點(diǎn)云數(shù)據(jù)上應(yīng)用深度學(xué)習(xí)是將點(diǎn)云投影到多個(gè)視圖的二維圖像中,在投影的二維圖像上使用卷積等常規(guī)處理技術(shù),從而實(shí)現(xiàn)點(diǎn)云數(shù)據(jù)語義分割。多視圖CNN(multi-view convolutional neural network,MVCNN)處理三維點(diǎn)云數(shù)據(jù)的方法由Su 等人[31]首次提出,該類方法的具體步驟如圖4 所示,首先獲取三維目標(biāo)形狀在不同視角下的二維圖像,對每個(gè)視圖進(jìn)行圖像特征提取,最后通過池化層和完全連接層將不同視角的圖像進(jìn)行聚合得到最終的語義分割結(jié)果。

        雖然MVCNN 能很好地整合不同視角下影像特征從而獲得較好的三維物體的描述,但是該方法并不能有效地利用每張視圖的局部特征信息,也不能動態(tài)地選擇視圖;同時(shí),將三維物體投影到二維圖像會丟失大量關(guān)鍵的幾何空間信息,導(dǎo)致其最終語義分割精度不高。因此,Qi等人[32]通過引入多分辨率三維濾波來捕獲目標(biāo)多尺度信息以提高其語義分割性能。Feng 等人[33]在MVCNN 的基礎(chǔ)上提出GVCNN(group-view convolutional neural network)框架,將不同視圖下CNN(convolutional neural network)提取的視覺描述子進(jìn)行分組,可有效利用多視圖狀態(tài)下特征之間的關(guān)系。

        隨著RGB-D 傳感器(微軟Kinect 等)的發(fā)展,RGB-D 數(shù)據(jù)也逐漸被廣泛應(yīng)用。RGB-D 數(shù)據(jù)除了提供顏色信息外,還提供額外的深度信息,有利于語義分割任務(wù)。Zeng 等人[34]使用機(jī)械臂獲取多視角RGB-D 圖像并輸入FCN(fully convolutional network)網(wǎng)絡(luò)中,通過訓(xùn)練多個(gè)網(wǎng)絡(luò)(AlexNet[35]和VGG-16[36])提取特征,同時(shí)評估了使用RGB-D 圖像深度信息的優(yōu)勢。隨后,Ma 等人[37]使用SLAM(simultaneous localization and mapping)技術(shù)獲取相機(jī)軌跡,并將RGB-D 圖像轉(zhuǎn)換到真實(shí)標(biāo)注數(shù)據(jù)相同尺度,保證模型訓(xùn)練中多個(gè)視角的一致性。SnapNet[38]圍繞三維場景生成一系列二維快照,對每對二維快照進(jìn)行完全卷積網(wǎng)絡(luò)的像素標(biāo)記后,再將像素標(biāo)記反投影到原始點(diǎn)云上。SnapNet-R[39]改進(jìn)了SnapNet網(wǎng)絡(luò),對多個(gè)視圖直接處理以實(shí)現(xiàn)密集的三維點(diǎn)標(biāo)記,從而改善分割效果。然而,二維快照破壞了三維數(shù)據(jù)的內(nèi)在幾何關(guān)系,無法充分利用三維空間上下文的全部信息。

        SqueezeNet作為輕量級網(wǎng)絡(luò)結(jié)構(gòu),能夠減少模型參數(shù)量并且保持精度,因而在計(jì)算機(jī)視覺領(lǐng)域得到了越來越廣泛的應(yīng)用。Wu 等人[40]借鑒SqueezeNet的思想,提出了SqueezeSeg 網(wǎng)絡(luò)。SqueezeSeg 利用球面投影將稀疏的三維點(diǎn)云轉(zhuǎn)換為二維圖像輸入到基于SqueezeNet 的CNN 模型中進(jìn)行語義分割,利用條件隨機(jī)場(CRF)作為遞歸層對語義分割結(jié)果進(jìn)一步優(yōu)化,并通過傳統(tǒng)的聚類算法獲得最終標(biāo)簽。但是該方法語義分割準(zhǔn)確率受到點(diǎn)云采集過程中產(chǎn)生的失調(diào)噪聲(dropout noise)影響。隨后該團(tuán)隊(duì)[41]提出SqueezeSegV2,添加了上下文聚合模塊(context aggregation module,CAM),該模塊可以從更大的接收域中聚合上下文信息,從而增強(qiáng)網(wǎng)絡(luò)對失調(diào)噪聲的魯棒性,提高了語義分割的準(zhǔn)確率。

        盡管基于多視圖的語義分割方法存在三維空間信息不完整性和投影角度的問題,但其解決了點(diǎn)云數(shù)據(jù)的結(jié)構(gòu)化問題,又可依賴于較多成熟的二維算法和豐富的數(shù)據(jù)資源,可用于許多特定和小型的場景,具有較強(qiáng)的實(shí)用性。

        2.1.2 基于三維體素化方法

        Fig.4 Workflow for MVCNN圖4 MVCNN 網(wǎng)絡(luò)的處理流程

        鑒于CNN 在圖像語義分割中取得的有效成果以及體素與圖像在數(shù)據(jù)組織形式上的相似性,研究者們將原始點(diǎn)云數(shù)據(jù)轉(zhuǎn)換為體積離散(即體素)數(shù)據(jù),提出了基于三維的神經(jīng)網(wǎng)絡(luò)模型,以實(shí)現(xiàn)點(diǎn)云的語義分割。體素化操作是利用占用網(wǎng)格將環(huán)境狀態(tài)表示為隨機(jī)變量的3D 網(wǎng)格(每個(gè)網(wǎng)格對應(yīng)于一個(gè)體素),并根據(jù)傳入的傳感器數(shù)據(jù)和先驗(yàn)知識維持其占用率的概率估計(jì)[42]。目前,基于體素?cái)?shù)據(jù)的各種深度網(wǎng)絡(luò)已被應(yīng)用于形狀分類[43]、室內(nèi)場景的語義分割[44]和生物醫(yī)學(xué)記錄[45]。VoxNet 模型[42]是最早基于體素?cái)?shù)據(jù)的三維CNN 模型,該模型展示了三維卷積算子從體素占用網(wǎng)格學(xué)習(xí)特征的潛力。雖然體素模型的提出解決了點(diǎn)云無序性和非結(jié)構(gòu)化的問題,但三維數(shù)據(jù)的稀疏性與空間信息不完整性導(dǎo)致語義分割效率低。此外,相較于二維圖像數(shù)據(jù),點(diǎn)云數(shù)據(jù)體素化由于增加了一個(gè)維度,其計(jì)算開銷更大,并且限制了體素模型的分辨率。

        針對三維數(shù)據(jù)的稀疏性,Li等人[46]采用場探測濾波器(field probing filter)代替卷積神經(jīng)網(wǎng)絡(luò)中的卷積層從點(diǎn)云體素中提取特征。但是,該方法會降低語義分割輸出結(jié)果的分辨率。針對體素網(wǎng)格低分辨率的限制,SegCloud[47]網(wǎng)絡(luò)放棄了基于體素的CRF 方法,轉(zhuǎn)而使用原始3D 點(diǎn)作為節(jié)點(diǎn)來運(yùn)行CRF 推理。該網(wǎng)絡(luò)將3D-FCNN 生成的粗體素預(yù)測通過三線性插值返回到原始點(diǎn)云,然后使用全連接條件隨機(jī)場(fully connected CRFs,F(xiàn)CCRF)增強(qiáng)預(yù)測結(jié)果的全局一致性并在這些點(diǎn)上提供細(xì)粒度語義。

        為了減少不必要的計(jì)算和內(nèi)存消耗,有些學(xué)者提出了基于八叉樹結(jié)構(gòu)的分割模型,如OctNet[48]和VGS&SVGS[49]模型。OctNet[48]模型中,每個(gè)八叉樹根據(jù)數(shù)據(jù)的密度分割三維空間,將存儲器分配和計(jì)算集中到相關(guān)的密集區(qū)域,在不影響分辨率的情況下實(shí)現(xiàn)更深層的網(wǎng)絡(luò)。VGS(voxel-and graph-based segmentation)&SVGS(supervoxel-and graph-based segmentation)[49]模型采用基于八叉樹的體素化方法組織點(diǎn)云以方便鄰域遍歷,利用圖論(graph theory)在局部上下文信息的基礎(chǔ)上進(jìn)行體素和超體素的聚類,并使用感知定律(perceptual laws)以純幾何的方式進(jìn)行分割。Kd-tree 結(jié)構(gòu)也被應(yīng)用到基于深度學(xué)習(xí)的語義分割模型中,如Kd-Net[50]和3DContextNet[51]模型。Kd-Net[50]提出使用Kd-tree 組織點(diǎn)云數(shù)據(jù),規(guī)則化深度網(wǎng)絡(luò)輸入結(jié)構(gòu),提高了點(diǎn)云計(jì)算和存儲效率。3DcontextNet[51]利用Kd-tree 結(jié)構(gòu)提供的點(diǎn)云局部和全局上下文線索進(jìn)行特征學(xué)習(xí)并聚合點(diǎn)特征。與Kd-Net 不同,3DContextNet 不改變空間關(guān)系,可用于三維語義分割。以上基于樹結(jié)構(gòu)的方法雖然減少了計(jì)算和內(nèi)存消耗,但此類方法依賴體素邊界,沒有充分利用其局部幾何結(jié)構(gòu)。因此,Meng 等人[52]利用基于徑向基函數(shù)(radial basis functions,RBF)的變分自動編碼器(variational autoencoder,VAE)網(wǎng)絡(luò)對體素結(jié)構(gòu)進(jìn)行擴(kuò)展,編碼每個(gè)體素內(nèi)的局部幾何結(jié)構(gòu)從而提高分割精度。MSNet[53]網(wǎng)絡(luò)圍繞每個(gè)點(diǎn),將不同尺度的空間上下文劃分為不同尺度的體素,以自適應(yīng)地學(xué)習(xí)局部幾何特征,該方法在遙感、測繪數(shù)據(jù)獲得不錯(cuò)的語義分割結(jié)果。

        以上研究從不同角度解決了點(diǎn)云體素化帶來的不足,減少了三維體素輸入的信息丟失和計(jì)算需求,但由于體素化算法的空間復(fù)雜度高,存儲和運(yùn)算過程中均需較大的開銷,因此實(shí)用性相對較低。不過隨著計(jì)算性能和存儲方法的不斷升級,該類方法還是具有一定潛在的發(fā)展空間。

        2.2 直接語義分割方法

        為了降低預(yù)處理過程中的計(jì)算復(fù)雜度與噪音誤差影響,研究者開始從三維數(shù)據(jù)源頭著手,直接從點(diǎn)云數(shù)據(jù)中提取特征信息,因而逐漸發(fā)展出一些直接處理點(diǎn)云的網(wǎng)絡(luò)模型方法。PointNet 網(wǎng)絡(luò)[5]架構(gòu)是該類方法的開拓者,該網(wǎng)絡(luò)直接處理點(diǎn)云數(shù)據(jù)的分類與分割任務(wù),如圖5 所示。PointNet在語義分割時(shí),以點(diǎn)云中每一個(gè)點(diǎn)作為輸入,輸出每個(gè)點(diǎn)的語義類標(biāo)簽。PointNet 網(wǎng)絡(luò)主要解決三個(gè)核心問題:點(diǎn)云無序性、置換不變性和旋轉(zhuǎn)不變性。針對點(diǎn)云的無序性,PointNet 使用簡單的對稱函數(shù)聚合每一個(gè)點(diǎn)的信息。針對點(diǎn)云的置換不變性,PointNet 采用多層感知機(jī)(MLP)對每個(gè)點(diǎn)進(jìn)行獨(dú)立的特征提取,并將所有點(diǎn)信息聚合得到全局特征。此外,PointNet 網(wǎng)絡(luò)參考了二維深度學(xué)習(xí)中的STN(spatial transformer network)網(wǎng)絡(luò),在網(wǎng)絡(luò)架構(gòu)中加入T-Net 網(wǎng)絡(luò)架構(gòu),對輸入的點(diǎn)云進(jìn)行空間變換,使其盡可能滿足旋轉(zhuǎn)不變性。

        Fig.5 Network framework for PointNet圖5 PointNet網(wǎng)絡(luò)架構(gòu)

        PointNet 網(wǎng)絡(luò)依舊存在著很多的缺陷:無法很好地捕捉由度量空間引起的局部結(jié)構(gòu)問題,欠缺對局部特征的提取及處理;每個(gè)點(diǎn)操作過于獨(dú)立,其沒有考慮到鄰近點(diǎn)的交互關(guān)系,而無法高效刻畫相關(guān)區(qū)域的語義結(jié)構(gòu);統(tǒng)一的模板無法有效地解決密度不均一的數(shù)據(jù)。為了解決這些問題,研究者們基于PointNet 算法提出了一系列解決方案,本節(jié)整理總結(jié)了30 篇具有代表性的文獻(xiàn),從算法特點(diǎn)的角度分為六大類:基于鄰域特征學(xué)習(xí)的方法、基于圖卷積的方法、基于RNN 的方法、基于優(yōu)化CNN 的方法、基于注意力機(jī)制的方法和結(jié)合實(shí)例分割的方法。并分別進(jìn)行總結(jié)和分析。圖6 為2017 年起直接語義分割方法發(fā)展的時(shí)間軸,圖中不同顏色代表不同的直接語義分割方法類別。

        2.2.1 基于鄰域特征學(xué)習(xí)的方法

        PointNet 沒有捕獲由度量空間點(diǎn)引起的局部結(jié)構(gòu)特征,限制了細(xì)粒度圖案識別和復(fù)雜場景泛化能力。目前,為了捕獲局部特征,已有大量基于鄰域特征學(xué)習(xí)的網(wǎng)絡(luò)模型通過聚集來自局部相鄰點(diǎn)的信息或融合不同層次區(qū)域特征來捕獲點(diǎn)云中的上下文信息,將獲取的全局特征與局部特征有效結(jié)合以提高語義分割的性能。

        PointNet++[17]是PointNet 的分層版本,它的每個(gè)圖層都有三個(gè)子階段:采樣、分組和特征提取。圖7為PointNet++的整體網(wǎng)絡(luò)架構(gòu)。采樣層中,在輸入點(diǎn)云中使用迭代最遠(yuǎn)點(diǎn)采樣(farthest point sampling,F(xiàn)PS)方法選擇一系列局部區(qū)域的中心點(diǎn)。分組層中,通過查找中心點(diǎn)周圍的“鄰近”點(diǎn),創(chuàng)建多個(gè)點(diǎn)云子集。最后采用PointNet 網(wǎng)絡(luò)進(jìn)行卷積和池化來獲得這些點(diǎn)云子集的高階特征表示。此外,作者還提出了密度自適應(yīng)切入點(diǎn)網(wǎng)層,當(dāng)輸入采樣密度發(fā)生變化時(shí),則學(xué)習(xí)不同尺度區(qū)域的特征。

        Fig.6 Timeline of direct semantic segmentation圖6 直接語義分割方法發(fā)展時(shí)間軸

        Fig.7 Network framework for PointNet++圖7 PointNet++網(wǎng)絡(luò)架構(gòu)

        PointNet++網(wǎng)絡(luò)不僅解決了點(diǎn)云數(shù)據(jù)采樣不均勻的問題,而且考慮了點(diǎn)與點(diǎn)之間的距離度量。它通過層級結(jié)構(gòu)學(xué)習(xí)局部區(qū)域特征,使得網(wǎng)絡(luò)結(jié)構(gòu)更有效、更穩(wěn)健。雖然該模型有效改善了局部特征提取問題,但PointNet++和PointNet 模型一樣,單獨(dú)提取點(diǎn)的特征,依然沒有建立點(diǎn)與點(diǎn)之間的關(guān)系(如方向性等),對于局部特征的學(xué)習(xí)仍然不夠充分。為了模擬點(diǎn)之間的交互關(guān)系,Zhao 等人[54]提出了PointWeb,通過自適應(yīng)特征調(diào)整(adaptive feature adjustment,AFA)模塊實(shí)現(xiàn)信息交換和點(diǎn)的局部特征學(xué)習(xí),構(gòu)建局部完全鏈接網(wǎng)絡(luò)來探索局部區(qū)域中所有點(diǎn)對之間的關(guān)系。該方法充分利用點(diǎn)的局部特征,并形成聚合特征進(jìn)行三維點(diǎn)云語義分割。另外,為了解決Point-Net++中K-鄰域搜索可能處于一個(gè)方向的問題,Point-SIFT 模塊[10]的方向編碼單元在8 個(gè)方向上對最近點(diǎn)(nearest point)的特征進(jìn)行卷積,從而能夠提取更可靠和穩(wěn)定的表征點(diǎn)。

        為了更加有效地利用點(diǎn)云的局部特征信息,研究者們基于PointNet++網(wǎng)絡(luò)架構(gòu)提出了許多點(diǎn)云語義分割的網(wǎng)絡(luò)模型,如:SO-Net[11]、SCN(shape context net)[55]、RandLA-Net[18]等。

        SO-Net[11]網(wǎng)絡(luò)通過建立自組織映射(self-organizing map,SOM)模擬點(diǎn)云的空間分布,對單個(gè)點(diǎn)和SOM節(jié)點(diǎn)進(jìn)行分層特征提取,最終用單個(gè)特征向量來表示輸入點(diǎn)云,從而固定點(diǎn)的位置以實(shí)現(xiàn)點(diǎn)云高效分割。雖然SO-Net 網(wǎng)絡(luò)架構(gòu)對于大規(guī)模點(diǎn)云數(shù)據(jù)處理還具有一定的局限性,但其為后續(xù)的大規(guī)模點(diǎn)云語義分割提供了重要基礎(chǔ)。與SO-Net 不同,SCN[55]采用形狀上下文作為基本構(gòu)建塊開發(fā)了一種分層結(jié)構(gòu),通過捕獲并傳播局部和全局形狀信息來表示對象點(diǎn)的內(nèi)在屬性。RandLA-Net[18]是一種用于大規(guī)模點(diǎn)云處理的輕量級網(wǎng)絡(luò),該網(wǎng)絡(luò)使用隨機(jī)點(diǎn)采樣法替代PointNet++的最遠(yuǎn)點(diǎn)采樣法,通過局部特征聚集模塊以捕獲和保留局部幾何特征,在存儲和計(jì)算方面實(shí)現(xiàn)了顯著的提高。

        2.2.2 基于圖卷積的方法

        圖卷積方法將卷積運(yùn)算與圖結(jié)構(gòu)表示相結(jié)合。圖卷積神經(jīng)網(wǎng)絡(luò)是一種直接在圖結(jié)構(gòu)上運(yùn)行且能夠依靠圖中節(jié)點(diǎn)之間的信息傳遞來捕獲圖中依賴關(guān)系的卷積神經(jīng)網(wǎng)絡(luò),在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用越來越廣泛。

        針對PointNet++框架[17]中以孤立方式進(jìn)行特征學(xué)習(xí)的局限性,Wang 等人[56]提出一種局部譜圖卷積(local spectral graph convolution),它從點(diǎn)的鄰域構(gòu)造局部圖,利用譜圖卷積結(jié)合新的圖池策略學(xué)習(xí)相鄰點(diǎn)的相對布局及特征。與上述方法不同,Simonovsky等人[57]在空間域中對圖形信號進(jìn)行了類似于卷積的運(yùn)算,并使用非對稱邊緣函數(shù)來描述局部點(diǎn)之間的關(guān)系。但是,邊緣標(biāo)簽是動態(tài)生成的,沒有考慮局部點(diǎn)的分布不規(guī)則性。于是,RGCNN[25]基于譜圖理論,將點(diǎn)的特征作為圖上的一個(gè)節(jié)點(diǎn)以克服點(diǎn)云的不規(guī)則性。Wang 等人[24]改進(jìn)文獻(xiàn)[57]的方法,提出了動態(tài)圖卷積神經(jīng)網(wǎng)絡(luò)DGCNN。DGCNN 通過構(gòu)造局部鄰域圖并利用邊緣卷積(EdgeConv)操作提取中心點(diǎn)的特征和中心點(diǎn)與K近鄰域(KNN)點(diǎn)的邊緣向量以獲得點(diǎn)云的局部特征。EdgeConv 考慮了點(diǎn)的坐標(biāo)與鄰域點(diǎn)的距離,卻忽視了相鄰點(diǎn)之間的向量方向,最終還是損失了一部分局部幾何信息。

        隨后,在DGCNN 的研究基礎(chǔ)上發(fā)展了一系列基于圖卷積的算法,如GACNet[19]、HDGCN[12]、DPAM[26]和PointNGCNN[58]等。其中,GACNet[44]提出了一種具有可學(xué)習(xí)內(nèi)核形狀的圖注意力卷積(graph attention convolution,GAC),用于3D 點(diǎn)云的結(jié)構(gòu)化特征學(xué)習(xí)。受深度卷積和圖卷積的啟發(fā),Liang 等人[12]提出由深度圖卷積(depthwise graph convolutional,DGConv)塊組成的層次結(jié)構(gòu)網(wǎng)絡(luò)——HDGCN,以提取點(diǎn)云局部特征和全局特征。Liu 等人[26]認(rèn)為以往的點(diǎn)聚集方法僅在歐幾里德空間中進(jìn)行點(diǎn)采樣和分組,嚴(yán)重限制了它們適應(yīng)更多場景的能力。于是提出了一種基于圖卷積的動態(tài)點(diǎn)聚集模塊(DPAM),將點(diǎn)聚集(采樣、分組和合并)的過程簡化為聚集矩陣和點(diǎn)特征矩陣相乘。PointNGCNN[58]構(gòu)造鄰域圖來描述鄰域點(diǎn)之間的關(guān)系,并使用切比雪夫多項(xiàng)式作為鄰域圖濾波器提取鄰域幾何特征。在此基礎(chǔ)上,將每個(gè)鄰域的特征矩陣和拉普拉斯矩陣(Laplacian matrix)放入網(wǎng)絡(luò)中,利用最大池化操作獲得每個(gè)中心的特征。

        此外,為了處理大規(guī)模點(diǎn)云的語義分割,Landrieu等人[59]在2018年提出了超點(diǎn)圖(superpoints graph,SPG)。SPG 將幾何分割后的每一個(gè)幾何形狀看作一個(gè)超點(diǎn)(superpoint)構(gòu)建超點(diǎn)圖,利用PointNet 對超點(diǎn)圖進(jìn)行超點(diǎn)嵌入以及圖卷積處理,分類得到語義標(biāo)簽。SPG 能夠詳細(xì)描述相鄰目標(biāo)之間的關(guān)系,可有效解決每個(gè)點(diǎn)操作過于獨(dú)立,點(diǎn)與點(diǎn)之間缺乏聯(lián)系等問題。

        2.2.3 基于優(yōu)化CNN 的方法

        卷積神經(jīng)網(wǎng)絡(luò)(CNN/ConvNets)是一種前饋神經(jīng)網(wǎng)絡(luò),它的人工神經(jīng)元可以響應(yīng)一部分覆蓋范圍內(nèi)的周圍單元,目前對于大型圖像處理有著出色的表現(xiàn)。卷積神經(jīng)網(wǎng)絡(luò)由一個(gè)或多個(gè)卷積層和頂端的全連接層組成,同時(shí)也包括關(guān)聯(lián)權(quán)重和池化層。這一結(jié)構(gòu)使得卷積神經(jīng)網(wǎng)絡(luò)能夠利用輸入數(shù)據(jù)的三維結(jié)構(gòu),將特征從低級特征提取到高級特征。近年來,一些研究者對CNN 進(jìn)行了優(yōu)化,并將它們應(yīng)用在點(diǎn)云語義分割的模型中。上文提到的圖卷積也算優(yōu)化CNN 方法中的一類。

        由于點(diǎn)云數(shù)據(jù)的無序性,導(dǎo)致輸入點(diǎn)云數(shù)據(jù)時(shí)的排列順序千差萬別,使得卷積操作很難直接應(yīng)用到點(diǎn)云數(shù)據(jù)上。為了進(jìn)一步解決這個(gè)問題并利用標(biāo)準(zhǔn)CNN 操作的優(yōu)勢,PointCNN[14]嘗試學(xué)習(xí)χ-變換卷積算子,將無序的點(diǎn)云轉(zhuǎn)換為相應(yīng)的規(guī)范順序,之后再使用典型的CNN 架構(gòu)來提取局部特征。χ-變換可以實(shí)現(xiàn)“隨機(jī)應(yīng)變”,即當(dāng)輸入點(diǎn)的順序變化時(shí),χ能夠相應(yīng)地變化,使加權(quán)和排列之后的特征近似不變,輸入特征在經(jīng)過χ-變換的處理之后能夠變成與輸入點(diǎn)順序無關(guān)同時(shí)也編碼了輸入點(diǎn)形狀信息的歸一化的特征。不同于PointCNN,PCCN[29](parametric continuous convolution network)提出一種參數(shù)連續(xù)卷積,使用點(diǎn)來承載內(nèi)核權(quán)重并利用參數(shù)化的核函數(shù)跨越整個(gè)連續(xù)向量空間,由于其不使用任何形式的鄰域,導(dǎo)致該網(wǎng)絡(luò)不可再擴(kuò)展。同樣,在解決缺乏空間卷積的過程中,Thomas 等人[21]提出了提供可變形卷積算子的核點(diǎn)卷積(KPConv),通過應(yīng)用鄰域中最近距離內(nèi)核點(diǎn)的權(quán)重,對每個(gè)局部鄰域進(jìn)行卷積。KPConv的卷積權(quán)重由到核點(diǎn)的歐幾里德距離確定,并且核點(diǎn)的數(shù)量不是固定的,因此KPConv比固定網(wǎng)格卷積靈活性更強(qiáng)。隨后,ConvPoint[27]使用多層感知器(MLP)學(xué)習(xí)關(guān)聯(lián)函數(shù)替代KPConv 使用的RBF 高斯函數(shù)關(guān)聯(lián)輸入和內(nèi)核。ConvPoint[27]提出離散卷積神經(jīng)網(wǎng)絡(luò)的泛化,通過使用連續(xù)核替換離散核以處理點(diǎn)云。Pointwise[60]利用逐點(diǎn)卷積(pointwise convolution)獲取點(diǎn)的局部特征信息實(shí)現(xiàn)語義分割。但是,逐點(diǎn)卷積使用體素容器定位內(nèi)核權(quán)重,因此缺乏像KPConv 一樣的靈活性。SpiderCNN[30]通過對一系列的卷積濾波器進(jìn)行參數(shù)化,將卷積運(yùn)算從常規(guī)網(wǎng)格擴(kuò)展到可嵌入?n的不規(guī)則點(diǎn)集,并捕獲復(fù)雜的局部幾何變化。SpiderCNN 繼承了經(jīng)典CNN 的多尺度層次結(jié)構(gòu),進(jìn)而能夠提取語義深層特征。InterpConv[22]利用一組離散的內(nèi)核權(quán)重,并通過插值函數(shù)將點(diǎn)特征插值到相鄰的內(nèi)核權(quán)重坐標(biāo)上進(jìn)行卷積。在Interp-Conv 基礎(chǔ)上提出內(nèi)插卷積神經(jīng)網(wǎng)絡(luò)(InterpCNN),以處理點(diǎn)云的室內(nèi)場景語義解析任務(wù)。ShellConv[15]使用同心球殼的統(tǒng)計(jì)信息來定義有代表性的特征并解決了點(diǎn)的無序性輸入,使得傳統(tǒng)的卷積運(yùn)算可以直接處理這些特征。Wu 等人[23]將動態(tài)濾波器擴(kuò)展到一個(gè)新的卷積運(yùn)算,命名為PointConv。PointConv 在局部點(diǎn)坐標(biāo)上訓(xùn)練多層感知器來逼近卷積濾波器中的連續(xù)權(quán)函數(shù)和密度函數(shù),使其具有置換不變性和平移不變性。此外,將PointConv 擴(kuò)展為反卷積運(yùn)算符(PointDeconv),將特征從子采樣點(diǎn)云傳播回原始分辨率。A-CNN[61]在分層神經(jīng)網(wǎng)絡(luò)中應(yīng)用環(huán)形卷積(annular convolution)以實(shí)現(xiàn)大場景的語義分割。環(huán)形卷積可提取每個(gè)點(diǎn)周圍局部鄰域的幾何特征,并在后續(xù)的點(diǎn)云處理中,使用特征融合方法將全局特征與局部特征結(jié)合以改善分割效果。

        2.2.4 基于RNN 的方法

        循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[62]是目前深度學(xué)習(xí)中另一種主流模型,RNN 不僅可以學(xué)習(xí)當(dāng)前時(shí)刻的信息,還可以依賴之前的序列信息,有利于建模全局內(nèi)容和保存歷史信息,促進(jìn)上下文信息的利用。Engelmann 等人[28]在PointNet 網(wǎng)絡(luò)的基礎(chǔ)上提出了輸入級上下文和輸出級上下文兩個(gè)擴(kuò)展。輸入級上下文是將點(diǎn)塊轉(zhuǎn)換為多尺度塊和網(wǎng)絡(luò)塊;輸出級上下文是將PointNet 提取的分塊特征依次送入合并單元(consolidation units,CU)或循環(huán)合并單元(recurrent consolidation units,RCU)。實(shí)驗(yàn)結(jié)果表明,將網(wǎng)絡(luò)架構(gòu)擴(kuò)展到更大尺度的空間上下文中有助于提高語義分割性能。Liu 等人[63]融合三維卷積神經(jīng)網(wǎng)絡(luò)(CNN)、深層Q 網(wǎng)絡(luò)(deep Q-network,DQN)和殘差遞歸神經(jīng)網(wǎng)絡(luò)(RNN),提出了3DCNN-DQNRNN 用于大規(guī)模點(diǎn)云的語義解析。3DCNN 網(wǎng)絡(luò)學(xué)習(xí)點(diǎn)的空間分布和形狀顏色特征;DQN 網(wǎng)絡(luò)定位類對象;殘差RNN 處理輸入的級聯(lián)特征向量獲得最終的分割結(jié)果。該方法利用殘差RNN 進(jìn)一步提取了點(diǎn)的識別性特征,從而提高了大規(guī)模點(diǎn)云的解析精度。

        為了進(jìn)一步優(yōu)化PointNet++網(wǎng)絡(luò),并且考慮點(diǎn)與點(diǎn)之間方向性關(guān)系,RSNet[13]模型通過x、y、z三個(gè)方向的切片池化層將無序點(diǎn)云轉(zhuǎn)換為有序序列并提取全局特征,采用雙向RNN(bidirectional RNN)處理點(diǎn)云有序序列,提取局部相關(guān)性特征,利用切片解析層將序列中的特征分配回各個(gè)點(diǎn),最終輸出每個(gè)點(diǎn)的語義預(yù)測標(biāo)簽。相比其他為了得到局部信息需要復(fù)雜計(jì)算的模型,RSNet 簡化了獲取局部信息的計(jì)算。同樣,Ye 等人[20]從x、y方向連續(xù)地掃描三維空間提取信息,并構(gòu)建一個(gè)逐點(diǎn)金字塔池化模塊(pyramid pooling module)提取三維點(diǎn)云不同密度的局部特征,同時(shí)使用分層的雙向RNN 學(xué)習(xí)空間上下文信息,從而實(shí)現(xiàn)多層次的語義特征融合。

        2.2.5 基于注意力機(jī)制的方法

        注意力機(jī)制基本思想是讓系統(tǒng)能夠忽略無關(guān)信息而關(guān)注重點(diǎn)信息。注意力機(jī)制通過神經(jīng)網(wǎng)絡(luò)算出梯度并且前向傳播和后向反饋來學(xué)習(xí)得到注意力的權(quán)重。為進(jìn)一步提升分割精度,一些研究者將注意力機(jī)制引入至語義分割算法中。Yang 等人[64]開發(fā)了一個(gè)基于點(diǎn)云推理的點(diǎn)注意力變壓器(point attention transformer,PAT),并提出了群洗牌注意力(group shuffle attention,GSA)用于建模點(diǎn)之間的關(guān)系。同時(shí),Yang 等人[64]還提出了一種端到端、置換不變性、可微的Gumbel 子集采樣(Gumbel subset sampling,GSS)替代廣泛使用的最遠(yuǎn)點(diǎn)采樣(FPS),以選擇具有代表性的點(diǎn)子集。Zhao 等人[65]考慮通過利用相鄰點(diǎn)的初始分割分?jǐn)?shù)來改善三維點(diǎn)云分割結(jié)果,提出了一種基于注意力的分?jǐn)?shù)細(xì)化(attention-based score refinement,ASR)模塊,該模塊根據(jù)各個(gè)點(diǎn)的初始分割分?jǐn)?shù)計(jì)算權(quán)重,再根據(jù)計(jì)算出的權(quán)重合并每個(gè)點(diǎn)及其鄰近點(diǎn)的分?jǐn)?shù),從而對分?jǐn)?shù)進(jìn)行優(yōu)化。該模塊可以輕松集成到現(xiàn)有的深度網(wǎng)絡(luò)中,以提高最終的分割效果。GACNet[19]通過建立每個(gè)點(diǎn)與周圍點(diǎn)的圖結(jié)構(gòu),并引入注意力機(jī)制計(jì)算中心點(diǎn)與每一個(gè)鄰接點(diǎn)的邊緣權(quán)重,最后通過對權(quán)重加權(quán)計(jì)算出每個(gè)點(diǎn)的特征后再進(jìn)行圖池化(graph pooling)和下采樣,從而使得網(wǎng)絡(luò)能在分割的目標(biāo)的邊緣部分取得更好的效果。

        借鑒Mnih 等人提出的自注意力機(jī)制(self-attention),GAPNet[66]將其與GCNN 結(jié)合,通過在堆疊的多層感知器(MLP)層中嵌入圖形注意機(jī)制以學(xué)習(xí)局部幾何表示,GAPNet 可將GAPLayer 和注意力池層集成到堆疊的多層感知器層或現(xiàn)有管道(例如Point-Net)中,以更好地從無序點(diǎn)云中提取局部上下文特征。SCN(shape context net)[55]受基于自注意力模型的啟發(fā),在其基礎(chǔ)上提出A-SCN(attentional shape context net)模型,以自動完成上下文區(qū)域選擇、特征聚合和特征轉(zhuǎn)換等過程。

        2.2.6 結(jié)合實(shí)例分割的方法

        語義分割和實(shí)例分割相結(jié)合方法能取長補(bǔ)短,既不重復(fù)操作,減小計(jì)算的復(fù)雜度,又可以增加分割精度,實(shí)現(xiàn)雙贏。

        Wang 等人[67]提出了一個(gè)實(shí)例和語義的關(guān)聯(lián)分割(associatively segmenting instances and semantics,ASIS)框架,通過學(xué)習(xí)語義感知的點(diǎn)級實(shí)例嵌入,使實(shí)例分割從語義分割中受益。同時(shí),融合屬于同一實(shí)例的點(diǎn)的語義特征,可自動分離屬于不同語義類的點(diǎn)嵌入,以進(jìn)行更準(zhǔn)確的基于點(diǎn)的語義預(yù)測。

        與此同時(shí),Pham 等人[68]基于PointNet 網(wǎng)絡(luò)開發(fā)了一個(gè)多任務(wù)逐點(diǎn)網(wǎng)絡(luò),它同時(shí)執(zhí)行兩項(xiàng)任務(wù):預(yù)測三維點(diǎn)的語義信息,并將這些點(diǎn)嵌入高維向量中,使相同對象實(shí)例的點(diǎn)相似嵌入表示。然后,利用一個(gè)多值條件隨機(jī)場模型,將語義和實(shí)例標(biāo)簽結(jié)合起來,將語義和實(shí)例分割問題表述為場模型中標(biāo)簽的聯(lián)合優(yōu)化問題。作者所提出的聯(lián)合語義實(shí)例分割方案對單個(gè)構(gòu)件具有較強(qiáng)的魯棒性,實(shí)驗(yàn)結(jié)果相對于ASIS來說更好一些。

        3 語義分割實(shí)驗(yàn)分析與對比

        本章首先梳理了測試階段價(jià)值較高的RGB-D 和三維公開數(shù)據(jù)集,然后在此基礎(chǔ)上對現(xiàn)有語義分割算法的性能進(jìn)行了綜合性對比和討論。

        3.1 公共數(shù)據(jù)集

        為了驗(yàn)證研究者們提出算法對語義分割的效果,有效的數(shù)據(jù)集是不可或缺的一環(huán)。隨著深度學(xué)習(xí)在三維語義分割中的發(fā)展,三維數(shù)據(jù)集的地位愈加重要。目前,為了促進(jìn)三維點(diǎn)云語義分割的研究,許多研究機(jī)構(gòu)提供了一些可靠且開放的三維數(shù)據(jù)集,見表2,下面對點(diǎn)云語義常用的數(shù)據(jù)集按類別以及時(shí)間順序進(jìn)行簡要的描述。

        3.1.1 RGB-D 數(shù)據(jù)集

        (1)RGB-D Object[69](https://rgbd-dataset.cs.washington.edu/):該數(shù)據(jù)集2011 年由美國華盛頓大學(xué)的研究小組開發(fā),由11 427 幅人工手動分割的RGB-D圖像組成,整個(gè)數(shù)據(jù)集包含300 個(gè)常見的室內(nèi)物體,并將這些物體分為了51 個(gè)類。該數(shù)據(jù)集使Kinect 型三維攝像機(jī)獲取圖像,對于每一幀,數(shù)據(jù)集提供了RGB 及深度信息,這其中包含了物體、位置及像素級別的標(biāo)注。另外,還提供了22 個(gè)帶注釋的自然場景視頻序列,用于驗(yàn)證過程以評估性能。

        (2)NYUDv2[70](https://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html):該數(shù)據(jù)集2012 年由美國紐約大學(xué)的研究小組開發(fā),包含1 449 張由微軟Kinect設(shè)備捕獲的室內(nèi)場景的RGB-D 圖像,其中訓(xùn)練集795張,測試集654 張,對象被分為40 個(gè)類,每個(gè)對象都標(biāo)有類和實(shí)例號。但是由于其相對于其他數(shù)據(jù)集規(guī)模較小,因此該數(shù)據(jù)集主要用于輔助機(jī)器人導(dǎo)航的訓(xùn)練任務(wù)。

        (3)SUN3D[71](http://sun3d.cs.princeton.edu/):該數(shù)據(jù)集2013 年由美國普林斯頓大學(xué)的研究小組開發(fā),其中包含使用Asus Xtion 傳感器捕獲的415 個(gè)RGB-D 序列,是一個(gè)具有攝像機(jī)姿態(tài)和物體標(biāo)簽的大型RGB-D 視頻數(shù)據(jù)庫。每一幀均包含場景中物體的語義分割信息以及攝像機(jī)位態(tài)信息。

        (4)Bigbird[72](http://rll.berkeley.edu/bigbird/):該數(shù)據(jù)集2014 年由美國加州大學(xué)伯克利分校的研究小組開發(fā),使用計(jì)算機(jī)控制的光平臺和靜態(tài)校準(zhǔn)的成像設(shè)備對125 個(gè)對象進(jìn)行3D 掃描,每個(gè)對象由600 個(gè)3D 點(diǎn)云和600 個(gè)跨越所有視圖的高分辨率(1 200 萬像素)圖像組成。

        (5)ViDRILO[73](http://www.rovit.ua.es/dataset/vidrilo):該數(shù)據(jù)集2015 年由西班牙卡斯蒂利亞大學(xué)和阿利坎特大學(xué)的研究小組共同開發(fā),包含其使用Microsoft Kinect v1 傳感器在5 個(gè)室內(nèi)場景中捕獲的22 454 個(gè)RGB-D 圖像。每個(gè)RGB-D 圖像都標(biāo)有場景的語義類別(走廊、教授辦公室等)。該數(shù)據(jù)集被發(fā)布用于基準(zhǔn)測試多個(gè)問題,如多模式地點(diǎn)分類、目標(biāo)識別、三維重建或點(diǎn)云數(shù)據(jù)壓縮。

        Table 2 Common 3D datasets of point cloud semantic segmentation表2 點(diǎn)云語義分割常用的3D 數(shù)據(jù)集

        (6)SUN RGB-D[74](http://rgbd.cs.princeton.edu/):該數(shù)據(jù)集與SUN3D 數(shù)據(jù)集由美國普林斯頓大學(xué)的同一研究小組開發(fā),數(shù)據(jù)由4 個(gè)不同的傳感器捕獲,包含10 000 張RGB-D 圖像,其尺寸與Pascal VOC 相當(dāng)。整個(gè)數(shù)據(jù)集是密集注釋的,包括146 617 個(gè)2D 多邊形和58 657 個(gè)具有精確對象定位的3D 包圍框,以及一個(gè)三維房間布局和場景類別,適用于場景理解任務(wù)。

        (7)ScanNet[44](http://www.scan-net.org/):該數(shù)據(jù)集2017 年由美國普林斯頓大學(xué)、斯坦福大學(xué)以及德國慕尼黑工業(yè)大學(xué)的研究者共同開發(fā),是一個(gè)RGBD 視頻的室內(nèi)場景數(shù)據(jù)集。在1 513 次掃描中獲得250 萬次視圖,附加了3D 相機(jī)姿態(tài)、表面重建和實(shí)例級語義分割的注釋。該數(shù)據(jù)集的對象被分為20 個(gè)類,包含各種各樣的空間,范圍從小(例如,浴室、壁櫥、雜物間)到大(例如,公寓、教室和圖書館)。該數(shù)據(jù)被廣泛應(yīng)用于三維對象分類、語義體素標(biāo)記和CAD 模型檢索等三維場景理解任務(wù)上。

        (8)Matterport3D[75](https://niessner.github.io/Matterport/):如圖8,該數(shù)據(jù)集2017 年由美國普林斯頓大學(xué)、斯坦福大學(xué)以及德國慕尼黑工業(yè)大學(xué)的研究者共同開發(fā),包含來自90 多個(gè)建筑規(guī)模場景的194 400個(gè)RGB-D 圖像和10 800 個(gè)全景。注釋提供了表面重建、相機(jī)姿態(tài)以及2D 和3D 語義分割內(nèi)容。精確的全局校準(zhǔn)和全面的、多樣的全景視圖覆蓋了整個(gè)建筑,從而支持各種監(jiān)督的計(jì)算機(jī)視覺任務(wù),如:關(guān)鍵點(diǎn)匹配、視圖重疊預(yù)測、根據(jù)顏色進(jìn)行的正常預(yù)測、語義分割和區(qū)域分類。

        3.1.2 室內(nèi)三維數(shù)據(jù)集

        (1)A Benchmark for 3D Mesh Segmentation[76](http://segeval.cs.princeton.edu/):該數(shù)據(jù)集2009 年由美國普林斯頓大學(xué)的研究小組開發(fā),包含380 個(gè)網(wǎng)格,被分為19 個(gè)常見對象類別(如桌子、椅子等),每個(gè)網(wǎng)格手動地被分割為不同的功能區(qū)域,旨在幫助研究三維零件的語義分割和人類如何將對象分解為各個(gè)有意義的部分。

        (2)PrincentonModelNet[43](http://modelnet.cs.princeton.edu/):該數(shù)據(jù)2015 年由美國普林斯頓大學(xué)、麻省理工學(xué)院以及中國香港中文大學(xué)的研究人員共同開發(fā),該數(shù)據(jù)集是一個(gè)為計(jì)算機(jī)視覺、計(jì)算機(jī)圖形學(xué)、機(jī)器人和認(rèn)知科學(xué)的研究者提供的清晰物體3D CAD 模型,ModelNet總共有662 種目標(biāo)分類,127 915個(gè)CAD,以及10 類標(biāo)記過方向朝向的數(shù)據(jù)。其中包括3 個(gè)子數(shù)據(jù)集:ModelNet10(10 個(gè)標(biāo)記朝向的子集數(shù)據(jù))、ModelNet40(40個(gè)類別的三維模型)、Aligned40(40 類標(biāo)記的三維模型)。

        (3)ShapeNet Part[77](https://cs.stanford.edu/~ericyi/project_page/part_annotation/):該數(shù)據(jù)集2016 年由美國斯坦福大學(xué)、普林斯頓大學(xué)和芝加哥豐田技術(shù)學(xué)院的研究人員共同開發(fā),該數(shù)據(jù)集是ShapeNet 數(shù)據(jù)集的子集,一個(gè)由3D CAD 模型對象表示的豐富注釋的大型形狀存儲庫,關(guān)注于細(xì)粒度的三維物體分割。包含16 個(gè)類別的16 881 個(gè)形狀31 693 個(gè)網(wǎng)格,每個(gè)形狀類被標(biāo)注為2~5 個(gè)部分,整個(gè)數(shù)據(jù)集共有50個(gè)物體部分。

        (4)S3DIS[78](http://buildingparser.stanford.edu/dataset.html):如圖9,該數(shù)據(jù)2016 年由美國斯坦福大學(xué)的研究小組開發(fā),是一個(gè)多模態(tài)、大規(guī)模室內(nèi)空間數(shù)據(jù)集,具有實(shí)例級語義和幾何注釋。S3DIS 數(shù)據(jù)集覆蓋超過6 000 m2,包含超過70 000 個(gè)RGB 圖像,以及相應(yīng)的深度、表面法線、語義注釋、全局XYZ圖像以及相機(jī)信息。收集在6 個(gè)大型室內(nèi)區(qū)域272 個(gè)3D 房間場景內(nèi)。共有13 個(gè)類別(墻、桌子、椅子、柜子等)。該數(shù)據(jù)集能夠利用大規(guī)模室內(nèi)空間中存在的規(guī)律來開發(fā)聯(lián)合跨模式學(xué)習(xí)模型和潛在的無監(jiān)督方法。

        Fig.8 Example image of Matterport3D dataset圖8 Matterport3D 數(shù)據(jù)集示例圖

        Fig.9 Example image of S3DIS dataset圖9 S3DIS 數(shù)據(jù)集示例圖

        (5)Multisensorial Indoor Mapping and Positioning Dataset[79](http://mi3dmap.net/dataset.jsp):該數(shù)據(jù)集2018 年由廈門大學(xué)的研究小組開發(fā),數(shù)據(jù)通過多傳感器獲取,例如激光掃描儀、照相機(jī)、WIFI 和藍(lán)牙等。該數(shù)據(jù)集提供了密集的激光掃描點(diǎn)云,用于室內(nèi)制圖和定位。同時(shí),他們還提供基于多傳感器校準(zhǔn)和SLAM 映射過程的彩色激光掃描。

        3.1.3 室外三維數(shù)據(jù)集

        自2009 年以來,已有多個(gè)室外三維數(shù)據(jù)集可用于三維點(diǎn)云的語義分割研究,然而早期的數(shù)據(jù)集有很多缺點(diǎn)。例如the Oakland outdoor MLS dataset[80]、the Sydney Urban Objects MLS dataset[81]、the Paris-rue-Madame MLS dataset[82]、the IQmulus&TerraMobilita Contest MLS dataset[83]和ETHZ CVL RueMonge 2014 multiview stereo dataset[84]無法同時(shí)提供不同的對象表示和標(biāo)注點(diǎn)。為了克服早期數(shù)據(jù)集的缺點(diǎn),近年來已提供了新的基準(zhǔn)數(shù)據(jù)。下面對這些數(shù)據(jù)集進(jìn)行簡單的描述。

        (1)TUMCity Campus[85](https://www.iosb.fraunhofer.de/servlet/is/71820/):該數(shù)據(jù)集2016 年由德國慕尼黑技術(shù)大學(xué)的Fraunhofer IOSB 開發(fā),在“TUM 城市校園”試驗(yàn)場(48.149 3°N,11.568 5°E)獲得了移動激光掃描(mobile laser scanning,MLS)數(shù)據(jù),所有點(diǎn)的x、y、z都被地理參照到一個(gè)局部歐氏坐標(biāo)系中。該數(shù)據(jù)集包含17 億多個(gè)點(diǎn),9 個(gè)類別。隨后,2017 年新增了一個(gè)紅外圖像序列來擴(kuò)展數(shù)據(jù)集;2018 年對“MLS1-TUM 城市校園”三維測試數(shù)據(jù)集的一部分進(jìn)行了手動標(biāo)記;2019 年對“TUM 城市校園”試驗(yàn)場進(jìn)行了重新掃描更新;2020 年新增了2009 年的機(jī)載激光掃描(airborne laser scanning,ALS)數(shù)據(jù)。

        (2)vKITTI(Virtual KITTI)[86](http://www.europe.naverlabs.com/Research/Computer-Vision/Proxy-Virtual-Worlds):該數(shù)據(jù)集2016 年由法國歐洲施樂研究中心計(jì)算機(jī)視覺小組和美國亞利桑那州立大學(xué)研究小組共同開發(fā),vKITTI數(shù)據(jù)集是從真實(shí)世界場景的KITTI數(shù)據(jù)集模擬形成的大規(guī)模戶外場景數(shù)據(jù)集,包含13個(gè)語義類別,35 個(gè)合成視頻,總共約17 000 個(gè)高分辨率幀,旨在學(xué)習(xí)和評估幾個(gè)視頻理解任務(wù)的計(jì)算機(jī)視覺模型:對象檢測和多對象跟蹤、場景級和實(shí)例級語義分割、光流和深度估計(jì)。2020 年研究人員對該數(shù)據(jù)集又進(jìn)行了更新。

        (3)Semantic3D[87](http://semantic3d.net/):如圖10,該數(shù)據(jù)集2017 年由瑞士蘇黎世聯(lián)邦理工學(xué)院的研究小組開發(fā),Semantic3D 提供了一個(gè)大型標(biāo)記的三維點(diǎn)云數(shù)據(jù)集,其自然場景總數(shù)超過40 億個(gè)點(diǎn)。它還涵蓋了一系列不同的城市場景:教堂、街道、鐵軌、廣場、村莊、城堡、足球場等。訓(xùn)練集和測試集各包含15 個(gè)大規(guī)模的點(diǎn)云,8 個(gè)具體的語義類,掃描范圍還包括各種場景類型,包括城市、次城市和農(nóng)村,是目前最大的可用激光雷達(dá)數(shù)據(jù)集。

        Fig.10 Point cloud scene and semantic segmentation diagram in Semantic3D dataset圖10 Semantic3D 數(shù)據(jù)集中點(diǎn)云場景語義分割圖

        (4)Paris-Lille-3D[88](http://npm3d.fr/paris-lille-3d):該數(shù)據(jù)集2018 年由巴黎高等礦業(yè)學(xué)院的研究小組開發(fā),是一個(gè)城市MLS 數(shù)據(jù)集,包含1 431 萬個(gè)標(biāo)記點(diǎn),涵蓋50 個(gè)不同的城市對象類。整個(gè)數(shù)據(jù)集由3 個(gè)子集組成,分別為713 萬、268 萬和457 萬個(gè)點(diǎn)。作為MLS 數(shù)據(jù)集,它也可以用于自動駕駛研究。

        (5)Apollo[89](http://apolloscape.auto/car_instance.html):該數(shù)據(jù)集2019 年由百度的研究小組開發(fā),是一個(gè)大規(guī)模的自動駕駛數(shù)據(jù)集,提供了3 維汽車的實(shí)例理解,LiDAR 點(diǎn)云對象檢測和跟蹤以及基于LiDAR 的定位的標(biāo)記數(shù)據(jù)。該數(shù)據(jù)集包含5 277 個(gè)駕駛圖像和超過6 萬個(gè)的汽車實(shí)例,其中每輛汽車都配備了具有絕對模型尺寸和語義標(biāo)記關(guān)鍵點(diǎn)的行業(yè)級3D CAD 模型。該數(shù)據(jù)集比PASCAL3D 和KITTI(現(xiàn)有技術(shù)水平)大20 倍以上。

        (6)SemanticKITTI[90](http://semantic-kitti.org/):如圖11,該數(shù)據(jù)集2019 年由德國波恩大學(xué)的研究小組開發(fā),是一個(gè)基于汽車LiDAR 的大型戶外場景數(shù)據(jù)集,SemanticKITTI 由屬于21 個(gè)序列的43 552 個(gè)密集注釋的激光雷達(dá)掃描組成,其中包含19 個(gè)對象類別,序列00~07 和09~10 用于訓(xùn)練,序列08 用于驗(yàn)證,序列11~21 用于在線測試。該數(shù)據(jù)的原始3D 點(diǎn)僅具有3D 坐標(biāo),而沒有顏色信息。

        Fig.11 Semantic segmentation diagram in SemanticKITTI dataset圖11 SemanticKITTI數(shù)據(jù)集中的語義分割圖

        3.1.4 遙感三維數(shù)據(jù)集

        (1)Vaihingen point cloud semantic labeling dataset[91](http://www2.isprs.org/commissions/comm3/wg4/3dsemantic-labeling.html):該數(shù)據(jù)集2014 年由德國漢諾威大學(xué)和達(dá)姆施塔特工業(yè)大學(xué)的研究者共同開發(fā),它是遙感領(lǐng)域中第一個(gè)發(fā)布的基準(zhǔn)數(shù)據(jù)集。該數(shù)據(jù)集是ALS 點(diǎn)云的集合,由Leica ALS50 系統(tǒng)捕獲的10個(gè)條帶組成,該條帶的視場角為45°,在德國Vaihingen 的平均飛行高度為500 m。兩個(gè)相鄰條帶之間平均重疊率為30%左右,中點(diǎn)密度為每平方米6.7 點(diǎn)。目前,該數(shù)據(jù)標(biāo)記的點(diǎn)云被分為9 個(gè)類別作為算法評估標(biāo)準(zhǔn)。

        (2)The US3D Dataset[92](http://www.grss-ieee.org/community/technical-committees/data-fusion/2019-ieeegrss-data-fusion-contest/):如圖12,該數(shù)據(jù)集2019 年由美國約翰·霍普金斯大學(xué)的研究小組開發(fā),包括多視點(diǎn)、多波段衛(wèi)星圖像和兩個(gè)大城市的地面真相、幾何和語義標(biāo)簽的大規(guī)模公共數(shù)據(jù)集,超過320 GB 的數(shù)據(jù)用于訓(xùn)練和測試,覆蓋了佛羅里達(dá)州杰克遜維爾和內(nèi)布拉斯加州奧馬哈的城區(qū)約100 km2,該數(shù)據(jù)集被用于2019 年IEEE GRSS 數(shù)據(jù)融合競賽——大規(guī)模語義三維重建,比賽中的語義類包括建筑物、高架道路和橋梁、高植被、地面、水等。

        Fig.12 Point cloud scene and semantic segmentation diagram in The US3D dataset圖12 The US3D 數(shù)據(jù)集中點(diǎn)云場景和語義分割圖

        (3)WHU-TLS[93](http://3s.whu.edu.cn/ybs/en/benchmark.htm):該數(shù)據(jù)集2020 年由中國武漢大學(xué)、德國慕尼黑工業(yè)大學(xué)、芬蘭大地所、挪威科技大學(xué)以及荷蘭代爾夫特理工大學(xué)的研究小組共同開發(fā)。WHUTLS 是全球最大規(guī)模和最多樣化場景類型的TLS 點(diǎn)云配準(zhǔn)基準(zhǔn)數(shù)據(jù)集,涵蓋了地鐵站、高鐵站、山地、森林、公園、校園、住宅、河岸、文化遺產(chǎn)建筑、地下礦道、隧道等11 種不同的環(huán)境,其中包含115 個(gè)測站、17.4 億個(gè)三維點(diǎn)以及點(diǎn)云之間的真實(shí)轉(zhuǎn)換矩陣。該基準(zhǔn)數(shù)據(jù)集也為鐵路安全運(yùn)營、河流勘測和治理、森林結(jié)構(gòu)評估、文化遺產(chǎn)保護(hù)、滑坡監(jiān)測和地下資產(chǎn)管理等應(yīng)用提供了典型有效數(shù)據(jù)。

        3.2 實(shí)驗(yàn)結(jié)果分析與對比

        為了評估三維語義分割算法的性能,需要借助通用的客觀評價(jià)指標(biāo)來保證算法評價(jià)的公正性。語義分割算法的實(shí)驗(yàn)性能評價(jià)標(biāo)準(zhǔn)主要分為以下幾個(gè)方面:精確度、時(shí)間復(fù)雜度和內(nèi)存損耗(空間復(fù)雜度)。

        3.2.1 精確度

        精確度是其中最為關(guān)鍵的指標(biāo),雖然現(xiàn)有的文獻(xiàn)對語義分割成果采用了許多不同精度衡量的方法,如平均準(zhǔn)確率(mean accuracy,MA)、總體準(zhǔn)確率(overall accuracy,OA)、平均交并比(mean intersection over union,mIoU)和帶權(quán)交并比(frequency weighted intersection over union,F(xiàn)WIoU),但本質(zhì)上它們都是準(zhǔn)確率及交并比(IoU)的變體。在精確度結(jié)果評價(jià)時(shí),一般選取總體準(zhǔn)確率(OA)和均交并比(mIoU)兩種評價(jià)指標(biāo)綜合分析,其中,mIoU 表示數(shù)據(jù)分割的預(yù)測值與其真實(shí)值這兩個(gè)集合的交集和并集之比,是目前語義分割領(lǐng)域使用頻率最高和最常見的標(biāo)準(zhǔn)評價(jià)指標(biāo),其具體計(jì)算方法如式(1)所示。假設(shè)共有k+1 個(gè)類別(包括一個(gè)背景類),記Pij是將i類預(yù)測為j類的點(diǎn)數(shù),則Pii表示真實(shí)值為i,預(yù)測值為i的點(diǎn)數(shù);Pji表示真實(shí)值為j,預(yù)測值為i的點(diǎn)數(shù)。

        為便于對比實(shí)驗(yàn)結(jié)果和說明算法效果,本小節(jié)將按照圖3 和圖6 中的分類基于深度學(xué)習(xí)的三維點(diǎn)云語義分割方法的實(shí)驗(yàn)結(jié)果進(jìn)行分析與對比。表3列舉了在具代表性的三維點(diǎn)云數(shù)據(jù)集上進(jìn)行語義分割的方法的mIoU 實(shí)驗(yàn)結(jié)果對比。主要比較各算法在五大類三維公共數(shù)據(jù)集的評價(jià)指標(biāo)結(jié)果?!啊北硎驹摲椒ㄎ刺峁┫鄳?yīng)的結(jié)果。

        Table 3 Experimental comparison of mIoU for methods of point cloud semantic segmentation表3 點(diǎn)云語義分割方法的mIoU 實(shí)驗(yàn)結(jié)果對比

        從表3 中可以發(fā)現(xiàn),三維公共數(shù)據(jù)集中ShapeNet Part 和S3DIS 這兩個(gè)數(shù)據(jù)集運(yùn)用得最多,ShapeNet Part 是一個(gè)由3D CAD 模型對象表示的豐富注釋的大型形狀存儲庫,關(guān)注于細(xì)粒度的三維物體分割。S3DIS 是一個(gè)多模態(tài)、大規(guī)模的室內(nèi)空間數(shù)據(jù)集,具有實(shí)例級語義和幾何注釋。

        選用ShapeNet Part 數(shù)據(jù)集的算法中,分割效果都很好,mIoU 基本均在80%以上,說明目前已有的算法對細(xì)粒度的三維物體有較好的識別效果,物體分割結(jié)果能夠接近真實(shí)的分割。由于S3DIS 數(shù)據(jù)集的數(shù)據(jù)量龐大,因此大部分算法的分割效果不明顯,mIoU 都普遍較低,其中將點(diǎn)云體素化的VV-NET 網(wǎng)絡(luò)表現(xiàn)突出,該網(wǎng)絡(luò)使用基于內(nèi)核的內(nèi)插變分自動編碼器(VAE)結(jié)構(gòu)對每個(gè)提速中的局部幾何進(jìn)行編碼,同時(shí)利用徑向基函數(shù)(RBF)計(jì)算每個(gè)體素內(nèi)的局部連續(xù)表示以處理點(diǎn)的稀疏分布。此外,將RBF-VAE與group-conv 相結(jié)合發(fā)現(xiàn)該方法比僅使用groupconv 或僅使用RBF-VAE 取得了更好的性能。

        表3 中,SnapNet、SegCloud、PointNet++、GACNet、KPConv、ConvPoint、RandLA-Net 和SPG 等算法均選用了Semantic3D 城市場景數(shù)據(jù)集,這些算法可運(yùn)用在大場景中進(jìn)行語義分割,其中2017 年提出的SPG 網(wǎng)絡(luò)表現(xiàn)突出,在幾億點(diǎn)的場景下,評價(jià)指標(biāo)可達(dá)到73.2%,是目前運(yùn)用于大場景分割中最有效的分割網(wǎng)絡(luò)之一。不難發(fā)現(xiàn),近些年提出的基于優(yōu)化CNN 的算法在各類公共數(shù)據(jù)集上的表現(xiàn)均較為優(yōu)異,進(jìn)一步優(yōu)化卷積,并將其集成到各種優(yōu)秀的網(wǎng)絡(luò)架構(gòu)中,將會是未來研究的一個(gè)熱點(diǎn)方向。

        SemanticKITTI 作為一個(gè)基于汽車LiDAR 的大型戶外場景數(shù)據(jù)集,可運(yùn)用于汽車的無人駕駛中,目前實(shí)現(xiàn)SemanticKITTI 數(shù)據(jù)集語義分割的算法中,RandLA-Net 的表現(xiàn)最為突出。RandLA-Net 網(wǎng)絡(luò)不需要任何前/后處理步驟(如體素化、塊分割或圖形構(gòu)建),能夠直接處理大規(guī)模三維點(diǎn)云,相比于現(xiàn)有的大規(guī)模點(diǎn)云語義分割方法,其分割速率提升近200倍。

        3.2.2 復(fù)雜度

        復(fù)雜度是對模型性能檢測的另一個(gè)有價(jià)值且重要的度量指標(biāo),包括時(shí)間復(fù)雜度和空間復(fù)雜度。隨著語義分割技術(shù)的發(fā)展和數(shù)據(jù)處理能力的提高,該技術(shù)應(yīng)用面更加廣泛,除了運(yùn)用復(fù)雜的網(wǎng)絡(luò)提高算法的分割準(zhǔn)確率外,現(xiàn)實(shí)中的應(yīng)用程序(如行人檢測、自動駕駛等)更需要實(shí)時(shí)高效的分割網(wǎng)絡(luò)。因此,本小節(jié)從時(shí)間復(fù)雜度(運(yùn)行速率)和空間復(fù)雜度(參數(shù)數(shù)量)兩方面考察了部分網(wǎng)絡(luò)的實(shí)時(shí)性。

        表4 中根據(jù)參數(shù)數(shù)量和轉(zhuǎn)發(fā)時(shí)間評估了模型的復(fù)雜度。該實(shí)驗(yàn)對比在1080X GPU 的硬件環(huán)境下進(jìn)行,針對ModelNet40 數(shù)據(jù)集,批次大小設(shè)置為8。對于參數(shù)數(shù)量指標(biāo),ShellNet 優(yōu)于現(xiàn)有的方法,雖然在空間上沒有那么復(fù)雜,但是ShellNet 仍然可以非常有效地收斂到最先進(jìn)的精度。另外,從表4 中不難發(fā)現(xiàn),RGCNN 具有最快的推算時(shí)間和可接受的模型大小,適用于實(shí)時(shí)任務(wù)。為了進(jìn)一步減少模型大小和推斷時(shí)間,在PointNet和DPAM 模型中均嘗試刪除了模型使用的T-net(表4 中以Vanilla 表示),其中DPAM僅在模型精度降低0.5%的情況下,即可實(shí)現(xiàn)更小的模型尺寸和更快的推算時(shí)間。

        Table 4 Time and space complexity analysis of algorithms on ModelNet40 dataset表4 各類算法在ModelNet40 數(shù)據(jù)集上的時(shí)空復(fù)雜度分析

        表5 定量地顯示了不同方法的總時(shí)間和內(nèi)存消耗。該實(shí)驗(yàn)對比在RTX2080Ti GPU 的硬件環(huán)境下進(jìn)行,針對SemanticKITTI 數(shù)據(jù)集。從表5 中可以看出,SPG 網(wǎng)絡(luò)參數(shù)最少,但處理點(diǎn)云的時(shí)間最長,原因是幾何劃分和超圖構(gòu)造步驟繁瑣;PointNet++和Point-CNN 的計(jì)算開銷也很大,主要是由于FPS 的采樣操作;PointNet和KPConv 由于內(nèi)存操作效率低,無法一次通過獲取超大規(guī)模的點(diǎn)云;而RandLA-Net 基于簡單的隨機(jī)抽樣和高效的局部特征聚合器,實(shí)現(xiàn)了用較短的時(shí)間來推斷每個(gè)大規(guī)模點(diǎn)云的語義標(biāo)簽。

        Table 5 Time and space complexity analysis of algorithms on SemanticKITTI dataset表5 各類算法在SemanticKITTI數(shù)據(jù)集上的時(shí)空復(fù)雜度分析

        4 展望

        現(xiàn)有的方法在很大程度上提高了語義分割的精度,但仍存在一定局限性,因此如何解決這些局限性是未來研究的熱點(diǎn),本章基于前面章節(jié)對應(yīng)用深度學(xué)習(xí)技術(shù)解決語義分割問題的研究評述,對語義分割領(lǐng)域未來研究方向進(jìn)行了展望。

        (1)訓(xùn)練數(shù)據(jù)庫和應(yīng)用場景

        基于深度學(xué)習(xí)的語義分割方法需要海量的數(shù)據(jù)庫作為支撐,目前已有的數(shù)據(jù)集并不能滿足語義分割發(fā)展的需求,因此構(gòu)建數(shù)據(jù)量豐富、有效且全面的數(shù)據(jù)集是目前語義分割的首要條件。而且,現(xiàn)有的三維數(shù)據(jù)集大部分局限在室內(nèi)場景以及城市街道場景,對于有標(biāo)注且內(nèi)容豐富的戶外點(diǎn)云場景數(shù)據(jù)集及遙感三維數(shù)據(jù)集相對較少,建立一整套作為基準(zhǔn)點(diǎn)的數(shù)據(jù)集十分重要。另外,SqueezeSeg V2[41]算法為了避免收集和注釋的成本,使用諸如GTA-V 之類的模擬器來創(chuàng)建無限數(shù)量的標(biāo)記的合成數(shù)據(jù),為補(bǔ)充預(yù)訓(xùn)練數(shù)據(jù)集的方法提供了思路,但是這類合成的仿真數(shù)據(jù)仍需解決域遷移的問題。

        (2)序列數(shù)據(jù)集

        三維大規(guī)模數(shù)據(jù)集缺乏的問題同樣影響到了視頻序列分割,目前基于序列的可用數(shù)據(jù)集較少,導(dǎo)致針對視頻數(shù)據(jù)的語義分割方法研究進(jìn)展緩慢。帶有時(shí)間序列的視頻數(shù)據(jù)在語義分割過程中可以利用其時(shí)空序列信息提供高階特征,進(jìn)而提高準(zhǔn)確率和效率。

        (3)全景分割

        全景分割由Kirillov 等人[95]提出,全景分割是將前景和背景分開來分割的,對目標(biāo)區(qū)域(前景對象)做實(shí)例分割,對背景區(qū)域做語義分割。2019 年,Kirillov 等人[96]將分別用于語義分割和實(shí)例分割的FCN 和Mask R-CNN 結(jié)合起來,設(shè)計(jì)了Panoptic FPN,實(shí)驗(yàn)證明Panoptic FPN 對語義分割和實(shí)例分割兩個(gè)任務(wù)都有效,同時(shí)兼具穩(wěn)健性和準(zhǔn)確性。但是在合并過程中,如果沒有足夠的上下文信息,很難確定對象實(shí)例之間的重疊關(guān)系。針對這一問題,Liu 等人[97]提出了一種端到端的遮擋感知網(wǎng)絡(luò)(occlusion aware network,OANet)用于全景分割,該網(wǎng)絡(luò)可有效地預(yù)測單個(gè)網(wǎng)絡(luò)的實(shí)例分割和實(shí)體分割。DeeperLab[98]是一種單鏡頭、自下而上的圖像解析器,該網(wǎng)絡(luò)使用全卷積網(wǎng)絡(luò)生成每像素的語義和實(shí)例預(yù)測,然后通過合并啟發(fā)式算法將這些預(yù)測融合到最終的圖像解析結(jié)果中。雖然上述幾種方法在Cityscapes[99]、COCO Stuff[100]等數(shù)據(jù)集上獲得了較為可觀的精度,但分割過程中仍然需要進(jìn)行復(fù)雜的實(shí)例掩碼預(yù)測(instance mask predictions)或合并啟發(fā)式算法(merging heuristics),很難實(shí)現(xiàn)模型的實(shí)時(shí)性需求。FPSNet[101]的提出有效地解決了這個(gè)問題,該網(wǎng)絡(luò)使用自定義的密集像素分類任務(wù)(為每個(gè)像素分配一個(gè)類標(biāo)簽或一個(gè)實(shí)例id)代替復(fù)雜的全景任務(wù),實(shí)現(xiàn)了分割速度的提升。上述的全景分割操作主要是針對圖像進(jìn)行的,目前對點(diǎn)云數(shù)據(jù)進(jìn)行全景分割的研究很少,如ASIS[67]、JSISNet[68]使用兩個(gè)并行的分支分別進(jìn)行實(shí)例分割和語義分割,然后融合兩個(gè)結(jié)果作為輸出。另外,3D 全景分割數(shù)據(jù)集SemanticKITTI[90]的提出,將高質(zhì)量的全景分割引入機(jī)器人和智能車輛的實(shí)時(shí)應(yīng)用方面邁出了重要一步。全景分割作為計(jì)算視覺一個(gè)新的任務(wù)場景,其在三維數(shù)據(jù)的應(yīng)用前景仍有待挖掘與探索。

        (4)實(shí)時(shí)分割

        目前提出的語義分割網(wǎng)絡(luò)模型在分割精度上已經(jīng)取得了很大的進(jìn)展,卻增加了模型的復(fù)雜度和運(yùn)行速率。隨著自動駕駛、行人檢測和環(huán)境感知等應(yīng)用領(lǐng)域的發(fā)展,對語義分割實(shí)時(shí)性的要求也越來越高。因此,在維持高準(zhǔn)確率的同時(shí),降低模型復(fù)雜度,縮短響應(yīng)時(shí)間,實(shí)現(xiàn)實(shí)時(shí)分割,是未來重要的工作方向。

        (5)遙感領(lǐng)域

        在過去的十年里,深度學(xué)習(xí)推動了遙感影像語義分割的進(jìn)步,但遙感點(diǎn)云語義分割的發(fā)展還相對不太成熟。目前已發(fā)表的計(jì)算機(jī)視覺算法通常在對象類別有限的小區(qū)域數(shù)據(jù)集上進(jìn)行測試,但是對于遙感應(yīng)用,需要具有更復(fù)雜和特定地面對象類別的大面積數(shù)據(jù)。而且,計(jì)算機(jī)視覺算法的精度評價(jià)體系并不完全適用于遙感應(yīng)用,遙感應(yīng)用更關(guān)心特定目標(biāo)的精度。例如:在城市管理監(jiān)測中,對于建筑物語義分割的準(zhǔn)確性至關(guān)重要。隨著三維遙感語義分割應(yīng)用需求的不斷提升,能夠?qū)W習(xí)對象語義特征和分類三維遙感數(shù)據(jù)的算法成為研究者們未來的一個(gè)研究熱點(diǎn)。

        (6)弱監(jiān)督或無監(jiān)督語義分割技術(shù)

        弱監(jiān)督方法使用輕量級的弱監(jiān)督標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,減少了標(biāo)注成本和標(biāo)注時(shí)間,在圖像語義分割中已經(jīng)有了很大的進(jìn)展。目前,三維數(shù)據(jù)庫需求量大,標(biāo)注困難,若弱監(jiān)督或無監(jiān)督的語義分割技術(shù)能夠應(yīng)用到三維點(diǎn)云語義分割中,不僅能解決數(shù)據(jù)問題,而且在提高網(wǎng)絡(luò)模型的精度的同時(shí)實(shí)現(xiàn)速率的提升,將會是未來發(fā)展的趨勢。

        (7)遷移學(xué)習(xí)

        一個(gè)完整的語義分割深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練需要足夠數(shù)量的數(shù)據(jù)集,初始化權(quán)重的調(diào)試以及長時(shí)間的收斂過程。通過繼續(xù)訓(xùn)練過程來微調(diào)預(yù)訓(xùn)練網(wǎng)絡(luò)的權(quán)重是主要的遷移學(xué)習(xí)方法之一,因此為了提高效率,部分學(xué)者會選擇預(yù)先訓(xùn)練的權(quán)重而不是隨機(jī)初始化的權(quán)重。另外,PointNet[5]、PointNet++[17]網(wǎng)絡(luò)的提出為點(diǎn)云語義分割提供了完整的體系結(jié)構(gòu),為實(shí)現(xiàn)遷移學(xué)習(xí)提供了前提條件,PointSIFT[10]是一個(gè)通用模塊,可以集成到各種基于PointNet 的體系結(jié)構(gòu)中以改善3D 形狀表示;DPAM[26]可以插入大多數(shù)現(xiàn)有體系結(jié)構(gòu)中構(gòu)建分層的學(xué)習(xí)體系結(jié)構(gòu);ASR[65]模塊可以輕松集成到現(xiàn)有的深度網(wǎng)絡(luò)中,通過將相鄰點(diǎn)的分?jǐn)?shù)與學(xué)習(xí)的注意力權(quán)重合并在一起,對網(wǎng)絡(luò)產(chǎn)生的分割結(jié)果進(jìn)行后處理,與CRF 的功能類似;Engelmann 等人[102]提出的擴(kuò)張點(diǎn)卷積(dilated point convolutions,DPC)運(yùn)算代替K-最近鄰域方法,以匯總擴(kuò)張的鄰近要素,此操作不僅增加了接收范圍,并且可以輕松地集成到現(xiàn)有的基于聚合的網(wǎng)絡(luò)中。遷移學(xué)習(xí)已在點(diǎn)云語義分割領(lǐng)域得到了廣泛的應(yīng)用,未來對遷移學(xué)習(xí)的研究可以關(guān)注以下幾點(diǎn):①通過半監(jiān)督學(xué)習(xí)減少對標(biāo)注數(shù)據(jù)的依賴,應(yīng)對標(biāo)注數(shù)據(jù)的不對稱性;②使用遷移學(xué)習(xí)做到持續(xù)學(xué)習(xí),讓神經(jīng)網(wǎng)絡(luò)得以保留在舊任務(wù)中所學(xué)到的能力;③使用遷移學(xué)習(xí)來提高模型的穩(wěn)定性和可泛化性等。

        (8)各類技術(shù)的參考性價(jià)值

        從邊緣特征的角度:利用有意義的邊緣特征,并將邊緣特征饋送到點(diǎn)特征中以提供上下文信息,有助于點(diǎn)云語義理解。如:PCCN[29]自適應(yīng)地從邊緣學(xué)習(xí)權(quán)重以融合點(diǎn)特征;KCNet[103]定義點(diǎn)集內(nèi)核和內(nèi)核相關(guān)性以沿邊緣聚合局部特征;Jiang 等人[104]設(shè)計(jì)了一種分層點(diǎn)-邊緣的交互網(wǎng)絡(luò),將每個(gè)點(diǎn)特征與最大池化相對應(yīng)的邊緣特征連接在一起。

        從自動編碼器的角度:自動編碼器(autoencoders,AE)是一種無監(jiān)督的神經(jīng)網(wǎng)絡(luò)模型,目前自動編碼器已被廣泛地應(yīng)用于生成圖像語義分割模型來表示數(shù)據(jù),一些研究者發(fā)現(xiàn),自動編碼器對于不規(guī)則的三維點(diǎn)云同樣適用,并且可在上采樣階段解決點(diǎn)云的稀疏性問題。Zhao 等人[105]基于2D 膠囊網(wǎng)絡(luò)(capsule network,CN)提出了一種無監(jiān)督的自動編碼器3DPointCapsNet,用于處理稀疏3D 點(diǎn)云,同時(shí)保留輸入數(shù)據(jù)的空間排列,并在零件分割中取得了不錯(cuò)的進(jìn)展。

        從零樣本學(xué)習(xí)(zero-shot learning)的角度:零樣本學(xué)習(xí)[106]具有識別訓(xùn)練數(shù)據(jù)集中未觀察到的類別的能力。獲取特征圖后,零樣本學(xué)習(xí)可以將語義嵌入用于諸如對象檢測之類的應(yīng)用程序。在特征融合的方法中,模型提取了點(diǎn)云的局部特征和全局特征,而這些模型可用作零鏡頭學(xué)習(xí)中的特征提取器,這將有助于使用稀缺的數(shù)據(jù)集學(xué)習(xí)權(quán)重。

        從過分割(oversegmentation)的角度:過分割可作為點(diǎn)云語義分割中的一種預(yù)分割算法,其具有降低數(shù)據(jù)量和光精度損失的作用。Landrieu 等人[107]提出了第一個(gè)將三維點(diǎn)云過分割為超點(diǎn)的監(jiān)督學(xué)習(xí)框架,將點(diǎn)云過分割表述為一個(gè)由鄰接圖構(gòu)造的深度度量學(xué)習(xí)問題。利用一種圖形結(jié)構(gòu)的對比損失,學(xué)習(xí)將三維點(diǎn)均勻地嵌入對象中,從而使對象的邊界呈現(xiàn)出高對比度。

        從多形態(tài)融合的角度:目前的語義分割可以將不規(guī)則的點(diǎn)云或者網(wǎng)格數(shù)據(jù)轉(zhuǎn)換為常規(guī)的三維體素網(wǎng)格或者多視圖。也可以直接在點(diǎn)云數(shù)據(jù)上進(jìn)行分割。為了進(jìn)一步利用可用信息,可通過多形態(tài)融合的方式從不同形態(tài)的數(shù)據(jù)中分別提取點(diǎn)云特征。Jaritz等人[108]提出多視圖點(diǎn)網(wǎng)(MVPNet),以聚合二維多視圖圖像的外觀特征和規(guī)范點(diǎn)云空間中的空間幾何特征。

        從RNN 中長短時(shí)間記憶(LSTM)的角度:LSTM具有幾個(gè)語義分割模型所需的屬性,如:可以端到端進(jìn)行微調(diào),并且允許輸入和輸出中的可變長度。二維圖像語義分割中,Li 等人[109]提出的LSTM-CF(long short-term memorized context fusion)網(wǎng)絡(luò),該網(wǎng)絡(luò)利用基于LSTM 的融合層整合豎直方向上的光度和深度通道的上下文信息,完成網(wǎng)絡(luò)端到端的訓(xùn)練和測試。

        從時(shí)空信息的角度:目前已有研究開始從動態(tài)點(diǎn)云中學(xué)習(xí)時(shí)空信息,未來可以嘗試通過時(shí)空信息提高點(diǎn)云語義分割模型的性能。Liu 等人[110]提出MeteorNet,直接對動態(tài)點(diǎn)云進(jìn)行處理,學(xué)習(xí)從時(shí)空相鄰點(diǎn)聚合信息。

        5 結(jié)束語

        本文綜述了基于深度學(xué)習(xí)的點(diǎn)云語義分割的研究現(xiàn)狀,雖然三維深度學(xué)習(xí)是一個(gè)相對較新的領(lǐng)域,但綜述的內(nèi)容顯示了一個(gè)快速增長和高效的群體。雖然三維深度學(xué)習(xí)沒有二維深度學(xué)習(xí)成熟,但不難發(fā)現(xiàn),這一差距正在縮小。本文從語義分割的應(yīng)用和深度學(xué)習(xí)的發(fā)展出發(fā),對三維點(diǎn)云進(jìn)行了詳細(xì)的介紹,將三維深度學(xué)習(xí)語義分割方法分為間接語義分割方法和直接語義分割方法兩大類,從算法特點(diǎn)以及模型結(jié)構(gòu)方面梳理了一些較為突出的方法,并進(jìn)行了較為細(xì)致的分類、介紹和評估。此外,本文回顧了用于網(wǎng)絡(luò)評估的現(xiàn)代基準(zhǔn)數(shù)據(jù)集。最后,本文結(jié)合上述內(nèi)容,對未來工作方向以及該領(lǐng)域一些開放問題提出了一些展望。深度學(xué)習(xí)技術(shù)被證明可有效解決語義分割問題,并且在語義分割領(lǐng)域許多優(yōu)秀的方法也不斷地推進(jìn)。因此,期待在未來幾年各種創(chuàng)新的研究思路不斷涌現(xiàn)。

        猜你喜歡
        語義特征方法
        語言與語義
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        可能是方法不對
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        認(rèn)知范疇模糊與語義模糊
        最新在线观看免费的a站国产| 99re免费在线视频| 久国产精品久久精品国产四虎| 日韩精品人妻一区二区三区蜜桃臀| 懂色av一区二区三区尤物| 国产精品网站在线观看免费传媒| 风流少妇又紧又爽又丰满| 538在线视频| 日本一级片一区二区三区| 亚洲av无码专区亚洲av网站| 国内精品无码一区二区三区| 丁香六月久久| 国产亚洲中文字幕久久网| 国产做无码视频在线观看| 亚洲粉嫩高潮的18p| 99亚洲乱人伦精品| 亚洲中文字幕第15页| 欧美精品videosex极品| 久久久精品久久日韩一区综合| 无码国产精品一区二区免费式芒果| 久久久精品欧美一区二区免费| 全部免费国产潢色一级| 中文字幕一区二区三区| 台湾佬中文网站| 综合三区后入内射国产馆| 欧美xxxxx精品| 中文字幕在线看精品乱码| 国产av麻豆mag剧集| 国产精品偷伦视频免费手机播放| 日韩熟女精品一区二区三区视频| 久久亚洲av成人无码国产最大| 亚洲av电影天堂男人的天堂| 国产午夜亚洲精品一级在线| 成人爽a毛片在线播放| 影视av久久久噜噜噜噜噜三级| 青青视频一区| 91精品国产综合久久久蜜臀九色| 国产在线无码精品无码| 精品国精品无码自拍自在线| 亚洲成A人A∨久在线观看| 偷拍一区二区三区四区视频|