亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于上下文注意力的室外點(diǎn)云語義分割方法

        2023-03-16 10:21:28蘇鳴方胡立坤黃潤(rùn)輝
        計(jì)算機(jī)工程 2023年3期
        關(guān)鍵詞:語義特征融合

        蘇鳴方,胡立坤,黃潤(rùn)輝

        (廣西大學(xué) 電氣工程學(xué)院,南寧 530004)

        0 概述

        3D 點(diǎn)云語義分割作為3D 環(huán)境感知的基礎(chǔ)問題,為點(diǎn)云場(chǎng)景下的每個(gè)點(diǎn)分配語義標(biāo)簽,被廣泛應(yīng)用于自主移動(dòng)機(jī)器人、增強(qiáng)現(xiàn)實(shí)、自動(dòng)駕駛等領(lǐng)域。傳統(tǒng)人工設(shè)計(jì)特征的點(diǎn)云分割方法難以滿足復(fù)雜場(chǎng)景下室外點(diǎn)云數(shù)據(jù)的處理需求。隨著計(jì)算機(jī)性能的提升和神經(jīng)網(wǎng)絡(luò)技術(shù)的發(fā)展,傳統(tǒng)分割方法逐漸被以數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)方法取代。

        點(diǎn)云非柵格結(jié)構(gòu)具有稀疏性、無序性等特點(diǎn),其處理方式是多樣的。根據(jù)點(diǎn)云處理方式的不同,基于深度學(xué)習(xí)的點(diǎn)云語義分割方法可分為基于投影、基于體素和基于直接點(diǎn)的方法?;谕队暗狞c(diǎn)云語義分割方法[1-2]將點(diǎn)云轉(zhuǎn)換為圖像,利用成熟的圖像語義分割方法進(jìn)行分割后重映射到點(diǎn)云空間,降低了3D 點(diǎn)云處理的復(fù)雜度?;隗w素的點(diǎn)云語義分割方法[3-5]將點(diǎn)云轉(zhuǎn)化為體素,利用3D 卷積進(jìn)行分割,保留了點(diǎn)云的3D 幾何結(jié)構(gòu)。上述兩類方法能夠有效解決點(diǎn)云非結(jié)構(gòu)化的問題,但在轉(zhuǎn)換過程中造成點(diǎn)云結(jié)構(gòu)信息的損失。為直接處理點(diǎn)云獲取的原始高分辨率特征,PointNet[6]直接利用共享感知機(jī)捕獲逐點(diǎn)特征,通過最大池化獲取全局特征,然而,該方法缺乏對(duì)局部細(xì)節(jié)的描述。為捕獲局部特征的依賴關(guān)系,研究人員設(shè)計(jì)不同的局部特征提取模塊以捕獲局部依賴關(guān)系。PointNet++[7]采用分層擴(kuò)大感受野聚合局部特征。KPConv[8]設(shè)計(jì)一種剛性和可變形的類網(wǎng)格卷積算子,通過內(nèi)核點(diǎn)權(quán)重卷積聚合球形鄰域特征。文獻(xiàn)[9]引入循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)對(duì)上下文信息進(jìn)行編碼。文獻(xiàn)[10]設(shè)計(jì)多尺度特征融合模塊擴(kuò)大局部感受野。文獻(xiàn)[11]將分組注意力變換與多層感知機(jī)(Multi-Layer Perceptron,MLP)共同作用于局部特征的提取,提高點(diǎn)云分類分割的準(zhǔn)確率。文獻(xiàn)[12]設(shè)計(jì)通道注意力和空間注意力機(jī)制,基于自適應(yīng)集成的局部和全局依賴關(guān)系關(guān)注不顯著的對(duì)象特征。文獻(xiàn)[13]設(shè)計(jì)尺度和通道注意力選擇單元,結(jié)合語義和尺度上下文信息,通過特征金字塔進(jìn)行分割。由于以上方法主要局限于復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),且難以一次性處理大量點(diǎn)云,因此只適用于小規(guī)模的室內(nèi)場(chǎng)景,無法直接擴(kuò)展到大規(guī)模的室外點(diǎn)云分割領(lǐng)域。

        針對(duì)大規(guī)模室外場(chǎng)景,SPG[14]將點(diǎn)云均勻分割后建立超點(diǎn)圖,利用圖卷積網(wǎng)絡(luò)提取超點(diǎn)圖中的上下文信息,但分割效率較低,只適用于離線點(diǎn)云分析。RandLA-Net[15]通過隨機(jī)點(diǎn)采樣(Random Sampling,RS)能解決主流最遠(yuǎn)點(diǎn)采樣方法處理大規(guī)模點(diǎn)云時(shí)計(jì)算成本昂貴的問題,并設(shè)計(jì)局部特征聚合(Local Feature Aggregation,LFA)模塊,以彌補(bǔ)隨機(jī)點(diǎn)采樣時(shí)關(guān)鍵點(diǎn)信息的丟失,但缺乏對(duì)多尺度上下文信息的利用。文獻(xiàn)[16]在RandLA-Net 的基礎(chǔ)上結(jié)合不同尺度上下文信息,并利用圖卷積網(wǎng)絡(luò)處理全局特征,然而未對(duì)淺層特征信息進(jìn)行篩選。以上方法未對(duì)不同特征通道和點(diǎn)分配不同的注意力權(quán)重,缺乏對(duì)淺層細(xì)粒度信息的捕獲。

        本文提出一種基于上下文注意力的點(diǎn)云語義分割方法CAF-Net,在不同尺度間的上下文信息中選擇性地聚合局部和全局特征,主要包括雙向上下文注意力融合(Bidirectional Contextual Attention Fusion,BCAF)和上下文編碼-通道自注意力(Contextual Encoding-Channel Self-Attention,CE-CSA)兩個(gè)模塊。BCAF 模塊分別結(jié)合淺層特征和高層語義特征生成注意力權(quán)重,逐層融合鄰近尺度特征的上下文信息,CE-CSA 模塊基于多尺度特征編碼全局信息,采用通道自注意力機(jī)制建立全局特征通道的相互依賴關(guān)系,避免了特征的冗余,同時(shí)提高點(diǎn)云語義分割精度。

        1 本文方法

        1.1 網(wǎng)絡(luò)結(jié)構(gòu)

        本文提出基于上下文注意力的點(diǎn)云語義分割網(wǎng)絡(luò)CAF-Net,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。

        圖1 CAF-Net 網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of CAF-Net network

        本文方法以RandLA-Net 為主干網(wǎng)絡(luò),主要采用編碼-解碼結(jié)構(gòu)。其中,編碼器通過隨機(jī)點(diǎn)采樣減小點(diǎn)的規(guī)模,以實(shí)現(xiàn)分層聚合局部特征的目的。為彌補(bǔ)隨機(jī)點(diǎn)采樣造成數(shù)據(jù)點(diǎn)信息丟失的不足,本文通過局部特征聚合[15]模塊編碼數(shù)據(jù)點(diǎn)與對(duì)應(yīng)鄰近點(diǎn)的空間特征。解碼器利用最近鄰插值(Nearest Interpolation,NI)上采樣方法和MLP 逐步恢復(fù)原始分辨率的點(diǎn)云特征,并融合低層特征與高層特征,以改善模型效果。然而,RandLA-Net 網(wǎng)絡(luò)未利用多尺度特征間的上下文信息對(duì)底層信息進(jìn)行篩選,只是在解碼過程中簡(jiǎn)單地將編碼特征與上采樣特征相結(jié)合,容易造成淺層噪聲信息對(duì)高層語義信息的干擾,從而影響語義分割結(jié)果。

        雙向上下文注意力融合模塊基于鄰近淺層特征,通過前向注意力融合(Forward Attention Fusion,F(xiàn)AF)組件生成注意力權(quán)重,逐層融合相鄰尺度特征,并將融合后的特征傳入到下一個(gè)融合單元,反向注意力融合(BAF)組件進(jìn)一步依賴高層語義特征進(jìn)行逐層反向融合,最終有效地融合多尺度特征,融合單元如圖1 中虛線框所示。CE-CSA 模塊結(jié)合不同尺度特征編碼全局上下文信息,設(shè)計(jì)通道自注意力機(jī)制學(xué)習(xí)全局信息,輸出特征通過上采樣與BCAF模塊特征逐層融合,最后利用全連接層(FC)為每個(gè)點(diǎn)分配語義標(biāo)簽。

        1.2 雙向上下文注意力融合模塊

        由于室外點(diǎn)云范圍廣且物體尺度復(fù)雜多樣,因此需要融合多尺度特征以擴(kuò)大模型的感受野,從而保留更多的局部細(xì)粒度信息。為此,本文設(shè)計(jì)鄰近尺度的上下文注意力融合模塊,考慮到不同尺度特征間的差異,通過對(duì)相鄰尺度特征進(jìn)行注意力權(quán)重的設(shè)計(jì),有效地融合淺層局部結(jié)構(gòu)信息和高層語義上下文信息。雙向上下文注意力融合模塊結(jié)構(gòu)如圖2所示。

        圖2 雙向上下文注意力融合模塊結(jié)構(gòu)Fig.2 Structure of bidirectional contextual attention fusion module

        BCAF 模塊主要包含F(xiàn)AF 組件和BAF 組件。FAF 組件結(jié)構(gòu)如圖2(a)所示,通過隨機(jī)采樣和MLP將淺層特征與相鄰高層特征對(duì)齊,并通過Sigmoid 函數(shù)生成前向注意力權(quán)重,定義如式(1)所示:

        其中:Fl為第l層的特征,F(xiàn)l∈RNl×Dl,l∈(1,2,3),Nl和Dl分別為第l層的點(diǎn)數(shù)和特征維度;Wf為前向注意力權(quán)重;RS(·)為隨機(jī)采樣。

        將得到的前向注意力權(quán)重與鄰近高層特征逐元素相乘,并通過殘差連接得到最終前向注意力融合后的特征,如式(2)所示:

        其中:⊕為逐元素相加;?為逐元素相乘;Ff為前向融合特征。

        BAF 組件結(jié)構(gòu)如圖2(b)所示,其輸入的是前向注意力融合后已經(jīng)保留了部分淺層細(xì)節(jié)的特征。反向注意力融合是結(jié)合相對(duì)高級(jí)的語義信息,通過對(duì)輸入特征進(jìn)行選擇,在捕獲淺層細(xì)粒度特征的同時(shí),將高層語義信息融入到點(diǎn)的分類任務(wù)中,提高語義分割的準(zhǔn)確率。反向注意力融合的流程主要是通過最近鄰插值和MLP 將高層特征與鄰近淺層特征對(duì)齊,利用Sigmoid 函數(shù)為每個(gè)點(diǎn)生成反向注意力權(quán)重,并通過殘差連接盡可能地保留鄰近尺度中的淺層特征,得到反向注意力融合后的特征。具體流程如式(3)所示:

        1.3 上下文編碼-通道自注意力模塊

        文獻(xiàn)[17-18]通過編碼單層特征圖構(gòu)造全局特征描述子,以捕獲全局上下文信息,但是缺乏對(duì)多尺度特征的利用。為此,本文設(shè)計(jì)CE-CSA 模塊,主要由上下文編碼(CE)和通道自注意力(CSA)組件組成。CE 組件基于多尺度特征聚合全局上下文信息,CSA 組件結(jié)合全局依賴為通道分配不同權(quán)重,增強(qiáng)特定通道的可分辨性。

        1.3.1 上下文編碼組件

        上下文編碼組件結(jié)構(gòu)如圖3 所示。本文設(shè)計(jì)以高層特征維度融合為主的前向采樣編碼(FSE)和以淺層特征為主的反向插值編碼(BIE)兩種多尺度上下文聚合方式。前向采樣編碼是基于最高層特征圖進(jìn)行最大池化,得到全局信息特征,再通過維度復(fù)制與多尺度特征連接,從而得到全局上下文信息。反向插值編碼側(cè)重于低層特征,通過第一層特征圖最大池化得到全局特征,并與多尺度特征連接。

        圖3 上下文編碼組件結(jié)構(gòu)Fig.3 Structure of contexual encoding components

        由于FSE 可以有效融合高層語義信息進(jìn)行編碼,在插值過程中BIE 是復(fù)制鄰近點(diǎn)的特征,缺乏對(duì)高層語義信息的利用,因此本文最終選用FSE進(jìn)行全局上下文編碼,并且為減少特征冗余和提高編碼效率,選用三個(gè)鄰近尺度特征圖進(jìn)行融合。

        1.3.2 通道自注意力組件

        針對(duì)點(diǎn)云無序造成數(shù)據(jù)點(diǎn)相互關(guān)系編碼的不確定性,自注意力機(jī)制對(duì)全局特征的建模和數(shù)據(jù)點(diǎn)相關(guān)性的挖掘有良好的效果[19]。但是,自注意力機(jī)制只適用于小范圍點(diǎn)云,難以直接拓展到大規(guī)模點(diǎn)云,其原因?yàn)榇笠?guī)模點(diǎn)云的N×N點(diǎn)注意力圖會(huì)占用大量的計(jì)算資源與內(nèi)存。本文設(shè)計(jì)通道自注意力組件,其結(jié)構(gòu)如圖4 所示。通過生成特征維度為D×D的通道注意力圖,使網(wǎng)絡(luò)關(guān)注有意義的通道并避免大量的計(jì)算,此外,采用學(xué)習(xí)多尺度輸入特征和自注意力特征之間的偏差取代學(xué)習(xí)整體自注意力特征,使網(wǎng)絡(luò)更專注于偏差的學(xué)習(xí),從而得到更關(guān)鍵的全局特征。

        圖4 通道自注意力組件結(jié)構(gòu)Fig.4 Structure of channel self-attention component

        通道自注意力組件將CE 組件編碼后的多尺度全局上下文特征FCE作為輸入,經(jīng)MLP 線性變換得到查詢張量Q∈RN×D、關(guān)鍵張量K∈RN×D和值張量V∈RN×D矩陣,如式(4)所示:

        其中:Wq∈RD×D、Wk∈RD×D和Wv∈RD×D為對(duì)應(yīng)的權(quán)重參數(shù);×為矩陣乘法。

        通過關(guān)鍵張量矩陣的轉(zhuǎn)置與查詢張量矩陣相乘以獲得注意力權(quán)重,并進(jìn)行Softmax 歸一化,得到歸一化注意力圖矩陣FSoftmax,表示如式(5)所示:

        值張量矩陣與歸一化注意力圖矩陣進(jìn)行矩陣乘法得到通道自注意力特征,學(xué)習(xí)多尺度輸入特征和自注意力特征之間的偏移量,最終得到輸出特征FCSA,關(guān)注特征之間的語義聯(lián)系,提高特征的可分辨性。由于維度D遠(yuǎn)小于點(diǎn)數(shù)N,因此矩陣乘法可減少大量?jī)?nèi)存,具體定義如式(6)所示:

        2 實(shí)驗(yàn)與結(jié)果分析

        為驗(yàn)證本文所提方法的有效性,本文在SemanticKITTI 和Semantic3D 大規(guī)模室外場(chǎng)景數(shù)據(jù)集上進(jìn)行定量對(duì)比驗(yàn)證。此外,在SemanticKITTI 數(shù)據(jù)集上進(jìn)行不同模塊的消融實(shí)驗(yàn)以證明模塊的有效性,進(jìn)一步探究BCAF 模塊個(gè)數(shù)對(duì)網(wǎng)絡(luò)性能的影響,并驗(yàn)證前向采樣編碼組件和通道自注意力組件同時(shí)作用的有效性。

        2.1 數(shù)據(jù)集

        SemanticKITTI[20]數(shù)據(jù)集由機(jī)載激光掃描系統(tǒng)獲得,包含德國(guó)卡爾斯魯厄附近的市內(nèi)交通、居民區(qū)、高速公路場(chǎng)景和鄉(xiāng)村道路場(chǎng)景,由22 個(gè)點(diǎn)云序列和45.49 億個(gè)點(diǎn)組成,序列00~序列10 用于訓(xùn)練,共23 201 幀,序列11~序列21 用于測(cè)試,共20 351 幀。數(shù)據(jù)集共有28 個(gè)類別,官方只評(píng)估19 類。原始輸入只有3D 坐標(biāo)和強(qiáng)度,沒有顏色信息。

        Semantic3D[21]數(shù)據(jù)集由固定掃描儀獲得,包含集市廣場(chǎng)、農(nóng)場(chǎng)、運(yùn)動(dòng)場(chǎng)、城堡和市政廳場(chǎng)景,由15 個(gè)訓(xùn)練集和15 個(gè)測(cè)試集組成,共超過40 億個(gè)點(diǎn),被手動(dòng)標(biāo)記為8 個(gè)語義類。原始輸入包含3D 坐標(biāo)、強(qiáng)度、RGB 顏色信息。

        2.2 實(shí)驗(yàn)環(huán)境與評(píng)價(jià)指標(biāo)

        本文提出的網(wǎng)絡(luò)在64 位Ubuntu18.04 操作系統(tǒng)、Intel?Xeon?CPU E5-2680 v4@2.40 GHz 三核處理器、128 GB 的RAM、GeForce RTX 3090 GPU 服務(wù)器上,基于Tensorflow 框架進(jìn)行訓(xùn)練,批大小設(shè)置為6,訓(xùn)練次數(shù)設(shè)置為100,損失函數(shù)選用交叉熵函數(shù),優(yōu)化器選用Adam 算法,初始學(xué)習(xí)率設(shè)置為0.01,每個(gè)迭代次數(shù)的學(xué)習(xí)率衰減5%。

        語義分割性能采用總體準(zhǔn)確度(OOA)和平均交并 比(mean Intersection over Union,mIoU)進(jìn)行評(píng)估,如式(7)和式(8)所示:

        其中:pij表示假陰性;pii表示真陽性;pji表示假陽性;N表示標(biāo)簽類別的數(shù)量。

        2.3 結(jié)果分析

        2.3.1 對(duì)比實(shí)驗(yàn)

        本文在SemanticKITTI 和Semantic3D 兩個(gè)室外點(diǎn)云數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn),并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。

        1)在SemanticKITTI 數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)

        在SemanticKITTI 測(cè)試集上不同方法的實(shí)驗(yàn)結(jié)果如表1 所示。從表1 可以看出:本文提出的CAF-Net 相較于主流基于投影的方法RangeNet53++的mIoU 提高了2.8 個(gè)百分點(diǎn),相較于基礎(chǔ)網(wǎng)絡(luò)RandLA-Net[15]的mIoU 提高了1.1 個(gè)百分點(diǎn),尤其在行人、自行車場(chǎng)景下的IoU 分別提高了3 和6.9 個(gè)百分點(diǎn),其原因?yàn)镃AF-Net 可以結(jié)合上下文注意力機(jī)制,有效地挖掘局部細(xì)粒度特征,并融合局部與全局多尺度特征。

        表1 在SemanticKITTI 測(cè)試集上不同方法的實(shí)驗(yàn)結(jié)果對(duì)比Table 1 Experimental results comparison among different methods on SemanticKITTI testset %

        在SemanticKITTI 驗(yàn)證集上不同網(wǎng)絡(luò)的可視化效果對(duì)比如圖5 所示(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML 版)。從圖5 可以看出:RandLA-Net 容易混淆一些相似物體(如柵欄和植被),并且不能準(zhǔn)確地識(shí)別小目標(biāo)(如自行車和其他交通工具),而CAF-Net 能有效利用不同尺度間的層次特征,并區(qū)分相似目標(biāo),同時(shí)緩解了小目標(biāo)特征在下采樣時(shí)的信息丟失問題,對(duì)小目標(biāo)物體具有較優(yōu)的識(shí)別效果。

        圖5 在SemanticKITTI 驗(yàn)證集上不同方法的可視化效果Fig.5 Visualization effect comparison among different methods on SemanticKITTI verification set

        2)在Semantic3D 數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)

        在reduced-8 測(cè)試集上不同方法的對(duì)比結(jié)果如表2 所示。CAF-Net 的實(shí)驗(yàn)結(jié)果均優(yōu)于基于體素的方法[27-28],其原因?yàn)轶w素化會(huì)丟失大量的空間位置信息,而相較于其他基于點(diǎn)的方法,CAF-Net 在mIoU 和OA 方面都表現(xiàn)出優(yōu)異的效果,并且在人造地形、自然場(chǎng)景、建筑物和雜亂場(chǎng)景四個(gè)類別的IoU中取得較優(yōu)的實(shí)驗(yàn)結(jié)果。

        表2 在Semantic3D reduced-8 測(cè)試集上不同方法的實(shí)驗(yàn)結(jié)果Table 2 Experimental results comparison among different methods on Semantic3D reduced-8 testset %

        在 Semantic3D 數(shù)據(jù)集上 RandLA-Net 與CAF-Net 方法的部分可視化結(jié)果如圖6 所示(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML 版),其中矩形框表示相似物體的識(shí)別,橢圓框表示地面停車線的識(shí)別。從第一行castleblatten_station1 場(chǎng)景中的可視化結(jié)果可以看出:CAF-Net 能夠準(zhǔn)確地識(shí)別建筑物和人造物體,可以較準(zhǔn)確地識(shí)別相似物體。從第三行sg27_station10-reduced 場(chǎng)景中的可視化結(jié)果可以看出:RandLA-Net 未識(shí)別出停車線,而CAF-Net 能準(zhǔn)確地識(shí)別停車線。

        圖6 RandLA-Net 與CAF-Net 方法的部分可視化結(jié)果Fig.6 Partial visualization results of RandLA-Net and CAF-Net methods

        2.3.2 CAF-Net 的模塊消融實(shí)驗(yàn)

        為了定量評(píng)估本文所提的BCAF 和CE-CSA兩個(gè)模塊的有效性,本文對(duì)這些模塊的不同組合進(jìn)行消融實(shí)驗(yàn),所有實(shí)驗(yàn)均在SemanticKITTI 數(shù)據(jù)集上進(jìn)行訓(xùn)練和驗(yàn)證。

        本文分析了FAF、BAF 和CE-CSA 模塊對(duì)分割性能的影響。CAF-Net模塊的消融實(shí)驗(yàn)結(jié)果如表3所示。FLOPs 表示模型的計(jì)算量,即模型復(fù)雜度。基線方法是RandLA-Net。FAF通過對(duì)淺層特征進(jìn)行篩選,以關(guān)注局部細(xì)節(jié),RandLA-Net+FAF相較于RandLA-Net的mIoU 提高了0.85 個(gè)百分點(diǎn)。BAF 組件結(jié)合相對(duì)高級(jí)的語義特征進(jìn)行注意力融合,有助于對(duì)相似物體的區(qū)分,RandLA-Net+BAF 相較于RandLA-Net的mIoU 提高了0.91 個(gè)百分點(diǎn)。本文將BAF 與FAF 相結(jié)合實(shí)現(xiàn)淺層細(xì)節(jié)與高層語義特征的有效融合,因此,RandLANet+BAF+FAF 相較于RandLA-Net 的mIoU 提 高1.22 個(gè)百分點(diǎn)。為了更好地實(shí)現(xiàn)特征之間的融合,CE-CSA 模塊通過上下文編碼和自注意力機(jī)制豐富了語義信息,RandLA-Net+CE-CSA 相較于RandLA-Net的mIoU 提高0.31 個(gè)百分點(diǎn)。本文將三個(gè)模塊綜合得到的RandLA-Net+BAF+FAF+CE-CSA(本文所提的CAF-Net)的mIoU為57.98%。

        表3 CAF-Net 模塊的消融實(shí)驗(yàn)結(jié)果Table 3 Ablation experiment results of CAF-Net module

        2.3.3 雙向上下文注意力融合組件個(gè)數(shù)實(shí)驗(yàn)

        本文進(jìn)一步探究FAF 組件和BAF 組件的個(gè)數(shù)對(duì)網(wǎng)絡(luò)性能的影響。雙向上下文注意力融合組件個(gè)數(shù)實(shí)驗(yàn)結(jié)果如表4所示?;€網(wǎng)絡(luò)RandLA-Net的mIoU 為56.67%。當(dāng)加入兩組融合組件時(shí),RandLA-Net受限于網(wǎng)絡(luò)層數(shù)較少,對(duì)局部特征的聚合和不同尺度的特征融合還不夠充分,相比RandLA-Net的mIoU 僅提高了0.59 個(gè)百分點(diǎn)。當(dāng)加入四組融合組件時(shí),RandLANet+4×(FAF+BAF)網(wǎng)絡(luò)的參數(shù)量增加,推理時(shí)間也有一定的延長(zhǎng),而mIoU 相較于RandLA-Net僅提高了0.42 個(gè)百分點(diǎn)。當(dāng)加入三組融合組件時(shí),RandLANet+3×(FAF+BAF)分割精度取得最優(yōu)的效果,mIoU 為57.89%,而參數(shù)量和模型復(fù)雜度僅有小幅度增加。

        表4 雙向上下文注意力融合組件個(gè)數(shù)的實(shí)驗(yàn)結(jié)果Table 4 Experimental results of the number of bidirectional contextual attention fusion components

        2.3.4 CE-CSA 模塊組件的消融實(shí)驗(yàn)

        本文進(jìn)一步探究CE 組件與CSA 組件分別對(duì)網(wǎng)絡(luò)精度的影響,CE-CSA 模塊組件的消融實(shí)驗(yàn)結(jié)果如表5 所示。

        表5 CE-CSA 模塊組件的消融實(shí)驗(yàn)結(jié)果Table 5 Ablation experiment results of CE-CSA module component

        為了保證唯一變量,基線方法是RandLA-Net+3×(FAF+BAF)。當(dāng)單獨(dú)選用FSE 和BIE 組件編碼全局多尺度信息時(shí),相較于基線方法的mIoU 下降0.31和0.37 個(gè)百分點(diǎn)。采用CSA 組件分別關(guān)注原始特征、淺層特征和高層語義特征,記作CSA1、CSA2、CSA3,其mIoU 相比基線方法下降0.63、0.8、1.36 個(gè)百分點(diǎn)。如果將所有尺度特征圖都經(jīng)過通道自注意力關(guān)注不同通道特征,會(huì)大幅增大模型的復(fù)雜度,降低推理速度,同時(shí)產(chǎn)生大量參數(shù)。多個(gè)CSA 組件方法與基線方法相比的mIoU 下降了2.19 個(gè)百分點(diǎn)。BIE 組件在編碼時(shí)淺層特征權(quán)重大,沒有結(jié)合高層語義信息,BIE+CSA 方法相較于單獨(dú)BIE 方法,在一定程度上提高精度,但是會(huì)引入一定噪聲。BIE+CSA 方法相較于基線方法下降了0.3 個(gè)百分點(diǎn),而FSE+CSA 方法能夠更充分地捕獲有價(jià)值的高層語義信息,因此FSE+CSA 方法具有較優(yōu)的效果,mIoU為57.98%,且未引入大量的參數(shù)和延長(zhǎng)運(yùn)行時(shí)間,說明只有同時(shí)利用FSE 和CSA 才能對(duì)網(wǎng)絡(luò)的精度起到提升的效果。

        3 結(jié)束語

        本文提出基于上下文注意力的室外點(diǎn)云分割方法CAF-Net,該方法主要由雙通道上下文注意力融合模塊和上下文編碼-通道自注意力模塊組成。雙通道上下文注意力融合模塊通過雙通道注意力融合淺層特征和高層語義特征,以捕獲局部上下文特征,上下文編碼-通道自注意力模塊通過編碼多尺度特征以捕獲全局上下文信息,并設(shè)計(jì)通道自注意力機(jī)制關(guān)注特征通道之間的相關(guān)性。實(shí)驗(yàn)結(jié)果表明,CAF-Net 能有效提高整體分割精度,且對(duì)小目標(biāo)具有較優(yōu)的分割效果。由于在自動(dòng)駕駛等實(shí)際應(yīng)用中通常對(duì)時(shí)序點(diǎn)云進(jìn)行語義分割,因此下一步將對(duì)幀間語義一致性與輕量化分割方法進(jìn)行研究,以降低模型復(fù)雜度,實(shí)現(xiàn)更準(zhǔn)確且可移植的室外大場(chǎng)景點(diǎn)云語義分割。

        猜你喜歡
        語義特征融合
        村企黨建聯(lián)建融合共贏
        融合菜
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        《融合》
        語言與語義
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語義模糊
        最近亚洲精品中文字幕| 伊人久久大香线蕉综合影院首页 | 国产精品狼人久久影院软件介绍| 亚洲熟妇久久精品| 少妇被粗大的猛进69视频| 中文亚洲AV片在线观看无码 | 国产精品一区二区三区在线免费| 亚洲av午夜国产精品无码中文字 | 亚洲国产精品综合福利专区 | 久久99热只有频精品8国语| 伊人色综合久久天天五月婷| 久久久久无码国产精品不卡 | 婷婷午夜天| 天啦噜国产精品亚洲精品| 亚洲女人毛茸茸的视频| 亚洲自偷精品视频自拍| 免费xxx在线观看| 亚洲国产剧情在线精品视| 国产三级国产精品国产专播| а天堂8中文最新版在线官网| 免费无码国产v片在线观看| 青草青草久热精品视频国产4| 风流熟女一区二区三区| 国产日产精品一区二区三区四区的特点 | 精品综合久久久久久888蜜芽| 3d动漫精品啪啪一区二区下载| 亚洲av中文aⅴ无码av不卡| 亚洲一区二区国产一区| 亚洲中文字幕久久无码精品| 高清国产日韩欧美| 91精品国产综合久久久蜜臀九色| 国产精品亚洲专区无码不卡| 国产亚洲一区二区手机在线观看| 伊人狠狠色j香婷婷综合| 青青草视频在线观看入口| 久久精品国产精油按摩| 在线视频 亚洲精品| 亚洲第一页在线免费观看| 日韩一区二区三区无码影院 | 国产又大大紧一区二区三区| 久久久久亚洲av片无码|