亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Light-BotNet 的激光點云分類研究*

        2022-07-22 06:32:48雷根華張志勇
        電子技術(shù)應(yīng)用 2022年6期
        關(guān)鍵詞:類別框架卷積

        雷根華 ,王 蕾 ,2,張志勇

        (1.東華理工大學(xué) 信息工程學(xué)院,江西 南昌 330013;2.江西省核地學(xué)數(shù)據(jù)科學(xué)與系統(tǒng)工程技術(shù)研究中心,江西 南昌 330013)

        0 引言

        大多的深度學(xué)習(xí)點云分類方法都是采用卷積層與池化層交替實現(xiàn)的,卷積層中的神經(jīng)元僅與上一層的部分區(qū)域相連接,學(xué)習(xí)局部特征,在點云數(shù)據(jù)特征提取時容易丟失部分特征,從而導(dǎo)致分類精度下降等問題。而Transform 的提出則帶來了一種新的思路,主要利用自我注意機制提取內(nèi)在特征[1-3]。Transform 最初應(yīng)用在自然語言處理(NLP)領(lǐng)域,并且取得了重大的成功,受到NLP中Transformer 功能的啟發(fā),研究人員開始將Transformer應(yīng)用在計算機視覺(CV)任務(wù)。研究發(fā)現(xiàn)CNN 曾是視覺應(yīng)用的基本組件[4-5],但Transformer 正在顯示其作為CNN替代品的能力。Chen 等人[6]訓(xùn)練序列變換器,以自回歸預(yù)測像素,并在圖像分類任務(wù)上與CNN 取得競爭性結(jié)果。卷積操作擅長提取細節(jié),但是在大數(shù)據(jù)量的大場景三維點云數(shù)據(jù)分類任務(wù)中,要掌握三維點云的全局信息往往需要堆疊很多個卷積層,而Transform 中的注意力善于把握整體信息,但又需要大量的數(shù)據(jù)進行訓(xùn)練。

        BotNet[7]網(wǎng)絡(luò)是伯克利與谷歌的研究人員在Convolution+Transformer 組合方面一個探索,它采用混合方式同時利用了CNN 的特征提取能力、Transformer 的內(nèi)容自注意力與位置自注意力機制,取得了優(yōu)于純CNN 或者自注意力的性能,在ImageNet 中取得了84.7%的精度。將CNN與Transform 結(jié)合起來,達到取長補短的效果。BoTNet 與ResNet[8]網(wǎng)絡(luò)框架的不同之處在于:ResNet[8]框架在最后3 個bottleneck blocks 中使用的是3×3 的空間卷積,而BotNet 框架則是采用全局自我注意替代空間卷積。帶自注意力模塊的Bottleneck 模塊可以視作Transformer 模塊。

        本文通過改進方法[7],使用一種基于點的特征圖像生成方法,將框架應(yīng)用到三維點云任務(wù)中。對于特征提取方法中點云中的每個點,本文利用其相鄰點的局部特征組成點云特征圖像,然后使用點云特征圖像輸入到基于CNN 的Transform 的高效神經(jīng)網(wǎng)絡(luò)Light-BotNet 網(wǎng)絡(luò)模型并使用該模型做最后的激光點云分類任務(wù)。

        1 框架

        1.1 BotNet 網(wǎng)絡(luò)框架

        BotNet 網(wǎng)絡(luò)框架是一種基于Transformer 的架構(gòu),同時使用卷積和自我注意的混合模型,利用CNN+Transformer 的方式提出一種Bottleneck Transformer 來代替ResNet Bottleneck,即僅在ResNet 框架的最后3 個bottleneck blocks 中使用全局多頭自注意力 (Multi-Head Self-Attention,MHSA)替換3×3 空間卷積。該方法思想簡單但是功能強大。由于引入Self-Attention 會導(dǎo)致計算量大與內(nèi)存占用過多,BotNet 在ResNet 框架的最后3 個bottleneck blocks 添加自注意力模塊。每個bottleneck 包含一個3×3 卷積,采用MHSA 替換該卷積,第一個Bottleneck 中的3×3 卷積stride=2,而MHSA 模塊并不支持stride 操作,故而BoTNet 采用2×2 均值池化進行下采樣。傳統(tǒng)的Transformer 方法通常使用位置編碼,考慮了不同位置特征之間的相對距離,從而能夠有效地將對象之間的信息與位置感知關(guān)聯(lián)起來,更適合視覺任務(wù)[9-11]。BotNet 采用了文獻[9]、[12]中的2D 相對位置自我注意機制。類似于transformer block[3]或None Local block[13]方法。

        1.2 基于Light-BotNet 的大場景點云分類框架

        為了有效地從三維點云中挖掘有用的信息,采用了CNN 和Transform 結(jié)合的BotNet 框架,首先,分別從三維點云中提取這些特征,將得到的特征計算成點云的特征圖像[14];然后將它們輸入Light-BotNet 網(wǎng)絡(luò)框架,Light-BotNet 網(wǎng)絡(luò)框架從點云特征圖像中選擇有用的信息來對三維點云進行分類。

        整體的大場景點云分類網(wǎng)絡(luò)框架如圖1 所示。首先是在三維和二維兩個不同的層面上進行點云的特征提取,得到大小[N,32,32,1]的點云特征圖像,輸入Light-BotNet 網(wǎng)絡(luò)框架,可以看出總共有4 個網(wǎng)絡(luò)層塊(block),每一個block 的大小為[1,3,1,1],在block_1 中Conv 參數(shù)為3×3 的卷積核和Channel 大小為64 的卷積層,block_2 的Conv 參數(shù)為3×3 和Channel 為64 的卷積層,block_3 中Conv 的參數(shù)為3×3 的卷積核和Channel 為64的卷積層,block_4 的Conv 參數(shù)為3×3 和Channel 為128的卷積層,通過這些卷積層可以提取點云特征圖像的特征信息,得到一個[128,K]的一維向量,得出分數(shù)進而輸出分類結(jié)果。

        圖1 基于Light-BotNet 的大場景點云分類框架

        本文采用了ResNet50 和BotNet50 網(wǎng)絡(luò)框架來與Light-BotNet 進行對比,如表1 所示。

        表1 幾種不同神經(jīng)網(wǎng)絡(luò)框架設(shè)計表

        2 實驗結(jié)果分析

        本文在Oakland 3D 大場景三維點云數(shù)據(jù)集上進行實驗,以驗證基于Light-BotNet 大場景點云分類方法的有效性和魯棒性,對Oakland 3D 數(shù)據(jù)集中的實驗分類結(jié)果進行分析。

        在Oakland 3D 三維大場景點云數(shù)據(jù)集上測試所提出的算法框架,該數(shù)據(jù)集來源于奧克蘭卡耐基梅隆大學(xué)的校園周邊場景,是使用最廣泛的地面移動激光掃描(MLS)所獲取的數(shù)據(jù)集。該數(shù)據(jù)集主要是城市大場景環(huán)境。該數(shù)據(jù)集包括電線(Wire)、桿(Pole)、建筑立面(Facade)、地面(Ground)和植物(Vegetation)這5 個語義類別,其中每個類別的樣本數(shù)量如表2 所示。

        表2 Oakland 數(shù)據(jù)集

        實驗運行環(huán)境:Intel i7-4790、NVIDIA RTX 2070、8 GB 內(nèi)存,在Windows10 和Python3.7 下搭建CUDA 10.0、CUDNN7.6.4、PyTorch 0.6 的深度學(xué)習(xí)環(huán)境,初始學(xué)習(xí)率為1×10-3。

        本文在Oakland 大場景三維點云數(shù)據(jù)集上分類任務(wù)的測試精度實驗對比如表3 所示,其中OA 表示總體分類精度,在總體分類精度(OA)明顯要好于其他文獻的方法。實驗結(jié)果表明,所提出的Light-BotNet 方法在Oakland 數(shù)據(jù)集上的總體分類精度達到了98.1%,與文獻[15]-[19]相比較,如圖2 所示的Oakland 3D 大場景三維點云分類結(jié)果可視化對比,其中圖2(a)是測試集的Ground Truth,圖2(b)是算法分類結(jié)果的可視化效果。

        表3 Oakland 數(shù)據(jù)集對比精度 (%)

        圖2 可視化效果圖

        圖2 中1 表示地面,2 表示電線,3 表示電線桿,4表示墻面,5 表示植物。

        可看到Oakland 測試集上分類后可視化效果與測試集真實標簽可視化效果對比。從表3 對比數(shù)據(jù)以及圖2展示的效果來看,電線桿類(Pole)和線(Wire)這兩類別的分類精度分別為20.7%和18.0%,與其他的文獻相比較差。因為這些類別的點本來就是數(shù)據(jù)量少,當對這些類別的點進行在x、y、z 方向投影時,這一投影勢必會造成部分不同類別的點的重合覆蓋,從而影響計算該類點的二維特征精度的計算。但是對于類別的點比較有優(yōu)勢,類別多的覆蓋了類別少的點,所以在最終的結(jié)果呈現(xiàn)出類別多的點準確率高,類別少的點準確率低。

        由于對比方法中涉及Oakland 大場景三維點云數(shù)據(jù)相關(guān)文獻[15-19],為了證明本文所提基于通道注意力機制的深度卷積神經(jīng)網(wǎng)絡(luò)在時間和效率上的優(yōu)良性,針對在大場景三維點云的海量數(shù)據(jù)在訓(xùn)練過程中如何更好地平衡分類精度和實現(xiàn)效率問題,通過對比Light-BotNet與ResNet50 和BotNet50 網(wǎng)絡(luò)框架在大場景三維點云數(shù)據(jù)集Oakland 和測試分類的性能與時間復(fù)雜度作為評價指標來證明所提算法輕量級框架的優(yōu)良性,圖3 展示的是Light-BotNet 與ResNet50 和BotNet50 網(wǎng)絡(luò)框架在大場景三維點云Oakland 數(shù)據(jù)集上隨著輪數(shù)(epoch)增加對點云分類精度(accuary)的變化。

        圖3 Light-BotNet 與Method_1 和Method_2 分類精度可視化

        通過圖3 展示的效果可以看出,Backbone 分別為ResNet50 和BotNet50 的網(wǎng)絡(luò)模型,在分類精度上對比Light-BotNet 比較低,這在很大程度上是因為本文已經(jīng)對激光點云已經(jīng)進行了一遍處理,所以在后面使用的網(wǎng)絡(luò)層模型應(yīng)該偏向于輕量級的網(wǎng)絡(luò)模型。本文也同在SVM 和Random Forest 方法上進行驗證分類結(jié)果,發(fā)現(xiàn)在分類結(jié)果上能夠達到90%左右的效果,在Backbone 為輕量級的網(wǎng)絡(luò)框架的效果[17]中,也能夠取得比較好的效果,雖然ResNet 網(wǎng)絡(luò)層模型可以適用于在一些比較深的網(wǎng)絡(luò)模型提取有效的特征,但是可能并不適用于本方法中。從結(jié)果可以看出,整體的實驗分類結(jié)果具有很大的波動性,雖然達到了一個比較好的效果,但是可能存在是研究結(jié)果出現(xiàn)過擬合的可能。BotNet50 Backbone 同理可證,在Light-BotNet 網(wǎng)絡(luò)框架設(shè)計上如表1 所示,在整體的網(wǎng)絡(luò)框架上,相比于ResNet50 和BotNet50 網(wǎng)絡(luò)框架,在網(wǎng)絡(luò)層上進行了50%的刪減,形成一個相對輕量級的基于CNN 的Transform 網(wǎng)絡(luò)框架模型、在實驗結(jié)果上,相比于ResNet50 和BotNet50,整體的分類結(jié)果比較穩(wěn)定,分類精度也高。

        對比在Oakland 3D 數(shù)據(jù)集下Light-BotNet 與Bot-Net50、ResNet50 3 種不同網(wǎng)絡(luò)框架的分類精度,結(jié)果如表4 所示。

        表4 網(wǎng)絡(luò)框架實驗結(jié)果對比

        對比不同網(wǎng)絡(luò)的參數(shù),表5 展示了使用的不同網(wǎng)絡(luò)框架運行點云分類的Flops 和Params 對比。從中可以看出,Backbone BotNet50 與ResNet50 在Flops 和Params 對比上差距不是很大,但是結(jié)合表4 來看,犧牲一部分的內(nèi)存和效率,可以換取到準確率的提升。對比Light-BotNet,Light-BotNet 在Flops 和Params 上都降低近50%的消耗,準確率也是達到了一個很好的效果,通過在同樣硬件環(huán)境配置下在不同的Backbone 的分類網(wǎng)絡(luò)框架中進行實驗,Light-BotNet 的Flops 消耗與Params 與其他相比都處于最低的效果。

        表5 不同網(wǎng)絡(luò)框架的Flops 和Params 對比

        由于對比方法中涉及Oakland 大場景三維點云數(shù)據(jù)相關(guān)文獻[15-19],為了證明本文所提出基于Light-BotNet的激光點云分類方法,針對在大場景激光點云的海量數(shù)據(jù)在訓(xùn)練過程中Light-BotNet 對本框架的影響,本文對比了在本框架和去除掉MSHA 框架的實驗結(jié)果,如圖4 所示,實驗證明MHSA 有利于點云分類精度的提高。

        圖4 無MSHA 的準確率變化曲線

        3 結(jié)論

        針對大場景三維點云本身數(shù)據(jù)量巨大,存在計算量大、訓(xùn)練時間長的挑戰(zhàn),設(shè)計更為適合三維點云數(shù)據(jù)處理的輕量級卷積神經(jīng)網(wǎng)絡(luò),在保證分類精度的同時盡可能減少了參數(shù)的數(shù)量和訓(xùn)練測試時間,使得網(wǎng)絡(luò)進一步快速收斂以及減少計算量。本文提出一種基于Light-BotNet 低復(fù)雜度、輕量級框架,在取到較好的分類精度的基礎(chǔ)上減少了訓(xùn)練和測試時間,提升了整個網(wǎng)絡(luò)框架的性能。但是從每個類別的分類精度來看,對于Oakland 3D 數(shù)據(jù)集,本方法存在著一些不足之處,對一些數(shù)量占比少類別不友好,而對于一些數(shù)量多的類別來說,可以達到一個非常好的效果,這是本文存在的一個缺點,需要在以后工作中進行改進。這種問題的出現(xiàn)在很大程度上是因為本文在提取點云特征圖像上存在著一些缺點,或許不應(yīng)該在xoy、yoz、xoz 3 個直平面進行投影,或許應(yīng)該從一個有利于類別數(shù)量少的點的角度進行投影,例如旋轉(zhuǎn)到某一個角度,能夠讓類別數(shù)量少的點受到其他類別少的點的影響盡可能少,這將是未來將繼續(xù)的工作。在未來工作內(nèi)容中,也會繼續(xù)探討在三維大場景點云數(shù)據(jù)同等數(shù)據(jù)容量下,對數(shù)據(jù)特性分析與提升深度學(xué)習(xí)框架本身的計算性能。

        猜你喜歡
        類別框架卷積
        框架
        基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
        廣義框架的不相交性
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標跟蹤算法
        WTO框架下
        法大研究生(2017年1期)2017-04-10 08:55:06
        服務(wù)類別
        新校長(2016年8期)2016-01-10 06:43:59
        一種基于OpenStack的云應(yīng)用開發(fā)框架
        論類別股東會
        商事法論集(2014年1期)2014-06-27 01:20:42
        一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
        啪啪无码人妻丰满熟妇| 久久国产成人精品av| 亚洲国产日韩综一区二区在性色 | 开心五月激情五月天天五月五月天| 免费无码中文字幕A级毛片| 国语精品一区二区三区| 欧美又大粗又爽又黄大片视频| 亚洲国产不卡免费视频| 未满十八勿入av网免费| 国产在线精品成人一区二区三区| 亚洲中文字幕午夜精品| 自拍av免费在线观看| 欧美日韩亚洲综合久久久| 欲妇荡岳丰满少妇岳| 成人做受黄大片| 91三级在线观看免费| 极品视频一区二区三区在线观看| 特黄aa级毛片免费视频播放| 柠檬福利第一导航在线| 男女性杂交内射女bbwxz| 精品福利一区二区三区| 国产精品女同学| 国产欧美日韩午夜在线观看| 又粗又硬又黄又爽的免费视频 | 精品人妻va出轨中文字幕| 真人抽搐一进一出视频| 午夜理论片日本中文在线| 亚洲中文字幕有综合久久| 国产综合自拍| 久久国产色av| 国产亚洲真人做受在线观看| 日本三级吃奶头添泬| 国产精品一区二区熟女不卡| 日本精品一区二区三区在线播放| 国产美女69视频免费观看| 97免费人妻在线视频| 亚洲中文字幕国产综合| 丰满人妻一区二区三区免费视频 | 久久99老妇伦国产熟女高清| 成人精品一级毛片| 精品国产精品久久一区免费式|