亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的三維目標(biāo)檢測(cè)方法研究

        2020-12-14 09:14:08
        關(guān)鍵詞:特征區(qū)域檢測(cè)

        王 剛 王 沛

        1(中國(guó)科學(xué)院電子學(xué)研究所 北京 100190)2(中國(guó)科學(xué)院大學(xué) 北京 100190)

        0 引 言

        近年來,隨著智能化技術(shù)以及無人化技術(shù)的發(fā)展,傳感器技術(shù)蓬勃發(fā)展。作為三維環(huán)境感知傳感器的激光雷達(dá)自然也受到了越來越多的關(guān)注,其在無人駕駛、測(cè)繪、軍事等領(lǐng)域都有很多運(yùn)用。激光雷達(dá)的數(shù)據(jù)產(chǎn)品是三維點(diǎn)云,即三維坐標(biāo)系下的點(diǎn)的數(shù)據(jù)集,它包含三維坐標(biāo)(x,y,z)和反射強(qiáng)度等豐富的信息。利用激光雷達(dá)產(chǎn)生的點(diǎn)云數(shù)據(jù),可以獲得三維目標(biāo)的三維信息,比圖像具有更好的深度信息;而圖像具有RGB值,具有目標(biāo)的更多的細(xì)節(jié)信息。因此在自動(dòng)駕駛領(lǐng)域,感知模塊的潮流就是將激光雷達(dá)數(shù)據(jù)和二維圖像相結(jié)合,進(jìn)行目標(biāo)檢測(cè),獲得汽車的周圍環(huán)境信息。

        在自動(dòng)駕駛的感知算法方面,主要有三種思路:

        (1)利用相機(jī)產(chǎn)生的二維圖像進(jìn)行目標(biāo)檢測(cè)。傳統(tǒng)的圖像目標(biāo)檢測(cè)算法采用方向梯度直方圖(Histogram of Oriented Gradient,HOG)[1]、尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)[2]等手工特征對(duì)圖像進(jìn)行特征提取,得到目標(biāo)的邊緣信息,再用支持向量機(jī)(Support Vector Machine, SVM)[3]或AdaBoost[4]算法對(duì)目標(biāo)特征進(jìn)行分類檢測(cè)。在神經(jīng)網(wǎng)絡(luò)發(fā)展之后,RCNN[5]、Fast RCNN[6]、Faster RCNN[7]等算法將目標(biāo)檢測(cè)提升到了一個(gè)新的高度。但由于相機(jī)圖片是二維的,如果在自動(dòng)駕駛場(chǎng)景中完全利用圖像信息,很難獲得三維空間目標(biāo)的精確位置。

        (2)利用激光雷達(dá)的點(diǎn)云數(shù)據(jù)進(jìn)行目標(biāo)檢測(cè)。激光雷達(dá)點(diǎn)云數(shù)據(jù)具有三維空間豐富的深度信息,利用激光雷達(dá)點(diǎn)云的這一特點(diǎn),可以進(jìn)行三維目標(biāo)檢測(cè)。Zhou等[8]利用類似于圖像像素的方法,將點(diǎn)云數(shù)據(jù)體素化,每個(gè)體素取值0或1(判斷體素是否含有目標(biāo)),再將三維卷積神經(jīng)網(wǎng)絡(luò)運(yùn)用到點(diǎn)云的體素網(wǎng)格。但是由于空體素的存在,這種方法消耗了大量的內(nèi)存并且需要大量的計(jì)算量。PointNet[9-10]系列算法與PointCNN[11]直接對(duì)點(diǎn)云進(jìn)行處理,進(jìn)行點(diǎn)云分類,但是這些算法只能適用于室內(nèi)環(huán)境這些小場(chǎng)景,對(duì)于自動(dòng)駕駛這種復(fù)雜場(chǎng)景難以適應(yīng)。

        (3)利用激光雷達(dá)點(diǎn)云數(shù)據(jù)與相機(jī)圖像融合進(jìn)行目標(biāo)檢測(cè)。百度提出的MV3D[12]將激光雷達(dá)點(diǎn)云數(shù)據(jù)投影成俯視圖與前視圖,在點(diǎn)云俯視圖上進(jìn)行候選區(qū)域生成,再將生成的候選區(qū)域分別映射至RGB圖像、點(diǎn)云俯視圖和點(diǎn)云前視圖上進(jìn)行感興趣區(qū)域(Region of Interest)的特征提取與特征融合,最后進(jìn)行位置回歸和目標(biāo)分類。但是這種方法只利用俯視圖生成候選區(qū)域,會(huì)造成分類和定位的不準(zhǔn)確。Qi等[13]對(duì)二維圖像利用區(qū)域候選網(wǎng)絡(luò)生成候選區(qū)域,并將生成的候選區(qū)域映射至三維點(diǎn)云中,運(yùn)用PointNet++進(jìn)行點(diǎn)云分類。這種方法只利用了圖像信息進(jìn)行候選區(qū)域生成,也會(huì)造成分類與定位的不準(zhǔn)確。Ku等[14]提出了AVOD算法,其利用深度卷積網(wǎng)絡(luò)分別對(duì)三維點(diǎn)云數(shù)據(jù)的俯視圖與二維圖像進(jìn)行特征提取,并分別將二者得到的特征圖送入?yún)^(qū)域候選網(wǎng)絡(luò)進(jìn)行候選區(qū)域生成,最后進(jìn)行目標(biāo)分類和位置回歸。

        本文提出自動(dòng)駕駛場(chǎng)景下的三維目標(biāo)檢測(cè)改進(jìn)算法,利用點(diǎn)云和圖像融合的方法,檢測(cè)目標(biāo),并獲得目標(biāo)物體的三維位置信息與類別信息。本文提出的算法具有以下創(chuàng)新點(diǎn):

        (1)對(duì)激光點(diǎn)云進(jìn)行預(yù)處理,得到具有高度通道、點(diǎn)云密度通道以及反射強(qiáng)度的俯視特征圖。

        (2)在區(qū)域候選網(wǎng)絡(luò)之后,對(duì)點(diǎn)云的俯視圖特征與圖像特征的ROI使用ROI Align進(jìn)行池化,避免了ROI Pooling的兩次量化造成的誤差。

        1 整體網(wǎng)絡(luò)結(jié)構(gòu)

        本文將Faster RCNN[6]運(yùn)用到點(diǎn)云和圖像融合的三維目標(biāo)檢測(cè)上,其為了加強(qiáng)對(duì)小目標(biāo)的檢測(cè)準(zhǔn)確性,在生成特征圖時(shí),引入了特征金字塔網(wǎng)絡(luò)[15],使其生成的特征圖與輸入圖像具有同樣的尺寸,并融合了各個(gè)卷積層所提取的特征,使網(wǎng)絡(luò)對(duì)小目標(biāo)召回率提高。整體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

        圖1 整體結(jié)構(gòu)圖

        1.1 Faster RCNN網(wǎng)絡(luò)

        Faster RCNN算法是2015年提出的兩階段目標(biāo)檢測(cè)算法,是目標(biāo)檢測(cè)的經(jīng)典框架,其提出了區(qū)域候選網(wǎng)絡(luò)。目標(biāo)檢測(cè)具有兩個(gè)任務(wù):目標(biāo)分類和位置回歸?;趨^(qū)域候選網(wǎng)絡(luò)的方法能夠很好地完成這兩個(gè)任務(wù)。其主要分為兩步:

        Step1將圖像作為輸入,使用深度網(wǎng)絡(luò)提取輸入圖像的特征圖,區(qū)域候選網(wǎng)絡(luò)對(duì)前面生成的特征圖進(jìn)行裁剪,使其生成一定量的anchor,然后區(qū)域候選網(wǎng)絡(luò)再對(duì)這些anchor作分類(判斷是不是目標(biāo))和位置回歸(粗定位),生成一定量的候選區(qū)域。區(qū)域候選網(wǎng)絡(luò)如圖2所示。

        圖2 特征候選網(wǎng)絡(luò)

        Step2將生成的候選區(qū)域映射至輸入圖像生成的特征圖,得到感興趣區(qū)域,并進(jìn)行ROI Pooling,得到固定大小的候選區(qū)域特征圖。最后用全連接層進(jìn)行分類(具體類別)和位置回歸(精確定位)。

        1.2 特征金字塔網(wǎng)絡(luò)

        特征金字塔網(wǎng)絡(luò)通過簡(jiǎn)單地改變網(wǎng)絡(luò)的連接,在幾乎不增加網(wǎng)絡(luò)計(jì)算量的情況下,提升了網(wǎng)絡(luò)對(duì)小目標(biāo)的檢測(cè)性能。在深度卷積神經(jīng)網(wǎng)絡(luò)中,網(wǎng)絡(luò)的層數(shù)越深,得到的特征圖的分辨率越低,但語義信息卻越豐富。特征金字塔網(wǎng)絡(luò)通過將卷積網(wǎng)絡(luò)底層的高分辨率、低語義信息的特征圖與網(wǎng)絡(luò)上層的低分辨率、高語義信息的特征圖進(jìn)行由上到下的連接,使各個(gè)尺度下的特征圖都具有較為豐富的語義信息。特征金字塔網(wǎng)絡(luò)主要分為三個(gè)部分:自下而上的卷積特征提取網(wǎng)絡(luò),自上而下的上采樣過程,以及同一層間特征的橫向連接。自下而上的卷積特征提取網(wǎng)絡(luò)為卷積網(wǎng)絡(luò)的前向過程,得到語義信息逐漸增強(qiáng),分辨率逐漸變小的特征圖。自上而下的上采樣過程將上層特征圖逐漸向下一層上采樣,得到與下一層相同尺寸的特征圖。橫向連接將上采樣得到的特征圖與下一層特征圖進(jìn)行融合,使得到的特征圖既具有高層語義信息,又具有低層的定位細(xì)節(jié)信息。特征金字塔網(wǎng)絡(luò)如圖3所示。

        圖3 特征金字塔網(wǎng)絡(luò)

        2 點(diǎn)云數(shù)據(jù)預(yù)處理

        圖4 點(diǎn)云俯視圖

        3 ROI Align

        在Faster RCNN中,區(qū)域候選網(wǎng)絡(luò)生成候選區(qū)域后,網(wǎng)絡(luò)將候選區(qū)域映射到前面卷積網(wǎng)絡(luò)生成的特征圖中,然后使用ROI Pooling對(duì)目標(biāo)區(qū)域進(jìn)行池化,但是這個(gè)步驟會(huì)有兩次量化操作,如圖5所示。由于在卷積過程中,圖像進(jìn)行了下采樣,所以在將候選區(qū)域映射至卷積特征圖的過程中,也需要將候選框下采樣同樣的倍數(shù),如果對(duì)候選框下采樣不能夠除盡,將其量化為整數(shù),這就出現(xiàn)了第一次量化操作。在池化過程中,需要將候選區(qū)域平均分割為k×k個(gè)單元,同樣,如果不能整除,這就會(huì)產(chǎn)生第二次量化操作。經(jīng)過這兩次量化后,回歸出來的目標(biāo)框與量化后的目標(biāo)框發(fā)生了一定的偏差,因此會(huì)導(dǎo)致檢測(cè)精度下降。

        圖5 ROI Pooling

        采用ROI Align[16]解決這個(gè)問題,如圖6所示。

        圖6 ROI Align

        取消兩次量化操作,使用雙線性插值獲得坐標(biāo)為浮點(diǎn)數(shù)的像素點(diǎn)上的圖像數(shù)值。具體過程如下:

        (1)將目標(biāo)候選區(qū)域映射至卷積特征圖上,映射過程中不做量化處理。

        (2)將候選區(qū)域劃分為k×k個(gè)單元,每個(gè)單元的邊界也不做量化處理。

        (3)對(duì)每個(gè)單元取四個(gè)固定的坐標(biāo)點(diǎn),用雙線性插值的方法計(jì)算出這四個(gè)點(diǎn)的坐標(biāo),然后對(duì)其進(jìn)行最大池化操作。

        在ROI Pooling操作中,反向傳播公式為:

        (1)

        式中:xi表示在池化操作之前卷積特征圖上的像素點(diǎn);yrj表示ROI Pooling之后的第r個(gè)候選框的第j個(gè)點(diǎn);i*(r,j)代表點(diǎn)yrj池化之前的坐標(biāo)點(diǎn)。由式(1)可以看出,只有在ROI Pooling之后的點(diǎn)的像素值在Pooling操作中使用了當(dāng)前點(diǎn)xi的像素值(即當(dāng)i=i*(r,j))時(shí),xi的梯度才反向傳播。

        ROI Align的反向傳播公式為:

        (2)

        4 實(shí) 驗(yàn)

        4.1 實(shí)驗(yàn)數(shù)據(jù)集

        本文實(shí)驗(yàn)采用KITTI數(shù)據(jù)集,它是自動(dòng)駕駛領(lǐng)域最出名的數(shù)據(jù)集之一,目前自動(dòng)駕駛領(lǐng)域的大量算法都在此數(shù)據(jù)集下進(jìn)行實(shí)驗(yàn)。本文利用其三維點(diǎn)云數(shù)據(jù)集和圖像數(shù)據(jù)集,包含7 481個(gè)三維點(diǎn)云文件和圖像文件。點(diǎn)云文件被裁減到以激光雷達(dá)為原點(diǎn),橫縱坐標(biāo)分別為[-40,40]×[0,70]m的范圍內(nèi)。

        4.2 實(shí)驗(yàn)環(huán)境

        本文是在Ubuntu 16.04系統(tǒng)下,采用TensorFlow 1.9深度學(xué)習(xí)框架,CPU為Intel(R)Core(TM)i7-3770,GPU為MSI 1080Ti,開發(fā)工具為Pycharm+Anaconda,Python版本為3.6。訓(xùn)練大約需要15 h。

        4.3 實(shí)驗(yàn)結(jié)果分析

        在訓(xùn)練集,測(cè)試集與驗(yàn)證集的分割與目前兩種基于激光雷達(dá)點(diǎn)云數(shù)據(jù)和圖像融合的算法分割相同的情況下,由表1與表2可以看出,在KITTI數(shù)據(jù)集中,本文算法在加入反射強(qiáng)度信息后,3D平均精度(AP-3D)和俯視圖平均精度(AP-BEV)都有一定的提升,說明反射強(qiáng)度信息對(duì)神經(jīng)網(wǎng)絡(luò)的特征提取具有一定的幫助。在用ROI Align替代ROI Pooling后,3D平均精度和俯視圖平均精度也有一定的提升,特別是在檢測(cè)小目標(biāo)方面,其中容易、中等、困難為目標(biāo)檢測(cè)的難度。檢測(cè)結(jié)果如圖7所示。

        表1 各方法3D平均精度(AP-3D)對(duì)比(Car)

        表2 各方法俯視圖平均精度(AP-BEV)對(duì)比(Car)

        (a)2D車輛檢測(cè)結(jié)果

        5 結(jié) 語

        本文提出基于深度學(xué)習(xí)的三維目標(biāo)檢測(cè)改進(jìn)方法,并且實(shí)現(xiàn)改進(jìn)的檢測(cè)網(wǎng)絡(luò)。通過將激光雷達(dá)點(diǎn)云數(shù)據(jù)與圖像相結(jié)合,使檢測(cè)網(wǎng)絡(luò)不僅能夠提取激光雷達(dá)點(diǎn)云的深度信息,還可以提取圖像的顏色細(xì)節(jié)信息,減少單一輸入形式對(duì)目標(biāo)檢測(cè)準(zhǔn)確率造成的影響。將反映目標(biāo)材質(zhì)信息的反射強(qiáng)度引入點(diǎn)云俯視圖的信息通道中,對(duì)特征的提取有一定的幫助;將候選區(qū)域網(wǎng)絡(luò)得到的候選區(qū)域映射至卷積特征圖之后,采用ROI Align,避免了原來池化過程中的兩次量化操作。本文提出的對(duì)三維目標(biāo)檢測(cè)的改進(jìn)方法,在使用激光雷達(dá)點(diǎn)云與圖像融合的前提下,三維目標(biāo)檢測(cè)效果有一定的提升。

        猜你喜歡
        特征區(qū)域檢測(cè)
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        小波變換在PCB缺陷檢測(cè)中的應(yīng)用
        關(guān)于四色猜想
        分區(qū)域
        基于嚴(yán)重區(qū)域的多PCC點(diǎn)暫降頻次估計(jì)
        国产亚洲2021成人乱码| 亚洲人妻御姐中文字幕| 一区二区视频中文字幕| 国产激情无码一区二区三区| 初尝黑人巨砲波多野结衣| 亚洲xx视频| 中文字幕人妻日韩精品| 美女露内裤扒开腿让男人桶无遮挡| 成人免费毛片内射美女-百度| 亚洲国产福利成人一区二区| 97成人精品在线视频| 日本精品少妇一区二区三区| www插插插无码免费视频网站| 探花国产精品三级在线播放| 国产毛片精品av一区二区| 久久精品国产自在天天线| 美女高潮无遮挡免费视频| 国产自产拍精品视频免费看| 日韩精品一二三区乱码| 人妻丰满熟妇av无码区| 亚洲精品视频久久 | 久久青青草原亚洲av| 亚洲中文字幕午夜精品| 成熟丰满熟妇高潮xxxxx视频| 中文字幕亚洲无线码高清| 一区二区三区在线日本视频| 国产高清在线观看av片| 日日噜噜夜夜狠狠久久无码区| 久久er这里都是精品23| 久久精品久99精品免费| 丁字裤少妇露黑毛| 亚洲成a人片在线网站| 风流少妇一区二区三区91| 夜夜夜夜曰天天天天拍国产| 久久天天躁狠狠躁夜夜爽| 亚洲精品久久久中文字| 精品亚洲天堂一区二区三区| 国产真实老熟女无套内射| 精品国偷自产在线不卡短视频| 女主播啪啪大秀免费观看| 无码国产色欲xxxx视频|