亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于輕量級(jí)神經(jīng)網(wǎng)絡(luò)的RGB-D人體目標(biāo)檢測(cè)

        2022-03-01 08:36:06馮曉毅馬玉鵬
        微處理機(jī) 2022年1期
        關(guān)鍵詞:深度圖損失人體

        譚 方,馮曉毅,馬玉鵬

        (西北工業(yè)大學(xué)電子信息學(xué)院,西安710072)

        1 引言

        RGB-D圖像數(shù)據(jù)包含更豐富的信息,目前已大量應(yīng)用于機(jī)器人、安防、AR/VR等領(lǐng)域。人體目標(biāo)檢測(cè)是人機(jī)交互的前提,也是機(jī)器視覺的重要任務(wù),特別在智能機(jī)器人應(yīng)用中意義重大。近年來,基于RGB-D的檢測(cè)方案[1-2]受到重視,因?yàn)樯疃葓D(Depth)可以克服彩色圖(RGB)在黑暗、模糊環(huán)境下圖像質(zhì)量差的問題,而彩色圖可以彌補(bǔ)深度圖噪聲大和遠(yuǎn)距離精度差的短板,隨著CNN(卷積神經(jīng)網(wǎng)絡(luò))的快速發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)精度已經(jīng)遠(yuǎn)超傳統(tǒng)方法,然而這些方法運(yùn)算量巨大,需要一種輕量級(jí)的CNN檢測(cè)網(wǎng)絡(luò),能在滿足檢測(cè)精度的同時(shí),減小計(jì)算量,降低消耗。

        2 相關(guān)工作

        現(xiàn)有的CNN目標(biāo)檢測(cè)算法可以分為基于錨框(anchor)和無錨框(anchor-free)的方法?;阱^框的方法如Faster-RCNN[3]、YOLOV3[4]等需要預(yù)設(shè)大量的錨框,錨框數(shù)量甚至可能達(dá)幾千到數(shù)十萬以上,無疑增加了整個(gè)算法的復(fù)雜度。文獻(xiàn)[5]是較早提出無錨框檢測(cè)算法的,隨后文獻(xiàn)[6]借鑒了該思想并應(yīng)用在行人檢測(cè)上,文獻(xiàn)[7]將其應(yīng)用在了人臉檢測(cè)任務(wù)中,這些方法都取得了業(yè)界領(lǐng)先的檢測(cè)準(zhǔn)確率,而且該方法推理速度快,是很多嵌入式平臺(tái)下人臉檢測(cè)任務(wù)的首選。

        除了檢測(cè)框架,學(xué)者們還提出了基于單深度圖的人體檢測(cè)算法[8-9]。這些方法一般分兩步,首先通過深度圖特征獲取候選的人體目標(biāo)框,然后訓(xùn)練分類器進(jìn)一步篩選,最后保留真正的人體目標(biāo)。單深度圖的檢測(cè)算法速度快、效率高,但由于現(xiàn)有商業(yè)深度相機(jī)的分辨率和精度較低,因此此類算法只適于簡(jiǎn)單場(chǎng)景和近距離檢測(cè)。相比之下,基于RGB-D的檢測(cè)算法[10-11]更普遍。

        為提高CNN網(wǎng)絡(luò)的運(yùn)行效率,輕量級(jí)網(wǎng)絡(luò)框架受到人們的重視。研究人員提出了如MobileNetV3[12]的輕量級(jí)網(wǎng)絡(luò)框架,這些框架的設(shè)計(jì)主要是為了將深度學(xué)習(xí)應(yīng)用于移動(dòng)端和嵌入式設(shè)備,如小型機(jī)器人、家用安防機(jī)等。MobileNetV3作為最新的輕量級(jí)框架,網(wǎng)絡(luò)設(shè)計(jì)借助了神經(jīng)網(wǎng)絡(luò)搜索(NAS),在效率上達(dá)到了領(lǐng)先水平。因此,本次改進(jìn)也選擇在以MobilenetV3作為主干網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行。

        3 算法概述

        3.1 網(wǎng)絡(luò)結(jié)構(gòu)

        所設(shè)計(jì)檢測(cè)網(wǎng)絡(luò)的結(jié)構(gòu)如圖1所示。網(wǎng)絡(luò)的輸入可以分別為彩色圖,深度圖或RGB-D,首先對(duì)輸入的圖像使用3×3的卷積網(wǎng)絡(luò)提取特征并相加(當(dāng)輸入為RGB-D時(shí)),之后送入金字塔結(jié)構(gòu)的網(wǎng)絡(luò)進(jìn)行處理,最后輸出H/R×W/R×5的特征圖,其中H、W是輸入圖片的長(zhǎng)和寬,此處統(tǒng)一將RGB-D縮放到長(zhǎng)416寬320,R是縮放步長(zhǎng),取值為8。

        圖1 改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)

        輸出的5個(gè)特征圖中的第一個(gè)是目標(biāo)置信度,使用了sigmoid函數(shù)將結(jié)果歸一化到0到1之間,取值越接近1表示該點(diǎn)是人體目標(biāo)的概率越大,越接近0表示是背景的概率越大,在實(shí)際應(yīng)用中大于

        0.25就認(rèn)為該點(diǎn)是目標(biāo)。第二和第三個(gè)特征圖是中心點(diǎn)偏移量,在圖像縮小時(shí)精度會(huì)有損失,偏移量是對(duì)該損失的補(bǔ)償。第四和第五個(gè)特征圖輸出目標(biāo)框的長(zhǎng)寬,這里由于目標(biāo)長(zhǎng)寬的值較大,為了防止網(wǎng)絡(luò)輸出跨度過大造成巨大誤差,對(duì)網(wǎng)絡(luò)輸出的長(zhǎng)寬做了轉(zhuǎn)換,使用了log函數(shù),即網(wǎng)絡(luò)輸出的長(zhǎng)寬是目標(biāo)原始長(zhǎng)寬的對(duì)數(shù)。最終目標(biāo)框的計(jì)算過程如下式:

        式中,bx、by、bw、bh為最終的目標(biāo)檢測(cè)框的中心點(diǎn)x、y坐標(biāo)和長(zhǎng)寬值,cx、cy為網(wǎng)絡(luò)輸出的目標(biāo)置信度中值大于0.25的坐標(biāo)值,px、py、pw、ph則是與該坐標(biāo)對(duì)應(yīng)的網(wǎng)絡(luò)偏移輸出和長(zhǎng)寬輸出。

        圖1中的block網(wǎng)絡(luò)模塊使用了逆殘差結(jié)構(gòu)的線性瓶頸網(wǎng)絡(luò)(Inverted Residual and Linear Bottleneck,簡(jiǎn)稱Bneck)和壓縮激勵(lì)激活函數(shù)(Squeeze and Excitation,簡(jiǎn)稱SE)。圖中的1×1表示1×1卷積,上采樣統(tǒng)一使用最近鄰法將特征圖擴(kuò)大2倍;C1到C7表示2維CNN卷積網(wǎng)絡(luò),詳細(xì)的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)情況如表1所示。

        表1 改進(jìn)檢測(cè)網(wǎng)絡(luò)詳細(xì)結(jié)構(gòu)

        表1中名稱列的內(nèi)容與圖1相對(duì)應(yīng),內(nèi)容一列中的Conv2表示2D卷積,Bneck表示瓶頸網(wǎng)絡(luò),逗號(hào)后的數(shù)字1、3和5表示卷積核大小。NL表示激活函數(shù),其中RE為ReLU線性激活函數(shù)式,HS表示hswish激活函數(shù)式,具體公式為:本網(wǎng)絡(luò)沒有使用池化層進(jìn)行降采樣,而是直接使用步長(zhǎng)代替。

        3.2 損失函數(shù)

        該算法中使用的損失函數(shù)有3個(gè)部分,第一是置信度損失Lc,使用焦點(diǎn)損失函數(shù)(Focal Loss),如下式:式中,yij表示目標(biāo)的類別值,如果該點(diǎn)是人體目標(biāo)的中心點(diǎn)則值為1,如果是其他則為0;pij表示網(wǎng)絡(luò)輸出的置信度值,通過sigmoid函數(shù)將值激活到0到1之間。γ是焦點(diǎn)損失的參數(shù),取值2。焦點(diǎn)損失函數(shù)更適合樣本不均衡的分類問題,它降低了簡(jiǎn)單樣本在損失中所占的比重,轉(zhuǎn)而更多關(guān)注困難的、錯(cuò)誤分類的樣本。

        另外兩個(gè)部分為長(zhǎng)寬損失Lwh和中心點(diǎn)補(bǔ)償損失Lcen,都用平滑絕對(duì)誤差損失函數(shù)(Smooth L1 Loss)計(jì)算網(wǎng)絡(luò)預(yù)測(cè)值與真實(shí)值的誤差,具體公式為:

        最終的損失是這三項(xiàng)的累加,如式(10)所示,其中的λ用來調(diào)節(jié)各個(gè)損失所占的比重,最終設(shè)置:λc=1,λoff=10,λwh=10。

        3.3 訓(xùn)練細(xì)節(jié)

        輕量級(jí)檢測(cè)網(wǎng)絡(luò)在訓(xùn)練時(shí),優(yōu)化器采用隨機(jī)梯度優(yōu)化算法(Adaptivemomentestimation,簡(jiǎn)稱Adam),網(wǎng)絡(luò)訓(xùn)練150個(gè)周期(epoch),初始學(xué)習(xí)率為0.0025,在第100和130周期時(shí)學(xué)習(xí)率分別衰減0.1倍,批大?。˙atch Size)設(shè)置為64。

        為了提高網(wǎng)絡(luò)的泛化能力,采用不同方法對(duì)數(shù)據(jù)進(jìn)行擴(kuò)充。主要為仿射變換法:對(duì)圖像隨機(jī)旋轉(zhuǎn)-5°到5°,隨機(jī)0.9到1.1的縮放變換,隨機(jī)-10%到10%的平移變換和隨機(jī)-3°到3°的剪切變換,此外還包括水平鏡像,對(duì)RGB圖隨機(jī)加減亮度和對(duì)比度。對(duì)深度圖,在圖像的任意區(qū)域隨機(jī)將5%的深度值設(shè)為0,以照顧到實(shí)際應(yīng)用中深度圖對(duì)距離、材質(zhì)、光照等較為敏感,往往會(huì)有缺失和空洞的存在,從而在訓(xùn)練時(shí)隨機(jī)生成一些缺失和空洞。

        在多尺度訓(xùn)練中,網(wǎng)絡(luò)的輸入為416×320,為了提高網(wǎng)絡(luò)的魯棒性,每個(gè)周期隨機(jī)在多個(gè)尺度中選擇一個(gè)進(jìn)行訓(xùn)練,如(448×352),(416×352),(384×320)等。

        此外還考慮到深度圖和彩色圖的對(duì)齊問題。各個(gè)深度相機(jī)廠家都會(huì)提供RGB與深度圖的對(duì)齊接口,但由于RGB和深度圖所使用的鏡頭區(qū)別很大,因此很難做到絕對(duì)對(duì)齊。訓(xùn)練時(shí),在RGB和深度圖之間加入一些隨機(jī)的差別有利于實(shí)際使用中的穩(wěn)定性。例如深度圖不變對(duì)RGB進(jìn)行10個(gè)像素的平移,或者對(duì)RGB進(jìn)行3°的旋轉(zhuǎn)等手段。

        3.4 深度圖輸入格式

        深度圖不同于RGB圖像,它只有一個(gè)通道,圖像上的每個(gè)像素代表目標(biāo)到鏡頭的距離,一般以毫米表示?,F(xiàn)有的大部分商用深度相機(jī)都有適用范圍,此處使用的奧比中光Astra Pro設(shè)備的深度范圍為500~8000mm。在實(shí)際應(yīng)用中大部分文獻(xiàn)都將深度圖轉(zhuǎn)為灰度圖然后輸入到網(wǎng)絡(luò)中。考慮到深度圖像含有大量的噪聲,需要對(duì)深度圖做去噪處理。首先進(jìn)行窗口半徑值為5的中值濾波,將深度值小于500和大于8000(取決于深度相機(jī)的最近和最遠(yuǎn)有效距離)的像素值設(shè)為0,如下式:

        式中Dt表示經(jīng)過閾值篩選后的深度圖。最后,將深度圖轉(zhuǎn)為灰度圖,如下式:

        4 實(shí)驗(yàn)測(cè)試

        4.1 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

        為了驗(yàn)證網(wǎng)絡(luò)的檢測(cè)效果,選擇2組網(wǎng)上公開的RGB-D數(shù)據(jù)集IODoor和EPFL[13],并使用Astra Pro設(shè)備自采集了194張包含人體目標(biāo)的圖片,共包含588個(gè)人體目標(biāo);每張圖最多包含7個(gè)人。該數(shù)據(jù)集采集的是室內(nèi)門口區(qū)域的畫面。

        為客觀評(píng)價(jià)所提出的改進(jìn)檢測(cè)方法的效果,選擇查準(zhǔn)率P(Precision)、查全率R(Recall)、平均精度Pave(Average precision)和平衡F1得分(F1 score)這4個(gè)指標(biāo)作為檢測(cè)精度的評(píng)判標(biāo)準(zhǔn),具體公式為:

        式中,TP、FN、FP和TN分別表示真正例(True Positive)、假反例(False Negative)、假正例(False Positive)和真反例(True Negative)。

        網(wǎng)絡(luò)效率評(píng)估選用每秒浮點(diǎn)運(yùn)算次數(shù)(Floatingpoint operations per second,簡(jiǎn)稱FLOPS)和CPU下的運(yùn)行時(shí)間作為評(píng)價(jià)標(biāo)準(zhǔn)。

        4.2 檢測(cè)結(jié)果

        首先在IODoor數(shù)據(jù)集上進(jìn)行測(cè)試,該數(shù)據(jù)是將Kinect V2搭載到機(jī)器人設(shè)備上,采集室內(nèi)和室外多個(gè)場(chǎng)景下的RGB-D數(shù)據(jù),并提供訓(xùn)練集和測(cè)試集。

        實(shí)驗(yàn)過程與文獻(xiàn)[10]保持一致,設(shè)置IOU閾值為0.6,訓(xùn)練時(shí)不加入額外數(shù)據(jù),但會(huì)進(jìn)行數(shù)據(jù)增強(qiáng)。表2列出了改進(jìn)方法與參考方法的對(duì)比結(jié)果。

        表2 IODoor數(shù)據(jù)集下檢測(cè)結(jié)果對(duì)比單位:%

        由表2可以看出,在輸入為RGB的檢測(cè)結(jié)果中,文獻(xiàn)[11]的效果最好,原因是它使用了兩步檢測(cè)法Faster-RCNN,其檢測(cè)精度高,但速度非常慢,網(wǎng)絡(luò)模型龐大。所提改進(jìn)方法的檢測(cè)效果排第二。此處還在實(shí)驗(yàn)中加入YOLOV3-tiny的檢測(cè)結(jié)果,它是YOLOV3的輕量級(jí)版本,結(jié)果表明改進(jìn)方法的檢測(cè)效果優(yōu)于YOLOV3-tiny。

        其次,在EPFL數(shù)據(jù)集下進(jìn)行測(cè)試。同樣由Kinect V2采集,包含兩個(gè)室內(nèi)場(chǎng)景下的RGB-D數(shù)據(jù):

        場(chǎng)景1:實(shí)驗(yàn)室(EPFL-LAB),包括950幀RGB-D數(shù)據(jù)和最多4個(gè)人;

        場(chǎng)景2:走廊(EPFL-CORRIDOR),包括超過3000幀的數(shù)據(jù)和最多8個(gè)人。

        文獻(xiàn)[14]對(duì)該數(shù)據(jù)集重新標(biāo)注,以解決嚴(yán)重遮擋的目標(biāo)被漏掉的問題,在此也使用該標(biāo)注信息計(jì)算結(jié)果。檢測(cè)結(jié)果如表3所示,可見本方法的檢測(cè)效果為三種方法當(dāng)中最優(yōu)。

        表3 EPFL數(shù)據(jù)集下的檢測(cè)結(jié)果單位:%

        不同方法在各個(gè)驗(yàn)證數(shù)據(jù)集下的實(shí)際檢測(cè)效果如圖2所示。

        圖2 檢測(cè)結(jié)果

        從圖2可以看出,只使用RGB進(jìn)行檢測(cè)時(shí),對(duì)遮擋和重疊度比較高的人體檢測(cè)效果差(圖2(a)、圖2(d)、圖2(g)),加入深度信息后遮擋情況下的檢測(cè)有了很大的改善(其余各圖)。

        4.3 運(yùn)行時(shí)間

        在CPU平臺(tái)下驗(yàn)證網(wǎng)絡(luò)運(yùn)行時(shí)間。實(shí)驗(yàn)使用的CPU配置為Core i5-7200,主頻2.5GHz。最終的檢測(cè)網(wǎng)絡(luò),使用EPFL和IODoor數(shù)據(jù)集進(jìn)行訓(xùn)練,使用Astra數(shù)據(jù)集進(jìn)行測(cè)試。該網(wǎng)絡(luò)在Pytorch框架下實(shí)現(xiàn),推斷時(shí)將其轉(zhuǎn)換為ONNX格式,然后在Win10操作系統(tǒng)下使用C++運(yùn)行推斷部分并統(tǒng)計(jì)時(shí)間。CPU測(cè)試結(jié)果如表4所示。

        表4 各方法在CPU下的運(yùn)行效率

        表中列出了各方法的運(yùn)行時(shí)間,包括預(yù)處理、網(wǎng)絡(luò)推斷和后處理總共的用時(shí)。其中,文獻(xiàn)[8-9]使用傳統(tǒng)方法進(jìn)行檢測(cè),因此沒有FLOPs指標(biāo),其FPS結(jié)果摘自原文。由表中數(shù)據(jù)可見所提改進(jìn)網(wǎng)絡(luò)的FLOPS遠(yuǎn)低于其他方法,運(yùn)行時(shí)間也高于其它方法,不同輸入下的幀率都超過了30f/s,輸入為Depth的檢測(cè)速度僅需18.1ms,這是因?yàn)樯疃葓D中包含很多零值,因此計(jì)算速度更快。

        5 結(jié)束語

        所提出的基于輕量級(jí)CNN網(wǎng)絡(luò)的RGB-D人體目標(biāo)檢測(cè)算法,在兼顧檢測(cè)效果的同時(shí)保證了檢測(cè)速度,因此在眾多實(shí)際應(yīng)用場(chǎng)景中都有極高的適用性。但由于RGB-D數(shù)據(jù)采集和標(biāo)注困難,研究使用的數(shù)據(jù)集多樣性仍然不夠豐富,更多的是針對(duì)站立的人體目標(biāo),而像醫(yī)院、室內(nèi)等環(huán)境下,人體姿態(tài)多種多樣,包括坐姿,躺姿等。在后續(xù)研究中,將面向更多的場(chǎng)景進(jìn)行數(shù)據(jù)采集和網(wǎng)絡(luò)測(cè)試,以擴(kuò)展改方法對(duì)人體目標(biāo)檢測(cè)的適應(yīng)范圍。

        猜你喜歡
        深度圖損失人體
        少問一句,損失千金
        人體“修補(bǔ)匠”
        人體冷知識(shí)(一)
        排便順暢,人體無毒一身輕
        胖胖損失了多少元
        基于深度圖的3D-HEVC魯棒視頻水印算法
        玉米抽穗前倒伏怎么辦?怎么減少損失?
        奇妙的人體止咳點(diǎn)
        特別健康(2018年3期)2018-07-04 00:40:10
        一種基于局部直方圖匹配的深度編碼濾波算法
        疊加速度譜在鉆孔稀少地區(qū)資料解釋中的應(yīng)用
        科技視界(2016年2期)2016-03-30 11:17:03
        亚洲一区二区视频免费看| 欧美婷婷六月丁香综合色| 日日摸夜夜欧美一区二区| 精品黑人一区二区三区| 各类熟女熟妇激情自拍| 国产又猛又黄又爽| 97久久天天综合色天天综合色hd| 色婷婷久久综合中文久久蜜桃av| 中文亚洲av片在线观看不卡| 亚洲国产一区二区三区最新| 五十路一区二区中文字幕| 日本高清不卡一区二区三区| 精彩亚洲一区二区三区| 午夜裸体性播放| 996久久国产精品线观看| 久久综合视频网站| 偷拍自拍一区二区三区| 亚洲天堂亚洲天堂亚洲色图| 国产精品免费av片在线观看| 精品一区二区三区在线观看视频| 亚洲αⅴ无码乱码在线观看性色| 日韩精品中文字幕 一区| 亚洲国产综合精品中久| 免费看男女做羞羞的事网站| 特级毛片a级毛片在线播放www| 精品福利一区| 国产一区二区三区在线av| 人妻丰满熟妇aⅴ无码| 国产大陆亚洲精品国产| 人妖精品视频在线观看| 日本韩国三级在线观看| 医院人妻闷声隔着帘子被中出| 海角国精产品一区一区三区糖心| 97se亚洲国产综合自在线图片| 一级午夜视频| 99久久精品国产片| 国产黄色一区二区在线看| 国产一区二区三区乱码| 亚洲欧美日韩一区二区三区在线 | 国产蜜臀精品一区二区三区| 亚洲人成综合第一网站|