亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于全景視覺圖像的實(shí)時(shí)目標(biāo)檢測方法

        2022-07-21 04:12:14黃天果沈慶陽
        關(guān)鍵詞:全景畸變投影

        黃天果,何 嘉,沈慶陽

        (成都信息工程大學(xué) 計(jì)算機(jī)學(xué)院,四川 成都 610225)

        0 引 言

        隨著虛擬現(xiàn)實(shí)(virtual reality,VR)技術(shù)的飛速發(fā)展與廣泛應(yīng)用,360°全景視覺圖像的應(yīng)用也隨之增加。360°全景視覺圖像由于其對周圍環(huán)境無死角的全感知能力在無人駕駛領(lǐng)域中發(fā)揮越來越重要的作用。

        基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的目標(biāo)檢測方法現(xiàn)已成為目標(biāo)檢測領(lǐng)域的主流方法。根據(jù)訓(xùn)練方式的不同,當(dāng)前目標(biāo)檢測方法主要分為基于區(qū)域候選框提取的雙階段方法和能實(shí)現(xiàn)端到端訓(xùn)練的單階段方法,其中雙階段方法以R-CNN[1]系列為主,通過提取候選框后加以訓(xùn)練實(shí)現(xiàn)高精度目標(biāo)檢測。但隨著實(shí)際應(yīng)用的深入以及對實(shí)時(shí)要求的提高,R-CNN系列方法很難用于無人駕駛等對實(shí)時(shí)性要求較高的領(lǐng)域,而端到端的單階段方法[2]的出現(xiàn)改變了這一情況,在可接受的范圍內(nèi)降低精確度而大幅提高檢測速度,使得單階段方法更受工業(yè)界歡迎。

        通過實(shí)驗(yàn)可以驗(yàn)證,不同圖像輸入大小對基于全景視覺下的目標(biāo)檢測結(jié)果造成很大影響,采用高分辨率全景圖像能有效提高檢測精確度,但檢測速度較慢;目前基于道路場景下的全景目標(biāo)檢測數(shù)據(jù)集很少,導(dǎo)致訓(xùn)練缺乏足夠的樣本數(shù),對檢測精確度造成影響;針對原YOLO[2]作者Redmon提出的最新目標(biāo)檢測方法YOLOv3[3],改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)使其在可接受范圍內(nèi)降低精確度并有效提高高分辨率全景圖像檢測速度。

        1 相關(guān)工作

        從三維的球面圖像變換到二維平面圖像的過程被稱為投影,根據(jù)球面不同位置的顯示需要,投影方式可以分為圓柱投影、圓錐投影和方位投影。在全景視覺圖像中等距柱狀投影(equirectangular projection,ERP)是最常用的投影格式。ERP投影方式屬于圓柱投影,由于其投影方式簡單,導(dǎo)致圖像在南北極區(qū)周圍造成畸變,給目標(biāo)檢測帶來挑戰(zhàn)。但在無人駕駛領(lǐng)域,目標(biāo)檢測對物體的識別主要來自于水平方向目標(biāo)的檢測,所以采用ERP投影是最好的方式。其次由于ERP全景視覺圖像的成像方式,決定了全景圖像中目標(biāo)對象的大小與其所在圖像中位置有關(guān),不同位置對目標(biāo)大小的縮放與畸變程度造成影響,從而導(dǎo)致低分辨率下圖像中目標(biāo)的有效像素相對更少,提高目標(biāo)檢測的難度。

        目標(biāo)檢測模型訓(xùn)練過程中,在數(shù)據(jù)集不足情況下為避免出現(xiàn)過擬合,進(jìn)行數(shù)據(jù)增強(qiáng)是非常有必要的。針對低分辨率數(shù)據(jù)集如經(jīng)典目標(biāo)檢測數(shù)據(jù)集Pascal VOC(the pascal visual object classes challenge),數(shù)據(jù)增強(qiáng)方法包括水平翻轉(zhuǎn)、圖像旋轉(zhuǎn)、隨機(jī)剪裁、平移變換、尺度縮放、顏色擾動以及添加噪聲等[4],文獻(xiàn)[5]中提出馬賽克數(shù)據(jù)增強(qiáng)方法選擇4張不同圖片經(jīng)隨機(jī)縮放和剪裁等操作后拼成一張圖片作為訓(xùn)練輸入獲得4個(gè)不同的上下文混合特征,顯著減少對大批量數(shù)據(jù)的需求。當(dāng)采用高分辨率(512×1024)的全景圖片作為輸入,對于以608×608為最高輸入大小的YOLOv3來說,簡單地將圖片進(jìn)行縮放翻轉(zhuǎn)或多張圖結(jié)合并不能使存在畸變的全景圖像目標(biāo)對象特征得到增強(qiáng)。本文針對全景ERP圖像成像原理,提出全景數(shù)據(jù)增強(qiáng)方法能有效增加目標(biāo)對象畸變特征,增加模型對不同程度畸變的泛化能力并提高模型檢測結(jié)果。

        本文基于MobileNet[10]網(wǎng)絡(luò)結(jié)構(gòu)思想為單階段檢測模型YOLOv3框架引入深度可分離卷積結(jié)構(gòu)來構(gòu)建主干網(wǎng)絡(luò),針對全景圖像成像特點(diǎn)改進(jìn)YOLOv3網(wǎng)絡(luò)。新的網(wǎng)絡(luò)結(jié)構(gòu)相對原始YOLOv3網(wǎng)絡(luò)在參數(shù)量上減少65.08%。實(shí)驗(yàn)數(shù)據(jù)采用全景數(shù)據(jù)集OSV(omnidirectional street-view)[6]。為了解決全景數(shù)據(jù)集不足的問題,本文提出針對全景圖像的數(shù)據(jù)增強(qiáng)方法,對原始數(shù)據(jù)集擴(kuò)充一倍訓(xùn)練樣本量。實(shí)驗(yàn)結(jié)果表明,擴(kuò)充后的訓(xùn)練數(shù)據(jù)集訓(xùn)練模型在交并比(intersection over union,IOU)為0.5的條件下評估的模型平均精確度(mean average precision,mAP)相比原始訓(xùn)練數(shù)據(jù)集訓(xùn)練模型提高4.75%。

        2 方法分析

        2.1 全景數(shù)據(jù)集增強(qiáng)方法

        在全景視覺圖像中,采用的全景相機(jī)通常會有多個(gè)攝像頭分布在相機(jī)周圍,采集后的多個(gè)圖像采用圖像拼接成一個(gè)球面后以各種投影格式存儲成二維圖像,主要有立方體投影、圓形投影、小行星投影和球面投影等。其中球面投影即ERP格式投影圖像,如圖1所示。

        圖1 ERP格式全景模版

        通過將ERP格式全景圖重新投影到球面上,使球面在三維笛卡爾坐標(biāo)系下隨機(jī)旋轉(zhuǎn),再投影到二維平面,獲取旋轉(zhuǎn)變換后點(diǎn)的位置對應(yīng)旋轉(zhuǎn)前位置的像素點(diǎn),實(shí)現(xiàn)圖像變換。以此能有效增加圖像中目標(biāo)對象的畸變特征,使目標(biāo)對象畸變多樣化,針對全景圖像增加訓(xùn)練樣本。數(shù)據(jù)增強(qiáng)方法過程如下:

        首先需要將二維平面上ERP格式圖像上各像素點(diǎn)在位置上進(jìn)行歸一化,將圖像像素點(diǎn)信息從平面直角坐標(biāo)系轉(zhuǎn)化到空間極坐標(biāo)系,其過程可以表示為

        (1)

        其中,W表示原始ERP圖像寬度,H表示原始ERP圖像高度;φ為原點(diǎn)到球面上點(diǎn)的射線與X軸形成的角度,θ為原點(diǎn)到球面上點(diǎn)的射線與Y軸形成的角度。文本設(shè)球面為半徑置1的單位球,用以簡化位置計(jì)算量。將圖像像素信息從平面直角坐標(biāo)系轉(zhuǎn)換到空間極坐標(biāo)系后需要再轉(zhuǎn)換到空間直角坐標(biāo)系,從而實(shí)現(xiàn)球面在空間的旋轉(zhuǎn)操作。其過程表示為

        (2)

        其中,X、Y、Z分別對應(yīng)空間直角坐標(biāo)系下的X軸、Y軸和Z軸,通過空間矩陣變換可以實(shí)現(xiàn)球面在空間的旋轉(zhuǎn),對空間直角坐標(biāo)系下的各點(diǎn)進(jìn)行矩陣變換,其變換矩陣表示為

        (3)

        (4)

        (5)

        其中,Rx、Ry、Rz分別表示在空間直角坐標(biāo)系中一點(diǎn)繞X、Y、Z軸旋轉(zhuǎn)的變換矩陣,rx、ry、rz分別表示繞X、Y、Z軸旋轉(zhuǎn)度數(shù)(單位:弧度)。

        實(shí)驗(yàn)結(jié)果表明,ERP格式下全景圖像在空間中進(jìn)行繞軸旋轉(zhuǎn),其中,針對Z軸進(jìn)行繞軸旋轉(zhuǎn)表現(xiàn)在平面ERP格式圖像中是圖像左右平移,對于平移的ERP圖像,其畸變信息并不會隨平移量的增加減少產(chǎn)生變化,所以針對繞Z軸旋轉(zhuǎn)的旋轉(zhuǎn)度數(shù)rz可以是任意度數(shù) ([-2π,2π]); 針對X軸的繞軸旋轉(zhuǎn)表現(xiàn)為左右兩模塊的順逆時(shí)針旋轉(zhuǎn),引發(fā)前后模塊上下移動并伴隨畸變程度增加;針對Y軸的繞軸旋轉(zhuǎn)表現(xiàn)為前后模塊的順逆旋轉(zhuǎn),引發(fā)左右模塊上下移動并伴隨畸變程度增加。

        針對畸變程度,本文指定繞X軸、Y軸旋轉(zhuǎn)度數(shù)控制在 [-π/12,π/12] (其中負(fù)號表示反方向旋轉(zhuǎn)),其原因?yàn)檫^大旋轉(zhuǎn)度數(shù)對于繞X軸和Y軸會使圖像產(chǎn)生不可逆轉(zhuǎn)的畸變程度,直接導(dǎo)致圖像中目標(biāo)對象失去真實(shí)性從而降低檢測模型性能。實(shí)驗(yàn)結(jié)果表明旋轉(zhuǎn)度數(shù)控制在 [-π/12,π/12] 能有效避免圖像產(chǎn)生過大的畸變影響檢測效果。

        定義空間中一個(gè)點(diǎn)坐標(biāo)為

        [XijYijZij];i∈[0,H),j∈[0,W)

        (6)

        設(shè)該點(diǎn)繞X、Y、Z軸旋轉(zhuǎn)弧度分別為rx、ry、rz, 旋轉(zhuǎn)后的點(diǎn)表示為

        (7)

        經(jīng)過空間旋轉(zhuǎn)操作后,空間直角坐標(biāo)系下的像素信息需要重新投影到平面上,其過程為式(1)、式(2)的逆過程,具體操作如下:首先將旋轉(zhuǎn)后的空間直角坐標(biāo)點(diǎn)重新轉(zhuǎn)換到空間極坐標(biāo)系,其過程表示為

        (8)

        最后將空間極坐標(biāo)轉(zhuǎn)為平面坐標(biāo),其過程表現(xiàn)為

        (9)

        其中,“”表示對W和H取余。

        到此完成對ERP圖像的旋轉(zhuǎn)投影工作。如圖2所示,將平面ERP圖像上點(diǎn)在空間坐標(biāo)系下繞X軸旋轉(zhuǎn)π/12,繞Y軸旋轉(zhuǎn)π/12,繞Z軸旋轉(zhuǎn)π/4后再投影的結(jié)果。

        圖2 ERP旋轉(zhuǎn)投影展示

        由圖2可以看出,在進(jìn)行ERP圖像旋轉(zhuǎn)投影之后,相比于圖1圖像整體信息發(fā)生改變,針對Z軸旋轉(zhuǎn)實(shí)現(xiàn)圖像左右平移使原本在正前方的模塊移動到右邊,針對X軸和Y軸的旋轉(zhuǎn)實(shí)現(xiàn)不同模塊的旋轉(zhuǎn)。其中也能看出上下模塊畸變程度增加最為強(qiáng)烈,但由于全景視覺在實(shí)時(shí)目標(biāo)檢測中的應(yīng)用并不關(guān)注上下模塊,使得其變化對檢測的影響不大。

        2.2 目標(biāo)檢測已有方法分析

        單階段目標(biāo)檢測方法采用端到端的訓(xùn)練方式,其檢測流程通常為:首先輸入一定尺寸的圖片,然后通過主干網(wǎng)絡(luò)(backbone)提取深度特征,將提取的特征輸入頸部網(wǎng)絡(luò)(neck)進(jìn)行特征融合等操作使網(wǎng)絡(luò)更好地適應(yīng)特征,最后通過頭部網(wǎng)絡(luò)(head)進(jìn)行分類回歸獲取目標(biāo)對象。其優(yōu)勢表現(xiàn)在端到端訓(xùn)練網(wǎng)絡(luò)模型在檢測速度時(shí)更快,相比于雙階段目標(biāo)檢測方法,單階段目標(biāo)檢測方法省去了提取候選框的步驟引入錨框的概念,實(shí)現(xiàn)直接分類回歸節(jié)省大量時(shí)間,但同時(shí)也降低了檢測精度。

        在YOLOv3原文中,作者定義網(wǎng)絡(luò)輸入大小最小為416×416,最大為608×608。由于采用Darknet53[3]作為主干網(wǎng)絡(luò),從3個(gè)尺度提取特征分別是/8(縮小8倍),/16,/32,所以圖像輸入需要滿足32的倍數(shù)。在Darknet53中,主要采用的組件是殘差網(wǎng)絡(luò)[3],其結(jié)構(gòu)如圖3所示。

        圖3 殘差網(wǎng)絡(luò)結(jié)構(gòu)

        通過主干網(wǎng)絡(luò)提取3個(gè)尺度下的特征分別對應(yīng)3種不同大小的目標(biāo)對象,在YOLOv3頭部結(jié)構(gòu)中輸出最小的特征(/32)會通過上采樣與大尺度特征進(jìn)行特征融合最后實(shí)現(xiàn)融合后的多尺度輸出。通過YOLOv3結(jié)構(gòu)輸出的特征在與預(yù)定義錨框(anchor-box)結(jié)合訓(xùn)練時(shí)需要首先進(jìn)行解碼操作:將不同尺度目標(biāo)特征與對應(yīng)縮小倍數(shù)(stride)相乘;對置信度和預(yù)測類別進(jìn)行Sigmoid操作使其控制在[0,1]。

        2.3 YOLOv3網(wǎng)絡(luò)輕量化

        通過對原始YOLOv3網(wǎng)絡(luò)的分析與實(shí)驗(yàn)可知,在高分辨率全景圖像輸入情況下,圖像檢測耗時(shí)主要在網(wǎng)絡(luò)計(jì)算和解碼操作上。針對耗時(shí)原因,采取以下方式實(shí)現(xiàn)實(shí)時(shí)檢測。

        2.3.1 基于深度可分離卷積神經(jīng)思想的主干網(wǎng)絡(luò)

        深度可分離卷積神經(jīng)網(wǎng)絡(luò)經(jīng)過實(shí)驗(yàn)驗(yàn)證[11]可以在更少的參數(shù)量實(shí)現(xiàn)同等卷積效果,其運(yùn)算過程可以表示為

        (10)

        其中,βi表示網(wǎng)絡(luò)第i層的輸入特征圖;ξin表示第i層特征圖的第n個(gè)通道;k表示卷積核;通過D(·) 操作實(shí)現(xiàn)深度可分離卷積操作中逐通道卷積操作,與常規(guī)卷積操作中輸入層中各個(gè)通道都需要與每個(gè)卷積核對應(yīng)通道進(jìn)行卷積不同,逐通道卷積中卷積核通道數(shù)不是輸出通道數(shù),而是采用輸入通道數(shù),通過對應(yīng)通道卷積實(shí)現(xiàn)深度可分離卷積的第一次卷積操作;S(·) 是將逐通道操作的輸出進(jìn)行逐點(diǎn)卷積操作,其過程為通過輸出通道個(gè)數(shù)的1×1大小卷積核與當(dāng)前輸入特征圖進(jìn)行常規(guī)卷積操作,從而實(shí)現(xiàn)卷積計(jì)算量的大幅下降。τ為D(·) 操作的輸出表示第i層特征在經(jīng)過逐通道卷積后的狀態(tài),并作為S(·) 操作的輸入。最終輸出βi+1表示第i+1層的輸入。

        假設(shè)輸入特征圖通道數(shù)為n, 卷積核大小為k×k, 輸出通道數(shù)為m, 相比于常規(guī)卷積操作,深度可分離卷積參數(shù)量減少1-1/m-1/k2。 基于以上分析,采用深度可分離卷積替換Darknet53殘差網(wǎng)絡(luò)中的兩次常規(guī)卷積操作能有效減少網(wǎng)絡(luò)參數(shù)量,本文稱其為深度可分離特征融合塊(depth separability feature fusion block,DSFF_Block)。

        2.3.2 針對解碼耗時(shí)問題改進(jìn)頭部網(wǎng)絡(luò)

        通過Darknet53主干網(wǎng)絡(luò)會輸出3種尺度(/8,/16,/32)的特征圖,在YOLOv3頭部網(wǎng)絡(luò)中,將最小尺度(/32)的特征圖直接進(jìn)行分類回歸,并對其上采樣與中型尺度(/16)結(jié)合進(jìn)行輸出,同理上采樣與最大尺度(/8)結(jié)合作為最大尺度輸出。在YOLOv3中作者沒有加入全連接層(fully connected layer,F(xiàn)C),而是分別對3種尺寸特征圖解碼到標(biāo)簽格式,以供訓(xùn)練。

        針對3種尺寸的解碼會造成大量計(jì)算,而根據(jù)高分辨率全景圖像目標(biāo)對象分布情況,本文取消頭部網(wǎng)絡(luò)中中尺度特征圖(/16)的輸出,改進(jìn)為將其進(jìn)行向上向下采樣并分別與最大尺度和最小尺度結(jié)合的方式實(shí)現(xiàn)特征融合。改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。

        訓(xùn)練圖像在輸入模型后,會首先經(jīng)過一個(gè)32×3×3的卷積操作主要是為提取圖像特征進(jìn)行圖像通道數(shù)預(yù)擴(kuò)大。之后連續(xù)經(jīng)過5次DSFF_Block,每一個(gè)DSFF_Block都有不同大小的特征圖輸出(經(jīng)過不同個(gè)數(shù)卷積核進(jìn)行卷積操作,如圖4中64,128分別表示經(jīng)過64×3×3和128×3×3的卷積操作)和不同的循環(huán)次數(shù)(如圖4中1×,2×,4×分別表示進(jìn)行1、2、4次循環(huán)),且每一個(gè)DSFF_Block循環(huán)塊在進(jìn)行循環(huán)前包含一次下采樣操作,每執(zhí)行一次DSFF_Block操作對其輸出進(jìn)行一次非線性運(yùn)算:表現(xiàn)為批量歸一化和線性修正單元(rectufied lear unit,ReLU)的組合。

        圖4 改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)

        經(jīng)過主干網(wǎng)絡(luò)輸出3種尺度的特征圖,在頸部網(wǎng)絡(luò)中通過上下采樣實(shí)現(xiàn)多維特征融合,最后網(wǎng)絡(luò)輸出為兩種尺寸的多維向量,再經(jīng)過解碼操作后,網(wǎng)絡(luò)輸出為向量

        (batch_size,r_h,r_w,3,num_class+5)

        (11)

        其中,batch_size表示批處理數(shù),即單次向模型輸入圖像的數(shù)量;r_h和r_w表示兩種尺度的特征圖;3表示3種預(yù)定義的anchor-box;num_class表示目標(biāo)種類個(gè)數(shù),采用one-hot編碼表示;5表示預(yù)測框信息(中心點(diǎn)位置以及寬高)和置信度。

        3 實(shí) 驗(yàn)

        本文進(jìn)行了3個(gè)實(shí)驗(yàn):實(shí)驗(yàn)一針對原始YOLOv3采用不同分辨率全景圖像作為輸入,考察不同分辨率輸入對模型檢測精度和速度的影響;實(shí)驗(yàn)二驗(yàn)證擴(kuò)充數(shù)據(jù)集的有效性;實(shí)驗(yàn)三量化改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)后模型的性能。

        3.1 損失函數(shù)及訓(xùn)練超參數(shù)

        網(wǎng)絡(luò)訓(xùn)練損失函數(shù)采用多目標(biāo)函數(shù)衡量,分別是目標(biāo)框回歸損失函數(shù)、類別損失函數(shù)以及置信度損失函數(shù)。其中目標(biāo)框回歸損失采用CIoU[12]指導(dǎo)損失,類別損失函數(shù)采用原始Sigmoid交叉熵?fù)p失函數(shù),并采用Focal Loss[13]指導(dǎo)置信度損失。

        在訓(xùn)練過程中,由于圖像大小輸入分辨率高,batch_size設(shè)置為8,Epoch為100;對于多世代(epoch)的深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練,學(xué)習(xí)率(learning rate,LR)直接影響網(wǎng)絡(luò)損失收斂方向,也對有網(wǎng)絡(luò)收斂速度造成影響,通常學(xué)習(xí)率調(diào)整策略包括在訓(xùn)練中微調(diào)、隨迭代次數(shù)增加的線性變化以及周期性變化等。本實(shí)驗(yàn)通過設(shè)置動態(tài)學(xué)習(xí)率實(shí)現(xiàn)學(xué)習(xí)率隨迭代次數(shù)增加的非線性變化,其過程可以表示為

        (12)

        (13)

        其中,Lx表示最大學(xué)習(xí)率設(shè)為10-4,Ls表示最小學(xué)習(xí)率設(shè)為10-6;i為訓(xùn)練到第幾個(gè)Epoch;G為訓(xùn)練樣本總數(shù);E為預(yù)熱階段Epoch數(shù);由此,學(xué)習(xí)率在第U步達(dá)到最大值;T為總的訓(xùn)練步數(shù),在達(dá)到最大值后以非線性曲線下降,在最后一個(gè)Epoch達(dá)到最低值。

        3.2 不同分辨率輸入對模型的影響

        本實(shí)驗(yàn)中算法模型采用YOLOv3進(jìn)行實(shí)驗(yàn)主要驗(yàn)證不同分辨率圖像作為輸入時(shí)對模型檢測精度和速度的影響。在原始YOLOv3中作者采用416×416作為圖像輸入大小,針對全景圖像目標(biāo)對象大小與原圖像比例的關(guān)系,本實(shí)驗(yàn)最小輸入采用608×608,再分別使用1024×1024,512×1024作為輸入大小進(jìn)行驗(yàn)證。實(shí)驗(yàn)結(jié)果見表1。

        表1 不同分辨率輸入大小在YOLOv3上測試結(jié)果

        由表1數(shù)據(jù)可知,相對于608×608輸入大小,1024×1024輸入大小在mAP上提高了31.68%,但在檢測速度上,每秒幀數(shù)下降47.5%,由此可以得出結(jié)論,由于深度神經(jīng)網(wǎng)絡(luò)多次卷積操作提取特征造成感受野的固定化,高分辨率全景圖像輸入能提取更大的感受野使得檢測精度提高,同時(shí)需要更多的計(jì)算造成檢測速度下降。通過將512×1024作為輸入和1024×1024輸入進(jìn)行比較可以看出,盡管在檢測精度上只有較小的下降,但仍無法滿足實(shí)時(shí)檢測的要求(通常認(rèn)為20 FPS以上基本滿足實(shí)時(shí))。

        3.3 針對全景數(shù)據(jù)集的數(shù)據(jù)增強(qiáng)方法的有效性驗(yàn)證

        由表2數(shù)據(jù)顯示,擴(kuò)充后的數(shù)據(jù)集相比原數(shù)據(jù)集對基于全景圖像的目標(biāo)檢測平均精確度有積極作用,在采用YOLOv3和MobileNet作為檢測方法進(jìn)行訓(xùn)練的模型在檢測精度上分別提高了4.75%和7.49%,驗(yàn)證了全景數(shù)據(jù)集數(shù)據(jù)增強(qiáng)方法能有效提高全景視覺圖像目標(biāo)對象的畸變特征,增強(qiáng)模型對畸變檢測的泛化能力。

        表2 全景圖像數(shù)據(jù)集數(shù)據(jù)增強(qiáng)方法有效性測試結(jié)果

        3.4 YOLOv3輕量化網(wǎng)絡(luò)模型性能測試

        本實(shí)驗(yàn)驗(yàn)證所提出的輕量化YOLOv3結(jié)構(gòu)能有效提升高分辨率全景圖像輸入下目標(biāo)檢測速度。與經(jīng)典雙階段目標(biāo)檢測方法Faster R-CNN[7]以及各種單階段目標(biāo)檢測方法包括SSD[15]、YOLOv3以及輕量化模型MobileNetv3進(jìn)行比較,實(shí)驗(yàn)采用512×1024作為圖像輸入大小,采用擴(kuò)充的全景數(shù)據(jù)集(OSV-EX)作為實(shí)驗(yàn)數(shù)據(jù)集,實(shí)驗(yàn)結(jié)果見表3。

        表3 針對全景目標(biāo)檢測的YOLOv3輕量化 網(wǎng)絡(luò)結(jié)構(gòu)測試結(jié)果

        由表3數(shù)據(jù)顯示,F(xiàn)aster R-CNN作為R-CNN系列雙階段目標(biāo)檢測算法,也是第一次通過RPN網(wǎng)絡(luò)引入Anchor概念,其在全景圖像中的檢測精確度上達(dá)到最高的88.81%,但檢測速度只有1.81 FPS,驗(yàn)證雙階段目標(biāo)檢測算法在實(shí)時(shí)檢測性能上的不足;而端到端訓(xùn)練的SSD方法在高分辨率的全景圖像輸入下也難以達(dá)到實(shí)時(shí)檢測。相比YOLOv3目標(biāo)檢測方法,本文提出的輕量化網(wǎng)絡(luò)結(jié)構(gòu)在網(wǎng)絡(luò)參數(shù)量上減少了65.08%,在可接受范圍內(nèi)下降一定檢測精度(3.08%),模型檢測速度提升31.81%,達(dá)到25.03 FPS,實(shí)現(xiàn)實(shí)時(shí)檢測。作為對照實(shí)驗(yàn),MobileNetv3盡管在檢測速度上達(dá)到23.64 FPS,但檢測精度相對較低,不利于實(shí)際應(yīng)用。

        4 結(jié)束語

        本文針對全景視覺圖像實(shí)時(shí)目標(biāo)檢測進(jìn)行相關(guān)研究。首先針對全景圖像訓(xùn)練數(shù)據(jù)集不足的問題,提出一種適用于全景圖像數(shù)據(jù)增強(qiáng)的方法,該方法能有效增強(qiáng)全景ERP格式圖像中目標(biāo)對象的畸變特征;基于YOLOv3結(jié)構(gòu)和深度可分離卷積實(shí)現(xiàn)主干網(wǎng)絡(luò)輕量化,同時(shí)對頭部網(wǎng)絡(luò)進(jìn)行優(yōu)化減少解碼過程計(jì)算量。實(shí)驗(yàn)結(jié)果表明,輕量化的網(wǎng)絡(luò)結(jié)構(gòu)在網(wǎng)絡(luò)參數(shù)量上減少了65.08%,實(shí)現(xiàn)高分辨率(512×1024)全景圖像輸入下的實(shí)時(shí)目標(biāo)檢測。

        本文提出的輕量化網(wǎng)絡(luò)的方法在實(shí)現(xiàn)實(shí)時(shí)檢測的同時(shí)也造成了檢測精度的少量下降,主要是由于深度可分離卷積在降低參數(shù)量的同時(shí)對提取的特征造成壓縮對檢測器造成一定影響。在未來的工作中,將研究采用自適應(yīng)剪枝的方式對網(wǎng)絡(luò)進(jìn)行輕量化,并量化其對檢測性能的影響。

        猜你喜歡
        全景畸變投影
        解變分不等式的一種二次投影算法
        戴上耳機(jī),享受全景聲 JVC EXOFIELD XP-EXT1
        基于最大相關(guān)熵的簇稀疏仿射投影算法
        找投影
        找投影
        全景敞視主義與偵探小說中的“看”
        在Lightroom中校正鏡頭與透視畸變
        從5.1到全景聲就這么簡單 FOCAL SIB EVO DOLBY ATMOS
        全景搜索
        特別文摘(2016年21期)2016-12-05 17:53:36
        輻射誘導(dǎo)染色體畸變的快速FISH方法的建立
        真人在线射美女视频在线观看 | 疯狂做受xxxx高潮欧美日本| 人妻在线日韩免费视频| 日本韩国一区二区三区| 亚洲中字幕永久在线观看| 国产精品久久三级精品| 色爱情人网站| 亚洲男人第一无码av网站| a级毛片在线观看| 99热这里只有精品国产66| 国产精品久久一区二区蜜桃| 成年女人免费v片| 男人女人做爽爽18禁网站| 色猫咪免费人成网站在线观看| 国产高清在线91福利| 国内偷拍精品一区二区| 国产激情无码视频在线播放性色| 丰满女人又爽又紧又丰满| 国产欧美激情一区二区三区| 精品久久一品二品三品| 97成人精品国语自产拍| 亚洲精品成人网线在线播放va | 精品国产一区二区三区香蕉| 亚洲一区二区三区免费的视频| 熟妇人妻无乱码中文字幕真矢织江| 精品亚洲欧美无人区乱码| 亚洲国产成人资源在线桃色| 亚洲av色福利天堂久久入口| 国产日产精品一区二区三区四区的特点 | 人妻少妇精品系列一区二区| 色噜噜色哟哟一区二区三区| 免费国产线观看免费观看| 性大片免费视频观看| 亚洲国产精品久久久久婷婷软件| 国内嫩模自拍偷拍视频| 人妻夜夜爽天天爽| 亚洲男人的天堂精品一区二区| 国产免费一区二区三区在线观看| 国产精品无码素人福利不卡| 欧美多毛肥胖老妇做爰| 亚洲av第一区综合激情久久久|