亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合GIoU和Focal loss的YOLOv3目標(biāo)檢測(cè)算法

        2020-12-26 02:57:16鄒承明薛榕剛
        關(guān)鍵詞:特征檢測(cè)模型

        鄒承明,薛榕剛

        1.交通物聯(lián)網(wǎng)湖北省重點(diǎn)實(shí)驗(yàn)室,武漢430070

        2.武漢理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,武漢430070

        3.鵬程實(shí)驗(yàn)室,廣東 深圳518000

        1 引言

        在生產(chǎn)生活中,需要機(jī)器能夠?qū)D像中的物體進(jìn)行分類并定位,這就需要用到目標(biāo)檢測(cè)技術(shù)。目標(biāo)檢測(cè)技術(shù)在工業(yè)、安防、軍事、人臉識(shí)別[1]、自動(dòng)駕駛[2-3]等領(lǐng)域有著極大的應(yīng)用前景及研究?jī)r(jià)值,也吸引了越來(lái)越多學(xué)者們的關(guān)注。當(dāng)前,目標(biāo)檢測(cè)方法研究已取得較大進(jìn)展,檢測(cè)精度及速度在不斷提高。但是,由于觀測(cè)角度、遮擋、光照以及目標(biāo)外觀形狀、尺度的不同等因素影響,目標(biāo)檢測(cè)的精度仍有很大的提升空間。

        目標(biāo)檢測(cè)通常包括目標(biāo)分類和目標(biāo)定位兩個(gè)任務(wù),傳統(tǒng)的目標(biāo)檢測(cè)模型分為三個(gè)步驟:選取特征區(qū)域、特征提取和目標(biāo)分類[4]。Felzenszwalb 等人[5]提出的多尺度形變部件模型(Deformable Part Model,DPM)充分利用HOG[6](Histogram of Orientation Gradient)和支持向量機(jī)(Support Vector Machine,SVM)的優(yōu)勢(shì),在圖像處理、人臉識(shí)別等任務(wù)上取得了重要突破。但是其基于滑動(dòng)窗口的區(qū)域選擇策略會(huì)導(dǎo)致大量的冗余計(jì)算,且使用手工特征無(wú)法表征所有情況下的物體特征,魯棒性較差[7]。隨著深度學(xué)習(xí)的發(fā)展,R-CNN系列算法[8-11]在目標(biāo)檢測(cè)領(lǐng)域取得極大的成功。R-CNN系列算法采用RPN(Region Proposal Network)的方法來(lái)得到特征區(qū)域,這種方法在很大程度上克服了采用滑動(dòng)窗口所帶來(lái)的計(jì)算冗余。同時(shí),使用深度學(xué)習(xí)的方法對(duì)目標(biāo)區(qū)域提取特征,避免了使用人工特征帶來(lái)的一些缺陷,最后使用分類器進(jìn)行分類,識(shí)別出檢測(cè)框中物體的類別。雖然RCNN 系列算法以及R-FCN[12]、SSP-net[13]等方法識(shí)別精度有了很大提高,但檢測(cè)速度較慢,難以達(dá)到實(shí)時(shí)性的要求。

        近年來(lái),實(shí)時(shí)目標(biāo)檢測(cè)方法的研究有了較大突破并在工業(yè)領(lǐng)域及實(shí)際應(yīng)用場(chǎng)景中發(fā)揮了很好的檢測(cè)效果[14]。以YOLO[15-17]、SSD[18]為代表的單階段檢測(cè)方法,采用基于深度學(xué)習(xí)的回歸方法進(jìn)行目標(biāo)檢測(cè),從圖像中直接獲得邊界框及目標(biāo)種類。SSD算法在VOC2007數(shù)據(jù)集上的mAP 可以達(dá)到74.3%,檢測(cè)速度達(dá)到46 幀/s。YOLOv2 算法在VOC2007 數(shù)據(jù)集上,保持檢測(cè)速度為40 幀/s 的情況下mAP 能夠達(dá)到78.6%。YOLOv3 算法在COCO數(shù)據(jù)集上mAP達(dá)到57.9%(IoU=0.5)的情況下能夠夠保持20 幀/s的檢測(cè)速度。

        當(dāng)前,目標(biāo)檢測(cè)的優(yōu)化方向包括網(wǎng)絡(luò)結(jié)構(gòu)、IoU(Intersection over Union)、損失函數(shù)、非極大抑制(Non-Maximum Suppression,NMS)、先驗(yàn)框及學(xué)習(xí)率等。文獻(xiàn)[14,19-23]在YOLO的基礎(chǔ)上對(duì)模型的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn),使原有模型在不同數(shù)據(jù)集上的檢測(cè)精度或速度有所提升。Shen 等人[24]結(jié)合SSD 和DenseNet[25]提出了不需要進(jìn)行預(yù)訓(xùn)練的Dsod模型。文獻(xiàn)[26-27]基于SSD模型進(jìn)行改進(jìn),提升了SSD 模型對(duì)中、小目標(biāo)的檢測(cè)能力。梁延禹等人[28]提出了多尺度非局部注意力的小目標(biāo)檢測(cè)算法,在PASCAL VOC、MS COCO 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明該算法能有效提高小目標(biāo)的檢測(cè)準(zhǔn)確率。Lin 等人[29]根據(jù)低層特征與高層特征所含信息不同,提出了金字塔結(jié)構(gòu)的多尺度目標(biāo)檢測(cè)算法,該算法融合圖像的低層特征高分辨率和高層特征高語(yǔ)意信息,對(duì)小物體的檢測(cè)效果明顯。2017 年,Lin 等人[30]再次提出RetinaNet模型,模型中采用的Focal loss成功解決了目標(biāo)檢測(cè)中正負(fù)樣本區(qū)域極不平衡導(dǎo)致目標(biāo)檢測(cè)損失易被大量負(fù)樣本左右的問(wèn)題。Rezatofighi等人[31]提出了一種通用的優(yōu)化邊界框的方式——GIoU(Generalized Intersection over Union),GIoU解決了目標(biāo)檢測(cè)領(lǐng)域最重要的評(píng)價(jià)尺度IoU 在兩個(gè)框不重合時(shí)不能反映兩者的距離及無(wú)法精確反映兩者重合度大小的缺點(diǎn)。Wang等人[32]提出一種新的生成先驗(yàn)框的方法GA-RPN(Guided Anchoring),通過(guò)CNN 預(yù)測(cè)先驗(yàn)框的位置和形狀,生成稀疏而且形狀任意的先驗(yàn)框,并設(shè)計(jì)Feature Adaption模塊來(lái)修正特征圖使之與先驗(yàn)框精確匹配。GA-RPN相比RPN減少90%的先驗(yàn)框,并提高9.1%的召回率。

        本文在YOLOv3 的基礎(chǔ)上,結(jié)合DenseNet 的思想,在YOLOv3網(wǎng)絡(luò)中加入了長(zhǎng)連接,最終使網(wǎng)絡(luò)的參數(shù)量增加了4.2%,在不影響模型檢測(cè)實(shí)時(shí)性的前提下加強(qiáng)了模型特征重用,同時(shí)加快了模型的收斂速度;在損失函數(shù)中使用GIoU loss,克服了YOLOv3 損失函數(shù)中邊界框損失的不足。另外,在損失函數(shù)中引入了Focal loss 以解決正負(fù)樣本分布不平衡及簡(jiǎn)單樣本與困難樣本不平衡所造成的誤差。實(shí)驗(yàn)結(jié)果表明,在不影響算法實(shí)時(shí)性能的情況下,改進(jìn)的YOLOv3算法比YOLOv3算法有一定的性能提升。

        2 YOLOv3模型簡(jiǎn)介

        在YOLO模型提出之前,對(duì)一張圖像進(jìn)行目標(biāo)檢測(cè)一般分為兩個(gè)階段,如主流的R-CNN 檢測(cè)方式。第一階段通過(guò)各種方法產(chǎn)生候選區(qū)域,第二階段通過(guò)CNN提取特征并進(jìn)行分類。故R-CNN系列方法雖然精度較高,但檢測(cè)速度慢,無(wú)法滿足實(shí)時(shí)性檢測(cè)的要求。YOLO方法將檢測(cè)任務(wù)表述成一個(gè)統(tǒng)一的、端到端的回歸問(wèn)題,只需要一次處理就能得到目標(biāo)位置和分類,檢測(cè)速度較之前的算法有了大幅度的提升。

        YOLO算法將圖像分為S×S的單元格,如圖1所示(S=7)。如果一個(gè)物體的中心(圖1中紅色點(diǎn))落在某個(gè)單元格上,那么這個(gè)單元格負(fù)責(zé)預(yù)測(cè)這個(gè)物體。在檢測(cè)過(guò)程中,每個(gè)單元格需要預(yù)測(cè)B個(gè)邊界框(包括目標(biāo)的位置信息、置信度和每個(gè)邊界框所包含目標(biāo)的C個(gè)類別信息),并將置信度小于閾值的邊界框置為0,最后采用非極大值抑制算法去掉重復(fù)的邊界框從而檢測(cè)出各類目標(biāo)。

        圖1 YOLO網(wǎng)格示意圖

        為克服YOLO 模型對(duì)小目標(biāo)預(yù)測(cè)效果差的缺點(diǎn)以進(jìn)一步提高模型的預(yù)測(cè)準(zhǔn)確度,YOLOv3在YOLOv1和YOLOv2的基礎(chǔ)上做了進(jìn)一步的改進(jìn),在網(wǎng)絡(luò)中引入了基于多尺度預(yù)測(cè)的特征金字塔結(jié)構(gòu)(FPN),如圖2所示,小的物體會(huì)在淺層的特征圖中被檢測(cè)出來(lái),大的物體會(huì)在較深的特征圖中被檢測(cè)出來(lái)。首先,使用k-means聚類算法得到9 個(gè)先驗(yàn)框,每種尺度下各三個(gè),每種尺度下的一個(gè)網(wǎng)格負(fù)責(zé)預(yù)測(cè)三個(gè)邊界框。然后,使用darknet-53網(wǎng)絡(luò)對(duì)圖像進(jìn)行特征提取,當(dāng)提取到最深層特征時(shí),進(jìn)行輸出,同時(shí)進(jìn)行上采樣,與另一尺度下的特征進(jìn)行融合。這樣,每層特征圖中都會(huì)包含淺層的低級(jí)特征(如物體的邊緣、顏色、初級(jí)位置信息等)和深層的高級(jí)特征(如物體的語(yǔ)義信息等),預(yù)測(cè)的準(zhǔn)確度也會(huì)有所提高。另外,由于darknet-53中加入了殘差塊,使網(wǎng)絡(luò)的結(jié)構(gòu)可以設(shè)置得更深,因而具有更強(qiáng)的特征提取能力。

        圖2 YOLOv3中的特征金字塔結(jié)構(gòu)

        YOLOv3網(wǎng)絡(luò)模型的損失函數(shù)分為邊界框損失,置信度損失和分類損失,損失函數(shù)如下式所示:

        其中,表示第i個(gè)網(wǎng)格的第j個(gè)先驗(yàn)框是否負(fù)責(zé)預(yù)測(cè)目標(biāo)邊界框的位置,若負(fù)責(zé)預(yù)測(cè)則其值為1,若不負(fù)責(zé)預(yù)測(cè),則其值為0。表示第i個(gè)邊界框不負(fù)責(zé)預(yù)測(cè)目標(biāo)位置。由于YOLOv3在三種不同尺度下進(jìn)行預(yù)測(cè),所以最終的損失函數(shù)為三種尺度下loss的和。

        3 YOLOv3檢測(cè)算法改進(jìn)

        3.1 網(wǎng)絡(luò)中加入長(zhǎng)連接

        YOLOv3 目標(biāo)檢測(cè)算法為了獲得深層次的特征信息以提高檢測(cè)精度,需要加深網(wǎng)絡(luò)的深度。為解決梯度消失和模型退化的問(wèn)題,YOLOv3網(wǎng)絡(luò)中引入了殘差網(wǎng)絡(luò)的思想,網(wǎng)絡(luò)中加入大量的殘差塊,YOLOv3 中的殘差塊如圖3 所示。殘差塊通過(guò)在每?jī)蓪泳W(wǎng)絡(luò)之間設(shè)置旁路連接,在進(jìn)行特征重用的同時(shí),在網(wǎng)絡(luò)間增加了特征傳遞的捷徑,將特征信息直接傳到神經(jīng)網(wǎng)絡(luò)的深層。這樣,在前向傳播過(guò)程中,當(dāng)淺層的輸出已經(jīng)達(dá)到較好效果時(shí),深層網(wǎng)絡(luò)后面的網(wǎng)絡(luò)層能夠?qū)崿F(xiàn)恒等映射的效果。在反向傳播過(guò)程中,殘差塊會(huì)明顯減少模塊中參數(shù)的值從而讓網(wǎng)絡(luò)中的參數(shù)對(duì)反向傳導(dǎo)的損失值有更敏感的響應(yīng)能力。雖然沒(méi)有從根本解決回傳損失小的問(wèn)題,但卻讓參數(shù)減小,相應(yīng)而言增加了回傳損失的效果,也產(chǎn)生了一定的正則化作用。

        圖3 YOLOv3中的殘差模塊示意圖

        Huang等人[25]在DenseNet一文中指出,與其多次學(xué)習(xí)冗余的特征,特征復(fù)用是一種更好的特征提取方式。根據(jù)DenseNet 思想,本文對(duì)YOLOv3 網(wǎng)絡(luò)darknet-53 進(jìn)行了一些改進(jìn),在darknet-53 中的殘差塊間加入了旁路連接。Darknet-53網(wǎng)絡(luò)中的旁路連接位于殘差塊內(nèi),其連接步長(zhǎng)相對(duì)較短,僅對(duì)網(wǎng)絡(luò)中相鄰層之間進(jìn)行連接。在網(wǎng)絡(luò)的殘差塊間加入旁路連接后,進(jìn)一步加強(qiáng)了網(wǎng)絡(luò)的特征重用,同時(shí)由于旁路連接的步長(zhǎng)變大,使信息流更容易傳遞到網(wǎng)絡(luò)的深層。圖像的顏色、邊緣輪廓等淺層特征也能夠通過(guò)旁路直接傳遞到網(wǎng)絡(luò)深層,與圖像深層特征融合起來(lái)。這樣,網(wǎng)絡(luò)深層的特征圖不僅包含淺層的位置信息等,又包含深層的語(yǔ)意信息。使用網(wǎng)絡(luò)深層特征圖進(jìn)行目標(biāo)檢測(cè)就會(huì)獲得更好的精度。同時(shí),由于網(wǎng)絡(luò)之間存在捷徑,模型的收斂速度也會(huì)更快。

        加入旁路連接后的YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。在darknet-53中依次選取輸入特征圖尺寸相同的兩個(gè)殘差塊,將前一個(gè)殘差塊的輸入與其后一個(gè)殘差塊的輸出進(jìn)行連接,并將連接后特征圖尺寸調(diào)整到與下一個(gè)殘差塊的輸入保持一致。為完整保留網(wǎng)絡(luò)中的信息流,這里借鑒Densenet的方法,對(duì)融合的特征取并集后再調(diào)整尺寸。這樣,在每四層網(wǎng)絡(luò)之間就會(huì)有一個(gè)長(zhǎng)連接。

        圖4 改進(jìn)的YOLOv3算法網(wǎng)絡(luò)結(jié)構(gòu)中的長(zhǎng)連接

        3.2 使用GIoUloss作為邊界框損失

        IoU可用來(lái)衡量?jī)蓚€(gè)邊界框的相似性,是目標(biāo)檢測(cè)領(lǐng)域用來(lái)評(píng)價(jià)目標(biāo)檢測(cè)器性能的一個(gè)重要指標(biāo),預(yù)測(cè)框與真實(shí)框的重疊度越高,IoU值也越大,IoU的計(jì)算如公式(2)所示,其中A、B分別代表預(yù)測(cè)框和真實(shí)框。

        當(dāng)前很多目標(biāo)檢測(cè)算法在計(jì)算邊界框損失函數(shù)時(shí)普遍采用預(yù)測(cè)框與真實(shí)框的L1 范數(shù)或L2 范數(shù)來(lái)計(jì)算位置回歸損失。但在評(píng)測(cè)時(shí)卻使用IoU 去判斷是否檢測(cè)到目標(biāo),而這兩者并非完全等價(jià)。如圖5所示[31],其中綠色框?yàn)檎鎸?shí)框,黑色框?yàn)轭A(yù)測(cè)框,圖5(a)、(b)分別為預(yù)測(cè)框與真實(shí)框角點(diǎn)坐標(biāo)距離的L1 和L2 范數(shù)相同時(shí)的IoU 對(duì)比。從圖中可看出,當(dāng)L1 范數(shù)或L2 范數(shù)相等時(shí),IoU的值有很大的差異。而從公式(1)可知YOLOv3的邊界框損失函數(shù)是根據(jù)L2 范數(shù)來(lái)計(jì)算的,因而存在一定誤差。

        圖5 預(yù)測(cè)框與真實(shí)框L1范數(shù)、L2范數(shù)與IoU

        若直接使用IoU作為邊界框損失,當(dāng)預(yù)測(cè)框與真實(shí)框之間沒(méi)有重合時(shí),IoU 無(wú)法衡量?jī)蛇吔缈蚓嚯x的遠(yuǎn)近,且IoU為0,導(dǎo)致優(yōu)化損失函數(shù)時(shí)梯度為0,無(wú)法優(yōu)化。如圖6所示,(a)、(b)中IoU都為0,但是(a)中預(yù)測(cè)框與真實(shí)框的距離明顯更近一些,其預(yù)測(cè)效果也更佳。基于此,Rezatofighi等[31]提出的GIoU充分利用了IoU具有尺度不變性及可作為兩個(gè)框距離的優(yōu)點(diǎn),同時(shí),克服了IoU在預(yù)測(cè)框與真實(shí)框不重合時(shí)的不足之處,能夠更好地反映預(yù)測(cè)框與真實(shí)框的重合情況。GIoU的計(jì)算如公式(3)所示。其中,A、B為預(yù)測(cè)框與真實(shí)框,C為包含兩者的最小閉合框。如圖7所示,黑色框范圍即為C的表示區(qū)域。

        圖6 IoU為0時(shí)的不同場(chǎng)景

        圖7 GIoU中C 的表示區(qū)域

        由公式(2)、(3)可知,GIoU 的變化范圍為(-1,1],且當(dāng)預(yù)測(cè)框與真實(shí)框完全重合時(shí),GIoU=1。當(dāng)預(yù)測(cè)框與真實(shí)框不重合,即IoU=0 時(shí),GIoU的計(jì)算公式可轉(zhuǎn)化為公式(4):

        預(yù)測(cè)框與真實(shí)框距離越遠(yuǎn),越接近0,GIoU越接近-1,預(yù)測(cè)框與真實(shí)框距離越近越接近1,GIoU越接近0。因此,相比于IoU,GIoU能夠更好評(píng)價(jià)兩邊界框的重合度。

        以GIoU 作為衡量邊界框距離的指標(biāo),其損失函數(shù)如下:

        兩邊界框的GIoU 越大,GIoU loss 越小,網(wǎng)絡(luò)會(huì)朝著預(yù)測(cè)框與真實(shí)框重疊度較高的方向去優(yōu)化。根據(jù)GIoU loss 對(duì)YOLOv3 模型邊界框損失函數(shù)進(jìn)行改進(jìn),改進(jìn)后的邊界框損失函數(shù)如式(6)所示:

        3.3 使用Focal loss

        在單階段目標(biāo)檢測(cè)中,由于正負(fù)樣本區(qū)域分布極不平衡,導(dǎo)致目標(biāo)檢測(cè)損失易被大量負(fù)樣本所左右。這樣,少量正樣本所提供的關(guān)鍵信息不能在損失函數(shù)中發(fā)揮正常作用,從而無(wú)法得到一個(gè)能對(duì)模型訓(xùn)練提供正確指導(dǎo)的損失函數(shù)。Lin 等人[30]提出的Focal loss 通過(guò)對(duì)交叉熵?fù)p失(cross-entropy loss)增加權(quán)重,解決了正負(fù)樣本分布不衡以及簡(jiǎn)單樣本與困難樣本不平衡的問(wèn)題。

        典型的交叉熵?fù)p失廣泛用于當(dāng)下的圖像分類、檢測(cè)CNN 網(wǎng)絡(luò)當(dāng)中,如公式(7)所示。其中,p∈[0,1],代表模型輸出類別概率,y為類別標(biāo)簽,其取值為0或1。

        考慮到數(shù)據(jù)集中正負(fù)樣本不平衡問(wèn)題,可通過(guò)在交叉熵?fù)p失中使用與目標(biāo)存在概率成反比的系數(shù)進(jìn)行校正。這樣,數(shù)量較少的正樣本權(quán)重系數(shù)較大,對(duì)模型的貢獻(xiàn)也會(huì)加大,數(shù)量較大的負(fù)樣本權(quán)重系數(shù)較小,其對(duì)模型的貢獻(xiàn)會(huì)相對(duì)削弱,因而,模型會(huì)學(xué)習(xí)到更多的有用信息。加入權(quán)重系數(shù)α后的交叉熵?fù)p失如下:

        另外,樣本中有些類別比較明確,有些類別則較難區(qū)分。Focal loss 在交叉熵?fù)p失的基礎(chǔ)上,增加了一個(gè)動(dòng)態(tài)縮放因子,自動(dòng)降低簡(jiǎn)單樣本的損失,幫助模型集中于訓(xùn)練更加困難的樣本。在Focal loss 計(jì)算中,引入了一個(gè)新的超參數(shù)γ,Focal loss的計(jì)算如公式(9)所示:

        將Focal loss與權(quán)重α結(jié)合起來(lái),則Focal loss最終計(jì)算公式為:

        在YOLOv3模型中,若輸入圖像的大小為416×416,則將會(huì)產(chǎn)生10 647個(gè)先驗(yàn)框,而對(duì)于MS COCO2014數(shù)據(jù)集,訓(xùn)練樣本中每張圖像約包含7.3個(gè)目標(biāo),絕大多預(yù)測(cè)框均不包含目標(biāo),這就造成樣本中存在正負(fù)樣本不平衡的問(wèn)題。YOLOv3 模型中使用Ignore_thread 及對(duì)不存在目標(biāo)的樣本框使用較小的置信度等措施在一定程度上能夠解決正負(fù)樣本不平衡問(wèn)題。但正負(fù)樣本不平衡問(wèn)題仍然存在,在引入Focal loss后,模型能夠更好地解決正負(fù)樣本不平衡問(wèn)題,且由于對(duì)困難樣本的檢測(cè)效果更好,因而能夠提高模型檢測(cè)效果。引入Focal loss后,YOLOv3模型的損失函數(shù)如公式(11)所示:

        3.4 數(shù)據(jù)集及訓(xùn)練

        實(shí)驗(yàn)的數(shù)據(jù)集采用PASCAL VOC 2007+2012 和MS COCO(Microsoft COCO:Common Objects in Context)2014數(shù)據(jù)集。兩種數(shù)據(jù)集的具體數(shù)量如表1。

        表1 實(shí)驗(yàn)數(shù)據(jù)集詳情

        PASCAL VOC 2007+2012。PASCAL VOC 2007和2012數(shù)據(jù)集共分四個(gè)大類:vehicle、household、animal、person,20 個(gè)小類。VOC 2007 和VOC 2012 訓(xùn)練集共包含16 551 張圖像,40 058 個(gè)樣本框。VOC 2007 測(cè)試集包含4 952 張圖像,12 032 個(gè)樣本框,VOC 2012 測(cè)試集未公開。使用VOC 2007 和VOC 2012 的訓(xùn)練集進(jìn)行訓(xùn)練,然后使用VOC 2007 測(cè)試集進(jìn)行測(cè)試,最后計(jì)算IoU=0.5 時(shí)的mAP對(duì)模型進(jìn)行評(píng)價(jià)。

        MS COCO 2014。COCO2014 數(shù)據(jù)集中包含80 個(gè)類別的目標(biāo),其訓(xùn)練集共有82 783張圖像,604 907個(gè)樣本框。從驗(yàn)證集中選取10 000 張圖像作為測(cè)試集對(duì)模型進(jìn)行評(píng)價(jià)。相比于VOC 數(shù)據(jù)集,COCO 數(shù)據(jù)集的評(píng)價(jià)標(biāo)準(zhǔn)更嚴(yán)格。COCO 的主要評(píng)價(jià)標(biāo)準(zhǔn)是IOU 在[0.5,0.95]區(qū)間內(nèi),步長(zhǎng)為0.05時(shí)的10次AP的平均值。

        本文設(shè)計(jì)了四個(gè)模型,分別為增加了長(zhǎng)連接的YOLOv3(以下稱為YOLOv3-A),使用GIoUloss作為邊界框損失函數(shù)的YOLOv3(以下稱為YOLOv3-B),引入Focal loss后的YOLOv3(以下稱為YOLOv3-C)以及對(duì)YOLOv3同時(shí)進(jìn)行以上幾種改進(jìn)后的模型(以下稱為YOLOv3-D)。對(duì)四種模型在PASCAL VOC2007數(shù)據(jù)集和COCO2014數(shù)據(jù)集上進(jìn)行訓(xùn)練及模型評(píng)估。目前,針對(duì)目標(biāo)檢測(cè)訓(xùn)練的主流做法是基于Imagenet 數(shù)據(jù)集預(yù)訓(xùn)練的模型來(lái)提取特征,然后在PASCAL VOC 數(shù)據(jù)集或COCO 數(shù)據(jù)集上進(jìn)行微調(diào)??紤]到預(yù)訓(xùn)練過(guò)程需要耗費(fèi)大量時(shí)間,直接加載YOLOv3在VOC數(shù)據(jù)集上以及COCO數(shù)據(jù)集上的模型,并采取分段訓(xùn)練的方法進(jìn)行訓(xùn)練。訓(xùn)練的第一階段僅對(duì)加載模型中沒(méi)有預(yù)訓(xùn)練權(quán)重的那部分參數(shù)進(jìn)行訓(xùn)練,第二階段對(duì)所有權(quán)重進(jìn)行訓(xùn)練。在訓(xùn)練的初始階段,為使模型能夠穩(wěn)定,設(shè)置了一個(gè)熱身階段。熱身階段為兩輪循環(huán),學(xué)習(xí)率逐漸增大到0.000 1,之后采用文獻(xiàn)[33]中的consin 衰減方式讓學(xué)習(xí)率逐漸降低以減小網(wǎng)絡(luò)的損失,模型訓(xùn)練學(xué)習(xí)率示意圖如圖8所示。在實(shí)驗(yàn)中,網(wǎng)絡(luò)的輸入大小為416×416,損失函數(shù)中α值為0.75,γ值為2。PASCAL VOC 數(shù)據(jù)集上,YOLOv3-A和YOLOv3-D的迭代次數(shù)為80輪,YOLOv3-B和YOLOv3-C 的迭代次數(shù)為50 輪。在COCO 2014 數(shù)據(jù)集,YOLOv3-A 和YOLOv3-D 的迭代次數(shù)為100 輪,YOLOv3-B和YOLOv3-C的迭代次數(shù)為50輪。

        圖8 實(shí)驗(yàn)學(xué)習(xí)率設(shè)置示意圖

        4 實(shí)驗(yàn)結(jié)果及分析

        4.1 模型在PASCAL VOC數(shù)據(jù)集上的結(jié)果

        YOLOv3-A、YOLOv3-B、YOLOv3-C、YOLOv3-D四種模型首先在PASCAL VOC 2007+2012訓(xùn)練集上進(jìn)行訓(xùn)練,并在PASCAL VOC 2007測(cè)試集上進(jìn)行模型評(píng)估。PASCAL VOC 2007 測(cè)試集各類別目標(biāo)及其數(shù)量如圖9 所示。PASCAL VOC 2007 測(cè)試集mAP 的計(jì)算方法采用PASCAL VOC CHALLENGE 的計(jì)算方法。假設(shè)N個(gè)樣本有M個(gè)正例,就會(huì)得到M個(gè)召回率的值R(1/M,2/M,…,M/M),對(duì)每個(gè)召回率取最大的準(zhǔn)確率P,然后對(duì)這M個(gè)P值取平均值最后得到AP值。

        圖9 VOC 2007測(cè)試集目標(biāo)類別及樣本框數(shù)量分布

        在IoU=0.5 時(shí),四種模型在PASCAL VOC 2007測(cè)試集上的mAP 及各類別目標(biāo)預(yù)測(cè)結(jié)果如圖10 所示。由圖10 可以看出,四種模型在測(cè)試集上的mAP 都達(dá)到80%以上,其中YOLOv3-D 模型的效果最好,其最高mAP為83.7%。圖11(a)為YOLOv3-A模型與YOLOv3模型在PASCAL VOC 數(shù)據(jù)集上的訓(xùn)練loss 對(duì)比,在加入長(zhǎng)連接后,網(wǎng)絡(luò)有了淺層與深層之間信息傳遞的捷徑,模型的收斂速度也更快。

        YOLOv3模型的參數(shù)量為62.80×106,在網(wǎng)絡(luò)中加入長(zhǎng)連接后,模型的參數(shù)量為65.44×106,參數(shù)量增加2.64×106,增加量為4.2%。由于YOLOv3-A 與YOLOv3-D 模型中都加入了長(zhǎng)連接,因而參數(shù)量有所增加,故檢測(cè)速率有所下降,在GPU(NVIDIA Tesla PH402 SKU 200)上的實(shí)驗(yàn)結(jié)果顯示,YOLOv3-A和YOLOv3-D模型的檢測(cè)速度為27.2 幀/s,仍能達(dá)到實(shí)時(shí)檢測(cè)的要求(檢測(cè)速率大于25 幀/s)。YOLOv3-B和YOLOv3-C模型沒(méi)有引入多余的參數(shù)量,其檢測(cè)速度為28.6 幀/s。

        4.2 模型在COCO 2014數(shù)據(jù)集上的結(jié)果

        四種模型在COCO 數(shù)據(jù)集上訓(xùn)練次數(shù)達(dá)到預(yù)先設(shè)定輪數(shù)時(shí)停止訓(xùn)練,并從驗(yàn)證集隨機(jī)選取10 000張圖像作為測(cè)試集對(duì)模型進(jìn)行評(píng)估。模型評(píng)估標(biāo)準(zhǔn)采用COCO數(shù)據(jù)集的通用測(cè)試標(biāo)準(zhǔn),測(cè)試結(jié)果如表2所示。

        實(shí)驗(yàn)結(jié)果表明,在COCO 2014 數(shù)據(jù)集上,四種模型比YOLOv3 模型的檢測(cè)效果均有所提高。其中,YOLOv3-A 模型的mAP 提高了0.64 個(gè)百分點(diǎn),得益于在網(wǎng)絡(luò)殘差塊間加入旁路連接后,網(wǎng)絡(luò)的特征復(fù)用能力得到提高,圖像淺層特征能夠直接傳入網(wǎng)絡(luò)的更深層與深層特征合并,使網(wǎng)絡(luò)中深層特征圖中的特征信息更完整,進(jìn)而使網(wǎng)絡(luò)對(duì)目標(biāo)的定位及分類能力有所高。YOLOv3-B 模型的mAP 相比于YOLOv3 模型提高幅度較大,達(dá)到2.03 個(gè)百分點(diǎn),且參數(shù)規(guī)模沒(méi)有發(fā)生變化,模型檢測(cè)速度不會(huì)受到影響。由圖11(b)可以看出,使用GIoU loss 作為模型邊界框損失后,模型的loss 相比于YOLOv3 的loss 有所降低,模型的檢測(cè)效果也更好。YOLOv3-C 模型加入Focal loss 后,其mAP 提升了1.21 個(gè)百分點(diǎn)。在模型中,降低了ignore_thread 值并加入Focal loss 后,模型的正負(fù)樣本不平衡問(wèn)題得到進(jìn)一步的解決,同時(shí)由于Focal loss 對(duì)難檢測(cè)目標(biāo)的檢測(cè)效果有提升作用,因而模型檢測(cè)效果得到提升。融合了多種改進(jìn)的YOLOv3-D模型的mAP最高,達(dá)到了33.27%,相比于YOLOv3模型其mAP提高了2.27個(gè)百分點(diǎn)。但必須指出,由于相比于YOLOv3 模型,YOLOv3-D 模型的參數(shù)增加了4.2 個(gè)百分點(diǎn),會(huì)對(duì)模型的速度產(chǎn)生一定影響,但仍能達(dá)到實(shí)時(shí)檢測(cè)的要求。

        圖10 三種模型PASCAL VOC 2007測(cè)試集預(yù)測(cè)結(jié)果

        表2 模型在COCO 2014驗(yàn)證集測(cè)試結(jié)果 %

        圖11 模型loss對(duì)比圖

        4.3 與其他目標(biāo)檢測(cè)算法進(jìn)行比較

        四種模型在PASCAL VOC 2007 測(cè)試集上與其他具有代表性的目標(biāo)檢測(cè)算法進(jìn)行對(duì)比,結(jié)果如表3 所示。與其他同類算法相比,YOLOv3-A、YOLOv3-B、YOLOv3-C、YOLOv3-D四種模型的mAP均高于其他算法,其中,YOLOv3-D 在取得最高mAP 的同時(shí),仍能達(dá)到實(shí)時(shí)檢測(cè)的要求。圖12是在COCO數(shù)據(jù)集上的測(cè)試結(jié)果,由于COCO 數(shù)據(jù)集評(píng)價(jià)標(biāo)準(zhǔn)更嚴(yán)格,且數(shù)據(jù)集中大多數(shù)圖像來(lái)源于生活,背景更復(fù)雜,小目標(biāo)更多等因素,各目標(biāo)檢測(cè)算法在COCO 數(shù)據(jù)集上的mAP 普遍不高。從圖中可看出,四種改進(jìn)模型在保持實(shí)時(shí)檢測(cè)的情況下,其mAP 均高于YOLOv3 模型。且在mAP 接近的情況下,四種改進(jìn)模型的檢測(cè)速度比SSD、RetinalNet等模型檢測(cè)速度都快。

        表3 PASCAL VOC 2007測(cè)試集上算法性能比較

        圖12 不同模型在COCO測(cè)試集上性能對(duì)比圖

        5 結(jié)束語(yǔ)

        本文提出了一種融合GIoU和Focal loss的YOLOv3目標(biāo)檢測(cè)算法,該算法通過(guò)在YOLOv3網(wǎng)絡(luò)的殘差塊間引入旁路連接、使用GIoU loss 代替YOLOv3 模型的邊界框損失及在置信度損失函數(shù)中加入Focal loss這三個(gè)措施對(duì)YOLOv3 目標(biāo)檢測(cè)算法進(jìn)行改進(jìn)。在PASCAL VOC 和MS COCO 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,改進(jìn)的YOLOv3算法在保障實(shí)時(shí)檢測(cè)的前提下,提高了YOLOv3模型檢測(cè)精度。下一步的工作將研究YOLOv3 模型在一些實(shí)際場(chǎng)景中的應(yīng)用,并繼續(xù)對(duì)模型進(jìn)行改進(jìn)以提高模型的檢測(cè)速度及精度。

        猜你喜歡
        特征檢測(cè)模型
        一半模型
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        欧美色aⅴ欧美综合色| 91超精品碰国产在线观看| 国产亚av手机在线观看| 亚洲av片不卡无码久久| 人妻精品一区二区三区视频| 亚洲女同高清精品一区二区99| 亚洲av片无码久久五月| 久久不见久久见免费影院www| 91久久国产精品视频| 粗一硬一长一进一爽一a视频| 亚洲视频一区二区三区视频| 久久久国产精品黄毛片| 国产精品麻豆成人AV电影艾秋| 国产成年女人特黄特色毛片免| 在线观看免费日韩精品| 男女爽爽无遮挡午夜视频| 精品亚洲国产探花在线播放| 羞涩色进入亚洲一区二区av | 久久久久亚洲AV无码去区首| 日本加勒比精品一区二区视频| 亚洲人成无码区在线观看| 欧美在线三级艳情网站| 麻美由真中文字幕人妻| 国产一区二区三区仙踪林| 欧洲女人性开放免费网站| 久久亚洲国产成人亚| 婷婷久久亚洲中文字幕| 国内精品久久久久国产盗摄 | 波多野结衣一区二区三区视频| 久久精品国产精品亚洲艾| 伊人大杳焦在线| 自拍偷自拍亚洲精品播放| 国产三级国产精品国产专区| 国产内射一级一片内射视频| 国产乱色精品成人免费视频| 欧美深夜福利视频| 夜夜高潮夜夜爽免费观看| 韩日午夜在线资源一区二区| 亚洲AV无码一区二区三区ba| 少妇被躁到高潮和人狍大战| 亚洲sm另类一区二区三区|