亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        目標(biāo)檢測中框回歸損失函數(shù)的研究

        2021-10-28 05:51:52張翠文張長倫王恒友
        計算機(jī)工程與應(yīng)用 2021年20期
        關(guān)鍵詞:損失框架面積

        張翠文,張長倫,何 強(qiáng),王恒友

        北京建筑大學(xué) 理學(xué)院,北京 102600

        近年來計算機(jī)視覺在行人車輛檢測[1-2]、自動駕駛[3-4]、視頻跟蹤[5-6]、人臉識別[7-8]、視頻檢測[9-10]、物體分割[11-14]等方面有著廣泛的應(yīng)用,目標(biāo)檢測技術(shù)作為這些應(yīng)用的基礎(chǔ)算法得到了快速發(fā)展。

        2012年AlexNet[15]在分類競賽領(lǐng)域取得成功,卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于目標(biāo)檢測領(lǐng)域成為研究熱點。Girshick等人將AlexNet的目標(biāo)識別能力遷移到目標(biāo)檢測中,于2014年提出區(qū)域卷積網(wǎng)絡(luò)目標(biāo)檢測框架(Regions with CNN features,R-CNN)[16],整個模型由提取候選框、提取候選框圖像特征和利用支持向量機(jī)(Support Vector Machine,SVM)[17]進(jìn)行分類與回歸三部分組成。這也是基于深度學(xué)習(xí)兩階段目標(biāo)檢測算法的開端。但R-CNN方法的三個階段各自訓(xùn)練,計算損失較大。為提高算法速度和簡化算法規(guī)模,Girshick等人先后提出Fast R-CNN[18]、Faster R-CNN[19],將網(wǎng)絡(luò)分為尋找候選框與分類識別兩部分,并且分類與識別共同訓(xùn)練,使得兩階段算法達(dá)到實時的檢測速度和更高的檢測精度。但在兩階段目標(biāo)檢測算法由于尋找框的過程消耗時間,且手動設(shè)計的錨框有長寬比例和大小的限制。為了達(dá)到更快的檢測速度,Redmon等人在2015年提出YOLO(You Only Look Once)[20]算法,模型去掉兩階段算法中尋找框的步驟,直接設(shè)計網(wǎng)絡(luò)輸出帶有框與分類置信度的圖片,也是第一個一階段目標(biāo)檢測算法,在速度上更是遠(yuǎn)超兩階段算法。但YOLO算法由于沒有對于框的預(yù)先設(shè)定,導(dǎo)致其精度較低。Redmon等人受兩階段方法設(shè)定錨框的啟發(fā),為一階段算法加入預(yù)設(shè)框,提出YOLO v2[21]、YOLO v3[22],既保持了算法的速度又進(jìn)一步提升了算法精度。

        目標(biāo)檢測的過程中,在模型最后懲罰預(yù)測框來進(jìn)行位置優(yōu)化時,框回歸損失函數(shù)的設(shè)定直接影響優(yōu)化的速度和定位的準(zhǔn)確度。為了更加準(zhǔn)確地預(yù)測出目標(biāo)的位置,框回歸損失函數(shù)的設(shè)定經(jīng)歷了一系列的發(fā)展。2015年Girshick等人在Fast R-CNN[18]中引入smooth L1損失函數(shù),兩階段算法中多沿用此損失函數(shù)作為框回歸優(yōu)化算法。而YOLO[20]系列中使用的是均方誤差(MSE)函數(shù)。兩種損失函數(shù)的設(shè)計思路均為懲罰預(yù)測框與目標(biāo)框四個坐標(biāo)信息之間的歐式距離,而實際上在評判預(yù)測框定位準(zhǔn)確性和保留預(yù)測框的過程中指標(biāo)是IOU,但這兩者之間非等價關(guān)系。即多個預(yù)測框可能有相同大小的smooth L1損失,但他們與真實框的IOU卻相差很大,導(dǎo)致懲罰損失函數(shù)但不能對框之間的IOU進(jìn)行直接優(yōu)化。為了解決這個問題,Yu等人[23]引入IOU損失函數(shù),最大化預(yù)測框與目標(biāo)框之間的IOU來優(yōu)化預(yù)測框位置,即拉大兩框之間的重合面積,與評價預(yù)測框的指標(biāo)函數(shù)相符合。但當(dāng)預(yù)測框與目標(biāo)框沒有重疊部分面積時,目標(biāo)損失函數(shù)值為1,無法進(jìn)行梯度回傳,且IOU也不能完全反應(yīng)兩個框的相交情況。于是2019年Rezatofighi等人提出廣義的交并比GIOU[24](Generalized Intersection over Union),由兩部分組成損失函數(shù),最大化兩框相交面積的同時最小化兩框形成的最大框去掉兩框的并之間的面積,模型避免了當(dāng)兩框不相交時梯度消失的問題。但當(dāng)預(yù)測框與目標(biāo)框互相包含時,GIOU損失函數(shù)的第二部分失效,GIOU退化為IOU損失函數(shù)。

        本文提出RGIOU(Redefined Generalized Intersection over Union),即重新定義面積的GIOU損失函數(shù)。本文從以下幾個部分展開陳述:第一部分對近年目標(biāo)檢測的損失函數(shù)進(jìn)行綜述。第二部分對GIOU存在的問題進(jìn)行分析。第三部分提出RGIOU論證優(yōu)化策略的性質(zhì)合理性,并實驗驗證改進(jìn)方法的有效性。最后與原方法在公開數(shù)據(jù)集上進(jìn)行對比驗證,驗證了本文改進(jìn)方法在精度上的提升。

        1 GIOU問題分析

        廣義的交并比損失函數(shù)為了避免兩框不相交時,梯度無法回傳的問題,在損失函數(shù)中增加一項,如圖1(a),A表示真實框,B表示預(yù)測框,C表示預(yù)測框與真實框形成的最小閉包區(qū)域,C去掉兩框的并所形成的空白區(qū)域面積再除以C的面積即為GIOU損失函數(shù)的第二項。最大化兩框相交部分的同時,最小化兩框空白區(qū)域的面積,這樣當(dāng)兩框不相交時,如圖1(b),兩框空白區(qū)域的面積依然存在,所以損失函數(shù)仍然有效。

        圖1 真實框與預(yù)測框相交情況Fig.1 Intersection of ground truth and prediction frame

        GIOU的損失函數(shù)為公式(1):

        公式的前半部分1-IOU的目的是最大化預(yù)測框與目標(biāo)框的相交區(qū)域,即提高兩框之間的重合度,公式的后半部分則是最小化最小閉包區(qū)域內(nèi)除了預(yù)測框與目標(biāo)框外的空白區(qū)域面積。但當(dāng)預(yù)測框與真實框相互包含時,如圖2,此時C=A?B,損失函數(shù)后半部分失效。

        圖2 真實框與預(yù)測框的包含情況Fig.2 Inclusion of ground truth and prediction box

        GIOU損失函數(shù)的設(shè)定考慮兩項面積的優(yōu)化,且當(dāng)兩框為包含關(guān)系時,空白區(qū)域面積就退化為圖2,所以GIOU損失函數(shù)的設(shè)定有以下缺陷:當(dāng)預(yù)測框與目標(biāo)框相互包含時,GIOU定義的空白區(qū)域面積為0,損失函數(shù)退化為IOU。損失函數(shù)進(jìn)行優(yōu)化時,不能具有GIOU相同的優(yōu)化速度,且不能更準(zhǔn)確反應(yīng)兩框的相交程度。

        2 重新定義面積的GIOU損失函數(shù)(RGIOU)

        基于以上問題的分析,本文提出RGIOU,將兩框之間的并減去兩框相交部分面積定義為非重疊區(qū)域面積,再除以兩框形成的最小閉包C作為第一項,除以最小閉包C的平方為第二項,并以權(quán)重閾值相加成為新的損失函數(shù)。損失函數(shù)前半部分為懲罰兩框的不相交部分面積,針對絕大多數(shù)預(yù)測框進(jìn)行優(yōu)化調(diào)整,而后半部分損失函數(shù)則是避免損失函數(shù)退化為IOU。對于兩框相交的情況如圖3(a),RGIOU定義的面積為兩框的并去掉相交部分面積;對于兩框相互包含的情況如圖3(b),將非重疊部分區(qū)域定義為RGIOU。

        圖3 兩框相交與包含的非重疊區(qū)域面積Fig.3 Area of non overlapping area where two boxes intersect and contain

        RGIOU定義為公式(2):

        其中,C表示預(yù)測框與目標(biāo)框形成的最小閉包面積,λ為權(quán)重閾值,經(jīng)過實驗將其設(shè)定為0.9。由于兩框是包含關(guān)系的情況在預(yù)測結(jié)果中占少數(shù),所以設(shè)定損失函數(shù)的前半部分權(quán)重大,后半部分為了避免損失函數(shù)退化為IOU設(shè)定為較小的權(quán)重。其中第二項分母設(shè)置為平方項,是為了減小第二項所占的比重,同時能有效地避免函數(shù)退化問題。RGIOU損失函數(shù)最小化重新定義的非重疊區(qū)域面積,并且包含了最大化相交部分面積的思想,提高了損失函數(shù)的收斂精度。且在預(yù)測框與目標(biāo)框是包含關(guān)系時,重新定義的非重疊部分面積如圖2所示不為零,IOU損失函數(shù)與GIOU損失函數(shù)數(shù)值相同,但RGIOU可以進(jìn)行區(qū)分,此時損失函數(shù)變?yōu)椋?/p>

        不會退化為IOU損失函數(shù)的情況,所以不會影響優(yōu)化過程。所以RGIOU損失函數(shù)避免了GIOU損失函數(shù)存在的非重疊部分面積為零不能優(yōu)化的問題。其中計算損失函數(shù)值的中間值如表1。

        表1 損失函數(shù)的中間值Table 1 Intermediate values of loss function

        3 實驗分析

        3.1 實驗平臺、實驗數(shù)據(jù)和評價指標(biāo)

        實驗實現(xiàn)系統(tǒng)為Ubantu 16.04,實驗基于pytorch深度學(xué)習(xí)框架,開發(fā)語言為python,GPU型號為GeForce GTX 1080 Ti。

        本文將RGIOU分別應(yīng)用于Faster R-CNN、SSD以及YOLO v3三個目標(biāo)檢測框架,并在兩個數(shù)據(jù)集上驗證改進(jìn)方法的精度。兩個數(shù)據(jù)集為PASCAL VOC 2007以及MS COCO 2014。其中PASCAL VOC 2007數(shù)據(jù)集包括9 963張圖片,共20類,其中包含24 640個帶注釋的對象,其中50%的圖片用于訓(xùn)練,50%的圖片用于測試,且在訓(xùn)練集和測試集中,按類別劃分的圖像和對象的分布大致相等。MS COCO 2014訓(xùn)練集共包含82 783張圖片,共91類,其中50%用于訓(xùn)練,50%用于測試。

        本文使用于2012年最新定義的平均精度mAP作為評估標(biāo)準(zhǔn),即將IOU閾值設(shè)定為{0.5,0.55,…,0.95},分別計算出AP再除以10得到mAP,并將AP75單獨作為一項評估標(biāo)準(zhǔn)。將λ設(shè)定閾值為{0.7,0.75,…,0.95},并實驗選擇λ的最優(yōu)值,如圖4所示,隨著優(yōu)化次數(shù)的增加,將λ設(shè)置為0.9時,函數(shù)最快達(dá)到最優(yōu)。

        圖4 λ取不同閾值時隨著迭代的損失值Fig.4 Loss value with iteration for different threshold valuesλ

        為了驗證改進(jìn)方法RGIOU對預(yù)測框損失函數(shù)收斂速度的提高,本文手動設(shè)計目標(biāo)框與預(yù)測框的位置,并將坐標(biāo)作為輸入,利用RGIOU損失函數(shù)基于Faster RCNN框架對預(yù)測框進(jìn)行調(diào)優(yōu),將預(yù)測框與目標(biāo)框的交并比作為評價損失函數(shù)優(yōu)化速度的指標(biāo),記錄迭代次數(shù)與IOU值對比關(guān)系,如圖5所示。

        由圖5可知,RGIOU在迭代600次達(dá)到最高精度,而GIOU需要迭代700次。并且經(jīng)過相同的迭代次數(shù),RGIOU在總體上優(yōu)化效果高于GIOU損失函數(shù),對預(yù)測框的規(guī)范效果也高于GIOU效果。

        圖5 GIOU與RGIOU收斂速度對比Fig.5 Comparison of convergence rates between GIOU and RGIOU

        3.2 在PASCAL VOC 2007上的實驗結(jié)果對比

        實驗首先基于VOC 2007數(shù)據(jù)集,分別計算在三個目標(biāo)檢測框架下的平均精度與閾值設(shè)定為0.75的精度,如表2~4。

        表2 基于YOLOv3框架精度對比(VOC 2007)Table 2 Comparison of frame accuracy based on YOLOv3(VOC 2007)

        表3 基于Faster R-CNN框架精度對比(VOC 2007)Table 3 Comparison of frame accuracy based on Fast R-CNN(VOC 2007)

        表2~4分別是基于YOLO v3、Faster R-CNN以及框架SSD,將其中損失函數(shù)部分由MSE、smooth L1分別更改為IOU、GIOU、RGIOU,分別計算了在VOC 2007數(shù)據(jù)集上的平均精度和閾值設(shè)定為0.75的精度。由表分析可知,RGIOU相較于GIOU在YOLOv3框架上平均精度增長了2%,在Faster R-CNN框架上增長1.1%,在SSD框架上增長1%。即RGIOU相較于GIOU的平均精度增長在1%~2%之間。可以證明將損失函數(shù)的設(shè)定進(jìn)行改進(jìn),避免了兩框互相包含存在的問題,使得框回歸的精度提高。將IOU設(shè)定為0.75時,RGIOU將較于GIOU在YOLOv3框架上精度增長1.2%,在Faster R-CNN框架上增長1.8%,在SSD框架上增長為0.4%。即RGIOU相較于GIOU的精度增長為0.4%~1.8%之間。并且由表可知,當(dāng)損失函數(shù)設(shè)定為MSE或者Smooth L1時,精度較低,這也是由于損失函數(shù)的設(shè)定與評價函數(shù)不相符導(dǎo)致。改進(jìn)的方法相較于原始的基于歐式距離的方法在平均精度上有2.9%~3.3%的提升,這也證明了基于面積的方法比基于坐標(biāo)點的方法能夠更好地優(yōu)化框的位置,提升目標(biāo)檢測的精度。由以上分析可知本文改進(jìn)的方法能夠提高目標(biāo)檢測的測試精度,具有可行性與泛化能力。為了進(jìn)一步體現(xiàn)本文方法在精度上的提升,繪制精度趨勢圖如圖6~8。

        表4 基于SSD框架精度對比(VOC 2007)Table 4 Accuracy comparison based on SSD framework(VOC 2007)

        圖6 基于YOLOv3框架精度趨勢圖(VOC 2007)Fig.6 Accuracy trend chart based on YOLOv3 frame(VOC 2007)

        圖7 基于Faster R-CNN框架精度趨勢圖(VOC 2007)Fig.7 Accuracy trend chart based on Fast R-CNN framework(VOC 2007)

        圖8 基于SSD框架精度趨勢圖(VOC 2007)Fig.8 Accuracy trend chart based on SSD framework(VOC 2007)

        圖6~8分別繪制了各個損失函數(shù)機(jī)制在三種目標(biāo)檢測框架下的精度趨勢圖,由圖可知,改進(jìn)的算法在三個框架上精度均有提升趨勢。

        3.3 在MS COCO 2014上的實驗結(jié)果對比

        表5~7分別給出了在COCO 2014數(shù)據(jù)集上的精度。本文的RGIOU相較于GIOU在YOLOv3框架上平均精度增長了1.6%,在Faster R-CNN框架上增長了2%,在SSD框架上增長了0.5%,即增長在0.5%~2%之間。實驗證明改進(jìn)算法基于數(shù)量較大的數(shù)據(jù)集的回歸仍然有效。將IOU閾值設(shè)定為0.75時,本文方法相較于原方法增長了0.1%~1%。且改進(jìn)方法與基于歐式距離的方法相比,精度增長了1.9%~4%。為了更進(jìn)一步體現(xiàn)改進(jìn)方法在精度上的提升,繪制基于COCO 2014數(shù)據(jù)集的目標(biāo)檢測精度對比圖,如圖9~11。圖12~14為實驗仿真圖,由圖可知,RGIOU損失函數(shù)相較于GIOU對目標(biāo)有更好的定位效果。

        表5 基于YOLOv3框架精度對比(COCO 2014)Table 5 Comparison of frame accuracy based on YOLOv3(COCO 2014)

        表6 基于Faster R-CNN框架精度對比(COCO 2014)Table 6 Comparison of frame accuracy based on Fast R-CNN(COCO 2014)

        表7 基于SSD框架精度對比(COCO 2014)Table 7 Accuracy comparison based on SSD framework(COCO 2014)

        圖9 基于YOLOv3框架精度趨勢圖(COCO 2014)Fig.9 Accuracy trend chart based on YOLOv3 frame(COCO 2014)

        圖10 基于Faster R-CNN框架精度趨勢圖(COCO 2014)Fig.10 Accuracy trend chart based on Fast R-CNN framework(COCO 2014)

        圖11 基于SSD框架精度趨勢圖(COCO 2014)Fig.11 Accuracy trend chart based on SSD framework(COCO 2014)

        圖12 基于YOLOv3框架的檢測圖Fig.12 Object detection based on YOLOv3 framework

        圖13 基于Faster R-CNN框架的檢測圖Fig.13 Object detection based on Faster R-CNN framework

        圖14 基于SSD框架的檢測圖Fig.14 Object detection based on SSD framework

        4 結(jié)束語

        本文針對GIOU損失函數(shù)存在的問題提出改進(jìn)方法RGIOU,重新定義預(yù)測框與目標(biāo)框之間的非重疊部分面積,并定義為新的損失函數(shù),避免了當(dāng)預(yù)測框與真實框相互包含時,GIOU退化為IOU的情況。相較于原GIOU損失函數(shù),提高了預(yù)測框的平均精度。RGIOU方法在公開數(shù)據(jù)集上相較于原方法的平均精度與AP75精度均有提升,體現(xiàn)出本文改進(jìn)方法的有效性。

        猜你喜歡
        損失框架面積
        怎樣圍面積最大
        少問一句,損失千金
        框架
        最大的面積
        巧用面積法解幾何題
        胖胖損失了多少元
        廣義框架的不相交性
        玉米抽穗前倒伏怎么辦?怎么減少損失?
        巧用面積求坐標(biāo)
        WTO框架下
        法大研究生(2017年1期)2017-04-10 08:55:06
        日韩精品无码区免费专区| 真实夫妻露脸爱视频九色网| 亚洲国产一二三精品无码| aaa级久久久精品无码片| 亚洲电影一区二区三区| 天堂av一区一区一区| 伊人久久大香线蕉av五月| 在线 | 一区二区三区四区| 在线天堂中文字幕| 成年女人18毛片毛片免费| 国产精品白浆一区二区免费看| 亚洲av无码av在线播放| 夜色阁亚洲一区二区三区| 亚洲综合色婷婷七月丁香| 日本成年一区久久综合| 免费视频爱爱太爽了| 中文字幕欧美一区| 日韩精品极品视频在线免费| 国产嫩草av一区二区三区| 中文www新版资源在线| 欧美成人中文字幕| 中文字幕一区二区区免| 国产18禁黄网站免费观看| 国产亚洲午夜高清国产拍精品 | 妺妺窝人体色www看美女| 亚洲一区欧美二区| 日本道免费一区日韩精品| av影院在线免费观看不卡| 东京热加勒比无码少妇| 中字亚洲国产精品一区二区| 国产精品高清视亚洲一区二区| 成年女人a级毛片免费观看| 国内大量揄拍人妻在线视频| 一区二区高清视频在线观看| 精品人妻av区乱码色片| 久久精品娱乐亚洲领先| 久久久久久久尹人综合网亚洲| 中文字幕中文字幕777| 国产ww久久久久久久久久| 精品四虎免费观看国产高清| 一区二区国产视频在线|