亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進DETR 模型的輸電線路工程車輛檢測研究

        2024-06-03 00:00:00張林龍胡旭曉胡克軫
        軟件工程 2024年4期
        關鍵詞:損失函數(shù)

        摘 要:針對人工檢測大型工程車輛頻繁進出施工現(xiàn)場容易出現(xiàn)漏檢或誤檢的問題,文章提出一種改進DETR(基于Transformer的端到端目標檢測網(wǎng)絡)模型對輸電線路工程車輛進行檢測識別。首先在原始的DETR主干網(wǎng)絡中,引入空洞卷積法獲取更多深層次的特征,擴大感受野;其次加入特征金字塔網(wǎng)絡(FPN),融合不同尺度的特征,增強特征的健壯性;最后將損失函數(shù)GIOU改為CIOU,使模型在訓練的過程中達到更快和更好的收斂效果。實驗結(jié)果顯示,改進后的DETR模型在自制數(shù)據(jù)集中AP50(IOU閾值取0.5)和AP50-95(IOU閾值取0.5~0.95)分別達到了92.1%和61.3%,說明該改進模型在識別輸電線路工程車輛場景中具有較高的應用價值。

        關鍵詞:空洞卷積;特征金字塔網(wǎng)絡;DETR;損失函數(shù)

        中圖分類號:TP311 文獻標志碼:A

        0 引言(Introduction)

        由于工程車輛頻繁進出輸電線路施工場地,采用人工檢測車輛的方式不僅會消耗大量人力資源,而且無法做到實時檢測,因此許多輸電線路施工場地存在監(jiān)控困難的問題。在這種情況下,輸電線路施工現(xiàn)場急需一種具有高精度且成本較低的大型工程車輛自動檢測方法。

        近年來,隨著深度學習的快速發(fā)展,研究人員發(fā)現(xiàn)卷積神經(jīng)網(wǎng)絡可以有效地提取目標特征信息[1],因此產(chǎn)生了許多能有效提取視覺特征的目標檢測模型,包括卷積神經(jīng)網(wǎng)絡(CNN)[2]、長短時記憶網(wǎng)絡(LSTM)[3]等,并且經(jīng)過不斷地演化又產(chǎn)生了許多成熟的目標檢測模型。目前,目標檢測算法有Two-stage、One-stage和以Transformer為基礎架構(gòu)的檢測算法。其中,Two-stage使用卷積神經(jīng)網(wǎng)絡對候選區(qū)域的目標進行分類定位,例如R-CNN[4](Region Convolutional NeuralNetwork)、Fast-RCNN[5](Fast Region Convolutional NeuralNetwork)、Faster-RCNN[6] (Faster Region ConvolutionalNeural Network)、Mask-RCNN[7](Mask Region ConvolutionalNeural Network)系列模型。One-stage則不需要產(chǎn)生候選區(qū)域,可以直接通過神經(jīng)網(wǎng)絡進行特征提取,例如SSD[8](SingleShot Multibox Detector)和YOLO[9](You Only Look Once)系列模型。

        本文選用的DETR模型以Transformer為架構(gòu),舍棄了以往算法中常用的anchor的先驗,也取消了NMS后處理方法,真正實現(xiàn)了端到端的目標檢測。目標檢測對象的種類主要有卡車、挖掘機、推土機3種。實驗結(jié)果表明,相比原始的DETR模型,改進后的DETR模型AP50 和AP50-95 值有了較大幅度的提高。

        1 DETR模型簡介(Introduction to DETR model)

        DETR模型[10]是由Facebook AI團隊在2020年提出的基于Transformer[11]的端到端目標檢測,利用Transformer結(jié)構(gòu)的自注意力機制為各個目標編碼,取消了非極大值抑制(NMS)處理步驟,舍棄了anchor等先驗知識,沒有了約束,也沒有多尺度特征融合及復雜的數(shù)據(jù)增強,大大簡化了目標檢測的流程,并且在COCO數(shù)據(jù)集上的大目標檢測效果比Faster-RCNN好,遷移性好,對識別圖像類別具有較好的適應性。

        DETR模型主要由4 個部分構(gòu)成,首先是CNN 的backbone部分,其次是Transformer的Encoder部分,再次是Transformer的Decoder 部分,最后是預測層FFN。在backbone部分,以CNN卷積神經(jīng)網(wǎng)絡為主體,提取圖像的主要特征信息,得到輸入圖片的特征矩陣,然后使用1×1的卷積核對通道數(shù)進行降維,并將圖像的位置編碼信息一同傳入Encoder中;在Encoder中學習圖像的全局信息,得到一些候選特征,然后Decoder將得到的一些候選特征以及在Decoder中的Object Query進行獨立解碼,其中Object Query的作用是從原始特征中找到物體的位置;在FFN中得到預測框的準確坐標以及類標簽。

        2 改進后的DETR 模型(Improved DETRmodel)

        2.1 空洞卷積法

        DETR模型以Resnet-50[12]作為主干網(wǎng)絡,對輸入圖像進行特征圖的提取。Resnet-50系列網(wǎng)絡通過引入殘差結(jié)構(gòu)有效緩和了神經(jīng)網(wǎng)絡在訓練時產(chǎn)生的梯度消失問題,但經(jīng)過降維后也丟失了很多特征信息,難以對特征信息較少的目標或者遮擋的小目標進行有效識別,也無法為后續(xù)編碼網(wǎng)絡提供高效的特征圖,所以在Resnet-50中引入空洞卷積,通過對傳統(tǒng)圖像卷積添加空洞完成對傳統(tǒng)圖像卷積的感受野擴張[13],空洞卷積法如公式(1)所示:

        其中:x 為原始圖像的向量值;w 為計算時的權(quán)值;y 為輸出的圖像向量值;r 代表擴張率,它是調(diào)節(jié)感受野大小,輸出圖像特征的一個重要參數(shù),r 改變,代表卷積核得到不同程度的擴張。引入空洞卷積后,通過不同的擴張率不僅能擴大檢測圖像的感受野,而且能在保持相同計算量的同時獲取更多工程車輛的特征信息,有效地提高了特征的健壯性。

        空洞卷積核和感受野對應的關系式如公式(2)和公式(3)所示:

        其中:t表示原始卷積核的大小,本研究選擇1×1的卷積核大小;Rm 為經(jīng)過m 層卷積后,感受野的大小;r 為擴張率;Tm 為經(jīng)過m 層空洞卷積后,卷積核的實際尺寸的大小;Si 表示在i層時的步長。

        本研究使用擴張率r 為1、2、4、8四種空洞卷積核對輸入圖像進行特征提取,輸出4種不同的特征圖,部分不同擴張率的卷積核示意如圖1所示。利用上述公式(2)和公式(3)計算可得每一層感受野的大小和卷積核的大小。即:

        T1=3+(3-1)×(1-1)=3,感受野R1=1+(3-1)×1=3;

        T2=3+(3-1)×(2-1)=5,感受野R2=3+(5-1)×1=7;

        T3=3+(3-1)×(4-1)=9,感受野R3=7+(9-1)×1=15;

        T4=3+(3-1)×(8-1)=17,感受野R4=15+(17-1)×1=31。

        2.2 加入空洞卷積后的Resnet-50

        Resnet-50主要由3個部分構(gòu)成,第一部分為一個7×7的卷積層,通道數(shù)為64,步長為2。第二部分(卷積層2_x~卷積層5_x)為殘差塊的堆疊,殘差塊采用瓶頸結(jié)構(gòu),“瓶頸結(jié)構(gòu)”由多組大小為1×1、3×3、1×1的卷積核組成。第三部分由一個全局平均池化、1 000維的全連接層和激活函數(shù)組成,主要作用是防止參數(shù)過擬合,提高輸入和輸出空間變換的魯棒性。

        本研究主要對Resnet-50的第二部分,即殘差網(wǎng)絡進行改進,在卷積層2_x~卷積層5_x的殘差模塊中引入不同擴張率的空洞卷積,改進后的Resnet-50殘差模塊如圖2所示,圖2中的Conv1×1表示卷積核的大小為1×1,64和256代表通道數(shù),Conv3-R中的3代表卷積核大小為3×3,R代表不同的擴張率。在保持1×1卷積核大小和通道數(shù)量不變的情況下,將殘差模塊中的3×3大小的卷積核改為擴張率為1、2、4、8的空洞卷積核。即在卷積層2_x中的空洞卷積核擴張率為1,在卷積層3_x中空洞卷積核擴張率為2,以此類推。通過不同的空洞卷積擴張率,得到不同的特征圖,以此提高對目標檢測的準確率。

        2.3 特征金字塔網(wǎng)絡

        由于DETR模型中的backbone模塊只輸出單一的特征圖層進行檢測,但是單一的特征圖層經(jīng)過多次的卷積以及池化過程會丟失目標的許多關鍵特征信息,而且當圖像分辨率不高或者目標較小時,則無法有效識別,所以只使用單一的特征圖是無法達到精確識別效果的。特征金字塔網(wǎng)絡通過簡單的網(wǎng)絡連接,以極小的計算量對不同尺度的特征圖進行調(diào)整融合,使得融合后的特征具有更豐富的表達能力,大大提高了模型對小目標或者特殊情況下的檢測準確率,也獲得了更高的魯棒性。

        本次研究的FPN主要由3個部分組成,分別為C1~C5自下而上、M5~M2自上而下及特征相加3個部分,其結(jié)構(gòu)圖如圖3所示。

        FPN[14]結(jié)構(gòu)首先為C1~C5自下而上的過程,即空洞卷積改進后的Resnet-50正向傳播過程,在Resnet-50的每個階段最后輸出基層特征圖為{M5,M4,M3,M2}。其次為M5~M2自上而下的過程,通過2倍上采樣操作,讓高層次語義更強的特征與低層次特征融合。最后通過1×1卷積核改變不同特征圖的channel,橫向連接至基層特征圖進行特征相加,得到最終的FPN特征圖{P2,P3,P4,P5},此時的特征圖具有更豐富的特征信息。

        2.4 損失函數(shù)的改進

        DETR模型的邊框損失函數(shù)采用GIOU[15]和L1損失結(jié)合的方法進行運算,如公式(4)所示:

        Lbox(bi,^bs(i))=λIOULGIOU(bi,^bs(i))+λL1LL1(bi,^bs(i))(4)

        其中:λIOU 和λL1 代表GIOU和L1的權(quán)重系數(shù),bi 和^bs(i)分別是第i 個需要檢測目標的真實框坐標值以及預測的第s(i)個的預測框的坐標值,LGIOU 和LL1 分別為GIOU和L1的損失函數(shù),其中GIOU損失函數(shù)如公式(5)和公式(6)所示:

        GIOU是一種距離度量,它的取值范圍(-1,1],其中c 為關注非重合區(qū)域引入的最小閉包區(qū)面積,b∪bst 為預測框和真實框的重疊部分,相比IOU,GIOU雖然能更好地反映兩者的重合度,但是它有如下缺點:當預測框和真實框處于包含關系的特殊情況下,GIOU和IOU計算出的loss 值就會一樣,兩者的相對位置關系無法有效的區(qū)分,這樣會導致邊界框回歸收斂得很慢,訓練時間也會大大地延長,無法達到有效回歸邊界框的目的。

        CIOU[16]可以很好地解決上述問題,它在原有的基礎上引入了對角線距離和中心點距離的比值關系,解決了GIOU在預測框和真實框包含關系下無法進行收斂的問題,同時加入了預測框和真實框的長寬比,更好地反映了兩者的重合度,其中CIOU損失函數(shù)如公式(7)至公式(9)所示:

        其中:wgt、hgt、w、h 分別代表真實框的寬、高和檢測框的寬、高,m(b,bgt)為預測框和目標框中心點的歐式距離。改進后的DETR模型的邊框損失函數(shù)如公式(10)所示:

        3 實驗分析(Experimental analysis)

        3.1 實驗數(shù)據(jù)集制作和實驗環(huán)境

        本文使用的數(shù)據(jù)集來源于電力公司實際拍攝的圖像,主要通過裝在桿塔上的攝像頭進行實時拍攝,拍攝目標主要為卡車、推土機、挖掘機3類,由于采集時間較短,所以數(shù)據(jù)集總共只有4 000張目標圖像,將工程車輛目標數(shù)據(jù)集以8∶2的比例劃分為訓練集和測試集,并使用LabelImg圖像標注工具對數(shù)據(jù)集進行統(tǒng)一標注,由于DETR模型通常采用的數(shù)據(jù)集格式為COCO數(shù)據(jù)集格式,所以需要將標注的PascolVOC格式轉(zhuǎn)化為COCO數(shù)據(jù)集格式。本文采用的數(shù)據(jù)集圖片由于目標檢測數(shù)量較多,背景較復雜等,導致模型較難收斂,檢測精度不高,所以使用圖像增廣技術(shù)對數(shù)據(jù)集進行圖像增強,即通過旋轉(zhuǎn)、增強亮度、增強對比度、增強色度、銳化等操作(圖4),讓模型學習到更多的目標圖像的特征。

        本次研究實驗使用Adam作為優(yōu)化器,在圖像增廣處理后的數(shù)據(jù)集上進行實驗,實驗平臺環(huán)境為Windows 11操作系統(tǒng),NVIDIA GeForce RTX 3060顯卡,i7-10870處理器,Pytorch1.70深度學習框架,CUDA版本為11.0,CUDNN v8.0.4加速訓練,Python版本為3.7,選取的batch_size 為8,訓練的epoch設置為200輪,使用Python為主要編程語言。

        3.2 實驗結(jié)果分析

        為了驗證改進后的DETR模型應用在輸電線路工程車輛檢測場景的準確性及適用性,從電網(wǎng)數(shù)據(jù)庫中隨機選取包含卡車、挖掘機、推土機的圖片一共800張,用于實驗測試。

        將測試樣本放于DETR 文件夾下,分別通過原始的DETR、改進主干網(wǎng)絡的DETR、損失函數(shù)改進后的DETR以及將主干網(wǎng)絡和損失函數(shù)結(jié)合改進后的DETR模型進行測試,結(jié)果如表1所示,本文采用平均精準度(AP)對模型的檢測精度進行驗證,采用指標為AP50 和AP50-95,分別表示IOU閾值取0.5和0.5~0.95,通過對2個AP 值的并向比較,更有效地反映改進后的DETR模型測試效果。

        表1中,第一行為原始的DETR模型在測試集上的測試結(jié)果,AP50 和AP50-95 分別為86.5%和58.1%,在此基礎上的第一步是在主干網(wǎng)絡中加入空洞卷積及特征金字塔網(wǎng)絡進行實驗,結(jié)果顯示AP50 和AP50-95 均提高了2百分點。第二步是對損失函數(shù)進行改進,實驗結(jié)果顯示,模型收斂效果較之前有明顯的進步,AP50 和AP50-95 分別提高了0.5百分點和1百分點左右。第三步加入所有改進策略進行實驗,結(jié)果顯示AP50 和AP50-95 都得到了明顯的提升,分別達到了92.1%和61.3%,表明改進后的DETR模型在識別輸電線路工程車輛場景方面具有良好的適用性。

        為了進一步驗證改進后的DETR模型在輸電線路工程車輛場景下的算法性能,將測試集與其他具有代表性的模型(SSD,F(xiàn)aster-RCNN,YOLOv3,YOLOv5)進行測試比較,其結(jié)果如表2所示。

        由表2可知,改進后的DETR模型應用在施工現(xiàn)場多目標場景下的檢測精度均高于其他YOLO系列和Faster-RCNN等常規(guī)目標檢測模型,并且對比原始的DETR模型,改進后的DETR模型取得了更高的檢測精度。圖5為改進后的DETR模型的檢測效果示意圖。

        4 結(jié)論(Conclusion)

        本文針對人工檢測大型工程車輛頻繁進出施工現(xiàn)場容易出現(xiàn)漏檢或誤檢的問題,提出了一種基于改進DETR模型的輸電線路工程車輛檢測模型,構(gòu)建了4 000張包含卡車、挖掘機和推土機3種目標類型的數(shù)據(jù)集。通過對原始的DETR模型的主干網(wǎng)絡以及損失函數(shù)進行改進,取得了較原始DETR模型以及其他經(jīng)典目標檢測模型更好的檢測效果。實驗結(jié)果表明,改進后的DETR模型在輸電線路工程車輛數(shù)據(jù)集中獲得的AP 值都得到了明顯的提升,其AP50 和AP50-95 分別達到了92.1%和61.3%,能在節(jié)省大量人力資源的同時,更好地完成工程車輛的檢測工作。下一步的工作是進一步提高DETR模型在小目標或者有霧天氣等特殊場景下的檢測準確率,以及解決DETR模型參數(shù)量較大導致訓練速度較慢的問題,嘗試把本文模型運用到需要檢測輸電線路工程車輛的實際場景中,輔助工作人員更好地完成對工程車輛的檢測。

        參考文獻(References)

        [1] 汪志勇. 多視角SAR目標識別與觀測路徑自主規(guī)劃方法研究[D]. 成都:電子科技大學,2022.

        [2] LECUN Y,BOTTOU L,BENGIO Y,et al. Gradient-basedlearning applied to document recognition[J]. Proceedingsof the IEEE,1998,86(11):2278-2324.

        [3] HOCHREITER S,SCHMIDHUBER J. Long short-termmemory[J]. Neural computation,1997,9(8):1735-1780.

        [4] GIRSHICK R,DONAHUE J,DARRELL T,et al. Richfeature hierarchies for accurate object detection and semanticsegmentation[C]∥IEEE. Proceedings of the 2014 IEEEConference on Computer Vision and Pattern Recognition.Piscataway:IEEE,2014:580-587.

        [5] GIRSHICK R. Fast R-CNN[C]∥IEEE. Proceedings ofthe 2015 IEEE International Conference on Computer Vision(ICCV). Piscataway:IEEE,2015:1440-1448.

        [6] REN S,HE K,GIRSHICK R,et al. Faster R-CNN:towardsreal-time object detection with region proposal networks[J]. IEEE transactions on pattern analysis and machineintelligence,2017,39(6):1137-1149.

        [7] HE K M,GKIOXARI G,DOLLáR P,et al. Mask R-CNN[J].IEEE transactions on pattern analysis and machine intelligence,2020,42(2):386-397.

        [8] LIU W,ANGUELOV D,ERHAN D,et al. SSD:singleshot MultiBox detector[C]∥Springer. Proceedings of theEuropean Conference on Computer Vision. Cham:Springer,2016:21-37.

        [9] REDMON J,DIVVALA S,GIRSHICK R,et al. You onlylook once:unified,real-time object detection[C]∥ IEEE.Proceedings of the 2016 IEEE Conference on Computer Visionand Pattern Recognition. Piscataway:IEEE,2016:779-788.

        [10] CARION N,MASSA F,SYNNAEVE G,et al. End-toendobject detection with transformers[C]∥Vedaldi A,Bischof H,Brox T,et al. European Conference on ComputerVision. Cham:Springer,2020:213-229.

        [11] HAN K,WANG Y H,CHEN H T,et al. A survey on visiontransformer[J]. IEEE transactions on pattern analysisand machine intelligence,2023,45(1):87-110.

        [12] HE K M,ZHANG X Y,REN S Q,et al. Deep residuallearning for image recognition[C]∥ IEEE. Proceedings ofthe 2016 IEEE Conference on Computer Vision and PatternRecognition. Piscataway:IEEE,2016:770-778.

        [13] 馬利,劉新宇,李皓宇,等. 應用空洞卷積的神經(jīng)網(wǎng)絡輕量化方法[J]. 計算機工程與應用,2022,58(5):85-93.

        [14] LIN T Y,DOLLáR P,GIRSHICK R,et al. Feature pyramidnetworks for object detection[C]∥ IEEE. Proceedingsof the 2017 IEEE Conference on Computer Vision and PatternRecognition. Piscataway:IEEE,2017:936-944.

        [15] REZATOFIGHI H,TSOI N,GWAK J,et al. Generalizedintersection over union:a metric and a loss for boundingbox regression[C]∥ IEEE. Proceedings of the 2019IEEE/CVF Conference on Computer Vision and PatternRecognition. Piscataway:IEEE,2019:658-666.

        [16] ZHENG Z H,WANG P,LIU W,et al. Distance-IoU loss:Faster and better learning for bounding box regression[C]∥AAAI. Proceedings of the AAAI Conference on Artificial Intelligence.Texas:AAAI Press,2020,34(7):12993-13000.

        作者簡介:

        張林龍(1999-),男,碩士生。研究領域:圖像處理。

        胡旭曉(1965-),男,博士,教授。研究領域:圖像處理,深度學習。

        胡克軫(2004-),男,本科生。研究領域:圖像處理。

        猜你喜歡
        損失函數(shù)
        基于全卷積神經(jīng)網(wǎng)絡的左心室圖像分割方法
        軟件導刊(2020年5期)2020-06-22 13:15:56
        基于ArcFace的自然場景人臉識別系統(tǒng)設計及改進
        基于空洞卷積神經(jīng)網(wǎng)絡的藝術(shù)圖像風格重建算法
        基于角度間隔嵌入特征的端到端聲紋識別模型
        一種高精度航拍圖像目標檢測算法研究與實現(xiàn)
        基于改進YOLO算法的密集人群場景下的行人檢測
        基于改進SIFT特征和神經(jīng)網(wǎng)絡結(jié)合的場景識別
        軟件工程(2019年5期)2019-07-03 02:31:14
        氣候變化對中國主要糧食作物單產(chǎn)影響的文獻計量Meta分析
        考慮應急時間和未滿足需求量的應急物資多階段分配模型
        基于深度學習的人臉屬性聯(lián)合估計
        亚洲三级在线播放| 国产精品特级毛片一区二区三区| 中文字幕东京热一区二区人妻少妇| 亚洲av综合av国一区二区三区| 亚洲毛片在线观看免费| 亚洲乱码国产乱码精品精| 免费无码国产v片在线观看| 8090成人午夜精品无码| 亚洲av调教捆绑一区二区三区| 日本熟女中文字幕在线| 国产精品99久久久久久猫咪| 久青草国产在线观看| 成在线人免费视频播放| 富婆猛男一区二区三区| 精品久久久无码中字| 国产午夜亚洲精品理论片不卡| 东京热加勒比日韩精品| 最新中文字幕日韩精品| 日韩精品一区二区三区中文| 天天爽夜夜爽人人爽曰喷水| 亚洲性码不卡视频在线| 少妇一级淫片中文字幕| 看av免费毛片手机播放| 国产乱色国产精品免费视频| 精品国产一区二区三区九一色| 精品亚洲第一区二区三区| 岳好紧好湿夹太紧了好爽矜持| 午夜精品久久久久久中宇| 2021精品综合久久久久| 日本视频在线播放一区二区| 国产色系视频在线观看| 久久久久无码国产精品不卡| 网红极品女神精品视频在线| 久久精品人搡人妻人少妇| 痉挛高潮喷水av无码免费| 美女黄18以下禁止观看| 大量老肥熟女老女人自拍| 婷婷色国产精品视频二区| av在线亚洲欧洲日产一区二区 | 日韩精品久久久一区| 国产女主播视频一区二区三区 |