亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于改進的YOLOv3 接觸網鳥巢檢測與識別

2021-09-15 09:51:36屈志堅高天姿

華東交通大學學報 2021年4期

屈志堅，高天姿，池瑞，楊行

（華東交通大學電氣與自動化工程學院，江西南昌 330013）

接觸網是電氣化鐵路的動力輸電網絡，接觸網穩(wěn)定的工作狀況與鐵路安全穩(wěn)定運行密切相關[1-2]。鳥類在接觸網上筑巢已不罕見，若不及時發(fā)現(xiàn)并處理鳥巢，容易引起輸電線路跳閘或絕緣子擊穿等，對鐵路運輸安全穩(wěn)定運行造成嚴重威脅[3]。傳統(tǒng)檢測識別鳥巢的方式是人工檢測法[4]，即采用人工對車載視頻進行標記，該方法費時費力且效率較低。

近幾年，隨著計算機圖像技術的發(fā)展，利用圖像處理技術對拍攝的車載視頻進行自動檢測，能提高接觸網故障檢測的效率。祝振敏等[5]針對鳥巢的結構特性，對接觸網上疑似鳥巢區(qū)域進行粗提取，得到鳥巢可能存在的關鍵區(qū)域，再利用HOG 特征和分類器訓練對鳥巢進行精確提取。金煒東等[6]分析鳥類筑巢特點，針對桿塔的中上部、圖片中最前景的硬橫梁結構，提出一種基于相對位置不變性的接觸網鳥巢識別檢測。羅婷婷等[7]通過分析發(fā)現(xiàn)接觸網圖像中正常數據與異常數據樣本數量存在嚴重的不平衡，針對鳥巢的檢測問題，提出利用雙判別器生成對抗網絡來解決鳥巢樣本數據不平衡問題。上述方法均能夠檢測到接觸網上的鳥巢，但存在如對于遮擋問題性能不太穩(wěn)定；或在鳥巢檢測前需要設定閾值；閾值的選擇影響鳥巢的檢測結果等問題。近年來，以卷積神經網絡為基礎的深度學習目標檢測算法主要分為一階段檢測和二階段檢測[8-9]。FasterR-CNN[10]等是基于目標候選框思想的二階段檢測，SSD[11]，YOLO[12]等是基于回歸思想的一階段檢測，具有更高的檢測速度。

在接觸網鳥巢的檢測上，改進的YOLOv3 算法與目前比較熱門的SSD、RetinaNet[13]等算法相比，有更高的檢測精度。

1 鳥巢圖像預處理

鳥巢圖像預處理主要包含灰度化，小波去噪，維納濾波，數據增強4 個階段，其中灰度化是鳥巢圖像預處理的首要步驟。小波去噪，維納濾波，數據增強各階段順序不影響，可獨立完成對鳥巢圖像檢測。由于拍攝到的鳥巢圖像是彩色圖像，每個像素點有2563個顏色變化區(qū)間，若直接對彩色圖像處理，計算量大且訓練速度慢。將鳥巢圖像灰度化后，計算量大大減小[14-15]，且仍能反映圖像亮度等級分布以及整體和局部色度。本文采用平均值法對鳥巢圖像進行灰度化處理，將彩色的鳥巢圖像RGB 三分量取均值作為灰度圖的灰度值。平均值灰度化結果圖如圖1 中平均值灰度化結果圖所示。

列車車載攝像機在拍攝過程中由于受到環(huán)境影響，導致采集到的鳥巢圖像具有各種類型噪聲。為了將無效的噪聲信號過濾掉，本文采用小波閾值去噪，其中閾值的選擇主要有硬閾值和軟閾值函數[16]，如圖1 軟硬閾值去噪結果圖所示，分別為軟硬閾值的去噪效果。

列車的高速行駛導致車載攝像機拍攝到的鳥巢圖片存在一定程度的運動模糊，需要將帶有運動模糊的鳥巢圖片復原成原始圖像。采用維納濾波方法，使得恢復后的鳥巢圖像與最初不帶運動模糊的鳥巢圖像間均方誤差最小。維納濾波的傳遞公式為

式中：H*為分母的復共軛；Z 為噪聲功率譜；S 為原圖像功率譜。結合式（1）可以得出

式中：Q^為去掉運動模糊后的圖像做傅里葉變換。

利用維納濾波去除運動模糊的結果圖如圖1（f）所示。

一般來說，拍攝到的高鐵接觸網鳥巢圖像僅占很少一部分，若直接對樣本數量如此匱乏的鳥巢圖像進行訓練，神經網絡易出現(xiàn)過擬合現(xiàn)象，即出現(xiàn)在訓練集上效果好，而對于未參與訓練的數據集上效果不好。數據增強在一定程度上能避免過擬合現(xiàn)象的產生，基于此，采用數據增強[16]方法增加鳥巢數據集。部分擴增結果如圖1（f）～圖1（h）所示。

圖1 鳥巢圖像預處理結果圖Fig.1 Bird nest image preprocessing result map

如圖1 所示，經灰度化后的鳥巢圖像與原始圖像相比仍能反映鳥巢的形狀特征、邊緣特征；經過軟硬閾值小波去噪處理后的鳥巢圖像顯示，軟閾值去噪后的圖像更平滑，去噪效果更好；維納濾波結果圖與原圖相比，能夠將拍攝高鐵接觸網鳥巢圖像的過程中產生的運動模糊過濾；數據增強采用翻轉、旋轉、改變亮度對比度等方式增加鳥巢數據集數量。

2 深度學習結構

2.1 深度學習算法原理

典型的深度學習模型有卷積神經網絡、深度信任網絡、堆棧自編碼網絡三類模型。卷積神經網絡在計算機視覺等領域取得了很好的效果。一般的卷積神經網絡結構主要包含卷積層、池化層、全連接層，基本結構如圖2 所示。

圖2 卷積神經網絡的基本結構Fig.2 Basic structure of convolutional neural network

高鐵接觸網鳥巢圖像經卷積神經網絡輸入層并傳遞給卷積層，卷積層利用卷積核從上到下，從左到右對輸入鳥巢圖像進行卷積操作，能夠提取數據的抽象特征和邊緣特征；池化層能夠對數據進行降維，對特征進行壓縮，減少參數量；全連接層綜合提取到的特征并映射為固定長度向量，一般包含類別概率及坐標位置等。本文使用的深度學習算法首先直接將圖片作為輸入，將圖片分割為G×G 個單元格，在每個單元格上通過邊界框預測，最終輸出每個邊界框預測的目標概率和坐標，包含邊界框的橫坐標，縱坐標，寬度，高度以及類別的共5 個置信度信息，分別用ax，ay，aw，ah，aconf表示，其中置信度aconf如下所示

若目標中心落在某一塊單元格內部，則由該單元格預測該目標，以這個單元格為中心生成多尺度先驗框，比對先驗框與真實框的交并比選擇最合適尺度的先驗框進行尺度縮放和平移邊界框來判斷物體的位置。記邊框預測值為（px，py，pw，ph），目標中心在單元格中相對于圖像左上角偏移量為（sx，sy），同時先驗框具有寬度和高度（Aw，Ah），則修正后（amend）的邊框為

2.2 深度學習網絡結構

本文使用的深度學習算法YOLOv3 網絡模型以卷積神經網絡作為基礎結構，主要由特征提取模塊DarkNet-53[17]、FPN（feature pyramid network）組成[18]。其中，特征提取模塊DarkNet-53 共含有53 層卷積層，除去最后一層由1×1 卷積組成的全連接層。網絡整體結構如圖3 所示。

圖3 YOLOv3 網絡整體結構Fig.3 The overall structure of the YOLOv3 network

增強后的鳥巢圖片尺寸為640×640，首先經過Reshape 將尺寸統(tǒng)一到416×416 后再輸入到Darkenet-53 網絡模型中。經過Darknet-53 結構將后3個殘差模塊輸出的特征圖輸入到FPN 中。其中，13×13 的特征圖經過5 次卷積輸入到檢測網絡中，再將該特征圖經過一次卷積和上采樣與26×26 的特征圖拼接融合，將融合后的特征圖經過5 次卷積輸入到檢測網絡中，再將該特征圖經過一次卷積和上采樣與52×52 的特征圖拼接融合，經過5 次卷積輸入到檢測網絡中。最終檢測網絡輸出52×52，26×26，13×13 特征圖分別適合檢測小目標，中等目標，大目標鳥巢。

3 改進的深度學習算法

3.1 引入空間金字塔池化處理

由于高鐵接觸網鳥巢圖像的鳥巢目標輪廓不清晰，降維過程易發(fā)生信息丟失等問題，鳥巢圖像在預處理和多尺度預測過程中，存在拉伸成固定尺寸等操作導致信息失真影響后續(xù)檢測結果。為了解決這個問題，引入空間金字塔池化。空間金字塔池化的網絡結構圖如圖4 所示。

圖4 空間金字塔池化處理模塊Fig.4 Spatial pyramid pooling module

空間金字塔池化處理模塊如圖4 所示。經5 次殘差模塊后，鳥巢的輸入圖像尺寸從416×416×1 變成13×13×1 024，為了提取到鳥巢的多尺度信息，在經過3 次卷積后，對特征圖進行分塊池化，本文選擇的池化核為5，9，13，其中為了不使輸入特征圖尺寸發(fā)生變化，采用步長為1 且填充的池化方式。經過3 個不同尺度的池化操作后的特征圖和原始全局特征圖融合后能夠獲得更多特征，消除由于鳥巢尺寸大小不一樣導致有效信息不一致的影響，有助于提高對鳥巢的檢測精度。

3.2 廣義交并比及其損失函數

目標檢測常把均方誤差作為損失，但又使用交并比（IoU）[19]即真實框與預測框的交并比來衡量預測結果的好壞，模型對兩者的優(yōu)化并不等價，當真實框與預測框的均方誤差損失相等時，兩者交并比并不一定相等。同時交并比能被反向傳播，若把交并比作為損失函數直接被優(yōu)化即直接優(yōu)化評價指標比選擇替代的損失函數好。但交并比有兩個缺點：①當真實框與預測框不相交時，交并比為0，此時梯度也為0，無法進行優(yōu)化；②若真實框與預測框不相交時，如圖5 所示，兩者不相交，交并比為0，但無法反映哪個預測結果更好。

圖5 交并比為0 時兩種可能的情況Fig.5 Two possible situations when IoU is 0

如圖5 所示，雖然綠色的真實框與黃色預測框都不相交，但明顯左邊的預測框與真實框距離更近，預測效果更好。

為了更好的評價預測框的質量，本文利用GIoU（Generalized IoU，GIoU，令為GIoU）即廣義交并比作為新的預測框與真實框的距離的評價方法。GIoU 不僅關注真實框預測框交集，也關注兩者并集，更能評價兩者重疊關系。

GIoU 評價方法的計算步驟為：

1）計算真實框與預測框的面積分別用TT、TP表示；

2）計算兩者交集TT∩TP和并集TT∪TP；

3）找到包含真實框與預測框的最小框，并計算其面積大小，用Tmin表示；

這種評價方式當真實框與預測框不相交時，也能進行優(yōu)化，改善了當IoU 為0 時難以優(yōu)化的問題。

4 實驗分析

4.1 實驗環(huán)境的配置

本文使用Pytorch 平臺進行鳥巢檢測識別，使用GPU 加速，實驗環(huán)境配置如表1 所示。

表1 實驗環(huán)境配置Tab.1 Experimental environment configuration

4.2 網絡的訓練及測試

針對某高鐵接觸網鳥巢圖像，經6 種數據增強方法后得到的鳥巢圖像共716 張，其中訓練集共585 張，驗證集70 張，測試集61 張。將鳥巢圖片尺寸歸一化至640×640 像素。根據實驗需求將鳥巢數據集標注為數據格式并保存。模型訓練開始階段將學習率設置為0.001，在step 模式下更新學習率，訓練迭代次數達到7 000 次時學習率下降為初始學習率的10%，訓練迭代次數達8 000 次時，學習率降為初始學習率的1%。訓練過程對損失函數值進行記錄。

如圖6 所示，損失隨迭代次數增加逐漸趨于穩(wěn)定，GIoU 損失達到3.5 左右基本不超過4，Objectness 損失達到0.1 左右基本不超過0.25。根據曲線收斂情況所示，9 000 次訓練后可停止迭代。

圖6 損失變化曲線圖Fig.6 Loss change graph

在高鐵接觸網鳥巢圖像檢測中，網絡模型精度與召回率可由下列兩個公式計算得出。

式中：P 表示網絡模型精度；R 表示召回率；nTP表示鳥巢被正確框出的數量；sum1表示所有被框出數量的總和；sum2表示圖片中鳥巢的數量總和。平均精度均值mAP 是衡量模型在不同類別中檢測效果的重要指標，計算方法為

式中：num（class）表示圖像檢測類別數目總和；AP（average precision）表示精度與召回率關系曲線的有限積分值，與模型整體表現(xiàn)呈正相關。改進后的YOLOv3 網絡在接觸網鳥巢數據集上鳥巢檢測的AP 曲線如圖7 所示。

圖7 改進后的YOLOv3 網絡在鳥巢數據集上的AP 曲線Fig.7 AP curves of the improved YOLOv3 network on the bird nest dataset

如圖7 所示，改進后的YOLOv3 網絡在鳥巢數據集上的AP 達到95.1%。 mAP 是AP 在不同類別下的均值，在本文單一類別數據集中，可作為鳥巢檢測的評價指標。測試結果如表2 所示。

由表2 可知，基于層數50 層的RetinaNet 算法的鳥巢檢測，mAP 達到65.7%，基于SSD300 算法的鳥巢檢測，mAP 達到90.2%，原始YOLOv3 算法在鳥巢上的檢測，mAP 達到90.4%，改進的YOLOv3算法在鳥巢上的檢測，mAP 達到95.1%。結果表明，改進的YOLOv3 算法與層數50 層的RetinaNet 算法、SSD300 算法相比，在接觸網鳥巢上的檢測有更高的平均準確度。

表2 不同檢測算法在本文數據集上的檢測結果Tab.2 Detection results of different detection algorithms on the dataset in this paper

用改進后的YOLOv3 網絡對高鐵接觸網鳥巢圖片進行測試，部分檢測結果如圖8 所示。檢測結果顯示，在高鐵接觸網復雜背景下，改進的YOLOv3網絡能檢測到部分不清晰、有遮擋的鳥巢，對于遠距離、部分形狀較小的鳥巢也能檢測到，具有較好的泛化能力。

圖8 改進后的YOLOv3 網絡在接觸網鳥巢數據集上的測試結果Fig.8 Test results of the improved YOLOV3 network on the Catenary Nest dataset

4.3 接觸網鳥巢特征圖的提取與轉換

卷積神經網絡由多個卷積層組成，每個卷積層利用卷積核對圖像進行卷積運算，得到特征圖，每層提取的特征不同。淺層卷積層提取較為局部、細節(jié)的信息，高層卷積層感知圖像更復雜、抽象的信息。通過對部分卷積層輸出的鳥巢圖像特征圖的分析，得到卷積神經網絡對鳥巢信息的提取過程。如圖9 所示。

可以看出，神經網絡對鳥巢圖像的信息提取過程與人認知圖像相似。人在認知圖像時先感知圖片亮度信息與顏色信息，再是邊緣、輪廓等局部細節(jié)，然后是紋理特征等更加復雜的信息，最后將所有信息綜合形成整體的概念。如圖9 所示，神經網絡先對桿塔邊緣仔細辨認，突出夾角位置，隨著網絡層數加深，將桿塔與背景分開并尋找目標可能的重點部位。

圖9 卷積層輸出特征圖Fig.9 The convolutional layer outputs the characteristic graph

5 結論

該文基于Pytorch 平臺使用以卷積神經網絡為基礎的深度學習模型，對高鐵接觸網鳥巢圖像進行檢測與識別。

1）前期對鳥巢圖像的去噪處理，能有效降低各種噪聲對鳥巢目標的干擾，突出鳥巢目標；數據增強能提高鳥巢樣本數目，一定程度上解決了神經網絡出現(xiàn)過擬合問題。

2）將空間金字塔池化與改進的深度學習模型結合，有效提高對鳥巢的多尺度特征信息，同時引入廣泛交并比作為損失函數，與均方誤差相比，直接將評價真實框與預測框距離的方法作為損失函數，改善了IoU 作為評價方法時，真實框與預測框不相交無法優(yōu)化的問題，更適合作為損失函數進行優(yōu)化。

3）與傳統(tǒng)檢測鳥巢的方法相比，該方法檢測鳥巢精度更高，有更高的檢測速度，能在復雜的接觸網背景下較好的識別檢測鳥巢，對接觸網鳥害的處理有重要意義。