面向視頻數(shù)據(jù)的深度學習目標識別算法綜述

2022-04-18 10:56:06王振華張鑫月鄭宗生欒奎峰

計算機工程 2022年4期

王振華，李靜，張鑫月，鄭宗生，盧鵬，欒奎峰

（1.上海海洋大學信息學院，上海 201306；2.上海海洋大學海洋科學學院，上海 201306）

0 概述

監(jiān)測手段的多樣化使得數(shù)據(jù)獲取方式從靜態(tài)的圖像拍攝擴展至動態(tài)的視頻監(jiān)測，視頻數(shù)據(jù)不再局限于人類娛樂活動，因此，面向動態(tài)視頻數(shù)據(jù)的目標識別成為研究熱點并被廣泛應用于各個領域，如交通領域的車牌識別［1-2］、車輛違章［3-5］、無人駕駛［6-7］等，農(nóng)業(yè)領域的機器采摘［8-9］、農(nóng)作物成熟度檢測［10］、病蟲害分析［11-12］等，城市管理領域的智能安防［13-14］、安全監(jiān)控［15-16］等。

深度學習因其多尺度的特征提取能力和超強的泛化能力，成為視頻目標識別的技術支撐。目標識別是計算機視覺的一部分，其目的在于從圖像或視頻中檢測出目標、識別目標類別并計算目標所在位置［17］。視頻數(shù)據(jù)是由連續(xù)幀組成的動態(tài)數(shù)據(jù)，相較于靜態(tài)圖像，其包含了目標對象的上下文信息。在深度學習領域，目標識別利用卷積神經(jīng)網(wǎng)絡來完成，即通過卷積神經(jīng)網(wǎng)絡對輸入的視頻數(shù)據(jù)進行特征提取，利用提取的特征實現(xiàn)目標的分類與定位［18］。

本文歸納并分析面向動態(tài)視頻數(shù)據(jù)的深度學習目標識別算法，通過實驗比較各算法的優(yōu)缺點，并在現(xiàn)有研究基礎上對面向動態(tài)數(shù)據(jù)的目標識別研究進行展望。

1 基于深度學習的視頻數(shù)據(jù)目標識別算法

根據(jù)是否采用錨點機制，可將基于深度學習的目標識別算法分為Anchor-Based 和Anchor-Free 兩類，如圖1 所示。Anchor-Based 類算法根據(jù)有無區(qū)域建議生成可分為基于區(qū)域的目標識別算法（Two-stage）和基于回歸的目標識別算法（One-stage）［19］。Anchor-Free 類算法根據(jù)算法結構可分為基于關鍵點的目標識別算法和基于特征金字塔的目標識別算法。

圖1 基于深度學習的視頻數(shù)據(jù)目標識別算法分類Fig.1 Classification of video data object recognition algorithms based on deep learning

1.1 Anchor-Based 目標識別算法

Anchor-Based 算法首先預設邊界框（Anchor Box）作為目標大小及定位參考。Anchor 是邊界框的中心點，也是固定點。Anchor Box 為錨框，是預測目標邊界框的重要參考標準。本文對Anchor-Based兩類目標識別算法分別進行分析。

1.1.1 基于區(qū)域的目標識別算法

基于區(qū)域的目標識別算法（Two-stage）包括識別目標候選區(qū)選擇、卷積神經(jīng)網(wǎng)絡的特征提取、候選區(qū)域分類、目標識別結果優(yōu)化等步驟［20］。2013 年，GIRSHICK 提出Region-CNN（R-CNN）目標識別算法，開啟了深度學習用于目標識別的發(fā)展之路［21］。2014年，HE 等提出空間金字塔池化算法（Spatial Pyramid Pooling Network，SPPNet），消除了網(wǎng)絡對輸入圖像尺寸的限制，避免了卷積特征的重復計算［22］。2015 年，GIRSHICK 提出Fast R-CNN 目標識別算法，對R-CNN和SPPNet 進行了融合改進［23］。同年，GIRSHICK 等又提出Faster R-CNN 目標識別算法，引入了候選區(qū)域生成網(wǎng)絡（Region Proposal Network，RPN）用于自動生成目標候選區(qū)域［24］。2016 年，DAI 等提出R-FCN目標識別算法，將全連接應用于Faster R-CNN，增加位置敏感得分圖和位置敏感池化操作，解決了分類網(wǎng)絡的位置不敏感性與檢測網(wǎng)絡的位置敏感性之間的矛盾［25］。2017 年，HE 等提出Mask R-CNN 目標識別算法，解決了原圖與特征圖的特征位置不匹配問題［26］。2018 年，CAI 等提出Cascade R-CNN 目標識別算法，通過級聯(lián)多個檢測網(wǎng)絡，達到了優(yōu)化預測結果的目的［27］。

1）R-CNN 目標識別算法

R-CNN 算法流程如圖2 所示，主要包括以下步驟：

圖2 R-CNN 算法流程Fig.2 Procedure of R-CNN algorithm

（1）創(chuàng)建候選框：利用選擇性搜索算法創(chuàng)建候選框。

（2）提取特征并生成特征向量：將創(chuàng)建的候選區(qū)域進行固定尺寸的縮放，并將縮放結果輸入到AlexNet（去除最后的Softmax 層）中提取特征，生成特征向量。

（3）候選區(qū)域分類并生成得分：將特征向量輸入到SVM 分類器對候選區(qū)域進行分類并生成得分。

（4）結果生成：通過Canny 邊緣檢測對得分較高的候選框微調(diào)得到最終邊界框（Bounding boxes）。

R-CNN目標識別算法利用神經(jīng)網(wǎng)絡對底層向上的候選區(qū)域分類和定位，通過遷移學習解決了數(shù)據(jù)集規(guī)模小的問題。但該算法參數(shù)量較多，并且創(chuàng)建候選區(qū)域時存在重疊現(xiàn)象，導致計算量大、耗時嚴重。此外，R-CNN需要單獨開辟空間來存取目標特征，存在空間資源消耗問題。

2）SPP-Net 目標識別算法

SSP-Net 是HE 等在神經(jīng)網(wǎng)絡中引入空間金字塔池化的目標識別算法?？臻g金字塔池化可接受任意尺寸的圖像輸入，并產(chǎn)生固定輸出，其通過不同尺寸的池化對相應目標進行特征提取。SPP-Net 算法的處理流程類似于R-CNN，如圖3 所示。該算法相比R-CNN的改進在金字塔池化層，通過金字塔空間池化對特征圖中的每個候選區(qū)域提取固定長度的特征向量，并輸入到全連接層。

圖3 SPP-Net 算法流程Fig.3 Procedure of SPP-Net algorithm

SPP-Net 算法解決了網(wǎng)絡對輸入圖像尺寸的要求，避免了圖像剪裁后目標變形、識別區(qū)域只包含部分物體等問題，其通過候選區(qū)域到全局特征映射，直接獲取候選區(qū)域中的特征向量，避免了通過網(wǎng)絡對特征重復計算，縮短了訓練時間。但SPP-Net 算法采用SVM 作為分類處理器，存在空間資源消耗問題，并且該算法采用選擇性搜索算法創(chuàng)建候選框，計算量大的不足仍是有待優(yōu)化的問題。

3）Fast R-CNN 目標識別算法

Fast R-CNN 是一種基于區(qū)域的快速目標識別算法，該算法在提高精度的同時，加快了算法的訓練時間和測試速度。Fast R-CNN 算法流程如圖4 所示，主要包括以下步驟：

圖4 Fast R-CNN 算法流程Fig.4 Procedure of Fast R-CNN algorithm

（1）創(chuàng)建候選框并提取特征：與R-CNN 相同，采取選擇性搜索算法創(chuàng)建候選框，同時輸入圖像到VGG-16 中進行特征提取并輸出特征圖。

（2）ROI 池化：根據(jù)候選框和特征圖的映射關系在特征圖中找到每個候選框?qū)奶卣骺?，在ROI池化層中將每個特征框池化到特定尺寸并輸出等同候選框個數(shù)的特征向量。

（3）整合特征：將相同尺寸的向量輸入到全連接層進行特征整合，得到固定大小的特征向量。

（4）輸出結果：將所得特征向量由SVD 分解輸出一個分類得分向量和一個窗口回歸向量，對每一類物體進行非極大值抑制，剔除重疊建議框并得到最后目標識別結果。

Fast R-CNN 算法采用感興趣池化層（ROI Pooling Layer）提高了目標識別精度，并且只在ROI 層進行特征提取，避免了特征的重復計算，縮減了網(wǎng)絡的訓練與測試時間。此外，其采用多任務損失函數(shù)（Multi-task Loss）將分類和定位統(tǒng)一，避免了特征額外的空間消耗。但是Fast R-CNN 算法同樣采用選擇性搜索算法創(chuàng)建候選框，仍然存在耗時嚴重的問題。

4）Faster R-CNN 目標識別算法

Faster R-CNN 是對Fast R-CNN 的改進，該算法通過區(qū)域候選網(wǎng)絡（Region Proposal Network，RPN）代替選擇性搜索算法產(chǎn)生候選框，在保證精度的前提下解決耗時問題。Faster R-CNN 的處理流程如圖5 所示，主要包括以下步驟：

圖5 Faster R-CNN 算法流程Fig.5 Procedure of Faster R-CNN algorithm

（1）特征提取：輸入圖像到CNN（ZFnet或VGG-16）得到供RPN網(wǎng)絡輸入的特征圖和向前傳播的特有特征圖。

（2）利用RPN 網(wǎng)絡創(chuàng)建候選框：將生成的特征圖輸入到RPN 網(wǎng)絡得到區(qū)域建議和區(qū)域得分。

（3）ROI 池化：將得分前300 名的區(qū)域建議［28］和特有卷積層進行特征提取得到高維特征圖輸入到ROI 層，輸出尺寸相同的特征向量。

Faster R-CNN 算法中的RPN 網(wǎng)絡采用錨點機制，以每個錨點為中心生成9 個大小、比例不同的錨點框，其結構如圖6 所示。

圖6 RPN 網(wǎng)絡結構Fig.6 RPN network structure

Faster R-CNN 算法將候選框的生成融于網(wǎng)絡中，解決了采用選擇性搜索算法耗時嚴重的問題，同時設置不同尺寸的Anchors，解決多尺度問題。但Faster R-CNN 算法需要計算每個候選框的分類，計算量較大，并且該算法存在特征圖與原圖的配準問題，影響了模型的識別精度［29-31］。

5）R-FCN 目標識別算法

R-FCN（Region-based Fully Convolutional Network）算法的處理流程如圖7 所示，主要包括以下步驟：

圖7 R-FCN 算法流程Fig.7 Procedure of R-FCN algorithm

（1）特征提取：輸入圖像到Backbone Network（ResNet-101）進行特征提取輸出特征圖。

（2）生成候選框和位置敏感信息得分圖：將ResNet-101 中Conv4 的輸出特征圖輸入到RPN 網(wǎng)絡中，得到區(qū)域建議和區(qū)域得分，將ResNet-101 中Conv5 輸出的特征圖進行位置敏感信息卷積，得到位置敏感信息得分圖。

（3）生成類別得分：將區(qū)域建議和位置敏感信息得分圖進行位置敏感池化操作，使得每個區(qū)域建議都生成對應位置的類別得分。

（4）結果生成：通過Softmax 函數(shù)和計算Offset 分別獲得對應的類別和位置信息，并生成目標識別結果。

R-FCN 算法的優(yōu)勢是提出了采用位置敏感信息得分圖（Position-sensitive score maps），解決了目標識別的位置敏感性問題，同時采用全卷積網(wǎng)絡減少了總體計算量，加快了識別速度。但R-FCN 算法只采用一個尺度特征，不適應目標尺度變化的現(xiàn)象，并且該算法的收斂速度仍需改進［32-33］。

6）Mask R-CNN 目標識別算法

Mask R-CNN 是HE等提出的Faster R-CNN 的擴展，其處理流程如圖8 所示，主要包括以下步驟：

圖8 Mask R-CNN 算法流程Fig.8 Procedure of Mask R-CNN algorithm

（1）特征生成：輸入圖像到ResNet-FPN 網(wǎng)絡進行特征提取并輸出特征圖。

（2）候選框生成：對特征圖中的每一點設定預定的感興趣區(qū)域（Region of Interest，ROI），將候選的ROI 輸入到RPN 網(wǎng)絡，得到區(qū)域建議和區(qū)域得分并過濾掉部分候選的ROI。

（3）固定尺寸的特征圖生成：將生成的候選框和生成的特征圖進行雙行線插值操作（ROI Align），將特征聚集并輸出特定尺寸的向量。

（4）結果生成：將特征向量分別輸入到全連接層和FCN網(wǎng)絡中進行分類、回歸和Mask分割，并生成結果。

Mask R-CNN 目標識別算法利用ROI Align 方法解決了Faster R-CNN 中的Misalignment 的問題，同時通過添加Mask 層融合了淺層與深層特征檢測圖像特征細節(jié)。此外，其定義多任務損失函數(shù)，即在Fast R-CNN 的基礎上增加了Mask 損失，避免了不同類別之間的相互影響。但Mask R-CNN 算法參數(shù)較多，計算量大，這影響了算法的速度［34-35］。

7）Cascade R-CNN 目標識別算法

Cascade R-CNN 是CAI 等提出的一種通過級聯(lián)多個網(wǎng)絡來優(yōu)化預測結果的多階段目標識別算法，也是對Faster R-CNN 算法的改進，其處理流程如圖9所示，主要包括以下步驟：

圖9 Cascade R-CNN 算法流程Fig.9 Procedure of Cascade R-CNN algorithm

（1）特征生成：輸入圖像到ResNet101 與FPN 相結合的網(wǎng)絡中進行特征提取，得到繼續(xù)向前傳播和輸入到RPN 網(wǎng)絡中的特征圖。

（2）候選框創(chuàng)建：同F(xiàn)aster R-CNN 一樣，通過RPN 網(wǎng)絡生成候選框。

（3）結果生成：通過級聯(lián)不同IoU 閾值的檢測模型對輸入進行逐步分類與定位。

Cascade R-CNN 算法是通過級聯(lián)不同IoU 閾值的檢測器，其各自專注于相應IoU 閾值的目標，避免了因只增加IoU 閾值導致正樣本數(shù)量減少而產(chǎn)生的數(shù)據(jù)過擬合問題，提高了目標識別精度。但該算法的級聯(lián)結構增加了訓練成本和計算耗時［36-38］。

1.1.2 基于回歸的目標識別算法

基于回歸的目標識別算法將目標識別問題轉(zhuǎn)換為回歸問題，取消了網(wǎng)絡中候選區(qū)域（Region Proposal）的產(chǎn)生過程，通過對輸入數(shù)據(jù)集進行訓練直接在圖像中預測目標的類別概率和位置坐標［39］。2016 年，LIU 等引入多尺度識別技術，提出了SSD 目標識別算法［40］。2017 年，REDMON 等對YOLOv1 進行改進，提出YOLOv2（和YOLO9000），提升了目標識別的定位準確率和召回率［41］。2020 年，LIN 等提出了RetinaNet 算法，解決了正負樣本之間不均衡問題［42］。2017 年，F(xiàn)U等在SSD 的基礎上改進上采樣和預測模塊，提出了DSSD 算法［43］。此外，在SSD 算法基礎上改進的目標識別算法還包括DSOD［44］、FSSD［45］和RSSD［46］等。2018 年，REDMON 等改進基礎網(wǎng)絡并結合金字塔結構，提出了YOLOv3 算法［47］。2019 年，ZHAO 等提出M2Det 算法解決了目標尺度變化問題［48］，TAN 等設計了一種多維度混合的模型放縮方法——EfficientNet算法［49］。2020 年，TAN 等對EfficientNet 擴展改進，提出了EfficientDet 算法［50］。此外，在YOLOv3 的基礎上，BOCHKOVSKIY 等提出YOLOv4 算法［51］，ULTRALYTICS 等提出了YOLOv5 算法。

1）SSD 目標識別算法

SSD（Single Shot MultiBox Detector）算法是LIU等于2016 年提出的單一神經(jīng)網(wǎng)絡的目標識別算法，由VGG-16 卷積神經(jīng)網(wǎng)絡和多尺度特征目標識別網(wǎng)絡兩部分組成。SSD 算法的處理流程如圖10 所示，主要包括以下步驟：

圖10 SSD 算法流程Fig.10 Procedure of SSD algorithm

（1）特征獲?。狠斎雸D像到VGG-16 卷積網(wǎng)絡進行特征提取并生成特征圖。

（2）先驗框獲?。哼x取Cov4_3、FC7、Conv6_2、Conv7_2、Conv8_2、Conv9_2 這6 層特征圖并在每個特征層的每個單元格上生成默認框（default box）；所有的默認框（default box）經(jīng)過極大抑制，篩選出先驗框（prior boxes）。

（3）結果生成：將先驗框（prior boxes）與真實框（ground truth boxes）進行比較，計算最佳Jaccard 重疊（IoU），選擇閾值大于0.5 的作為候選框并投入訓練，生成最終結果。

SSD 算法在VGG-16的框架下用卷積層替換全連接層，提高了算法的計算效率，同時通過添加空洞卷積，使模型獲得更加密集的得分映射，其結構如圖11所示。此外，該算法采用不同分辨率的特征圖自適應目標大小，實現(xiàn)多尺度目標預測，并采用隨機剪裁方式進行數(shù)據(jù)增強，提高了算法的魯棒性。但SSD算法需人工設置錨定框的大小，無法有效匹配真實目標尺寸，并且該算法不能有效結合全局特征，存在小目標特征提取不充分現(xiàn)象［52-53］。

圖11 空洞卷積示意圖Fig.11 Schematic diagram of dilated convolution

2）YOLOv2 目標識別算法

YOLOv2 算法是REDMON 等針對YOLOv1 中對位不準確等問題進行的一系列改進。

YOLOv2 在提高模型精度方面：

（1）采用了Batch Normalization：在YOLO網(wǎng)絡中的卷積層后添加Batch Normalization層，Batch Normalization既可代替Dropout層起到正則作用，又可提高模型的識別精度。

（2）添加了High Resolution Classifier：在進行樣本識別之前采用高分辨圖像對分類網(wǎng)絡進行10 輪次的預訓練，使網(wǎng)絡更好地適應高分辨率圖像的輸入。

（3）采用了Convolutional with Anchor Boxes：借鑒Faster R-CNN 的做法，引入先驗框思想，去掉全連接層而采用先驗框來預測目標的邊界框。

（4）采用了Dimension Clusters：通過K-Means 聚類的方法設置先驗框的尺寸，通過聚類得到的先驗框更加貼合真實框的尺寸，提高模型識別精度。

（5）增加了Direct location prediction：調(diào)整預測框的計算公式，將中心點的預測值規(guī)定在一個網(wǎng)格范圍內(nèi)，避免了采用先驗框而導致在模型訓練初期目標中心位置預測不穩(wěn)定的問題。

（6）添加了Fine-Grained Features：添加Passthrough層保存細節(jié)信息，便于小目標的更好識別。

（7）采用了Multi-Scale Training：在訓練過程中每10 個batch 就隨機更換一種尺寸，使模型可進行多尺度的目標識別。

在提高速度方面：YOLOv2 算法提出了一種新的分類網(wǎng)絡Darknet-19，其由19 個卷積層和5 個最大池化層組成。Darknet-19 與VGG-16 相比減少了計算量和參數(shù)數(shù)量，提高了模型的收斂速度。同時，YOLOv2 使用了WordTree 結構，解決了不同數(shù)據(jù)集之間的互斥問題。

3）RetinaNet 目標識別算法

RetinaNet 算法是由LIN 等提出用來解決目標識別類別不平衡問題的目標識別算法。該算法的處理流程如圖12 所示，主要包括以下步驟：

圖12 RetinaNet 算法流程Fig.12 Procedure of RetinaNet algorithm

（1）特征提?。狠斎雸D像到CNN（ResNet50 或101-FPN）中進行特征提取，輸出不同尺度的特征圖。

（2）全局特征獲?。簩⒉煌叨鹊奶卣鲌D融合到圖像金字塔中并輸出全局特征。

（3）結果生成：將得到的特征圖分別輸入到分類網(wǎng)絡（Class Subnet）和回歸網(wǎng)絡（Box Subnet）中進行目標分類和預測框調(diào)整，并生成最終識別結果。

RetinaNet 算法的主要優(yōu)勢是提出了Focal Loss。通過引入Focal Loss 來平衡類別權重，解決背景類對前景目標識別的影響，提高目標識別的精度。但RetinaNet算法選擇ResNet-101 作為特征提取網(wǎng)絡，影響了算法的識別速度［54-56］。

4）YOLOv3 目標識別算法

YOLOv3 算法是REDMON 等對YOLO 系列算法的進一步改進。該算法的處理流程如圖13 所示，主要包括以下步驟：

圖13 YOLOv3 算法流程Fig.13 Procedure of YOLOv3 algorithm

（1）特征提?。狠斎雸D像到Darknet 網(wǎng)絡進行特征提取，并通過上采樣和張量拼接等操作得到3 個不同尺寸的特征圖。

（2）邊界框獲?。合葘D像進行網(wǎng)格劃分，并在網(wǎng)格上根據(jù)真實框（Ground Truth Boxes）確定目標中心點，再對中心點所在的單元格對應的邊界框（Bounding Box）進行篩選并輸出邊界框信息。

（3）結果生成：采用多尺度融合的方式融合3 個尺寸特征圖上的特征信息進行目標預測，并生成結果。

YOLOv3 算法中提出Darknet-53 網(wǎng)絡，提高了目標識別效率，同時該算法借鑒FPS 思想，采用多尺度特征進行目標識別，提高了識別精度。此外，其使用Logistic 回歸替換Softmax 進行多標簽分類，解決了單個邊界框中的多目標識別問題。YOLOv3 算法在追求速度的同時亦保證了識別精度，但YOLOv3 算法的特征提取網(wǎng)絡不夠精細，導致識別物體位置精準性差，召回率低［57-59］。

5）M2Det 目標識別算法

M2Det（Multi-Level Feature Pyramid Network）是由ZHAO 等提出的解決多尺度問題的目標識別算法，該算法的處理流程如圖14 所示，主要包括以下步驟：

圖14 M2Det 算法流程Fig.14 Procedure of M2Det algorithm

（1）特征提?。狠斎雸D像到Backbone Network（VGG-16和ResNet-101）進行特征提取并輸出特征圖。

（2）多級尺度特征獲?。簩⒌玫降奶卣鲌D進行細化U 型模塊（TUM）和特征融合模塊（FFM）操作，提取出更有代表性的Multi-level 和Multi-scale 的特征，通過尺度特征聚合模塊（SFAM）融合獲取多級尺度特征。

（3）結果生成：將得到的多級尺度特征用于最終的圖像目標預測，并生成目標識別結果。

M2Det 算法提出了多尺度融合方法MLFPN。MLFPN 由特征融合模塊（FFM）、細化U 形模塊（TUM）和尺度特征聚合模塊（SFAM）三部分組成，如圖15 所示。MLFPN 是將FPN 框架中不同深度的層替換成一個小的FPN 模塊，即FPN 套FPN，同時引入SE block，對不同深度的特征賦予權重。

圖15 MLFPN 結構Fig.15 Structure of MLFPN

6）YOLOv4 目標識別算法

YOLOv4 是由BOCHKOVSKIY 等于2020 年在YOLOv3的基礎上進一步改進與優(yōu)化而來，并且適用于常規(guī)GPU進行訓練。YOLOv4 的體系結構是用Mosaic數(shù)據(jù)增強方法對輸入端進行處理，用CSPDarknet53 作為Backbone，SPP附加模塊和PANET 路徑聚合作為Neck，YOLOv3 的頭部作為Head，該算法處理流程如圖16所示。此外，YOLOv4 的優(yōu)化策略主要分為BoF（Bag of Freebies）和BoS（Bag of Specials）兩類。BoF 是指在離線狀態(tài)下，不額外增加算法計算開銷的優(yōu)化策略。BoS 是指僅增加一點推理成本但可極大增加算法精度的優(yōu)化策略。

圖16 YOLOv4 算法流程Fig.16 Procedure of YOLOv4 algorithm

YOLOv4 算法在網(wǎng)絡結構改進的基礎上，提出了Mosaic數(shù)據(jù)增強、自對抗訓練（Self-Adversarial Training）、跨最小批歸一化（Cross mini-batch Normal）、修改SAM、修改PAN這5種創(chuàng)新方法，提高了算法的普適性和高效性。但在面向具體場景的動態(tài)識別中，該算法對復雜場景中目標識別具有局限性，存在漏檢、誤檢等問題［60-62］。

7）YOLOv5 目標識別算法

YOLOv5 是ULTRALYTICS 團隊于2020 年提出的目標識別算法。該算法的網(wǎng)絡結構配置與YOLOv4 算法類似。YOLOv5算法對輸入端進行Mosaic數(shù)據(jù)增強，以Focus 和CSP 結構為Backbone，以FPN+PAN 結構為Neck，同樣Head 采用YOLOv3Head。相較于YOLOv4算法，其優(yōu)勢包括：1）自適應錨定框尺寸，通過學習調(diào)整錨定框的大小，使其更契合真實目標的尺寸，提高了目標識別精度；2）引入控制因子，靈活控制網(wǎng)絡結構以適應不同配置，YOLOv5 算法設計4 個不同版本以適應不同需求；3）優(yōu)化損失函數(shù)，改變匹配規(guī)則，加快算法的收斂速度。YOLOv5 在部署和應用中簡單靈活，但其性能及穩(wěn)定性需要做進一步研究［63-64］。

1.1.3 小結

在Anchor-Based 類算法中，基于區(qū)域的目標識別算法在面向視頻數(shù)據(jù)的目標識別應用中，識別精度是其優(yōu)勢所在。針對其耗時嚴重問題，不斷有新的算法被提出，但目標識別的時效性仍有待改進?；诨貧w的目標識別算法有較強的實時性，但其識別的精度有待提高。

1.2 Anchor-Free 目標識別算法

隨著目標識別技術的不斷發(fā)展，Anchor-Free 思想重新引起關注，DenseBox［65］和YOLOv1［66］算法是Anchor Free 的早期探索，在2019 年達到大爆發(fā)狀態(tài)。Anchor-Free 算法無需預先指定Anchor Box 尺寸或生成Anchor Box，其通過生成點來生成目標框，完成目標識別［67］。本文對基于Anchor-Free 的兩類目標識別算法進行闡述。

1.2.1 基于關鍵點的目標識別算法

基于關鍵點的目標識別將目標識別問題轉(zhuǎn)換為關鍵點預測問題，先進行關鍵點的預測，再通過關鍵點確定目標［68］。2017 年，WANG 等提出了PLN 目標識別算法，其流程是預測中心點和4 個角點并判斷點之間是否相連，進而實現(xiàn)目標識別［69］。2018 年，LAW 團隊提出了CornerNet 算法，通過預測角點來實現(xiàn)目標識別［70］。2019 年，ZHOU 等提出了ExtremeNet算法，通過預測4 個極值點（最頂部、最左側、最底部、最右側）和中心點來實現(xiàn)目標識別［71］，同時提出了CenterNet 算法，通過估計目標中心點來實現(xiàn)目標識別。此外，LIU 等提出了CSP 算法，通過中心點和尺度預測實現(xiàn)目標識別［72］。

1）CornerNet 目標識別算法

CornerNet 算法由LAW 團隊于2018 年提出，其處理流程如圖17 所示，主要包括以下步驟：

圖17 CornerNet 算法流程Fig.17 Procedure of CornerNet algorithm

（1）特征提?。狠斎雸D像到Hourglass Network 網(wǎng)絡進行特征提取，輸出特征圖。

（2）角點預測和結果生成：將得到的特征圖同時輸入到2 個分支進行左上角預測和右下角預測，每個分支輸出對應的Heatmaps、Embeddings 和Offsets。Heatmaps 包含角的坐標和目標的類別信息。Embeddings 是利用衡量指標來判斷左上角和右下角是否屬于同一目標。Offsets 是用于預測框微調(diào)的精度丟失信息。

CornerNet算法去除了Anchor，通過左上角和右下角信息生成框提高算法的計算效率，同時通過Corner Pooling 來檢測Corner 的位置信息，提高了算法的識別精度。Corner Pooling 結構如圖18 所示。

圖18 Corner Pooling 結構Fig.18 Structure of Corner Pooling

CornerNet目標識別算法在進行目標識別時，若檢測的Corner 信息位于目標之外，其目標識別較困難。同時，該算法參數(shù)量較大，計算速度有待進一步提高［73-74］。

2）ExtremeNet 目標識別算法

ExtremeNet 算法由ZHOU 等于2019 年提出，其處理流程與CornerNet 算法類似，但該算法的Offset包含對應極值點的精確定位信息，與目標預測類別無關。此外，該算法用幾何方法Center Grouping 替換了CornerNet 中的Embeddings 分組過程，無需進行隱含特征學習，具有更好的組合效果。

ExtremeNet算法中的Ghost Box抑制，抑制在中心點分組時出現(xiàn)的假陽性分組，如圖19所示，邊緣聚合則對左邊和右邊的極值點選擇垂直方向聚合，而頂部和底部的極值點則選擇水平方向聚合，解決了極值點不唯一所導致的弱響應問題。ExtremeNet算法相較于僅估計2個角點的CornerNet算法更加穩(wěn)定。但ExtremeNet算法的參數(shù)量大，影響了處理速度，無法適用于實時性應用。

圖19 Ghost Box 示意圖Fig.19 Schematic diagram of Ghost Box

3）CenterNet 目標識別算法

CenterNet 算法由ZHOU 等于2019 年提出，亦可用于3D 目標檢測，其處理流程如圖20 所示，主要包括以下步驟：

圖20 CenterNet 算法流程Fig.20 Procedure of CenterNet algorithm

（1）獲取熱力圖：輸入圖像到卷積神經(jīng)網(wǎng)絡得到熱力特征圖。

（2）中心點估計：通過熱力圖的峰值估計目標的中心點。

（3）結果生成：通過中心點回歸得到目標尺寸即目標預測框，并生成識別結果。

CenterNet 算法預測的中心點、中心點偏置及目標尺寸效果如圖21 所示。CenterNet 算法實現(xiàn)了完全的Anchor Free，通過估計目標中心點，根據(jù)中心點回歸得到目標尺寸來進行目標識別。該算法僅有一個目標中心點，通過正向傳播算法回歸得到目標尺寸，不存在先驗框的得分取舍問題，但該算法存在下采樣后相同類型的目標中心點重合問題，影響了預測結果的準確性［75-77］。

圖21 CenterNet 算法效果圖Fig.21 Effet diagrams of CenterNet algorithm

1.2.2 基于特征金字塔的目標識別算法

基于特征金字塔的目標識別是在算法中融合特征金字塔網(wǎng)絡（Feature Pyramid Network，F(xiàn)PN）結構，并針對算法特點改變FPN 層級分配來實現(xiàn)目標識別。TIAN等提出了像素級的目標識別算法FCOS［78］。KONG等提出了FoveaBox 算法，通過學習坐標直接映射轉(zhuǎn)換關系預測目標存在概率，并回歸目標所在位置［79］。CHEN等提出了雙尺度融合預測的目標識別算法DuBox。YANG 等提出了RepPoints 算法，結合可變型卷積，通過點集的方式更細粒度地實現(xiàn)目標的定位與識別［80］。

FCOS（Fully Convolutional One-Stage Object Detection）算法處理流程如圖22 所示，主要包括以下步驟：

圖22 FCOS 算法流程Fig.22 Procedure of FCOS algorithm

1）特征提取：輸入圖像到Backbone 中進行特征提取，并輸出不同尺度的特征圖。

2）特征融合：將不同尺度的特征圖融合到圖像金字塔中，并輸出相應的特征圖。

3）結果生成：將得到的特征進行Classification、Center-ness 和Regression 計算，并生成結果。

FCOS 算法不同于關鍵點檢測，其通過引入金字塔FPN 處理不同層次的目標識別。此外，F(xiàn)COS 提出了一種新的策略Center-ness，在分類得分的基礎上結合中心度，再通過非極大抑制算法過濾結果，以此抑制偏離中心點的預測框的產(chǎn)生。FCOS 算法減少了生成Anchor 的計算量，但該算法通過計算3 個分支來預測目標，增加了算法的計算耗時［81-82］。

1.2.3 小結

在去掉Anchor 的情況下，識別算法結構簡單且容易理解，提高了目標識別的精度?；陉P鍵點的目標識別減少了算法的計算量，但特征信息利用不夠充分，忽略了正負樣本不平衡問題，影響了算法的識別精度?；谔卣鹘鹱炙哪繕俗R別算法，結合算法自身特點與FPN 融合，提高了算法性能，但一定程度上影響了算法速度。

2 算法性能比較

2.1 數(shù)據(jù)來源

實驗數(shù)據(jù)是無人機拍攝的上海市金山區(qū)、奉賢區(qū)和浦東新區(qū)的近海海域監(jiān)測視頻數(shù)據(jù)，并對近海海域監(jiān)測視頻數(shù)據(jù)進行了截幀提取、小目標復制、旋轉(zhuǎn)等操作，構成實驗數(shù)據(jù)集1 010張圖片。識別目標為船（boat）、車（car）和障礙物（rubbish）。訓練數(shù)據(jù)集利用LabelImg和Labelme 對3 類目標進行標注產(chǎn)生。實驗環(huán)境為Intel core i7-10700k，Geforce RTX 3080，CUDA 11.0。

2.2 目標識別算法評估指標

以平均檢測精度（mean Average Precision，mAP）［83］、F1-Score［84］和每秒幀率（Frame Per Second，F(xiàn)PS）［85］為目標識別算法的性能評價指標。

mAP 是所有目標識別的精確度（AP）的平均值，用來評價識別算法的識別精度，其定義如下：

其中：AAP表示每類目標的識別精度；p(r)表示的是由Precision 和Recall 組成的曲線，橫軸為Precision，縱軸為Recall。

F1-Score 是對精確率和召回率的綜合考量，用來評價識別算法的識別精度，避免精確率和召回率之間的相互影響，其定義如式（3）所示：

精確度也稱查準率，其定義如式（4）所示，召回率也稱查全率，其定義如式（5）所示：

其中：TP表示真正例，真實類別為真并預測為真；FN表示假反例，真實類別為真但預測為假；FP表示假正例，真實類別為假但預測為真。

FPS 是指每秒處理圖片的個數(shù)，用來評價算法的運行速度。本文中的FPS 評價指標是指在進行視頻處理過程中的FPS。

2.3 實驗結果與分析

根據(jù)算法的應用及引用數(shù)量，分別選取Anchor-Based系列算法中的Faster R-CNN、Mask R-CNN、SSD、YOLOv3、M2Det、YOLOv4和Anchor-Free系列算法中的CenterNet、FCOS 等8種不同類型的識別算法對實驗數(shù)據(jù)中的boat、car、rubbish進行目標識別。圖23給出了不同識別算法的識別結果，表1給出了不同識別算法的計算耗時，表2給出了不同識別算法的AP值比較結果，表3給出了不同識別算法的性能指標比較結果。在表中，加粗表示當前范圍內(nèi)最優(yōu)數(shù)據(jù)。

圖23 不同識別算法的識別結果Fig.23 Recognition results of different algorithms

表1 不同識別算法的FPS 比較結果Table 1 FPS comparison results of different recognition algorithms

表2 不同識別算法的精確度比較結果Table 2 AP comparison results of different recognition algorithms %

表3 不同識別算法的性能指標比較結果Table 3 Comparison results of performance indicators of different recognition algorithms

由圖23、表1～表3 可以看出：

1）Anchor-Based 系列算法

（1）在基于區(qū)域的目標識別算法中，F(xiàn)aster R-CNN目標識別算法具有更好的識別效果。Faster R-CNN 與Mask R-CNN 在面向視頻的目標識別中，mAP 相差小于3%，F(xiàn)1-score相差小于0.06，但是Faster R-CNN的FPS是Mask R-CNN 的4 倍。

（2）在基于回歸的目標識別算法中，YOLOv4 算法較M2Det算法而言，識別效果更為明顯，與YOLOv3 和SSD相比，在FPS增加小于8的情況下，mAP增加了45%左右，F(xiàn)1-Score亦有明顯的提高。M2Det與YOLOv3和SSD 算法相比較，mAP 提高了大約20%，雖然M2Det的F1-Score 與FPS 不及YOLOv3，但圖23 可直觀地發(fā)現(xiàn)加入多尺度特征融合的M2Det算法在視頻目標識別中具有明顯優(yōu)勢。

2）Anchor-Free 系列算法

（1）在基于關鍵點的目標識別算法中，CenterNet算法具有最高的精確度，且FPS 也具有較好的表現(xiàn)。但其他評價指標不理想。

（2）基于特征金字塔的目標識別算法，F(xiàn)COS 的表現(xiàn)性能較好，除精確度外，每項評價指標均具有最佳值。

3）綜合Anchor-Based 和Anchor-Free 兩類算法來看，YOLOv4 是Anchor-Based 算法中性能最佳者，F(xiàn)COS 是Anchor-Free 算法中性能最佳者。YOLOv4的FPS 高于FCOS，而FCOS 的mAP 高于YOLOv4。

3 未來展望

目前，視頻數(shù)據(jù)已成為各領域研究和應用的重要資源，如何提高從數(shù)據(jù)到信息的時效性和準確性成為制約數(shù)據(jù)應用的關鍵所在，而基于深度學習的目標識別算法為解決該問題提供了理論支撐。綜合各類目標識別算法，仍有以下需要改進和發(fā)展：

1）直接應用于視頻數(shù)據(jù)的目標識別算法仍是研究重點?，F(xiàn)有目標識別算法多數(shù)需要對視頻數(shù)據(jù)進行截幀處理，影響了目標識別的效率。針對視頻數(shù)據(jù)進行目標識別和提取的算法，通過多幀處理實現(xiàn)上下文信息關聯(lián)，計算量大，識別速度有待提高。如T-CNN［86］、Seq-Bbox Matching［87］等。因此，設計直接應用于動態(tài)的視頻數(shù)據(jù)，提升視頻數(shù)據(jù)中目標識別的精度和效率，仍是該領域的待研究問題之一。

2）兼顧多尺度特征提取及多目標跟蹤仍是目標識別算法需解決的問題之一。視頻數(shù)據(jù)中的目標具有多尺度的特性，尤其是針對小目標的提取及跟蹤。如何同步提取小尺度目標，實現(xiàn)多目標跟蹤，提高識別算法的魯棒性和泛化性，仍是待研究的問題。

3）如何兼顧時效性和準確性，設計結構簡單的目標識別算法，仍是面向視頻數(shù)據(jù)目標識別算法需要進一步研究的問題。

4 結束語

本文歸納總結面向視頻的深度學習目標識別算法，對各類識別算法的網(wǎng)絡結構、處理流程及優(yōu)化策略進行比較和分析。面向深度學習的視頻目標識別在特征的自動提取、上下文信息的有效處理、目標運動特性的挖掘等方面具有一定的優(yōu)勢。然而，如何提升深度學習目標識別算法在視頻流處理、多尺度目標提取及多目標跟蹤等場景中準確性和時效性，促進深度學習目標識別算法在大場景視頻監(jiān)控和長時間序列目標監(jiān)測等場景中的應用和發(fā)展，仍是該領域近期的研究熱點和難點。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放