基于SSD和MobileNet網(wǎng)絡(luò)的目標檢測方法的研究

2019-11-12 05:41:14任宇杰劉方濤張啟堯

計算機與生活 2019年11期

任宇杰，楊劍，劉方濤，張啟堯

中北大學(xué) 軟件學(xué)院，太原 030051

1 引言

眾所周知，近幾年來，深度學(xué)習[1]的人工智能思想方法在各行各業(yè)中的應(yīng)用更加普及，相比傳統(tǒng)方法其具有更好的魯棒性和更高的準確性。隨著計算機視覺技術(shù)的快速發(fā)展，目標檢測的技術(shù)作為其中一個熱點的分支也備受關(guān)注，一直是研究的熱點[2-4]。圖像的目標檢測是指識別圖像中的目標在原圖像中的大小以及位置?；谏疃葘W(xué)習方法的圖像目標檢測，特別是基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像目標檢測技術(shù)發(fā)展十分迅速。

另外，現(xiàn)有的基于神經(jīng)網(wǎng)絡(luò)的目標檢測模型可以做到多目標識別的任務(wù)。并且，基于神經(jīng)網(wǎng)絡(luò)[5]的模型，在數(shù)據(jù)樣本量和硬件資源計算能力有限的情況下可以通過深度學(xué)習的方法來實現(xiàn)多目標的識別。

基于圖像的目標檢測的研究工作也有其自身的發(fā)展階段，經(jīng)歷了從基于圖像的全局特征進行檢測，到基于圖像的局部特征進行檢測，再到現(xiàn)在基于深度學(xué)習方法思想的特征進行檢測。

近幾年來，隨著技術(shù)的快速發(fā)展，相繼出現(xiàn)了很多種基于深度學(xué)習[6]方法思想的目標檢測模型，例如基于區(qū)域建議（region proposal，RP）方法的R-CNN（regionbased convolutional neural network）模型[7]、Fast R-CNN模型[8]、Faster R-CNN 模型[9]、R-FCN（region-based fully convolutional networks）模型[10]和基于回歸方法的SSD（single shot multibox detector）模型[11]以及YOLO（you only look once）模型[12]全部都是基于神經(jīng)網(wǎng)絡(luò)。SSD 模型是當中檢測精確度相對更高的網(wǎng)絡(luò)結(jié)構(gòu)，但是由于其自身也有一定的缺陷，比如只有使用最后一層的低層特征層進行目標檢測，導(dǎo)致大量的目標特征信息丟失，使得檢測效果不盡如人意。

為了解決SSD 基礎(chǔ)模型的這些基本缺陷，很多學(xué)者針對提升SSD模型在中小目標檢測方面的能力進行了相應(yīng)的研究。例如，Tang等[13]在原有SSD模型的基礎(chǔ)之上采用多視窗的方法，通過多視窗多通路的思想同時進行檢測從而提升準確率，但是這種方法的區(qū)域劃分不固定，對于目標檢測的準確性和魯棒性產(chǎn)生了一定的影響。Fu等[14]提出了DSSD（deconvolutional single shot detector）模型，通過反卷積的思想提升小目標的檢測能力，但是由于網(wǎng)絡(luò)模型結(jié)構(gòu)層數(shù)較深，使得模型的檢測能力在實時性方面表現(xiàn)較差。Li等[15]提出了FSSD（feature fusion single shot multibox detector）模型，具體方法是通過特征融合和下采樣的操作對獲取到的多尺度特征進行重構(gòu)，提高中小目標的檢測效果，結(jié)果準確性確實有明顯提高，但是檢測速度相對較慢，提高檢測的實時性比較依賴硬件資源條件。陳幻杰等[16]對SSD模型的改進，通過小目標特征區(qū)域進行放大提取，額外提取多個高層特征層的信息，利用更深的網(wǎng)絡(luò)結(jié)構(gòu)改善中等目標的檢測結(jié)果等方法，較大地提高了對中小目標的準確率，檢測速度相比原有的SSD 模型下降了將近一半，在滿足準確性的基礎(chǔ)上實時性受到了較大的影響。

本文基于SSD基本模型和輕量級的深層神經(jīng)網(wǎng)絡(luò)MobileNet 的思想構(gòu)建目標檢測網(wǎng)絡(luò)結(jié)構(gòu)。該網(wǎng)絡(luò)結(jié)構(gòu)采用特征金字塔的多尺度全卷積結(jié)構(gòu)，能夠?qū)崿F(xiàn)對多尺度目標的檢測；同時獲取到不同特征層的特征信息構(gòu)建新的金字塔特征層，隨后基于該金字塔特征層對其進行目標的分類和定位的操作。實驗結(jié)果表明，本文模型在較低的硬件資源條件下，滿足當前對視頻流圖像的處理速度的前提下，相較于傳統(tǒng)的SSD算法在檢測性能和效果上有明顯提升。

2 目標檢測模型的構(gòu)建

本文利用Tensorflow 平臺構(gòu)建多目標識別深度學(xué)習模型，由于模型對于大型占比目標的檢測已比較成熟，故模型在構(gòu)建的時候著力針對中小型占比目標。其中，一般將目標檢測框大小小于32×32的目標認為是小型占比目標，目標檢測框大小介于32×32至96×96的目標認為是中型占比目標，目標檢測框大小大于96×96的目標認為是大型占比目標。

首先，配置深度學(xué)習所需要的開發(fā)環(huán)境。其次，整理模型在訓(xùn)練時所需要的帶有標記的圖像數(shù)據(jù)。再者，根據(jù)具體條件選取合適的目標檢測模型。最后，在數(shù)據(jù)樣本更加豐富的MS COCO 數(shù)據(jù)集[17]和PASCAL VOC 2007 數(shù)據(jù)集上完成模型的訓(xùn)練、驗證和測試，最終獲得符合本文場景的模型。

2.1 SSD模型結(jié)構(gòu)

基本的SSD模型是在VGG（visual geometry group）網(wǎng)絡(luò)模型[18]的基礎(chǔ)上構(gòu)建新的網(wǎng)絡(luò)結(jié)構(gòu)，通過融合不同卷積層的特征圖來增強網(wǎng)絡(luò)對特征的表達能力，采用多尺度卷積檢測的方法來進行目標檢測，進而大幅度提升目標檢測的速度。具體的SSD模型結(jié)構(gòu)如圖1所示。

由圖1 可知，模型基于VGG 模型的特征提取方法的思想，將各級的卷積特征圖作為該一級的特征表示，不同的卷積級別的圖像卷積特征分別描述了不同的語義信息[19]，卷積層越深則表達的圖像特征的予以信息的級別也就越高。

SSD 模型中結(jié)合特征金字塔的多尺度卷積神經(jīng)網(wǎng)絡(luò)的思想主要體現(xiàn)在獲取不同卷積層、不同尺度的特征圖數(shù)據(jù)來進行目標檢測。而在SSD模型中特征的提取采用的是逐層提取并抽象化的思想，低層的特征主要對應(yīng)于占比較小的目標，高層的特征主要對應(yīng)于占比較大的目標的抽象化的信息[19]。即如果待檢測的目標在圖中占比越小，特征圖在經(jīng)過層層卷積、池化的操作之后，在高層特征層可能出現(xiàn)信息丟失的情況，以致于檢測不到占比較小的目標。并且在SSD模型中是通過低特征層的特征信息檢測小型占比目標，通過高特征層的特征信息檢測中型和較大占比目標?；镜腟SD模型通過金字塔特征層進行特征提取，且不同特征層之間是相互獨立的，沒有目標信息的相互補充，且在SSD 模型的結(jié)構(gòu)之中，低特征層僅有Conv4_3 層用于檢測小型占比目標，因而在缺乏充足的特征信息的情況下存在特征提取不充分的問題，因而導(dǎo)致對小型目標的識別效果一般。

SSD 模型中多尺度的思想從其算法中也不難看出，其公式[20]為：

Fig.1 Structure map of SSD圖1 SSD模型結(jié)構(gòu)

在式（1）、式（2）中，Tn表示第n層的特征圖，Sn表示由第n-1層特征圖經(jīng)過非線性運算得到的第n層特征圖，S1(I)表示輸入圖像I經(jīng)過非線性運算得到的第一層特征圖；dn(?)表示第n層特征圖上的檢測結(jié)果，D(?)表示將所有檢測的中間結(jié)果進行集合化得到的最終的結(jié)果。由式（1）、式（2）可以看出，第n-1層的特征信息決定了第n層的特征信息，且層與層之間相互獨立。因此，要更加準確地檢測出對應(yīng)的目標，就必須獲取足夠量的特征信息，即足夠大小的特征圖，結(jié)合網(wǎng)絡(luò)結(jié)構(gòu)得到要獲取的特征。

2.2 小占比目標檢測改進的具體實現(xiàn)方法

針對基本的SSD模型對于圖像多目標識別的缺陷，無法很好地檢測中小型目標，本文采用改進的多尺度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進行目標檢測，對SSD 模型中的低特征層和高特征層采用不同的改進策略提高模型的檢測能力；同時融合MobileNet 的基本思想，提高網(wǎng)絡(luò)結(jié)構(gòu)的檢測速度，提高模型的準確性、實時性和魯棒性。

為了提高SSD 模型對于小型目標的檢測能力，對低特征層采取特征提取、反卷積操作保留特征圖中更多的特征信息，進而對于小型目標的特征區(qū)域，通過特征映射在保留有更多小型目標特征信息的特征圖上進行特征提取，對于提高模型的小型占比目標的檢測能力是十分有必要的。

低特征層包含有更多的細粒度的特征信息，保留更多細節(jié)的特征信息可以更加準確地檢測目標。反卷積操作擴大了卷積運算之后的特征圖的大小，同時也保留了更多的細節(jié)特征信息，提高了模型的特征表達能力。但是既然保留了更多的特征信息，那么在運算時必然會使得運算時間增加，降低檢測速度，影響一些模型整體的檢測效果。其基本思想如圖2所示。

Fig.2 Sketch of convolution and deconvolution圖2 卷積和反卷積示意圖

反卷積操作[21-23]也稱為空洞卷積操作。反卷積操作和卷積操作過程相反，反卷積操作其實就是通過對輸入的特征圖填充補零，再通過反卷積核的作用得到放大后的特征圖。反卷積的公式為：

式中，t表示步長，m表示反卷積核的大小，k表示輸入特征圖的大小，s表示反卷積操作之后獲得的特征圖的大小。具體思想如圖3所示。

由圖3 可以看出，SSD 模型中主要結(jié)構(gòu)VGG16模型有5個池化層，若不對其進行修改，則在pool5層之后特征圖會變成10×10的大小，會丟失大量細節(jié)特征信息。因此本文通過設(shè)置rate名為擴張率的參數(shù)，通過反卷積操作將特征區(qū)域放大，保留更多的小型占比目標的特征信息，便于提升對小型目標的檢測能力。由于SSD 模型是對于300×300 的輸入圖像進行輸出的區(qū)域建議，因此本文將反卷積操作之后的圖像增大至300×300，一方面保證了充足的特征信息，另一方面也可以獲得更加準確的目標區(qū)域建議。

2.3 特征映射策略

Fig.3 Framework of decovolution of SSD model圖3 SSD模型反卷積操作框架圖

在進行反卷積操作之后，對獲取到的特征圖進行特征區(qū)域映射。從而根據(jù)卷積核的大小或圖像與特征圖大小的比例關(guān)系建立起輸入圖像的目標區(qū)域與特征圖的某一點的對應(yīng)關(guān)系，將用于進行目標檢測的特征圖的每個位置映射到原圖像中相應(yīng)的位置，并在對應(yīng)的位置生成不同比例大小的預(yù)測框。

基本的SSD模型在預(yù)測框映射時是默認針對整個圖像數(shù)據(jù)進行的，并且對低層特征層的特征圖進行區(qū)域映射是針對輸入圖像進行的。但是這里低層特征層在執(zhí)行反卷積操作后，是將SSD 模型輸出后的圖像作為特征圖數(shù)據(jù)進行區(qū)域映射的模板。

具體思想如圖4所示。

在對低層特征層進行特征提取、放大特征圖時，原本SSD模型是根據(jù)特征圖與輸入圖像的大小關(guān)系將目標區(qū)域映射到特征圖上對應(yīng)位置，具體公式為：

在式（4）、式（5）中，tw、th表示默認框在映射特征圖上的寬度和高度；iw、ih表示輸入圖像的寬度和高度；yw、yh表示映射特征圖的寬度和高度；dw、dh表示區(qū)域建議的寬度和高度。

由圖5看出，假設(shè)輸入圖像大小是300×300，設(shè)定的產(chǎn)生默認框的特征圖大小是5×5，在原圖像上產(chǎn)生的紅色、黃色、藍色代表不同比例大小的默認框。假設(shè)選取特征圖上的（2，2）進行默認框映射，由于原本SSD 模型是利用產(chǎn)生默認框的大小與原圖像的大小之間的比例關(guān)系進行映射，可計算出特征間隔為300/5=60，相應(yīng)的在原圖像上（180×180）的位置產(chǎn)生對應(yīng)的默認框。

在本文模型中，通過將模型輸出圖像作為低層特征經(jīng)反卷積操作之后的區(qū)域映射的模板，默認框映射到原圖像的對應(yīng)位置。具體公式為：

Fig.4 Sketch of low-level feature mapping圖4 低層特征映射示意圖

Fig.5 Sketch of default box feature mapping of SSD圖5 SSD模型默認框特征映射示意圖

在式（6）、式（7）中，iw、ih表示產(chǎn)生默認框的區(qū)域映射特征圖的寬度和高度，cx、cy表示默認框在區(qū)域映射特征圖上的中心坐標，（dxmin，dymin，dxmax，dymax）表示預(yù)測框左上角和右下角的坐標，Lx、Ly表示默認框在原圖像上對應(yīng)位置的中心坐標。

由圖6看出，假設(shè)輸入圖像大小是300×300，設(shè)定的產(chǎn)生默認框的特征圖大小是5×5，在原圖像上產(chǎn)生的紅色、黃色、藍色代表不同比例大小的默認框，黑色框表示SSD模型輸出的建議區(qū)域，其位置信息由4部分組成，分別為建議區(qū)域的左上角和右下角的坐標。假設(shè)為（90，60，170，200），在X軸方向的映射間隔計算為(170-90)/5=16，Y軸方向的映射間隔計算為(200-60)/5=28。在特征圖上對于（0，0），對應(yīng)于黑色建議框中起始位置（90，60）處產(chǎn)生默認框；特征圖中Y軸對于（0，1），對應(yīng)于黑色建議框中起始位置（90，88）處產(chǎn)生默認框；特征圖中X軸對于（1，0），對應(yīng)于黑色建議框中起始位置（106，60）處產(chǎn)生默認框。

Fig.6 Sketch of default box feature mapping of this paper圖6 本文模型默認框特征映射示意圖

2.4 中型占比目標檢測改進的具體實現(xiàn)方法

本文針對中型占比的目標檢測，提取多個高層特征層的信息，對原有的SSD模型結(jié)合MobileNet思想進行改進，通過對參數(shù)的再訓(xùn)練提高模型對中等目標的檢測能力。具體思想如圖7所示。

Fig.7 Sketch of high-level feature extraction圖7 高層特征層特征提取示意圖

從圖7 中可以看出，分別獲取SSD 模型中的Fc7層、Conv8_2 層、Conv9_2 層、Conv10_2 層、Conv11_2層的特征圖信息。通過目標檢測之后的處理策略對目標檢測的結(jié)果（包括預(yù)測框的位置和目標檢測類別）進行篩選并輸出，同時基于再訓(xùn)練的SSD模型的參數(shù)進行特征提取，通過多輪多次迭代以及參數(shù)調(diào)整獲取優(yōu)化模型。

2.5 代價函數(shù)、匹配策略和消除冗余數(shù)據(jù)

本文原有SSD 模型采取特征金字塔的基本思想，獲取多個卷積層的特征信息。特征金字塔與單層特征圖的區(qū)別如圖8所示。

圖8 中左邊的單層特征圖的方法是針對輸入的圖片獲取不同尺度的特征映射，但是在預(yù)測階段僅僅使用最后一層的特征映射；而SSD 模型不僅獲得不同尺度的特征映射，同時在不同的特征映射上面進行預(yù)測，考慮了更多尺度的特征，在增加運算量的同時也提高了檢測的精度。

Fig.8 Schematic diagram of single feature map and feature pyramid hierarchy圖8 單層特征圖與特征金字塔示意圖

因為要對獲取到各層特征信息的金字塔層進行目標的分類和定位，所以本文算法的目標損失代價函數(shù)主要分為兩部分：一部分是計算相應(yīng)的預(yù)測框與目標類別的置信度的損失Lconf（confidence loss），即分類損失；另一部分是相應(yīng)的位置回歸損失Lloc（location loss），即預(yù)測框的定位損失，具體公式如下：

在式（8）、式（9）、式（10）中，N表示匹配到默認框的預(yù)測框的數(shù)量，α是用于調(diào)整置信度損失（confidence loss）和位置損失（location loss）之間的比例，默認α為1，通過調(diào)節(jié)可以降低各層樣本對于整體網(wǎng)絡(luò)訓(xùn)練的影響。i表示第i個默認框，j表示第j個真實框，p表示第p個類。其中={1，0}表示第i個預(yù)測框匹配到了第j個類別為p的真實框，并且位置回歸的損失函數(shù)（location loss）是L1損失函數(shù)，比L2損失函數(shù)具有更強的適應(yīng)性，對異常值不敏感。g表示真實框（ground truth box），l表示模型輸出的預(yù)測框（predicted box），d表示默認框（default bounding box）。

在模型訓(xùn)練的時候，真實框與預(yù)測框按照如下的方式進行配對：

（1）尋找與每一個真實框有著最大交并比（intersection over union，IOU）的預(yù)測框，這樣可以保證每一個真實標注框與唯一的一個預(yù)測框?qū)?yīng)起來。

（2）將剩余的還沒有配對的預(yù)測框與任意一個真實框進行嘗試配對，只要兩者之間的交并比（IOU）大于閾值，就可以認為配對成功（基本的SSD 300 模型的閾值為0.5）。

（3）成功與真實框配對的可以認定為正樣本（positive，對應(yīng)于式（9）中，沒有配對的認定為負樣本（negative，對應(yīng)式（9）中

配對匹配的基本思想如圖9所示。

在訓(xùn)練過程中產(chǎn)生的是不分類的目標，其中會有很多的包含相互重疊的目標，如果直接進行特征提取，那么在計算過程中會代入很多的冗余信息，因此本文通過非極大值抑制的思想，消除冗余的目標候選區(qū)域，使得負樣本的數(shù)目減少，使模型效果趨于穩(wěn)定。這里的操作主要為了消除冗余預(yù)測框，不考慮目標的具體類別，通過采取設(shè)置較大的閾值（比如設(shè)置為0.8）選取極少的預(yù)測框，保留了最接近真值的目標窗口，目標被這些預(yù)測框基本上都包含等。

2.6 MobileNet基本思想

MobileNet的網(wǎng)絡(luò)結(jié)構(gòu)是基于深度級可分離卷積塊的堆疊設(shè)計。通過權(quán)衡延遲時間和精度要求，基于寬度因子和分辨率因子構(gòu)建合適規(guī)模、合適速度的MobileNet 結(jié)構(gòu)。其網(wǎng)絡(luò)結(jié)構(gòu)的基本思想是將通道間的相關(guān)性和空間相關(guān)性完全分離出來，同時大大減少計算量和參數(shù)量。

Fig.9 Sketch of ground truth boxes and default bounding boxes圖9 真實框與預(yù)測框匹配示意圖

該網(wǎng)絡(luò)結(jié)構(gòu)與傳統(tǒng)的卷積網(wǎng)絡(luò)結(jié)構(gòu)有所不同體現(xiàn)在對特征圖的各個通道進行卷積操作（比如設(shè)置為3×3×1），將卷積操作之后的各個特征圖通道進行合并，通過1×1 卷積降低其通道數(shù)。由于MobileNet網(wǎng)絡(luò)結(jié)構(gòu)中使用了大量的3×3的卷積核，極大減少了計算量，同時對于模型準確率下降的影響也很小，不僅保證了模型的準確率，同時加快了模型的運算速度，保證了模型的實時性要求。

由于SSD 模型是一種不需要產(chǎn)生候選區(qū)域，直接產(chǎn)生物體的類別概率和位置坐標，經(jīng)過單次檢測即可得到最終的檢測結(jié)果。而MobileNet 是使用這種算法的具體網(wǎng)絡(luò)結(jié)構(gòu)，用于進行特征提取。這使得二者可以結(jié)合，文獻[24]也證實了這一點。通過SSD 模型融合了MobileNet 的網(wǎng)絡(luò)思想，結(jié)合了二者的優(yōu)勢，保留原有SSD 模型的網(wǎng)絡(luò)結(jié)構(gòu)，使用3×3 的卷積核進行特征處理，保證了模型的準確率。在此基礎(chǔ)上，本文模型將原本的大量冗余的參數(shù)變成小型參數(shù)結(jié)構(gòu)，減少網(wǎng)絡(luò)計算量的同時，降低了對于硬件資源的消耗，有利于加快模型的收斂速度，改善模型的基本性能。

通過該網(wǎng)絡(luò)結(jié)構(gòu)，有效減少了模型的計算量和參數(shù)量?；谏鲜鲈摼W(wǎng)絡(luò)結(jié)構(gòu)的思想，也使得它在物體檢測、人臉屬性檢測、細粒度分類和大規(guī)模地理定位等方面有著廣泛的應(yīng)用。

3 實驗過程與結(jié)果分析

在實際應(yīng)用中，由于不同的場景下有著不同的限制和要求，此時需要根據(jù)實際情況來權(quán)衡并選擇最適合的檢測方法。本文在實驗時是基于SSD模型和MobileNet 模型針對公開數(shù)據(jù)集MS COCO 和PASCAL VOC2007 上進行訓(xùn)練得到適合的模型，進而評估提出的模型方法的性能。

3.1 目標檢測模型的生成

本文基于深度學(xué)習的思想和相關(guān)理論，利用在大數(shù)據(jù)（COCO[17]、VOC 2007、ImageNet）上訓(xùn)練好的模型，應(yīng)用到多目標識別的任務(wù)當中，并且不斷對模型當中的參數(shù)進行微調(diào)，從而得到符合本任務(wù)需求的模型。微調(diào)工作是針對已訓(xùn)練的深度卷積神經(jīng)網(wǎng)絡(luò)的，因此對于硬件的計算能力和要求不會特別苛刻，也適合在個人的GPU上進行模型的訓(xùn)練。

通過在數(shù)據(jù)集上訓(xùn)練完成的SSD 和MobileNet模型思想的融合模型，即在原始的訓(xùn)練好模型結(jié)構(gòu)不變的基礎(chǔ)上，把訓(xùn)練好的模型的權(quán)重等參數(shù)作為初始值；然后通過微調(diào)參數(shù)的方法對分類的數(shù)量進行修改，設(shè)置本文應(yīng)用場景具體的分類數(shù)；最后對于整個模型進行不同批次、不同輪次的訓(xùn)練（retrain）。最終得到目標檢測精度和速度都有所提升的模型。

3.2 實驗環(huán)境準備

本文提出的目標檢測方法的實驗框架基于Python語言，在操作系統(tǒng)為Windows 10 的個人計算機上搭建深度學(xué)習的開發(fā)環(huán)境完成模型的訓(xùn)練、驗證以及測試的工作。選用Anaconda集成相關(guān)環(huán)境。

其中計算機的硬件配置為：Windows 10 64 位操作系統(tǒng)，處理器（CPU）型號為Intel i7，內(nèi)存（RAM）為8 GB，顯卡（GPU）為NVIDIA GeForce GTX。

深度學(xué)習開發(fā)環(huán)境的各個軟件版本為：Visual Studio 2015、Anaconda3、CUDA 9.0、cuDNN 7.3.1、Python 3.6.4、Tensorflow-GPU 1.9.0。同時在個人配置環(huán)境時默認安裝Tensorflow-GPU 1.12.0 的版本在訓(xùn)練時會報錯，與其他環(huán)境不匹配，因此這里選擇較低版本1.9.0作為訓(xùn)練環(huán)境。

最后，在集成環(huán)境上安裝諸如pandas、numpy 等對應(yīng)的Python 第三方庫以及諸如Keras、Tensorflow Research Models 等深度學(xué)習的API（application programming interface），這樣可以大幅度降低開發(fā)的困難性。

3.3 數(shù)據(jù)集描述及網(wǎng)絡(luò)參數(shù)

基于SSD和MobileNet模型，利用在大規(guī)模數(shù)據(jù)集PASCAL VOC 2007（21 個類別）上進行接下來的本文的訓(xùn)練工作，可以大大地降低模型訓(xùn)練時需要的計算能力、數(shù)據(jù)量和時間成本，同時也可以滿足具體任務(wù)對于目標檢測的準確率和識別速率的要求。

其中再訓(xùn)練數(shù)據(jù)集包含5 011 幅圖像和5 011 個標注信息文件，驗證數(shù)據(jù)集包含4 952幅圖像和4 952個標注信息文件。最后為了檢測模型效果，在測試集中測試435張多目標復(fù)雜度較高的圖片（諸如分類物體有交叉重疊或距離較近等特征），其中中小型目標的數(shù)量在1 153個，分析特征提取的效果和預(yù)測區(qū)域目標精修對目標檢測結(jié)果的影響。

本文融合模型基于基礎(chǔ)的SSD 模型，網(wǎng)絡(luò)閾值設(shè)置為0.7和0.9，在較細粒度特征上考察訓(xùn)練好的模型在目標檢測上對中小目標檢測的準確性和魯棒性。

根據(jù)網(wǎng)絡(luò)微調(diào)，最終選擇基于某目標檢測點生成的預(yù)測框數(shù)目為6；預(yù)測框大小與原圖占比最小0.20，最大占比0.95，寬高比率分別為1.00、2.00、3.00、0.50、0.33；網(wǎng)絡(luò)初始化的標準差設(shè)置為0.03，均值設(shè)置為0；學(xué)習率為0.004，衰減因子為0.005；為防止過擬合，生成預(yù)測框中采用Dropout 方式，用其中隨機80%的神經(jīng)元進行工作計算；激活函數(shù)使用Relu_6 代替?zhèn)鹘y(tǒng)的Relu 函數(shù)，有利于網(wǎng)絡(luò)對數(shù)據(jù)分布的稀疏矩陣的學(xué)習，緩解過擬合的產(chǎn)生等。

3.4 評價指標

本文基于PASCAL VOC 2007 數(shù)據(jù)集使用平均精度均值（mean average precision，mAP）、圖片傳輸速率、交并比IOU 和目標的檢測率這些基礎(chǔ)指標對提出的模型效果進行評價。

（1）交并比IOU 指的是對于檢測目標產(chǎn)生的預(yù)測框與真實標注框之間的交集與并集的比值。通過該指標可以衡量檢測到目標位置準確性。

（2）平均精度均值（mAP）[25]指的是檢測出的目標中正確的目標所占比率。

（3）圖片傳輸速率（frame per second，F(xiàn)PS）用于衡量在現(xiàn)有硬件條件下不同模型處理數(shù)據(jù)的速度，對于目標檢測的實時性的衡量有著重要的作用。

（4）檢測率指的是檢測出目標在所挑選目標總數(shù)中的占比，本文主要對中小型目標的檢測效果進行衡量。

3.5 模型訓(xùn)練測試的過程及結(jié)果

本文的目標檢測選取VOC 2007數(shù)據(jù)集中的7個類別的圖像數(shù)據(jù)進行模型的訓(xùn)練、驗證以及測試工作。類別種類分別為：人（person）、自行車（bicycle）、摩托車（motorbike）、汽車（car）、公交車（bus）、貓（cat）、狗（dog）。

模型訓(xùn)練測試過程如下：

（1）采用基礎(chǔ)SSD 模型方法以及本文模型針對選取的7類目標進行檢測。

（2）從VOC 2007 數(shù)據(jù)集中選取訓(xùn)練集、驗證集和測試集。將對本文改進的SSD模型應(yīng)用到上面選取到的7類數(shù)據(jù)中進行目標檢測，通過訓(xùn)練再進行調(diào)參，最終通過實驗迭代多輪多批次得到最優(yōu)化模型數(shù)據(jù)結(jié)果。

（3）使用基本SSD模型結(jié)果、Chen等提出的改進FSSD模型，與本文模型的結(jié)果進行對比。

由于該模型準確性與SSD 模型、DSSD 模型、FSSD模型等相比準確性最高，因此在本文實驗結(jié)果中選取它作為對照參考模型[13-16]。具體結(jié)果通過平均精度均值（mAP）、檢測速度表示，如表1 所示。通過基本SSD 模型結(jié)果和本文模型結(jié)果，對照改進的FSSD 模型結(jié)果，將三者進行比較，評價模型的準確性和魯棒性。

Table 1 Comparison of detection accuracy results between different algorithms表1 不同算法檢測準確性的結(jié)果對比

本文采用多尺度卷積層獲取到的特征信息作用于目標檢測，其中中低層特征主要用于檢測小型目標，高層特征主要用于檢測中型目標。

在同樣的訓(xùn)練集、驗證集和測試集的條件下對上述3種模型的檢測結(jié)果進行比較，其檢測效果使用評價標準中的mAP值來衡量。

在網(wǎng)絡(luò)閾值設(shè)置為0.7 的條件下，對比不同的類別在不同模型下的中等目標的檢測精確度。其結(jié)果如表2所示。

從表2中可以看到，基本SSD模型針對中等目標的mAP 值為58.5%，Chen 等提出的改進FSSD 模型的mAP 值為75.1%，本文模型對中等目標的mAP 值為75.6%，相較于基本的SSD 模型再訓(xùn)練擁有17.1%的提升。

在網(wǎng)絡(luò)閾值設(shè)置為0.9 的條件下，對比不同的類別在不同模型下的小型目標的檢測精確度。其結(jié)果如表3所示。

從表3中可以看到，基本SSD模型針對中等目標的mAP值為17.5%，Chen等提出的改進FSSD模型的mAP 值為40.5%，本文模型對中等目標的mAP 值為41.6%，相較于基本的SSD 模型再訓(xùn)練擁有24.1%的提升。

Table 2 Comparison of medium targets'mAP among different categories表2 不同類別下中等目標mAP對比 %

Table 3 Comparison of small targets'mAP among different categories表3 不同類別下小型目標mAP對比 %

圖10中左邊的圖表示原有SSD模型再訓(xùn)練的目標檢測結(jié)果，右邊的圖表示本文模型的目標檢測結(jié)果。通過比較二者的結(jié)果不難看出，左圖中出現(xiàn)了一些檢測率較低或者檢測不到的情況，右圖中很好地對左圖的情況進行了完善，對于圖像數(shù)據(jù)當中的中小型目標檢測效果更好，準確率也更高，該模型的效果更好。

再者，針對測試集中測試435張多目標復(fù)雜度較高的圖片（諸如分類物體有交叉重疊或距離較近等特征），其中中小型目標的數(shù)量在1 153個，通過評價標準中的檢測率[26]來衡量該模型在總體上的目標檢測的能力，具體公式如下：

Fig.10 Comparison of detection results between SSD and model in this paper圖10 SSD模型與本文模型檢測效果對比

式中，P表示檢測率；C為被檢測圖像數(shù)據(jù)樣本的檢測正確的數(shù)量；S表示當前與C對應(yīng)的樣本種類的總數(shù)。根據(jù)不同算法得到的檢測率結(jié)果對比如表4所示。

Table 4 Comparison of calculation results of detection rates among different algorithms表4 不同算法檢測率計算結(jié)果對比 %

從表4中可以看出，經(jīng)過對所有目標檢測結(jié)果的統(tǒng)計，本文模型的檢測率相比于Chen等改進的FSSD模型提升了3.1%，相比于現(xiàn)有的SSD 模型經(jīng)過再訓(xùn)練的檢測率效果提升了12.8%，并且對于圖像數(shù)據(jù)中的中小型目標的定位也更加明確。

在本文搭建的實驗環(huán)境下，對于基本的SSD 模型再訓(xùn)練、Chen等改進的FSSD模型和本文模型在檢測速度上也進行了比較。具體結(jié)果如表5所示。

Table 5 Comparison of detection speeds among different algorithms表5 不同算法檢測速度的結(jié)果對比

從表5中可以看出，基本SSD模型再訓(xùn)練的檢測速度可以達到每秒檢測56 幀圖片，Chen 等改進的FSSD模型檢測速度為每秒23幀圖像，本文模型的檢測速度為每秒31幀圖像，檢測速度相比SSD模型有所下降，與改進的FSSD模型相比又有一些小的提升。

該模型的檢測速度之所以相比SSD模型有所下降，原因如下：

（1）在網(wǎng)絡(luò)結(jié)構(gòu)中，對于低特征層進行特征提取時使用反卷積操作，在保留了更多的特征信息的時候，也使得數(shù)據(jù)量增大，導(dǎo)致計算量增大，使得計算比較耗時。

（2）在網(wǎng)絡(luò)結(jié)構(gòu)中，對于高特征層進行特征提取時由于網(wǎng)絡(luò)結(jié)構(gòu)本身的原因，增加了模型計算運行的時間。

（3）綜合上面兩方面的原因，使得本文模型的檢測速度有所下降。

本文模型的檢測速度相較于SSD模型有所上升的原因在于模型結(jié)構(gòu)基于MobileNet的基本思想，使用可分離的卷積在模型計算的延遲度和準確率之間達到有效的平衡，有效減少參數(shù)的同時兼顧模型大小，使得模型的計算速度有了一定的提升。

4 結(jié)束語

為了提升目標檢測的SSD模型的檢測準確率及檢測速度，滿足其在較低的硬件資源配置條件下也能達到一般性視頻流的檢測速度的要求，本文根據(jù)基本SSD 模型，結(jié)合輕量級的深層神經(jīng)網(wǎng)絡(luò)MobileNet的思想，構(gòu)建一種結(jié)合特征金字塔的多尺度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。結(jié)合反卷積操作、特征提取和區(qū)域映射、正負樣本處理等方法改善模型對中小型占比目標的檢測效果。實驗結(jié)果表明，本文模型模仿精確度優(yōu)于SSD 模型，且在較低的硬件配置條件下達到視頻流圖像處理的速度要求。在今后的研究工作中，將繼續(xù)優(yōu)化改進本文的網(wǎng)絡(luò)模型，盡可能多地嘗試其與更多的深度學(xué)習模型的思想相融合，進一步提升模型的檢測性能。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放